Written By mathew

【Udemy】Pythonによるビジネスに役立つWebスクレイピング(BeautifulSoup、Selenium、Requests)メモ①

ALL DataScience Study

Pythonによるビジネスに役立つWebスクレイピング(BeautifulSoup、Selenium、Requests)を学んでのメモ①

https://www.udemy.com/course/python-web-scraping-with-beautifulsoup-selenium-requests/

備忘録でメモしていきます。

Jupyter Notebook

セルを消す。escキー押してコマンドモードにした上で、Dを2回。
セルを上に増やす。escキー押してコマンドモードにした上で、Aを1回。
セルを下に増やす。escキー押してコマンドモードにした上で、Bを1回。
コメントに変える。対象のコードを選択して、「control+/」。
入力モードを「Markdown」や「Code」にする。「esc」+「M」/「C」。

Pandas

◆Pandas read_html。指定されたURL上の表(tableタグ)を取得する。
pd.read_html(URL,その他任意の引数)

主な引数
URL/必須/読み込み対象のURL
header/任意/ヘッダーに指定する行
index_col/任意/インデックス(行)に指定する列
skiprows/任意/読み飛ばす行数

◉取得データに不要な文字列の行を取得した場合
◆取得した行に不要な文字列がある場合(文字列を数値に変換する)
pandas.to_numeric(arg,errors)
主な引数
arg/必須/変換したいseries,listなど
errors/任意/エラー発生時の処理、’raise’:例外を発生させる/’coerce’:NaNを設定/’ignore’:数値変換を行わない/何も指定しないと’raise’

◆NaNが含まれている行を削除する
DataFrame.dropna(axis,inplace)
主な引数
axis/任意/0:欠損値を含む行を削除、1:欠損値を含む列を削除
inplace/任意/True:実行結果がDataFrameに保存される、False:DataFrameには実行結果が保存されない。

◉列Dateに格納されている日付が、文字列になっていて、時系列にグラフを表示できない。
◆文字列を日付型に変換する
datetime.strptime(文字列,日付の書式)
主な引数
文字列/必須/日付型に変換したい文字列
日付の書式/必須/文字列の書式を次の記号で指定(文字列がどのような書式で書かれているかを指定)
%b:月名の短縮形Aprなど/%d:0埋めした10進数の日にち(01,02など)/%Y:西暦4桁の10進数表記(2019,2020など)

◆for文から取得した要素をリストに格納する
[処理 for 変数 in リスト]

◆DataFrameにインデックスを設定する
DataFrame.set_index(列名,任意の引数)
主な引数
列名/必須/インデックスを設定する列名
inplace/任意/True:実行結果がDataFrameに保存される、False:DataFrameに実行結果が保存されない

◆データ型を確認する
DataFrame.dtype

◆DataFrameからグラフを描画する
DataFrame.plot(任意の引数)
主な引数
title/任意/グラフのタイトル
grid/任意/目盛り戦の表示有無
kind/任意/グラフの種類。何も指定しなければ’line’
‘line’:折れ線グラフ、’bar’:棒グラフ、’scatter’:散布図、’pie’:円グラフ

◆DataFrameをCSVファイルに出力する
DataFrame.to_csv(保存先のディレクトリ+CSVファイル名)
※保存先のディレクトリを省略すると現在使用しているディレクトリに自動保存される