データサイエンス基本(欠損値の確認と相関関係を調べる)-Pythonとjupyter-
データサイエンスを学ぶために、SIGNATEを始めました。
その中でjupyterでpythonのコマンドを入力するにあたり、復習も兼ねてメモしてみました。
見てくださった方のお役に立てたら幸いです。
欠損値を確認する
欠損値か否か出力する
AAA.isnull()
※欠損値の場合、Trueと表示される
各列にTrueが1つ以上あるかないか調べる
AAA.isnull().any()
1つ以上欠損値を含む場合、Trueと表示される
欠損値が各列にいくつあるか調べる
AAA.isnull().sum()
欠損値に0で補間する
AAA.fillna(0)
欠損値を削除する
AAA.dropna()
指定列に欠損値がある場合のみ、その行を削除する
AAA.dropna(subset=["y"])
念押しで欠損値がなくなっているか確認する
AAA.precipitation
相関関係を調べる
AとBの相関関係を調べる
AAA[["A","B"]].corr()
プログラムでは自動で欠損値の行を削除して計算する
相関関係と因果関係は別
気温が上がると売上が上がる⇨正の相関関係・気温が下がると売上が下がる⇨負の相関関係という
1は対角線、見るのは対角線ではない方の数値。1に近ければ度合いが高く、遠ければ度合いが低い。マイナスは負の相関・プラスは正の相関です
散布図を描く
AAA.plot.scatter(x="A",y="B",figsize=(5,5))
※figsizeはグラフのサイズの為、見やすいサイズにする
x軸が増えれば、y軸が増える場合⇨正の相関・x軸が減れば、y軸が減る場合⇨負の相関・どちらかが増えたり、減ったりしても片方が動かない場合は相関がない