Written By mathew

データサイエンス基本(欠損値の確認と相関関係を調べる)-Pythonとjupyter-

ALL DataScience Study

データサイエンスを学ぶために、SIGNATEを始めました。
その中でjupyterでpythonのコマンドを入力するにあたり、復習も兼ねてメモしてみました。

見てくださった方のお役に立てたら幸いです。

欠損値を確認する

欠損値か否か出力する

AAA.isnull()
※欠損値の場合、Trueと表示される

各列にTrueが1つ以上あるかないか調べる

AAA.isnull().any()
1つ以上欠損値を含む場合、Trueと表示される

欠損値が各列にいくつあるか調べる

AAA.isnull().sum()

欠損値に0で補間する

AAA.fillna(0)

欠損値を削除する

AAA.dropna()

指定列に欠損値がある場合のみ、その行を削除する

AAA.dropna(subset=["y"])

念押しで欠損値がなくなっているか確認する

AAA.precipitation

相関関係を調べる

AとBの相関関係を調べる

AAA[["A","B"]].corr()
プログラムでは自動で欠損値の行を削除して計算する
相関関係と因果関係は別
気温が上がると売上が上がる⇨正の相関関係・気温が下がると売上が下がる⇨負の相関関係という
1は対角線、見るのは対角線ではない方の数値。1に近ければ度合いが高く、遠ければ度合いが低い。マイナスは負の相関・プラスは正の相関です

散布図を描く

AAA.plot.scatter(x="A",y="B",figsize=(5,5))
※figsizeはグラフのサイズの為、見やすいサイズにする
x軸が増えれば、y軸が増える場合⇨正の相関・x軸が減れば、y軸が減る場合⇨負の相関・どちらかが増えたり、減ったりしても片方が動かない場合は相関がない