Written By mathew

データサイエンス基本(データの特徴を見る)-統計学-

ALL DataScience Study

データサイエンスを学ぶために、基礎的な統計学を学びました。
復習も兼ねてメモしてみました。

見てくださった方のお役に立てたら幸いです。

データの特徴を見る

ステップ① データの中から最大値・最小値を見つける
ステップ② 最大値から最小値の範囲で5~8程度の小範囲(階級)を作る
例:身長のデータが40個ほどあり、最大値169/最小値142の場合は、170~141の間を5cm区切りで6等分する。
141~145/146~150/151~155/156~160/161~165/166~170のように。
ステップ③ 各階級を代表する数値を決める(階級値)
例:143/148/153/158/163/168のように。
ステップ④ 各階級に入るデータをカウントする(度数)
ステップ⑤ 各階級の度数の全体に占める割合を計算する(相対度数)
度数/全体のデータ数
相対度数を全て足すと1になる。
ステップ⑥ その階級までの度数を合計したものを計算する(累計度数)
例:階級値143の累計度数は度数1
階級値148の累計度数は階級値143の累計度数1+度数6で累計度数7
…と最大の階級値まで順々に計算していく。

まとめ

生のデータを特性が見えてくるデータに加工する。
データの特性が見えやすくするように「グラフ」や「統計量」を求める。
縦軸を度数/横軸を階級値とし、棒グラフ(ヒストグラム)で度数の分布が見えるようになる。(度数分布表)
そうすることでビジュアル的にデータの特徴が掴める。