Written By mathew

データサイエンス基本(分散と標準偏差)-統計学-

ALL DataScience Study

データサイエンスを学ぶために、基礎的な統計学を学びました。
復習も兼ねてメモしてみました。

見てくださった方のお役に立てたら幸いです。
データの散らばりやバラツキを知りたい。
平均身長170cmは、160~180なのか150~210なのか。そんな時に使用する分散と標準偏差を学びました。

分散と標準偏差

分散の計算 分散={(偏差の2乗)の合計}/(データ数)
標準偏差の計算 標準偏差=√分散=偏差の2乗平均
度数分布表からの分散の計算 分散=(階級値-平均値)の2乗×(相対度数)の合計
標準偏差の意味 まず平均値はデータ分布の代表的な数として取得したもの。
データは平均値を起点として、その前後に広がっていると考える。
その広がり・散らばりは平均値からはわからない。
標準偏差は、データの平均値からの離れ方を平均したもの。
その離れ方で、広がり・散らばりを評価する。
大きい・小さい方関係なく、どちらも正の数として評価し、打ち消し合わないように平均させている。