データサイエンス基本(分散と標準偏差)-統計学-
データサイエンスを学ぶために、基礎的な統計学を学びました。
復習も兼ねてメモしてみました。
見てくださった方のお役に立てたら幸いです。
データの散らばりやバラツキを知りたい。
平均身長170cmは、160~180なのか150~210なのか。そんな時に使用する分散と標準偏差を学びました。
分散と標準偏差
分散の計算 | 分散={(偏差の2乗)の合計}/(データ数) |
標準偏差の計算 | 標準偏差=√分散=偏差の2乗平均 |
度数分布表からの分散の計算 | 分散=(階級値-平均値)の2乗×(相対度数)の合計 |
標準偏差の意味 | まず平均値はデータ分布の代表的な数として取得したもの。 データは平均値を起点として、その前後に広がっていると考える。 その広がり・散らばりは平均値からはわからない。 標準偏差は、データの平均値からの離れ方を平均したもの。 その離れ方で、広がり・散らばりを評価する。 大きい・小さい方関係なく、どちらも正の数として評価し、打ち消し合わないように平均させている。 |