2 - 金沢学院大学

分散と標準偏差
経営統計演習の補足資料
2015年10月19日
金沢学院大学経営情報学部
藤本祥二
量的データの分析(前期復習)
• データ全体の様子(分布)を知ることが目的
• 度数分布,ヒストグラムを描き形状を見る
1.単峰性,2.ピークの位置と散らばり具合,
3.左右対称性,4.外れ値の存在
• 数値で分布を要約する
基本統計量:分布の特徴を表す数値
– 代表値(分布の中心を表す数値)
– 散布度(分布のばらつき具合を表す数値)
基本統計量
• 基本統計量:分布の特徴を表す数値
• 代表値(分布の中心を表す数値)
– 平均値(mean, average)
– 中央値(median)
– 最頻値(mode)
前期にやった
3級教科書では5章
• 散布度(分布のばらつき具合を表す数値)
–
–
–
–
分散(偏差平方平均,variance)
標準偏差(standard deviation)
範囲(レンジ,range)
四分位範囲(inter quartile range, IQR)
今回の話
3級教科書の7章
前期にやった
3級教科書では6章
• その他の分布の形を表す数値
– 歪度(ひずみ度,わい度,skewness)
– 尖度(とがり度,せん度,kurtosis)
統計検定2級以降
散布度
• 平均とデータの差である偏差(𝑑𝑖 = 𝑥𝑖 − 𝑥)
から計算した散布度
– 分散
– 標準偏差
– 平均偏差
• データの個数の割合から計算した散布度
(中央値の拡張)
– 範囲(レンジ)
– 四分位範囲
平均値(算術平均)の復習
エックスバー
• 𝑛個のデータ 𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 の平均を 𝑥 の記号で表す
(平均を𝑚や𝜇の文字を用いて表してる本も多い)
1
𝑥 = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑛
データ数𝑛で
等分する
合計を
• 和の記号Σを用いた書き方
1
𝑥=
𝑛
𝑛
𝑥𝑖
𝑖=1
平均のイメージ
• 数直線の釣り合いの位置
例)𝑛 = 4, 𝑥1 = 5, 𝑥2 = 2, 𝑥3 = 8, 𝑥4 = 9
𝑥=
0
1
1
24
𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 = 5 + 2 + 7 + 9 =
=6
4
4
4
𝑥2
2
𝑥1
5
𝑥
6
𝑥3
8
𝑥4
9
実際に𝑥1 , 𝑥2 , 𝑥3 , 𝑥4 の位置に同じ重さの重りを置いて,𝑥 の位置を支点にすると,
てこの原理で支点の左右にかかる力による釣り合いがとれる
偏差
データの値-平均値
𝑑𝑖 = 𝑥𝑖 − 𝑥
を「偏差(deviation)」という
𝑑4
𝑑2
0
𝑥2
2
𝑑3
𝑑1
𝑥1
5
各偏差は中心(平均)からの
広がりを表してるので,
全偏差の平均がバラツキの指標
になりそう.
そのまま平均するのはダメ(理由⇒)
𝑥3
8
𝑥
6
4
𝑥4
9
前期にやった釣り合いの話
𝑑1 = 𝑥1 − 𝑥 = 5 − 6 = −1
𝑑2 = 𝑥2 − 𝑥 = 2 − 6 = −4
𝑑3 = 𝑥3 − 𝑥 = 8 − 6 = 2
𝑑4 = 𝑥4 − 𝑥 = 9 − 6 = 3
𝑑𝑖 = 𝑑1 + 𝑑2 + 𝑑3 + 𝑑4 = 0
𝑖=1
偏差の合計は0になっちゃう
どんなデータでも偏差の合計は0
• 𝑛 = 4のとき
両辺4倍すると
𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 = 4𝑥
1
𝑥 = 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4
4
• 偏差 𝑥𝑖 − 𝑥 の合計は必ず0
𝑥1 − 𝑥 + 𝑥2 − 𝑥 + 𝑥3 − 𝑥 + 𝑥4 − 𝑥
= 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 − 4𝑥 足し算の順番変える
= 4𝑥 − 4𝑥 = 0
𝑥𝑖 の中にどんな数値が入ってても成り立つ
偏差の合計(一般の場合)
• 一般の𝑛の時
1
𝑥=
𝑛
𝑛
両辺𝑛倍すると
𝑛
𝑥𝑖
𝑥𝑖 = 𝑛𝑥
𝑖=1
𝑖=1
• どんなデータでも偏差の合計は必ず0になる
𝑛
和の記号Σの公式
𝑛
𝑥𝑖 − 𝑥 =
𝑖=1
𝑛
𝑥𝑖 − 𝑥
𝑖=1
= 𝑛𝑥 − 𝑥 𝑛 = 0
1=𝑛
1
𝑖=1
𝑛
𝑖=1
散布度を表す指標(教科書P74)
• 偏差の平均
1
𝑛
𝑛
𝑥𝑖 − 𝑥 = 0
𝑖=1
• 偏差の絶対値の平均(平均偏差という)
1
𝑛
𝑛
𝑥𝑖 − 𝑥
𝑖=1
どのようなデータでも偏差を足しあげると
+の偏差と-の偏差が相殺されて
必ず0になるため
散布度を表す指標に使えない。
絶対値を取って全て正の量にしてから
足しあげる。
しかし平均偏差はあまり使われない。
(データの値によって場合分け
が必要で代数学的には扱い難い)
• 偏差の2乗の平均(分散という)
1
𝑛
𝑛
𝑥𝑖 − 𝑥
𝑖=1
2
2乗することで全て正の量にしてから
足しあげる。
分散は散布度を表すのに良く使われる。
(代数学的な扱いが容易)
分散と標準偏差
• 分散(variance)
「偏差の2乗の平均」のこと
データのバラツキ具合を表す良く使う量なので「分散」という名前がついてる
1
2
𝑠 =
𝑛
𝑛
𝑥𝑖 − 𝑥
2
𝑖=1
• 標準偏差(standard deviation)
「分散のルート」のこと
データ全体の偏差にある種の標準化を行って一つの量で表現したもの
𝑠=
𝑠2
=
1
𝑛
𝑛
𝑥𝑖 − 𝑥
𝑖=1
2
ギリシャ文字𝜎で
標準偏差を表す
本も多い
分散は偏差を2乗した量の平均なので,単位は元データの量の単位の2乗になってる
元データの単位と同じ単位にするためにルート(平方根)を取る
表を使った計算例
4個のデータ 5, 2, 8, 9 の例
データ
番号𝒊
データ
𝒙𝒊
偏差
𝒙𝒊 − 𝒙
偏差の絶対値
𝒙𝒊 − 𝒙
1
𝑥1 = 5
𝑥1 − 𝑥 = −1
𝑥1 − 𝑥 = 1
𝑥1 − 𝑥
2
𝑥2 = 2
𝑥2 − 𝑥 = −4
𝑥2 − 𝑥 = 4
𝑥2 − 𝑥
3
𝑥3 = 8
𝑥3 − 𝑥 = 2
𝑥3 − 𝑥 = 2
𝑥3 − 𝑥
2
=4
4
𝑥4 = 9
𝑥4 − 𝑥 = 3
𝑥4 − 𝑥 = 3
𝑥4 − 𝑥
2
=9
4
4
𝑖=1
4
平均
4
𝑥𝑖 = 24
合計
1
4
𝑖=1
𝑥𝑖 − 𝑥 = 0
𝑖=1
4
𝑥𝑖 = 6
↑
データの平均
𝑥=6
1
4
偏差の2乗
𝒙𝒊 − 𝒙 𝟐
𝑖=1
𝑥𝑖 − 𝑥 = 10
↑
偏差の平均
0
1
4
= 16
𝑥𝑖 − 𝑥
2
= 30
𝑖=1
4
𝑥𝑖 − 𝑥 = 2.5
𝑖=1
2
=1
4
𝑖=1
4
𝑥𝑖 − 𝑥 = 0
2
↑
平均偏差
2.5
1
4
𝑥𝑖 − 𝑥
2
= 7.5
𝑖=1
↑
分散(偏差2乗の平均)
𝑠 2 = 7.5
標準偏差
𝑠 = 7.5 ≒ 2.7386
分散と標準偏差のイメージ
−𝑠
偏差は − 4
0
𝑥2
2
−1
𝑥1
5
𝑠 ≒ 2.7386
3
2
𝑥=6
𝑥3
8
𝑥4
9
1
4
偏差2乗(面積)
−4 2 = 16
9
偏差2乗(面積)の平均が分散
1
30
2
𝑠 = 16 + 1 + 4 + 9 =
= 7.5
4
4
前ページの続き
分散(面積)
𝑠 2 = 7.5
標準偏差(一辺)
𝑠 = 7.5 ≒ 2.7386
• 分散の単位は元のデータの単位の2乗
(元データがcmの単位ならcm2の単位)
(元データがkgの単位ならkg2の単位)
• 標準偏差は平方根を取って元データの
単位に戻したもの
• 分散や標準偏差は偏差を元に計算した
バラツキを表す指標(散布度)
分散公式
• 分散の定義は偏差2乗の平均
𝑛
1
𝑠2 =
𝑥𝑖 − 𝑥 2
𝑛
𝑖=1
• 右辺は次のように変形できる
データの2乗の平均を表す記号
𝑛
↓
1
𝑠2 =
𝑥𝑖2 − 𝑥 2 = 𝑥 2 − 𝑥 2
𝑛
↑
𝑖=1
データの平均の2乗
↑
データの2乗の平均
分散 = 偏差の2乗の平均 = データの2乗の平均 - データの平均の2乗
分散公式の証明
• 𝑛 = 3の時
1
𝑥 = 𝑥1 + 𝑥2 + 𝑥3
3
1
2
𝑠 =
𝑥1 − 𝑥 2 + 𝑥2 − 𝑥 2 + 𝑥3 − 𝑥 2
3
1
=
𝑥12 − 2𝑥𝑥1 + 𝑥 2 + 𝑥22 − 2𝑥 𝑥2 + 𝑥 2
3
+ 𝑥32 − 2𝑥𝑥3 + 𝑥 2
公式を使う
𝑎−𝑏
2
= 𝑎2 − 2𝑎𝑏 + 𝑏2
前ページの続き
1 2
= 𝑥1 + 𝑥22 + 𝑥32 − 2𝑥 𝑥1 − 2𝑥 𝑥2 − 2𝑥 𝑥3 + 𝑥 2 + 𝑥 2 + 𝑥 2
3
1
=
3
𝑥12 + 𝑥22 + 𝑥32 − 2𝑥 𝑥1 + 𝑥2 + 𝑥3 + 3𝑥 2
1 2
1
2
2
= 𝑥1 + 𝑥2 + 𝑥3 − 2𝑥 ∙ 𝑥1 + 𝑥2 + 𝑥3 + 𝑥 2
3
3
平均𝑥
1 2
1
2
2
2
= 𝑥1 + 𝑥2 + 𝑥3 − 𝑥 =
3
3
3
𝑥𝑖2 − 𝑥 2
𝑖=1
分散公式の証明
•
一般の𝑛の時
𝑥=
1
𝑛
𝑠2 =
1
=
𝑛
1
=
𝑛
=
1
𝑛
1
=
𝑛
𝑛
𝑥𝑖
𝑖=1
𝑛
1
𝑛
𝑛
𝑖=1
𝑛
𝑖=1
𝑛
𝑥𝑖 − 𝑥
𝑖=1
1
𝑥𝑖2 +
𝑛
2
𝑛
𝑖=1
1
𝑥𝑖2 − 2𝑥 ∙
𝑛
=
1
𝑛
𝑛
𝑥𝑖2 − 2𝑥 𝑥𝑖 + 𝑥 2
𝑖=1
1
−2𝑥 𝑥𝑖 +
𝑛
𝑛
𝑖=1
𝑥𝑖2 − 𝑥 2
𝑖=1
1
∙𝑛
𝑛
前回の公式1
和の記号の分配則
𝑥2
𝑖=1
1
𝑥𝑖 + 𝑥 2 ∙
𝑛
𝑥𝑖2 − 2𝑥 ∙ 𝑥 + 𝑥 2 ∙
𝑖=1
𝑛
𝑛
𝑛
1
𝑖=1
前回の公式2
定数のすり抜け
分散公式を使った計算例
4個のデータ 5, 2, 8, 9 の(先と同じ)例
データ
番号𝒊
データ
𝒙𝒊
データの2乗
𝒙𝟐𝒊
1
𝑥1 = 5
𝑥12 = 25
2
𝑥2 = 2
𝑥22 = 4
3
𝑥3 = 8
𝑥32 = 64
4
𝑥4 = 9
𝑥42 = 81
4
4
𝑖=1
4
平均
𝑥𝑖2 = 174
𝑥𝑖 = 24
合計
1
4
𝑖=1
4
𝑥𝑖 = 6
𝑖=1
↑
データの平均
𝑥=6
1
4
𝑥𝑖2 = 43.5
𝑖=1
↑
データの2乗の平均
𝑥 2 = 43.5
分散公式を使うと
𝑠2 = 𝑥2 − 𝑥2
= 43.5 − 36
= 7.5
当然だが先ほどの分散の計算と
同じ結果