分散・標準偏差

分散・標準偏差
数学 I・A 補完ノート
http://mhidet.web.fc2.com/text/
1 分散と標準偏差
範囲や四分位範囲はデータを大きさの順に並べて,その中の 2 つの値の差を散らばりの大きさとみる指標であ
る.ここでは,データの値をすべて用いてデータの散らばりの度合いを表すことを考えよう.
変量 x について,n 個のデータの値が,x1 ,
x2 ,
x3 , · · · · · · , xn とする.x1 ,
x2 ,
x3 , · · · · · · , xn の平均を
x とするとき,平均とデータの差
x1 − x,
x2 − x,
x3 − x, · · · · · · , xn − x
を偏差という.偏差の平均はいつでも
}
}
1{
1{
(x1 − x) + (x2 − x) + (x3 − x) + · · · · · · + (xn − x) =
(x1 + x2 + x3 + · · · · · · + xn ) + nx
n
n
1
= (x1 + x2 + x3 + · · · · · · + xn ) − x
n
=x−x
=0
である.よって,偏差の平均値ではデータの散らばり度合いを表すことができない.そこで,偏差の 2 乗の平均,
すなわち,
}
1{
(x1 − x)2 + (x2 − x)2 + (x3 − x)2 + · · · · · · + (xn − x)2
n
を考える.この値を分散といい,s2 で表す.
分散はデータの散らばり具合を示す量であり,データの各値が平均値から離れるほど大きな値となる.
変量 x の測定単位が例えば,cm であるとき,分散は cm2 となる.そこで,変量 x の測定単位と同じ単位であ
√
る s2 を散らばりの度合い表す量として用いることが多い.これを標準偏差といい,s で表す1 .
✓
✏
変量 x についてのデータを x1 ,
とき,
x2 ,
x3 , · · · · · · , xn とする.データの分散を s2 ,標準偏差を s とする
}
1{
(x1 − x)2 + (x2 − x)2 + (x3 − x)2 + · · · · · · + (xn − x)2
n
√ {
}
1
s=
(x1 − x)2 + (x2 − x)2 + (x3 − x)2 + · · · · · · + (xn − x)2
n
s2 =
✒
1 分散を
σ 2 ,標準偏差を σ とギリシャ文字「シグマ」で表すことも多い.
1
✑
分散 s2 は,次のような変形ができる.
}
1{
s2 =
(x1 − x)2 + (x2 − x)2 + (x3 − x)2 + · · · · · · + (xn − x)2
n
}
1{ 2
=
(x1 − 2x1 x + (x)2 ) + (x2 2 − 2x2 x + (x)2 ) + (x3 2 − 2x3 x + (x)2 ) + · · · · · · + (xn 2 − 2xn x + (x)2 )
n
}
1{ 2
(x1 + x2 2 + x3 2 + · · · · · · + xn 2 ) − 2x(x1 + x2 + x3 + · · · · · · + xn ) + n(x)2
=
n
1
1
= (x1 2 + x2 2 + x3 2 + · · · · · · + xn 2 ) − 2x · (x1 + x2 + x3 + · · · · · · + xn ) + (x)2
n
n
= x2 − 2x · x + (x)2
= x2 − (x)2
ただし,x2 は,x1 2 , x2 2 ,
x3 2 , ······ ,
xn 2 の平均である.すなわち,
(分散) = (x2 の平均値) − (x の平均値)2
と表せる. データの散らばりが大きいとは,平均値から離れたデータが多くあることを意味する.したがって,データの
散らばりが大きければ大きいほど分散の値も大きくなる.
• よく学力試験などで,その得点のおおよその位置を表すのに,
「偏差値」という指標を用いることがある.偏
差値は日本では,次の値が広く用いられる.
(偏差値) = (得点) − (平均点)
+ 50
(標準偏差)
で 50 を基準として,その数値によっておおよその位置を把握する方法である.理論上,偏差値は負の値や
100 を超えることもある.平均値を軸として,ほぼ左右対称となるような分布では,偏差値が 40 から 60 の
間におよそ 68%,30 から 70 の間におよそ 95%,20 から 80 の間におよそ 98% が含まれていることが知ら
れている.
2 外れ値
データを整理するとき,多くのデータが集まっている区間から極端に離れた値が見られることがある.このよ
うな値を外れ値という.外れ値は分析の対象とした集団とは別の集団から得られた値であると判断されたり,測定
のミスであると判断されることが多い.多くのデータが集まっている区間から極端に離れた値が外れ値かどうか
を判定する目安として,データの上位境界値と下位境界値が使われることがある.
上位境界値
(上位境界値) = Q3 + 1.5 × (Q3 − Q1 )
下位境界値
(下位境界値) = Q1 − 1.5 × (Q3 − Q1 )
また,データの散らばり方を表す指標の一つである分散はデータの個数に依存しないデータ 1 個あたりの平均
からの距離の 2 乗を表している.標準偏差は,分散の正の平方根なので,元のデータと同じ単位を持ち,データ 1
個当たりの散らばりの大きさの指標と考えることができる.一般に,
x±s
の区間をそのデータの中心の傾向と考え,
x ± 3s
の区間から外れるようなデータは,全体の傾向から外れ値として注意を払う必要がある.
外れ値が含まれていると,そのデータの値に大きく影響を受けて,平均値や分散,標準偏差の値が大きくなり
すぎたり,あるいは小さくなりすぎたりして,データの解釈を誤る可能性があるので,注意しなければいけない.
2
3 演習問題
1. 次のデータは高校 1 年生男子 10 人の身長のデータである.このデータの分散,標準偏差を求めよ.なお,小
数第 3 位を四捨五入し,小数第 2 位まで求めよ.
169.3,
168.0,
171.5,
156.0,
171.7,
161.9,
171.7,
163.1,
163.5,
164.0
2. 20 人にあるテストを実施した結果,平均点が 50.25 であった.20 人のそれぞれの得点を 0.5 倍して 50 点を
加えたとき,分散の値は 82.6 となった.このとき,
(a) 20 人のそれぞれの得点を 0.5 倍して 50 点を加えたデータの平均を求めよ.
(b) 元のデータの分散を求めよ.
3