分散と標準偏差(PowerPoint ファイル) - MACS

数学Ⅰ
データの分析③
データの分析
分散と標準偏差
偏差
変量 𝑥 について、データの値が、 𝑛 個の値
𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 であるとする。
𝑥𝑛 の平均値を 𝑥とするとき、
𝑥1 − 𝑥, 𝑥2 − 𝑥, ⋯ , 𝑥𝑛 − 𝑥
を、それぞれ 𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 からの偏差という。
偏差の平均は、次の計算のように、常に 0 となる。
1
{ 𝑥1 − 𝑥 + 𝑥2 − 𝑥 + ⋯ + 𝑥𝑛 − 𝑥 } = 𝑥 − 𝑥 = 0
𝑛
分散・標準偏差
偏差の平均値では、データの散らばりの度合いを
表すことができない。そこで、偏差の2乗の平均
1
𝑥1 − 𝑥 2 + 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥 2
𝑛
を考える。
この値をデータの分散といい、𝑠 2 で表す。
また、 𝑠 2 をデータの標準偏差といい、𝑠 で表す。
分散と標準偏差
分散
𝒔𝟐
𝟏
= { 𝒙𝟏 − 𝒙
𝒏
標準偏差 𝒔 =
𝟏
{ 𝒙𝟏 − 𝒙
𝒏
𝟐
+ 𝒙𝟐 − 𝒙
𝟐
+ 𝒙𝟐 − 𝒙
𝟐
+ ⋯ + 𝒙𝒏 − 𝒙
𝟐
+ ⋯ + 𝒙𝒏 − 𝒙
※標準偏差を 𝑠 でなく、𝜎(シグマ)で表すときもある。
𝟐
𝟐
分散・標準偏差:例題
10人の生徒の右手の握力 𝑥 (kg) のデータが、下の表で
与えられている。平均は 𝑥 =
x
偏差の二乗
22
9
22
9
23
4
24
1
2
分散 𝑠 は
標準偏差 𝑠 は
1
10
25
0
× 250 = 25(kg)である。
25
0
26
1
27
4
27
4
1
𝑠 =
× 48 = 4.8
10
𝑠 = 4.8 ≒ 2.2 (kg)
2
29 計 250
1 6 計 4 8
練習問題9
5人の小テストの得点 𝑥が次のように与えられている。
5 7 5 10 8
このデータの分散 𝑠 2 と標準偏差 𝑠 を求めよ。
x
偏差の二乗
5
4
2
分散 𝑠 は
標準偏差 𝑠 は
7
0
5
4
10
9
8 計 3 5
1 計 1 8
平均
7
1
𝑠 = × 18 = 𝟑. 𝟔
5
𝑠 = 3.6 ≒ 𝟏. 𝟗 (𝐤𝐠)
2
分散の計算
1
𝑠 =
𝑥1 − 𝑥 2 + 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛
1
=
𝑥12 + ⋯ + 𝑥𝑛2 − 2𝑥(𝑥1 + ⋯ + 𝑥𝑛 ) + 𝑛 𝑥
𝑛
2
2
2
1 2
1
2
= 𝑥1 + ⋯ + 𝑥𝑛 − 2𝑥 ⋅ 𝑥1 + ⋯ + 𝑥𝑛 + 𝑥
𝑛
𝑛
= 𝑥 2 − 2𝑥 ⋅ 𝑥 + 𝑥 2
= 𝑥2 − 𝑥 2
2
分散と標準偏差
𝒙 の分散 = 𝒙𝟐 の平均値 − 𝒙 の平均値
𝒙 の標準偏差 =
𝟐
𝒙𝟐 の平均値 − 𝒙 の平均値
例:練習問題9について
𝟐
1 2
𝑠 = 5 + 72 + 52 + 102 + 82 − 72 = 52.6 − 49 = 3.6
5
2
練習問題10
以下のテスト A, B, C について、以下の問いに答えよ。
テストA
1
1
2
2
3
3
4
4
4
5
5
5
6
6
6
7
8
8
9 10
4
4
4
4
4
5
5
5
5
5
5
5
6
6
6
6
6
3
3
4
4
4
4
5
5
5
5
5
6
6
6
6
7
8 10
テストB
3
4
7
テストC
1
2
(1)それぞれの標準偏差を求めよ。
(2)これらのテストについて、標準偏差によって
データの平均値からの散らばりの度合いを比較せよ。
練習問題10(1)
どれも平均値は 4.95 点である。
テスト 𝐴, 𝐵, 𝐶 の標準偏差をそれぞれ 𝑠𝐴 , 𝑠𝐵 , 𝑠𝐶 とすると
𝑠𝐴 =
1 2
1 + ⋯ + 102 − 4.952 =
20
30.85 − 4.952 ≒ 2.5(点)
𝑠𝐵 =
1 2
3 + ⋯ + 72 − 4.952 =
20
25.45 − 4.952 ≒ 1.0(点)
𝑠𝐶 =
1 2
1 + ⋯ + 102 − 4.952 =
20
28.45 − 4.952 ≒ 2.0(点)
練習問題10(2)
テストA
テストB
テストC
7
B, C, A の順で散らばりの度合いが大きくなる。
6
5
5
4
3
2
2
3
3
2
2
1
0
0
1
2
3
4
5
4
6
7
8
2
1
1
9
10
𝑠𝐴 = 2.5(点),
0
0
0
0
1
2
1
3
1
4
5
6
7
0
0
0
0
8
9
10
0
𝑠𝐵 = 1.0(点),
1
1
1
2
3
4
5
6
1
1
7
8
0
9
𝑠𝐶 = 2.0(点)
1
10
偏差値
𝟏𝟎 𝒙 − 平均値
𝒙 の偏差値 =
+ 𝟓𝟎
(標準偏差)
偏差値は、平均値を 50、標準偏差を 10 に調整している。
そのため、 40 ~ 60 が約 68%、30 ~ 70 が約 95%、
20 ~ 80 が約 99.7%、10 ~ 90 が約 99.9 %に収まる。
60 以上 あるいは 40 以下 は全体の 15.866%、
70 以上 あるいは 30 以下 は全体の 2.275%、
80 以上 あるいは 20 以下 は全体の約 0.135%である。
例えば、全受験生が100万人いた学力試験で偏差値を求めると、偏差
値80以上となる者は、ほぼ1350人となる。