統計解析 第3回 第2章 中心的傾向の測度

統計解析
第3回 第2章 中心的傾向の測度
今日学ぶこと
• 中心的傾向
– 中央値
– 算術平均
– 最頻値
– 移動平均
中央値(メディアン、median)
25人の標本の同居家族数
1
0
4
0
6
1
7
1
1
0
0
1
0
1
1
3
3
1
2
1
6
0
3
0
4
少ない順に並べると
0000000111111111233344667
真ん中
中央
中央値 = 1
中央値 = 真ん中の人(もの)の値
中央値(メディアン、median)
6人の標本の同居家族数
1
0
4
0
6
2
少ない順に並べると
001246
真ん中
中央
中央値
中央値 = 1
それとも 2 ?
N個の標本を値の順に並べたとき
中央値 = (1 + 2) / 2 = 1.5
Nが奇数の場合
(N + 1) / 2番目の標本の値
Nが偶数の場合
(N / 2 番目の標本の値 + N / 2 +1番目の標本の値) / 2
連続変量の中央値
17.3
18人の標本の所有土地面積(平方メートル)
54.3
309.3943
430.8908
189.2709
71.32014293
228.1376
139.7397
17.338
427.4707
264.6121
172.7159713
54.27642
128.4835
528.6089
54.53822
63.04389
289.3790076
102.1777
279.8676
54.5
63
71.3
102.2
128.5
139.7
172.7
189.3
228.1
中央値 = (172.7 + 189.3) / 2
真ん中
離散変量も連続変量も中央値の計算方法は同じ
264.6
279.9
289.4
309.4
427.5
430.9
528.6
算術平均(arithmetic mean)
6人の標本の同居家族数
1
0
4
0
6
算術平均 = (1 + 0 + 4 + 0 + 6 + 2) / 6
= 13 / 6
= 2.16….
= 2.2 (例えば四捨五入の場合)
算術平均 = 値の合計 / 標本数
2
連続変量の算術平均
6人の標本の所有土地面積(平方メートル)
309.3
430.8
189.2
71.3
228.1
139.7
算術平均 = (309.3 + 430.8 + 189.2 + 71.3 + 228.1 + 139.7) / 6
= 1368.4 / 6
= 228.066….
= 228.1 (例えば四捨五入の場合)
離散変量も連続変量も算術平均の計算方法は同じ
ちょっと練習問題
5夫婦の子供の数
2, 0, 1, 0, 2
中央値: 0, 0, 1, 2, 2
平均値: (2+0+1+0+2)/5=1
4家庭の部屋の数
6, 3, 2, 4
中央値: 2, 3, 4, 6 → (3+4)/2=3.5
平均値: (6+3+2+4)/4=15/4=3.8
5人の所持金(万円)
2.22, 3.89, 1.07, 3.58, 1.38
中央値: 1.07, 1.38, 2.22, 3.89, 3,58
平均値: (2.22+3.89+1.07+3.58+1.38)/5
= 12.14/5 = 2.43
4人の借金(万円)
16.7, 182.4, 22.1, 481.1
中央値: 16.7, 22.1, 182.4, 481.1 → (22.1+182.4)/2 = 102.3
平均値: (16.7+182.4+22.1+481.1)/4 = 702.3/4 = 175.6
それぞれの中央値、(算術)平均値は?
中央値と平均値
人
年収
年収(万円)
4000
社員A
200
社員B
200
3000
社員C
200
2500
3500
合計
4100
平均
1025
(万円)
社長
3500
2000
年収
1500
1000
500
0
社員A
平均を見るのがよいか? 中央値を見るのがよいか?
社員B
社員C
社長
離散変量の度数分布表からの中央値
同居家族数に対する度数分布表
変量の値
度数
相対度数
累積度数
0
7
0.233333
7
1
9
0.3
16
2
5
0.166667
21
3
4
0.133333
25
4
2
0.066667
27
5
0
0
27
6
2
0.066667
29
7
1
0.033333
30
真ん中は
15人目
と
16人目
中央値 = (15人目の値 + 16人目の値) / 2
= (1 + 1) / 2
=1
連続変量の度数分布表からの中央値
一人あたりの土地所有面積の度数分布表
級間隔
真の級限界
級中央値
度数
累積度数
(平方メートル)
(平方メートル)
(平方メートル)
1-100
0.5-100.5
50.5
10
10
101-200
100.5-200.5
150.5
9
19
201-300
200.5-300.5
250.5
5
24
301-400
300.5-400.5
350.5
2
26
401-500
400.5-500.5
450.5
3
29
501-600
500.5-600.5
550.5
1
30
19人
15.5人
真ん中は15.5人目とする。
35
30
25
累
積 20
度 15
数
10
5
10人
100.5
0
1
2
3
4
5
6
100.5
200.5
300.5
400.5
500.5
600.5
200.5
土地面積(平方メートル)
?
200.5 – 100.5 : 19 – 10 = ? – 100.5 : 15.5 – 10
一人あたりの土地所有面積の累積度数図
100 : 9 = ? – 100.5 : 5.5
? = 5.5×100
/ 9 + 100.5 = 161.61… = 161.6
離散変量の度数分布表からの
算術平均
変量の値
度数
変量の値×度数
0
7
0
1
9
9
2
5
10
3
4
12
4
2
8
5
0
0
6
2
12
7
1
7
30
58
度数の合計→
算術平均
0+0+0+0+0+0+0
+1+1+…
面倒くさい
←変量の合計
平均 = 58 / 30 = 1.9
連続変量の度数分布表からの
算術平均
級間隔
真の級限界
級中央値
度数
(平方メートル)
(平方メートル)
(平方メートル)
0-100
0-100
50.5
10
505
100-200
100-200
150.5
9
1354.5
200-300
200-300
250.5
5
1252.5
300-400
300-400
350.5
2
701
400-500
400-500
450.5
3
1351.5
500-600
500-600
550.5
1
550.5
30
5715
度数の合計→
級中央値
×度数
平均 = 5715.0 / 30 = 190.5
級中央値×度数の合計を
値の合計と見なす
ちょっと練習問題
年収(万円)
真の級限界
度数
累積度数
~1000
0-1000
2
2
~5000
1000-5000
3
5
真ん中は2.5人目
5人
2.5人
2人
1000
?
5000
5000 – 1000 : 5 – 2 = ? – 1000 : 2.5 – 2
4000 : 3 = ? – 1000 : 0.5
? = 4000×0.5 / 3 + 1000 = 1666.66… = 1670
最頻値(モード、mode)
最頻値 = 最も頻繁に起こった値
変量の値
度数
0
7
1
9
2
5
3
4
4
2
5
0
6
2
7
1
一番多い
最頻値 = 1
移動平均
期
売り上げ(100個)
1
9
2
17.6
3
20.1
4
7
5
8.8
6
18.4
7
13.3
8
6.2
9
7.3
10
21.5
11
12.9
12
6.5
売 25
り
上 20
げ
15
(
1
10
0
0 5
個
) 0
1
2
3
4
5
6
7
期
たとえば、季節変動がある場合、(季節家電の売り上げなど)
年ごとの傾向はわかりずらい
8
9
10 11 12
移動平均
期
売り上げ(100個)
1
9
2
17.6
3
20.1
4
7
5
8.8
6
18.4
7
13.3
8
6.2
9
7.3
10
21.5
11
12.9
12
6.5
13.425
13.375
←1期から4期の算術平均
←2期から5期の算術平均
13.575
11.875
11.675
11.3
12.075
11.975
12.05
25
売
り 20
上
げ 15
( 10
百
個 5
)
0
1
2
3
4
5
6
7
期
年ごとに減っていることがよくわかる
8
9 10 11 12
おわり