スライド 1

[6] 度数分布表とヒストグラム(5/22)
●平均と標準偏差(高校数学の復習)
●なぜ度数分布表が必要なのか
●階級数や階級幅の設定
●ローレンツ曲線と不平等度
●異常値の扱い
●ヒストグラムの作成法
●様々なヒストグラムの形
[6-0] 平均と標準偏差(高校数学の復習)
● n 個の観測値 x1 , x2 ,..., xn に対して
・平均値: a = ( x1  x2    xn ) / n
・標準偏差:
s = {( x1  a ) 2  ( x2  a) 2    ( xn  a) 2 } / n
[6-1] なぜ度数分布表が必要なのか
(仮想の話)
・高校3年生百万人に国語、英語、数学のテストを
行った
・どのような結果が教師にとって望ましいのか
[6-1a] 国語テスト得点の度数分布表
度数分布表1
得点
人数
0
1
10
133
20
4431
30
53990
40
241970
50
398950
60
241970
70
53990
80
4431
90
133
100
1
[6-1b] 度数分布表とヒストグラム
●度数分布表
・観測値ごとに、その観測値と同じ値を取る回数
(度数)を表にしたもの
・観測値ごとではなく観測値の範囲ごとに作成す
る場合の方が多い
●ヒストグラム
度数分布表をもとに、横軸に観測値ないし観測
値の範囲を取り、縦軸に度数をグラフに
[6-1c] 国語テスト得点のヒストグラム
[6-1d] 英語テスト得点の度数分布表
度数分布表2
得点
人数
0
90909
10
90909
20
90909
30
90909
40
90909
50
90910
60
90909
70
90909
80
90909
90
90909
100
90909
[6-1e] 英語テスト得点のヒストグラム
[6-1f] 数学テスト得点の度数分布表
度数分布表3
得点
人数
0
40000
10
100000
20
200000
30
100000
40
50000
50
20000
60
50000
70
100000
80
200000
90
100000
100
40000
[6-1g] 数学テスト得点のヒストグラム
[6-1h] 国語、英語、数学のテストの結果うちどれが
教師にとって望ましいのか
●答え:国語のテスト
●理由:国語の得点が 40 点から 60 点の人を対象に
授業を行うことで 88%の学生が適応できる
●得点が 40 点から 60 点の人は
・英語のテストでは 27%、
・数学のテストでは 12%しかいない
・数学のクラスは、10 点から 30 点の学生と 70 点
から 90 点の学生の2クラスに分けるべき
[6-2] 階級数や階級幅の設定
●たとえば、国語のテストの得点は、実際には10
点刻みではなく1点刻み
●1点刻みで度数分布表を作成すると該当する度数
が0となるケースが多くなるとともに、得点ごと
の度数が不規則に変動し、問題が発生
●したがって、実際には、1点刻みではなく得点の
幅ごと(階級幅)に度数を設定する場合が多い
●階級幅と階級数を設定する必要がある
[6-2a] 階級数や階級幅の設定
●階級数や階級幅の設定に統一的ルールはない
●階級数の目安としてはスタージェンスの公式
・観測数を n とし階級数を k とすると
k  1  log 2 n  1  (log10 n) /(log10 2)
「統計学入門」
(東大出版)22 頁
・n  100 では k  8 [11] ・n  1000 では k  11 [32]
・ n  10000 では k  14 [101] [ ]内は Excel
[6-2b] 階級数や階級幅の設定
(3つの留意点)
●留意点1:観測値が 50 点、60 点、70 点などの離
散型の場合は、ヒストグラムの柱の間
隔を空け、51~60 点、61~70 点などの
連続型の場合は柱の間隔を空けない
●留意点2:階級数や階級幅の設定でヒストグラム
の形が変わるので注意
[6-2c] 階級数や階級幅の設定
●留意点3:柱の面積が度数を反映するように高さ
0~
41~
40
60100
61~
を決める
度数分布表1
人数
0~20
10
21~40
20
41~60
40
61~80
20
81~100
10
度数分布表2
人数
0~40
30
41~60
40
61~100
30
40
30
20
10
0
0~20
40
30
20
10
0
21~40 41~60 61~80 81~100
[6-3] ローレンツ曲線と不平等度
・相対度数と累積度数
・ローレンツ曲線
・不平等度
[6-3-1] 相対度数と累積度数
ある試験得点の度数分布表
階級
階級値
度数
0~19点
20~39点
40~59点
60~79点
80~100点
10
30
50
70
90
10
20
40
20
10
相対度数 累積度数
0.1
0.2
0.4
0.2
0.1
10
30
70
90
100
累積相対
度数
0.1
0.3
0.7
0.9
1.0
[6-3-2] ローレンツ曲線
●累積相対度数を組み合わせて描かれた折れ線
A
B
C
D
E
英語試験の得点分布
累積相対
累積相対
人数
得点
度数
度数
1
0.2
50
0.2
1
0.4
50
0.4
1
0.6
50
0.6
1
0.8
50
0.8
1
1.0
50
1.0
A
B
C
D
E
国語試験の得点分布
累積相対
累積相対
人数
得点
度数
度数
1
0.2
10
0.04
1
0.4
30
0.16
1
0.6
50
0.36
1
0.8
70
0.64
1
1.0
90
1.00
A
B
C
D
E
数学試験の得点分布
累積相対
累積相対
人数
得点
度数
度数
1
0.2
0
0.00
1
0.4
0
0.00
1
0.6
50
0.20
1
0.8
100
0.60
1
1.0
100
1.00
受験者
受験者
受験者
1
0.8
得 0.6
点 0.4
0.2
0
0.0 0.2 0.4 0.6 0.8 1.0
人数
1.0
0.8
得 0.6
点 0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0
人数
1.0
0.8
得 0.6
点 0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0
人数
[6-3-3] 不平等度
●青線=45 度線、赤線=ローレンツ曲線
●不平等度=青線と赤線に囲まれた部分の面積×2
・0から1の間をとり、大きいほど不平等
・正式にはジニ係数と呼ばれる
[6-4] ヒストグラムの作成法
●絶対的な方法はないが、簡便な方法として以下の
2つの方法を考える
●平均と標準偏差をもとに作成する方法(方法1)
・長所:平均値を中心としたヒストグラムになる
・短所:平均値が偏っている場合は問題
●最大値と最小値をもとに作成する方法(方法2)
・授業で採用するが、細かすぎて全体的傾向を反
映しない場合もありうる
●階級数は奇数とする(偶数で間違いというのではない)
[6-4a] ヒストグラムの作成法
●方法1:平均と標準偏差をもとに作成する方法
S=標準偏差 K=階級数
~
平均値-S (K-2)/2
:
~
:
平均値-1.5S
~
平均値-0.5S
平均値-0.5S
~
平均値+0.5S
平均値+0.5S
~
平均値+1.5S
:
:
平均値+S(K-2)/2
~
[6-4b] ヒストグラムの作成法
●方法2:最大値と最小値をもとに作成する方法
D:階級幅 K:階級数
D =(最大値―最小値)/K
D =階級幅 K =階級数
~
最小値+D
最小値+D
~
最小値+2D
最小値+2D
~
最小値+3D
:
:
最小値+(K-2)D ~
最小値+(K-1)D
最小値+(K-1)D
~
[6-4c] ヒストグラムの作成法
●方法1が望ましくない場合(市区町村人口)
階級幅(人)
相対度数 0.7
~
43508
0.6115
0.6
43508
86086
0.1643
86086
128663
0.0744 0.5
128663
171241
0.0520 0.4
171241
213914
0.0322
0.3
213914
256492
0.0161
256492
299069
0.0135 0.2
299069
341647
0.0088 0.1
341647
384224
0.0073 0.0
384224
426802
0.0057
1 2 3 4 5 6 7 8 9 10 11
426802 ~
0.0140
方法1によるヒストグラム
階級幅(人)
相対度数 0.5
~ -365524
0
-365524 -269844
0 0.4
-269844 -174164
0
-174164
-78484
0 0.3
-78484
17196
0.37389
17196
112876
0.45138 0.2
112876
208556
0.10608
0.1
208556
304236
0.0338
304236
399916
0.01612
0
399916
495596
0.00988
1 2 3 4 5 6 7 8 9 10 11
495596 ~
0.00884
[6-4d] ヒストグラムの作成法
●方法2が望ましくない場合(市区町村持家率)
階級幅(%)
~
44.2
44.2
48.3
48.3
52.5
52.5
56.6
56.6
60.7
60.7
64.9
64.9
69.0
69.0
73.1
73.1
77.3
77.3
81.4
81.4 ~
階級幅(%)
~
7.6
7.6
20.2
20.2
32.9
32.9
45.6
45.6
58.3
58.3
70.9
70.9
83.6
83.6
96.3
96.3 ~
方法2によるヒストグラム
相対度数
0.16
0.07282 0.14
0.05982
0.12
0.05072
0.1
0.08973
0.08713 0.08
0.12094 0.06
0.10533 0.04
0.11834 0.02
0.13654
0
0.08453
1 2 3 4 5 6 7 8 9 10 11
0.07412
方法1によるヒストグラム
相対度数 0.4
0
0.0013 0.3
0.0039
0.08843 0.2
0.21326
0.1
0.3329
0.30949
0
0.05072
1 2 3 4 5 6 7 8 9
0
[6-5] 異常値の扱い
・まずデータを図示する
・ここでは 100 個のデータを折れ線グラフ化
・51 番目の観測値が-10 と異常に小さいが、それ以
外はおおむね-2 から 2 の間にある
[6-5a] 度数分布表の作成法
・最小値に異常値を含めた場合の度数分布表
階級幅
~
- 8 .9 4 2
- 7 .8 8 5
- 6 .8 2 7
- 5 .7 6 9
- 4 .7 1 2
- 3 .6 5 4
- 2 .5 9 6
- 1 .5 3 9
- 0 .4 8 1
0 .5 7 7 ~
度数
- 8 .9 4 2
- 7 .8 8 5
- 6 .8 2 7
- 5 .7 6 9
- 4 .7 1 2
- 3 .6 5 4
- 2 .5 9 6
- 1 .5 3 9
- 0 .4 8 1
0 .5 7 7
1
0
0
0
0
0
1
7
27
39
25
[6-5b] 度数分布表の作成法
・最小値に異常値を含めない場合の度数分布表
階級幅
~
-2.589
-2.589
-2.167
-2.167
-1.744
-1.744
-1.322
-1.322
-0.9
-0.9
-0.477
-0.477
-0.055
-0.055
0.367
0.367
0.79
0.79
1.212
1.212 ~
度数
2
1
3
6
12
12
17
19
9
13
6
[練習問題]
秋葉原で 15 人の男性に、
「この1年に AKB48 のコン
サートに行った回数は?」と尋ねたところ、回数の
少ない順に 2, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19,
20, 41 回との回答を得た。度数分布表とヒストグラ
ムを作成しなさい。ただし、階級数は5とし、回数
の一番小さな階級は0回以上、回数の一番大きな階
級は 50 回未満とし、階級幅は全て等しいものとしま
す。また、全ての階級は▽以上△未満としなさい。
[解答]
階級
0回以上10回未満
10回以上20回未満
20回以上30回未満
30回以上40回未満
40回以上50回未満
度数
3
10
1
0
1
12
ヒストグラム
10
8
6
4
2
0
0回以上 10回以 20回以 30回以 40回以
10回未 上20回 上30回 上40回 上50回
満
未満
未満
未満
未満
[6-6] 様々なヒストグラムの形
・全国の最大 2206 市区町村
・人口、高齢者比率など 197 種類のデータ
・階級数を 11 個としてヒストグラムを作成
・異常値が含まれる可能性があるため、観測値のう
ち、最も小さい順から3%と最も大きい順から
3%を取り除いて階級幅を方法2で決定
[6-6a] 様々なヒストグラムの形
・観測数、階級数が必ずしも多くないため、ヒスト
グラムがいびつになる可能性がある
正規分布1
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
-5
-3.9
-2.8
-1.7
-0.6
0.5
1.6
2.7
3.8
4.9
0.4
正規分布2
-5 -4 -3 -2 -1 0 1 2 3 4 5
・階級数が101個の場合が左図、階級数が11個の場
合が右図
[6-6b] 様々なヒストグラムの形
●右上がり
雇用者比率(雇用者数/就業者数、%) 不平等度=0.065
階級幅
市区町村数 300
~
56.9
90
56.9
59.8
49 250
59.8
62.6
83 200
62.6
65.4
125
65.4
68.3
150 150
68.3
71.1
182 100
71.1
74.0
210
50
74.0
76.8
225
76.8
79.6
272
0
79.6
82.5
272
1 2 3 4 5 6 7 8 9 10 11
82.5 ~
260
[6-6c] 様々なヒストグラムの形
●右下がり
財政力指数(市区町村の財政の余裕度を表す) 不平等度=0.322
階級幅
市区町村数 350
~
0.243
302
300
0.243
0.345
265
0.345
0.448
221 250
0.448
0.551
221 200
0.551
0.654
183
150
0.654
0.756
138
0.756
0.859
139 100
0.859
0.962
99 50
0.962
1.065
64
0
1.065
1.167
42
1 2 3 4 5 6 7 8 9 10 11
1.167 ~
75
[6-6d] 様々なヒストグラムの形
●均一的
他市区町村への通勤者数割合(%) 不平等度=0.234
階級幅
市区町村数 250
~
10.3
183
10.3
16.3
156 200
16.3
22.3
157
22.3
28.3
144 150
28.3
34.3
152
34.3
40.3
182 100
40.3
46.3
172
50
46.3
52.3
189
52.3
58.3
201
0
58.3
64.3
190
1 2 3 4 5 6 7 8 9 10 11
64.3 ~
192
[6-6e] 様々なヒストグラムの形
●三角形
離婚件数(人口千人当たり) 不平等度=0.178
階級幅
~
0.876
1.078
1.281
1.483
1.686
1.888
2.091
2.293
2.496
2.698 ~
市区町村数
0.876
1.078
1.281
1.483
1.686
1.888
2.091
2.293
2.496
2.698
92
78
132
225
271
296
280
211
152
84
97
350
300
250
200
150
100
50
0
1
2
3
4
5
6
7
8
9 10 11
[6-6f] 様々なヒストグラムの形
●逆三角形
可住地面積割合(%) 不平等度=0.344
階級幅
~
17.0
25.3
33.6
41.9
50.2
58.5
66.8
75.1
83.4
91.7 ~
市区町村数
17.0
25.3
33.6
41.9
50.2
58.5
66.8
75.1
83.4
91.7
286
248
187
169
185
113
106
80
98
107
325
350
300
250
200
150
100
50
0
1
2
3
4
5
6
7
8
9 10 11
[6-6g] 様々なヒストグラムの形
●不平等度が小さい
ゴミ計画収集人口(%) 不平等度=0.015
階級幅
~
95.7
96.6
97.5
98.4
99.3
100.3
101.2
102.1
103.0
103.9 ~
市区町村数
95.7
96.6
97.5
98.4
99.3
100.3
101.2
102.1
103.0
103.9
74
38
52
87
172
276
338
288
220
123
110
400
350
300
250
200
150
100
50
0
1
2
3
4
5
6
7
8
9 10 11
[6-6h] 様々なヒストグラムの形
●不平等度が大きい
保育所入所待機児童数(人) 不平等度=0.927
階級幅
~
6.4
12.7
19.1
25.5
31.8
38.2
44.5
50.9
57.3
63.6 ~
6.4
12.7
19.1
25.5
31.8
38.2
44.5
50.9
57.3
63.6
市区町村数 1800
1525 1600
47 1400
44 1200
26 1000
18 800
17 600
13 400
22 200
7
0
6
58
1
2
3
4
5
6
7
8
9 10 11