Document

平成 27 年度統計入門I
第 2 回 「度数分布表とヒストグラム. (2)」
原 尚幸
.
新潟大・経済
http://www.econ.niigata-u.ac.jp/˜hara/stat1/
[email protected]
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
1 / 25
公営賃貸住宅家賃のデータ (復習)
2011 年都道府県別公営住宅家賃
(円, 1ヶ月, 3.3m2 あたり)
北海道
青森県
岩手県
宮城県
秋田県
山形県
福島県
茨城県
栃木県
群馬県
埼玉県
千葉県
1449
1011
1038
1469
1213
1094
1078
1196
1328
1242
2618
2827
東京都
神奈川県
新潟県
富山県
石川県
福井県
山梨県
長野県
岐阜県
静岡県
愛知県
三重県
3521
3280
1393
1068
1212
1081
1251
1235
931
1622
2055
1035
滋賀県
京都府
大阪府
兵庫県
奈良県
和歌山県
鳥取県
島根県
岡山県
広島県
山口県
徳島県
1730
2128
1944
2137
2532
1409
946
989
854
1218
968
970
香川県
愛媛県
高知県
福岡県
佐賀県
長崎県
熊本県
大分県
宮崎県
鹿児島県
沖縄県
1163
880
1023
1887
1129
1277
1353
1162
1040
1314
1357
出典 : 教えて! 全国ランキング
http://www.japan-now.com
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
2 / 25
度数分布表 (復習)
度数分布表
.
データを階級に分類して階級ごとの度数を整理した表
階級 (円)
800 ∼ 1000
1000 ∼ 1200
1200 ∼ 1400
1400 ∼ 1600
1600 ∼ 1800
1800 ∼ 2000
2000 ∼ 2200
2200 ∼ 2400
2400 ∼ 2600
2600 ∼ 2800
2800 ∼ 3000
3000 ∼ 3200
3200 ∼ 3400
3400 ∼ 3600
度数
7
13
12
3
2
2
3
0
1
1
1
0
1
1
H. Hara (Niigata U.)
.
800 円より高, 1000 円以下が
7 都道府県
1200 円より高, 1400 円以下が
12 都道府県
2000 円より高, 2200 円以下が
3 都道府県
・
・
・
度数分布表とヒストグラム (2)
Apr 21, 2015
3 / 25
ヒストグラム (復習)
ヒストグラム
.
度数分布表の頻度を棒グラフで表したもの
12
.
2
4
6
山の数・位置
散らばり具合
形状 (歪み , 尖りなど )
0
Frequency
8
10
分布の特徴を視覚的に
把握できる
1000
1500
2000
2500
3000
3500
Rent
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
4 / 25
度数分布表 (復習)
ここでは階級値・累積度数・相対度数・累積相対
度数も含めて度数分布表と言うことにする
階級
800 ∼ 1000
1000 ∼ 1200
1200 ∼ 1400
1400 ∼ 1600
1600 ∼ 1800
1800 ∼ 2000
2000 ∼ 2200
2200 ∼ 2400
2400 ∼ 2600
2600 ∼ 2800
2800 ∼ 3000
3000 ∼ 3200
3200 ∼ 3400
3400 ∼ 3600
H. Hara (Niigata U.)
階級値
900
1100
1300
1500
1700
1900
2100
2300
2500
2700
2900
3100
3300
3500
度数
7
13
12
3
2
2
3
0
1
1
1
0
1
1
累積度数
7
20
32
35
37
39
42
42
43
44
45
45
46
47
相対度数
14.9%
27.7%
25.5%
6.4%
4.3%
4.3%
6.4%
0.0%
2.1%
2.1%
2.1%
0.0%
2.1%
2.1%
度数分布表とヒストグラム (2)
累積相対度数
14.9%
42.6%
68.1%
74.5%
78.8%
83.1%
89.5%
89.5%
91.6%
93.7%
95.8%
95.8%
97.9%
100%
Apr 21, 2015
5 / 25
累積相対度数グラフ
累積相対度数グラフ
1.0
(第 1 階級の階級下限, 0) から出発し ,
(階級上限, 累積相対度数) を階級順に結んだ .
折れ線グラフ
0.6
0.4
0.2
この例だと 1258.33
0.0
cumulative relative frequency
0.8
0 から 1 までの非減少のグラフ
.
安い方から 50% のところの値
段を求めるときなどに用いる
1000
1500
2000
2500
3000
3500
rent
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
6 / 25
累積相対度数グラフ
累積相対度数グラフ
(第 1 階級の階級下限, 0) から出発し ,
(階級上限, 累積相対度数) を階級順に結んだ .
折れ線グラフ
階級
800 ∼ 1000
1000 ∼ 1200
1200 ∼ 1400
1400 ∼ 1600
1600 ∼ 1800
1800 ∼ 2000
2000 ∼ 2200
2200 ∼ 2400
2400 ∼ 2600
2600 ∼ 2800
2800 ∼ 3000
3000 ∼ 3200
3200 ∼ 3400
3400 ∼ 3600
累積相対度数
14.9%
42.6%
68.1%
74.5%
78.8%
83.1%
89.5%
89.5%
91.6%
93.7%
95.8%
95.8%
97.9%
100%
H. Hara (Niigata U.)
0 から 1 までの非減少のグラフ
.
安い方から 50% のところの値
段を求めるときなどに用いる
この例だと 1258.33
度数分布表とヒストグラム (2)
Apr 21, 2015
6 / 25
累積相対度数グラフ
累積相対度数グラフ
1.0
(第 1 階級の階級下限, 0) から出発し ,
(階級上限, 累積相対度数) を階級順に結んだ .
折れ線グラフ
0.6
0.4
0.2
この例だと 1258.33
0.0
cumulative relative frequency
0.8
0 から 1 までの非減少のグラフ
.
安い方から 50% のところの値
段を求めるときなどに用いる
1000
1500
2000
2500
3000
3500
rent
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
6 / 25
累積相対度数グラフ
累積相対度数グラフ
1.0
(第 1 階級の階級下限, 0) から出発し ,
(階級上限, 累積相対度数) を階級順に結んだ .
折れ線グラフ
0.6
0.4
0.2
この例だと 1258.33
0.0
cumulative relative frequency
0.8
0 から 1 までの非減少のグラフ
.
安い方から 50% のところの値
段を求めるときなどに用いる
1000
1500
2000
2500
3000
3500
rent
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
6 / 25
ヒストグラム・母集団分布の用語
モード : 頻度最大の階級
第 2 階級 (1000 円∼1200 円)
単峰な分布 : 山がひとつの分布
多峰な分布 : 山が複数の分布
6
0
2
4
Frequency
8
10
12
2 峰, 3 峰, . . .
1000
1500
2000
2500
3000
3500
Rent
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
7 / 25
ヒストグラム・母集団分布の用語
外れ値・異常値
他から大きく離れた値をもつデータ
(3000 円以上の 2 都県)
6
0
2
4
Frequency
8
10
12
特異的な値をとるデータ
観測ミスというニュアンスで用いられることも多い
1000
1500
2000
2500
3000
3500
Rent
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
8 / 25
度数分布表の作り方
これまでで度数分布表, ヒストグラムの基本的な
用語を整理した
度数分布表, ヒストグラムを見て, 形式的には
何を意味するかを理解できるようになった
次に与えらたデータを用いて, 度数分布表, ヒスト
グラムを作成することを考える
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
9 / 25
度数分布表の作り方
度数分布表, ヒストグラムを見る人は , それらから
母集団の分布の情報を得ようとする
したがって分布の特徴をうまく捉えた度数分布表,
ヒストグラムを作成する必要がある
度数分布表は階級が定まれば自動的には作成可能
度数分布表ができればヒストグラムも作成可能
うまい階級の定め方とはどのようなものか?
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
10 / 25
階級の定め方
階級 (円)
800 ∼ 1000
1000 ∼ 1200
1200 ∼ 1400
1400 ∼ 1600
1600 ∼ 1800
1800 ∼ 2000
2000 ∼ 2200
2200 ∼ 2400
2400 ∼ 2600
2600 ∼ 2800
2800 ∼ 3000
3000 ∼ 3200
3200 ∼ 3400
3400 ∼ 3600
H. Hara (Niigata U.)
度数
7
13
12
3
2
2
3
0
1
1
1
0
1
1
階級は等間隔で定めるのが
最も標準的
今の例では 階級幅 = 200
分布の特徴を捉えていそうだ
階級幅はどのように定めれば
よいのか??
度数分布表とヒストグラム (2)
Apr 21, 2015
11 / 25
階級の定め方
6
4
2
0
Frequency
8
10
12
階級は等間隔で定めるのが
最も標準的
今の例では 階級幅 = 200
分布の特徴を捉えていそうだ
階級幅はどのように定めれば
よいのか??
1000
1500
2000
2500
3000
3500
Rent
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
11 / 25
階級の決めかた
階級幅=200
12
分布の特徴を捉えていそう
10
階級幅=100
6
階級幅=1
2
4
細っ!
?
頻度が全部の階級で 1
階級幅=800
0
Frequency
8
悪くはない
1000
1500
2000
2500
Rent
3000
3500
ちょっと雑な感じ
階級幅=3600
1 本!
?
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
12 / 25
階級の決めかた
階級幅=200
分布の特徴を捉えていそう
8
階級幅=100
4
階級幅=1
2
細っ!
?
頻度が全部の階級で 1
階級幅=800
0
Frequency
6
悪くはない
1000
1500
2000
2500
Rent
3000
3500
ちょっと雑な感じ
階級幅=3600
1 本!
?
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
12 / 25
階級の決めかた
階級幅=200
1.0
分布の特徴を捉えていそう
0.6
悪くはない
0.4
階級幅=1
0.2
細っ!
?
頻度が全部の階級で 1
階級幅=800
0.0
Frequency
0.8
階級幅=100
1000
1500
2000
2500
Rent
3000
3500
ちょっと雑な感じ
階級幅=3600
1 本!
?
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
12 / 25
階級の決めかた
階級幅=200
35
分布の特徴を捉えていそう
30
階級幅=100
20
階級幅=1
10
15
細っ!
?
頻度が全部の階級で 1
5
階級幅=800
ちょっと雑な感じ
0
Frequency
25
悪くはない
1000
1500
2000
2500
Rent
3000
3500
階級幅=3600
1 本!
?
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
12 / 25
階級の決めかた
階級幅=200
分布の特徴を捉えていそう
40
階級幅=100
悪くはない
10
20
細っ!
?
頻度が全部の階級で 1
階級幅=800
ちょっと雑な感じ
0
Frequency
30
階級幅=1
1000
1500
2000
2500
Rent
3000
3500
階級幅=3600
1 本!
?
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
12 / 25
階級の決めかたの手順
階級の決めかたの手順
1
2
3
最大値・最小値を求める
最大値・最小値の間でいろいろな階級幅で階級を
定めて, 度数分布表を作り, ヒストグラムを描いて
みる
.
分布の特徴をうまく捉えている階級幅を採用する
階級の数があまり多くなり過ぎない方がよい
結局のところ階級幅の定め方は試行錯誤
あとで見るように等間隔の階級幅が好まし くない
場合もある
.
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
13 / 25
演習:ビッグマック指数
2011 年世界のビッグマック価格 (円)
ノルウェー
スイス
スウェーデン
ブラジル
デンマーク
カナダ
オースト リア
ユーロ圏
アルゼンチン
コロンビア
イスラエル
ニュージーランド
652
632
599
483
430
392
387
387
380
372
366
346
日本
アメリカ
チェコ
ハンガリー
チリ
イギリス
ト ルコ
シンガポール
ペルー
韓国
ポーランド
南アフリカ
320
319
319
317
314
305
296
286
286
275
242
225
フィリピン
メキシコ
ロシア
サウジアラビア
インド ネシア
台湾
マレーシア
パキスタン
エジプト
タイ
中国
香港
218
215
212
209
207
204
190
187
185
184
178
152
出典 : The Economist
http://http://www.economist.com/
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
14 / 25
演習 1:ビッグマック指数
1
このデータを用いてビッグマック価格の度数分布
表を作成せよ
階級は自分で適当に設定せよ
2
ヒストグラムの概形を描いて分布の特徴を考察
せよ
モード はどの階級か?
山はいくつか?
その他分布の特徴など
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
15 / 25
解答例:ビッグマック指数
度数分布表 (階級幅 100)
階級
100 ∼ 200
200 ∼ 300
300 ∼ 400
400 ∼ 500
500 ∼ 600
600 ∼ 700
H. Hara (Niigata U.)
階級値
150
250
350
450
550
650
度数
6
12
13
2
1
2
累積度数
6
18
31
33
34
36
相対度数
16.7%
33.3%
36.1%
5.6%
2.8%
5.6%
度数分布表とヒストグラム (2)
累積相対度数
16.7%
50.0%
86.1%
91.7%
94.4%
100%
Apr 21, 2015
16 / 25
解答例
ヒストグラム
6
4
2
0
Frequency
8
10
12
モード は 300 円∼400 円
単峰の分布
200 円∼400 円に分布が集中
一方で 600 円以上も 2ヶ国
100
200
300
400
500
600
700
price
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
17 / 25
世界 173ヶ国の 1 人あたり GDP
世界 173ヶ国の 2009 年名目一人あたり GDP
のデータの度数分布表を作ることを考える
出典:World Bank data の Web site
http://data.worldbank.org
World Bank data はさまざまな面白いデータが
容易に入手可能
単位は USド ル
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
18 / 25
データの特徴
最大と最小で 3 桁違う
最大値:108,332ド ル (ルクセンブルク )
最小値:181ド ル (ブルンジ )
平均 :11,298ド ル
3 桁の国が 37ヶ国ある一方で , 5 桁以上の国数も
52ヶ国ある
30,000ド ル以上の国数:27ヶ国
5,000ド ル以下の国数:93ヶ国
1,000ド ル以下の国数:37ヶ国
このような場合も階級幅を等間隔に取ることは
得策か?
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
19 / 25
階級幅を等間隔にとった場合
100
80
frequencies
60
40
20
度数
121
22
7
7
11
2
1
0
1
0
1
0
階級 (ド ル )
0 ∼ 10000
10,000 ∼ 20,000
20,000 ∼ 30,000
30,000 ∼ 40,000
40,000 ∼ 50,000
50,000 ∼ 60,000
60,000 ∼ 70,000
70,000 ∼ 80,000
80,000 ∼ 90,000
90,000 ∼ 10,0,000
100,000 ∼ 110,000
120
10,000ド ルごとに 11 階級
5000
25000
45000
65000
85000
105000
US dollar
平均 (11,298ド ル ) 以下が 1 階級だけ
あまり分布の情報をうまく表現できていない?
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
20 / 25
40
frequencies
30
20
10
度数
33
60
28
29
18
4
1
0
階級 (ド ル )
100 ∼ 1,000
1,000 ∼ 5,000
5,000 ∼ 10,000
10,000 ∼ 30,000
30,000 ∼ 50,000
50,000 ∼ 100,000
100,000 ∼ 150,000
50
60
各桁ごとに階級をとった場合
500
3000
7500
20000
40000
75000
125000
US dollar
各桁ごとに階級をとるとよい場合がある
平均 (11,298ド ル ) が真ん中あたりに来る
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
21 / 25
年齢別死亡数の度数分布表
2009 年日本人の年齢別死亡数
年齢
度数
0
2,758
1
418
234
2
3
182
4
154
5∼9
539
10 ∼ 19
2,087
20 ∼ 29
6,764
30 ∼ 39
12,908
40 ∼ 49
25,047
50 ∼ 59
69,203
60 ∼ 69
144,448
70 ∼ 79
274,476
80 ∼ 89
373,365
90 ∼ 99
184,407
100 以上
10,232
出典:日本統計年鑑 (総務省統計局)
階級の取り方
0∼4 歳までが 1 きざみ
5∼9 歳は 5 きざみ
10∼99 歳は 10 きざみ
100 以上はひとくくり
乳幼児年齢における特異的
な死亡率の高さを区別する
ために, 0∼9 歳までを細か
くとっている
確かに 0 歳は分布の山に
なっている
http://www.stat.go.jp/data/nenkan/
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
22 / 25
年齢別死亡数の度数分布表
2009 年日本人の年齢別死亡数
年齢
度数
0
2,758
1
418
234
2
3
182
4
154
5∼9
539
10 ∼ 19
2,087
20 ∼ 29
6,764
30 ∼ 39
12,908
40 ∼ 49
25,047
50 ∼ 59
69,203
60 ∼ 69
144,448
70 ∼ 79
274,476
80 ∼ 89
373,365
90 ∼ 99
184,407
100 以上
10,232
出典:日本統計年鑑 (総務省統計局)
「 100 歳以上」という階級
の階級値は?
政府統計などでは , このよ
うな階級がしばしば登場
する
階級値は目安の値なので ,
無理に計算することはない
適当に上限 (120 歳とか ) を
設定して求めてもよい
http://www.stat.go.jp/data/nenkan/
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
23 / 25
200000
100000
50000
0
frequencies
300000
年齢別死亡数のヒストグラム
0
1
2
3
4
5
10 20 30 40 50 60 70 80 90
age
H. Hara (Niigata U.)
ヒストグラムにすると , 乳幼
児年齢の死亡数が誤差のよう
になってしまう
度数分布表の方が把握しや
すい
度数分布表とヒストグラムが
持つ視覚的情報は相互補完的
度数分布表とヒストグラムは
セット で情報提供すべき
度数分布表とヒストグラム (2)
Apr 21, 2015
24 / 25
年齢別死亡数のヒストグラム
年齢
0
1
2
3
4
5∼9
10 ∼ 19
20 ∼ 29
30 ∼ 39
40 ∼ 49
50 ∼ 59
60 ∼ 69
70 ∼ 79
80 ∼ 89
90 ∼ 99
100 以上
度数
2,758
418
234
182
154
539
2,087
6,764
12,908
25,047
69,203
144,448
274,476
373,365
184,407
10,232
H. Hara (Niigata U.)
ヒストグラムにすると , 乳幼
児年齢の死亡数が誤差のよう
になってしまう
度数分布表の方が把握しや
すい
度数分布表とヒストグラムが
持つ視覚的情報は相互補完的
度数分布表とヒストグラムは
セット で情報提供すべき
度数分布表とヒストグラム (2)
Apr 21, 2015
24 / 25
200000
100000
50000
0
frequencies
300000
年齢別死亡数のヒストグラム
0
1
2
3
4
5
10 20 30 40 50 60 70 80 90
age
H. Hara (Niigata U.)
ヒストグラムにすると , 乳幼
児年齢の死亡数が誤差のよう
になってしまう
度数分布表の方が把握しや
すい
度数分布表とヒストグラムが
持つ視覚的情報は相互補完的
度数分布表とヒストグラムは
セット で情報提供すべき
度数分布表とヒストグラム (2)
Apr 21, 2015
24 / 25
まとめ
母集団分布の定量化手法として, 度数分布表と
ヒストグラムの学習をした
度数分布表, ヒストグラムの見方, 作成のポイント
を学んだ
簡単なデータで演習を行なった
用語
母集団, 母集団分布
階級, 階級値, 階級幅, 度数, 相対度数, 累積度数,
累積相対度数, 累積相対度数グラフ
モード , 単峰性, 多峰性, 外れ値, 異常値
H. Hara (Niigata U.)
度数分布表とヒストグラム (2)
Apr 21, 2015
25 / 25