平成 27 年度統計入門I 第 2 回 「度数分布表とヒストグラム. (2)」 原 尚幸 . 新潟大・経済 http://www.econ.niigata-u.ac.jp/˜hara/stat1/ [email protected] H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 1 / 25 公営賃貸住宅家賃のデータ (復習) 2011 年都道府県別公営住宅家賃 (円, 1ヶ月, 3.3m2 あたり) 北海道 青森県 岩手県 宮城県 秋田県 山形県 福島県 茨城県 栃木県 群馬県 埼玉県 千葉県 1449 1011 1038 1469 1213 1094 1078 1196 1328 1242 2618 2827 東京都 神奈川県 新潟県 富山県 石川県 福井県 山梨県 長野県 岐阜県 静岡県 愛知県 三重県 3521 3280 1393 1068 1212 1081 1251 1235 931 1622 2055 1035 滋賀県 京都府 大阪府 兵庫県 奈良県 和歌山県 鳥取県 島根県 岡山県 広島県 山口県 徳島県 1730 2128 1944 2137 2532 1409 946 989 854 1218 968 970 香川県 愛媛県 高知県 福岡県 佐賀県 長崎県 熊本県 大分県 宮崎県 鹿児島県 沖縄県 1163 880 1023 1887 1129 1277 1353 1162 1040 1314 1357 出典 : 教えて! 全国ランキング http://www.japan-now.com H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 2 / 25 度数分布表 (復習) 度数分布表 . データを階級に分類して階級ごとの度数を整理した表 階級 (円) 800 ∼ 1000 1000 ∼ 1200 1200 ∼ 1400 1400 ∼ 1600 1600 ∼ 1800 1800 ∼ 2000 2000 ∼ 2200 2200 ∼ 2400 2400 ∼ 2600 2600 ∼ 2800 2800 ∼ 3000 3000 ∼ 3200 3200 ∼ 3400 3400 ∼ 3600 度数 7 13 12 3 2 2 3 0 1 1 1 0 1 1 H. Hara (Niigata U.) . 800 円より高, 1000 円以下が 7 都道府県 1200 円より高, 1400 円以下が 12 都道府県 2000 円より高, 2200 円以下が 3 都道府県 ・ ・ ・ 度数分布表とヒストグラム (2) Apr 21, 2015 3 / 25 ヒストグラム (復習) ヒストグラム . 度数分布表の頻度を棒グラフで表したもの 12 . 2 4 6 山の数・位置 散らばり具合 形状 (歪み , 尖りなど ) 0 Frequency 8 10 分布の特徴を視覚的に 把握できる 1000 1500 2000 2500 3000 3500 Rent H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 4 / 25 度数分布表 (復習) ここでは階級値・累積度数・相対度数・累積相対 度数も含めて度数分布表と言うことにする 階級 800 ∼ 1000 1000 ∼ 1200 1200 ∼ 1400 1400 ∼ 1600 1600 ∼ 1800 1800 ∼ 2000 2000 ∼ 2200 2200 ∼ 2400 2400 ∼ 2600 2600 ∼ 2800 2800 ∼ 3000 3000 ∼ 3200 3200 ∼ 3400 3400 ∼ 3600 H. Hara (Niigata U.) 階級値 900 1100 1300 1500 1700 1900 2100 2300 2500 2700 2900 3100 3300 3500 度数 7 13 12 3 2 2 3 0 1 1 1 0 1 1 累積度数 7 20 32 35 37 39 42 42 43 44 45 45 46 47 相対度数 14.9% 27.7% 25.5% 6.4% 4.3% 4.3% 6.4% 0.0% 2.1% 2.1% 2.1% 0.0% 2.1% 2.1% 度数分布表とヒストグラム (2) 累積相対度数 14.9% 42.6% 68.1% 74.5% 78.8% 83.1% 89.5% 89.5% 91.6% 93.7% 95.8% 95.8% 97.9% 100% Apr 21, 2015 5 / 25 累積相対度数グラフ 累積相対度数グラフ 1.0 (第 1 階級の階級下限, 0) から出発し , (階級上限, 累積相対度数) を階級順に結んだ . 折れ線グラフ 0.6 0.4 0.2 この例だと 1258.33 0.0 cumulative relative frequency 0.8 0 から 1 までの非減少のグラフ . 安い方から 50% のところの値 段を求めるときなどに用いる 1000 1500 2000 2500 3000 3500 rent H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 6 / 25 累積相対度数グラフ 累積相対度数グラフ (第 1 階級の階級下限, 0) から出発し , (階級上限, 累積相対度数) を階級順に結んだ . 折れ線グラフ 階級 800 ∼ 1000 1000 ∼ 1200 1200 ∼ 1400 1400 ∼ 1600 1600 ∼ 1800 1800 ∼ 2000 2000 ∼ 2200 2200 ∼ 2400 2400 ∼ 2600 2600 ∼ 2800 2800 ∼ 3000 3000 ∼ 3200 3200 ∼ 3400 3400 ∼ 3600 累積相対度数 14.9% 42.6% 68.1% 74.5% 78.8% 83.1% 89.5% 89.5% 91.6% 93.7% 95.8% 95.8% 97.9% 100% H. Hara (Niigata U.) 0 から 1 までの非減少のグラフ . 安い方から 50% のところの値 段を求めるときなどに用いる この例だと 1258.33 度数分布表とヒストグラム (2) Apr 21, 2015 6 / 25 累積相対度数グラフ 累積相対度数グラフ 1.0 (第 1 階級の階級下限, 0) から出発し , (階級上限, 累積相対度数) を階級順に結んだ . 折れ線グラフ 0.6 0.4 0.2 この例だと 1258.33 0.0 cumulative relative frequency 0.8 0 から 1 までの非減少のグラフ . 安い方から 50% のところの値 段を求めるときなどに用いる 1000 1500 2000 2500 3000 3500 rent H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 6 / 25 累積相対度数グラフ 累積相対度数グラフ 1.0 (第 1 階級の階級下限, 0) から出発し , (階級上限, 累積相対度数) を階級順に結んだ . 折れ線グラフ 0.6 0.4 0.2 この例だと 1258.33 0.0 cumulative relative frequency 0.8 0 から 1 までの非減少のグラフ . 安い方から 50% のところの値 段を求めるときなどに用いる 1000 1500 2000 2500 3000 3500 rent H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 6 / 25 ヒストグラム・母集団分布の用語 モード : 頻度最大の階級 第 2 階級 (1000 円∼1200 円) 単峰な分布 : 山がひとつの分布 多峰な分布 : 山が複数の分布 6 0 2 4 Frequency 8 10 12 2 峰, 3 峰, . . . 1000 1500 2000 2500 3000 3500 Rent H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 7 / 25 ヒストグラム・母集団分布の用語 外れ値・異常値 他から大きく離れた値をもつデータ (3000 円以上の 2 都県) 6 0 2 4 Frequency 8 10 12 特異的な値をとるデータ 観測ミスというニュアンスで用いられることも多い 1000 1500 2000 2500 3000 3500 Rent H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 8 / 25 度数分布表の作り方 これまでで度数分布表, ヒストグラムの基本的な 用語を整理した 度数分布表, ヒストグラムを見て, 形式的には 何を意味するかを理解できるようになった 次に与えらたデータを用いて, 度数分布表, ヒスト グラムを作成することを考える H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 9 / 25 度数分布表の作り方 度数分布表, ヒストグラムを見る人は , それらから 母集団の分布の情報を得ようとする したがって分布の特徴をうまく捉えた度数分布表, ヒストグラムを作成する必要がある 度数分布表は階級が定まれば自動的には作成可能 度数分布表ができればヒストグラムも作成可能 うまい階級の定め方とはどのようなものか? H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 10 / 25 階級の定め方 階級 (円) 800 ∼ 1000 1000 ∼ 1200 1200 ∼ 1400 1400 ∼ 1600 1600 ∼ 1800 1800 ∼ 2000 2000 ∼ 2200 2200 ∼ 2400 2400 ∼ 2600 2600 ∼ 2800 2800 ∼ 3000 3000 ∼ 3200 3200 ∼ 3400 3400 ∼ 3600 H. Hara (Niigata U.) 度数 7 13 12 3 2 2 3 0 1 1 1 0 1 1 階級は等間隔で定めるのが 最も標準的 今の例では 階級幅 = 200 分布の特徴を捉えていそうだ 階級幅はどのように定めれば よいのか?? 度数分布表とヒストグラム (2) Apr 21, 2015 11 / 25 階級の定め方 6 4 2 0 Frequency 8 10 12 階級は等間隔で定めるのが 最も標準的 今の例では 階級幅 = 200 分布の特徴を捉えていそうだ 階級幅はどのように定めれば よいのか?? 1000 1500 2000 2500 3000 3500 Rent H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 11 / 25 階級の決めかた 階級幅=200 12 分布の特徴を捉えていそう 10 階級幅=100 6 階級幅=1 2 4 細っ! ? 頻度が全部の階級で 1 階級幅=800 0 Frequency 8 悪くはない 1000 1500 2000 2500 Rent 3000 3500 ちょっと雑な感じ 階級幅=3600 1 本! ? H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 12 / 25 階級の決めかた 階級幅=200 分布の特徴を捉えていそう 8 階級幅=100 4 階級幅=1 2 細っ! ? 頻度が全部の階級で 1 階級幅=800 0 Frequency 6 悪くはない 1000 1500 2000 2500 Rent 3000 3500 ちょっと雑な感じ 階級幅=3600 1 本! ? H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 12 / 25 階級の決めかた 階級幅=200 1.0 分布の特徴を捉えていそう 0.6 悪くはない 0.4 階級幅=1 0.2 細っ! ? 頻度が全部の階級で 1 階級幅=800 0.0 Frequency 0.8 階級幅=100 1000 1500 2000 2500 Rent 3000 3500 ちょっと雑な感じ 階級幅=3600 1 本! ? H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 12 / 25 階級の決めかた 階級幅=200 35 分布の特徴を捉えていそう 30 階級幅=100 20 階級幅=1 10 15 細っ! ? 頻度が全部の階級で 1 5 階級幅=800 ちょっと雑な感じ 0 Frequency 25 悪くはない 1000 1500 2000 2500 Rent 3000 3500 階級幅=3600 1 本! ? H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 12 / 25 階級の決めかた 階級幅=200 分布の特徴を捉えていそう 40 階級幅=100 悪くはない 10 20 細っ! ? 頻度が全部の階級で 1 階級幅=800 ちょっと雑な感じ 0 Frequency 30 階級幅=1 1000 1500 2000 2500 Rent 3000 3500 階級幅=3600 1 本! ? H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 12 / 25 階級の決めかたの手順 階級の決めかたの手順 1 2 3 最大値・最小値を求める 最大値・最小値の間でいろいろな階級幅で階級を 定めて, 度数分布表を作り, ヒストグラムを描いて みる . 分布の特徴をうまく捉えている階級幅を採用する 階級の数があまり多くなり過ぎない方がよい 結局のところ階級幅の定め方は試行錯誤 あとで見るように等間隔の階級幅が好まし くない 場合もある . H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 13 / 25 演習:ビッグマック指数 2011 年世界のビッグマック価格 (円) ノルウェー スイス スウェーデン ブラジル デンマーク カナダ オースト リア ユーロ圏 アルゼンチン コロンビア イスラエル ニュージーランド 652 632 599 483 430 392 387 387 380 372 366 346 日本 アメリカ チェコ ハンガリー チリ イギリス ト ルコ シンガポール ペルー 韓国 ポーランド 南アフリカ 320 319 319 317 314 305 296 286 286 275 242 225 フィリピン メキシコ ロシア サウジアラビア インド ネシア 台湾 マレーシア パキスタン エジプト タイ 中国 香港 218 215 212 209 207 204 190 187 185 184 178 152 出典 : The Economist http://http://www.economist.com/ H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 14 / 25 演習 1:ビッグマック指数 1 このデータを用いてビッグマック価格の度数分布 表を作成せよ 階級は自分で適当に設定せよ 2 ヒストグラムの概形を描いて分布の特徴を考察 せよ モード はどの階級か? 山はいくつか? その他分布の特徴など H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 15 / 25 解答例:ビッグマック指数 度数分布表 (階級幅 100) 階級 100 ∼ 200 200 ∼ 300 300 ∼ 400 400 ∼ 500 500 ∼ 600 600 ∼ 700 H. Hara (Niigata U.) 階級値 150 250 350 450 550 650 度数 6 12 13 2 1 2 累積度数 6 18 31 33 34 36 相対度数 16.7% 33.3% 36.1% 5.6% 2.8% 5.6% 度数分布表とヒストグラム (2) 累積相対度数 16.7% 50.0% 86.1% 91.7% 94.4% 100% Apr 21, 2015 16 / 25 解答例 ヒストグラム 6 4 2 0 Frequency 8 10 12 モード は 300 円∼400 円 単峰の分布 200 円∼400 円に分布が集中 一方で 600 円以上も 2ヶ国 100 200 300 400 500 600 700 price H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 17 / 25 世界 173ヶ国の 1 人あたり GDP 世界 173ヶ国の 2009 年名目一人あたり GDP のデータの度数分布表を作ることを考える 出典:World Bank data の Web site http://data.worldbank.org World Bank data はさまざまな面白いデータが 容易に入手可能 単位は USド ル H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 18 / 25 データの特徴 最大と最小で 3 桁違う 最大値:108,332ド ル (ルクセンブルク ) 最小値:181ド ル (ブルンジ ) 平均 :11,298ド ル 3 桁の国が 37ヶ国ある一方で , 5 桁以上の国数も 52ヶ国ある 30,000ド ル以上の国数:27ヶ国 5,000ド ル以下の国数:93ヶ国 1,000ド ル以下の国数:37ヶ国 このような場合も階級幅を等間隔に取ることは 得策か? H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 19 / 25 階級幅を等間隔にとった場合 100 80 frequencies 60 40 20 度数 121 22 7 7 11 2 1 0 1 0 1 0 階級 (ド ル ) 0 ∼ 10000 10,000 ∼ 20,000 20,000 ∼ 30,000 30,000 ∼ 40,000 40,000 ∼ 50,000 50,000 ∼ 60,000 60,000 ∼ 70,000 70,000 ∼ 80,000 80,000 ∼ 90,000 90,000 ∼ 10,0,000 100,000 ∼ 110,000 120 10,000ド ルごとに 11 階級 5000 25000 45000 65000 85000 105000 US dollar 平均 (11,298ド ル ) 以下が 1 階級だけ あまり分布の情報をうまく表現できていない? H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 20 / 25 40 frequencies 30 20 10 度数 33 60 28 29 18 4 1 0 階級 (ド ル ) 100 ∼ 1,000 1,000 ∼ 5,000 5,000 ∼ 10,000 10,000 ∼ 30,000 30,000 ∼ 50,000 50,000 ∼ 100,000 100,000 ∼ 150,000 50 60 各桁ごとに階級をとった場合 500 3000 7500 20000 40000 75000 125000 US dollar 各桁ごとに階級をとるとよい場合がある 平均 (11,298ド ル ) が真ん中あたりに来る H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 21 / 25 年齢別死亡数の度数分布表 2009 年日本人の年齢別死亡数 年齢 度数 0 2,758 1 418 234 2 3 182 4 154 5∼9 539 10 ∼ 19 2,087 20 ∼ 29 6,764 30 ∼ 39 12,908 40 ∼ 49 25,047 50 ∼ 59 69,203 60 ∼ 69 144,448 70 ∼ 79 274,476 80 ∼ 89 373,365 90 ∼ 99 184,407 100 以上 10,232 出典:日本統計年鑑 (総務省統計局) 階級の取り方 0∼4 歳までが 1 きざみ 5∼9 歳は 5 きざみ 10∼99 歳は 10 きざみ 100 以上はひとくくり 乳幼児年齢における特異的 な死亡率の高さを区別する ために, 0∼9 歳までを細か くとっている 確かに 0 歳は分布の山に なっている http://www.stat.go.jp/data/nenkan/ H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 22 / 25 年齢別死亡数の度数分布表 2009 年日本人の年齢別死亡数 年齢 度数 0 2,758 1 418 234 2 3 182 4 154 5∼9 539 10 ∼ 19 2,087 20 ∼ 29 6,764 30 ∼ 39 12,908 40 ∼ 49 25,047 50 ∼ 59 69,203 60 ∼ 69 144,448 70 ∼ 79 274,476 80 ∼ 89 373,365 90 ∼ 99 184,407 100 以上 10,232 出典:日本統計年鑑 (総務省統計局) 「 100 歳以上」という階級 の階級値は? 政府統計などでは , このよ うな階級がしばしば登場 する 階級値は目安の値なので , 無理に計算することはない 適当に上限 (120 歳とか ) を 設定して求めてもよい http://www.stat.go.jp/data/nenkan/ H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 23 / 25 200000 100000 50000 0 frequencies 300000 年齢別死亡数のヒストグラム 0 1 2 3 4 5 10 20 30 40 50 60 70 80 90 age H. Hara (Niigata U.) ヒストグラムにすると , 乳幼 児年齢の死亡数が誤差のよう になってしまう 度数分布表の方が把握しや すい 度数分布表とヒストグラムが 持つ視覚的情報は相互補完的 度数分布表とヒストグラムは セット で情報提供すべき 度数分布表とヒストグラム (2) Apr 21, 2015 24 / 25 年齢別死亡数のヒストグラム 年齢 0 1 2 3 4 5∼9 10 ∼ 19 20 ∼ 29 30 ∼ 39 40 ∼ 49 50 ∼ 59 60 ∼ 69 70 ∼ 79 80 ∼ 89 90 ∼ 99 100 以上 度数 2,758 418 234 182 154 539 2,087 6,764 12,908 25,047 69,203 144,448 274,476 373,365 184,407 10,232 H. Hara (Niigata U.) ヒストグラムにすると , 乳幼 児年齢の死亡数が誤差のよう になってしまう 度数分布表の方が把握しや すい 度数分布表とヒストグラムが 持つ視覚的情報は相互補完的 度数分布表とヒストグラムは セット で情報提供すべき 度数分布表とヒストグラム (2) Apr 21, 2015 24 / 25 200000 100000 50000 0 frequencies 300000 年齢別死亡数のヒストグラム 0 1 2 3 4 5 10 20 30 40 50 60 70 80 90 age H. Hara (Niigata U.) ヒストグラムにすると , 乳幼 児年齢の死亡数が誤差のよう になってしまう 度数分布表の方が把握しや すい 度数分布表とヒストグラムが 持つ視覚的情報は相互補完的 度数分布表とヒストグラムは セット で情報提供すべき 度数分布表とヒストグラム (2) Apr 21, 2015 24 / 25 まとめ 母集団分布の定量化手法として, 度数分布表と ヒストグラムの学習をした 度数分布表, ヒストグラムの見方, 作成のポイント を学んだ 簡単なデータで演習を行なった 用語 母集団, 母集団分布 階級, 階級値, 階級幅, 度数, 相対度数, 累積度数, 累積相対度数, 累積相対度数グラフ モード , 単峰性, 多峰性, 外れ値, 異常値 H. Hara (Niigata U.) 度数分布表とヒストグラム (2) Apr 21, 2015 25 / 25
© Copyright 2024 ExpyDoc