[6] 度数分布表とヒストグラム(5/22) ●平均と標準偏差(高校数学の復習) ●なぜ度数分布表が必要なのか ●階級数や階級幅の設定 ●ローレンツ曲線と不平等度 ●異常値の扱い ●ヒストグラムの作成法 ●様々なヒストグラムの形 [6-0] 平均と標準偏差(高校数学の復習) ● n 個の観測値 x1 , x2 ,..., xn に対して ・平均値: a = ( x1 x2 xn ) / n ・標準偏差: s = {( x1 a ) 2 ( x2 a) 2 ( xn a) 2 } / n [6-1] なぜ度数分布表が必要なのか (仮想の話) ・高校3年生百万人に国語、英語、数学のテストを 行った ・どのような結果が教師にとって望ましいのか [6-1a] 国語テスト得点の度数分布表 度数分布表1 得点 人数 0 1 10 133 20 4431 30 53990 40 241970 50 398950 60 241970 70 53990 80 4431 90 133 100 1 [6-1b] 度数分布表とヒストグラム ●度数分布表 ・観測値ごとに、その観測値と同じ値を取る回数 (度数)を表にしたもの ・観測値ごとではなく観測値の範囲ごとに作成す る場合の方が多い ●ヒストグラム 度数分布表をもとに、横軸に観測値ないし観測 値の範囲を取り、縦軸に度数をグラフに [6-1c] 国語テスト得点のヒストグラム [6-1d] 英語テスト得点の度数分布表 度数分布表2 得点 人数 0 90909 10 90909 20 90909 30 90909 40 90909 50 90910 60 90909 70 90909 80 90909 90 90909 100 90909 [6-1e] 英語テスト得点のヒストグラム [6-1f] 数学テスト得点の度数分布表 度数分布表3 得点 人数 0 40000 10 100000 20 200000 30 100000 40 50000 50 20000 60 50000 70 100000 80 200000 90 100000 100 40000 [6-1g] 数学テスト得点のヒストグラム [6-1h] 国語、英語、数学のテストの結果うちどれが 教師にとって望ましいのか ●答え:国語のテスト ●理由:国語の得点が 40 点から 60 点の人を対象に 授業を行うことで 88%の学生が適応できる ●得点が 40 点から 60 点の人は ・英語のテストでは 27%、 ・数学のテストでは 12%しかいない ・数学のクラスは、10 点から 30 点の学生と 70 点 から 90 点の学生の2クラスに分けるべき [6-2] 階級数や階級幅の設定 ●たとえば、国語のテストの得点は、実際には10 点刻みではなく1点刻み ●1点刻みで度数分布表を作成すると該当する度数 が0となるケースが多くなるとともに、得点ごと の度数が不規則に変動し、問題が発生 ●したがって、実際には、1点刻みではなく得点の 幅ごと(階級幅)に度数を設定する場合が多い ●階級幅と階級数を設定する必要がある [6-2a] 階級数や階級幅の設定 ●階級数や階級幅の設定に統一的ルールはない ●階級数の目安としてはスタージェンスの公式 ・観測数を n とし階級数を k とすると k 1 log 2 n 1 (log10 n) /(log10 2) 「統計学入門」 (東大出版)22 頁 ・n 100 では k 8 [11] ・n 1000 では k 11 [32] ・ n 10000 では k 14 [101] [ ]内は Excel [6-2b] 階級数や階級幅の設定 (3つの留意点) ●留意点1:観測値が 50 点、60 点、70 点などの離 散型の場合は、ヒストグラムの柱の間 隔を空け、51~60 点、61~70 点などの 連続型の場合は柱の間隔を空けない ●留意点2:階級数や階級幅の設定でヒストグラム の形が変わるので注意 [6-2c] 階級数や階級幅の設定 ●留意点3:柱の面積が度数を反映するように高さ 0~ 41~ 40 60100 61~ を決める 度数分布表1 人数 0~20 10 21~40 20 41~60 40 61~80 20 81~100 10 度数分布表2 人数 0~40 30 41~60 40 61~100 30 40 30 20 10 0 0~20 40 30 20 10 0 21~40 41~60 61~80 81~100 [6-3] ローレンツ曲線と不平等度 ・相対度数と累積度数 ・ローレンツ曲線 ・不平等度 [6-3-1] 相対度数と累積度数 ある試験得点の度数分布表 階級 階級値 度数 0~19点 20~39点 40~59点 60~79点 80~100点 10 30 50 70 90 10 20 40 20 10 相対度数 累積度数 0.1 0.2 0.4 0.2 0.1 10 30 70 90 100 累積相対 度数 0.1 0.3 0.7 0.9 1.0 [6-3-2] ローレンツ曲線 ●累積相対度数を組み合わせて描かれた折れ線 A B C D E 英語試験の得点分布 累積相対 累積相対 人数 得点 度数 度数 1 0.2 50 0.2 1 0.4 50 0.4 1 0.6 50 0.6 1 0.8 50 0.8 1 1.0 50 1.0 A B C D E 国語試験の得点分布 累積相対 累積相対 人数 得点 度数 度数 1 0.2 10 0.04 1 0.4 30 0.16 1 0.6 50 0.36 1 0.8 70 0.64 1 1.0 90 1.00 A B C D E 数学試験の得点分布 累積相対 累積相対 人数 得点 度数 度数 1 0.2 0 0.00 1 0.4 0 0.00 1 0.6 50 0.20 1 0.8 100 0.60 1 1.0 100 1.00 受験者 受験者 受験者 1 0.8 得 0.6 点 0.4 0.2 0 0.0 0.2 0.4 0.6 0.8 1.0 人数 1.0 0.8 得 0.6 点 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 人数 1.0 0.8 得 0.6 点 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 人数 [6-3-3] 不平等度 ●青線=45 度線、赤線=ローレンツ曲線 ●不平等度=青線と赤線に囲まれた部分の面積×2 ・0から1の間をとり、大きいほど不平等 ・正式にはジニ係数と呼ばれる [6-4] ヒストグラムの作成法 ●絶対的な方法はないが、簡便な方法として以下の 2つの方法を考える ●平均と標準偏差をもとに作成する方法(方法1) ・長所:平均値を中心としたヒストグラムになる ・短所:平均値が偏っている場合は問題 ●最大値と最小値をもとに作成する方法(方法2) ・授業で採用するが、細かすぎて全体的傾向を反 映しない場合もありうる ●階級数は奇数とする(偶数で間違いというのではない) [6-4a] ヒストグラムの作成法 ●方法1:平均と標準偏差をもとに作成する方法 S=標準偏差 K=階級数 ~ 平均値-S (K-2)/2 : ~ : 平均値-1.5S ~ 平均値-0.5S 平均値-0.5S ~ 平均値+0.5S 平均値+0.5S ~ 平均値+1.5S : : 平均値+S(K-2)/2 ~ [6-4b] ヒストグラムの作成法 ●方法2:最大値と最小値をもとに作成する方法 D:階級幅 K:階級数 D =(最大値―最小値)/K D =階級幅 K =階級数 ~ 最小値+D 最小値+D ~ 最小値+2D 最小値+2D ~ 最小値+3D : : 最小値+(K-2)D ~ 最小値+(K-1)D 最小値+(K-1)D ~ [6-4c] ヒストグラムの作成法 ●方法1が望ましくない場合(市区町村人口) 階級幅(人) 相対度数 0.7 ~ 43508 0.6115 0.6 43508 86086 0.1643 86086 128663 0.0744 0.5 128663 171241 0.0520 0.4 171241 213914 0.0322 0.3 213914 256492 0.0161 256492 299069 0.0135 0.2 299069 341647 0.0088 0.1 341647 384224 0.0073 0.0 384224 426802 0.0057 1 2 3 4 5 6 7 8 9 10 11 426802 ~ 0.0140 方法1によるヒストグラム 階級幅(人) 相対度数 0.5 ~ -365524 0 -365524 -269844 0 0.4 -269844 -174164 0 -174164 -78484 0 0.3 -78484 17196 0.37389 17196 112876 0.45138 0.2 112876 208556 0.10608 0.1 208556 304236 0.0338 304236 399916 0.01612 0 399916 495596 0.00988 1 2 3 4 5 6 7 8 9 10 11 495596 ~ 0.00884 [6-4d] ヒストグラムの作成法 ●方法2が望ましくない場合(市区町村持家率) 階級幅(%) ~ 44.2 44.2 48.3 48.3 52.5 52.5 56.6 56.6 60.7 60.7 64.9 64.9 69.0 69.0 73.1 73.1 77.3 77.3 81.4 81.4 ~ 階級幅(%) ~ 7.6 7.6 20.2 20.2 32.9 32.9 45.6 45.6 58.3 58.3 70.9 70.9 83.6 83.6 96.3 96.3 ~ 方法2によるヒストグラム 相対度数 0.16 0.07282 0.14 0.05982 0.12 0.05072 0.1 0.08973 0.08713 0.08 0.12094 0.06 0.10533 0.04 0.11834 0.02 0.13654 0 0.08453 1 2 3 4 5 6 7 8 9 10 11 0.07412 方法1によるヒストグラム 相対度数 0.4 0 0.0013 0.3 0.0039 0.08843 0.2 0.21326 0.1 0.3329 0.30949 0 0.05072 1 2 3 4 5 6 7 8 9 0 [6-5] 異常値の扱い ・まずデータを図示する ・ここでは 100 個のデータを折れ線グラフ化 ・51 番目の観測値が-10 と異常に小さいが、それ以 外はおおむね-2 から 2 の間にある [6-5a] 度数分布表の作成法 ・最小値に異常値を含めた場合の度数分布表 階級幅 ~ - 8 .9 4 2 - 7 .8 8 5 - 6 .8 2 7 - 5 .7 6 9 - 4 .7 1 2 - 3 .6 5 4 - 2 .5 9 6 - 1 .5 3 9 - 0 .4 8 1 0 .5 7 7 ~ 度数 - 8 .9 4 2 - 7 .8 8 5 - 6 .8 2 7 - 5 .7 6 9 - 4 .7 1 2 - 3 .6 5 4 - 2 .5 9 6 - 1 .5 3 9 - 0 .4 8 1 0 .5 7 7 1 0 0 0 0 0 1 7 27 39 25 [6-5b] 度数分布表の作成法 ・最小値に異常値を含めない場合の度数分布表 階級幅 ~ -2.589 -2.589 -2.167 -2.167 -1.744 -1.744 -1.322 -1.322 -0.9 -0.9 -0.477 -0.477 -0.055 -0.055 0.367 0.367 0.79 0.79 1.212 1.212 ~ 度数 2 1 3 6 12 12 17 19 9 13 6 [練習問題] 秋葉原で 15 人の男性に、 「この1年に AKB48 のコン サートに行った回数は?」と尋ねたところ、回数の 少ない順に 2, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 41 回との回答を得た。度数分布表とヒストグラ ムを作成しなさい。ただし、階級数は5とし、回数 の一番小さな階級は0回以上、回数の一番大きな階 級は 50 回未満とし、階級幅は全て等しいものとしま す。また、全ての階級は▽以上△未満としなさい。 [解答] 階級 0回以上10回未満 10回以上20回未満 20回以上30回未満 30回以上40回未満 40回以上50回未満 度数 3 10 1 0 1 12 ヒストグラム 10 8 6 4 2 0 0回以上 10回以 20回以 30回以 40回以 10回未 上20回 上30回 上40回 上50回 満 未満 未満 未満 未満 [6-6] 様々なヒストグラムの形 ・全国の最大 2206 市区町村 ・人口、高齢者比率など 197 種類のデータ ・階級数を 11 個としてヒストグラムを作成 ・異常値が含まれる可能性があるため、観測値のう ち、最も小さい順から3%と最も大きい順から 3%を取り除いて階級幅を方法2で決定 [6-6a] 様々なヒストグラムの形 ・観測数、階級数が必ずしも多くないため、ヒスト グラムがいびつになる可能性がある 正規分布1 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 -5 -3.9 -2.8 -1.7 -0.6 0.5 1.6 2.7 3.8 4.9 0.4 正規分布2 -5 -4 -3 -2 -1 0 1 2 3 4 5 ・階級数が101個の場合が左図、階級数が11個の場 合が右図 [6-6b] 様々なヒストグラムの形 ●右上がり 雇用者比率(雇用者数/就業者数、%) 不平等度=0.065 階級幅 市区町村数 300 ~ 56.9 90 56.9 59.8 49 250 59.8 62.6 83 200 62.6 65.4 125 65.4 68.3 150 150 68.3 71.1 182 100 71.1 74.0 210 50 74.0 76.8 225 76.8 79.6 272 0 79.6 82.5 272 1 2 3 4 5 6 7 8 9 10 11 82.5 ~ 260 [6-6c] 様々なヒストグラムの形 ●右下がり 財政力指数(市区町村の財政の余裕度を表す) 不平等度=0.322 階級幅 市区町村数 350 ~ 0.243 302 300 0.243 0.345 265 0.345 0.448 221 250 0.448 0.551 221 200 0.551 0.654 183 150 0.654 0.756 138 0.756 0.859 139 100 0.859 0.962 99 50 0.962 1.065 64 0 1.065 1.167 42 1 2 3 4 5 6 7 8 9 10 11 1.167 ~ 75 [6-6d] 様々なヒストグラムの形 ●均一的 他市区町村への通勤者数割合(%) 不平等度=0.234 階級幅 市区町村数 250 ~ 10.3 183 10.3 16.3 156 200 16.3 22.3 157 22.3 28.3 144 150 28.3 34.3 152 34.3 40.3 182 100 40.3 46.3 172 50 46.3 52.3 189 52.3 58.3 201 0 58.3 64.3 190 1 2 3 4 5 6 7 8 9 10 11 64.3 ~ 192 [6-6e] 様々なヒストグラムの形 ●三角形 離婚件数(人口千人当たり) 不平等度=0.178 階級幅 ~ 0.876 1.078 1.281 1.483 1.686 1.888 2.091 2.293 2.496 2.698 ~ 市区町村数 0.876 1.078 1.281 1.483 1.686 1.888 2.091 2.293 2.496 2.698 92 78 132 225 271 296 280 211 152 84 97 350 300 250 200 150 100 50 0 1 2 3 4 5 6 7 8 9 10 11 [6-6f] 様々なヒストグラムの形 ●逆三角形 可住地面積割合(%) 不平等度=0.344 階級幅 ~ 17.0 25.3 33.6 41.9 50.2 58.5 66.8 75.1 83.4 91.7 ~ 市区町村数 17.0 25.3 33.6 41.9 50.2 58.5 66.8 75.1 83.4 91.7 286 248 187 169 185 113 106 80 98 107 325 350 300 250 200 150 100 50 0 1 2 3 4 5 6 7 8 9 10 11 [6-6g] 様々なヒストグラムの形 ●不平等度が小さい ゴミ計画収集人口(%) 不平等度=0.015 階級幅 ~ 95.7 96.6 97.5 98.4 99.3 100.3 101.2 102.1 103.0 103.9 ~ 市区町村数 95.7 96.6 97.5 98.4 99.3 100.3 101.2 102.1 103.0 103.9 74 38 52 87 172 276 338 288 220 123 110 400 350 300 250 200 150 100 50 0 1 2 3 4 5 6 7 8 9 10 11 [6-6h] 様々なヒストグラムの形 ●不平等度が大きい 保育所入所待機児童数(人) 不平等度=0.927 階級幅 ~ 6.4 12.7 19.1 25.5 31.8 38.2 44.5 50.9 57.3 63.6 ~ 6.4 12.7 19.1 25.5 31.8 38.2 44.5 50.9 57.3 63.6 市区町村数 1800 1525 1600 47 1400 44 1200 26 1000 18 800 17 600 13 400 22 200 7 0 6 58 1 2 3 4 5 6 7 8 9 10 11
© Copyright 2024 ExpyDoc