統計学 第3週(第3回)10/11(木) 鈴木智也 1 今回の講義の位置づけ 第1部:記述統計 第2部:確率論 第3部:推測統計 第1部の構成 一変数の規則性を記述する 分布を表・グラフに表す ← ここ 二変数の関係を記述する 2 はじめに 細かい数字がびっしり並んだだけのデータ から、意味あることを読み取るのは困難。 ⇒集めたデータを読みやすく整理する。 ⇒データがどの範囲にどのくらいの頻度で分 布しているかを、表やグラフにまとめる。 小学校の算数でやったこと! 3 基本的な手順 準備:データを大きさ順に並べ替えて、幾 つかの「級(Class)」に分ける。 (基本的に級の間隔を等しくする。) ①各級に幾つデータが入っているかを表に する。⇒度数分布表 ②それを柱状グラフで表す。⇒ヒストグラム 4 例:学生50人の体重の度数分布 体重(kg) 人数 50~54.5 4 55~59.9 6 60~64.9 13 65~69.9 17 70~74.9 6 75~79.9 4 5 .9 ~ 79 75 .9 ~ 74 70 .9 ~ 69 65 .9 ~ 64 60 .9 ~ 59 55 .9 ~ 54 50 人数(人) 例:そのヒストグラム 学生50人の体重分布(度数分布) 20 15 10 5 0 体重(kg) 6 応用①:相対度数分布(重要) • 各級の度数を、全度数に対する割合にし たものを「相対度数分布」という。 たとえば、前の例では、 50~54.5kg:50人中4人⇒4/50⇒8% 55~59.9kg:50人中6人⇒6/50⇒12% 相対度数分布は確率分布へ応用(第2部)。 7 例:学生50人の体重の相対分布 体重(kg) 相対頻度(%) 50~54.9 8 55~59.9 12 60~64.9 26 65~69.9 34 70~74.9 12 75~79.9 8 8 例:そのヒストグラム ~ 70 79 .9 75 ~ 74 .9 9 69 . ~ 65 64 .9 60 ~ 59 .9 55 ~ ~ 54 . 9 40 35 30 25 20 15 10 5 0 50 人数(%) 学生50人の体重分布(相対度数) 体重(kg) 9 応用②:累積度数分布 • 全体の度数の中で、ある値以下の値を取 る度数、もしくはある値以上の値を取る度 数を表示する⇒累積度数 • たとえば、前の例では、 50~54.9kg:4人 + 55~59.9kg:6人 ⇒60kg未満:10人 60~64.9kg:13人 ⇒ 65kg未満:23人 10 例:学生50人の体重の累積度数 体重(kg) 累積度数(人数) 50~54.9 4 55~59.9 10 60~64.9 23 65~69.9 40 70~74.9 46 75~79.9 50 11 例:そのヒストグラム .9 75 ~ 79 .9 74 70 ~ 69 .9 65 ~ .9 64 ~ 60 59 .9 ~ 55 ~ 54 .9 60 50 40 30 20 10 0 50 人数(人) 学生50人の体重分布(累積度数) 体重(kg) 12 実例:なぜグラフが有用なの か? • 総務省「家計調査(2004年)」によれば、日 本の勤労者世帯では、 平均貯蓄額:1,273万円!! ⇒ そんなに貯蓄のある人が多いのか? ⇒ No! ⇒ 実は分布に偏りがあり、平均値では偏り が分らない。 ⇒ グラフ化すると分る。 13 4,000~ 2,500~3,000 3,000~4,000 2,200~2,500 1,800~2,000 1,600~1,800 1,200~1,400 1,400~1,600 1,000~1,200 800~1,000 600~800 200~400 400~600 ~200 単位:% 勤労者世帯の貯蓄高の分布 中位数:805万円 平均値:1,273万円 20 15 10 5 0 単位:万円 14 度数分布作成上の注意点 • 級間隔が小さいと、結果が見づらい。 • 級間隔が大きいと、結果が大雑把に。 ⇒級の間隔を適切に決めるのは、各自の腕 の見せどころ。 *級を決める際の目安として「スタージスの 公式」があるが、必ずしも守る必要なし。 15 進んだ知識(前回のQ6) • データの観測値が多ければ、 平均±標準偏差:度数の68%の範囲 平均±標準偏差×2:度数の95%の範囲 ⇒サンプルが大きければ、平均と標準偏差 で、データの分布具合を記述可能。 16 ここまで習ったことは後で応用 確率論を学ぶ際に、理解を助ける。 • 期待値(後述) ←加重平均の応用 ⇒確率をウェイトにする • 確率分布(後述) ←度数分布の応用 ⇒ある範囲の値を取った「頻度」の代わり に、その値を取りそうな「確率」を調べる。 17
© Copyright 2024 ExpyDoc