統計学 第3回 10/12 - 経済学部|龍谷大学

統計学
第3週(第3回)10/11(木)
鈴木智也
1
今回の講義の位置づけ
第1部:記述統計
第2部:確率論
第3部:推測統計
第1部の構成
一変数の規則性を記述する
分布を表・グラフに表す ← ここ
二変数の関係を記述する
2
はじめに
細かい数字がびっしり並んだだけのデータ
から、意味あることを読み取るのは困難。
⇒集めたデータを読みやすく整理する。
⇒データがどの範囲にどのくらいの頻度で分
布しているかを、表やグラフにまとめる。
小学校の算数でやったこと!
3
基本的な手順
準備:データを大きさ順に並べ替えて、幾
つかの「級(Class)」に分ける。
(基本的に級の間隔を等しくする。)
①各級に幾つデータが入っているかを表に
する。⇒度数分布表
②それを柱状グラフで表す。⇒ヒストグラム
4
例:学生50人の体重の度数分布
体重(kg)
人数
50~54.5
4
55~59.9
6
60~64.9
13
65~69.9
17
70~74.9
6
75~79.9
4
5
.9
~
79
75
.9
~
74
70
.9
~
69
65
.9
~
64
60
.9
~
59
55
.9
~
54
50
人数(人)
例:そのヒストグラム
学生50人の体重分布(度数分布)
20
15
10
5
0
体重(kg)
6
応用①:相対度数分布(重要)
• 各級の度数を、全度数に対する割合にし
たものを「相対度数分布」という。
たとえば、前の例では、
50~54.5kg:50人中4人⇒4/50⇒8%
55~59.9kg:50人中6人⇒6/50⇒12%
相対度数分布は確率分布へ応用(第2部)。
7
例:学生50人の体重の相対分布
体重(kg)
相対頻度(%)
50~54.9
8
55~59.9
12
60~64.9
26
65~69.9
34
70~74.9
12
75~79.9
8
8
例:そのヒストグラム
~
70
79
.9
75
~
74
.9
9
69
.
~
65
64
.9
60
~
59
.9
55
~
~
54
.
9
40
35
30
25
20
15
10
5
0
50
人数(%)
学生50人の体重分布(相対度数)
体重(kg)
9
応用②:累積度数分布
• 全体の度数の中で、ある値以下の値を取
る度数、もしくはある値以上の値を取る度
数を表示する⇒累積度数
• たとえば、前の例では、
50~54.9kg:4人 + 55~59.9kg:6人
⇒60kg未満:10人
60~64.9kg:13人 ⇒ 65kg未満:23人
10
例:学生50人の体重の累積度数
体重(kg)
累積度数(人数)
50~54.9
4
55~59.9
10
60~64.9
23
65~69.9
40
70~74.9
46
75~79.9
50
11
例:そのヒストグラム
.9
75
~
79
.9
74
70
~
69
.9
65
~
.9
64
~
60
59
.9
~
55
~
54
.9
60
50
40
30
20
10
0
50
人数(人)
学生50人の体重分布(累積度数)
体重(kg)
12
実例:なぜグラフが有用なの
か?
• 総務省「家計調査(2004年)」によれば、日
本の勤労者世帯では、
平均貯蓄額:1,273万円!!
⇒ そんなに貯蓄のある人が多いのか?
⇒ No!
⇒ 実は分布に偏りがあり、平均値では偏り
が分らない。 ⇒ グラフ化すると分る。
13
4,000~
2,500~3,000
3,000~4,000
2,200~2,500
1,800~2,000
1,600~1,800
1,200~1,400
1,400~1,600
1,000~1,200
800~1,000
600~800
200~400
400~600
~200
単位:%
勤労者世帯の貯蓄高の分布
中位数:805万円 平均値:1,273万円
20
15
10
5
0
単位:万円
14
度数分布作成上の注意点
• 級間隔が小さいと、結果が見づらい。
• 級間隔が大きいと、結果が大雑把に。
⇒級の間隔を適切に決めるのは、各自の腕
の見せどころ。
*級を決める際の目安として「スタージスの
公式」があるが、必ずしも守る必要なし。
15
進んだ知識(前回のQ6)
• データの観測値が多ければ、
平均±標準偏差:度数の68%の範囲
平均±標準偏差×2:度数の95%の範囲
⇒サンプルが大きければ、平均と標準偏差
で、データの分布具合を記述可能。
16
ここまで習ったことは後で応用
確率論を学ぶ際に、理解を助ける。
• 期待値(後述) ←加重平均の応用
⇒確率をウェイトにする
• 確率分布(後述) ←度数分布の応用
⇒ある範囲の値を取った「頻度」の代わり
に、その値を取りそうな「確率」を調べる。
17