統計学基礎Ⅱ

2012年度
統計学講義内容
担当者 河田正樹
E-mail [email protected]
このスライドの内容
• 統計学とはどのようなものか
データの収集、分析をおこなう統計学は、学問として存在
しているばかりでなく、日常生活の中で無意識のうちにそ
の考え方が用いられているものである。
• 経済学と統計学
経済学部という文系の学部で、統計学という数学のような
ものはあまり関係ないように思われる。しかし、経済学を
学ぶ上で、統計学は非常に重要なものであり、現実経済
の把握や将来の予測には統計学が必ず用いられる。
統計学とはどのようなものか
a) 統計学の考え方
(問) 大学から徳山駅まで、車で何分かかるのを知りたい。
どのようにすれば知ることができるだろうか?
• いつも大体、15分ぐらいで着く。
⇒ 15分というのはきちんと測定した数値ですか?
• 実際に車で走ってみた。そのとき16分30秒かかった。
⇒ 実際に測定した数値ですが、1回だけ良いのでしょうか?
※ 数多くの観察(実験)をおこなった結果、大学から駅まで何分かかるかを
知ることができる。
直観的であいまいな観察に、客観性を与えてくれる。
• 駅まで車で何分かかるかを、わざわざ多数観察することは必要か?
⇒ 必要と思う人と、思わない人がいるであろう。
⇒ しかし、駅までの所要時間が分かれば、効率的に行動することができる。
⇒ 実際に測定すべきか、なんとなくの時間でよいかは、その人の状況によって
異なる。
• この観察をおこなうときに、「時間帯」、「時期」、「曜日」、「天候」などについ
ても同時に観察することも考えられよう。
• これらのデータの間にから何を見出せるのであろう?
⇒ (例) 雨の日は通常より時間がかかる
夕方は日中より時間がかかる
など
• われわれは、得られたデータ間に見いだされた関係から、将来より効率的
に行動するために、何を学びうるであろうか?
⇒ (例)雨の日や夕方に大学から駅まで車で行くときには、所要時間が
多くかかることを予測し、行動することが効率的である。
• 「経験」を効率的に整理する(少ない経験で、豊富な経験と同等の知
識を持つ)ためには、統計学の助けが必要不可欠である。
• 統計学とは、分析目的に対応してデータを収集し、分析することに
よって、予測や意思決定のための材料を提供する学問である。
統計学
分析目的
データの収集
分析
予測・
意思決定
b) 記述統計と推測統計
データを収集し、分析する統計学の立場には次の2
種類が考えられる。
• まず、得られたデータの特徴を何らかの数値(例えば
平均)や表・グラフにまとめたりすることが考えられる
。
⇒ 記述統計(または統計的記述)という。
• 次に、データの記述にもとづき、そのデータを生成し
た集団や構造(これを母集団という)についての推論
をおこなうことが考えられる。
⇒ 推測統計という。
1) 記述統計の例
あるクラスのテストの点数が次のようになっていたとする。
39,
63,
44,
44,
22,
69,
69,
66,
67,
78,
34,
33,
60,
88,
20,
54,
43,
73,
17,
34,
20,
20,
63,
69,
46, 47, 20, 30
58, 87, 47, 75
36, 7, 27, 21
60, 23
このような数字の羅列だけでは、このクラスの特徴をとら
えることは難しい。そのため、このクラスの特徴を何らか
の数値であらわしたり、表・グラフにまとめたりする、記述
統計の助けが必要である。
特性値(統計量)
クラスの特徴を、特性値(統計量
ともいう)といわれる数値であら
わしたり、度数分布表とヒストグ
ラムといった表やグラフにまとめ
てみる。
平均点
最高点
最低点
度数分布表
級
-
階級値
9
19
29
39
49
59
69
79
89
100
5
15
25
35
45
55
65
75
85
95
ヒストグラム
度数
テストの点数
1
1
8
6
6
2
9
3
2
0
10
8
度数
階
0
10
20
30
40
50
60
70
80
90
46.66
88
7
6
4
2
0
5
15
25
35
45
55
点数
65
75
85
95
• そのほか、今まで見慣れている、さまざまなグラフをとりあげる。どのよう
な場合にどのグラフが有効であるか、再整理する。
3.5
6
3
5.5
2.5
4.5
棒グラフ
4
度数
5
2
1.5
2011年01月
2010年09月
2010年05月
2010年01月
2009年09月
2009年05月
2009年01月
2008年09月
2008年05月
2008年01月
2007年09月
2007年05月
0.5
2007年01月
3
2006年09月
1
2006年05月
3.5
2006年01月
折れ線グラフ
完全失業率(%)
完全失業率の推移(男女計・季節調整値)
0
1人
4人
仮想データから作成
年齢3階級別総人口の推移
年
1930
20%
円グラフ
3人
家族の人数
出典:総務省統計局『労働力調査』
学年別の割合
2人
40%
帯グラフ
1950
2年
3年
1970
4年
1990
0-14歳
15-64歳
65歳-
2005
40%
0%
仮想データから作成
20%
40%
60%
80%
100%
出典:総務省統計局『国勢調査』
5人
2) 推測統計の例
母集団(個体数N)
×
標本(個体数n)
×
×
×
×
×
×
×
×
×
母集団 - 知りたい対象の集ま
り
標本 - 母集団から抜き出され
たその一部
×
×
母平均 μ
推論
標本平均 x
母比率 p
標本比率 p
ˆ
母数 θ
標本統計量 t
全数調査 - 母集団の全てに
ついて調査をおこなうこと
標本調査 - 母集団から抜き出
された一部について調査をおこな
うこと
標本統計量をもとに、母数についての推論をおこなうのが推測統計である。
晴れた日の夕方のバスの所要時間を知りたいとする。
晴れた日の夕方に走るすべてのバスについて、所要時間の
データを収集することは不可能である。このとき、たとえば10
日間に乗ったバスを標本(サンプル)として考える。
母集団(晴れた日の
夕方のバス全体)
×
×
標本(乗ったバス10回)
×
×
×
×
×
×
×
×
平均所要時間 μ
推論
平均所要時間
x
少ない「経験」をもとに、多くを経験した場合のことを推論する。
3) 推測統計の注意点
• 標本から得た母集団についての情報は、誤差を持っている。
• たとえば、晴れた平日の夕方にAさんとBさんがそれぞれ別の
日にバスに乗ってデータ収集をおこなう。
– Aさんは10回乗ったところ、目的地まで平均15分でついた。
– Bさんは運の悪い人で、乗ったバスが信号に何度もつかまり、10回乗っ
たところ平均時間は20分であった。
母集団(晴れた日の
夕方のバス全体)
×
×
×
×
×
×
標本1(Aさんの乗った
バス10回) 平均15分
×
×
×
×
×
×
標本2(Bさんの乗った
バス10回) 平均20分
⇒ 選んだ標本(サンプル)から求めた平均所要時間には誤差
がある。
⇒ 標本誤差(標本の偏り)の問題
※ 内閣発足直後、新聞各社は支持率調査をおこなうが、各社ごとにその結果が異
なる。それはこの標本誤差(標本の偏り)の問題による。
• 推測統計では、標本から得られる情報にもとに、確率を用いて、
誤差の大きさを評価し、母集団についての情報を推論する。
<野田内閣発足直後の支持率の例>
母集団(有権者1億人)
×
×
×
×
標本1(朝日1051人)
53%
×
×
×
×
×
×
×
×
2011年9月4日付の朝刊各
紙に掲載された野田内閣支
持率を見ると、異なった結果
になっている。
同じ対象に同じ調査をおこ
なっても、標本によってその結
果が異なる。
これが、標本の偏りである。
×
×
×
×
×
×
標本2(読売1100人)
65%
標本3(毎日1001人)
56%
標本4(日経954人)
67%
標本5(共同1014人)
62%
推測統計の例 -視聴率-
• ドラマやスポーツなどのテレビ番組の視聴率は、ビデオリ
サーチ社が調査している。
• 全国を各地区に分け、視聴率を調べているが、新聞などで
大きく取り上げられるのは、関東地区の結果である。
• 関東地区の場合、約1580万世帯のうち、600世帯を標本(サ
ンプル)として選び調査している。
母集団(1580万世帯)
×
×
標本(600世帯)
×
×
×
×
×
×
×
×
×
×
(例) 2012年4月1日放送の「キリンチャレンジカップ
サッカー2012・なでしこJAPAN×アメリカ」の視聴
率は14.8%であった。
– テレビ局の論理
1580万世帯×0.148 = 234万世帯が視聴している。
視聴率が1%増えるということは、関東地区だけで
1580万世帯×0.01 = 15万世帯増加
全国では4700万世帯×0.01 = 47万世帯(その世帯に住
む人数を考えると約100万人の増加)
⇒ 標本誤差を考慮せず、標本から求めた視聴率が母集団
から求めた視聴率に等しいとしている。
– 統計学の論理
標本の600世帯×0.148 = 89世帯が視聴しているという
だけのこと。
視聴率が1%増えるということは、600世帯×0.01 = 6世帯
がたまたまその番組を見ていたことである。
1%程度の視聴率は標本誤差によって変わる可能性があ
る。
• では、標本調査で14.8%という結果を得た場合、母
集団の視聴率はどの程度なのだろうか?
⇒ これに答えるのが統計的推定
• 視聴率10%以上の番組を作った場合、プロデュー
サーの査定にプラスになるという内規があったとす
る。しかし、この番組は本当に10%を超えたのだろう
か?
⇒ これに答えるのが統計的検定
※ 2003年10月に発覚した、視聴率操作事件をおこした日本テレビプロ
デューサーは、視聴率のわずかな差にこだわっていたが、統計学の立場
からすると、わずかな差にこだわるのはバカバカしい。
経済学と統計学
• 経済学を学ぶ場合、マクロ経済学やミクロ経済学な
どの経済理論を学ぶとともに、それらが現実経済と
一致するかを検証しなくてはならない。
一致?
経済理論
現実経済
• 現実経済の状態を把握するために、記述統計が用
いられる。
– 完全失業率を算出する
– 株価の動きをグラフ化する
– 所得税減税効果と、消費増大の関係について、回帰分析
をおこなう。
→ 所得税を○○%引き下げることによって、消費が
△△%増大する
• さらに、現状把握をもとに予測し、意思決定をおこな
うためには、推測統計が用いられる。
– 完全失業率は、これは日本全国15歳以上(1億人)から10
万人を標本として選んだ調査の結果である。この数値が
前月と比べて0.1%増えたところで、誤差の範囲内ではな
いだろうか?
– 所得税を○○%引き下げることによって、消費が△△%
増大することが回帰分析によってわかった。しかし、この
分析は標本にもとづいて分析されたものであり、実際には
± □% の誤差がある。
⇒ 誤差をふまえたうえでの意思決定が必要
マーケティングと統計学
• マーケティングと統計学は密接な関係がある。
– コンビニなどのPOSシステムのデータは、天候、時間、年
齢、性別などによってどのような商品が売れるのかを解
析するために用いられている。
– 市場調査のためにアンケートをおこなう場合には、調査
対象者をどのぐらいの規模でどのようにして選ぶかなど
には統計学の知識が必要不可欠である。(統計的推定に
含まれるサンプリング(標本抽出法)の話)
スポーツと統計学
• スポーツの戦術、トレーニング方法などを科学的に
解明する場合、統計学の助けが必要となる。
– 野球の戦術において、打率、防御率などはどの選手をどのように起
用するか(打順、登板順など)に用いられるし、投手の配球を読む上
で統計学は非常に役に立つ。選手の起用に際して、メジャーリーグの
アスレチックスを起源とするでは「セイバーメトリクス」という統計的分
析手法が出てきており、OPS(On-base Plus Slugging)という出塁
率+長打率で求められる指標が、得点との関連が高いことがいわれ
ている。
– トレーニングの面では、2つのトレーニング方法があった場合、どちら
がより効果的なトレーニング方法であるかなどは、統計的検定によっ
て検証される。
講義内容
第1章 記述統計の復習
第2章 確率と確率分布
第3章 統計的推定
第4章 統計的検定
第5章 回帰分析入門