統計学基礎Ⅱ

2010年度
統計学講義内容
担当者 河田正樹
E-mail [email protected]
このスライドの内容
• 統計学とはどのようなものか
データの収集、分析をおこなう統計学は、学問として存在
しているばかりでなく、日常生活の中で無意識のうちにそ
の考え方が用いられているものである。
• 経済学と統計学
経済学部という文系の学部で、統計学という数学のような
ものはあまり関係ないように思われる。しかし、経済学を
学ぶ上で、統計学は非常に重要なものであり、現実経済
の把握や将来の予測には統計学が必ず用いられる。
統計学とはどのようなものか
経験の浅い者が、豊富な経験を持つものに対抗しようとするとき、統計学
の必要性が生じる。
a) 統計学の考え方
• 日常生活において、われわれは不確実なことがらに
さまざまな情報を用いて、予測し、意思決定をおこな
っている。
(例) 駅までバスでいくときには、
〇 通常の所要時間の情報 に加え
〇 曜日、季節、時間帯、天候などによる混雑度の情報
を用いて、所要時間を予測し、行動する。
• 通常の所要時間の情報、混雑度の情報をどのように
入手し、どのように利用しているのであろうか?
– 普段からよく乗るバスであれば、大体の所要時間を記録(
多くの人は脳の中で)している。
– 平均所要時間と最大所要時間を大まかに計算している。
– さらに、曜日・時間帯・天候などで場合分けし、それぞれの
場合の平均所要時間と最大所要時間を大まかに計算して
いる。
⇒ 普段の「経験」は、無意識のうちに「統計学的なも
のの考え方」を用いているのである。
• 統計学とは、分析目的に対応してデータを収集し、分析するこ
とによって、予測や意思決定のための材料を提供する学問で
ある。
統計学
分析目的
データの収集
分析
予測・
意思決定
• 人間の記憶にはあいまいな所がある。事実を正確にとらえる
ためには、きちんとデータを収集して、平均所要時間を求める
(簡単な分析)などの統計学の手法を用いる必要がある。
b) 記述統計と推測統計
データを収集し、分析する統計学の立場には次の2
種類が考えられる。
• まず、得られたデータの特徴を何らかの数値(例えば
平均)や表・グラフにまとめたりすることが考えられる
。
⇒ 記述統計(または統計的記述)という。
• 次に、データの記述にもとづき、そのデータを生成し
た集団や構造(これを母集団という)についての推論
をおこなうことが考えられる。
⇒ 推測統計という。
1) 記述統計の例
主要死因別死亡率の推移(男)
人
200 000
180 000
悪性新生物
160 000
心疾患(高血圧
性を除く)
脳血管疾患
140 000
120 000
100 000
肺炎
80 000
60 000
不慮の事故
40 000
20 000
年
自殺
0
昭和45年
50年
55年
60年
平成2年
7年
12年
17年
主要死因別死亡率の推移(女)
人
悪性新生物
200 000
180 000
心疾患(高血圧
性を除く)
脳血管疾患
160 000
140 000
120 000
100 000
肺炎
80 000
60 000
不慮の事故
40 000
20 000
自殺
年
17
年
12
7年
2年
60
年
55
年
50
年
成
平
和
45
年
0
昭
• 左のグラフは主要
死因別死亡数の
推移を折れ線グラ
フであらわしたも
の。
• これらから、死因
別死亡数が時代と
ともにどのように
変化したかを見る
ことができる。
年
「経験」をきちんと
整理する
2) 推測統計の例
母集団(個体数N)
×
標本(個体数n)
×
×
×
×
×
×
×
×
×
母集団 - 知りたい対象の集ま
り
標本 - 母集団から抜き出され
たその一部
×
×
母平均 μ
推論
標本平均 x
母比率 p
標本比率 p
ˆ
母数 θ
標本統計量 t
全数調査 - 母集団の全てに
ついて調査をおこなうこと
標本調査 - 母集団から抜き出
された一部について調査をおこな
うこと
標本統計量をもとに、母数についての推論をおこなうのが推測統計である。
晴れた日の夕方のバスの所要時間を知りたいとする。
晴れた日の夕方に走るすべてのバスについて、所要時間の
データを収集することは不可能である。このとき、たとえば10
日間に乗ったバスを標本(サンプル)として考える。
母集団(晴れた日の
夕方のバス全体)
×
×
標本(乗ったバス10回)
×
×
×
×
×
×
×
×
平均所要時間 μ
推論
平均所要時間
x
少ない「経験」をもとに、多くを経験した場合のことを推論する。
3) 推測統計の注意点
• 標本から得た母集団についての情報は、誤差を持っている。
• たとえば、晴れた平日の夕方にAさんとBさんがそれぞれ別の
日にバスに乗ってデータ収集をおこなう。
– Aさんは10回乗ったところ、目的地まで平均15分でついた。
– Bさんは運の悪い人で、乗ったバスが信号に何度もつかまり、10回乗っ
たところ平均時間は20分であった。
母集団(晴れた日の
夕方のバス全体)
×
×
×
×
×
×
標本1(Aさんの乗った
バス10回) 平均15分
×
×
×
×
×
×
標本2(Bさんの乗った
バス10回) 平均20分
⇒ 選んだ標本(サンプル)から求めた平均所要時間には誤差
がある。
⇒ 標本誤差(標本の偏り)の問題
※ 内閣発足直後、新聞各社は支持率調査をおこなうが、各社ごとにその結果が異
なる。それはこの標本誤差(標本の偏り)の問題による。
• 推測統計では、標本から得られる情報にもとに、確率を用いて、
誤差の大きさを評価し、母集団についての情報を推論する。
<鳩山内閣発足直後の支持率の例>
母集団(有権者1億人)
×
×
×
×
標本1(朝日1054人)
71%
×
×
×
×
×
×
×
×
2009年9月18日付の朝刊各
紙に掲載された鳩山内閣支
持率を見ると、異なった結果
になっている。
同じ対象に同じ調査をおこ
なっても、標本によってその結
果が異なる。
これが、標本の偏りである。
×
×
×
×
×
×
標本2(読売1087人)
75%
標本3(毎日1014人)
77%
標本4(日経857人)
75%
標本5(共同1032人)
72%
推測統計の例 -視聴率-
• ドラマやスポーツなどのテレビ番組の視聴率は、ビデオリ
サーチ社が調査している。
• 全国を各地区に分け、視聴率を調べているが、新聞などで
大きく取り上げられるのは、関東地区の結果である。
• 関東地区の場合、約1580万世帯のうち、600世帯を標本(サ
ンプル)として選び調査している。
母集団(1580万世帯)
×
×
標本(600世帯)
×
×
×
×
×
×
×
×
×
×
(例) 2010年4月4日放送の「龍馬伝」第14回の視聴
率は18.5%であった。
– テレビ局の論理
1580万世帯×0.185 = 292万世帯が視聴している。
視聴率が1%増えるということは、関東地区だけで
1580万世帯×0.01 = 15万世帯増加
全国では4700万世帯×0.01 = 47万世帯(その世帯に住
む人数を考えると約100万人の増加)
⇒ 標本誤差を考慮せず、標本から求めた視聴率が母集団
から求めた視聴率に等しいとしている。
– 統計学の論理
標本の600世帯×0.185 = 111世帯が視聴しているという
こと。
視聴率が1%増えるということは、600世帯×0.01 = 6世帯
がたまたまその番組を見ていたことである。
1%程度の視聴率は標本誤差によって変わる可能性があ
る。
• では、標本調査で36.4%という結果を得た場合、母
集団の視聴率はどの程度なのだろうか?
⇒ これに答えるのが統計的推定
• 視聴率35%以上の番組を作った場合、プロデュー
サーの査定にプラスになるという内規があったとす
る。しかし、この番組は本当に35%を超えたのだろう
か?
⇒ これに答えるのが統計的検定
※ 2003年10月に発覚した、視聴率操作事件をおこした日本テレビプロ
デューサーは、視聴率のわずかな差にこだわっていたが、統計学の立場
からすると、わずかな差にこだわるのはバカバカしい。
経済学と統計学
• 経済学を学ぶ場合、マクロ経済学やミクロ経済学な
どの経済理論を学ぶとともに、それらが現実経済と
一致するかを検証しなくてはならない。
一致?
経済理論
現実経済
• 現実経済の状態を把握するために、記述統計が用
いられる。
– 完全失業率を算出する
– 株価の動きをグラフ化する
– 所得税減税効果と、消費増大の関係について、回帰分析
をおこなう。
→ 所得税を○○%引き下げることによって、消費が
△△%増大する
• さらに、現状把握をもとに予測し、意思決定をおこな
うためには、推測統計が用いられる。
– 完全失業率は、これは日本全国15歳以上(1億人)から10
万人を標本として選んだ調査の結果である。この数値が
前月と比べて0.1%増えたところで、誤差の範囲内ではな
いだろうか?
– 所得税を○○%引き下げることによって、消費が△△%
増大することが回帰分析によってわかった。しかし、この
分析は標本にもとづいて分析されたものであり、実際には
± □% の誤差がある。
⇒ 誤差をふまえたうえでの意思決定が必要
マーケティングと統計学
• マーケティングと統計学は密接な関係がある。
– コンビニなどのPOSシステムのデータは、天候、時間、年
齢、性別などによってどのような商品が売れるのかを解
析するために用いられている。
– 市場調査のためにアンケートをおこなう場合には、調査
対象者をどのぐらいの規模でどのようにして選ぶかなど
には統計学の知識が必要不可欠である。(統計的推定に
含まれるサンプリング(標本抽出法)の話)
スポーツと統計学
• スポーツの戦術、トレーニング方法などを科学的に
解明する場合、統計学の助けが必要となる。
– 野球の戦術において、打率、防御率などはどの選手をどのように起
用するか(打順、登板順など)に用いられるし、投手の配球を読む上
で統計学は非常に役に立つ。選手の起用に際して、メジャーリーグの
アスレチックスを起源とするでは「セイバーメトリクス」という統計的分
析手法が出てきており、OPS(On-base Plus Slugging)という出塁
率+長打率で求められる指標が、得点との関連が高いことがいわれ
ている。
– トレーニングの面では、2つのトレーニング方法があった場合、どちら
がより効果的なトレーニング方法であるかなどは、統計的検定によっ
て検証される。
講義内容
第1章 記述統計の復習
第2章 確率と確率分布
第3章 統計的推定
第4章 統計的検定
第5章 回帰分析入門