2009年度 統計学講義内容 担当者 河田正樹 E-mail [email protected] このスライドの内容 • 統計学とはどのようなものか データの収集、分析をおこなう統計学は、学問として存在 しているばかりでなく、日常生活の中で無意識のうちにそ の考え方が用いられているものである。 • 経済学と統計学 経済学部という文系の学部で、統計学という数学のような ものはあまり関係ないように思われる。しかし、経済学を 学ぶ上で、統計学は非常に重要なものであり、現実経済 の把握や将来の予測には統計学が必ず用いられる。 統計学とはどのようなものか 経験の浅い者が、豊富な経験を持つものに対抗しようとするとき、統計学 の必要性が生じる。 a) 統計学の考え方 • 日常生活において、われわれは不確実なことがらに さまざまな情報を用いて、予測し、意思決定をおこな っている。 (例) 駅までバスでいくときには、 〇 通常の所要時間の情報 に加え 〇 曜日、季節、時間帯、天候などによる混雑度の情報 を用いて、所要時間を予測し、行動する。 • 通常の所要時間の情報、混雑度の情報をどのように 入手し、どのように利用しているのであろうか? – 普段からよく乗るバスであれば、大体の所要時間を記録( 多くの人は脳の中で)している。 – 平均所要時間と最大所要時間を大まかに計算している。 – さらに、曜日・時間帯・天候などで場合分けし、それぞれの 場合の平均所要時間と最大所要時間を大まかに計算して いる。 ⇒ 普段の「経験」は、無意識のうちに「統計学的なも のの考え方」を用いているのである。 • 統計学とは、分析目的に対応してデータを収集し、分析するこ とによって、予測や意思決定のための材料を提供する学問で ある。 統計学 分析目的 データの収集 分析 予測・ 意思決定 • 人間の記憶にはあいまいな所がある。事実を正確にとらえる ためには、きちんとデータを収集して、平均所要時間を求める (簡単な分析)などの統計学の手法を用いる必要がある。 b) 記述統計と推測統計 データを収集し、分析する統計学の立場には次の2 種類が考えられる。 • まず、得られたデータの特徴を何らかの数値(例えば 平均)や表・グラフにまとめたりすることが考えられる 。 ⇒ 記述統計(または統計的記述)という。 • 次に、データの記述にもとづき、そのデータを生成し た集団や構造(これを母集団という)についての推論 をおこなうことが考えられる。 ⇒ 推測統計という。 1) 記述統計の例 主要死因別死亡率の推移(男) 人 200 000 180 000 悪性新生物 160 000 心疾患(高血圧 性を除く) 脳血管疾患 140 000 120 000 100 000 肺炎 80 000 60 000 不慮の事故 40 000 20 000 年 自殺 0 昭和45年 50年 55年 60年 平成2年 7年 12年 17年 主要死因別死亡率の推移(女) 人 悪性新生物 200 000 180 000 心疾患(高血圧 性を除く) 脳血管疾患 160 000 140 000 120 000 100 000 肺炎 80 000 60 000 不慮の事故 40 000 20 000 自殺 年 17 年 12 7年 2年 60 年 55 年 50 年 成 平 和 45 年 0 昭 • 左のグラフは主要 死因別死亡数の 推移を折れ線グラ フであらわしたも の。 • これらから、死因 別死亡数が時代と ともにどのように 変化したかを見る ことができる。 年 「経験」をきちんと 整理する 2) 推測統計の例 母集団(個体数N) × 標本(個体数n) × × × × × × × × × 母集団 - 知りたい対象の集ま り 標本 - 母集団から抜き出され たその一部 × × 母平均 μ 推論 標本平均 x 母比率 p 標本比率 p ˆ 母数 θ 標本統計量 t 全数調査 - 母集団の全てに ついて調査をおこなうこと 標本調査 - 母集団から抜き出 された一部について調査をおこな うこと 標本統計量をもとに、母数についての推論をおこなうのが推測統計である。 晴れた日の夕方のバスの所要時間を知りたいとする。 晴れた日の夕方に走るすべてのバスについて、所要時間の データを収集することは不可能である。このとき、たとえば10 日間に乗ったバスを標本(サンプル)として考える。 母集団(晴れた日の 夕方のバス全体) × × 標本(乗ったバス10回) × × × × × × × × 平均所要時間 μ 推論 平均所要時間 x 少ない「経験」をもとに、多くを経験した場合のことを推論する。 3) 推測統計の注意点 • 標本から得た母集団についての情報は、誤差を持っている。 • たとえば、晴れた平日の夕方にAさんとBさんがそれぞれ別の 日にバスに乗ってデータ収集をおこなう。 – Aさんは10回乗ったところ、目的地まで平均15分でついた。 – Bさんは運の悪い人で、乗ったバスが信号に何度もつかまり、10回乗っ たところ平均時間は20分であった。 母集団(晴れた日の 夕方のバス全体) × × × × × × 標本1(Aさんの乗った バス10回) 平均15分 × × × × × × 標本2(Bさんの乗った バス10回) 平均20分 ⇒ 選んだ標本(サンプル)から求めた平均所要時間には誤差 がある。 ⇒ 標本誤差(標本の偏り)の問題 • 推測統計では、標本から得られる情報にもとに、確率を用いて、 誤差の大きさを評価し、母集団についての情報を推論する。 推測統計の例 -視聴率- • ドラマやスポーツなどのテレビ番組の視聴率は、ビデオリ サーチ社が調査している。 • 全国を各地区に分け、視聴率を調べているが、新聞などで 大きく取り上げられるのは、関東地区の結果である。 • 関東地区の場合、約1580万世帯のうち、600世帯を標本(サ ンプル)として選び調査している。 母集団(1580万世帯) × × 標本(600世帯) × × × × × × × × × × (例) 第2回 World Baseball Classic 決勝(2009.3.23 放送)の視聴率は36.4%であった。 – テレビ局の論理 1580万世帯×0.364 = 575万世帯が視聴している。 視聴率が1%増えるということは、関東地区だけで 1580万世帯×0.01 = 15万世帯増加 全国では4700万世帯×0.01 = 47万世帯(その世帯に住 む人数を考えると約100万人の増加) ⇒ 標本誤差を考慮せず、標本から求めた視聴率が母集団 から求めた視聴率に等しいとしている。 – 統計学の論理 標本の600世帯×0.364 = 218世帯が視聴しているという こと。 視聴率が1%増えるということは、600世帯×0.01 = 6世帯 がたまたまその番組を見ていたことである。 1%程度の視聴率は標本誤差によって変わる可能性があ る。 • では、標本調査で36.4%という結果を得た場合、母 集団の視聴率はどの程度なのだろうか? ⇒ これに答えるのが統計的推定 • 視聴率35%以上の番組を作った場合、プロデュー サーの査定にプラスになるという内規があったとす る。しかし、この番組は本当に35%を超えたのだろう か? ⇒ これに答えるのが統計的検定 ※ 2003年10月に発覚した、視聴率操作事件をおこした日本テレビプロ デューサーは、視聴率のわずかな差にこだわっていたが、統計学の立場 からすると、わずかな差にこだわるのはバカバカしい。 経済学と統計学 • 経済学を学ぶ場合、マクロ経済学やミクロ経済学な どの経済理論を学ぶとともに、それらが現実経済と 一致するかを検証しなくてはならない。 一致? 経済理論 現実経済 • 現実経済の状態を把握するために、記述統計が用 いられる。 – 完全失業率を算出する – 株価の動きをグラフ化する – 所得税減税効果と、消費増大の関係について、回帰分析 をおこなう。 → 所得税を○○%引き下げることによって、消費が △△%増大する • さらに、現状把握をもとに予測し、意思決定をおこな うためには、推測統計が用いられる。 – 完全失業率は、これは日本全国15歳以上(1億人)から10 万人を標本として選んだ調査の結果である。この数値が 前月と比べて0.1%増えたところで、誤差の範囲内ではな いだろうか? – 所得税を○○%引き下げることによって、消費が△△% 増大することが回帰分析によってわかった。しかし、この 分析は標本にもとづいて分析されたものであり、実際には ± □% の誤差がある。 ⇒ 誤差をふまえたうえでの意思決定が必要 マーケティングと統計学 • マーケティングと統計学は密接な関係がある。 – コンビニなどのPOSシステムのデータは、天候、時間、年 齢、性別などによってどのような商品が売れるのかを解 析するために用いられている。 – 市場調査のためにアンケートをおこなう場合には、調査 対象者をどのぐらいの規模でどのようにして選ぶかなど には統計学の知識が必要不可欠である。(統計的推定に 含まれるサンプリング(標本抽出法)の話) スポーツと統計学 • スポーツの戦術、トレーニング方法などを科学的に 解明する場合、統計学の助けが必要となる。 – 野球の戦術において、打率、防御率などはどの選手をどのように起 用するか(打順、登板順など)に用いられるし、投手の配球を読む上 で統計学は非常に役に立つ。選手の起用に際して、メジャーリーグの アスレチックスを起源とするでは「セイバーメトリクス」という統計的分 析手法が出てきており、OPS(On-base Plus Slugging)という出塁 率+長打率で求められる指標が、得点との関連が高いことがいわれ ている。 – トレーニングの面では、2つのトレーニング方法があった場合、どちら がより効果的なトレーニング方法であるかなどは、統計的検定によっ て検証される。 講義内容 第1章 記述統計の復習 第2章 確率と確率分布 第3章 統計的推定 第4章 統計的検定 第5章 回帰分析入門
© Copyright 2024 ExpyDoc