統計的推測 専修大学経済学部 作間逸雄「経済統計学」講義 統計的推測の種類 標本の観察 (標本統計量) 例:標本平均 統計的推測の種類 母集団の特徴 (母数) 母平均 点推定 推定 区間推定 検定 標本から母集団を推測する1 池の魚の数を数える。 とりあえず、50匹を捕まえ、尾に赤い標識を つけて逃がす。次の日、10匹捕まえたとこ ろ、そのうち2匹が標識をつけていたとする。 池の魚全体(その数をXとする)のうち、標識 のついている魚の割合が今回捕まえた魚の 中での割合と等しいと仮定する。 すると、2÷10=50÷Xから、X=250と推 測する。 最尤法 「尤(もっと)もらしい」の「尤」である。 母比率をπとする。πをいろいろ変化させてみて、実際 のデータに含まれる比率pが観察される確率が一番高 くなるように、πを決める方法を最尤法という。 10匹の中に2匹に標識のついた魚がいる確率は、 p(2) 10 C2 2 (1 )102 この確率が最大になるように、πを選ぶのが最尤 法。微分を使って計算すると、π=2/10を得る。 点推定と不偏性 1 n 1 n 1 E ( X ) E ( X i ) E ( X i ) n n i 1 n i 1 n 標本平均は、母平均の不偏推定量である。一般 に、推定量が母数にたいして次の関係があるとき、 不偏推定量という。 E (ˆ) 「標本分布」の概念が鍵 標本統計量(たとえば、標本平均のように、標 本を与えるとその関数として決まる量を確率 変数と考えたもの)の分布を標本分布という。 原理的には、母集団分布がわかっていて、標 本分布を計算するわけだが… 母集団分布が知られなくても、標本分布につ いて、わかることがある。 標本平均の期待値・分散 1 1 1 E ( X ) E ( X ) E ( X ) n 確率変数X、Yが独立であれば、 n n n 1 12 2 2 V ( X ) V ( X ) 2 nV ( X ) n n n V (aX bY ) a V ( X ) b V (Y ) さらに、中心極限定理により、サンプル・サイ ズが大きければ、 X N ( , 2 n ) 中心極限定理(復習) x1 , x2 , , xnが独立の確率変数で、 それぞれ分散が有限のと き 、 1 x x1 x2 xn や x ( x1 x2 xn ) の分布は、 n nが大き ければ、 正規分布に近づく 。 正規分布は、ガウスの発見以来、誤差の分布をあ らわすときに、よく使われる。(複雑な多数の原因が 相互に独立に不規則に作用すると考える!) 中心極限定理の図示 大数(たいすう)の法則 標本平均は、 標本サイ ズを 大き く すれば、 母集団平均に近づく 。 実際、 確率変数xの分布が平均、 標準偏差 n を も つこ と がわかっ た。 こ のこ と に、 チェ ビ シェ フ の不等式を 適用する と 、 1 Pr x- k k2 n kがど んなに大き く ても 、 nを 十分大き く と る こ と によ り 、 上のこ と がわかる 。 中心極限定理を 使っても同じこと がいえる。 大数(たいすう)の法則(補) 黒と白の球が入った壺から繰り返し球を1個取り出 し、球の色を記録してから戻し、中身をかき混ぜた あと、また球を取り出す。これをN回繰り返し、取り 出した球が黒である割合(相対頻度、標本比率)が 壺の中の黒い球の割合(母比率)からわずかな誤 差e以内である確率はいくらか?Nを大きくすれば 誤差eをいくらでも小さくすることができる。このこと を示したのは、ジャック・ベルヌーイ(1713)。 「大数の法則」(Law of Large Numbers)という 名前をつけ、より一般的なケースで証明したのは、 シメオン・ドゥニ・ポアソン(1837)。 正規分布と <正規分布を売り歩いた男>ケトレー ケトレー 1796-1874 正規分布とケトレー(続) 特定の人間集団(たとえば、イギリス人とか 日本人とか)について、典型的な「平均人 (the average man)」を構想し、集団をそ の諸特性の平均により記述できると考えた。 その際、個人差は、正規分布(誤差曲線)に 沿った誤差のようなものとされた。 最近、ケトレーの構想したBMI指数(ボ ディー・マス・インデックス= 「体重(kg)÷ 身長(m)の2乗)」 )が話題になっている。 BMI指数(ケトレー指数)の話題 マドリード・ファッションショー:やせ過ぎモデル、5人が「失 格」 「少女らに誤ったメッセージを送る」としてやせ過ぎたファッ ションモデルの出場を禁じたマドリード・ファッションショーが1 8日、開幕した。17日に行われた事前の身体測定では、モデ ル68人中5人が規定値に達せず出場禁止となった。イタリ ア・ミラノのファッションショーも規定導入の動きをみせるなど 波紋が広がっている。 マドリード・ファッションショー主催者によると、身体測定は 「ボディーマス指数(BMI=体重を身長の2乗で割った比率) が18以上」とする拒食症防止のための地域規定に基づいて 実施された。「失格」は5人だったが、前年出場者の約30% が事前の測定さえ許可されなかったという。 毎日新聞 2006年9月19日 東京朝刊 ファッション・モデルとBMI指数 拒食症のモデル死去、174センチで40キロ ブラジル ブラジル・サンパウロ市内の病院で14日、女性ファッション モデルのアナ・カロリナ・ヘストンさん(21)が栄養失調による 感染症で死亡した。ヘストンさんは拒食症で、174センチの 身長に対し、体重はわずか40キロだった。体重を身長の2乗 で割った体格指数(BMI)では18.5未満が「やせている」と されるが、ヘストンさんは13.2だった。 9月には「やせ過ぎモデルは過度のダイエットや拒食症を助 長する」として、マドリードのファッションショーで複数のモデル が不採用となったばかり。世界的にやせ過ぎ問題が注目され 始めている中、ヘストンさんの死はファッション界に大きな波 紋を広げそうだ。( 2006年11月17日16時23分 時事) 正規分布(キー・ポイント) 正規分布表を使うためには、標準化する必要 がある。 x z 1 f ( z) e 2 中心極限定理が重要。 z2 2 区間推定とは何をやるのか?(1) 「標本分布」=標本統計量(標本平均とか標本分散と か、標本の関数である確率変数)の分布がキー。 中心極限定理によって、標本サイズ大の場合、 x N (, 2 / n) であることから Pr( 1.96 x n 1.96) 0.95 区間推定とは何をやるのか?(2) この式をかきかえて Pr( x 1.96 n x 1.96 n ) 0.95 このように作られた区間を「信頼区間」という。 信頼区間の意味 練習問題 [問]ある交差点を通過する車のスピード(時 速)を調べたところ、ほぼ正規分布にした がっており、平均50km、標準偏差は18km であった。制限速度が40km のとき、何% の車がスピード違反をしていると考えられる か。 練習問題 [問]ある集団のBMIが正規分布すること、ま たその標準偏差が1.00であることがわかっ ているとする。その集団から、100人のサン プルをとり、そのBMIの平均値が19.20で あったとする。母集団のBMIの平均につい て、信頼度95%で区間推定をしなさい。 [問]その集団でBMIが18.00未満の人の割 合はどのくらいか? 解答 次式により、(95%)信頼区間をつくる。 Pr( x 1.96 n x 1.96 n ) 0.95 1.00 19.20 10 99%信頼区間なら? この区間推定の問題 母集団の標準偏差(σ)が既知であることが前提されてしまっ ている。 標本の標準偏差(s)はわかっているだろうが、母集団の標準 偏差はわかっていないのがむしろ普通の状況だろう。 その場合につかわれるのがt分布。次の確率変数tは、自由 度n-1のt分布に従う。 x t s/ n 標本標準偏差Sは、n-1で割る式による。nで割るS*だと、 x t s * / n 1 正規分布とt分布 t分布の発見者は、ウィリアム・ゴセット。ゴセットは、 ギネス・ビールの技術者だったので、会社の立場を 考えて、“Student”というペンネームで論文を発表 していたから、t分布のことをStudentのt分布とも 呼ぶ。 t分布には、自由度というパラメーターがある。 自由度を無限大にすると、t分布は、正規分布に一 致する。 したがって、サンプルが大きければ、σ未知でも、標 本sで代用正規分布を使ってよいことになる。 t分布と正規分布の比較 0.45 0.4 0.35 0.3 norm f(x,5) f(x,10) f(x,15) 0.25 0.2 0.15 0.1 0.05 0 -4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0 標本から母集団を推測する2――失業率 標本の比率(割合)で母集団の対応する比 率(割合)を推定しようとする典型例。 完全失業者数/労働力人口が完全失業率。 完全失業率の数字の見方を考えるには、概 念がどうなっているか(「完全失業者」とは何 か、「労働力人口」とは何か)を知る必要が ある。また、統計的推測そのものについての 理解(誤差への理解)が必要。 最近の失業率 2007年11月30日付け 『日本経済新聞』夕刊 最近の失業率 雇用改善は足 踏み。 正社員の有効 求人倍率はか なり低い。 職業安定業務統計 職業安定業務統計(一般職業紹介状況)は全国の公 共職業安定所(ハローワーク)における職業紹介業務 の実績を集計した業務統計である。 求人倍率・・・ 「有効求人倍率」と「新規求人倍率」と がある。1人の求職者に対してどれだけの求人があ るかを示す指標である。 有効求人倍率=有効求人数/有効求職者数 (倍) 新規求人倍率=新規求人数/新規求職者数 (倍) 「有効」とは? 求人・求職票は、原則として翌々月末 まで有効。 去年の「完全失業率」の報道 『日本経済新聞』 2006年12月1日付 夕刊 労働力調査について 1. 調査の目的・沿革 国民の「就業及び不就業の状態」(就業状態)を明らかに することを目的とし、昭和21年9月以降毎月実施している。 2 調査対象 全国全世帯の中から、無作為に選定した約4万世帯に居 住する15歳以上の者約10万人 3.調査の期日 毎月末日現在で、月末1週間における就業・不就業の状 態を調査する(12月は20日から26日までの1週間) 4.調査の方法 調査員が対象世帯に調査票を配布し、世帯がこれに記入、 再び調査員が調査票を取集する。 労働力調査について (就業状態の諸概念) 就業状態の区分 ────── 調査でのとらえ方 ─────── ───── 結果表の表し方 ───── ┌ 主に仕事 ┐ │ │ ├ 通学のかたわらに仕事 ┼………………従業者 ┐ │ │ │ ├ 家事などのかたわらに仕事 ┘ │ │ │ │ ├ 就業者 ┐ 調査期間中に少し ┤ │ │ でも仕事をしたか │ │ │ │ │ ├ 労働力人口 ┐ │ ┌ 仕事を休んでいた …… 休業者 ┘ │ │ │ │ │ │ │ ├ 仕事を探していた …………… 完全失業者 ┘ ├15歳以上人口 │ │ │ └ 仕事をしなかった ┼ 通学 ┐ │ │ │ │ ├ 家事 ┼ …………………… …非労働力人口 ┘ │ │ └ その他(高齢者など) ┘ 労働力調査の用語(1) <就業状態> 15歳以上人口について,調査週間中の活動状態 に基づいて次のように区分している。 労働力人口:15歳以上人口のうち,就業者と完全失業者を合わ せたもの 就 業 者 :従業者と休業者を合わせたもの 従 業 者:調査週間中に賃金,給料,諸手当,内職収入などの 収入を伴う仕事(以下「仕事」という。)を 1時間以上した者。な お,家族従業者の場合は,無給であっても仕事をしたとする。 休 業 者:仕事を持ちながら,調査週間中少しも仕事をしな かった者のうち,1)雇用者で,給料,賃金の支払いを受けてい る者又は受けることになっている者 2)自営業主で,自分の経 営する事業を持ったままで,その仕事を休み始めてから30日に ならない者。なお,家族従業者で調査期間中に少しも仕事をしな かった者は休業に含めず,完全失業者又は非労働力人口のい ずれかとしている。 労働力調査の用語(2) 完全失業者:次の3つの条件を満たす者 1)仕事がなくて調査週間中に少しも仕事をしな 失業の3条件(ILO) かった(就業者ではない) 2)仕事があればすぐ就くことができる ①without work 3)調査期間中に,仕事を探す活動や事業を始め る準備をしていた(過去の求職活動の結果を待ってい ②seeking work る場合を含む) available for work ③currently 非労働力人口:15歳以上人口で上記以外の者 労働力人口比率:15歳以上人口に占める労働力人 口の割合 =(労働力人口÷15歳以上人口)×100 完全失業率:労働力人口に占める完全失業者の割 合 =(完全失業者÷労働力人口)×100 就業状態の調べ方 労働力(actual)方式 短い調査期間を限定し、その期間で就業状態を決 定する。「月末1週間で少しでも仕事をしました か?」……労働力調査、国勢調査 有業者(usual)方式 期間を限定せず、ふだんの状態で就業状態を決定 する「あなたはふだん収入になる仕事をしています か?」……就業構造基本調査 労働力調査の結果の公表 ・公表期日…………………原則として調査 月の翌月末 ・結果の刊行時期 労働力調査速報………公表時 労働力調査月報………翌々月の下旬 労働力調査年報………翌年3月 労働・雇用に関する他の月次統計 ・世帯を通じて調査するもの………………… 労働力調査(総務省) ・事業所を通じて調査するもの……………… 毎月勤労統計調査(厚生労働省) ・業務統計によるもの………………………… 職業安定業務統計(厚生労働省) 労働力調査の調査票 労働力調査の調査票(続) 失業率の数字には誤差はどのくらいある のか?(単純化された計算) 誤差には、標本誤差と非標本誤差とがある。 非標本誤差は、たとえば、誤記、集計ミス 等々であったり、統計環境の問題であったり する。 標本誤差は、標本をとって調査することによ り発生する誤差であるが、確率分布に関す る知識を使ってコントロールすることができ る。 失業率の数字には誤差はどのくらいある のか?(単純化された計算) 実際にはそうではないが、単純無作為標本抽出 (*)を行なって、労働力人口7万人のサンプルを得 たとしよう。 そのサンプルに含まれる失業者数は、「失業」を「成 功」と見た場合の「二項変数」。 「失業率」は、s/n。 サンプルが大きければ、失業率p=s/nは、平均π、 分散π(1-π)/nの正規分布をする。 (*)実際は、層化二段抽出。 二項分布の期待値・分散(復習) 二項変数sは、ゼロワン変数の和であることに 注意する。すなわち、πを成功確率とすると、 n s xi i 1 E ( xi ) 0 (1 ) 1 V ( xi ) (0 ) 2 (1 ) (1 ) (1 ) E ( s ) n V ( s ) n (1 ) 失業率の数字には誤差はどのくらいある のか?(単純化された計算) p z N (0,1) (1 ) n Pr(1.96 z 1.96) 95% 失業率の数字には誤差はどのくらいある のか?(単純化された計算) p(1 p) p(1 p) p 1.96 p 1.96 n n P=0.040, n=70,000として±0.00145 の誤差を見ておけば、95%の割合で(100回 の内95回は)正しい推定になる。 0.03855 0.040 0.04145 失業率の数字には誤差はどのくらいある のか?(単純化された計算) 信頼区間の幅には、nが大きく影響する。 以上の結果から見て、4.0%でなく、4.00% と発表する(もう一桁余計に発表する)こと はできそうもないことがわかる。 都道府県別失業率のように、サンプルが小 さい場合、その数字の利用には注意が必要 である。 謝辞 池の魚の数を数える例は、清水誠著『推測統計 はじめの一歩』(講談社ブルーバックス、2000年) のものを使わせていただきました。 信頼区間の図示は、T.H.ウォナコット/R.J.ウォナ コット著、国府田恒夫/田中一盛/細谷雄三訳『統計 学序説』(培風館、1978年)のものです。 総務省統計局のホームページ http://www.stat.go.jp に掲載されているいくつかの素材をつかわせていた だきました。
© Copyright 2024 ExpyDoc