数理統計学(第五回) 統計的推測とは? 浜田知久馬 数理統計学第5回 1 確率分布 数理統計学で確率分布を勉強. 確率分布は便利 確率分布がわかれば,様々な事象を確率的に 記述できる.(同時,周辺,条件付) 確率分布は母数によって定まる. 母数をどう求めればよいのか? 数理統計学第5回 2 推定の問題 • ある目的で,ある確率変数Yをn回観測し, 標本Y=(Y1, Y2,・・・, Yn)を得る. ・標本Yの分布はある分布族に属している. 「分布を規定する母数は未知である」 • 「標本Yの実現値yに基づいて未知母数の真 の値がいくらであるか評価,断定する問題を 「推定の問題」という. 数理統計学第5回 3 ダーウィンの植物の丈の データ(単位インチ) ─────────────────────────────── No.自家受精 他家受精 No.自家受精 ─────────────────────────────── 1 17.375 23.5 9 16.5 2 20.375 12 10 18 3 20 21 11 18.25 4 20 22 12 18 5 18.375 19.125 13 12.75 6 18.625 21.5 14 15.5 7 18.625 22.125 15 18 8 15.25 20.375 ─────────────────────────────── 平均 17.708 20.192 標準偏差 2.024 3.617 数理統計学第5回 ─────────────────────────────── 他家受精 18.25 21.625 23.25 21 22.125 23 12 4 数理統計学第5回 5 母数推定の前提 自家受精群と他家受精群に別々の正規分布 をあてはめ n個(n=15)の確率変数Yiが互いに独 立に同一の正規分布にしたがう Y1 ,Y2 ,Y3 ,・・・,Yn ~N(μ,σ2) i.i.d.(independent identically distributed) 数理統計学第5回 6 点推定 ある未知母数 b の真の値を推定したいという問 題を考える. 一つの答え方: • 観測変数 Y の統計量 t(Y) を一つ用意 • 観測値がデータ y として得られたら,そのデータ を代入して得られる関数値 t(y) が 「母数 b の真の値である」 と断定 • このような方式を「(点)推定」estimation と言う, • 数理統計学第5回 7 推定と推定量 • 推定に使う関数 t(Y) を「推定量」 estimator,データを代入して得られる値 t(y) を「推定値」 estimate という. • 推定の問題において,数理統計学が問題 にすることは,どんなやり方が良いかである. • どんな推定量が良い推定量? 数理統計学第5回 8 区間推定 • 別の答え方 • 2つの統計量tL(Y), tU(Y)を用意する. • Yの実現値yを得たら,それを代入して得られ る値tL(y)~tU(y)の範囲に真の値があるとする. • このような形式を「区間推定」 interval estimationという. 数理統計学第5回 9 良い推定量の規準 • 良さを議論するには規準 criterion が必要 • 一つの視点: 定性的,資格条件を限定し ておいて,その中である規準量が最大(あ るいは最小)となるものを良いものとする. たとえば? • 定性的条件:不偏性,線形性 • 定量的規準:分散最小性 • 不偏性とは?分散最小性とは? 数理統計学第5回 10 精度, 偏り,正確さ 不偏で精密 偏りあるけど精密 不偏だけど精密でない 偏りありかつ 精密でない 数理統計学第5回 11 点推定の良さの基準 • βの推定量bがあるとする. • 推定量の良さの基準で最も一般的なのは平 均二乗誤差(Mean Square Error:MSE) • MSE=E[(b-β)2] = E[(b-β)2]= E[(b-E[b]-β+E[b])2] = E[(b-E[b])2]+ E[(E[b]-β)2] +2(E[b]-β) E[b-E[b]] 数理統計学第5回 12 MSE MSE=E[(b-E[b])2]+ E[(E[b]-β)2] V[b] bias 推定量の分散 推定量の偏り 両方を同時に最適化できるか? 分散を0 → 常にb=0 V[b]=0 数理統計学第5回 13 推定での方法論的課題 どんな推定量が良い推定量? 定性的条件,例えば 不偏性=期待値が未知母数に一致 線形性=推定量がYの線形式を 満たすものの中で ある規準量,例えば分散を最小(最良,有効)にするもの を良いとする⇒最良線形不偏推定量 数理統計学第5回 14 最良線形不偏推定量を求める方 法はあるか? • 一般的な方法はない. 存在しないことも多い. • 原理的に良い推定量を導きやすい原理は? ・最尤法 ・最小2乗法 ・モーメント法 数理統計学第5回 15 クラメル・ラオ(Cramer-Rao)の不等式 d log f (Y , ) 2 I E[U ] E d 2 d log f (Y , ) E 2 d 2 V [ ] 1 I 数理統計学第5回 16 クラメル・ラオ(Cramer-Rao)の不等 式 不偏推定量の分散の下限についての不等式 (不偏推定量の分散はこれより小さくならない) ^ θを不偏推定量とすると ^ V[θ]≧1/I I:フイッシャーの情報量(Fisher information) 2 d log f (Y , ) 2 I E[U ] E d 等号が成り立つ場合は,不偏推定量の中で 分散が最小(有効)となる. 数理統計学第5回 17 証明にあたって利用すること ^ 1) 不偏推定量の定義 E[θ(Y)]=θ 2) 確率密度関数の和は1 ∫f(y,θ) dy=1 3) E[B]=0のとき, E[A・B]=Cov [A,B] ,V[B]= E[B2] {Cov [A,B] = E[A・B]-E[A] E[B]} 4) d log f ( y, ) 1 df ( y, ) df ( y, ) d log f ( y, ) f ( y, ) d f ( y, ) d d d 5)微分と積分の交換可能性 6) Cov [A,B]≦V[A] V[B] 相関係数の絶対値は1を越えない 数理統計学第5回 18 クラメル・ラオ(Cramer-Rao)の不等式 を の不偏推定量とすると E (Y ) (Y ) f ( y )dy d (Y ) f ( y ) dy d 1 d d d log f ( y ) (Y ) f ( y ) dy d d log f ( y ) E (Y ) d df ( y ) (Y ) d dy 不偏であるためにはθが1単位増加すれば期待値 も1増加する 19 数理統計学第5回 クラメル・ラオ(Cramer-Rao)の不等 式 積分と微分の交換可能性,傾きの期待値は0 θを動かしても確率密度の和は不変 f ( y , ) dy 1 d f ( y , ) dy df ( y , ) dy d d d log f ( y , ) f ( y , ) dy d d log f ( y , ) E 0なので, d E[ B ] 0のとき, Cov[ A, B ] E[ A, B ] 0 d log f ( y ) d log f ( y ) Cov (Y ), E ( Y ) d 数理統計学第5回 d 20 クラメル・ラオ(Cramer-Rao)の不等式 相関係数の絶対値は1 を越えないので d log f ( y ) d log f ( y ) 1 Cov (Y ), V (Y ) V d d 2 d log f ( y ) V (Y ) E V (Y ) I d d log f ( y ) 1 V (Y ) E d I 数理統計学第5回 2 1 21 クラメル・ラオ(Cramer-Rao)の不等式 不偏推定量θの分散が, ^ V[θ]=1/I ^ を満たせば, θは ^ 一様最小分散不偏推定量 (Uniformly Minimum Variance Unbiased estimator, UMVU) である. 数理統計学第5回 22 2項分布の場合 Y n p , E[ p ] n n pはの不偏推定量 (1 ) V [ p] n y n y f ( y, ) n C y (1 ) d log f ( y, ) U d d logn C y y log (n y ) log(1 ) 数理統計学第5回 d 23 2項分布の場合 d logn C y y log ( n y ) log(1 ) d y n y y (1 ) ( n y ) y n 1 (1 ) (1 ) 2 ( y n ) n (1 ) 2 I E[U ] E 2 2 2 2 (1 ) (1 ) n 1 V [ p] (1 ) 数理統計学第5回 pは UMVU 24 最尤法(Maximum Likelihood method) • 確率(密度)関数を未知母数の関数とみな したものが,尤度(likelihood) • 確率が最大の母数の値は,観測値Yの関数 これを未知母数の推定量とする. • 最尤法,得られる推定量が最尤推定量 確率が最大になるように推定 (MLE:Maximum Likelihood Estimator) 数理統計学第5回 25 最小二乗法 • 観測変数Yの値と,モデルから予測される差 の2乗和を最小にする母数の値を推定量とす る方法 Σ(Yi-β0-β1Xi)2 を最小にするようにβ0とβ1を推定 数理統計学第5回 26 最小2乗法の模式図 × Y=β0+β1X Y X X × × 0 X数理統計学第5回 27 モーメント法 分布のモーメントを,次数の低い方から未知母数 の数pだけ求め,それを対応する標本モーメント と等しいとおき,母数の推定量を構成する方法 を“モーメント法”(moment method)という 分布の期待値=データの平均 E[X]=μ :Σxi/N 分布の2次モーメント=データの2乗和 E[X2]=μ2 +σ2 :Σxi2/N 数理統計学第5回 28 用語 最尤原理(maximum likelihood principle) 最尤法(maximum likelihood method) 最尤推定量(maximum likelihood estimator) 尤度(likelihood) 対数尤度(log likelihood) Fisherの情報量(Fisher's information) 数理統計学第5回 29 尤度,最尤推定量,Fisherの情報量 尤度(likelihood) :尤(もっともらし)さの程度 を確率で評価した指標 最尤推定量:尤度が最大になるように母数 を推定する原理 Fisherの情報量:最尤推定量の推定精度を 測る指標 数理統計学第5回 30 最尤推定の例 コインを10回投げて7回表が出たとする. このような事象が起きる確率は? 確率分布として 2項分布B(n=10,π)を仮定すると p=10Cyπy(1-π)10-y 確率pは母数πの関数である.確率を母数の 関数と考えたのが尤度(L:likelihood) 確率関数:πを固定したyの関数 尤度関数: yを固定したπの関数 数理統計学第5回 31 最らしいπは? 1 2 3 4 5 6 7 8 9 π 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 確率 0.00001 0.00079 0.00900 0.04247 0.11719 0.21499 0.26683 0.20133 0.05740 数理統計学第5回 32 尤度の計算プログラム data q6; do phi=0.10 to 0.90 by 0.02; l=10*9*8/(3*2*1)*phi**7*(1-phi)**3; output;end; proc gplot; plot l*phi/href=0.7; symbol1 i=spline v=none h=4 w=4; run; 数理統計学第5回 33 πの関数の尤度 数理統計学第5回 34 最尤推定 尤度(L)を最大にするように母数を求める. 尤度の最大化 ⇒ 対数尤度の最大化 母数空間の全てのπについてLを計算するか? 山の頂上では傾き0 対数尤度をπで微分して導関数を求め, 導関数が0になるπを求める. 数理統計学第5回 35 西遊記 ひたすら西を目指す. 数理統計学第5回 36 最尤法 ひたすら山の頂上を目指す. 数理統計学第5回 37 山の頂上にいるのは? 数理統計学第5回 38 最尤推定量の誘導1 L n C y (1 ) y n y dL 0 d y 1 n y y n y 1 (1 ) (n y ) (1 ) ] n C y [ y y (1 ) (n y ) 0 y n 0 y n 数理統計学第5回 39 最尤推定量の誘導2 L n C y (1 ) y n y log L logn C y y log (n y ) log(1 ) d log L y n y y n 0 d 1 (1 ) y n 数理統計学第5回 40 コインを100回投げて70回表 が出たときの尤度 数理統計学第5回 41 演習問題 ポアソン分布の推測 ポアソン分布の確率関数p(x)は, p(x)=λx・exp(-λ)/x! となる.λが母数であり,xは確率変数の実現値 で0、1、2・・・の値をとるものとする. 1)λ=1のとき,Xが1以上の値をとる確率を 計算せよ.ヒント exp(1)=2.718 2)お年玉付年賀状の当たり数がx=5となった. 当たり数の分布にポアソン分布を仮定して, このようなデータが得られた場合の尤度と対 数尤度を計算せよ. 3)対数尤度を,λで微分せよ.また1次微分関 数の値が0になるようにλを求めよ. 数理統計学第5回 42
© Copyright 2024 ExpyDoc