確率・統計(電子2年) 第 10 講 • 標本平均,不偏分散,最尤推定 • (次回は中間レポート解答用紙と赤ペン・赤鉛筆持参) 前回復習 確率変数 X = 1 0 確率 p と Y = 確率 (1 − p) 1 0 確率 q 確率 (1 − q) が独立として, def (合成)確率変数 Z(ω) = XOR(X(ω), Y (ω)) を考える. • 期待値 E[Z] と分散 V [Z] を計算せよ. • 共分散 Cov[X, Z] を計算せよ.p, q の値に応じた,X と Z の相関は? 定義より,Pr[Z = 1] = Pr[X = 1, Y = 0]+Pr[X = 0, Y = 1] = p(1−q)+q(1−p) と確率関数から計算を進めてもよいが,もっと簡単には,Z = X(1−Y )+(1−X)Y , X(ω)(1 − X(ω)) = 0 (よって E[X(1 − X)] = 0)を利用し,E[X] = E[X 2 ] = p, E[Y ] = E[Y 2 ] = q と,X と Y の独立性から, • E[Z] = E[X(1 − Y ) + (1 − X)Y ] = E[X + Y − 2XY ] = p + q − 2pq • V [Z] = E[Z 2 ] − (E[Z])2 = E[Z] − (E[Z])2 = (p + q − 2pq) − (p + q − 2pq)2 • Cov[X, Z] = E[XZ] − E[X]E[Z] = E[X 2 (1 − Y ) + X(1 − X)Y ] − E[X]E[X(1 − Y ) + (1 − X)Y ] = E[X 2 (1 − Y )] − E[X](E[X(1 − Y )] + E[(1 − X)Y ]) = p(1 − q) − p(p(1 − q) + (1 − p)q) = p(1 − p)(1 − 2q) – p が 0 または 1(つまり X はほとんどすべての運命で同じ値)の時は, X と Z は無相関.実は独立. 1 – q = (つまり Y の値が 0 になるか 1 になるかは全く予測不可能)の時 2 は,X と Z は無相関.実は独立。 1 1 – q < の時,X と Z には正の相関がある.逆に,q > の時,X と Z に 2 2 は負の相関がある. 15. 統計的推定と点推定 1. 現象の確率計算(確率モデル→これから観測するデータの振る舞いの予測) 1 • 現象の要素や背景をモデル化(確率変数を定義し分布を既知のものとし て与える). • モデルから,現象の発生に関する確率分布や期待値などを計算. • 例:表と裏が等確率で出るコインを 1000 回投げる場合,表の出る回数 が 400 以上 600 以下である「確率」はいくらか? 2. 数理統計:実際の現象を確率変数でモデル化した時に,現象の観測データか ら何が言えるかを確率論に基づいて論理的に分析する手法.言葉として代表 的なものに,統計的推定と統計的検定があるがその差は微妙である.ここで は,前者の「統計的推定」の基本を扱い,観測値からモデル(あるいは母分 布と呼ぶ)を推定する. (実際に観測したデータ→確率モデルの推定) • 確率的現象を未知のパラメタ付きの分布でモデル化. • 現象を実際に観測し,観測データから,未知パラメタ(未知分布)を推 定.あるいは推定した分布から,次に起きる現象を予測(この部分は確 率計算とも言える). • 例:表の出る確率が未知(裏の出る確率は 1 - その値)のコインを 1000 回投げて 431 回表が出た場合,表が出る確率をいくらだと推定するか? • 推定方法(方式)によって値は違うかも知れない.推定方法の「妥当性」 の観点は後で議論する. ただし,以前出てきた「条件付き確率」「条件付き分布」は,一部の事象の観測 結果を見て,他の事象の発生確率を考えるものであり,観測データを利用すると いう意味では,上の,1. と 2. の両方に関係する. 広義の統計的推定の中で,ある確率変数 X で確率的現象をモデル化した場合, その X が持つ(はずの)分布の統計量または分布を決定するパラメタの値を,独 立した n 回の現象の観測(実現値)から,何らかの根拠のある方法で一意に定め def るものを「点推定」と呼ぶ.n 個の X の観測値を M = {ξ1 , ξ2, ..., ξn } と置く. 期待値の推定 X の期待値 E[X] は,もし X の分布が既知なら最初から与えられる(あるいは 期待値の定義から計算で導出される)量であるが,分布が未知の場合に,X の観 n 1 ξi がよく使わ 測データ M から推定する方法として,観測値の算術平均: n i=1 れる. この推定法の「確率論的性質」を見るには,n 回分の X の観測データを,X と同じ 分布を持つ,n 個の独立な確率変数 X1 ,..,Xn と見なし(この仮定を i.i.d.(independent identical distribution) と呼ぶ),推定値もまた確率変数として扱う. 2 この期待値の推定法(式)を「標本平均」と呼ぶ.観測回数を n として n 1 Xi (ω) n i=1 def Mn (ω) = • ある運命 ω が1つ与えられ,n 回のすべての観測値 {X1(ω), X2(ω), . . . , Xn (ω)} がそれによって決まる,と解釈する点に注意. • つまり,n 回の観測の全体を1つの「実験」とみなし,その「実験」結果を 運命に選択させる. 例えば,表の出る確率が未知(値 p と置く)のコインを n 回投げ,表が出た回 数を確率変数 Nn (ω) とし(運命 ω の時に), Nn p の推定値として, n を使うことは,実は「標本平均」である.なぜなら,Xj = ると (j = 1, 2, . . . , n) ,p = E[Xj ] であり,それを, 1 j 回目が表 0 j 回目が裏 とす n 1 Nn = Xj で推定するこ n n j=1 とになるから. 後の講義で示すように,実は以下の性質が成り立つ(証明できる). Nn ]=p n • コインを投げる回数が十分に多いと推定値はほとんどの運命 ω で(=確率 1 Nn (ω) → p (n → ∞) (ほとんどの ω で). で)真の値に極めて近い: n Nn →a.s. p (n → ∞) と書く(a.s. = “almost surely” ). これを以降, n • 推定値の期待値は真の値に等しい:E[ 推定値(点推定の推定法)の性質 一般に,現象の分布の性質を表すパラメタ(母数)の「点推定」では, • 有限個のパラメタ(「母数」と呼ぶ:連続値または離散値)を持つ分布族(分 布の集合)を仮定し,その中から,観測データに対して「最適な」パラメタ を決めることで,観測データが従う真の分布(「母分布」と呼ぶ)を推定. 確率変数 X の分布のパラメタ θ の(未知の)真の値を θ∗ として, • n 個の観測データに基づく,ある点推定法による真の値の推定(値)を θˆ(n) , と置くと,以下のような性質があることが望まれる. 3 • 不偏:任意の n で, E[θˆ(n) ] = θ∗ が成り立つこと. • 強一致: θˆ(n) →a.s. θ∗ (n → ∞) が成り立つこと. • Mean Squared Error (MSE:平均平方誤差)またはその平方根(RMSE: Root Mean Squared Error,二乗平均平方根誤差)を誤差評価に使う.小さ いほど良い推定法である. MSE[θˆ(n) ] = E[(θ∗ − θˆ(n) )2 ] = E[(θ∗ − E[θˆ(n) ] + E[θˆ(n) ] − θˆ(n) )2 ] = (θ∗ − E[θˆ(n) ])2 + 2(θ∗ − E[θˆ(n) ])E[E[θˆ(n) ] − θˆ(n) ] + E[(E[θˆ(n) ] − θˆ(n) )2 ] def = (θ∗ − E[θˆ(n) ])2 + V [θˆ(n) ] つまり,平均平方誤差=偏りの二乗の度合い+ちらばりの二乗の度合い(分散) • 上の MSE は,もし不偏なら第 1 項は 0 なので,分散に等しい. 分散の推定値 X の分散 V [X] の推定値として,以下の2つがよく使われる(観測数を n として) : def 標本分散: Wn (ω) = def または 不偏分散: Vn (ω) = n 1 (Xi (ω) − Mn (ω))2 n i=1 n 1 (Xi (ω) − Mn (ω))2 n − 1 i=1 標本平均・標本分散・不偏分散の性質 未知の平均と分散を,μ = E[X] = E[Xi ], σ 2 = V [X] = V [Xi ] と置く. • 標本平均 Mn = n 1 Xj の性質 n j=1 – E[Mn ] = μ. ∼すなわち不偏性 – 大数の強法則 (後日) ∗ Mn →a.s. μ (n → ∞).∼すなわち強一致性 σ2 – MSE[Mn ] = V [Mn ] = .∼ 計算:E[Mn ] = μ, E[Xi Xj ] = μ2 (i = j), n V [Mn ] = E[(Mn − μ)2 ] = E[Mn2 ] − 2μE[Mn ] + μ2 n 1 1 = E[Xi Xj ] − μ2 = 2 (n(n − 1)μ2 + nE[X12 ]) − μ2 2 n i,j n = 1 σ2 (E[X12 ] − μ2 ) = n n 4 √ ∗ n に反比例して MSE が減少( n に反比例して「誤差」が減少) – 誤差見積もり(信頼区間) ∗ 中心極限定理より(後日) • 標本分散 Wn = n n 1 1 (Xi − Mn )2 ,不偏分散 Vn = (Xi − Mn )2 性質 n i=1 n − 1 i=1 – E[Vn ] = σ 2 . ∼すなわち不偏性(計算は下を参照) n−1 2 σ . ∼すなわち不偏ではない – E[Wn ] = . . . = n – 大数の強法則の応用(後日) ∗ Vn →a.s. σ 2 (n → ∞).∼すなわち強一致性.Wn も同様. Vn の不偏性の計算: def Vn = = = = E[Vn ] = = n n 1 1 (Xi − Mn )2 = (Xi − μ − (Mn − μ))2 n − 1 i=1 n − 1 i=1 n n 1 2 n (Xi − μ)2 − (Mn − μ) (Xi − μ) + (Mn − μ)2 n − 1 i=1 n−1 n − 1 i=1 n 1 2n n (Mn − μ)2 + (Mn − μ)2 (Xi − μ)2 − n − 1 i=1 n−1 n−1 n 1 n (Xi − μ)2 − (Mn − μ)2 n − 1 i=1 n−1 n 1 n E[(Xi − μ)2 ] − E[(Mn − μ)2 ] n − 1 i=1 n−1 n n 1 1 nV [Xi ] − V [Mn ] = σ2 − σ2 = σ2 n−1 n−1 n−1 n−1 最尤推定 (MLE: Maximum Likelihood Estimator) 観測対象(確率変数)の分布が未知パラメタ θ を含む時に,その値を実際に観 測したデータ M から推定したい.未知パラメタ θ を定めた時の観測データが起 きる「もっともらしさ」(尤度:ゆうど),すなわち,パラメタの値が θ という仮 定の下での観測データが発生する確率(離散分布の場合)または確率密度(連続 分布の場合)を L(θ) と書く.観測データ M を使っているという意味で,L[M](θ) とも書く. この L(θ) が式として表現できる場合(=その観測値が観測される確率(または 確率密度)を θ の関数の形で陽に書ける場合)に,値 L(θ) を最大にする θ = θˆ を (未知の)真のパラメタ θ∗ の最尤推定(MLE)と呼ぶ. 5 • 離散分布の場合,i 回目の観測値を ξi ,それに対応する確率変数を Xi と置き, Xi の発生確率関数を θ の関数として p(x; θ) と書けるとすると,観測値の発 生確率 Pr[Xi = ξi ] = p(ξi ; θ) となる.n 回の観測値 M(n) = {ξ1 , ....ξn } の尤 度は,{Xi } が互いに独立として, def L[M(n) ](θ) = Pr[X1 = ξ1 ∧ .. ∧ Xn = ξn ] = n i=1 p(ξi ; θ) def となる.この時 θˆ = arg max L[M(n) ](θ) が MLE である. θ 注: arg max f (x) は, 「f (x) を最大にする x の値」を意味する記法. x • L(θ) を最大にする θ と,log L(θ)(対数尤度)を最大にする θ は同じなので, 通常(計算のしやすさから),対数尤度を用いることが多い. log L[M(n) ](θ) = n i=1 log p(ξi ; θ), def この時 θˆ = arg max log L[M(n) ](θ) が MLE である. θ • 連続分布の場合, 「ある特定の観測値」が観測される確率は 0 なのでそれを 尤度に使えず,その観測値での確率密度を尤度として使う.つまり,密度 関数を使って L[M(n) ](θ) を定義する.i 回目の観測 Xi の密度関数を p(x; θ) と書くと,{Xi } が互いに独立として,n 回の観測値の結合密度関数は引数 を (x1 , x2 , . . . , xn ) として, n i=1 p(xi ; θ) である.よって,観測されたデータ M(n) = {ξ1 , ....ξn } の尤度は,その観測値 (x1 , x2 , . . . , xn ) = (ξ1 , ξ2 , . . . , ξn ) で の結合密度の値になる: def L[M(n) ](θ) = n i=1 log L[M(n) ](θ) = p(ξi ; θ), n i=1 log p(ξi ; θ) ただし,一般には,無意味な場合もある(尤度を最大にする θ が多数ある等). また,厳密解(解析解)を計算することが困難な場合,この最大化を状況に応じ て速く精確に解く近似手法が重要.例えば,EM(Expectation-Maximization) 法. 例題 (最尤推定) <1> 「表の出る確率が p のコインを n 回投げて表が k 回出る」事象の確率は H(p, n, k) = n! pk (1 − p)n−k k!(n − k)! (つまり2項分布) (1) 未知のコインを n 回投げて,表が k 回出た.n, k を観測値として,表の出る 確率 p を最尤推定せよ(p が未知,実用的な例ではない). 6 def 任意に固定した n に対して,尤度関数 Lk (p) = H(p, n, k) とする.k = 0 なら, L0 (p) = (1 − p)n なので,p = 0 で最大.同様に,k = n なら,Ln (p) = pn なので, p = 1 で最大.そこで,0 < k < n の場合を考える. Lk (p) = n! pk−1(1 − p)n−k−1(k − np) k!(n − k)! より,Lk (p) = 0 (0 ≤ p ≤ 1) となるのは,p = k/n.しかも, Lk (p) = n! (pk−1(1 − p)n−k−1) (k − np) + (pk−1(1 − p)n−k−1)(−n) k!(n − k)! Lk k n n! = k!(n − k)! となるので,Lk (p) は p = k−1 k n k 1− n n−k−1 (−n) < 0 k で最大. n k .この場合,最尤推定と標本平均が一致する. n • すなわち,pˆ = (2) 表裏が同等に出やすいコイン(つまり p = 0.5)を何回か投げて,表が k 回 出た.k を観測値として,投げた回数 n を最尤推定せよ(n が未知,実用的 な例ではない).ただし、k ≥ 1 とする。 def 任意に固定した k に対して,尤度関数 L(n) = H(0.5, n, k) = n! の k!(n − k)!2n 増減を知るために,以下を調べる。 n+1 n+1 L(n + 1) = = L(n) 2(n + 1 − k) 2n + 2 − 2k n+1 n+1 ≤ < 1 より,その範囲では L(n) は n につい 2n + 2 − 2k n+2 て単調減少. n+1 n+1 = = 1 より,n = 2k − 1, 2k で L(n) は • n = 2k − 1 なら 2n + 2 − 2k n+1 同じ. n+1 n+1 ≥ > 1 より,その範囲では L(n) は • k ≤ n ≤ 2k − 2 なら 2n + 2 − 2k n n について単調増加. • n ≥ 2k なら よって,n = 2k − 1, 2k で L(n) = H(0.5, n, k) が最大. • すなわち,n ˆ = 2k − 1, または 2k (最尤推定では一意に決まらない). その時の H 値は, H(0.5, 2k, k) = (2k)! (2k − 1)(2k − 3) · · · 3 · 1 = 2k k!k!2 (2k)(2k − 2) · · · 4 · 2 7 <2> X は正規分布に従う.ただし平均 μ と分散 σ 2 が未知.この場合に n 個の X の観測データ {ξ1 , ξ2 , ..., ξn } から,平均と分散を最尤推定せよ. 1 (x − μ)2 μ と σ を与えると X の密度関数は, h(x) = √ exp − 2σ 2 2πσ 2 (X1 , . . . , Xn ) が互いに独立なら,その結合密度関数は, n (xi − μ)2 1 √ hn (x1 , . . . , xn ) = exp − 2σ 2 2πσ 2 i=1 = (2π) −n 2 σ −n exp − i なので, (xi − μ)2 2σ 2 def 尤度は観測された値 (ξ1 , ..., ξn ) での結合密度であり,L(μ, σ) = hn (ξ1 , ..., ξn ) .そ こで,対数尤度関数を考え,最大化する点を探す. def f (μ, σ) = log L(μ, σ) = log (2π) −n 2 σ −n exp − i (ξi − μ)2 2σ 2 n 1 = − log(2π) − n log σ − 2 (ξi − μ)2 2 2σ i これを最大化する停留点 (μ, σ) は,以下のように,標本平均及び標本分散に等 しい. 0 = 0 = n 1 ∂f =− 2 (ξi − μ) ∂μ σ i=1 n (ξi − μ)2 ∂f n =− + ∂σ σ i=1 σ3 ... μ ˆ= 1 ξi n i 1 ... σˆ2 = (ξi − μ ˆ )2 n i • X が正規分布に従う場合,期待値の最尤推定は標本平均と一致.分散の最尤 推定は標本分散と一致. • もちろん,X が正規分布に従わない一般の場合は,期待値の最尤推定が標本 平均になるとは限らず,分散の最尤推定が標本分散になるとも限らない. • 標本分散は不偏推定ではないので,結果的に, 「最尤推定は必ずしも不偏とは 限らない」ことがわかる. 練習 1> ある非常に多人数の集団があるとする.集団中の各人の身長はある未知の (同一の)分布に従うと解釈し,その分布の期待値を推定するのに,無作為 に選んだ 1 名の身長を推定値とする方式(A)と,無作為に選んだ 10 名の身 長の算術平均を推定値とする方式(B)とを比較し,その得失を論ぜよ.(A) は n = 1 の,(B) は n = 10 の,標本平均である. 2> X は区間 [a, b] 上の一様分布に従うとする.実数 a, b が未知の場合,それら の値を 3 回の観測値 (X1 , X2 , X3 ) = (0.5, 0.2, 2.0) から最尤推定せよ. 8
© Copyright 2024 ExpyDoc