確率・統計(電子2年) 第10講 前回復習 15. 統計的推定と点推定

確率・統計(電子2年)
第 10 講
• 標本平均,不偏分散,最尤推定
• (次回は中間レポート解答用紙と赤ペン・赤鉛筆持参)
前回復習
確率変数 X =
1
0
確率 p
と Y =
確率 (1 − p)
1
0
確率 q
確率 (1 − q)
が独立として,
def
(合成)確率変数 Z(ω) = XOR(X(ω), Y (ω)) を考える.
• 期待値 E[Z] と分散 V [Z] を計算せよ.
• 共分散 Cov[X, Z] を計算せよ.p, q の値に応じた,X と Z の相関は?
定義より,Pr[Z = 1] = Pr[X = 1, Y = 0]+Pr[X = 0, Y = 1] = p(1−q)+q(1−p)
と確率関数から計算を進めてもよいが,もっと簡単には,Z = X(1−Y )+(1−X)Y ,
X(ω)(1 − X(ω)) = 0 (よって E[X(1 − X)] = 0)を利用し,E[X] = E[X 2 ] = p,
E[Y ] = E[Y 2 ] = q と,X と Y の独立性から,
• E[Z] = E[X(1 − Y ) + (1 − X)Y ] = E[X + Y − 2XY ] = p + q − 2pq
• V [Z] = E[Z 2 ] − (E[Z])2 = E[Z] − (E[Z])2 = (p + q − 2pq) − (p + q − 2pq)2
• Cov[X, Z] = E[XZ] − E[X]E[Z]
= E[X 2 (1 − Y ) + X(1 − X)Y ] − E[X]E[X(1 − Y ) + (1 − X)Y ]
= E[X 2 (1 − Y )] − E[X](E[X(1 − Y )] + E[(1 − X)Y ])
= p(1 − q) − p(p(1 − q) + (1 − p)q) = p(1 − p)(1 − 2q)
– p が 0 または 1(つまり X はほとんどすべての運命で同じ値)の時は,
X と Z は無相関.実は独立.
1
– q = (つまり Y の値が 0 になるか 1 になるかは全く予測不可能)の時
2
は,X と Z は無相関.実は独立。
1
1
– q < の時,X と Z には正の相関がある.逆に,q > の時,X と Z に
2
2
は負の相関がある.
15. 統計的推定と点推定
1. 現象の確率計算(確率モデル→これから観測するデータの振る舞いの予測)
1
• 現象の要素や背景をモデル化(確率変数を定義し分布を既知のものとし
て与える).
• モデルから,現象の発生に関する確率分布や期待値などを計算.
• 例:表と裏が等確率で出るコインを 1000 回投げる場合,表の出る回数
が 400 以上 600 以下である「確率」はいくらか?
2. 数理統計:実際の現象を確率変数でモデル化した時に,現象の観測データか
ら何が言えるかを確率論に基づいて論理的に分析する手法.言葉として代表
的なものに,統計的推定と統計的検定があるがその差は微妙である.ここで
は,前者の「統計的推定」の基本を扱い,観測値からモデル(あるいは母分
布と呼ぶ)を推定する.
(実際に観測したデータ→確率モデルの推定)
• 確率的現象を未知のパラメタ付きの分布でモデル化.
• 現象を実際に観測し,観測データから,未知パラメタ(未知分布)を推
定.あるいは推定した分布から,次に起きる現象を予測(この部分は確
率計算とも言える).
• 例:表の出る確率が未知(裏の出る確率は 1 - その値)のコインを 1000
回投げて 431 回表が出た場合,表が出る確率をいくらだと推定するか?
• 推定方法(方式)によって値は違うかも知れない.推定方法の「妥当性」
の観点は後で議論する.
ただし,以前出てきた「条件付き確率」「条件付き分布」は,一部の事象の観測
結果を見て,他の事象の発生確率を考えるものであり,観測データを利用すると
いう意味では,上の,1. と 2. の両方に関係する.
広義の統計的推定の中で,ある確率変数 X で確率的現象をモデル化した場合,
その X が持つ(はずの)分布の統計量または分布を決定するパラメタの値を,独
立した n 回の現象の観測(実現値)から,何らかの根拠のある方法で一意に定め
def
るものを「点推定」と呼ぶ.n 個の X の観測値を M = {ξ1 , ξ2, ..., ξn } と置く.
期待値の推定
X の期待値 E[X] は,もし X の分布が既知なら最初から与えられる(あるいは
期待値の定義から計算で導出される)量であるが,分布が未知の場合に,X の観
n
1
ξi がよく使わ
測データ M から推定する方法として,観測値の算術平均:
n i=1
れる.
この推定法の「確率論的性質」を見るには,n 回分の X の観測データを,X と同じ
分布を持つ,n 個の独立な確率変数 X1 ,..,Xn と見なし(この仮定を i.i.d.(independent
identical distribution) と呼ぶ),推定値もまた確率変数として扱う.
2
この期待値の推定法(式)を「標本平均」と呼ぶ.観測回数を n として
n
1
Xi (ω)
n i=1
def
Mn (ω) =
• ある運命 ω が1つ与えられ,n 回のすべての観測値 {X1(ω), X2(ω), . . . , Xn (ω)}
がそれによって決まる,と解釈する点に注意.
• つまり,n 回の観測の全体を1つの「実験」とみなし,その「実験」結果を
運命に選択させる.
例えば,表の出る確率が未知(値 p と置く)のコインを n 回投げ,表が出た回
数を確率変数 Nn (ω) とし(運命 ω の時に),
Nn
p の推定値として,
n
を使うことは,実は「標本平均」である.なぜなら,Xj =
ると (j = 1, 2, . . . , n) ,p = E[Xj ] であり,それを,
1 j 回目が表
0 j 回目が裏
とす
n
1
Nn
=
Xj で推定するこ
n
n j=1
とになるから.
後の講義で示すように,実は以下の性質が成り立つ(証明できる).
Nn
]=p
n
• コインを投げる回数が十分に多いと推定値はほとんどの運命 ω で(=確率 1
Nn (ω)
→ p (n → ∞) (ほとんどの ω で).
で)真の値に極めて近い:
n
Nn
→a.s. p (n → ∞) と書く(a.s. = “almost surely” ).
これを以降,
n
• 推定値の期待値は真の値に等しい:E[
推定値(点推定の推定法)の性質
一般に,現象の分布の性質を表すパラメタ(母数)の「点推定」では,
• 有限個のパラメタ(「母数」と呼ぶ:連続値または離散値)を持つ分布族(分
布の集合)を仮定し,その中から,観測データに対して「最適な」パラメタ
を決めることで,観測データが従う真の分布(「母分布」と呼ぶ)を推定.
確率変数 X の分布のパラメタ θ の(未知の)真の値を θ∗ として,
• n 個の観測データに基づく,ある点推定法による真の値の推定(値)を θˆ(n) ,
と置くと,以下のような性質があることが望まれる.
3
• 不偏:任意の n で, E[θˆ(n) ] = θ∗ が成り立つこと.
• 強一致: θˆ(n) →a.s. θ∗ (n → ∞) が成り立つこと.
• Mean Squared Error (MSE:平均平方誤差)またはその平方根(RMSE:
Root Mean Squared Error,二乗平均平方根誤差)を誤差評価に使う.小さ
いほど良い推定法である.
MSE[θˆ(n) ]
= E[(θ∗ − θˆ(n) )2 ] = E[(θ∗ − E[θˆ(n) ] + E[θˆ(n) ] − θˆ(n) )2 ]
= (θ∗ − E[θˆ(n) ])2 + 2(θ∗ − E[θˆ(n) ])E[E[θˆ(n) ] − θˆ(n) ] + E[(E[θˆ(n) ] − θˆ(n) )2 ]
def
= (θ∗ − E[θˆ(n) ])2 + V [θˆ(n) ]
つまり,平均平方誤差=偏りの二乗の度合い+ちらばりの二乗の度合い(分散)
• 上の MSE は,もし不偏なら第 1 項は 0 なので,分散に等しい.
分散の推定値
X の分散 V [X] の推定値として,以下の2つがよく使われる(観測数を n として)
:
def
標本分散: Wn (ω) =
def
または 不偏分散: Vn (ω) =
n
1
(Xi (ω) − Mn (ω))2
n i=1
n
1 (Xi (ω) − Mn (ω))2
n − 1 i=1
標本平均・標本分散・不偏分散の性質 未知の平均と分散を,μ = E[X] = E[Xi ], σ 2 = V [X] = V [Xi ] と置く.
• 標本平均 Mn =
n
1
Xj の性質
n j=1
– E[Mn ] = μ. ∼すなわち不偏性
– 大数の強法則 (後日)
∗ Mn →a.s. μ (n → ∞).∼すなわち強一致性
σ2
– MSE[Mn ] = V [Mn ] = .∼ 計算:E[Mn ] = μ, E[Xi Xj ] = μ2 (i = j),
n
V [Mn ] = E[(Mn − μ)2 ] = E[Mn2 ] − 2μE[Mn ] + μ2
n
1 1
=
E[Xi Xj ] − μ2 = 2 (n(n − 1)μ2 + nE[X12 ]) − μ2
2
n i,j
n
=
1
σ2
(E[X12 ] − μ2 ) =
n
n
4
√
∗ n に反比例して MSE が減少( n に反比例して「誤差」が減少)
– 誤差見積もり(信頼区間)
∗ 中心極限定理より(後日)
• 標本分散 Wn =
n
n
1
1 (Xi − Mn )2 ,不偏分散 Vn =
(Xi − Mn )2 性質
n i=1
n − 1 i=1
– E[Vn ] = σ 2 . ∼すなわち不偏性(計算は下を参照)
n−1 2
σ . ∼すなわち不偏ではない
– E[Wn ] = . . . =
n
– 大数の強法則の応用(後日)
∗ Vn →a.s. σ 2 (n → ∞).∼すなわち強一致性.Wn も同様.
Vn の不偏性の計算:
def
Vn =
=
=
=
E[Vn ] =
=
n
n
1 1 (Xi − Mn )2 =
(Xi − μ − (Mn − μ))2
n − 1 i=1
n − 1 i=1
n
n
1 2
n
(Xi − μ)2 −
(Mn − μ) (Xi − μ) +
(Mn − μ)2
n − 1 i=1
n−1
n
−
1
i=1
n
1 2n
n
(Mn − μ)2 +
(Mn − μ)2
(Xi − μ)2 −
n − 1 i=1
n−1
n−1
n
1 n
(Xi − μ)2 −
(Mn − μ)2
n − 1 i=1
n−1
n
1 n
E[(Xi − μ)2 ] −
E[(Mn − μ)2 ]
n − 1 i=1
n−1
n
n
1
1
nV [Xi ] −
V [Mn ] =
σ2 −
σ2 = σ2
n−1
n−1
n−1
n−1
最尤推定 (MLE: Maximum Likelihood Estimator)
観測対象(確率変数)の分布が未知パラメタ θ を含む時に,その値を実際に観
測したデータ M から推定したい.未知パラメタ θ を定めた時の観測データが起
きる「もっともらしさ」(尤度:ゆうど),すなわち,パラメタの値が θ という仮
定の下での観測データが発生する確率(離散分布の場合)または確率密度(連続
分布の場合)を L(θ) と書く.観測データ M を使っているという意味で,L[M](θ)
とも書く.
この L(θ) が式として表現できる場合(=その観測値が観測される確率(または
確率密度)を θ の関数の形で陽に書ける場合)に,値 L(θ) を最大にする θ = θˆ を
(未知の)真のパラメタ θ∗ の最尤推定(MLE)と呼ぶ.
5
• 離散分布の場合,i 回目の観測値を ξi ,それに対応する確率変数を Xi と置き,
Xi の発生確率関数を θ の関数として p(x; θ) と書けるとすると,観測値の発
生確率 Pr[Xi = ξi ] = p(ξi ; θ) となる.n 回の観測値 M(n) = {ξ1 , ....ξn } の尤
度は,{Xi } が互いに独立として,
def
L[M(n) ](θ) = Pr[X1 = ξ1 ∧ .. ∧ Xn = ξn ] =
n
i=1
p(ξi ; θ)
def
となる.この時 θˆ = arg max L[M(n) ](θ) が MLE である.
θ
注: arg max f (x) は,
「f (x) を最大にする x の値」を意味する記法.
x
• L(θ) を最大にする θ と,log L(θ)(対数尤度)を最大にする θ は同じなので,
通常(計算のしやすさから),対数尤度を用いることが多い.
log L[M(n) ](θ) =
n
i=1
log p(ξi ; θ),
def
この時 θˆ = arg max log L[M(n) ](θ) が MLE である.
θ
• 連続分布の場合,
「ある特定の観測値」が観測される確率は 0 なのでそれを
尤度に使えず,その観測値での確率密度を尤度として使う.つまり,密度
関数を使って L[M(n) ](θ) を定義する.i 回目の観測 Xi の密度関数を p(x; θ)
と書くと,{Xi } が互いに独立として,n 回の観測値の結合密度関数は引数
を (x1 , x2 , . . . , xn ) として,
n
i=1
p(xi ; θ) である.よって,観測されたデータ
M(n) = {ξ1 , ....ξn } の尤度は,その観測値 (x1 , x2 , . . . , xn ) = (ξ1 , ξ2 , . . . , ξn ) で
の結合密度の値になる:
def
L[M(n) ](θ) =
n
i=1
log L[M(n) ](θ) =
p(ξi ; θ),
n
i=1
log p(ξi ; θ)
ただし,一般には,無意味な場合もある(尤度を最大にする θ が多数ある等).
また,厳密解(解析解)を計算することが困難な場合,この最大化を状況に応じ
て速く精確に解く近似手法が重要.例えば,EM(Expectation-Maximization) 法.
例題 (最尤推定)
<1> 「表の出る確率が p のコインを n 回投げて表が k 回出る」事象の確率は
H(p, n, k) =
n!
pk (1 − p)n−k
k!(n − k)!
(つまり2項分布)
(1) 未知のコインを n 回投げて,表が k 回出た.n, k を観測値として,表の出る
確率 p を最尤推定せよ(p が未知,実用的な例ではない).
6
def
任意に固定した n に対して,尤度関数 Lk (p) = H(p, n, k) とする.k = 0 なら,
L0 (p) = (1 − p)n なので,p = 0 で最大.同様に,k = n なら,Ln (p) = pn なので,
p = 1 で最大.そこで,0 < k < n の場合を考える.
Lk (p) =
n!
pk−1(1 − p)n−k−1(k − np)
k!(n − k)!
より,Lk (p) = 0 (0 ≤ p ≤ 1) となるのは,p = k/n.しかも,
Lk (p) =
n!
(pk−1(1 − p)n−k−1) (k − np) + (pk−1(1 − p)n−k−1)(−n)
k!(n − k)!
Lk
k
n
n!
=
k!(n − k)!
となるので,Lk (p) は p =
k−1 k
n
k
1−
n
n−k−1
(−n) < 0
k
で最大.
n
k
.この場合,最尤推定と標本平均が一致する.
n
• すなわち,pˆ =
(2) 表裏が同等に出やすいコイン(つまり p = 0.5)を何回か投げて,表が k 回
出た.k を観測値として,投げた回数 n を最尤推定せよ(n が未知,実用的
な例ではない).ただし、k ≥ 1 とする。
def
任意に固定した k に対して,尤度関数 L(n) = H(0.5, n, k) =
n!
の
k!(n − k)!2n
増減を知るために,以下を調べる。
n+1
n+1
L(n + 1)
=
=
L(n)
2(n + 1 − k)
2n + 2 − 2k
n+1
n+1
≤
< 1 より,その範囲では L(n) は n につい
2n + 2 − 2k
n+2
て単調減少.
n+1
n+1
=
= 1 より,n = 2k − 1, 2k で L(n) は
• n = 2k − 1 なら
2n + 2 − 2k
n+1
同じ.
n+1
n+1
≥
> 1 より,その範囲では L(n) は
• k ≤ n ≤ 2k − 2 なら
2n + 2 − 2k
n
n について単調増加.
• n ≥ 2k なら
よって,n = 2k − 1, 2k で L(n) = H(0.5, n, k) が最大.
• すなわち,n
ˆ = 2k − 1, または 2k (最尤推定では一意に決まらない).
その時の H 値は,
H(0.5, 2k, k) =
(2k)!
(2k − 1)(2k − 3) · · · 3 · 1
=
2k
k!k!2
(2k)(2k − 2) · · · 4 · 2
7
<2> X は正規分布に従う.ただし平均 μ と分散 σ 2 が未知.この場合に n 個の X
の観測データ {ξ1 , ξ2 , ..., ξn } から,平均と分散を最尤推定せよ.
1
(x − μ)2
μ と σ を与えると X の密度関数は, h(x) = √
exp −
2σ 2
2πσ 2
(X1 , . . . , Xn ) が互いに独立なら,その結合密度関数は,
n
(xi − μ)2
1
√
hn (x1 , . . . , xn ) =
exp −
2σ 2
2πσ 2
i=1
= (2π)
−n
2
σ
−n
exp −
i
なので,
(xi − μ)2
2σ 2
def
尤度は観測された値 (ξ1 , ..., ξn ) での結合密度であり,L(μ, σ) = hn (ξ1 , ..., ξn ) .そ
こで,対数尤度関数を考え,最大化する点を探す.
def
f (μ, σ) = log L(μ, σ) = log (2π)
−n
2
σ −n exp −
i
(ξi − μ)2
2σ 2
n
1 = − log(2π) − n log σ − 2
(ξi − μ)2
2
2σ i
これを最大化する停留点 (μ, σ) は,以下のように,標本平均及び標本分散に等
しい.
0 =
0 =
n
1 ∂f
=− 2
(ξi − μ)
∂μ
σ i=1
n
(ξi − μ)2
∂f
n =− +
∂σ
σ i=1
σ3
... μ
ˆ=
1
ξi
n i
1
... σˆ2 =
(ξi − μ
ˆ )2
n i
• X が正規分布に従う場合,期待値の最尤推定は標本平均と一致.分散の最尤
推定は標本分散と一致.
• もちろん,X が正規分布に従わない一般の場合は,期待値の最尤推定が標本
平均になるとは限らず,分散の最尤推定が標本分散になるとも限らない.
• 標本分散は不偏推定ではないので,結果的に,
「最尤推定は必ずしも不偏とは
限らない」ことがわかる.
練習 1> ある非常に多人数の集団があるとする.集団中の各人の身長はある未知の
(同一の)分布に従うと解釈し,その分布の期待値を推定するのに,無作為
に選んだ 1 名の身長を推定値とする方式(A)と,無作為に選んだ 10 名の身
長の算術平均を推定値とする方式(B)とを比較し,その得失を論ぜよ.(A)
は n = 1 の,(B) は n = 10 の,標本平均である.
2> X は区間 [a, b] 上の一様分布に従うとする.実数 a, b が未知の場合,それら
の値を 3 回の観測値 (X1 , X2 , X3 ) = (0.5, 0.2, 2.0) から最尤推定せよ.
8