確率・統計（電子2年）第10講前回復習 15. 統計的推定と点推定

確率・統計（電子２年）
第 10 講
• 標本平均，不偏分散，最尤推定
• （次回は中間レポート解答用紙と赤ペン・赤鉛筆持参）
前回復習
確率変数 X =
1
0
確率 p
と Y =
確率 (1 − p)
1
0
確率 q
確率 (1 − q)
が独立として，
def
（合成）確率変数 Z(ω) = XOR(X(ω), Y (ω)) を考える．
• 期待値 E[Z] と分散 V [Z] を計算せよ．
• 共分散 Cov[X, Z] を計算せよ．p, q の値に応じた，X と Z の相関は？
定義より，Pr[Z = 1] = Pr[X = 1, Y = 0]+Pr[X = 0, Y = 1] = p(1−q)+q(1−p)
と確率関数から計算を進めてもよいが，もっと簡単には，Z = X(1−Y )+(1−X)Y ，
X(ω)(1 − X(ω)) = 0 （よって E[X(1 − X)] = 0）を利用し，E[X] = E[X 2 ] = p，
E[Y ] = E[Y 2 ] = q と，X と Y の独立性から，
• E[Z] = E[X(1 − Y ) + (1 − X)Y ] = E[X + Y − 2XY ] = p + q − 2pq
• V [Z] = E[Z 2 ] − (E[Z])2 = E[Z] − (E[Z])2 = (p + q − 2pq) − (p + q − 2pq)2
• Cov[X, Z] = E[XZ] − E[X]E[Z]
= E[X 2 (1 − Y ) + X(1 − X)Y ] − E[X]E[X(1 − Y ) + (1 − X)Y ]
= E[X 2 (1 − Y )] − E[X](E[X(1 − Y )] + E[(1 − X)Y ])
= p(1 − q) − p(p(1 − q) + (1 − p)q) = p(1 − p)(1 − 2q)
– p が 0 または 1（つまり X はほとんどすべての運命で同じ値）の時は，
X と Z は無相関．実は独立．
1
– q = （つまり Y の値が 0 になるか 1 になるかは全く予測不可能）の時
2
は，X と Z は無相関．実は独立。
1
1
– q < の時，X と Z には正の相関がある．逆に，q > の時，X と Z に
2
2
は負の相関がある．
15. 統計的推定と点推定
1. 現象の確率計算（確率モデル→これから観測するデータの振る舞いの予測）
1
• 現象の要素や背景をモデル化（確率変数を定義し分布を既知のものとし
て与える）．
• モデルから，現象の発生に関する確率分布や期待値などを計算．
• 例：表と裏が等確率で出るコインを 1000 回投げる場合，表の出る回数
が 400 以上 600 以下である「確率」はいくらか？
2. 数理統計：実際の現象を確率変数でモデル化した時に，現象の観測データか
ら何が言えるかを確率論に基づいて論理的に分析する手法．言葉として代表
的なものに，統計的推定と統計的検定があるがその差は微妙である．ここで
は，前者の「統計的推定」の基本を扱い，観測値からモデル（あるいは母分
布と呼ぶ）を推定する．
（実際に観測したデータ→確率モデルの推定）
• 確率的現象を未知のパラメタ付きの分布でモデル化．
• 現象を実際に観測し，観測データから，未知パラメタ（未知分布）を推
定．あるいは推定した分布から，次に起きる現象を予測（この部分は確
率計算とも言える）．
• 例：表の出る確率が未知（裏の出る確率は 1 - その値）のコインを 1000
回投げて 431 回表が出た場合，表が出る確率をいくらだと推定するか？
• 推定方法（方式）によって値は違うかも知れない．推定方法の「妥当性」
の観点は後で議論する．
ただし，以前出てきた「条件付き確率」「条件付き分布」は，一部の事象の観測
結果を見て，他の事象の発生確率を考えるものであり，観測データを利用すると
いう意味では，上の，1. と 2. の両方に関係する．
広義の統計的推定の中で，ある確率変数 X で確率的現象をモデル化した場合，
その X が持つ（はずの）分布の統計量または分布を決定するパラメタの値を，独
立した n 回の現象の観測（実現値）から，何らかの根拠のある方法で一意に定め
def
るものを「点推定」と呼ぶ．n 個の X の観測値を M = {ξ1 , ξ2, ..., ξn } と置く．
期待値の推定
X の期待値 E[X] は，もし X の分布が既知なら最初から与えられる（あるいは
期待値の定義から計算で導出される）量であるが，分布が未知の場合に，X の観
n
1
ξi がよく使わ
測データ M から推定する方法として，観測値の算術平均：
n i=1
れる．
この推定法の「確率論的性質」を見るには，n 回分の X の観測データを，X と同じ
分布を持つ，n 個の独立な確率変数 X1 ,..,Xn と見なし（この仮定を i.i.d.(independent
identical distribution) と呼ぶ），推定値もまた確率変数として扱う．
2
この期待値の推定法（式）を「標本平均」と呼ぶ．観測回数を n として
n
1
Xi (ω)
n i=1
def
Mn (ω) =
• ある運命 ω が１つ与えられ，n 回のすべての観測値 {X1(ω), X2(ω), . . . , Xn (ω)}
がそれによって決まる，と解釈する点に注意．
• つまり，n 回の観測の全体を１つの「実験」とみなし，その「実験」結果を
運命に選択させる．
例えば，表の出る確率が未知（値 p と置く）のコインを n 回投げ，表が出た回
数を確率変数 Nn (ω) とし（運命 ω の時に），
Nn
p の推定値として，
n
を使うことは，実は「標本平均」である．なぜなら，Xj =
ると (j = 1, 2, . . . , n) ，p = E[Xj ] であり，それを，
1 j 回目が表
0 j 回目が裏
とす
n
1
Nn
=
Xj で推定するこ
n
n j=1
とになるから．
後の講義で示すように，実は以下の性質が成り立つ（証明できる）．
Nn
]=p
n
• コインを投げる回数が十分に多いと推定値はほとんどの運命 ω で（＝確率 1
Nn (ω)
→ p (n → ∞) （ほとんどの ω で）．
で）真の値に極めて近い：
n
Nn
→a.s. p (n → ∞) と書く（a.s. = “almost surely” ）．
これを以降，
n
• 推定値の期待値は真の値に等しい：E[
推定値（点推定の推定法）の性質
一般に，現象の分布の性質を表すパラメタ（母数）の「点推定」では，
• 有限個のパラメタ（「母数」と呼ぶ：連続値または離散値）を持つ分布族（分
布の集合）を仮定し，その中から，観測データに対して「最適な」パラメタ
を決めることで，観測データが従う真の分布（「母分布」と呼ぶ）を推定．
確率変数 X の分布のパラメタ θ の（未知の）真の値を θ∗ として，
• n 個の観測データに基づく，ある点推定法による真の値の推定（値）を θˆ(n) ，
と置くと，以下のような性質があることが望まれる．
3
• 不偏：任意の n で， E[θˆ(n) ] = θ∗ が成り立つこと．
• 強一致： θˆ(n) →a.s. θ∗ (n → ∞) が成り立つこと．
• Mean Squared Error （MSE：平均平方誤差）またはその平方根（RMSE：
Root Mean Squared Error，二乗平均平方根誤差）を誤差評価に使う．小さ
いほど良い推定法である．
MSE[θˆ(n) ]
= E[(θ∗ − θˆ(n) )2 ] = E[(θ∗ − E[θˆ(n) ] + E[θˆ(n) ] − θˆ(n) )2 ]
= (θ∗ − E[θˆ(n) ])2 + 2(θ∗ − E[θˆ(n) ])E[E[θˆ(n) ] − θˆ(n) ] + E[(E[θˆ(n) ] − θˆ(n) )2 ]
def
= (θ∗ − E[θˆ(n) ])2 + V [θˆ(n) ]
つまり，平均平方誤差＝偏りの二乗の度合い＋ちらばりの二乗の度合い（分散）
• 上の MSE は，もし不偏なら第 1 項は 0 なので，分散に等しい．
分散の推定値
X の分散 V [X] の推定値として，以下の２つがよく使われる（観測数を n として）
：
def
標本分散： Wn (ω) =
def
または不偏分散： Vn (ω) =
n
1
(Xi (ω) − Mn (ω))2
n i=1
n
1 (Xi (ω) − Mn (ω))2
n − 1 i=1
標本平均・標本分散・不偏分散の性質未知の平均と分散を，μ = E[X] = E[Xi ], σ 2 = V [X] = V [Xi ] と置く．
• 標本平均 Mn =
n
1
Xj の性質
n j=1
– E[Mn ] = μ． ∼すなわち不偏性
– 大数の強法則（後日）
∗ Mn →a.s. μ (n → ∞)．∼すなわち強一致性
σ2
– MSE[Mn ] = V [Mn ] = ．∼ 計算：E[Mn ] = μ, E[Xi Xj ] = μ2 (i = j)，
n
V [Mn ] = E[(Mn − μ)2 ] = E[Mn2 ] − 2μE[Mn ] + μ2
n
1 1
=
E[Xi Xj ] − μ2 = 2 (n(n − 1)μ2 + nE[X12 ]) − μ2
2
n i,j
n
=
1
σ2
(E[X12 ] − μ2 ) =
n
n
4
√
∗ n に反比例して MSE が減少（ n に反比例して「誤差」が減少）
– 誤差見積もり（信頼区間）
∗ 中心極限定理より（後日）
• 標本分散 Wn =
n
n
1
1 (Xi − Mn )2 ，不偏分散 Vn =
(Xi − Mn )2 性質
n i=1
n − 1 i=1
– E[Vn ] = σ 2 ． ∼すなわち不偏性（計算は下を参照）
n−1 2
σ ． ∼すなわち不偏ではない
– E[Wn ] = . . . =
n
– 大数の強法則の応用（後日）
∗ Vn →a.s. σ 2 (n → ∞)．∼すなわち強一致性．Wn も同様．
Vn の不偏性の計算：
def
Vn =
=
=
=
E[Vn ] =
=
n
n
1 1 (Xi − Mn )2 =
(Xi − μ − (Mn − μ))2
n − 1 i=1
n − 1 i=1
n
n
1 2
n
(Xi − μ)2 −
(Mn − μ) (Xi − μ) +
(Mn − μ)2
n − 1 i=1
n−1
n
−
1
i=1
n
1 2n
n
(Mn − μ)2 +
(Mn − μ)2
(Xi − μ)2 −
n − 1 i=1
n−1
n−1
n
1 n
(Xi − μ)2 −
(Mn − μ)2
n − 1 i=1
n−1
n
1 n
E[(Xi − μ)2 ] −
E[(Mn − μ)2 ]
n − 1 i=1
n−1
n
n
1
1
nV [Xi ] −
V [Mn ] =
σ2 −
σ2 = σ2
n−1
n−1
n−1
n−1
最尤推定 (MLE: Maximum Likelihood Estimator)
観測対象（確率変数）の分布が未知パラメタ θ を含む時に，その値を実際に観
測したデータ M から推定したい．未知パラメタ θ を定めた時の観測データが起
きる「もっともらしさ」（尤度：ゆうど），すなわち，パラメタの値が θ という仮
定の下での観測データが発生する確率（離散分布の場合）または確率密度（連続
分布の場合）を L(θ) と書く．観測データ M を使っているという意味で，L[M](θ)
とも書く．
この L(θ) が式として表現できる場合（＝その観測値が観測される確率（または
確率密度）を θ の関数の形で陽に書ける場合）に，値 L(θ) を最大にする θ = θˆ を
（未知の）真のパラメタ θ∗ の最尤推定（MLE）と呼ぶ．
5
• 離散分布の場合，i 回目の観測値を ξi ，それに対応する確率変数を Xi と置き，
Xi の発生確率関数を θ の関数として p(x; θ) と書けるとすると，観測値の発
生確率 Pr[Xi = ξi ] = p(ξi ; θ) となる．n 回の観測値 M(n) = {ξ1 , ....ξn } の尤
度は，{Xi } が互いに独立として，
def
L[M(n) ](θ) = Pr[X1 = ξ1 ∧ .. ∧ Xn = ξn ] =
n
i=1
p(ξi ; θ)
def
となる．この時 θˆ = arg max L[M(n) ](θ) が MLE である．
θ
注： arg max f (x) は，
「f (x) を最大にする x の値」を意味する記法．
x
• L(θ) を最大にする θ と，log L(θ)（対数尤度）を最大にする θ は同じなので，
通常（計算のしやすさから），対数尤度を用いることが多い．
log L[M(n) ](θ) =
n
i=1
log p(ξi ; θ),
def
この時 θˆ = arg max log L[M(n) ](θ) が MLE である．
θ
• 連続分布の場合，
「ある特定の観測値」が観測される確率は 0 なのでそれを
尤度に使えず，その観測値での確率密度を尤度として使う．つまり，密度
関数を使って L[M(n) ](θ) を定義する．i 回目の観測 Xi の密度関数を p(x; θ)
と書くと，{Xi } が互いに独立として，n 回の観測値の結合密度関数は引数
を (x1 , x2 , . . . , xn ) として，
n
i=1
p(xi ; θ) である．よって，観測されたデータ
M(n) = {ξ1 , ....ξn } の尤度は，その観測値 (x1 , x2 , . . . , xn ) = (ξ1 , ξ2 , . . . , ξn ) で
の結合密度の値になる：
def
L[M(n) ](θ) =
n
i=1
log L[M(n) ](θ) =
p(ξi ; θ),
n
i=1
log p(ξi ; θ)
ただし，一般には，無意味な場合もある（尤度を最大にする θ が多数ある等）．
また，厳密解（解析解）を計算することが困難な場合，この最大化を状況に応じ
て速く精確に解く近似手法が重要．例えば，EM(Expectation-Maximization) 法．
例題（最尤推定）
＜１＞「表の出る確率が p のコインを n 回投げて表が k 回出る」事象の確率は
H(p, n, k) =
n!
pk (1 − p)n−k
k!(n − k)!
（つまり２項分布）
(1) 未知のコインを n 回投げて，表が k 回出た．n, k を観測値として，表の出る
確率 p を最尤推定せよ（p が未知，実用的な例ではない）．
6
def
任意に固定した n に対して，尤度関数 Lk (p) = H(p, n, k) とする．k = 0 なら，
L0 (p) = (1 − p)n なので，p = 0 で最大．同様に，k = n なら，Ln (p) = pn なので，
p = 1 で最大．そこで，0 < k < n の場合を考える．
Lk (p) =
n!
pk−1(1 − p)n−k−1(k − np)
k!(n − k)!
より，Lk (p) = 0 (0 ≤ p ≤ 1) となるのは，p = k/n．しかも，
Lk (p) =
n!
(pk−1(1 − p)n−k−1) (k − np) + (pk−1(1 − p)n−k−1)(−n)
k!(n − k)!
Lk
k
n
n!
=
k!(n − k)!
となるので，Lk (p) は p =
k−1 k
n
k
1−
n
n−k−1
(−n) < 0
k
で最大．
n
k
．この場合，最尤推定と標本平均が一致する．
n
• すなわち，pˆ =
(2) 表裏が同等に出やすいコイン（つまり p = 0.5）を何回か投げて，表が k 回
出た．k を観測値として，投げた回数 n を最尤推定せよ（n が未知，実用的
な例ではない）．ただし、k ≥ 1 とする。
def
任意に固定した k に対して，尤度関数 L(n) = H(0.5, n, k) =
n!
の
k!(n − k)!2n
増減を知るために，以下を調べる。
n+1
n+1
L(n + 1)
=
=
L(n)
2(n + 1 − k)
2n + 2 − 2k
n+1
n+1
≤
< 1 より，その範囲では L(n) は n につい
2n + 2 − 2k
n+2
て単調減少．
n+1
n+1
=
= 1 より，n = 2k − 1, 2k で L(n) は
• n = 2k − 1 なら
2n + 2 − 2k
n+1
同じ．
n+1
n+1
≥
> 1 より，その範囲では L(n) は
• k ≤ n ≤ 2k − 2 なら
2n + 2 − 2k
n
n について単調増加．
• n ≥ 2k なら
よって，n = 2k − 1, 2k で L(n) = H(0.5, n, k) が最大．
• すなわち，n
ˆ = 2k − 1, または 2k （最尤推定では一意に決まらない）．
その時の H 値は，
H(0.5, 2k, k) =
(2k)!
(2k − 1)(2k − 3) · · · 3 · 1
=
2k
k!k!2
(2k)(2k − 2) · · · 4 · 2
7
＜２＞ X は正規分布に従う．ただし平均 μ と分散 σ 2 が未知．この場合に n 個の X
の観測データ {ξ1 , ξ2 , ..., ξn } から，平均と分散を最尤推定せよ．
1
(x − μ)2
μ と σ を与えると X の密度関数は， h(x) = √
exp −
2σ 2
2πσ 2
(X1 , . . . , Xn ) が互いに独立なら，その結合密度関数は，
n
(xi − μ)2
1
√
hn (x1 , . . . , xn ) =
exp −
2σ 2
2πσ 2
i=1
= (2π)
−n
2
σ
−n
exp −
i
なので，
(xi − μ)2
2σ 2
def
尤度は観測された値 (ξ1 , ..., ξn ) での結合密度であり，L(μ, σ) = hn (ξ1 , ..., ξn ) ．そ
こで，対数尤度関数を考え，最大化する点を探す．
def
f (μ, σ) = log L(μ, σ) = log (2π)
−n
2
σ −n exp −
i
(ξi − μ)2
2σ 2
n
1 = − log(2π) − n log σ − 2
(ξi − μ)2
2
2σ i
これを最大化する停留点 (μ, σ) は，以下のように，標本平均及び標本分散に等
しい．
0 =
0 =
n
1 ∂f
=− 2
(ξi − μ)
∂μ
σ i=1
n
(ξi − μ)2
∂f
n =− +
∂σ
σ i=1
σ3
... μ
ˆ=
1
ξi
n i
1
... σˆ2 =
(ξi − μ
ˆ )2
n i
• X が正規分布に従う場合，期待値の最尤推定は標本平均と一致．分散の最尤
推定は標本分散と一致．
• もちろん，X が正規分布に従わない一般の場合は，期待値の最尤推定が標本
平均になるとは限らず，分散の最尤推定が標本分散になるとも限らない．
• 標本分散は不偏推定ではないので，結果的に，
「最尤推定は必ずしも不偏とは
限らない」ことがわかる．
練習１＞ある非常に多人数の集団があるとする．集団中の各人の身長はある未知の
（同一の）分布に従うと解釈し，その分布の期待値を推定するのに，無作為
に選んだ 1 名の身長を推定値とする方式（A）と，無作為に選んだ 10 名の身
長の算術平均を推定値とする方式（B）とを比較し，その得失を論ぜよ．(A)
は n = 1 の，(B) は n = 10 の，標本平均である．
２＞ X は区間 [a, b] 上の一様分布に従うとする．実数 a, b が未知の場合，それら
の値を 3 回の観測値 (X1 , X2 , X3 ) = (0.5, 0.2, 2.0) から最尤推定せよ．
8

Download Report