確率・統計(電子2年) 第11講(補強版) 前回練習

第 11 講(補強版)
確率・統計(電子2年)
• 前半模擬テストの解説&回収
• 最小二乗法による回帰分析
前回練習
<1> 多人数の集団を考える.各人の身長はある未知の(同一の)分布に従うと解
釈し,その分布の期待値を推定したい.無作為に選んだ 1 名の身長を推定値
とする方式(A)と,無作為に選んだ 10 名の身長の算術平均を推定値とする
方式(B),すなわち標本数1と 10 の 2 種類の標本平均,の得失を論ぜよ.
集団の身長の真の期待値を μ,分散を σ 2 と置く.無作為に独立に選んだ人の身長
を X1 , X2 , . . . という確率変数で表わす.(A) は μ の推定を X1 で行う.(B) は μ の
10
def 1 Xk で行う.
推定を M10 =
10 k=1
• (A) は,1名しか測定しないので手間が小.(B) は10名分の手間が掛る.
• 推定法としてはどちらも不偏(推定値の期待値が真の値と等しい)
:
(A) の推定値の期待値は,E[X1 ] = μ,
10
1 (B) の推定値の期待値は,E[M10 ] =
E[Xk ] = μ
10 k=1
• 平均平方誤差 (MSE) は(不偏なので結局推定法自体の分散に等しい),
(A) の MSE は,= E[(X1 − μ)2 ] = V [X1 ] = σ 2
2
10
1 (B) の MSE は,= E[(M10 − μ)2 ] = E[
Xk − μ ]
10 k=1
1 1
= ... = 2
E[Xi Xj ] − μ2 = 2 (10(10 − 1)μ2 + 10E[X12]) − μ2
10 i,j
10
σ2
1
V [X1 ]
=
= (E[X12 ] − μ2 ) =
10
10
10
つまり,(B) の方が推定誤差が小さい.その差は,分散 σ 2 が大きい程,顕著.
<2> X は区間 [a, b] 上の一様分布に従うとする.a, b が未知で,その 2 つの値を 3
回の観測値 (X1 , X2 , X3 ) = (0.5, 0.2, 2.0) から「推定」したい.
「確率」
一様分布は連続分布なので,Pr[X1 = 0.5, X2 = 0.2, X3 = 2.0] = 0 であり,
を尤度として扱えないので,
「確率密度」を尤度として扱う.
1
1
(a ≤ x ≤ b), であり,X1 , X2 , X3 は独立
b−a
なので,(X1 , X2 , X3 ) の結合密度関数は,
Xi の確率密度関数は,p(x) =
p3 (x1 , x2 , x3 ) =
⎧
⎨
⎩
(x1 , x2 , x3 ) ∈ [a, b] × [a, b] × [a, b],
otherwise
1
(b−a)3
0
よって,尤度関数は
L(a, b) = p3 (0.5, 0.2, 2.0) =
1
(b − a)3
であり,これを最大にする (a, b) を求めたい.つまり以下の最小化問題を解けばよ
く,(a, b) = (0.2, 2.0) が最尤推定になる.
min (b − a)
3
ただし次の条件下:
(a,b)
a ≤ min(0.5, 0.2, 2.0) = 0.2,
b ≥ max(0.5, 0.2, 2.0) = 2.0.
参考:標本平均・分散による推定 X の観測数が 3 個ではなくもっと多い場合は,標本平均,標本(不偏)分散に
よる推定も考えられる.一様分布を決定するパラメタが 2 つ (a, b) だけなので,2
種類の統計量から推定できる.
a+b
(b − a)2
• X の期待値は E[X] =
,分散は V [X] =
.
2
12
n
def 1 • 観測値:{ξ1, . . . , ξn } からの,標本平均(による期待値推定)は Mn =
ξk ,
n k=1
n
1 def
不偏分散(による分散推定)は Vn =
(ξk − Mn )2 .
n − 1 k=1
a, ˆb) と置くと,
より,(a, b) の推定値を (ˆ
• a
ˆ = Mn −
3Vn ,
ˆb = Mn +
3Vn .
15b. 統計的推定と点推定(続)
最小二乗法による回帰分析
ランダムな誤差を含んだ出力の観測結果から入力との間の関係式を推定しよう.
一般に回帰分析と呼ばれる問題である.ここでは最尤推定を応用する.
入力 x と出力 y の間には y = Q(x) という関係式が成り立つことが(なんらかの
根拠・理論から)判っているが,その Q は具体的な形を決めるパラメタ(ベクト
ル)θ を含み,θ の値が不明だとする.ここでは Qθ と書くことにする.この時,実
際に多数回の異なる入力を行いその入力値 X に対する出力値 Y を観測して,θ を
推定したい.ただし,出力値 Y にランダムな誤差 Z が含まれる.
2
• 確率変数 Y と X と Z の間には,Y = Qθ (X) + Z の等式が成り立つ.
• X:
(ランダムな)入力値で,その分布は知らない.
• Z :ランダムな誤差で,平均 0,分散 σ 2(未知の正値)を持つ正規分布に従
い,X と Z は独立,と仮定する.
• (X, Y ) の n 個の観測データ {(ξ1 , η1 ), ..., (ξn , ηn )} から,関係式 Q の具体的な
形を決めるパラメタベクトル θ を最尤推定せよ.
• ここでは,パラメタ θ を仮に与えても, (X, Y の分布の情報がないので)
(ξi , ηi ) の尤度を式で表現できず,その最大化を議論できないが,X = ξi の時
の Y = ηi の条件付き確率密度を尤度として考えれば最尤推定を定義できる.
Y = Qθ (X)+Z ,Z は N (0, σ 2) に従うことを知っている(ただし σ は未知)ので,
Pr[Y ≤ y|X = x] = Pr[Qθ (X) + Z ≤ y|X = x] = Pr[Z ≤ y − Qθ (X)|X = x]
y−Qθ (x)
1
z2
√
exp − 2 dz
= Pr[Z ≤ y − Qθ (x)] =
2σ
−∞
2πσ 2
y
2
1
(z − Qθ (x))
√
=
exp −
dz
2σ 2
−∞
2πσ 2
なお,2行目に移る等式は,X と Z が「独立」なので成り立つ.
X と Y の n 回の独立な観測の条件付き結合分布 F (y1, . . . , yn |x1 , . . . , xn ) = Pr[Y1 ≤
y1 , . . . , Yn ≤ yn |X1 = x1 , . . . , Xn = xn ] は,
n
n yi
1
(z − Qθ (xi ))2
√
F (yy |x
x) =
Pr[Yi ≤ yi |Xi = xi ] =
exp −
dz
2σ 2
2πσ 2
i=1
i=1 −∞
y1
yn
n
1
(wi − Qθ (xi ))2
···
exp
−
dw1 · · · dwn
=
2σ 2
−∞
−∞ (2π)n/2 σ n
i=1
であり,(X1 , X2 , . . . , Xn ) の観測値 (x1 . . . . .xn ) に関する (Y1 , Y2 , . . . , Yn ) の条件付
密度関数 h(w1 , . . . , wn |x1 , . . . , xn ) は
n
1
(wi − Qθ (xi ))2
h(w1 , . . . , wn |x1 , . . . , xn ) =
exp
−
(2π)n/2 σ n
2σ 2
i=1
となる.よって,観測データ {(ηi |ξi )|i = 1, . . . , n} の尤度関数は
n
1
(ηi − Qθ (ξi ))2
L(θ) = h(η1 , . . . , ηn |ξ1, . . . , ξn ) =
exp
−
(2π)n/2 σ n
2σ 2
i=1
であり,その対数尤度関数の最大化を考える.
1 n
log L(θ) = − log(2π) − n log σ − 2
(ηi − Qθ (ξi ))2
2
2σ i
これを最大化する θ が最尤推定値であり,それを求めるには,
•
n
i=1
(ηi − Qθ (ξi ))2 の最小化
を解けばよい.これを最小二乗法と呼ぶ.
3
例(線形回帰)
θ = (a0 , a1 ), Qθ (x) = a0 + a1 x,Y = Qθ (X) + Z とする(回帰直線).この時,
1 n
def
f (a0 , a1 ) = log L(a0 , a1 ) = − log(2π) − n log σ − 2
(ηi − (a0 + a1 ξi ))2
2
2σ i
を最大化すればよいので,
n
def
• d(a0 , a1 ) =
i=1
(ηi − (a0 + a1 ξi ))2
を最小化する a0 = a
ˆ0 , a1 = a
ˆ1 が,未知係数 a0 , a1 の「最尤推定」値になり,
0=
∂d
= −2 (ηi − (a0 + a1 ξi )),
∂a0
i
∂d
= −2
ξi (ηi − (a0 + a1 ξi ))
∂a1
i
0=
より,以下の連立方程式を解いて得る値である.
n
ηi = a0 n + a1
i=1
つまり,
a
ˆ0 =
ηi
i ηi ξi
2
n
i=1
i
n
ξi ,
=
i=1
n
i
ηi ξi = a0
ξ
i ξi
2
i ξi
n
i=1
ξi + a1
aˆ0
aˆ1
n
i=1
ξi2
(1)
ηi − i ξi i ηi ξi
n i ηi ξi − i ξi i ηi
,a
ˆ1 =
,
2
2
n i ξi − ( i ξi )
n i ξi2 − ( i ξi )2
i ξi
i
(参考):
式 (1) を解いて求めた a0 , a1 の推定は,以下のようにも解釈できる.Y = a0 +
a1 X + Z で,E[Z] = 0 及び X と Z の独立性より,E[Y ] と E[XY ] を計算すると,
E[Y ] = a0 + a1 E[X] + E[Z] = a0 + a1 E[X],
E[XY ] = E[a0 X + a1 X 2 + XZ] = a0 E[X] + a1 E[X 2 ]
• 上の各期待値を標本平均で推定すると,2個の未知数に対して2つの等式が
導かれ,未知数を決定することができるが,その結果は,最尤推定と同じ推
定式になる.実際,E[Y ], E[X], E[XY ], E[X 2 ] を各々標本平均で推定すると,
1
1
1
1 2
ηi ,
ξi ,
ξi ηi ,
ξ
n i
n i
n i
n i i
なので,式 (1) と同じ等式が得られる.
なお,Z が正規分布であることは仮定していない.
4
• 一方,a1 の推定に,分散を用いて等式を導くこともできる.例えば,共分散
を計算すると以下の等式が成り立つ.
Cov[X, Y ] = E[XY ] − E[X]E[Y ] = a1 (E[X 2 ] − (E[X])2 ) = a1 V [X]
ここで,最左辺の共分散と最右辺の分散を,共に標本分散で推定しても,あ
るいは,共に不偏分散で推定しても,n で割るか (n − 1) で割るかの違いは
相殺され,a1 の推定には影響しない.
補足(参考)
:以下の議論はどこがおかしいだろうか?
Z が N (0, σ 2) に従うことより,Z の n 回の独立な観測の結合密度関数は,
h(x1 , . . . , xn ) =
i
x2
1
√
exp − i2
2σ
2πσ 2
そこで,Z = Y − Qθ (X) から,{(X, Y ) = (ξi , ηi )|i = 1, . . . , n} の尤度,
すなわち,{Z = ηi − Qθ (ξi )|i = 1, . . . , n} の尤度 L(の対数)は,
log L(θ) = log h(η1 − Qθ (ξ1 ), . . . , ηn − Qθ (ξn ))
1
(ηi − Qθ (ξi ))2
√
exp −
= log
2σ 2
2πσ 2
i
n
1 = − log(2π) − n log σ − 2
(ηi − Qθ (ξi ))2
2
2σ i
一見,元の「正しい」最尤推定と同じ対数尤度関数を導けた.しかし,
「X と Z
が独立である」という仮定を使っていない.しかし,実際は,もしその独立性が
成り立たない場合,上の例における最尤推定で得られる a1 は不適切な値になりう
る(前述の期待値 E[XY ] の計算で,
「X と Z の独立性」がないと,E[XZ] が 0 に
ならないことに注意).
この議論の盲点は,観測データ {(X, Y ) = (ξi , ηi )|i = 1, . . . , n} の尤度と {Z =
ηi − Qθ (ξi )|i = 1, . . . , n} の尤度を混同したことである.つまり,
「(ξ, η) の値が決ま
れば,η − Qθ (ξ) の値が決まる」が,その逆は言えない.
Y = Qθ (X) + Z の関係がある時,
Pr[Y ≤ ηi |X = ξi ] = Pr[Z ≤ ηi − Qθ (ξi )|X = ξi ] = Pr[Z ≤ ηi − Qθ (ξi )]
の最後の等式に「X と Z の独立性」が不可欠である.
例(2次回帰)
同様に,θ = (a0 , a1 , a2 ), Qθ (x) = a0 + a1 x + a2 x2 ,Y = Qθ (X) + Z とする.こ
の時,観測データ {(ηi |ξi )|i = 1, . . . , n} の(対数)尤度関数:
1 n
log L(a0 , a1 , a2 ) = − log(2π) − n log σ − 2
(ηi − (a0 + a1 ξi + a2 ξi2 ))2
2
2σ i
5
def
を最大化すればよいので,d(a0 , a1 , a2 ) =
n
i=1
(ηi − (a0 + a1 ξi + a2 ξi2 ))2 を最小化す
る (a0 , a1 , a2 ) を探す.これは最小自乗法による多項式回帰.
0=
∂d
= −2 (ηi −(a0 +a1 ξi +a2 ξi2 )),
∂a0
i
0=
0=
∂d
= −2
ξi (ηi −(a0 +a1 ξi +a2 ξi2 )),
∂a1
i
2
∂d
= −2
ξi (ηi − (a0 + a1 ξi + a2 ξi2 ))
∂a2
i
より,以下の連立方程式を解いて得る値が,未知係数 a0 , a1 , a2 の「最尤推定」値.
n
i=1
ηi = a0 n + a1
n
i=1
n
i=1
ξi + a2
n
i=1
ηi ξi2 = a0
ξi2 ,
n
i=1
n
i=1
ηi ξi = a0
ξi2 + a1
6
n
i=1
n
i=1
ξi3 + a2
ξi + a1
n
i=1
ξi4.
n
i=1
ξi2 + a2
n
i=1
ξi3 ,