4.最尤法 - econ.keio.ac.jp

Advanced Econometrics (Hiroki Kawai)
2016 spring
最尤推定法(Maximum Likelihood Estimation)
Ⅳ
5章
様々な推定方法(G12~G16 章)
Parametric 法
観
f(x)もεも特定化
y i=
測
f(x i|
Semiparametric 法
⇒
値 ← θ)
f(x)のみ特定化
y,
+εi
Nonparametric 法
X
Efficient/
最尤法[Fisher(1925)]:5 章
Sensitive
Bayesian: G12,G16 章
Moment:OLS→GLS,IV→GMM
↑↓
その他:LAD,quantile 回帰 G13
Kernel Density Estimation G7 Inefficient
f(x),εを特定せず
NonparametricRegression
/Robust
最尤法はεの確率分布の形状を前提とするためこの仮定に sensitive ではあるが、すべての
CAN(consistent, asymptotically normally distribution)推定量のうち最も分散が小さい
(asymptotic efficient)推定量である。
最尤法の原理 p-47, Gp-549
random sampling(無作為)→(y1,…,yn):iid(independent and identically distributed)
尤度関数(←y の同時確率分布):f(y1,y2,…,yn|θ)=Πf(yi|θ)=L(θ|y) 観察値 y→パラメタθ
対数尤度:lnL(θ|y)=Σlnf(yi|θ)
1
max L(θ|y) ⇔ max lnL(θ|y) → score g(θ|y)=


 ln L(θ | y )
0
θ
H=
 2 ln L
θθ
例 n 人の生徒に傘を所持しているか否か(y=1 or 0)を尋ねたところ(y1,y2,…,yn)=(1,0,..1)と
いう結果を得た。母集団の傘の所持率θを最尤法に基づいて推定せよ。
yi はベルヌイ分布 f(yi;θ)=θyi(1-θ)1-yi に従う。標本が得られる同時確率は L(y1,…yn;θ)=
Πf(yi;θ)だが、対数尤度は lnL=Σlnf(θ;yi)=(
)となり、これを最大にするθ*
*
を(lnL)’=(
)=0 より得る。θ =(
)
εi=yi-α-βxi~N(0,σ2)のとき f(εi;α,β,σ2)=
例
 2 
exp  i 2  、lnf=
2 2
 2 
1
   i2     i2 
 i2
 i2
n
 ln( 2 ) 
だから


0
,


  3  0 を解けばよい。



2 2
2
2
αとβの解は最小2推定量と同じだが、σ2 の解は   i / n <s2=   i /(n  2) p-54
1
2
2
例 ポアソン分布(Gp-551/1099)、指数分布(Gp-1098)、正規分布(Gp-553)、線形回帰モデ
ル(p-54)、GLS(p-57)、SUR(Gp-600)、NLE(Gp-608)、Panel(Gp-614)
p-48, Gp-553
正則条件(Gp-555)下で MLE は次の性質をもつ7(蓑谷『計量経済学大全』東洋経済新報社)
M1 一致性(Consistency): plim ˆ =θo
p-77, Gp-558
2
最尤推定量(MLE)の性質
M2 漸近的正規性(asymptotic normality): ˆ ~N[θo,
I( o )1 ]
p-77,Gp-559
score の性質(p-49):①lnL, g, H は確率変数 ②E(g)=0 ③Var(g)=E(gg’)=-E(H)=I(θ)
証明②:確率密度∫f(y;θ)dy=1→∫{ f ( y; )  }dy=∫{f ’/f} f(y;θ)dy=E(g)=0
証明③:Var(g)=E(g2)-{E(g)}2= E(g2)、H={f ’/f}’=f ’’/f-{f ’/f}2→E(H)=-E(g2)
∵E(f ’’/f)=∫(f ’’/f)f(y)dy=∫f ’’dy=0 (∵∫fdy=1)
7
11
Advanced Econometrics (Hiroki Kawai)
2016 spring
 2 ln L(θ o )     ln L ( θ )    ln L ( θ )    
o
o
Information Matrix(p-48):I(θo)=-Eo[
]= E  
 
  
 o 
θ o θ 'o






o

o
 




Fisher の情報量:正確な(分散の小さい)推定量→情報量は大きい!p-56 の事例で考えると
I(θ)=-E[  2 ln L(  )  2 ]= X X  2 =1/Var( ˆ )→X の散らばりが大きいほどσ2 が小さ
いほど正確な推定量→分散が小さい
例 ポアソン分布(Gp-1099)、指数分布(Gp-1099)、正規分布(Gp-560)、線形回帰(Gp-589)
1
M3 漸近的有効性(asymptotic efficiency): Var( ˆ )= I ( ) =Cramer-Rao の下限 p-49
Cramer-Rao Lower Bound(p-49):任意の不偏推定量の分散 Var(C(y))≧ I ( )
1
任意の推定量 C(y)が不偏推定量なら E[C(y)-θ]=∫{C(y)-θ}f(y;θ)dy=0→両辺をθで微
分→-1+∫{C(y)-θ}f ’dy=0→∫{C(y)-θ}f ’dy=1→∫{C(y)-θ}(lnf)’f(y)dy (∵(lnf)’=f ’/f)
=E[{C(y) - θ }(g-0)] =Cov[C(y),g]=1 →
Var[C(y)]≧
r 2=
Cov[C(y), g ]2
Var[C (y)]Var[ g ]

1
≦1→
Var[C( y)]Var[ g ]
1
 I 1 ( )
Var(g)
M4 不変性(invariance):γ=c(θo)の MLE ˆ は c( ˆ )、パラメタの置き換えが可能(p-48)
3
MLE の実際
3.1 AVar( ˆ )の推定 Gp-561
(1) I ( o ) =  E o [ H (θ o )]
1
①H の計算が面倒
②Eo、θo が不可能
  =  H (θˆ ) 期待値ではなく実際の H を利用。小標本では最も望ましい
Iˆ(ˆ) =  g (θˆ )g (θˆ ) BHHH(OPG)推定量、最も簡単だが、小標本では誤差
(2) Iˆ (ˆ)
(3)
1
1
1
1
n
i 1
i
'
i
1
例 14.4 (Gp-562) BHHH 推定量の誤差は大きかった!
3.2 モデルの当てはまり
Gp-573
Min AIC=-2lnL+2K or BIC=-2lnL+Kln(n)
Likelihood ratio index(PsudoR2)=1-lnL/lnL0 離散選択モデル
3.3 MLE の簡易計算(重要!)
(1)2段階推定の根拠:2step ML Estimation Gp-576
Max lnL=Σf(y1i,y2i|x1i,x2i,θ1,θ2)→複雑な尤度関数を分割して推定する
(step1) max lnL1=Σf(y1i|x1i,θ1)→ˆ1 , V̂1
(step2)max lnL2=Σf(y2i|x2i,θ2,(x1i, ˆ1 )) → ˆ2 , V̂2* (漸近有効ではない! V̂2 は要修正 p-577)
consistent & asymptotically Normal distribution(定理 14.8)Gp-577
例 14.5 保険加入 Addon と受診行動 DocVis Gp-580
(2)Linearized MLE(LMLE) Rothenberg & Leender(1964) Econometrica 32(1-2):57-76
lnL(θ)≒lnL(θo)+[
 ln L(θ o )
 ln L(θ o )
1
]’(θ-θo)+ (θ-θo)’[
] (θ-θo)
θ
2
θθ 
MLE の1階の条件の期待値 E{g(θ)}=E{g(θo)}+E{H(θo)}(θ-θo)=0
MLE の解 ˆ *=θo+{ -E[H(θo)] }-1E{g(θo)}= ˆ +{I( ˆ )}-1E{g( ˆ )}
LMLE も consistent & asymptotically efficient である (Ruud p-339)
12