講義ノート9:最尤法

計量経済学 2014 年度後期 講義ノート9:最尤法
これまではパラメータの推定方法として専ら OLS を考えてきたが、ここでは OLS とは全く異なるアイデア
に基づくパラメータの推定方法である最尤法を紹介する。最尤法は、データが正規分布やベルヌーイ分布など
の既知の分布に従うとき、確率関数や密度関数に含まれる未知パラメータを推定する方法である。
1
最尤推定量
(X1 , . . . , Xn ) の同時確率 (密度) 関数を fX1 ,...,Xn (x1 , . . . , xn ; θ) で表すことにする。ただし、θ は未知のパラ
メータである。(X1 , . . . , Xn ) の実現値 (x1 , . . . , xn ) が与えられたとき、θ の関数である
L(θ|x1 , . . . , xn ) = fX1 ,...,Xn (x1 , . . . , xn ; θ)
を尤度関数 (likelihood function) という1 。
Xi が離散確率変数であれば、L(θ|x1 , . . . , xn ) は X1 = x1 , · · · , Xn = xn が観測される確率を表しており、確
率の大小は θ の値に依存する。今仮に、2 つのパラメータの値 θ1 と θ2 で尤度関数の大小関係を比較して
L(θ1 |x1 , . . . , xn ) > L(θ2 |x1 , . . . , xn )
が成り立っていたとする。これは、θ = θ1 であるときのほうが、θ = θ2 であるときよりも、高い確率で観測値
(x1 , . . . , xn ) が実現することを意味している。このとき、θ の真の値として、θ1 のほうが θ2 よりも妥当である
と解釈される。観測されたデータは、確率が小さい状態から観測されたと考えるよりも、確率が大きい状態か
ら、起こるべくして起こったと考えるほうが自然であろうというわけである。
最尤推定量 (maximum likelihood estimator) は尤度関数 L(θ|X1 , . . . , Xn ) を最大にするような θ の値であ
る。以後、L(θ|X1 , . . . , Xn ) を単に L(θ) と表記する。X1 , . . . , Xn は確率変数なので、最尤推定量も確率変数で
ある。X1 , . . . , Xn が i.i.d. であれば、
L(θ) =
n
∏
fX (Xi ; θ)
i=1
が成り立つ。ただし、fX (x; θ) は Xi の周辺確率 (密度) 関数である。
L(θ) を最大化するよりも、対数を取ったものを最大化するほうが容易であることが多い。対数尤度関数 (log
likelihood function) は
log L(θ) =
n
∑
log fX (Xi ; θ)
i=1
である。対数関数は厳密な増加関数なので、L(θ) の最大値を与える θ の値と log L(θ) の最大値を与える θ の値
は同じであることに注意せよ。
尤度関数がパラメータについて微分可能であるときには、最尤推定量の候補は
∂ log L(θ)
=0
∂θ
を解くことで求められる。上式は (対数) 尤度方程式と呼ばれる。
1 尤度関数と同時確率 (密度) 関数は基本的には同じものであるが、解釈が異なる。同時確率 (密度) 関数という場合には、θ の値を固
定して、x1 , . . . , xn を変数とみなす。一方、尤度関数という場合には、x1 , . . . , xn を固定して、θ を変数として考える。
1
例 1 (正規分布)
X1 , . . . , Xn は i.i.d. で、N (µ, 1) に従うとする。未知パラメータは µ である。尤度関数は
{
}
1
(Xi − µ)2
√ exp −
L(µ) =
2
2π
i=1
n
∏
であり、対数尤度関数は
log L(µ) = −
n
∑
n
(Xi − µ)2
log(2π) −
2
2
i=1
となる。尤度方程式は
∂ log L(ˆ
µ) ∑
=
(Xi − µ
ˆ) = 0
∂µ
i=1
n
であるから、最尤推定量は
¯
µ
ˆ=X
である。
例 2 (ベルヌーイ分布)
X1 , . . . , Xn は i.i.d. で、P (Xi = 1) = p のベルヌーイ分布に従うとする。未知パラメータは p である。Xi の確
率関数は
fX (x; p) = px (1 − p)1−x
である。よって、対数尤度関数は
log L(p) =
n
∑
Xi log p +
i=1
n
∑
(1 − Xi ) log(1 − p)
i=1
となる。尤度方程式
∂ log L(ˆ
p)
=
∂p
∑n
i=1
Xi
pˆ
−
n−
∑n
i=1
1 − pˆ
Xi
=0
を解けば
¯
pˆ = X
を得る。
例 3 (正規誤差項をもつ回帰モデル)
次のような単回帰モデルを考える。
Yi
ui |Xi
= β0 + β1 Xi + ui ,
i = 1, . . . , n
∼ N (0, 1)
未知パラメータは β0 , β1 である。特に、Yi |Xi ∼ N (β0 + β1 Xi , 1) が成り立つので、Xi を条件としたときの Yi
の条件付密度関数は
{
}
1
(y − β0 − β1 Xi )2
fY |X (y|Xi ; β0 , β1 ) = √ exp −
2
2π
2
である。
観測可能な変数は {(Xi , Yi )}n
i=1 なので、尤度関数はこれらの同時密度関数であるが、(X, Y ) の同時密度は
fX,Y (x, y) = fY |X (y|x)fX (x)
のように、Y の X を条件とした条件付密度と、X の周辺密度の積で表される。今の例では X の周辺密度を特
定化していないが、X の分布が β0 と β1 に依存しないならば、fX (x) の部分は推定においては無視できる。
従って、X1 , . . . , Xn によって条件付けた (条件付) 対数尤度関数は
log L(β0 , β1 )
=
n
∑
log fY |X (Yi |Xi ; β0 , β1 )
i=1
= −
となる。対数尤度関数を最大化することは、
n
∑
n
(Yi − β0 − β1 Xi )2
log(2π) −
2
2
i=1
∑n
− β0 − β1 Xi )2 を最小化するのと同じである。従って、
i=1 (Yi
最尤推定量は OLS 推定量に一致する。
最尤推定量の性質
2
適当な条件の下で、最尤推定量は一致性、漸近正規性をもつことが示される。(ただし、不偏推定量である
とは限らない。)証明は本講義のレベルを超えるので省略する。
Fisher 情報量 I(θ) を次のように定義する。
[(
[ 2
)2 ]
]
∂ log fX (Xi ; θ)
∂ log fX (Xi ; θ)
= −E
I(θ) = E
∂θ
∂θ2
最尤推定量 θˆ について
√
d
n(θˆ − θ) → N
(
1
0,
I(θ)
)
が成り立つことが知られている。
例 4 (正規分布の続き)
X1 , . . . , Xn は i.i.d. で、N (µ, 1) に従うとする。Fisher 情報量は
[(
)2 ]
∂ log fX (Xi ; µ)
I(µ) = E
= E[(Xi − µ)2 ] = 1
∂µ
である。従って、最尤推定量 µ
ˆ について
√
d
n(ˆ
µ − µ) → N (0, 1)
が成り立つ。
A
対数関数
対数関数は指数関数 ex (または exp(x)) の逆関数で
log(exp(x)) = x,
exp(log x) = x
を満たす。対数関数については、次の 2 つの性質が重要である。
3
1. log xy = log x + log y
2. log ax = x log a
また、対数関数の導関数は
d log x
1
=
dx
x
である。
4