11章 ベイズ推定法における モデル選択

06t4027h 斎藤高行
11章 ベイズ推定法における
モデル選択
11.1 事前確率の設定とモデル選択
11.2 周辺尤度のラプラス近似
ベイズ推定法での事前確率の設定
• ベイズ推定法は、パラメータの事前確率を用い
て確率密度関数を推定する
• 未知の事前確率は自分で設定する必要がある
• 得られる推定量は事前確率に依存する
妥当な推定結果を得るためには、事前確率を
客観的に決定する必要がある
ベイズ推定法での事前確率の設定
あるパラメータ  によって制御できる事前確率
p  があるとき、それを p ;   で表す
パラメータ  をハイパーパラメータと呼び、
n
これを訓練標本 xi i1 によって設定する
(設定するのであって、推定するのではない)
ベイズ推定法での事前確率の設定
最尤推定法のように、ハイパーパラメータ 
によって訓練標本  が最も生起されやすい
場合を考える
訓練標本  が生起される確率 p  ;   は
n
p  ;      q xi |   p ;  d
i 1
ベイズ推定法での事前確率の設定
• 先の式は周辺尤度と呼び、 の関数と見なす
• 周辺尤度の対数をとって負にしたものを自由エ
ネルギーという
• 周辺尤度を最大にするハイパーパラメータ を用

いて事前確率を設定する方法は
経験ベイズ法、第2種最尤推定法、証拠近似
と呼ばれる
ベイズ推定法での事前確率の設定
周辺尤度を最大にするハイパーパラメータを
 EB とすると
n
 EB : arg max   q xi |  p ;  d

i 1
であり、このときの事前確率は p ;  EB 
と表される
ベイズ推定法でのモデル選択
パラメトリックモデル qx |   も同様に、周辺尤
度を最大にするものを選ぶ
すなわち、モデルの集合の中から
n


x
訓練標本 i i1 が最も生起されやすいモデル
を選ぶ
周辺尤度のラプラス近似
ラプラス近似を用いることで周辺尤度を解析的
に近似することができる
n
f     qxi |  p ;   とおき
i 1
 f  d
について考える
周辺尤度のラプラス近似
f   を最大にする  を ˆMAP で表す
ˆMAP : arg max f  

これは9章3節で示した最大事後確率推定量
である (→123ページ)
周辺尤度のラプラス近似
log f   を ˆMAP の周りでテイラー展開する
  
log f    log f ˆMAP    ˆMAP

 

T
|

log f  

 ˆMAP

T
1
ˆ
    MAP H   ˆMAP  
2
(11.2)
周辺尤度のラプラス近似
ここで、 H は log f   での ˆMAP のヘッセ行列
である (ヘッセ行列:→77ページ)
Hi, j
|

 i   j  log f  
 
2
 ˆMAP
2
 n

 i   j    log qxi |    log p ;  
   i 1

|
 ˆMAP
周辺尤度のラプラス近似
ˆMAP が f   を最大にすることと、log関数の
単調性から次が成り立つ
|

log f  

 ˆMAP
 0t
したがって、式11.2の1次の項はゼロである
周辺尤度のラプラス近似
式11.2の2次までの項を log fˆ   とおく
  
 

 

T
1
ˆ
log f   : log f ˆMAP    ˆMAP H   ˆMAP
2
両辺の指数をとると
 
fˆ    f ˆMAP

T
1

ˆ
ˆ
exp    MAP H    MAP 
2

周辺尤度のラプラス近似
正規分布の確率密度関数の積分は1になる
1
2 
t
2
det  H 
1
2

 1
ˆ
exp





MAP
  2

T

 H    ˆ
MAP


d  1

このことを利用することにより、 fˆ   の積分を
次のように表すことができる ( t :  の次元数)

 
fˆ  d  f ˆMAP
2 
det  H 
t
周辺尤度のラプラス近似
fˆ  d を
この 
 f  d の近似とする方法を
ラプラス近似という
周辺尤度のラプラス近似
ラプラス近似により、周辺尤度の近似が次式で
得られる
p  ;   
2 t n qx | ˆ pˆ ;  

i
MAP
MAP
det  H  i 1
実際は、対数を取ったものを用いることが多い
n



log p ;     logq xi | ˆMAP  log ˆMAP ; 
i 1
t
1
 log 2   log det  H 
2
2

ラプラス近似の特長
事後確率 p |   がガウス分布に近いとき、
ラプラス近似は精度が高くなる
訓練標本数 n が十分に多いとき、中心極限定
理により事後確率がガウス分布に収束されるこ
とが保証されるため、ラプラス近似による周辺
尤度の近似の精度は高い