06t4027h 斎藤高行 11章 ベイズ推定法における モデル選択 11.1 事前確率の設定とモデル選択 11.2 周辺尤度のラプラス近似 ベイズ推定法での事前確率の設定 • ベイズ推定法は、パラメータの事前確率を用い て確率密度関数を推定する • 未知の事前確率は自分で設定する必要がある • 得られる推定量は事前確率に依存する 妥当な推定結果を得るためには、事前確率を 客観的に決定する必要がある ベイズ推定法での事前確率の設定 あるパラメータ によって制御できる事前確率 p があるとき、それを p ; で表す パラメータ をハイパーパラメータと呼び、 n これを訓練標本 xi i1 によって設定する (設定するのであって、推定するのではない) ベイズ推定法での事前確率の設定 最尤推定法のように、ハイパーパラメータ によって訓練標本 が最も生起されやすい 場合を考える 訓練標本 が生起される確率 p ; は n p ; q xi | p ; d i 1 ベイズ推定法での事前確率の設定 • 先の式は周辺尤度と呼び、 の関数と見なす • 周辺尤度の対数をとって負にしたものを自由エ ネルギーという • 周辺尤度を最大にするハイパーパラメータ を用 いて事前確率を設定する方法は 経験ベイズ法、第2種最尤推定法、証拠近似 と呼ばれる ベイズ推定法での事前確率の設定 周辺尤度を最大にするハイパーパラメータを EB とすると n EB : arg max q xi | p ; d i 1 であり、このときの事前確率は p ; EB と表される ベイズ推定法でのモデル選択 パラメトリックモデル qx | も同様に、周辺尤 度を最大にするものを選ぶ すなわち、モデルの集合の中から n x 訓練標本 i i1 が最も生起されやすいモデル を選ぶ 周辺尤度のラプラス近似 ラプラス近似を用いることで周辺尤度を解析的 に近似することができる n f qxi | p ; とおき i 1 f d について考える 周辺尤度のラプラス近似 f を最大にする を ˆMAP で表す ˆMAP : arg max f これは9章3節で示した最大事後確率推定量 である (→123ページ) 周辺尤度のラプラス近似 log f を ˆMAP の周りでテイラー展開する log f log f ˆMAP ˆMAP T | log f ˆMAP T 1 ˆ MAP H ˆMAP 2 (11.2) 周辺尤度のラプラス近似 ここで、 H は log f での ˆMAP のヘッセ行列 である (ヘッセ行列:→77ページ) Hi, j | i j log f 2 ˆMAP 2 n i j log qxi | log p ; i 1 | ˆMAP 周辺尤度のラプラス近似 ˆMAP が f を最大にすることと、log関数の 単調性から次が成り立つ | log f ˆMAP 0t したがって、式11.2の1次の項はゼロである 周辺尤度のラプラス近似 式11.2の2次までの項を log fˆ とおく T 1 ˆ log f : log f ˆMAP ˆMAP H ˆMAP 2 両辺の指数をとると fˆ f ˆMAP T 1 ˆ ˆ exp MAP H MAP 2 周辺尤度のラプラス近似 正規分布の確率密度関数の積分は1になる 1 2 t 2 det H 1 2 1 ˆ exp MAP 2 T H ˆ MAP d 1 このことを利用することにより、 fˆ の積分を 次のように表すことができる ( t : の次元数) fˆ d f ˆMAP 2 det H t 周辺尤度のラプラス近似 fˆ d を この f d の近似とする方法を ラプラス近似という 周辺尤度のラプラス近似 ラプラス近似により、周辺尤度の近似が次式で 得られる p ; 2 t n qx | ˆ pˆ ; i MAP MAP det H i 1 実際は、対数を取ったものを用いることが多い n log p ; logq xi | ˆMAP log ˆMAP ; i 1 t 1 log 2 log det H 2 2 ラプラス近似の特長 事後確率 p | がガウス分布に近いとき、 ラプラス近似は精度が高くなる 訓練標本数 n が十分に多いとき、中心極限定 理により事後確率がガウス分布に収束されるこ とが保証されるため、ラプラス近似による周辺 尤度の近似の精度は高い
© Copyright 2025 ExpyDoc