ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの 数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史 3.5.1 情報量基準 現象を説明する複数のモデルがあった場合、 どのモデルがよいか/選択すべきか? → 情報量基準を基に選択 (1) 期待対数尤度からのアプローチ 例:AIC、TIC、CAIC (2) 予測分布からのベイズアプローチ 例:BIC、MDL、ABIC 3.5.1 情報量基準: 最大対数尤度利用 (1) ■ AIC (Akaike information criterion): データとの適合度 (モデルのあてはめ誤差) パラメータ数多のペナルティ (モデルの複雑さ) AICm 2lm (m | X ) 2km (3.8) m:モデル mのパラメータ lm ( m | X :データ ) Xを所与した ときの最大対 数尤度 k m:パラメータ数 ※2は対数尤度比検定との兼ね合いから 最適なモデルとは → AICを最小にするモデル (尤度大、パラメータ数少) 3.5.1 情報量基準: 最大対数尤度利用 (2) ■ TIC (Takeuchi information criterion): パラメータ数多のペナルティ をAICより精密に評価 TICm 2lm (m | X ) tr{J R} 1 (3.9) 2 J E l ( | X ) t m m m l ( | X ) l ( | X ) t m R E m m m ※ J=Rのとき tr{J-1R}=km となりAICに一致 3.5.1 情報量基準: 最大対数尤度利用 (3) -問題点- AIC、TICは漸近的一致性(データ数N→∞で推 定値 m/θ→真の値 m*/θ*)が欠如 ■ CAIC (consistent Akaike information criterion): CAICm 2lm (m | X ) km (log N 1) (3.10) パラメータ数多のペナルティ はデータ数Nに依存 3.5.1 情報量基準: ベイズ的アプローチ (1) ーベイズ的アプローチによる情報量基準ー •最大対数尤度を介さない •モデルの集合(ありうるモデルの集まり)を考える モデルmに対し、(モデルの集合上の)事前分布 p(m)が与えられた場合の事後分布 p ( m) p ( X | m) パラメータの重み p(m | X ) (事前分布) p ( m ' ) p ( X | m ' ) m' 予測分布: p( X | m) p( X | m , m) p( m )d m m → -E[log p(m|X)]最小のモデルを選択 3.5.1 情報量基準: ベイズ的アプローチ (2) ■ BIC (Bayesian information criterion): BICm 2lm (m | X ) km (log N ) (3.11) • 情報理論的アプローチからのMDL (minimum description length)基準に一致 [事前分布(条件付確率)の積極的解釈] • 漸近的一致性をもつ 3.5.2 数値例 (1) 癌転移 p( X1 1) 0.8 p( X 2 1 | X1 1) 0.8 1 p( X 2 1 | X1 0) 0.2 p( X 3 1 | X 1 1) 0.8 p( X 3 1 | X 1 0) 0.2 血清中のカルシ 2 ウム量の増加 3 脳腫瘍 p( X 5 1 | X 3 1) 0.8 p( X 4 1 | X 2 1, X 3 1) 0.8 p( X 5 1 | X 3 0) 0.2 p( X 4 1 | X 2 0, X 3 1) 0.6 p( X 4 1 | X 2 1, X 3 0) 0.6 4 p( X 4 1 | X 2 0, X 3 0) 0.2 昏睡状態 5 激しい頭痛 図3.1 ベイジアンネットワークの因果モデル例 3.5.2 数値例 (2) 図3.1+表3.1でN'ijk=1(事前分布に一様分布)を仮定 5 qi 1 対数尤度: lm ( m | X ) Nijk log10 ijk 25.76 5 パラメータ数: i 1 j 1 k 0 km qi 11 データ数: N 20 i 1 AICm 2lm ( m | X ) 2km 73.53 CAICm 2lm ( m | X ) km (log N 1) 76.84 BIC( MDL) m 2lm ( m | X ) km (log N ) 65.84 3.5.3 ベイジアンネットワークの予測分布 (1) モデルの予測分布が解析的に求まれば、高精 度のモデルを選択可能な情報量基準を作成す ることができる ■ 事前分布p(Θ|Bs)が一様分布であるとしたと きの予測分布 p( X | Bs) p( X , | Bs) p( | Bs)d ri 1 (ri 1)! N ijk! i 1 j 1 ( N ij ri 1)! k 0 n qi (3.12) (3.13) 3.5.3 ベイジアンネットワークの予測分布 (2) ■ 事前分布p(Θ|Bs)がディレクレ分布である としたときの予測分布 n qi p( X | Bs) ri 1 N 'ijk k 0 ri 1 N ' ijk j 1 ijk k 0 n i 1 qi j 1 ( ) ( 1)! N 'ijk 1 ij ij ij N ijk k 0 ri 1 N 'ijk N ijk k 0 ri 1 N 'ijk N ijk N ' N ' N ' N i 1 ri 1 k 0 N 'ijk (3.14) → 式(3.14) = 式(3.13) 3.5.4 数値例 図3.1+表3.1でN'ijk=1(事前分布に一様分布)を 仮定した場合の予測分布 5 qi 1 1 p ( X | Bs) N ijk ! i 1 j 1 ( N ij 1)! k 0 1 1 6!14! 0!3! ( 20 1)! (3 1)! 4.85 10 29 データ数が少ない場合、観測されない変数の パターンが出現(Nijk=0)し、計算が困難な場合 がある
© Copyright 2025 ExpyDoc