スライド 1

ベイジアンネットワーク概説
第3章ベイジアンネットワークモデルの
数学的基礎
3.5 情報量基準を用いた構造学習
岩崎唯史
3.5.1 情報量基準
現象を説明する複数のモデルがあった場合、
どのモデルがよいか/選択すべきか？
→ 情報量基準を基に選択
(1) 期待対数尤度からのアプローチ
例：AIC、TIC、CAIC
(2) 予測分布からのベイズアプローチ
例：BIC、MDL、ABIC
3.5.1 情報量基準：最大対数尤度利用（1）
■ AIC (Akaike information criterion)：
データとの適合度
（モデルのあてはめ誤差)
パラメータ数多のペナルティ
（モデルの複雑さ)
AICm  2lm (m | X )  2km
(3.8)
 m：モデル mのパラメータ
lm ( m | X ：データ
)
Xを所与した
ときの最大対
数尤度
k m：パラメータ数
※2は対数尤度比検定との兼ね合いから
最適なモデルとは → AICを最小にするモデル
(尤度大、パラメータ数少)
3.5.1 情報量基準：最大対数尤度利用（2）
■ TIC (Takeuchi information criterion)：
パラメータ数多のペナルティ
をAICより精密に評価
TICm  2lm (m | X )  tr{J R}
1
(3.9)
 2

J  E 
l ( | X )
t m
  m  m

 l ( | X )  l ( | X ) t 
 m
 
R  E  m
  m   m  
※ J=Rのとき tr{J-1R}=km となりAICに一致
3.5.1 情報量基準：最大対数尤度利用（3）
－問題点－
AIC、TICは漸近的一致性(データ数N→∞で推
定値 m/θ→真の値 m*/θ*)が欠如
■ CAIC (consistent Akaike information criterion)：
CAICm  2lm (m | X )  km (log N  1) (3.10)
パラメータ数多のペナルティ
はデータ数Nに依存
3.5.1 情報量基準：ベイズ的アプローチ（1）
ーベイズ的アプローチによる情報量基準ー
•最大対数尤度を介さない
•モデルの集合(ありうるモデルの集まり)を考える
モデルmに対し、(モデルの集合上の)事前分布
p(m)が与えられた場合の事後分布
p ( m) p ( X | m)
パラメータの重み
p(m | X ) 
(事前分布)
p
(
m
'
)
p
(
X
|
m
'
)

m'
予測分布： p( X | m)   p( X |  m , m) p( m )d m
m
→ －E[log p(m|X)]最小のモデルを選択
3.5.1 情報量基準：ベイズ的アプローチ（2）
■ BIC (Bayesian information criterion)：
BICm  2lm (m | X )  km (log N )
(3.11)
• 情報理論的アプローチからのMDL
(minimum description length)基準に一致
[事前分布(条件付確率)の積極的解釈]
• 漸近的一致性をもつ
3.5.2 数値例 (1)
癌転移 p( X1  1)  0.8
p( X 2  1 | X1  1)  0.8
1
p( X 2  1 | X1  0)  0.2
p( X 3  1 | X 1  1)  0.8
p( X 3  1 | X 1  0)  0.2
血清中のカルシ
2
ウム量の増加
3 脳腫瘍
p( X 5  1 | X 3  1)  0.8
p( X 4  1 | X 2  1, X 3  1)  0.8
p( X 5  1 | X 3  0)  0.2
p( X 4  1 | X 2  0, X 3  1)  0.6
p( X 4  1 | X 2  1, X 3  0)  0.6
4
p( X 4  1 | X 2  0, X 3  0)  0.2
昏睡状態
5
激しい頭痛
図3.1 ベイジアンネットワークの因果モデル例
3.5.2 数値例（2）
図3.1+表3.1でN'ijk=1(事前分布に一様分布)を仮定
5
qi
1
対数尤度： lm ( m | X )   Nijk log10 ijk  25.76
5
パラメータ数：
i 1 j 1 k 0
km   qi  11
データ数： N  20
i 1
AICm  2lm ( m | X )  2km  73.53
CAICm  2lm ( m | X )  km (log N  1)  76.84
BIC( MDL) m  2lm ( m | X )  km (log N )  65.84
3.5.3 ベイジアンネットワークの予測分布（1）
モデルの予測分布が解析的に求まれば、高精
度のモデルを選択可能な情報量基準を作成す
ることができる
■ 事前分布p(Θ|Bs)が一様分布であるとしたと
きの予測分布
p( X | Bs)   p( X ,  | Bs) p( | Bs)d

ri 1
(ri  1)!
 
N ijk!

i 1 j 1 ( N ij  ri  1)! k 0
n
qi
(3.12)
(3.13)
3.5.3 ベイジアンネットワークの予測分布（2）
■ 事前分布p(Θ|Bs)がディレクレ分布である
としたときの予測分布
n
qi
p( X | Bs)  
 ri 1

  N 'ijk 
 k 0

ri 1
 N '
ijk
j 1
ijk
k 0
n
i 1
qi
j 1
( )  (  1)!
N 'ijk  1
ij
ij
ij
 N ijk 
k 0
ri 1


  N 'ijk  N ijk 
 k 0

ri 1
N 'ijk  N ijk 
 N ' 
N ' 
 

N '  N 
i 1
ri 1
k 0
N 'ijk 
(3.14)
→ 式(3.14) = 式(3.13)
3.5.4 数値例
図3.1+表3.1でN'ijk=1(事前分布に一様分布)を
仮定した場合の予測分布
5
qi
1
1
p ( X | Bs)  
N ijk !　
i 1 j 1 ( N ij  1)! k  0
1
1

 6!14! 
 0!3!
( 20  1)!
(3  1)!
 4.85 10 29
データ数が少ない場合、観測されない変数の
パターンが出現(Nijk=0)し、計算が困難な場合
がある

Download Report