スライド 1 - Watanabe Lab.

一般ボルツマンマシンにおける平均場近似
自由エネルギーの漸近的挙動
東京工業大学総合理工学研究科
知能システム科学専攻 渡辺研究室
西山 悠
背景
混合分布
パターン認識
ベイジアンネット
自然言語処理
隠れマルコフモデル
・
・
・
遺伝子解析
・
・
・
応用
学習方法
特異モデル
ベイズ学習の優位性
平均場近似
ベイズ事後分布
近似
パラメータごとに
独立な分布
自由エネルギーの値が小さい
ほど近似精度が高い
最小値
平均場近似自由エネルギー
~平均場近似自由エネルギーの漸近形~
縮小ランク回帰モデル[Nakajima]
混合正規分布[K.Watanabe]
隠れマルコフモデル[Hosino, K.Watanabe]
確率文脈自由文法[Hosino, K.Watanabe]
ニューラルネットワーク[Nakano]
で求められている.
目的

一般のボルツマンマシンにおいて,平均場近似
自由エネルギーの漸近形の上界を解析的に導
出する.
ベイズ学習
データ
真の分布
確率的に
q(x)
揺らぐ対象
X1 X 2  X n
独立
設計者
p( x |  ) :学習モデル
 ( )
予
測
:事前分布
(事前知識)
n
p( | X n ) 
 ( ) p( X i |  )
i 1
Z(X n)
:ベイズ事後分布
(事後知識)
p( x | X n )   p( x |  ) p( | X n )d :ベイズ予測分布
学習における平均場近似(1)
ベイズ事後分布
は
p( | X n ) 
n
 ( ) p( X i |  )
i 1
Z(X n)
~
exp{nH n ( )} ボルツマン分布

表現
Z (X n)
ここで,
1
~
H n ( )  H n ( )  log  ( )
n
D[ f ( ) || p( | X )]  
n
H n ( ) :経験カルバック情報量
f ( )
f ( ) log
d  0
~
exp{nH n ( )}
Z (X n)
  log Z ( X n )   f ( ) log f ( )d  n f ( ) H n ( )d
学習における平均場近似(2)
近似事後分布 f ( ) に対して
~
EX n [ log Z ( X n )]  EX n [ f ( ) log f ( )d  n f ( ) H n ( )d ]
f ( ) として特に
d
(1)
エントロピー項
エネルギー項
f ( )   f i ( i )
i 1
に制限したとき (1) 式右辺を最小にする
f ( ) を平均場近似と呼ぶ.
EX n [min{ f ( ) log f ( )d  n
f ( )
を平均場近似自由エネルギーと呼ぶ.
~
f ( ) H n ( )d }]  F (n)
学習モデル
学習モデル: 一般のボルツマンマシン
y2
y1
y3
w3,4,K w
y34y, K4 yyK4 yK
y4
yK
3
2
体
体
相
相
すべてのノードの出力値は
互
互
{+1,-1}の2値をとる
作
作
用
用
隠れ素子
11,3
w
wM2 yy11xy2 3 xM
3
2 3 2
w yx
入出力素子
x1


y
L
1
exp{
Z (w)
k 1
x2 x3
w xw
x
I  J lk13 1 32,3, M
xM
x2 x3 xM
  
I , J 0 j1  j J i1 iI
,i I
wij11,,
, j J xi1  xiI y j1  y j J }
真の確率分布
*真の確率分布は学習モデルに含まれ,隠れ素子の個数を K
2, K * , K * 1
w
y1
y K * yK * 1
y2
隠れ素子
w
0
入出力素子
x1
真のパラメータとして
*
i1 ,,iI
j1 ,, j J
w
x2 x3
0
for
( K )
0
yK
2 , K * 1
2, M

xM
iI  K *
個とする.
結果・定理
一般に (l1 , l2 ,, lL ) 体相互作用を持つボルツマンマシンにおいて
平均場近似自由エネルギー F (n) の漸近形は以下の上界を持つ.
L
F ( n)  
k 1
*

M

K

 M  K 
1 

 log n  C
  


l
4
l
k

 k  
ここで
M :入出力素子の個数
K :学習モデルの隠れ素子の個数
K  :隠れ素子の真の個数
C :定数
である.
問題設定
F (n)  min
{
~
f ( w)
~
~
~
~
f (w) log f (w)dw  n f (w) H (w)]dw}
(2)
学習モデル由来
平均場近似
自由エネルギー
一般ボルツマンマシン
正規分布族
~
1 d 1
1
T ~ 1
f ( w)  (
) ~ 1/ 2 exp{ ( w  wˆ )  ( w  wˆ )}
2
2

~ 12
,i I
  diag(, ~ ij11,,
, j J , )
~
* 式 (2)右辺の漸近形が最小になるように  と ŵ を最適化
証明の概要
[補題]
カルバック情報量 H ( ) において H (ˆ)  0 となる ˆ で
フィッシャー情報行列 I (ˆ) の対角成分の非零の個数が r 以下となるとき
平均場近似自由エネルギー F (n) の漸近形は,
d r
F ( n) 
log n  C0
4
<フィッシャー情報行列>
r
の上界を持つ.
d
個
個
 I11




I rr











0

 
0 
*フィッシャー情報行列の対角成分の計算のみで,上の上界が得られる.
[補題]に従って真のパラメータ w*
*
i1 ,,iI
j1 ,, j J
w
0
iI  K
for
*
におけるフィッシャー情報行列の対角成分
I
i1 ,,i I
j1 ,, j J
(w )  
*
x
  log p ( x | w)
p ( x | w )
,i I
 wij1 ,,
1 , j J

*
w  w*




2
の非零の個数を数える.
I
i1 ,,iI
j1 ,, j J
 log p( x | w)
(w )  0  wi1 ,,iI
j1 ,, j J
0
*
実際計算すると,
 log p( x | w)
,i I
wij11,,
, j J
0
ww
for
ww
iI  K
*
for

x
,iI
*
I ij11,,
(
w
)  0 for
, j J
iI  K *
<フィッシャー情報行列>
L

k 1
 I11




0
 

0

M  K* 


 l
個
k



I rr

0



0
0  0

  
0  0

0

 
0 
L

k 1
M  K 


 lk  個
補題に代入して
L
F ( n)  
k 1
*
1
 M  K   M  K 

  

 log n  C

4
 lk   lk 

(証明の概要終了)
直観的には・・・

学習するパラメータの冗長な部分をはじめ,結合パラ
メータが0となる分だけ,自由エネルギーが小さくなる.
結果は・・・

学習アルゴリズムの解の最小解と局所解の判定基準

モデル選択規準SingIC[Yamazaki et al]は,自由エネ
ルギーの漸近形の情報を利用している.
結論

一般のボルツマンマシンにおいて,平均場近似
自由エネルギーの漸近形の上界を与えた.
今後の課題

平均場近似自由エネルギーの下界の導出

導出した自由エネルギーと実験との比較
Sing IC [Yamazaki. et al]
  h ( K , K * )
F (n)
平均場近似アルゴリズム
 1 log n  (m1 1) loglog n
ベイズ学習
 2 log n  (m2 1) loglog n
n
非漸近
領域
m  hm (K , K * )
+
真の
隠れ素子
の個数
y  g ( , m)
学習サンプル数
観測可能量
漸近論
適用可能領域
学習モデル
学習アルゴリズム に依存
*観測できない
関数
h hm
K * を推測
を導出するのは重要
学習における平均場近似(2)
平均場近似自由エネルギー F (n) について
F (n)  EX n [min{ f ( ) log f ( )d  n
f ( )
~
f ( ) H n ( )d }]
~
 min{ f ( ) log f ( )d  n f ( ) EX n [ H n ( )]d }
f ( )
~
 min{ f ( ) log f ( )d  n f ( ) H ( )d }
f ( )
~
 F (n)
以上から
1
~
ただし, H ( )  H ( )  log  ( )
n
~
F (n)  F (n)  F (n)
ベイズ自由エネ
ルギー
平均場近似
自由エネルギー
本発表で考察
理論的な研究の意義

平均場近似アルゴリズムと(ベイズ学習,統計的
正則モデル)との漸近論の比較.

平均場近似アルゴリズムにおいて,局所解 or
最小解の判定基準.

特異モデルにおけるモデル選択,
SingICへの基礎
学習における平均場近似(1)

試験分布 f ( ) に対して



F (n)  EX n [ f ( ) log f ( )d  n
 ~  
f ( ) H n ( )d ] (1)

f ( ) として特に

エントロピー項
エネルギー項
d
f ( )   f i ( i )
i 1

に制限したとき (1) 式右辺を最小にする f ( ) を平均場近似と呼ぶ



EX n [min
f ( ) log f ( )d  n
 {
f ( )
 ~  
f ( ) H n ( )d }]  F (n)
平均場近似アルゴリズム
を平均場近似自由エネルギーと呼ぶ。
stationary

f ( )
*局所解 or 最小解 の判定基準
ベイズ汎化誤差
G (n)
真
の
分
布
代数幾何学的手法 [Watanabe]

m 1
 
n log n
q(x )
へ
の
近
さ
n
ベイズ予測分布と、真の分布とのカルバック距離
G(n)  E X n {



q( x )
q( x ) log  n dx} :ベイズ汎化誤差
p( x | X )