スライド 1 - Watanabe Lab.

完全２部グラフ型ボルツマンマシンにおける
平均場近似自由エネルギーの
漸近的挙動
東京工業大学総合理工学研究科
知能システム科学専攻渡辺研究室
西山悠
背景
現実的なシステム
確率を利用した学習モデル
混合正規分布
制御
神経回路網
パターン認識
隠れマルコフモデル
ベイジアンネット
応用
時系列予測
（フィッシャー情報行列が正則な）
一対一対応
パラメータ
特異モデル
確率分布
統計的正則モデル
の漸近論
ベイズ自由エネルギー，ベイズ汎化誤差
が正則モデルよりも優れている
ベイズ学習が有効
With 代数幾何学的手法
問題点：ベイズ事後分布を含む計算は実現困難
平均場近似
ハミルトニアン
ベイズ事後分布
近似
近似
相互作用
のない系
パラメータごとに
独立に計算
パラメータごとに
独立な分布
カルバック距離として最も近く
（自由エネルギーを最小にする）
平均場近似アルゴリズム
（変分ベイズ）
実問題への有効性
～平均場近似自由エネルギーの漸近形～
縮小ランク回帰モデル[Nakajima]
混合正規分布[K.Watanabe]
隠れマルコフモデル[Hosino, K.Watanabe]
確率文脈自由文法[Hosino, K.Watanabe]
ニューラルネットワーク[Nakano]
で求められている．
目的

完全２部グラフ型ボルツマンマシンにおいて，平
均場近似自由エネルギーの漸近形の上界を解
析的に導出する．
ベイズ学習
データ
真の分布
確率的に
q(x)
揺らぐ対象
X1 X 2  X n
独立
設計者
p( x |  ) ：学習モデル
 ( )
予
測
：事前分布
（事前知識）
n
p( | X n ) 
 ( ) p( X i |  )
i 1
Z(X n)
：ベイズ事後分布
（事後知識）
p( x | X n )   p( x |  ) p( | X n )d ：ベイズ予測分布
学習における自由エネルギー
ベイズ事後分布
は
p( | X n ) 
n
 ( ) p( X i |  )
i 1
Z(X n)
~
exp{nH n ( )} ボルツマン分布

表現
Z (X n)
ここで，
1
~
H n ( )  H n ( )  log  ( )
n
H n ( ) ：経験カルバック情報量
F (n)  EX n { log Z ( X n )}
：ベイズ自由エネルギー
汎化誤差との関係
F (n  1)  F (n)  G(n)
＊ベイズ自由エネルギーは，汎化誤差の導出，モデル選択等に重要
学習における平均場近似（１）
試験分布 f ( ) に対して
~
F (n)  EX n [ f ( ) log f ( )d  n f ( ) H n ( )d ]
f ( ) として特に
エントロピー項
(1)
エネルギー項
d
f ( )   f i ( i )
i 1
に制限したとき (1) 式右辺を最小にする
f ( ) を平均場近似と呼ぶ．
EX n [min{ f ( ) log f ( )d  n
f ( )
を平均場近似自由エネルギーと呼ぶ．
~
f ( ) H n ( )d }]  F (n)
学習における平均場近似（２）
平均場近似自由エネルギー F (n) について
F (n)  EX n [min{ f ( ) log f ( )d  n
f ( )
~
f ( ) H n ( )d }]
~
 min{ f ( ) log f ( )d  n f ( ) EX n [ H n ( )]d }
f ( )
~
 min{ f ( ) log f ( )d  n f ( ) H ( )d }
f ( )
~
 F (n)
以上から
1
~
ただし， H ( )  H ( )  log  ( )
n
~
F (n)  F (n)  F (n)
ベイズ自由エネ
ルギー
平均場近似
自由エネルギー
本発表で考察
学習モデル
K 個
学習モデル：完全二部グラフ型ボルツマンマシン
p( x | w) 
K

exp(

y

x

学
習
モ
デ
ル
exp(
i 1

wij x j yi )

i 1
y2
y3
yK
隠れ素子
M

j 1
wij x j yi )
wij
wKM
M
exp( wij x j yi )
j 1
yi
入出力素子
x1
Z ( w)
K

j 1
K

y
K
i 1

i 1

y1
M
x2
xM
M
cosh( wij x j )
M個
j 1
Z ( w)
全パラメータ数： KM 個
{xi }iM1 {yi }iK1
はそれぞれ，
{1,1} の２値をとるとする．
真の確率分布
K個
wij  0

for i {1,2, K }
wij  0
for i {K   1,, K}
このとき真の確率分布は
K
p( x | w ) 

i 1
M
cosh( wij x j )
y1
yK 
wij  0
w 0
x1
Z (w )
＊真の分布が学習モデルに含まれる場合 ( K   K )
{wˆ ; H ( wˆ )  0}
必要十分
複数存在
yK

ij
j 1

ˆ ; p( x | w )  p( x | w
ˆ )}
{w
yK  1
特異モデル
x2
M個
xM
問題設定
~
F (n)  F (n)
 min{ f (w) log f (w)dw  n
平均場近似
自由エネルギー
f ( w)
(2)
学習モデル由来
正規分布族
K
f (w)  
i 1
K
0 ( w)  
i 1
＊
~
f (w) H (w)]dw}
M

j 1
M

j 1
1
exp{ Lij (wij  wˆ ij ) 2 }
Z ( Lij )
1
exp{
2  1
( wij  wˆ ij ) 2
2
2
1
完全2部グラフ型
ボルツマンマシン
}
{Lij } {wˆ ij } を (2) 式右辺が最小になるように最適化
結果・定理
完全２部グラフ型ボルツマンマシンにおいて
平均場近似自由エネルギー F (n) は以下の上界を持つ．
K  M  KM
F ( n) 
log n  C
4
ここで
M ：入出力素子の個数
K ：学習モデルの隠れ素子の個数
K  ：隠れ素子の真の個数
C ：定数
である．
証明の概要
[補題]
  R d とし，一般のカルバック情報量 H ( ) において
H (ˆ)  0 を満たす ˆ
 2 H ( )
 0} が r 個以下のとき
に対して {i;
2
 i  ˆ
平均場近似自由エネルギー F (n) は，
rd
F ( n) 
log n  O (1)
4
{ˆ; H (ˆ)  0}
 (1)  r (1)
の上界を持つ．
   r
真のパラメータ集合
 ( 2)  r ( 2)
＊カルバック情報量の二階微分の計算のみで，上の上界が得られる．
[補題]を利用
完全二部グラフ型ボルツマンマシンのとき，カルバック情報量 H (w) は
K
K
H (w)  


i 1
M

cosh( wij x j )

x
j 1

Z (w )

i 1
ln
M
cosh( wij x j )
j 1

Z (w )
K

i 1
M
cosh( wij x j )
j 1
wˆ における二階微分係数は，
 2 H ( w)

2
w wwˆ

Z ( w)
(t  t
2
)
ˆ
w
ˆ
w
分散
ここで
M
t  tanh( wj x j ) x
j 1
f ( x | w)
wˆ
  p( x | wˆ ) f ( x | w)

x
学習モデル
特に
wˆ  w のときを考えると
ˆ ; H (w
ˆ )  0}
{w
wˆ (1)  r (1)
w  0 for  {1,2, K }


w  0

for
 {K   1,, K}
であることから
 2 H ( w)

2
w ww
w  r *
ˆ ( 2)  r ( 2)
w
t  0
(t  t
が成立して，[補題]において
2
)
w
w
0
r  K  M、 d  KM
K  M  KM
F ( n) 
log n  C
4
for
 {K   1,, K}
であることから，
（定理の証明終了）
考察①
統計的正則モデル
KM

log n  O(1)
2
F (n)
代数幾何学的手法
[Yamazaki]
上
界
上
界
導出した自由エネルギー
KM  K * M

log n  O(1)
4
平均場近似
ベイズ学習
非漸近
領域
n ：学習サンプル数
漸近論
適用可能領域
考察②

事前分布
 (w)  c0 (w)
正規分布


ˆ  w のときの下界
試験分布を正規分布， w
結論

完全二部グラフ型ボルツマンマシンにおいて，平
均場近似自由エネルギーの上界を与えた．
今後の課題

平均場近似自由エネルギーの下界の導出

一般のボルツマンマシンへの拡張

導出した自由エネルギーと実験との比較
Sing IC [Yamazaki. et al]
  h ( K , K * )
F (n)
平均場近似アルゴリズム
 1 log n  (m1 1) loglog n
ベイズ学習
 2 log n  (m2 1) loglog n
n
非漸近
領域
m  hm (K , K * )
＋
真の
隠れ素子
の個数
y  g ( , m)
学習サンプル数
観測可能量
漸近論
適用可能領域
学習モデル
学習アルゴリズムに依存
＊観測できない
関数
h hm
K * を推測
を導出するのは重要
理論的な研究の意義

平均場近似アルゴリズムと（ベイズ学習，統計的
正則モデル）との漸近論の比較．

平均場近似アルゴリズムにおいて，局所解 or
最小解の判定基準．

特異モデルにおけるモデル選択，
SingICへの基礎
学習における平均場近似（１）

試験分布 f ( ) に対して



F (n)  EX n [ f ( ) log f ( )d  n
 ~  
f ( ) H n ( )d ] (1)

f ( ) として特に

エントロピー項
エネルギー項
d
f ( )   f i ( i )
i 1

に制限したとき (1) 式右辺を最小にする f ( ) を平均場近似と呼ぶ



EX n [min
f ( ) log f ( )d  n
 {
f ( )
 ~  
f ( ) H n ( )d }]  F (n)
平均場近似アルゴリズム
を平均場近似自由エネルギーと呼ぶ。
stationary

f ( )
＊局所解 or 最小解の判定基準
ベイズ汎化誤差
G (n)
真
の
分
布
代数幾何学的手法 [Watanabe]

m 1
 
n log n
q(x )
へ
の
近
さ
n
ベイズ予測分布と、真の分布とのカルバック距離
G(n)  E X n {



q( x )
q( x ) log  n dx} ：ベイズ汎化誤差
p( x | X )
本学習モデルの性質
 
p( x | w)
学習モデル
1
K
 
p( x | w) 

i 1
M
cosh( wij x j )
j 1

Z ( w)

x
は，入出力素子 {xi }iM1 が {1,1} をとることから
離散分布であり，全事象は2 M 通り．
（i）隠れ素子数 K は， KM
（ii）
 2M  1
全事象 2
仮
定
K
 
p( x | w) 
パラメータ

w
i 1
通り
を満たす範囲で十分
M  1 のとき

M
cosh(wi1 )
1


Z ( w)
2M
に依存せず意味をなさない．
M  2 の場合を考える

Download Report