スライド 1 - Watanabe Lab.

完全2部グラフ型ボルツマンマシンにおける
平均場近似自由エネルギーの
漸近的挙動
東京工業大学総合理工学研究科
知能システム科学専攻 渡辺研究室
西山 悠
背景
現実的なシステム
確率を利用した学習モデル
混合正規分布
制御
神経回路網
パターン認識
隠れマルコフモデル
ベイジアンネット
応用
時系列予測
(フィッシャー情報行列が正則な)
一対一対応
パラメータ
特異モデル
確率分布
統計的正則モデル
の漸近論
ベイズ自由エネルギー,ベイズ汎化誤差
が正則モデルよりも優れている
ベイズ学習が有効
With 代数幾何学的手法
問題点:ベイズ事後分布を含む計算は実現困難
平均場近似
ハミルトニアン
ベイズ事後分布
近似
近似
相互作用
のない系
パラメータごとに
独立に計算
パラメータごとに
独立な分布
カルバック距離として最も近く
(自由エネルギーを最小にする)
平均場近似アルゴリズム
(変分ベイズ)
実問題への有効性
~平均場近似自由エネルギーの漸近形~
縮小ランク回帰モデル[Nakajima]
混合正規分布[K.Watanabe]
隠れマルコフモデル[Hosino, K.Watanabe]
確率文脈自由文法[Hosino, K.Watanabe]
ニューラルネットワーク[Nakano]
で求められている.
目的

完全2部グラフ型ボルツマンマシンにおいて,平
均場近似自由エネルギーの漸近形の上界を解
析的に導出する.
ベイズ学習
データ
真の分布
確率的に
q(x)
揺らぐ対象
X1 X 2  X n
独立
設計者
p( x |  ) :学習モデル
 ( )
予
測
:事前分布
(事前知識)
n
p( | X n ) 
 ( ) p( X i |  )
i 1
Z(X n)
:ベイズ事後分布
(事後知識)
p( x | X n )   p( x |  ) p( | X n )d :ベイズ予測分布
学習における自由エネルギー
ベイズ事後分布
は
p( | X n ) 
n
 ( ) p( X i |  )
i 1
Z(X n)
~
exp{nH n ( )} ボルツマン分布

表現
Z (X n)
ここで,
1
~
H n ( )  H n ( )  log  ( )
n
H n ( ) :経験カルバック情報量
F (n)  EX n { log Z ( X n )}
:ベイズ自由エネルギー
汎化誤差との関係
F (n  1)  F (n)  G(n)
*ベイズ自由エネルギーは,汎化誤差の導出,モデル選択等に重要
学習における平均場近似(1)
試験分布 f ( ) に対して
~
F (n)  EX n [ f ( ) log f ( )d  n f ( ) H n ( )d ]
f ( ) として特に
エントロピー項
(1)
エネルギー項
d
f ( )   f i ( i )
i 1
に制限したとき (1) 式右辺を最小にする
f ( ) を平均場近似と呼ぶ.
EX n [min{ f ( ) log f ( )d  n
f ( )
を平均場近似自由エネルギーと呼ぶ.
~
f ( ) H n ( )d }]  F (n)
学習における平均場近似(2)
平均場近似自由エネルギー F (n) について
F (n)  EX n [min{ f ( ) log f ( )d  n
f ( )
~
f ( ) H n ( )d }]
~
 min{ f ( ) log f ( )d  n f ( ) EX n [ H n ( )]d }
f ( )
~
 min{ f ( ) log f ( )d  n f ( ) H ( )d }
f ( )
~
 F (n)
以上から
1
~
ただし, H ( )  H ( )  log  ( )
n
~
F (n)  F (n)  F (n)
ベイズ自由エネ
ルギー
平均場近似
自由エネルギー
本発表で考察
学習モデル
K 個
学習モデル: 完全二部グラフ型ボルツマンマシン
p( x | w) 
K

exp(

y

x

学
習
モ
デ
ル
exp(
i 1

wij x j yi )

i 1
y2
y3
yK
隠れ素子
M

j 1
wij x j yi )
wij
wKM
M
exp( wij x j yi )
j 1
yi
入出力素子
x1
Z ( w)
K

j 1
K

y
K
i 1

i 1

y1
M
x2
xM
M
cosh( wij x j )
M個
j 1
Z ( w)
全パラメータ数: KM 個
{xi }iM1 {yi }iK1
はそれぞれ,
{1,1} の2値をとるとする.
真の確率分布
K個
wij  0

for i {1,2, K }
wij  0
for i {K   1,, K}
このとき真の確率分布は
K
p( x | w ) 

i 1
M
cosh( wij x j )
y1
yK 
wij  0
w 0
x1
Z (w )
*真の分布が学習モデルに含まれる場合 ( K   K )
{wˆ ; H ( wˆ )  0}
必要十分
複数存在
yK

ij
j 1

ˆ ; p( x | w )  p( x | w
ˆ )}
{w
yK  1
特異モデル
x2
M個
xM
問題設定
~
F (n)  F (n)
 min{ f (w) log f (w)dw  n
平均場近似
自由エネルギー
f ( w)
(2)
学習モデル由来
正規分布族
K
f (w)  
i 1
K
0 ( w)  
i 1
*
~
f (w) H (w)]dw}
M

j 1
M

j 1
1
exp{ Lij (wij  wˆ ij ) 2 }
Z ( Lij )
1
exp{
2  1
( wij  wˆ ij ) 2
2
2
1
完全2部グラフ型
ボルツマンマシン
}
{Lij } {wˆ ij } を (2) 式右辺が最小になるように最適化
結果・定理
完全2部グラフ型ボルツマンマシンにおいて
平均場近似自由エネルギー F (n) は以下の上界を持つ.
K  M  KM
F ( n) 
log n  C
4
ここで
M :入出力素子の個数
K :学習モデルの隠れ素子の個数
K  :隠れ素子の真の個数
C :定数
である.
証明の概要
[補題]
  R d とし,一般のカルバック情報量 H ( ) において
H (ˆ)  0 を満たす ˆ
 2 H ( )
 0} が r 個以下のとき
に対して {i;
2
 i  ˆ
平均場近似自由エネルギー F (n) は,
rd
F ( n) 
log n  O (1)
4
{ˆ; H (ˆ)  0}
 (1)  r (1)
の上界を持つ.
   r
真のパラメータ集合
 ( 2)  r ( 2)
*カルバック情報量の二階微分の計算のみで,上の上界が得られる.
[補題]を利用
完全二部グラフ型ボルツマンマシンのとき,カルバック情報量 H (w) は
K
K
H (w)  


i 1
M

cosh( wij x j )

x
j 1

Z (w )

i 1
ln
M
cosh( wij x j )
j 1

Z (w )
K

i 1
M
cosh( wij x j )
j 1
wˆ における二階微分係数は,
 2 H ( w)

2
w wwˆ

Z ( w)
(t  t
2
)
ˆ
w
ˆ
w
分散
ここで
M
t  tanh( wj x j ) x
j 1
f ( x | w)
wˆ
  p( x | wˆ ) f ( x | w)

x
学習モデル
特に
wˆ  w のときを考えると
ˆ ; H (w
ˆ )  0}
{w
wˆ (1)  r (1)
w  0 for  {1,2, K }


w  0

for
 {K   1,, K}
であることから
 2 H ( w)

2
w ww
w  r *
ˆ ( 2)  r ( 2)
w
t  0
(t  t
が成立して,[補題]において
2
)
w
w
0
r  K  M、 d  KM
K  M  KM
F ( n) 
log n  C
4
for
 {K   1,, K}
であることから,
(定理の証明終了)
考察①
統計的正則モデル
KM

log n  O(1)
2
F (n)
代数幾何学的手法
[Yamazaki]
上
界
上
界
導出した自由エネルギー
KM  K * M

log n  O(1)
4
平均場近似
ベイズ学習
非漸近
領域
n :学習サンプル数
漸近論
適用可能領域
考察②

事前分布
 (w)  c0 (w)
正規分布


ˆ  w のときの下界
試験分布を正規分布, w
結論

完全二部グラフ型ボルツマンマシンにおいて,平
均場近似自由エネルギーの上界を与えた.
今後の課題

平均場近似自由エネルギーの下界の導出

一般のボルツマンマシンへの拡張

導出した自由エネルギーと実験との比較
Sing IC [Yamazaki. et al]
  h ( K , K * )
F (n)
平均場近似アルゴリズム
 1 log n  (m1 1) loglog n
ベイズ学習
 2 log n  (m2 1) loglog n
n
非漸近
領域
m  hm (K , K * )
+
真の
隠れ素子
の個数
y  g ( , m)
学習サンプル数
観測可能量
漸近論
適用可能領域
学習モデル
学習アルゴリズム に依存
*観測できない
関数
h hm
K * を推測
を導出するのは重要
理論的な研究の意義

平均場近似アルゴリズムと(ベイズ学習,統計的
正則モデル)との漸近論の比較.

平均場近似アルゴリズムにおいて,局所解 or
最小解の判定基準.

特異モデルにおけるモデル選択,
SingICへの基礎
学習における平均場近似(1)

試験分布 f ( ) に対して



F (n)  EX n [ f ( ) log f ( )d  n
 ~  
f ( ) H n ( )d ] (1)

f ( ) として特に

エントロピー項
エネルギー項
d
f ( )   f i ( i )
i 1

に制限したとき (1) 式右辺を最小にする f ( ) を平均場近似と呼ぶ



EX n [min
f ( ) log f ( )d  n
 {
f ( )
 ~  
f ( ) H n ( )d }]  F (n)
平均場近似アルゴリズム
を平均場近似自由エネルギーと呼ぶ。
stationary

f ( )
*局所解 or 最小解 の判定基準
ベイズ汎化誤差
G (n)
真
の
分
布
代数幾何学的手法 [Watanabe]

m 1
 
n log n
q(x )
へ
の
近
さ
n
ベイズ予測分布と、真の分布とのカルバック距離
G(n)  E X n {



q( x )
q( x ) log  n dx} :ベイズ汎化誤差
p( x | X )
本学習モデルの性質
 
p( x | w)
学習モデル
1
K
 
p( x | w) 

i 1
M
cosh( wij x j )
j 1

Z ( w)

x
は,入出力素子 {xi }iM1 が {1,1} をとることから
離散分布であり,全事象は2 M 通り.
(i) 隠れ素子数 K は, KM
(ii)
 2M  1
全事象 2
仮
定
K
 
p( x | w) 
パラメータ

w
i 1
通り
を満たす範囲で十分
M  1 のとき

M
cosh(wi1 )
1


Z ( w)
2M
に依存せず意味をなさない.
M  2 の場合を考える