完全2部グラフ型ボルツマンマシンにおける
平均場近似自由エネルギーの
漸近的挙動
東京工業大学総合理工学研究科
知能システム科学専攻 渡辺研究室
西山 悠
背景
現実的なシステム
確率を利用した学習モデル
混合正規分布
制御
神経回路網
パターン認識
隠れマルコフモデル
ベイジアンネット
応用
時系列予測
(フィッシャー情報行列が正則な)
一対一対応
パラメータ
特異モデル
確率分布
統計的正則モデル
の漸近論
ベイズ自由エネルギー,ベイズ汎化誤差
が正則モデルよりも優れている
ベイズ学習が有効
With 代数幾何学的手法
問題点:ベイズ事後分布を含む計算は実現困難
平均場近似
ハミルトニアン
ベイズ事後分布
近似
近似
相互作用
のない系
パラメータごとに
独立に計算
パラメータごとに
独立な分布
カルバック距離として最も近く
(自由エネルギーを最小にする)
平均場近似アルゴリズム
(変分ベイズ)
実問題への有効性
~平均場近似自由エネルギーの漸近形~
縮小ランク回帰モデル[Nakajima]
混合正規分布[K.Watanabe]
隠れマルコフモデル[Hosino, K.Watanabe]
確率文脈自由文法[Hosino, K.Watanabe]
ニューラルネットワーク[Nakano]
で求められている.
目的
完全2部グラフ型ボルツマンマシンにおいて,平
均場近似自由エネルギーの漸近形の上界を解
析的に導出する.
ベイズ学習
データ
真の分布
確率的に
q(x)
揺らぐ対象
X1 X 2 X n
独立
設計者
p( x | ) :学習モデル
( )
予
測
:事前分布
(事前知識)
n
p( | X n )
( ) p( X i | )
i 1
Z(X n)
:ベイズ事後分布
(事後知識)
p( x | X n ) p( x | ) p( | X n )d :ベイズ予測分布
学習における自由エネルギー
ベイズ事後分布
は
p( | X n )
n
( ) p( X i | )
i 1
Z(X n)
~
exp{nH n ( )} ボルツマン分布
表現
Z (X n)
ここで,
1
~
H n ( ) H n ( ) log ( )
n
H n ( ) :経験カルバック情報量
F (n) EX n { log Z ( X n )}
:ベイズ自由エネルギー
汎化誤差との関係
F (n 1) F (n) G(n)
*ベイズ自由エネルギーは,汎化誤差の導出,モデル選択等に重要
学習における平均場近似(1)
試験分布 f ( ) に対して
~
F (n) EX n [ f ( ) log f ( )d n f ( ) H n ( )d ]
f ( ) として特に
エントロピー項
(1)
エネルギー項
d
f ( ) f i ( i )
i 1
に制限したとき (1) 式右辺を最小にする
f ( ) を平均場近似と呼ぶ.
EX n [min{ f ( ) log f ( )d n
f ( )
を平均場近似自由エネルギーと呼ぶ.
~
f ( ) H n ( )d }] F (n)
学習における平均場近似(2)
平均場近似自由エネルギー F (n) について
F (n) EX n [min{ f ( ) log f ( )d n
f ( )
~
f ( ) H n ( )d }]
~
min{ f ( ) log f ( )d n f ( ) EX n [ H n ( )]d }
f ( )
~
min{ f ( ) log f ( )d n f ( ) H ( )d }
f ( )
~
F (n)
以上から
1
~
ただし, H ( ) H ( ) log ( )
n
~
F (n) F (n) F (n)
ベイズ自由エネ
ルギー
平均場近似
自由エネルギー
本発表で考察
学習モデル
K 個
学習モデル: 完全二部グラフ型ボルツマンマシン
p( x | w)
K
exp(
y
x
学
習
モ
デ
ル
exp(
i 1
wij x j yi )
i 1
y2
y3
yK
隠れ素子
M
j 1
wij x j yi )
wij
wKM
M
exp( wij x j yi )
j 1
yi
入出力素子
x1
Z ( w)
K
j 1
K
y
K
i 1
i 1
y1
M
x2
xM
M
cosh( wij x j )
M個
j 1
Z ( w)
全パラメータ数: KM 個
{xi }iM1 {yi }iK1
はそれぞれ,
{1,1} の2値をとるとする.
真の確率分布
K個
wij 0
for i {1,2, K }
wij 0
for i {K 1,, K}
このとき真の確率分布は
K
p( x | w )
i 1
M
cosh( wij x j )
y1
yK
wij 0
w 0
x1
Z (w )
*真の分布が学習モデルに含まれる場合 ( K K )
{wˆ ; H ( wˆ ) 0}
必要十分
複数存在
yK
ij
j 1
ˆ ; p( x | w ) p( x | w
ˆ )}
{w
yK 1
特異モデル
x2
M個
xM
問題設定
~
F (n) F (n)
min{ f (w) log f (w)dw n
平均場近似
自由エネルギー
f ( w)
(2)
学習モデル由来
正規分布族
K
f (w)
i 1
K
0 ( w)
i 1
*
~
f (w) H (w)]dw}
M
j 1
M
j 1
1
exp{ Lij (wij wˆ ij ) 2 }
Z ( Lij )
1
exp{
2 1
( wij wˆ ij ) 2
2
2
1
完全2部グラフ型
ボルツマンマシン
}
{Lij } {wˆ ij } を (2) 式右辺が最小になるように最適化
結果・定理
完全2部グラフ型ボルツマンマシンにおいて
平均場近似自由エネルギー F (n) は以下の上界を持つ.
K M KM
F ( n)
log n C
4
ここで
M :入出力素子の個数
K :学習モデルの隠れ素子の個数
K :隠れ素子の真の個数
C :定数
である.
証明の概要
[補題]
R d とし,一般のカルバック情報量 H ( ) において
H (ˆ) 0 を満たす ˆ
2 H ( )
0} が r 個以下のとき
に対して {i;
2
i ˆ
平均場近似自由エネルギー F (n) は,
rd
F ( n)
log n O (1)
4
{ˆ; H (ˆ) 0}
(1) r (1)
の上界を持つ.
r
真のパラメータ集合
( 2) r ( 2)
*カルバック情報量の二階微分の計算のみで,上の上界が得られる.
[補題]を利用
完全二部グラフ型ボルツマンマシンのとき,カルバック情報量 H (w) は
K
K
H (w)
i 1
M
cosh( wij x j )
x
j 1
Z (w )
i 1
ln
M
cosh( wij x j )
j 1
Z (w )
K
i 1
M
cosh( wij x j )
j 1
wˆ における二階微分係数は,
2 H ( w)
2
w wwˆ
Z ( w)
(t t
2
)
ˆ
w
ˆ
w
分散
ここで
M
t tanh( wj x j ) x
j 1
f ( x | w)
wˆ
p( x | wˆ ) f ( x | w)
x
学習モデル
特に
wˆ w のときを考えると
ˆ ; H (w
ˆ ) 0}
{w
wˆ (1) r (1)
w 0 for {1,2, K }
w 0
for
{K 1,, K}
であることから
2 H ( w)
2
w ww
w r *
ˆ ( 2) r ( 2)
w
t 0
(t t
が成立して,[補題]において
2
)
w
w
0
r K M、 d KM
K M KM
F ( n)
log n C
4
for
{K 1,, K}
であることから,
(定理の証明終了)
考察①
統計的正則モデル
KM
log n O(1)
2
F (n)
代数幾何学的手法
[Yamazaki]
上
界
上
界
導出した自由エネルギー
KM K * M
log n O(1)
4
平均場近似
ベイズ学習
非漸近
領域
n :学習サンプル数
漸近論
適用可能領域
考察②
事前分布
(w) c0 (w)
正規分布
ˆ w のときの下界
試験分布を正規分布, w
結論
完全二部グラフ型ボルツマンマシンにおいて,平
均場近似自由エネルギーの上界を与えた.
今後の課題
平均場近似自由エネルギーの下界の導出
一般のボルツマンマシンへの拡張
導出した自由エネルギーと実験との比較
Sing IC [Yamazaki. et al]
h ( K , K * )
F (n)
平均場近似アルゴリズム
1 log n (m1 1) loglog n
ベイズ学習
2 log n (m2 1) loglog n
n
非漸近
領域
m hm (K , K * )
+
真の
隠れ素子
の個数
y g ( , m)
学習サンプル数
観測可能量
漸近論
適用可能領域
学習モデル
学習アルゴリズム に依存
*観測できない
関数
h hm
K * を推測
を導出するのは重要
理論的な研究の意義
平均場近似アルゴリズムと(ベイズ学習,統計的
正則モデル)との漸近論の比較.
平均場近似アルゴリズムにおいて,局所解 or
最小解の判定基準.
特異モデルにおけるモデル選択,
SingICへの基礎
学習における平均場近似(1)
試験分布 f ( ) に対して
F (n) EX n [ f ( ) log f ( )d n
~
f ( ) H n ( )d ] (1)
f ( ) として特に
エントロピー項
エネルギー項
d
f ( ) f i ( i )
i 1
に制限したとき (1) 式右辺を最小にする f ( ) を平均場近似と呼ぶ
EX n [min
f ( ) log f ( )d n
{
f ( )
~
f ( ) H n ( )d }] F (n)
平均場近似アルゴリズム
を平均場近似自由エネルギーと呼ぶ。
stationary
f ( )
*局所解 or 最小解 の判定基準
ベイズ汎化誤差
G (n)
真
の
分
布
代数幾何学的手法 [Watanabe]
m 1
n log n
q(x )
へ
の
近
さ
n
ベイズ予測分布と、真の分布とのカルバック距離
G(n) E X n {
q( x )
q( x ) log n dx} :ベイズ汎化誤差
p( x | X )
本学習モデルの性質
p( x | w)
学習モデル
1
K
p( x | w)
i 1
M
cosh( wij x j )
j 1
Z ( w)
x
は,入出力素子 {xi }iM1 が {1,1} をとることから
離散分布であり,全事象は2 M 通り.
(i) 隠れ素子数 K は, KM
(ii)
2M 1
全事象 2
仮
定
K
p( x | w)
パラメータ
w
i 1
通り
を満たす範囲で十分
M 1 のとき
M
cosh(wi1 )
1
Z ( w)
2M
に依存せず意味をなさない.
M 2 の場合を考える
© Copyright 2026 ExpyDoc