一般ボルツマンマシンにおける平均場近似 自由エネルギーの漸近的挙動 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室 西山 悠 背景 混合分布 パターン認識 ベイジアンネット 自然言語処理 隠れマルコフモデル ・ ・ ・ 遺伝子解析 ・ ・ ・ 応用 学習方法 特異モデル ベイズ学習の優位性 平均場近似 ベイズ事後分布 近似 パラメータごとに 独立な分布 自由エネルギーの値が小さい ほど近似精度が高い 最小値 平均場近似自由エネルギー ~平均場近似自由エネルギーの漸近形~ 縮小ランク回帰モデル[Nakajima] 混合正規分布[K.Watanabe] 隠れマルコフモデル[Hosino, K.Watanabe] 確率文脈自由文法[Hosino, K.Watanabe] ニューラルネットワーク[Nakano] で求められている. 目的 一般のボルツマンマシンにおいて,平均場近似 自由エネルギーの漸近形の上界を解析的に導 出する. ベイズ学習 データ 真の分布 確率的に q(x) 揺らぐ対象 X1 X 2 X n 独立 設計者 p( x | ) :学習モデル ( ) 予 測 :事前分布 (事前知識) n p( | X n ) ( ) p( X i | ) i 1 Z(X n) :ベイズ事後分布 (事後知識) p( x | X n ) p( x | ) p( | X n )d :ベイズ予測分布 学習における平均場近似(1) ベイズ事後分布 は p( | X n ) n ( ) p( X i | ) i 1 Z(X n) ~ exp{nH n ( )} ボルツマン分布 表現 Z (X n) ここで, 1 ~ H n ( ) H n ( ) log ( ) n D[ f ( ) || p( | X )] n H n ( ) :経験カルバック情報量 f ( ) f ( ) log d 0 ~ exp{nH n ( )} Z (X n) log Z ( X n ) f ( ) log f ( )d n f ( ) H n ( )d 学習における平均場近似(2) 近似事後分布 f ( ) に対して ~ EX n [ log Z ( X n )] EX n [ f ( ) log f ( )d n f ( ) H n ( )d ] f ( ) として特に d (1) エントロピー項 エネルギー項 f ( ) f i ( i ) i 1 に制限したとき (1) 式右辺を最小にする f ( ) を平均場近似と呼ぶ. EX n [min{ f ( ) log f ( )d n f ( ) を平均場近似自由エネルギーと呼ぶ. ~ f ( ) H n ( )d }] F (n) 学習モデル 学習モデル: 一般のボルツマンマシン y2 y1 y3 w3,4,K w y34y, K4 yyK4 yK y4 yK 3 2 体 体 相 相 すべてのノードの出力値は 互 互 {+1,-1}の2値をとる 作 作 用 用 隠れ素子 11,3 w wM2 yy11xy2 3 xM 3 2 3 2 w yx 入出力素子 x1 y L 1 exp{ Z (w) k 1 x2 x3 w xw x I J lk13 1 32,3, M xM x2 x3 xM I , J 0 j1 j J i1 iI ,i I wij11,, , j J xi1 xiI y j1 y j J } 真の確率分布 *真の確率分布は学習モデルに含まれ,隠れ素子の個数を K 2, K * , K * 1 w y1 y K * yK * 1 y2 隠れ素子 w 0 入出力素子 x1 真のパラメータとして * i1 ,,iI j1 ,, j J w x2 x3 0 for ( K ) 0 yK 2 , K * 1 2, M xM iI K * 個とする. 結果・定理 一般に (l1 , l2 ,, lL ) 体相互作用を持つボルツマンマシンにおいて 平均場近似自由エネルギー F (n) の漸近形は以下の上界を持つ. L F ( n) k 1 * M K M K 1 log n C l 4 l k k ここで M :入出力素子の個数 K :学習モデルの隠れ素子の個数 K :隠れ素子の真の個数 C :定数 である. 問題設定 F (n) min { ~ f ( w) ~ ~ ~ ~ f (w) log f (w)dw n f (w) H (w)]dw} (2) 学習モデル由来 平均場近似 自由エネルギー 一般ボルツマンマシン 正規分布族 ~ 1 d 1 1 T ~ 1 f ( w) ( ) ~ 1/ 2 exp{ ( w wˆ ) ( w wˆ )} 2 2 ~ 12 ,i I diag(, ~ ij11,, , j J , ) ~ * 式 (2)右辺の漸近形が最小になるように と ŵ を最適化 証明の概要 [補題] カルバック情報量 H ( ) において H (ˆ) 0 となる ˆ で フィッシャー情報行列 I (ˆ) の対角成分の非零の個数が r 以下となるとき 平均場近似自由エネルギー F (n) の漸近形は, d r F ( n) log n C0 4 <フィッシャー情報行列> r の上界を持つ. d 個 個 I11 I rr 0 0 *フィッシャー情報行列の対角成分の計算のみで,上の上界が得られる. [補題]に従って真のパラメータ w* * i1 ,,iI j1 ,, j J w 0 iI K for * におけるフィッシャー情報行列の対角成分 I i1 ,,i I j1 ,, j J (w ) * x log p ( x | w) p ( x | w ) ,i I wij1 ,, 1 , j J * w w* 2 の非零の個数を数える. I i1 ,,iI j1 ,, j J log p( x | w) (w ) 0 wi1 ,,iI j1 ,, j J 0 * 実際計算すると, log p( x | w) ,i I wij11,, , j J 0 ww for ww iI K * for x ,iI * I ij11,, ( w ) 0 for , j J iI K * <フィッシャー情報行列> L k 1 I11 0 0 M K* l 個 k I rr 0 0 0 0 0 0 0 0 L k 1 M K lk 個 補題に代入して L F ( n) k 1 * 1 M K M K log n C 4 lk lk (証明の概要終了) 直観的には・・・ 学習するパラメータの冗長な部分をはじめ,結合パラ メータが0となる分だけ,自由エネルギーが小さくなる. 結果は・・・ 学習アルゴリズムの解の最小解と局所解の判定基準 モデル選択規準SingIC[Yamazaki et al]は,自由エネ ルギーの漸近形の情報を利用している. 結論 一般のボルツマンマシンにおいて,平均場近似 自由エネルギーの漸近形の上界を与えた. 今後の課題 平均場近似自由エネルギーの下界の導出 導出した自由エネルギーと実験との比較 Sing IC [Yamazaki. et al] h ( K , K * ) F (n) 平均場近似アルゴリズム 1 log n (m1 1) loglog n ベイズ学習 2 log n (m2 1) loglog n n 非漸近 領域 m hm (K , K * ) + 真の 隠れ素子 の個数 y g ( , m) 学習サンプル数 観測可能量 漸近論 適用可能領域 学習モデル 学習アルゴリズム に依存 *観測できない 関数 h hm K * を推測 を導出するのは重要 学習における平均場近似(2) 平均場近似自由エネルギー F (n) について F (n) EX n [min{ f ( ) log f ( )d n f ( ) ~ f ( ) H n ( )d }] ~ min{ f ( ) log f ( )d n f ( ) EX n [ H n ( )]d } f ( ) ~ min{ f ( ) log f ( )d n f ( ) H ( )d } f ( ) ~ F (n) 以上から 1 ~ ただし, H ( ) H ( ) log ( ) n ~ F (n) F (n) F (n) ベイズ自由エネ ルギー 平均場近似 自由エネルギー 本発表で考察 理論的な研究の意義 平均場近似アルゴリズムと(ベイズ学習,統計的 正則モデル)との漸近論の比較. 平均場近似アルゴリズムにおいて,局所解 or 最小解の判定基準. 特異モデルにおけるモデル選択, SingICへの基礎 学習における平均場近似(1) 試験分布 f ( ) に対して F (n) EX n [ f ( ) log f ( )d n ~ f ( ) H n ( )d ] (1) f ( ) として特に エントロピー項 エネルギー項 d f ( ) f i ( i ) i 1 に制限したとき (1) 式右辺を最小にする f ( ) を平均場近似と呼ぶ EX n [min f ( ) log f ( )d n { f ( ) ~ f ( ) H n ( )d }] F (n) 平均場近似アルゴリズム を平均場近似自由エネルギーと呼ぶ。 stationary f ( ) *局所解 or 最小解 の判定基準 ベイズ汎化誤差 G (n) 真 の 分 布 代数幾何学的手法 [Watanabe] m 1 n log n q(x ) へ の 近 さ n ベイズ予測分布と、真の分布とのカルバック距離 G(n) E X n { q( x ) q( x ) log n dx} :ベイズ汎化誤差 p( x | X )
© Copyright 2024 ExpyDoc