完全2部グラフ型ボルツマンマシンにおける 平均場近似自由エネルギーの 漸近的挙動 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室 西山 悠 背景 現実的なシステム 確率を利用した学習モデル 混合正規分布 制御 神経回路網 パターン認識 隠れマルコフモデル ベイジアンネット 応用 時系列予測 (フィッシャー情報行列が正則な) 一対一対応 パラメータ 特異モデル 確率分布 統計的正則モデル の漸近論 ベイズ自由エネルギー,ベイズ汎化誤差 が正則モデルよりも優れている ベイズ学習が有効 With 代数幾何学的手法 問題点:ベイズ事後分布を含む計算は実現困難 平均場近似 ハミルトニアン ベイズ事後分布 近似 近似 相互作用 のない系 パラメータごとに 独立に計算 パラメータごとに 独立な分布 カルバック距離として最も近く (自由エネルギーを最小にする) 平均場近似アルゴリズム (変分ベイズ) 実問題への有効性 ~平均場近似自由エネルギーの漸近形~ 縮小ランク回帰モデル[Nakajima] 混合正規分布[K.Watanabe] 隠れマルコフモデル[Hosino, K.Watanabe] 確率文脈自由文法[Hosino, K.Watanabe] ニューラルネットワーク[Nakano] で求められている. 目的 完全2部グラフ型ボルツマンマシンにおいて,平 均場近似自由エネルギーの漸近形の上界を解 析的に導出する. ベイズ学習 データ 真の分布 確率的に q(x) 揺らぐ対象 X1 X 2 X n 独立 設計者 p( x | ) :学習モデル ( ) 予 測 :事前分布 (事前知識) n p( | X n ) ( ) p( X i | ) i 1 Z(X n) :ベイズ事後分布 (事後知識) p( x | X n ) p( x | ) p( | X n )d :ベイズ予測分布 学習における自由エネルギー ベイズ事後分布 は p( | X n ) n ( ) p( X i | ) i 1 Z(X n) ~ exp{nH n ( )} ボルツマン分布 表現 Z (X n) ここで, 1 ~ H n ( ) H n ( ) log ( ) n H n ( ) :経験カルバック情報量 F (n) EX n { log Z ( X n )} :ベイズ自由エネルギー 汎化誤差との関係 F (n 1) F (n) G(n) *ベイズ自由エネルギーは,汎化誤差の導出,モデル選択等に重要 学習における平均場近似(1) 試験分布 f ( ) に対して ~ F (n) EX n [ f ( ) log f ( )d n f ( ) H n ( )d ] f ( ) として特に エントロピー項 (1) エネルギー項 d f ( ) f i ( i ) i 1 に制限したとき (1) 式右辺を最小にする f ( ) を平均場近似と呼ぶ. EX n [min{ f ( ) log f ( )d n f ( ) を平均場近似自由エネルギーと呼ぶ. ~ f ( ) H n ( )d }] F (n) 学習における平均場近似(2) 平均場近似自由エネルギー F (n) について F (n) EX n [min{ f ( ) log f ( )d n f ( ) ~ f ( ) H n ( )d }] ~ min{ f ( ) log f ( )d n f ( ) EX n [ H n ( )]d } f ( ) ~ min{ f ( ) log f ( )d n f ( ) H ( )d } f ( ) ~ F (n) 以上から 1 ~ ただし, H ( ) H ( ) log ( ) n ~ F (n) F (n) F (n) ベイズ自由エネ ルギー 平均場近似 自由エネルギー 本発表で考察 学習モデル K 個 学習モデル: 完全二部グラフ型ボルツマンマシン p( x | w) K exp( y x 学 習 モ デ ル exp( i 1 wij x j yi ) i 1 y2 y3 yK 隠れ素子 M j 1 wij x j yi ) wij wKM M exp( wij x j yi ) j 1 yi 入出力素子 x1 Z ( w) K j 1 K y K i 1 i 1 y1 M x2 xM M cosh( wij x j ) M個 j 1 Z ( w) 全パラメータ数: KM 個 {xi }iM1 {yi }iK1 はそれぞれ, {1,1} の2値をとるとする. 真の確率分布 K個 wij 0 for i {1,2, K } wij 0 for i {K 1,, K} このとき真の確率分布は K p( x | w ) i 1 M cosh( wij x j ) y1 yK wij 0 w 0 x1 Z (w ) *真の分布が学習モデルに含まれる場合 ( K K ) {wˆ ; H ( wˆ ) 0} 必要十分 複数存在 yK ij j 1 ˆ ; p( x | w ) p( x | w ˆ )} {w yK 1 特異モデル x2 M個 xM 問題設定 ~ F (n) F (n) min{ f (w) log f (w)dw n 平均場近似 自由エネルギー f ( w) (2) 学習モデル由来 正規分布族 K f (w) i 1 K 0 ( w) i 1 * ~ f (w) H (w)]dw} M j 1 M j 1 1 exp{ Lij (wij wˆ ij ) 2 } Z ( Lij ) 1 exp{ 2 1 ( wij wˆ ij ) 2 2 2 1 完全2部グラフ型 ボルツマンマシン } {Lij } {wˆ ij } を (2) 式右辺が最小になるように最適化 結果・定理 完全2部グラフ型ボルツマンマシンにおいて 平均場近似自由エネルギー F (n) は以下の上界を持つ. K M KM F ( n) log n C 4 ここで M :入出力素子の個数 K :学習モデルの隠れ素子の個数 K :隠れ素子の真の個数 C :定数 である. 証明の概要 [補題] R d とし,一般のカルバック情報量 H ( ) において H (ˆ) 0 を満たす ˆ 2 H ( ) 0} が r 個以下のとき に対して {i; 2 i ˆ 平均場近似自由エネルギー F (n) は, rd F ( n) log n O (1) 4 {ˆ; H (ˆ) 0} (1) r (1) の上界を持つ. r 真のパラメータ集合 ( 2) r ( 2) *カルバック情報量の二階微分の計算のみで,上の上界が得られる. [補題]を利用 完全二部グラフ型ボルツマンマシンのとき,カルバック情報量 H (w) は K K H (w) i 1 M cosh( wij x j ) x j 1 Z (w ) i 1 ln M cosh( wij x j ) j 1 Z (w ) K i 1 M cosh( wij x j ) j 1 wˆ における二階微分係数は, 2 H ( w) 2 w wwˆ Z ( w) (t t 2 ) ˆ w ˆ w 分散 ここで M t tanh( wj x j ) x j 1 f ( x | w) wˆ p( x | wˆ ) f ( x | w) x 学習モデル 特に wˆ w のときを考えると ˆ ; H (w ˆ ) 0} {w wˆ (1) r (1) w 0 for {1,2, K } w 0 for {K 1,, K} であることから 2 H ( w) 2 w ww w r * ˆ ( 2) r ( 2) w t 0 (t t が成立して,[補題]において 2 ) w w 0 r K M、 d KM K M KM F ( n) log n C 4 for {K 1,, K} であることから, (定理の証明終了) 考察① 統計的正則モデル KM log n O(1) 2 F (n) 代数幾何学的手法 [Yamazaki] 上 界 上 界 導出した自由エネルギー KM K * M log n O(1) 4 平均場近似 ベイズ学習 非漸近 領域 n :学習サンプル数 漸近論 適用可能領域 考察② 事前分布 (w) c0 (w) 正規分布 ˆ w のときの下界 試験分布を正規分布, w 結論 完全二部グラフ型ボルツマンマシンにおいて,平 均場近似自由エネルギーの上界を与えた. 今後の課題 平均場近似自由エネルギーの下界の導出 一般のボルツマンマシンへの拡張 導出した自由エネルギーと実験との比較 Sing IC [Yamazaki. et al] h ( K , K * ) F (n) 平均場近似アルゴリズム 1 log n (m1 1) loglog n ベイズ学習 2 log n (m2 1) loglog n n 非漸近 領域 m hm (K , K * ) + 真の 隠れ素子 の個数 y g ( , m) 学習サンプル数 観測可能量 漸近論 適用可能領域 学習モデル 学習アルゴリズム に依存 *観測できない 関数 h hm K * を推測 を導出するのは重要 理論的な研究の意義 平均場近似アルゴリズムと(ベイズ学習,統計的 正則モデル)との漸近論の比較. 平均場近似アルゴリズムにおいて,局所解 or 最小解の判定基準. 特異モデルにおけるモデル選択, SingICへの基礎 学習における平均場近似(1) 試験分布 f ( ) に対して F (n) EX n [ f ( ) log f ( )d n ~ f ( ) H n ( )d ] (1) f ( ) として特に エントロピー項 エネルギー項 d f ( ) f i ( i ) i 1 に制限したとき (1) 式右辺を最小にする f ( ) を平均場近似と呼ぶ EX n [min f ( ) log f ( )d n { f ( ) ~ f ( ) H n ( )d }] F (n) 平均場近似アルゴリズム を平均場近似自由エネルギーと呼ぶ。 stationary f ( ) *局所解 or 最小解 の判定基準 ベイズ汎化誤差 G (n) 真 の 分 布 代数幾何学的手法 [Watanabe] m 1 n log n q(x ) へ の 近 さ n ベイズ予測分布と、真の分布とのカルバック距離 G(n) E X n { q( x ) q( x ) log n dx} :ベイズ汎化誤差 p( x | X ) 本学習モデルの性質 p( x | w) 学習モデル 1 K p( x | w) i 1 M cosh( wij x j ) j 1 Z ( w) x は,入出力素子 {xi }iM1 が {1,1} をとることから 離散分布であり,全事象は2 M 通り. (i) 隠れ素子数 K は, KM (ii) 2M 1 全事象 2 仮 定 K p( x | w) パラメータ w i 1 通り を満たす範囲で十分 M 1 のとき M cosh(wi1 ) 1 Z ( w) 2M に依存せず意味をなさない. M 2 の場合を考える
© Copyright 2024 ExpyDoc