ニューラルネットの 学習理論への入門 渡辺澄夫 東京工業大学 http://watanabe-www.pi.titech.ac.jp 2015/10/1 Mathematical Learning Theory 1 I. 学習モデルの例 階層的な構造を持つモデルたち 2015/10/1 Mathematical Learning Theory 2 ニューラルネット tanh x x K f(x,w) = Σ a k tanh(bk・x+ck) k=1 w = (ak , bk ,ck) p(y|x,w) ∝exp[ 2015/10/1 1 2 2 (y-f(x,w)) ] Mathematical Learning Theory 3 3層ネット y ak ck bk Radial Basis Functions なども同種 x 2015/10/1 Mathematical Learning Theory 4 混合正規分布 K p(x|w) = ∑ ak k=1 1 (2πσk) N/2 exp( - || x – bk ||2 2σk 2 ) K w = (ak , bk ,σk) ∑ ak = 1 k=1 2 平均 bk ,分散σk の 正規分布 2015/10/1 Mathematical Learning Theory 5 競合モデル p(x|w) ak σk bk x1 x2 x3 2015/10/1 xN Mathematical Learning Theory 6 ボルツマンマシン si wij sj Input p(x|w) = Hidden 1 ∑ exp( - ∑ wij si sj ) Z(w) (i,j) Hidden 2015/10/1 Mathematical Learning Theory 7 II. 正則モデルと特異モデル ニューラルネットでは普通の統計理論は成り立ちません 2015/10/1 Mathematical Learning Theory 8 学習とは 学習モデル p(y|x,w) 真の推論 q(y|x) 学習 不明な関係 2015/10/1 Mathematical Learning Theory 9 構造の発見とは 真の推論 q(y|x)が 構造を持つ場合 学習モデル p(y|x,w) 特定 2015/10/1 Mathematical Learning Theory 10 特定可能性 学習モデル p(x|w) が 特定可能 とは p(x|w1) = p(x|w2) (∀x) ⇒ w1=w2 階層構造をもつモデルは特定可能ではない 例1 例2 ∑ ak xk = 0 ⇔ ak = 0 (∀k) a tanh (bx+c) = 0 ⇔ {a=0}∪{b=c=0} 2015/10/1 Mathematical Learning Theory 11 統計的正則モデル p(x|w) w∈W⊂Rd が統計的正則であるとは (a) p(x|w) は特定可能 (b) {∂wj log p(x|w) } は常に一次独立 接空間 W:統計多様体 2015/10/1 Mathematical Learning Theory 12 特異モデル p(x|w) w∈Rd が特異モデルであるとは log p(x|w) は w について適当な回数まで 微分可能であるが、特定可能ではない 違うパラメータで 同じ分布になる 2015/10/1 Mathematical Learning Theory 13 特異構造 W={w} パラメータ全体の集合 w1~w2 ⇔ “p(x|w1) = p(x|w2) (∀x)” 商集合 W/~ は多様体にはならない 同値類 { w ; p(x|w)=p(x|w0)} は特異点を含む 2015/10/1 Mathematical Learning Theory 14 III. 最尤法とベイズ法 二乗誤差を最小にするパラメータを探してもだめです 2015/10/1 Mathematical Learning Theory 15 学習の枠組み 未知の情報源 q(x) 学習システム データ X1, X2 ,…, Xn p(x|w) 学習結果 p( x ) どのくらい似ているか? 2015/10/1 Mathematical Learning Theory 16 最尤推定法 データ: x1, x2, x3, …,xn 真の分布 q(x) からの独立なサンプル 学習モデル p( x | w ) n w* = argmax Π p( Xi | w) i=1 学習結果 p( x | w* ) 2015/10/1 Mathematical Learning Theory 17 ベイズ推定法 データ: Dn = (x1, x2, x3, …,xn ) 事前確率 φ(w) 事後確率 n 1 p(w| Dn ) = φ(w)Π p( Xi | w) Z i=1 学習結果 p(x| Dn ) = ∫p(x|w) p(w| Dn ) dw ∫φ(w) p(xn+1| Dn ) = 2015/10/1 ∫φ(w) n+1 Π p( Xi | w) dw i=1 n Π p( Xi | w) dw i=1 Mathematical Learning Theory 18 汎化誤差 真の分布 q(x) G(n) 学習曲線 n 学習結果 p(x) : p(x|w*) または p(x|Dn) [ ∫q(x) { log q(x) -log p(x) } dx ] D G(n) = E n 最尤法 ベイズ法 統計的正則モデル d/2n d/2n 階層モデル 未解決 λ/2n d: パラメータの次元 2015/10/1 Mathematical Learning Theory 19 学習法の比較 ◎ 最尤法は、工学者にとって、わかりやすいが 構造発見にも予測精度向上にも適さない どのくらい適さないか、研究されつつある ◎ 構造を持つモデルの学習にはベイズ法が適するが 実現法や理論が、工学ではあまり知られていない ベイズ法の技法 ベイズ法の理論 2015/10/1 Mathematical Learning Theory 20 IV. ベイズ法の技法 ベイズ法を計算機で実現する技法はたくさん研究されています 2015/10/1 Mathematical Learning Theory 21 ベイズ法の実現 学習結果=予測分布 p(x| Dn ) = ∫p(x|w) p(w| Dn ) dw = 1 K ∑ p(x|wk) K k=1 積分をどのようにして(近似計算するか) ◎ p(w| Dn )の正規近似はできない ◎ MCMC法 ◎ 近似法が、どの程度正しいかを知る手段が重要 2015/10/1 Mathematical Learning Theory 22 MCMC法 n L(w) = ーlog{φ(w)Π p( Xi | w) } i=1 K 1 p(w| Dn ) = Z exp( -L(w)) → { wk } k=1 メトロポリス法 ◎w→w’ ◎確率 max{ 1, exp(-L(w’)+L(w)) } でw’に移動 2015/10/1 Mathematical Learning Theory 23 ベイズ法の最適化 確率的複雑さ n F = -log P(p,φ| Dn ) = ーlog∫φ(w)Π p( Xi | w) dw i=1 確率的 複雑さ 真実の発見 2015/10/1 (モデル,事前分布) Mathematical Learning Theory 24 確率的複雑さ F(t) = ーlog∫exp( -tL(w) ) dw F(1) = = ∫ ∫ 1 F(t)’ dt 0 1 <L(w)>t dt 0 < >t :exp(-tL(w)) による平均 2015/10/1 Mathematical Learning Theory 25 V. ベイズ法の理論 ベイズ法の理論は美しい数学的な背景を持っています 2015/10/1 Mathematical Learning Theory 26 汎化誤差と確率的複雑さ 汎化誤差(平均を取っていない) G(Xn+1, Dn ) = log q(Xn+1) - log p(Xn+1 | Dn ) 確率的複雑さ n F( Dn ) = ーlog∫φ(w)Π p( Xi | w) dw i=1 2015/10/1 Mathematical Learning Theory 27 ベイズ法の基本定理 定理 G(Xn+1, Dn ) = F( Dn+1 ) – F( Dn ) – S( Xn+1 ) S( Xn+1 ) = -log q(Xn+1 ) 証明 ∫φ(w) G(Xn+1, Dn ) = log q(Xn+1) - log 2015/10/1 ∫φ(w) n+1 Π p( Xi | w) dw i=1 n Π p( Xi | w) dw Mathematical Learning Theory i=1 28 基本定理の意味 定理 G(Xn+1, Dn ) = F( Dn+1 ) – F( Dn ) – S( Xn+1 ) S( Xn+1 ) = -log q(Xn+1 ) ◎ S( Xn+1 ) は、真の分布のみに依存する ◎ 予測誤差の大小=確率的複雑さの増分の大小 2015/10/1 Mathematical Learning Theory 29 漸近理論 定理 n →∞で、次が成り立つ ( F*はある確率変数) n F( Dn )= ΣS(Xi)+λlog n –(m-1)loglog n + F* i=1 λとmはゼータ関数の最大の極 z ζ(z) = ∫K(w) φ(w)dw K(w) = -λ Im(z) Re(z) ∫q(x)[ log q(x) – log p(x|w) ]dx 2015/10/1 Mathematical Learning Theory 30 特異点解消定理 0 ∞ k k K(g(u))=a(u) u1 1 u2 2 ・・・ ud K(w) kd U W g 2015/10/1 Mathematical Learning Theory 31 漸近理論からわかること 汎化誤差 G( Dn )= λ/n –(m-1)/(nlog n) + G*(n) 平均を取れば1/n より小だが 平均を取らなければ1/nより大 確率的複雑さ n F( Dn )= ΣS(Xi)+λlog n –(m-1)loglog n + F* i=1 n が増えるについて真実が見えてくる 2015/10/1 Mathematical Learning Theory 32 真と特異点がずれると? Research with S.Amari λ d/2 モデルに依存する 複雑なモデルほど↓ 真の特異点からのずれ 2015/10/1 Mathematical Learning Theory 33 まとめ I. 学習モデルの例 II. 正則モデルと特異モデル III. 最尤法とベイズ法 IV. ベイズ法の技法 V. ベイズ法の理論 2015/10/1 Mathematical Learning Theory 34
© Copyright 2024 ExpyDoc