学習理論と代数幾何 東京工業大学 渡辺澄夫 2015/10/1 Algebraic Geometry of Learning Machines 1 1. Introduction 学習理論とは q(x) … q(x) ? 学習者 X1, X2, …, Xn 2015/10/1 Algebraic Geometry of Learning Machines 2 1. Introduction 真の分布 と 学習モデル 真の分布 p(x|w*) si wij* sj 推測 y: 隠れ部分 x: 見える 例 学習者 si wij p(x|w) sj x: 見える y: 隠れ部分 w → p( |w) が1対1でない ・・・特定不能 2015/10/1 Algebraic Geometry of Learning Machines 3 1. Introduction 事後分布と特異点 D(w*||w) = ∫p(x|w*) log p(x|w*) dx p(x|w) カルバック情報量 D(w*||w) =0 : 解析的集合 W 特異点 事後分布も最尤推定量の分布も正規分布には漸近しません。 2015/10/1 Algebraic Geometry of Learning Machines 4 1. Introduction 特異モデルの性質 W=Rd: パラメータ全体の集合 W/~ 同値関係 w1~w2⇔「p(x|w1)= p(x|w2) (∀x)」 W/~ は特異点を持つ集合 2015/10/1 Algebraic Geometry of Learning Machines 5 1. Introduction 統計的正則モデルと特異モデル 正則モデル 正規分布 指数分布 多項式回帰 特異モデル 隠れマルコフモデル 神経回路網 混合正規分布 ベイズネットワーク 縮小ランク回帰 ボルツマンマシン 隠れた部分がある学習モデルは特異モデルになる 2015/10/1 Algebraic Geometry of Learning Machines 6 1. Introduction なぜ特異モデルが必要か 1.データから構造を取り出したい 2.潜在(隠れ)変数を使いたい 3.未知の分布を効率よく近似したい 2015/10/1 Algebraic Geometry of Learning Machines 7 2. Main Result 記号 確率変数 X 分布 q(x)=p(x|w*) Dn = { X1, X2, …, Xn } 独立 モデル p(x|w) , 事前 φ(w) f(x,w) = log q(x) – log p(x|w) K(w) = EX[ f(X,w) ] 2015/10/1 カルバック情報量 Algebraic Geometry of Learning Machines 8 2. Main Result 条件 (1) W∋w → f( ,w)∈ L2(q) : 解析関数 L2(q) ={g ;∫|g(x)| q(x)dx <∞} 2 (a1(w)>0,…, aL(w)>0) a0(w) (2) φ(w) = 0 2015/10/1 解析関数 C1関数 コンパクト サポート (それ以外) Algebraic Geometry of Learning Machines 9 2. Main Result ベイズ統計 n 対数尤度比 Hn(w) = ∑ f(xi,w) i=1 1 事後分布 p(w|Dn) dw = Z (Dn) 予測分布 2015/10/1 e -Hn(w) φ(w) dw p(x|Dn) = ∫p(x|w) p(w|Dn) dw Algebraic Geometry of Learning Machines 10 2. Main Result 周辺尤度と汎化誤差 周辺尤度 Z (Dn) = ∫e 平均対数周辺尤度 汎化誤差 -Hn(w) φ(w) dw F(n) = E[ - log Z(Dn) ] G(n) = E[ ∫q(x) log q(x) dx p(x|Dn) ] G(n) = F(n+1) – F(n) 2015/10/1 Algebraic Geometry of Learning Machines 11 2. Main Result 主定理 Im(z) ゼータ関数 ζ(z) = ∫K(w) φ(w) dw z -λ Re(z)>0 では正則関数 有理型関数として全複素平面に解析接続できる Re(z) (-λ): ζ(z) の一番大きな極、m:位数 法則 収束 nλ Z(Dn) (log n) m-1 n→∞ Z* Cf.E[Z*] = ∞ 2015/10/1 Algebraic Geometry of Learning Machines 12 2. Main Result 系:対数周辺尤度 確率的複雑さ n - log ∫Π p(Xi|w) φ(w) dw モデルの 複雑さ i=1 n = - Σ log q(Xi) + λlog n – (m-1)loglog n - log Z* i=1 ½ n ±n log n loglog n 定数 E[ log Z* ] < ∞ 2015/10/1 Algebraic Geometry of Learning Machines 13 2. Main Result 系:汎化誤差 G(n) = λ/ n + o(λ/n) 汎化誤差 真の分布 から 学習結果 までの距離 学習例数 2015/10/1 Algebraic Geometry of Learning Machines 14 3. Proof 対数尤度比のふるまい 対数尤度比 カルバック情報量 Hn(w) = n K (w) + {nK(w)} σn(w) = 1 n Σ n i=1 1/2 f(Xi,w) - K(w) K(w) 1/2 σn(w) ? → σ(w) 各 w 毎に正規分布に収束 K(w)=0の特異点上で ill-defined 2015/10/1 Algebraic Geometry of Learning Machines 15 3. Proof 特異点の問題 Z (Dn) = ∫ dwφ(w) e -Hn(w) = ∫φ(w) dw ∫dtδ(t-K(w)) = ∫φ(w) dw ∫ e -nt -(nt)½σn(w) t dt δ( n -K(w)) n e -t -t½σn(w) ①δ(K(w)) は定義されない 2015/10/1 Algebraic Geometry of Learning Machines ② ill-defined 16 3. Proof 広中(1964) 特異点解消定理 Atiyah(1970) 0 実解析関数 A(w) A(g(u))= u1s1 u2s2 ・・・ udsd 正規交差点 W W0 g φ(w) 2015/10/1 実多様体 locally プロパーな 実解析関数 U U0 φ(g(u)) |g’(u)| Algebraic Geometry of Learning Machines 17 3. Proof 周辺尤度の分解 L A(w)≡K(w) Π aj(w) U j=1 に特異点解消定理を適用 ∫ Z (Dn) = Σ du ψ(u) e Uα=[0,a]d 2015/10/1 -Hn(u) Uα = Σ ∫ψ (u) du ∫ δ( Uα U0 t dt n-K(u))ne -t -t½σn(u) Algebraic Geometry of Learning Machines 18 3. Proof 座標 u の分離 u = (ua,ub) K1(ua) = u12s1 u22s2 ・・・ um2sm K(u) = K1(ua) K2(ub) K2(ub) = um+12sm+1 ・・・ ud2sd k ψ1(ua) = u1 1 u2 ψ(u) = c(u)ψ1(ua)ψ2(ub) s.t. k1+1 2s1 ζ(z) の極 2015/10/1 = k2 km ・・・ um ψ2(ub) = um+1km+1 ・・・ udkd k2+1 2s2 km+1 =・・・= 2s m km+1+1 < 2sm+1 =λ Algebraic Geometry of Learning Machines 19 3. Proof δ(t-K(u)) の性質 任意のC1関数 S(u) (u∈[0,a]d ) について I(t) = ∫δ(t – K(u))ψ(u) S(u) du I0(t) = c0 t 補題 λ-1 (-log t) m-1 |I(t)-I0(t)| ≦ t ∫K2(ub)-λ ψ2(ub) S(0, ub ) dub λ-1 (-log t) m-2 ||S|| ||S||={ max |S(u)| + Σmax |∂jS(u)| } 2015/10/1 Algebraic Geometry of Learning Machines 20 3. Proof L2(q)値解析関数のイデアル 補題 J f(x,u) = Σ gj(u) hj(x,u) j=1 L2(q)解析 解析関数 L2(q)解析 f(x,u) (hj(u),hk(u))>I = a(x,u) u1s1 ・・ udsd K(u) = u12s1 u22s2 ・・・ ud2sd = ∫{f(x,u)+e-f(x,u) -1} q(x) dx 2015/10/1 Algebraic Geometry of Learning Machines 21 3. Proof 経験過程の法則収束 σn(u) = 1 n Σ a(Xi,u) - u1s1 ・・ udsd n i=1 → σ(u) 正規確率過程 ※経験過程の法則収束 ||f|| = ess. sup |f(u)| u ∈U σn(u) → σ(u) 2015/10/1 L∞(U) = { f(u) ; ||f(u)||<∞ } 定義 L∞(U)上の任意の有界連続関数 F について EDn[ F(σn)]→Eσ[F(σ)] Algebraic Geometry of Learning Machines 22 3. Proof 周辺尤度の法則収束 L∞(U)上のσの連続関数 Σ∫dt c0 tλ-1 (-log t)m-1 nλ Z (Dn) (log n) ×∫dub K2(ub) ψ2(ub) e -λ m-1 n →∞ -t -t½σ(ub) Uα 証明終 2015/10/1 Algebraic Geometry of Learning Machines 23 4. From the Statistical Point of View 統計的推測と特異点 1.特異点を扱うための数理 2次形式 テーラー展開 中心極限定理 特異点解消定理 イデアル有限生成 経験過程 2.特異点が統計的推測に及ぼす影響 最尤法、MAP法 特異点と真の分布が一致しない場合 2015/10/1 Algebraic Geometry of Learning Machines 24 4. From the Statistical Point of View 学習係数λ (1) det I(w*)>0, φ(w)>0ならば λ=d/2 (d: wの次元) (2) det I(w*)=0,φ(w)>0 ならば λ<< d/2 (3) φ(w): ジェフリーズならば λ≧ d/2 パラメータ空間 2015/10/1 Algebraic Geometry of Learning Machines 25 4. From the Statistical Point of View 具体的なモデルについて ブローアップ ⇒ ζ(z) の極 ⇒ λの上限値 神経回路網 (Watanabe,2001) 混合正規分布 (Yamazaki&Watanabe,2002) ベイズネットワーク (Rusakov&Geiger,2002) 縮小ランク回帰 (Watanabe&Watanabe,2002) 2015/10/1 Algebraic Geometry of Learning Machines 26 4. From the Statistical Point of View 真の分布がモデルの外?にあるとき 真の分布 パラメータ空間 2015/10/1 小さい G(n) モデル 大きな モデル n:学習例数 Algebraic Geometry of Learning Machines 27 4. From the Statistical Point of View モデルが変化する場所 G(n) ここでは何が起こっているか? n:学習例数 2015/10/1 Algebraic Geometry of Learning Machines 28 4. From the Statistical Point of View 相転移点の解析 エネルギー 対 エントロピー 関数近似誤差 対 統計的推測誤差 D (特異点|| 真の分布) = c/n モデルの選択・検定 2015/10/1 Algebraic Geometry of Learning Machines 29 真 4. From the Statistical Point of View 具体例 a=0 b=0 特異点 : {(a,b):a=0 or b=0} Kullback = |a*|2|b*|2/n 真: q(y|x) = 1 2π 1 1 exp[ (y – n 2 N a* ∑ bj* ej(x) ) 2 j=1 ] N x ∈R , y ∈R1 N a ∈R1 , b ∈R 学習者: p(y|x,a,b) = 2015/10/1 例題 推測 N 1 2 exp[ (y – a∑ bj ej(x) ) j=1 2 2π 1 Algebraic Geometry of Learning Machines ] 30 4. From the Statistical Point of View 汎化誤差と学習誤差 G(n) = λ/ 2n + o(1/n) , T(n) = μ/ 2n + o(1/n) , ここで λ= 1 + Eg[ (a*2 b*2+a*b*・g)YN(g)/YN-2(g)] μ = λ–2N+ Eg[ (2a* b*・g+2g2) YN(g)/YN-2(g)] YN(g)=∫0 π/2 sinN t exp(-|a*b*+g|2 sin2t /2) dt g ~ N次元の標準正規分布 2015/10/1 Algebraic Geometry of Learning Machines 31 4. From the Statistical Point of View 漸近展開 |a*| |b*|→∞ のとき λ(a*,b*) = N - (N-1)(N-3) / |a*|2 |b*|2, 2 μ(a*,b*) = - N + (N-1) / |a*|2 |b* |2. N : b の次元 (N-1)(N-3), (N-1)2 : 特異点の指標? 2015/10/1 Algebraic Geometry of Learning Machines 32 4. From the Statistical Point of View 対応する正則モデル 真: q(y|x) = 同じ 学習者: p(y|x,b) = N 1 1 2 exp[ (y – a∑ bj ej(x) ) 2 2π j=1 G(n) = N/2n +o(1/n) ] 真の場所に依存しない T(n) = - N/2n +o(1/n) 2015/10/1 Algebraic Geometry of Learning Machines 33 5. Conclusion 結論 (1) 学習理論と特異点 数学的な方法 (2) 統計的推測における特異点の影響 統計学的な意味 2015/10/1 Algebraic Geometry of Learning Machines 34
© Copyright 2024 ExpyDoc