IBIS2001 確率的複雑さ と 経験過程 の関係について 東京工業大学 渡辺澄夫 8, 6, 2, … q(y|x) … q(x)…x3 x2 x1 p(y|x,w) 入出力から 隠れた所は ・・・秘 密! X1, X2, …, Xn 例 ~ q(x) : 真の分布 p(x|w) : 学習モデル (w ∈ W : コンパクト) カルバック距離 H(w) =∫ q(x) log q(x) dx p(x|w) 経験距離 n q(Xi ) 1 Hn(w) = Σ log p( Xi | w) n i=1 ギブス推測とベイズ推測 事前分布 事後分布 p(w|Xn) = 1 Z exp( - n Hn(w)) φ(w) ベイズ推測 p(x|Xn) = ∫ p(x|w) p(w|Xn) dw ギブス推測 p(x|w), w ~ p(w|Xn) 汎化誤差 dw = Φ(w)dw ベイズ推測 Gbayes (n) = Exn [ ∫q(x) log q(x) p(x|Xn)dx ] = - Exn+1 [ log ∫exp ( -(n+1)Hn+1(w) ) dw ∫exp (-nHn(w)) dw ギブス推測 Ggibbs (n) = Exn Ew [ ∫q(x) log = q(x) p(x|w) dx ∫H(w) exp (-nHn(w)) dw Exn [ ∫exp (-nHn(w)) dw ] ] ] ギブス,ベイズ推測における数学的問題 n →∞ の exp( - n Hn(w) ) φ(w) を解明せよ 超関数として漸近展開せよ 特異点の構造 exp( - n H(w) ) 確率的なゆらぎ H(w) - Hn(w) 特異点解消定理 正の実数 0 カルバック情報量 H(w) k1 k2 H(g(u)) = a(u) u1 u2 … ud kd 特異点解消 g(u) パラメータ空間 W φ(w) 実多様体 U φ(u) = φ(g(u)) g’(u) 正規交差特異点 (0,1]d 上で 2s1 H(w) = a(w) w1 2s2 w2 … 2sd wd k1 k2 w 1 w2 … φ(w) = b(w) Hn(w)-H(w) ζn (w) = √ nH(w) 経験過程 kd wd 1 n = Σ r(Xi,w) √n i=1 正規交差特異点では 特異点上に解析的に拡張できる カルバック情報量 n Hn(w) = n H(w) + {nH(w)}1/2 ζn (w) 統計的推測と特異点解消の関係 x=u y = uv ζ(u,v) = a + bv 1 + v2 v ζ(x,y) = ax + by x2 + y2 O u y x = st y=s ζ(s,t) = at + b t2 + 1 s O x O t 経験過程 ζn (w) = 1 n Σ r(Xi,w) √n i=1 W上の正規確率過程 ζ(w) = 平均0, 共分散 ∫r(x,w)r(x,w’) q(x) dx { r(x,w) ;w∈W} が q-Donsker lim Exn { F(ζn)} = E ζ{F(ζ)} n →∞ W がコンパクト, log p(x|w) が w について解析的なら lim Exn { supw |ζn(w)|k} = E ζ{supw |ζ(w)|k} n →∞ 超関数の漸近展開 exp( - n H(w) ) φ(w) n →∞ (log n)m-1 D(w) nλ Laplace Transf tλ-1(-log t)m-1 D(w) δ( t – H(w) ) φ(w) t → 0 Mellin Transf d z H(w) φ(w) 極 超関数値ゼータ関数 Π j=1 sj z +kj wj = D(w) (z+λ)m 事後分布は,どうなってゆくか? exp( - n Hn(w) ) φ(w) = exp[ - n H(w) - {nH(w)}1/2 ζn (w) ] φ(w) dt ー nδ( =∫ ー ∫ ー = Σ dt k,m = Σ t -nH(w)) tλ-1 (-log nλ ー φ(w) exp( - t - t1/2 ζn (w) ) t )nm-1 Dkm(w) exp( - t - t1/2 ζn (w)) ( n により小さくなる項) ×(確率的に揺らぐ項) 経験過程の性質 特異点の性質 ベイズ推測の汎化誤差 ∫exp (-nHn(w)) φ(w) dw = Σ∫dtdw tλ-1 ー (-log nλ t m-1 ー n) Dkm(w) exp( - t - t1/2ζn (w)) 分子 n+1 分母 n を代入して Gbayes (n) = - Exn [ ∫exp ( -(n+1)Hn+1(w) ) dw log ∫exp (-nHn(w)) dw = λ{ log (n+1) – log n } + small order = λ ー n + 1 o(ー) n ] ギブス推測の汎化誤差 ∫H(w) exp (-nHn(w)) φ(w) dw = Σ∫dt dw ー tλ (-log nλ tm-1 ー)n Dkm(w) exp( - t - t1/2 ζn (w)) 分母 λ 分子λ-1 を代入して Ggibbs (n) = Exn [ = λ* ー n + ∫H(w) exp (-nHn(w)) dw ∫exp (-nHn(w)) dw 1 o(ー) n λ< λ* ] t について 部分積分 定理 学習モデルのゼータ関数 J(z) = ∫ H(w) φ(w) dw z の最も原点に近い極を (-λ) とすると λ 1 Gbayes (n) = ー + o(ー) n n λ* 1 Ggibbs (n) = ー + o(ー) n n ここでλ< λ*, λ* は経験過程のある関数の平均 特異モデルの研究展開 ★ ★ ★ ★ モデルが真を 含まない場合 G(n) n 具体的モデル MLP ★ Guass Mixture の解明 山崎 in this issue V(t) = c tλ λは体積次元 モデル選択 Jeffreys’ Prioir Neural Networks, to appear. G(K) Jeffreys Uniform 西上 in this issue K G(n)≦ λ1(M,N,H) / n IEEE NN, to appear G(n)≦ λ2(M,H) / n 山崎 JNNS, to appear リーマン ゼータ関数 学習モデル ゼータ関数 レプリカ法 ゼータ関数 ∞ 1 ζ(z) = Σ ー z n=1 n J(z) = Random Matrices Wigner’s Semi-circle ∫H(w) φ(dw) z Algebraic geometry Algebraic analysis f(α) = Exn [ α n Z(X ) ] ???
© Copyright 2025 ExpyDoc