PowerPoint プレゼンテーション

IBIS2001
確率的複雑さ と 経験過程 の関係について
東京工業大学
渡辺澄夫
8,
6,
2,
…
q(y|x)
…
q(x)…x3 x2 x1
p(y|x,w)
入出力から
隠れた所は
・・・秘
密!
X1, X2, …, Xn 例 ~ q(x) : 真の分布
p(x|w) : 学習モデル (w ∈ W : コンパクト)
カルバック距離
H(w) =∫ q(x) log
q(x) dx
p(x|w)
経験距離
n
q(Xi )
1
Hn(w) =
Σ log
p( Xi | w)
n i=1
ギブス推測とベイズ推測
事前分布
事後分布
p(w|Xn)
=
1
Z
exp( - n Hn(w)) φ(w)
ベイズ推測
p(x|Xn) = ∫ p(x|w) p(w|Xn) dw
ギブス推測
p(x|w),
w ~ p(w|Xn)
汎化誤差
dw = Φ(w)dw
ベイズ推測
Gbayes (n) = Exn [ ∫q(x) log
q(x)
p(x|Xn)dx
]
= - Exn+1 [ log ∫exp ( -(n+1)Hn+1(w) ) dw
∫exp (-nHn(w)) dw
ギブス推測
Ggibbs (n) = Exn Ew [ ∫q(x) log
=
q(x)
p(x|w) dx
∫H(w) exp (-nHn(w)) dw
Exn [
∫exp (-nHn(w)) dw
]
]
]
ギブス,ベイズ推測における数学的問題
n →∞ の exp( - n Hn(w) ) φ(w) を解明せよ
超関数として漸近展開せよ
特異点の構造
exp( - n H(w) )
確率的なゆらぎ
H(w) - Hn(w)
特異点解消定理
正の実数
0
カルバック情報量
H(w)
k1
k2
H(g(u)) = a(u) u1 u2 … ud
kd
特異点解消
g(u)
パラメータ空間 W
φ(w)
実多様体 U
φ(u) = φ(g(u)) g’(u)
正規交差特異点
(0,1]d 上で
2s1
H(w) = a(w) w1
2s2
w2
…
2sd
wd
k1
k2
w 1 w2 …
φ(w) = b(w)
Hn(w)-H(w)
ζn (w) =
√ nH(w)
経験過程
kd
wd
1 n
=
Σ r(Xi,w)
√n i=1
正規交差特異点では
特異点上に解析的に拡張できる
カルバック情報量
n Hn(w) = n H(w) + {nH(w)}1/2 ζn (w)
統計的推測と特異点解消の関係
x=u
y = uv
ζ(u,v) =
a + bv
1 + v2
v
ζ(x,y) =
ax + by
x2 + y2
O
u
y
x = st
y=s
ζ(s,t) =
at + b
t2 + 1
s
O
x
O
t
経験過程
ζn (w) =
1 n
Σ r(Xi,w)
√n i=1
W上の正規確率過程
ζ(w) = 平均0,
共分散 ∫r(x,w)r(x,w’) q(x) dx
{ r(x,w) ;w∈W} が q-Donsker
lim Exn { F(ζn)} = E ζ{F(ζ)}
n →∞
W がコンパクト, log p(x|w) が w について解析的なら
lim Exn { supw |ζn(w)|k} = E ζ{supw |ζ(w)|k}
n →∞
超関数の漸近展開
exp( - n H(w) ) φ(w) n →∞
(log n)m-1
D(w)
nλ
Laplace
Transf
tλ-1(-log t)m-1 D(w)
δ( t – H(w) ) φ(w) t → 0
Mellin
Transf
d
z
H(w) φ(w) 極
超関数値ゼータ関数
Π
j=1
sj z +kj
wj
=
D(w)
(z+λ)m
事後分布は,どうなってゆくか?
exp( - n Hn(w) ) φ(w)
= exp[ - n H(w) - {nH(w)}1/2 ζn (w) ] φ(w)
dt
ー nδ(
=∫
ー
∫ ー
= Σ dt
k,m
=
Σ
t
-nH(w))
tλ-1
(-log
nλ
ー
φ(w) exp( - t - t1/2 ζn (w) )
t
)nm-1
Dkm(w) exp( - t - t1/2 ζn (w))
( n により小さくなる項) ×(確率的に揺らぐ項)
経験過程の性質
特異点の性質
ベイズ推測の汎化誤差
∫exp (-nHn(w)) φ(w) dw
= Σ∫dtdw
tλ-1
ー (-log
nλ
t m-1
ー n)
Dkm(w) exp( - t - t1/2ζn (w))
分子 n+1
分母 n
を代入して
Gbayes (n) = - Exn [
∫exp ( -(n+1)Hn+1(w) ) dw
log
∫exp (-nHn(w)) dw
= λ{ log (n+1) – log n }
+ small order
=
λ
ー
n
+
1
o(ー)
n
]
ギブス推測の汎化誤差
∫H(w) exp (-nHn(w)) φ(w) dw
= Σ∫dt
dw ー
tλ
(-log
nλ
tm-1
ー)n Dkm(w)
exp( - t - t1/2 ζn (w))
分母 λ
分子λ-1
を代入して
Ggibbs (n) = Exn [
=
λ*
ー
n
+
∫H(w) exp (-nHn(w)) dw
∫exp (-nHn(w)) dw
1
o(ー)
n
λ< λ*
]
t について
部分積分
定理
学習モデルのゼータ関数
J(z)
=
∫ H(w) φ(w) dw
z
の最も原点に近い極を (-λ) とすると
λ
1
Gbayes (n) = ー + o(ー)
n
n
λ*
1
Ggibbs (n) = ー + o(ー)
n
n
ここでλ< λ*,
λ* は経験過程のある関数の平均
特異モデルの研究展開
★
★
★
★
モデルが真を
含まない場合
G(n)
n
具体的モデル
MLP
★ Guass Mixture
の解明
山崎 in this issue
V(t) = c tλ
λは体積次元
モデル選択
Jeffreys’ Prioir
Neural Networks,
to appear.
G(K)
Jeffreys
Uniform
西上 in this issue
K
G(n)≦ λ1(M,N,H) / n
IEEE NN, to appear
G(n)≦ λ2(M,H) / n
山崎 JNNS, to appear
リーマン
ゼータ関数
学習モデル
ゼータ関数
レプリカ法
ゼータ関数
∞
1
ζ(z) = Σ ー z
n=1 n
J(z)
=
Random
Matrices
Wigner’s
Semi-circle
∫H(w) φ(dw)
z
Algebraic geometry
Algebraic analysis
f(α) = Exn [
α
n
Z(X )
]
???