PowerPoint プレゼンテーション

学習理論と代数幾何
東京工業大学
渡辺澄夫
2015/10/1
Algebraic Geometry of Learning
Machines
1
1. Introduction
学習理論とは
q(x) …
q(x) ?
学習者
X1, X2, …, Xn
2015/10/1
Algebraic Geometry of Learning
Machines
2
1. Introduction
真の分布 と 学習モデル
真の分布
p(x|w*)
si
wij*
sj
推測
y: 隠れ部分
x: 見える
例
学習者
si
wij
p(x|w)
sj
x: 見える
y: 隠れ部分
w → p( |w) が1対1でない ・・・特定不能
2015/10/1
Algebraic Geometry of Learning
Machines
3
1. Introduction
事後分布と特異点
D(w*||w) = ∫p(x|w*) log
p(x|w*)
dx
p(x|w)
カルバック情報量
D(w*||w) =0
: 解析的集合
W
特異点
事後分布も最尤推定量の分布も正規分布には漸近しません。
2015/10/1
Algebraic Geometry of Learning
Machines
4
1. Introduction
特異モデルの性質
W=Rd: パラメータ全体の集合
W/~
同値関係
w1~w2⇔「p(x|w1)= p(x|w2) (∀x)」
W/~ は特異点を持つ集合
2015/10/1
Algebraic Geometry of Learning
Machines
5
1. Introduction
統計的正則モデルと特異モデル
正則モデル
正規分布
指数分布
多項式回帰
特異モデル
隠れマルコフモデル
神経回路網
混合正規分布
ベイズネットワーク
縮小ランク回帰
ボルツマンマシン
隠れた部分がある学習モデルは特異モデルになる
2015/10/1
Algebraic Geometry of Learning
Machines
6
1. Introduction
なぜ特異モデルが必要か
1.データから構造を取り出したい
2.潜在(隠れ)変数を使いたい
3.未知の分布を効率よく近似したい
2015/10/1
Algebraic Geometry of Learning
Machines
7
2. Main Result
記号
確率変数 X
分布 q(x)=p(x|w*)
Dn = { X1, X2, …, Xn } 独立
モデル p(x|w) , 事前 φ(w)
f(x,w) = log q(x) – log p(x|w)
K(w) = EX[ f(X,w) ]
2015/10/1
カルバック情報量
Algebraic Geometry of Learning
Machines
8
2. Main Result
条件
(1) W∋w → f( ,w)∈ L2(q) : 解析関数
L2(q)
={g ;∫|g(x)| q(x)dx <∞}
2
(a1(w)>0,…, aL(w)>0)
a0(w)
(2) φ(w) =
0
2015/10/1
解析関数
C1関数
コンパクト
サポート
(それ以外)
Algebraic Geometry of Learning
Machines
9
2. Main Result
ベイズ統計
n
対数尤度比
Hn(w) = ∑ f(xi,w)
i=1
1
事後分布 p(w|Dn) dw =
Z (Dn)
予測分布
2015/10/1
e
-Hn(w)
φ(w) dw
p(x|Dn) = ∫p(x|w) p(w|Dn) dw
Algebraic Geometry of Learning
Machines
10
2. Main Result
周辺尤度と汎化誤差
周辺尤度
Z (Dn) = ∫e
平均対数周辺尤度
汎化誤差
-Hn(w)
φ(w) dw
F(n) = E[ - log Z(Dn) ]
G(n) = E[ ∫q(x) log
q(x)
dx
p(x|Dn)
]
G(n) = F(n+1) – F(n)
2015/10/1
Algebraic Geometry of Learning
Machines
11
2. Main Result
主定理
Im(z)
ゼータ関数 ζ(z) = ∫K(w) φ(w) dw
z
-λ
Re(z)>0 では正則関数
有理型関数として全複素平面に解析接続できる
Re(z)
(-λ): ζ(z) の一番大きな極、m:位数
法則
収束
nλ
Z(Dn) (log n) m-1
n→∞
Z*
Cf.E[Z*] = ∞
2015/10/1
Algebraic Geometry of Learning
Machines
12
2. Main Result
系:対数周辺尤度
確率的複雑さ
n
- log ∫Π p(Xi|w) φ(w) dw
モデルの
複雑さ
i=1
n
= - Σ log q(Xi) + λlog n – (m-1)loglog n - log Z*
i=1
½
n ±n
log n
loglog n
定数
E[ log Z* ] < ∞
2015/10/1
Algebraic Geometry of Learning
Machines
13
2. Main Result
系:汎化誤差
G(n) = λ/ n + o(λ/n)
汎化誤差
真の分布
から
学習結果
までの距離
学習例数
2015/10/1
Algebraic Geometry of Learning
Machines
14
3. Proof
対数尤度比のふるまい
対数尤度比
カルバック情報量
Hn(w) = n K (w) + {nK(w)}
σn(w) =
1 n
Σ
n i=1
1/2
f(Xi,w) - K(w)
K(w)
1/2
σn(w)
?
→ σ(w)
各 w 毎に正規分布に収束
K(w)=0の特異点上で ill-defined
2015/10/1
Algebraic Geometry of Learning
Machines
15
3. Proof
特異点の問題
Z (Dn) = ∫ dwφ(w) e
-Hn(w)
= ∫φ(w) dw ∫dtδ(t-K(w))
= ∫φ(w) dw ∫
e
-nt -(nt)½σn(w)
t
dt
δ( n -K(w))
n
e
-t -t½σn(w)
①δ(K(w)) は定義されない
2015/10/1
Algebraic Geometry of Learning
Machines
②
ill-defined
16
3. Proof
広中(1964)
特異点解消定理
Atiyah(1970)
0
実解析関数 A(w)
A(g(u))= u1s1 u2s2 ・・・ udsd
正規交差点
W
W0
g
φ(w)
2015/10/1
実多様体
locally
プロパーな
実解析関数
U
U0
φ(g(u)) |g’(u)|
Algebraic Geometry of Learning
Machines
17
3. Proof
周辺尤度の分解
L
A(w)≡K(w) Π aj(w)
U
j=1
に特異点解消定理を適用
∫
Z (Dn) = Σ du ψ(u) e
Uα=[0,a]d
2015/10/1
-Hn(u)
Uα
= Σ ∫ψ (u) du ∫ δ(
Uα
U0
t
dt
n-K(u))ne
-t -t½σn(u)
Algebraic Geometry of Learning
Machines
18
3. Proof
座標 u の分離
u = (ua,ub)
K1(ua) = u12s1 u22s2 ・・・ um2sm
K(u) = K1(ua) K2(ub)
K2(ub) = um+12sm+1 ・・・ ud2sd
k
ψ1(ua) = u1 1 u2
ψ(u) = c(u)ψ1(ua)ψ2(ub)
s.t.
k1+1
2s1
ζ(z) の極
2015/10/1
=
k2
km
・・・ um
ψ2(ub) = um+1km+1 ・・・ udkd
k2+1
2s2
km+1
=・・・= 2s
m
km+1+1
<
2sm+1
=λ
Algebraic Geometry of Learning
Machines
19
3. Proof
δ(t-K(u)) の性質
任意のC1関数 S(u) (u∈[0,a]d ) について
I(t) = ∫δ(t – K(u))ψ(u) S(u) du
I0(t) = c0 t
補題
λ-1
(-log t)
m-1
|I(t)-I0(t)| ≦ t
∫K2(ub)-λ ψ2(ub) S(0, ub ) dub
λ-1
(-log t)
m-2
||S||
||S||={ max |S(u)| + Σmax |∂jS(u)| }
2015/10/1
Algebraic Geometry of Learning
Machines
20
3. Proof
L2(q)値解析関数のイデアル
補題
J
f(x,u) = Σ gj(u) hj(x,u)
j=1
L2(q)解析
解析関数
L2(q)解析
f(x,u)
(hj(u),hk(u))>I
= a(x,u) u1s1 ・・ udsd
K(u) = u12s1 u22s2 ・・・ ud2sd
= ∫{f(x,u)+e-f(x,u) -1} q(x) dx
2015/10/1
Algebraic Geometry of Learning
Machines
21
3. Proof
経験過程の法則収束
σn(u) =
1
n
Σ
a(Xi,u) - u1s1 ・・ udsd
n i=1
→ σ(u)
正規確率過程
※経験過程の法則収束
||f|| = ess. sup |f(u)|
u ∈U
σn(u) → σ(u)
2015/10/1
L∞(U) = { f(u) ; ||f(u)||<∞ }
定義
L∞(U)上の任意の有界連続関数
F について EDn[ F(σn)]→Eσ[F(σ)]
Algebraic Geometry of Learning
Machines
22
3. Proof
周辺尤度の法則収束
L∞(U)上のσの連続関数
Σ∫dt c0 tλ-1 (-log t)m-1
nλ Z (Dn)
(log n)
×∫dub K2(ub) ψ2(ub) e
-λ
m-1
n →∞
-t -t½σ(ub)
Uα
証明終
2015/10/1
Algebraic Geometry of Learning
Machines
23
4. From the Statistical Point of View
統計的推測と特異点
1.特異点を扱うための数理
2次形式
テーラー展開
中心極限定理
特異点解消定理
イデアル有限生成
経験過程
2.特異点が統計的推測に及ぼす影響
最尤法、MAP法
特異点と真の分布が一致しない場合
2015/10/1
Algebraic Geometry of Learning
Machines
24
4. From the Statistical Point of View
学習係数λ
(1) det I(w*)>0, φ(w)>0ならば
λ=d/2
(d: wの次元)
(2) det I(w*)=0,φ(w)>0 ならば
λ<< d/2
(3) φ(w): ジェフリーズならば
λ≧ d/2
パラメータ空間
2015/10/1
Algebraic Geometry of Learning
Machines
25
4. From the Statistical Point of View
具体的なモデルについて
ブローアップ ⇒ ζ(z) の極 ⇒ λの上限値
神経回路網 (Watanabe,2001)
混合正規分布 (Yamazaki&Watanabe,2002)
ベイズネットワーク (Rusakov&Geiger,2002)
縮小ランク回帰 (Watanabe&Watanabe,2002)
2015/10/1
Algebraic Geometry of Learning
Machines
26
4. From the Statistical Point of View
真の分布がモデルの外?にあるとき
真の分布
パラメータ空間
2015/10/1
小さい
G(n) モデル
大きな
モデル
n:学習例数
Algebraic Geometry of Learning
Machines
27
4. From the Statistical Point of View
モデルが変化する場所
G(n)
ここでは何が起こっているか?
n:学習例数
2015/10/1
Algebraic Geometry of Learning
Machines
28
4. From the Statistical Point of View
相転移点の解析
エネルギー 対 エントロピー
関数近似誤差 対 統計的推測誤差
D (特異点|| 真の分布) = c/n
モデルの選択・検定
2015/10/1
Algebraic Geometry of Learning
Machines
29
真
4. From the Statistical Point of View
具体例
a=0
b=0
特異点 : {(a,b):a=0 or b=0}
Kullback = |a*|2|b*|2/n
真: q(y|x) =
1
2π
1
1
exp[ (y –
n
2
N
a* ∑ bj* ej(x) )
2
j=1
]
N
x ∈R , y ∈R1
N
a ∈R1 , b ∈R
学習者: p(y|x,a,b) =
2015/10/1
例題
推測
N
1
2
exp[ (y – a∑ bj ej(x) )
j=1
2
2π
1
Algebraic Geometry of Learning
Machines
]
30
4. From the Statistical Point of View
汎化誤差と学習誤差
G(n) = λ/ 2n + o(1/n) ,
T(n) = μ/ 2n + o(1/n) ,
ここで
λ= 1 + Eg[ (a*2 b*2+a*b*・g)YN(g)/YN-2(g)]
μ = λ–2N+ Eg[ (2a* b*・g+2g2) YN(g)/YN-2(g)]
YN(g)=∫0
π/2
sinN t exp(-|a*b*+g|2 sin2t /2) dt
g ~ N次元の標準正規分布
2015/10/1
Algebraic Geometry of Learning
Machines
31
4. From the Statistical Point of View
漸近展開
|a*| |b*|→∞ のとき
λ(a*,b*) = N - (N-1)(N-3) / |a*|2 |b*|2,
2
μ(a*,b*) = - N + (N-1) / |a*|2 |b* |2.
N : b の次元
(N-1)(N-3), (N-1)2 : 特異点の指標?
2015/10/1
Algebraic Geometry of Learning
Machines
32
4. From the Statistical Point of View
対応する正則モデル
真: q(y|x) = 同じ
学習者: p(y|x,b) =
N
1
1
2
exp[ (y – a∑ bj ej(x) )
2
2π
j=1
G(n) = N/2n +o(1/n)
]
真の場所に依存しない
T(n) = - N/2n +o(1/n)
2015/10/1
Algebraic Geometry of Learning
Machines
33
5. Conclusion
結論
(1) 学習理論と特異点
数学的な方法
(2) 統計的推測における特異点の影響
統計学的な意味
2015/10/1
Algebraic Geometry of Learning
Machines
34