PowerPoint プレゼンテーション

ニューラルネットの
学習理論への入門
渡辺澄夫
東京工業大学
http://watanabe-www.pi.titech.ac.jp
2015/10/1
Mathematical Learning Theory
1
I. 学習モデルの例
階層的な構造を持つモデルたち
2015/10/1
Mathematical Learning Theory
2
ニューラルネット
tanh x
x
K
f(x,w) = Σ a k tanh(bk・x+ck)
k=1
w = (ak , bk ,ck)
p(y|x,w) ∝exp[ 2015/10/1
1
2
2
(y-f(x,w)) ]
Mathematical Learning Theory
3
3層ネット
y
ak
ck
bk
Radial Basis
Functions
なども同種
x
2015/10/1
Mathematical Learning Theory
4
混合正規分布
K
p(x|w) = ∑ ak
k=1
1
(2πσk)
N/2
exp( -
|| x – bk ||2
2σk
2
)
K
w = (ak , bk ,σk)
∑ ak = 1
k=1
2
平均 bk ,分散σk の
正規分布
2015/10/1
Mathematical Learning Theory
5
競合モデル
p(x|w)
ak
σk
bk
x1 x2 x3
2015/10/1
xN
Mathematical Learning Theory
6
ボルツマンマシン
si
wij
sj
Input
p(x|w) =
Hidden
1
∑ exp( - ∑ wij si sj )
Z(w)
(i,j)
Hidden
2015/10/1
Mathematical Learning Theory
7
II. 正則モデルと特異モデル
ニューラルネットでは普通の統計理論は成り立ちません
2015/10/1
Mathematical Learning Theory
8
学習とは
学習モデル p(y|x,w)
真の推論 q(y|x)
学習
不明な関係
2015/10/1
Mathematical Learning Theory
9
構造の発見とは
真の推論 q(y|x)が
構造を持つ場合
学習モデル p(y|x,w)
特定
2015/10/1
Mathematical Learning Theory
10
特定可能性
学習モデル p(x|w) が 特定可能 とは
p(x|w1) = p(x|w2) (∀x) ⇒ w1=w2
階層構造をもつモデルは特定可能ではない
例1
例2
∑ ak xk = 0 ⇔ ak = 0 (∀k)
a tanh (bx+c) = 0 ⇔ {a=0}∪{b=c=0}
2015/10/1
Mathematical Learning Theory
11
統計的正則モデル
p(x|w) w∈W⊂Rd が統計的正則であるとは
(a) p(x|w) は特定可能
(b) {∂wj log p(x|w) } は常に一次独立
接空間
W:統計多様体
2015/10/1
Mathematical Learning Theory
12
特異モデル
p(x|w) w∈Rd が特異モデルであるとは
log p(x|w) は w について適当な回数まで
微分可能であるが、特定可能ではない
違うパラメータで
同じ分布になる
2015/10/1
Mathematical Learning Theory
13
特異構造
W={w} パラメータ全体の集合
w1~w2 ⇔ “p(x|w1) = p(x|w2) (∀x)”
商集合 W/~ は多様体にはならない
同値類 { w ; p(x|w)=p(x|w0)} は特異点を含む
2015/10/1
Mathematical Learning Theory
14
III. 最尤法とベイズ法
二乗誤差を最小にするパラメータを探してもだめです
2015/10/1
Mathematical Learning Theory
15
学習の枠組み
未知の情報源
q(x)
学習システム
データ
X1, X2 ,…, Xn
p(x|w)
学習結果
p( x )
どのくらい似ているか?
2015/10/1
Mathematical Learning Theory
16
最尤推定法
データ: x1, x2, x3, …,xn
真の分布 q(x) からの独立なサンプル
学習モデル p( x | w )
n
w* = argmax Π p( Xi | w)
i=1
学習結果 p( x | w* )
2015/10/1
Mathematical Learning Theory
17
ベイズ推定法
データ: Dn = (x1, x2, x3, …,xn )
事前確率 φ(w)
事後確率
n
1
p(w| Dn ) =
φ(w)Π p( Xi | w)
Z
i=1
学習結果
p(x| Dn ) = ∫p(x|w) p(w| Dn ) dw
∫φ(w)
p(xn+1| Dn ) =
2015/10/1
∫φ(w)
n+1
Π p( Xi | w) dw
i=1
n
Π p( Xi | w) dw
i=1
Mathematical Learning Theory
18
汎化誤差
真の分布 q(x)
G(n)
学習曲線
n
学習結果 p(x) : p(x|w*) または p(x|Dn)
[
∫q(x) { log q(x) -log p(x) } dx ]
D
G(n) = E
n
最尤法
ベイズ法
統計的正則モデル
d/2n
d/2n
階層モデル
未解決
λ/2n
d: パラメータの次元
2015/10/1
Mathematical Learning Theory
19
学習法の比較
◎ 最尤法は、工学者にとって、わかりやすいが
構造発見にも予測精度向上にも適さない
どのくらい適さないか、研究されつつある
◎ 構造を持つモデルの学習にはベイズ法が適するが
実現法や理論が、工学ではあまり知られていない
ベイズ法の技法
ベイズ法の理論
2015/10/1
Mathematical Learning Theory
20
IV. ベイズ法の技法
ベイズ法を計算機で実現する技法はたくさん研究されています
2015/10/1
Mathematical Learning Theory
21
ベイズ法の実現
学習結果=予測分布
p(x| Dn ) = ∫p(x|w) p(w| Dn ) dw =
1 K
∑ p(x|wk)
K k=1
積分をどのようにして(近似計算するか)
◎ p(w| Dn )の正規近似はできない
◎ MCMC法
◎ 近似法が、どの程度正しいかを知る手段が重要
2015/10/1
Mathematical Learning Theory
22
MCMC法
n
L(w) = ーlog{φ(w)Π p( Xi | w) }
i=1
K
1
p(w| Dn ) = Z exp( -L(w)) → { wk }
k=1
メトロポリス法
◎w→w’
◎確率 max{ 1, exp(-L(w’)+L(w)) } でw’に移動
2015/10/1
Mathematical Learning Theory
23
ベイズ法の最適化
確率的複雑さ
n
F = -log P(p,φ| Dn ) = ーlog∫φ(w)Π p( Xi | w) dw
i=1
確率的
複雑さ
真実の発見
2015/10/1
(モデル,事前分布)
Mathematical Learning Theory
24
確率的複雑さ
F(t) = ーlog∫exp( -tL(w) ) dw
F(1) =
=
∫
∫
1
F(t)’
dt
0
1
<L(w)>t dt
0
< >t :exp(-tL(w)) による平均
2015/10/1
Mathematical Learning Theory
25
V. ベイズ法の理論
ベイズ法の理論は美しい数学的な背景を持っています
2015/10/1
Mathematical Learning Theory
26
汎化誤差と確率的複雑さ
汎化誤差(平均を取っていない)
G(Xn+1, Dn ) = log q(Xn+1) - log p(Xn+1 | Dn )
確率的複雑さ
n
F( Dn ) = ーlog∫φ(w)Π p( Xi | w) dw
i=1
2015/10/1
Mathematical Learning Theory
27
ベイズ法の基本定理
定理
G(Xn+1, Dn ) = F( Dn+1 ) – F( Dn ) – S( Xn+1 )
S( Xn+1 ) = -log q(Xn+1 )
証明
∫φ(w)
G(Xn+1, Dn ) = log q(Xn+1) - log
2015/10/1
∫φ(w)
n+1
Π p( Xi | w) dw
i=1
n
Π p( Xi | w) dw
Mathematical Learning Theory
i=1
28
基本定理の意味
定理
G(Xn+1, Dn ) = F( Dn+1 ) – F( Dn ) – S( Xn+1 )
S( Xn+1 ) = -log q(Xn+1 )
◎ S( Xn+1 ) は、真の分布のみに依存する
◎ 予測誤差の大小=確率的複雑さの増分の大小
2015/10/1
Mathematical Learning Theory
29
漸近理論
定理
n →∞で、次が成り立つ ( F*はある確率変数)
n
F( Dn )= ΣS(Xi)+λlog n –(m-1)loglog n + F*
i=1
λとmはゼータ関数の最大の極
z
ζ(z) = ∫K(w) φ(w)dw
K(w) =
-λ
Im(z)
Re(z)
∫q(x)[ log q(x) – log p(x|w) ]dx
2015/10/1
Mathematical Learning Theory
30
特異点解消定理
0
∞
k
k
K(g(u))=a(u) u1 1 u2 2 ・・・ ud
K(w)
kd
U
W
g
2015/10/1
Mathematical Learning Theory
31
漸近理論からわかること
汎化誤差
G( Dn )= λ/n –(m-1)/(nlog n) + G*(n)
平均を取れば1/n より小だが
平均を取らなければ1/nより大
確率的複雑さ
n
F( Dn )= ΣS(Xi)+λlog n –(m-1)loglog n + F*
i=1
n が増えるについて真実が見えてくる
2015/10/1
Mathematical Learning Theory
32
真と特異点がずれると?
Research with S.Amari
λ
d/2
モデルに依存する
複雑なモデルほど↓
真の特異点からのずれ
2015/10/1
Mathematical Learning Theory
33
まとめ
I. 学習モデルの例
II. 正則モデルと特異モデル
III. 最尤法とベイズ法
IV. ベイズ法の技法
V. ベイズ法の理論
2015/10/1
Mathematical Learning Theory
34