スライド タイトルなし - Watanabe Lab.

先生
Y=8,6,2…
でしょう
q(y|x)
…
学習者
文字の例
q(x) … x3 x2 x1
p(y|x,w)
複雑な学習モデルと代数幾何の関係について
Wをどう
しよう?
渡辺澄夫
複雑な学習モデル
x
y
x
y
p(y|x,w)
学習し
推論する
学習モデル ⇔ 確率的複雑さ
外から見えない部分が
あると,何が起こる?
(1) 何がわかるか
(2) どうやって計算するか
(3) 何の役にたつか
学習理論の目的は…
実用
逆問題
先生:不明
⇒
例 (x1,y1) (x2,y2) … (xn,yn)
◎ 先生は何だろう
◎ 予測をあてたい
必要
理論
順問題
先生:q(y|x):分かっている
⇒ 例 (x1,y1) (x2,y2) … (xn,yn)
◎ 学習者 p(y|x,w) は,どれくらい先生に近い?
第1話 「確率的複雑さ」とは何だろう
入力
q(x) ⇒ x1, x2, …, xn
先生
q(y|x) ⇒ y1, y2, …, yn
学習モデル
例
p(y|x,w):学習モデル φ(w) :事前分布
学習の結果
得られる
Wの分布
n
p(w|例) ∝ Π p( yi | xi , w) φ (w)
i=1
新しい x に
対する
予測 y は
p(y|x, 例) = ∫ p(y|x,w) p(w|例) dw
推論 q(y|x) と p(y|x) の距離
K( q || p ) =∫
∫
(Kullback 情報量)
q(y|x)
q(y|x) log --------- q(x) dxdy
p(y|x)
順問題の目標 - 学習曲線を解明せよ
学習曲線
汎化誤差
K(n) ≡ E { K ( q || p(y|x, 例) ) }
K(n)
例の現れ方の平均を表す
先生から 「例を元に学習した人」 までの距離 K(n) が
例の数 n が多くなるとき、どのように小さくなってゆくか?
n
経験
距離
距離
q(yi | xi)
1 n
Hn (w) ≡ ---- ∑ log -------------n i=1
p(yi | xi, w)
W を固定したときの
H(w) ≡ K ( q || p(y|x,w) )
確率的複雑さ
F(例) ≡ - log Z(例)
Z(例)=
∫
カルバック距離
確率的複雑さ=Z(例)のオーダー
ベイズ因子(統計)
自由エネルギー(物理)
exp ( - n Hn (w) ) φ(w) dw
F(n) = E { F(例) }
先生から学習者
までの距離を
例を使って測ったもの
おおよそ正しい
パラメータの体積
証拠,分配関数
注意:p(w|例) ∝ exp( -n Hn(w)) φ(w)
定理(Levin, Tishby, Solla, 1990 ; Amari, Murata 1993)
K(n) = F(n+1) - F(n)
◎ 学習曲線は、確率的複雑さの増加分に等しい
順問題を解くためには,確率的複雑さを計算すればよい
◎ 確率的複雑さはパラメータ空間の幾何学と
緊密な関係がある(体積だから)
◎ 学習者が先生を含んでいなければ
F(n) = n C
(C = minw H(w))
◎ 正則な統計モデルでは,学習者が先生を含んでいれば
F(n) = (d/2) log n
K(n) = d/(2n)
(d:パラメータ数)
第2話 確率的複雑さと代数幾何
確率的
複雑さ
学習者は
先生を
含んで
いない
F(例)
関数近似の
問題
学習者は
おおよそ
先生を
含んでいる
学習者は
先生を
含んでいる
?
?
?
モデルの複雑さ
?
を考える
学習モデルが作る空間
大きい
モデル
学習モデル
出力 Y
パ
ラ
メ
|
タ
w
入力 X
中間
のモデル
C
B
A
パラメータ空間 W
小さい
モデル
学習者のパラメータの分布
p(w|例) ∝ exp( -n Hn(w)) φ(w)
H(w) = 0
先生の
パラメータ
学習者
W
◎ 学習者から見ると,「先生」は,特異点を持つ
解析的集合のように見える.どうしよう?
学習理論
情報理論
exp(- nH(w))
実世界
統計学
統計物理
Applied Math.
Pure Math.
δ( t -H(w))
H(w)
z
超関数の
漸近展開
Gel’fand
超関数
b-関数
Sato
解析接続
代数解析
Bernstein
Atiyah
Kashiwara
特異点
解消 Hironaka
Oaku
計算機
代数
代数幾何
広中の定理 (1964)
Fields Medal
実数
局所的に
H(g(u))
H(w)
= a(u) u1
2k1
u2
2k2
…ud
2kd
g
特異的で
ないものが
交わって
いるだけ
パラメータの集合 W
先生のパラメータは
こんがらがった特異点を持っている
別のパラメータ空間 U
例:超関数の展開
∫
(k)
Ψ (0)
x ψ(x) dx = Σ ---------------0
k=0 k! (2z+k+1)
1
2z
定義
k
(k)
(-1)
δ
(x)
2z
x = Σ -------------------k=0 2・k! (z+(k+1)/2)
z
∫( ) t dt
2
k
(-1)(k)
δ(t-x ) = Σ ---- δ (x) t
k=0 2・k!
(k-1)/2
Uの空間では,特異点は解消されている:
H(g(u)) = a(u) u1
2k1
u2
2k2
…ud
J(z) = ∫ H(g(u)) |g’(u)| ψ(u) du
z
2kd
学習モデルの
ゼータ関数
任意のψ(u)について
有理型関数(極は負の有理数)
極を (- λ),位数を m とすると,
Dλm(u)
H(g(u)) |g’(u)| = Σ Σ -------------m
(z+λ)
z
先生に
サポートを
持つ超関数
Dλm(u)
H(g(u)) |g’(u)| = Σ Σ -------------m
(z+λ)
z
逆Mellin 変換
Mellin変換:
z
(Mf)( z)=∫f(t) t dt
δ(t-H(g(u))) |g’(u)| = Σ Σ tλ-1(-log t)m-1 Dλm(u)
カルバック情報量→0のときの
パラメータの様子が表現されている
確率的複雑さは…
Z(例) =
∫ exp[- nHn(g(u))] φ(u) |g’(u)| du
=
∫ exp[-nH(g(u))] exp[ (nH(w))1/2 Gn(u) ] φ(u) |g’(u)| du
=
∫ ∫ δ(t - nH(g(u))) exp[- t +t
代入
1/2
Gn(u) ] φ(u) |g’(u)| du dt
先生の上の正規確率過程
G(u) に弱収束
(Empirical Process)
m-1
(log n)
Z(例) ⇒Σ Σ ----------Z
(G
)
λm
n
λ
n
確率
変数
に
収束
定理
F(n) = λlog n - (m-1) log log n + Const.
m-1
λ
K(n) = ----- - -------n log n
n
◎ 隠れた部分を持つ学習モデルについて初めて解明された
z
◎ λ,m はゼータ J(z) = ∫H(w) φ(w)dw の極と位数
◎ ブローアップする毎に,λの上限が得られる
◎ φ(w) が先生の上で正値なら 0< λ << d/2
◎ φ(w) ∝ [det I(w)]1/2 : Jeffreys 事前分布なら
λ≧ d/2
(三層NNのときλ= d/2 )
第3話 確率的複雑さは何の役にたつか?
(1) 複雑なモデルの学習曲線の解明
先生
C
B
A
特異点は複雑なモデルが
実世界上で生きて行く上で役立つ
確率的
複雑さ
A
B
C
例数
学習曲線
A
B
C
例数
(2)ハイパーパラメータの最適化
事前分布: φ(w| θ)
F(例 | θ) ≡ - log
∫exp ( - n Hn (w) ) φ(w| θ) dw
これはθの(-対数尤度)
⇒ F(例 | θ)の最小化によってθを決める (Type II ML)
◎ 予測精度向上に役立つ
中間ユニットは,ほぼ1次従属の状態になる。
◎ モデル選択も,同じ枠組み(モデルがθ )
(3) モデル選択
平均汎化誤差
確率的複雑さ
最尤推定
Jeffreys
Jeffreys
一様
一様
モデルの複雑さ
モデルの複雑さ
先生が含まれているときは
Jeffreys によって,先生が見つかる
確率的複雑さの増加分が
予測誤差と対応する
まとめ
隠れた部分を持つ学習モデルは 特定不能である
パラメータ空間は,特異な計量を持つ
(1) 確率的複雑さ - 学習を測る道具
(2) 学習 - 代数幾何と関係がある
(3) 複雑モデル+ベイズ - 応用上 有効である
問題
確率的複雑さの揺らぎ - 経験確率過程論
温度0極限 - 最尤、MAP