先生 Y=8,6,2… でしょう q(y|x) … 学習者 文字の例 q(x) … x3 x2 x1 p(y|x,w) 複雑な学習モデルと代数幾何の関係について Wをどう しよう? 渡辺澄夫 複雑な学習モデル x y x y p(y|x,w) 学習し 推論する 学習モデル ⇔ 確率的複雑さ 外から見えない部分が あると,何が起こる? (1) 何がわかるか (2) どうやって計算するか (3) 何の役にたつか 学習理論の目的は… 実用 逆問題 先生:不明 ⇒ 例 (x1,y1) (x2,y2) … (xn,yn) ◎ 先生は何だろう ◎ 予測をあてたい 必要 理論 順問題 先生:q(y|x):分かっている ⇒ 例 (x1,y1) (x2,y2) … (xn,yn) ◎ 学習者 p(y|x,w) は,どれくらい先生に近い? 第1話 「確率的複雑さ」とは何だろう 入力 q(x) ⇒ x1, x2, …, xn 先生 q(y|x) ⇒ y1, y2, …, yn 学習モデル 例 p(y|x,w):学習モデル φ(w) :事前分布 学習の結果 得られる Wの分布 n p(w|例) ∝ Π p( yi | xi , w) φ (w) i=1 新しい x に 対する 予測 y は p(y|x, 例) = ∫ p(y|x,w) p(w|例) dw 推論 q(y|x) と p(y|x) の距離 K( q || p ) =∫ ∫ (Kullback 情報量) q(y|x) q(y|x) log --------- q(x) dxdy p(y|x) 順問題の目標 - 学習曲線を解明せよ 学習曲線 汎化誤差 K(n) ≡ E { K ( q || p(y|x, 例) ) } K(n) 例の現れ方の平均を表す 先生から 「例を元に学習した人」 までの距離 K(n) が 例の数 n が多くなるとき、どのように小さくなってゆくか? n 経験 距離 距離 q(yi | xi) 1 n Hn (w) ≡ ---- ∑ log -------------n i=1 p(yi | xi, w) W を固定したときの H(w) ≡ K ( q || p(y|x,w) ) 確率的複雑さ F(例) ≡ - log Z(例) Z(例)= ∫ カルバック距離 確率的複雑さ=Z(例)のオーダー ベイズ因子(統計) 自由エネルギー(物理) exp ( - n Hn (w) ) φ(w) dw F(n) = E { F(例) } 先生から学習者 までの距離を 例を使って測ったもの おおよそ正しい パラメータの体積 証拠,分配関数 注意:p(w|例) ∝ exp( -n Hn(w)) φ(w) 定理(Levin, Tishby, Solla, 1990 ; Amari, Murata 1993) K(n) = F(n+1) - F(n) ◎ 学習曲線は、確率的複雑さの増加分に等しい 順問題を解くためには,確率的複雑さを計算すればよい ◎ 確率的複雑さはパラメータ空間の幾何学と 緊密な関係がある(体積だから) ◎ 学習者が先生を含んでいなければ F(n) = n C (C = minw H(w)) ◎ 正則な統計モデルでは,学習者が先生を含んでいれば F(n) = (d/2) log n K(n) = d/(2n) (d:パラメータ数) 第2話 確率的複雑さと代数幾何 確率的 複雑さ 学習者は 先生を 含んで いない F(例) 関数近似の 問題 学習者は おおよそ 先生を 含んでいる 学習者は 先生を 含んでいる ? ? ? モデルの複雑さ ? を考える 学習モデルが作る空間 大きい モデル 学習モデル 出力 Y パ ラ メ | タ w 入力 X 中間 のモデル C B A パラメータ空間 W 小さい モデル 学習者のパラメータの分布 p(w|例) ∝ exp( -n Hn(w)) φ(w) H(w) = 0 先生の パラメータ 学習者 W ◎ 学習者から見ると,「先生」は,特異点を持つ 解析的集合のように見える.どうしよう? 学習理論 情報理論 exp(- nH(w)) 実世界 統計学 統計物理 Applied Math. Pure Math. δ( t -H(w)) H(w) z 超関数の 漸近展開 Gel’fand 超関数 b-関数 Sato 解析接続 代数解析 Bernstein Atiyah Kashiwara 特異点 解消 Hironaka Oaku 計算機 代数 代数幾何 広中の定理 (1964) Fields Medal 実数 局所的に H(g(u)) H(w) = a(u) u1 2k1 u2 2k2 …ud 2kd g 特異的で ないものが 交わって いるだけ パラメータの集合 W 先生のパラメータは こんがらがった特異点を持っている 別のパラメータ空間 U 例:超関数の展開 ∫ (k) Ψ (0) x ψ(x) dx = Σ ---------------0 k=0 k! (2z+k+1) 1 2z 定義 k (k) (-1) δ (x) 2z x = Σ -------------------k=0 2・k! (z+(k+1)/2) z ∫( ) t dt 2 k (-1)(k) δ(t-x ) = Σ ---- δ (x) t k=0 2・k! (k-1)/2 Uの空間では,特異点は解消されている: H(g(u)) = a(u) u1 2k1 u2 2k2 …ud J(z) = ∫ H(g(u)) |g’(u)| ψ(u) du z 2kd 学習モデルの ゼータ関数 任意のψ(u)について 有理型関数(極は負の有理数) 極を (- λ),位数を m とすると, Dλm(u) H(g(u)) |g’(u)| = Σ Σ -------------m (z+λ) z 先生に サポートを 持つ超関数 Dλm(u) H(g(u)) |g’(u)| = Σ Σ -------------m (z+λ) z 逆Mellin 変換 Mellin変換: z (Mf)( z)=∫f(t) t dt δ(t-H(g(u))) |g’(u)| = Σ Σ tλ-1(-log t)m-1 Dλm(u) カルバック情報量→0のときの パラメータの様子が表現されている 確率的複雑さは… Z(例) = ∫ exp[- nHn(g(u))] φ(u) |g’(u)| du = ∫ exp[-nH(g(u))] exp[ (nH(w))1/2 Gn(u) ] φ(u) |g’(u)| du = ∫ ∫ δ(t - nH(g(u))) exp[- t +t 代入 1/2 Gn(u) ] φ(u) |g’(u)| du dt 先生の上の正規確率過程 G(u) に弱収束 (Empirical Process) m-1 (log n) Z(例) ⇒Σ Σ ----------Z (G ) λm n λ n 確率 変数 に 収束 定理 F(n) = λlog n - (m-1) log log n + Const. m-1 λ K(n) = ----- - -------n log n n ◎ 隠れた部分を持つ学習モデルについて初めて解明された z ◎ λ,m はゼータ J(z) = ∫H(w) φ(w)dw の極と位数 ◎ ブローアップする毎に,λの上限が得られる ◎ φ(w) が先生の上で正値なら 0< λ << d/2 ◎ φ(w) ∝ [det I(w)]1/2 : Jeffreys 事前分布なら λ≧ d/2 (三層NNのときλ= d/2 ) 第3話 確率的複雑さは何の役にたつか? (1) 複雑なモデルの学習曲線の解明 先生 C B A 特異点は複雑なモデルが 実世界上で生きて行く上で役立つ 確率的 複雑さ A B C 例数 学習曲線 A B C 例数 (2)ハイパーパラメータの最適化 事前分布: φ(w| θ) F(例 | θ) ≡ - log ∫exp ( - n Hn (w) ) φ(w| θ) dw これはθの(-対数尤度) ⇒ F(例 | θ)の最小化によってθを決める (Type II ML) ◎ 予測精度向上に役立つ 中間ユニットは,ほぼ1次従属の状態になる。 ◎ モデル選択も,同じ枠組み(モデルがθ ) (3) モデル選択 平均汎化誤差 確率的複雑さ 最尤推定 Jeffreys Jeffreys 一様 一様 モデルの複雑さ モデルの複雑さ 先生が含まれているときは Jeffreys によって,先生が見つかる 確率的複雑さの増加分が 予測誤差と対応する まとめ 隠れた部分を持つ学習モデルは 特定不能である パラメータ空間は,特異な計量を持つ (1) 確率的複雑さ - 学習を測る道具 (2) 学習 - 代数幾何と関係がある (3) 複雑モデル+ベイズ - 応用上 有効である 問題 確率的複雑さの揺らぎ - 経験確率過程論 温度0極限 - 最尤、MAP
© Copyright 2024 ExpyDoc