教師が真の教師のまわりを まわる場合のオンライン学習 三好 誠司 神戸市立工業高専 岡田 真人 東大, 理研, 科技機構さきがけ 背景(1) • バッチ学習 – – – – 与えられたいくつかの例題を繰り返し使用 すべての例題に正しく答えられる 長い時間が必要 例題を蓄えておくメモリが必要 • オンライン学習 – – – – 一度使った例題は捨ててしまう 過去の例題に必ず正しく答えられるとは限らない 例題を蓄えておくメモリが不要 時間的に変化する教師にも追随 2 背景(2) Teacher Student B J J B1 x1 BN xN J1 x1 JN xN J 学習可能な場合 3 背景(3) Teacher B1 x1 BN xN Student J1 JN x1 xN 学習不能な場合 (Inoue & Nishimori, Phys. Rev. E, 1997) (Inoue, Nishimori & Kabashima, TANC-97, cond-mat/9708096, 1997) 4 背景(4) B B B J J J パーセプトロン学習 アダトロン学習 ヘブ学習 5 モデル(1) 真の教師 B 動く教師 B 生徒 J 6 B B モデル(2) J 動く教師の長さ 生徒の長さ 7 モデル(3) 線形パーセプトロン B B J ノイズ 8 モデル(4) 二乗誤差 B B J 勾配法 g f 9 汎化誤差 多重ガウス分布 誤差 B B J 10 巨視的変数のダイナミクスを記述する連立微分方程式 11 モデル(4) 二乗誤差 B B J 勾配法 g f 12 Bm+1 = Bm + gm xm Ndt + NRm+1 lBm+1 = NRm lBm + gmvm NRm+2 lBm+2 = NRm+1 lBm+1 + gm+1vm+1 NRm+Ndt lBm+Ndt = NRm+Ndt-1 lBm+Ndt-1 + gm+Ndt-1vm+Ndt-1 NRm+Ndt lBm+Ndt = NRm lBm + Ndt <gv> N r m+Ndt = N r m + Ndt <gv> N(r+dr) = Nr + Ndt <gv> dr/dt = <gv> 13 巨視的変数のダイナミクスを記述する連立微分方程式 14 サンプル平均 15 巨視的変数のダイナミクスを記述する連立微分方程式 16 巨視的変数の解析解 17 巨視的変数のダイナミクスを記述する連立微分方程式 18 汎化誤差 B B J 19 G en e raliza tio n E rro r G en e raliza tio n E rro r 汎化誤差のダイナミクス B- J 2 1.5 J 1 B 0.5 0 5 10 15 t=m/N ηJ=1.2の場合 20 1.5 1 B- J B 0.5 J 0 5 10 20 15 t=m/N ηJ=0.3の場合 20 2.0 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0 lJ 1.2 lB 1.0 lB lJ 0.8 R, l R, l Rとlのダイナミクス R (B - B) R (B - J) R (B - J) 0.6 0.4 R (B - J) R (B - B) R (B - J) 0.2 0 0 5 10 15 20 0 5 10 15 t=m/N t=m/N ηJ=1.2の場合 ηJ=0.3の場合 20 21 巨視的変数の解析解 22 G en e raliza tio n E rro r 定常解析 10 B-J J 1 B 0.1 0.0 0.5 1.0 1.5 2.0 ηJ 4 1.0 R (B - B) 3.5 3 R (B - J) 0.6 l R 0.8 0.4 2 R (B - J) 0.2 lB 1.5 0 0.0 lJ 2.5 1 0.5 1.0 ηJ 1.5 2.0 0.0 0.5 1.0 ηJ 1.5 2.0 23 B B J ηJ=1.8 B J B J B J ηJ=0 24 まとめ • 真の教師,動く教師,生徒がノイズ有りの 線形なパーセプトロンである場合を考え, 統計力学的手法により汎化誤差を解析的 に求めた. • 生徒が動く教師の入出力だけを使用する にもかかわらず,生徒が動く教師よりも賢く なりうるという興味深い結果が明らかに なった. 25
© Copyright 2025 ExpyDoc