スライド タイトルなし

教師が真の教師のまわりを
まわる場合のオンライン学習
三好 誠司
神戸市立工業高専
岡田 真人
東大, 理研, 科技機構さきがけ
背景(1)
• バッチ学習
–
–
–
–
与えられたいくつかの例題を繰り返し使用
すべての例題に正しく答えられる
長い時間が必要
例題を蓄えておくメモリが必要
• オンライン学習
–
–
–
–
一度使った例題は捨ててしまう
過去の例題に必ず正しく答えられるとは限らない
例題を蓄えておくメモリが不要
時間的に変化する教師にも追随
2
背景(2)
Teacher
Student
B J
J
B1
x1
BN
xN
J1
x1
JN
xN
J
学習可能な場合
3
背景(3)
Teacher
B1
x1
BN
xN
Student
J1
JN
x1
xN
学習不能な場合
(Inoue & Nishimori, Phys. Rev. E, 1997)
(Inoue, Nishimori & Kabashima, TANC-97, cond-mat/9708096, 1997)
4
背景(4)
B
B
B
J
J
J
パーセプトロン学習
アダトロン学習
ヘブ学習
5
モデル(1)
真の教師
B
動く教師
B
生徒
J
6
B
B
モデル(2)
J
動く教師の長さ
生徒の長さ
7
モデル(3)
線形パーセプトロン
B
B
J
ノイズ
8
モデル(4)
二乗誤差
B
B
J
勾配法
g
f
9
汎化誤差
多重ガウス分布
誤差
B
B
J
10
巨視的変数のダイナミクスを記述する連立微分方程式
11
モデル(4)
二乗誤差
B
B
J
勾配法
g
f
12
Bm+1 = Bm + gm xm
Ndt
+
NRm+1 lBm+1
= NRm lBm
+ gmvm
NRm+2 lBm+2
= NRm+1 lBm+1
+ gm+1vm+1
NRm+Ndt lBm+Ndt = NRm+Ndt-1 lBm+Ndt-1 + gm+Ndt-1vm+Ndt-1
NRm+Ndt lBm+Ndt = NRm lBm + Ndt <gv>
N r m+Ndt = N r m + Ndt <gv>
N(r+dr) = Nr + Ndt <gv>
dr/dt = <gv>
13
巨視的変数のダイナミクスを記述する連立微分方程式
14
サンプル平均
15
巨視的変数のダイナミクスを記述する連立微分方程式
16
巨視的変数の解析解
17
巨視的変数のダイナミクスを記述する連立微分方程式
18
汎化誤差
B
B
J
19
G en e raliza tio n E rro r
G en e raliza tio n E rro r
汎化誤差のダイナミクス
B- J
2
1.5
J
1
B
0.5
0
5
10
15
t=m/N
ηJ=1.2の場合
20
1.5
1
B- J
B
0.5
J
0
5
10
20
15
t=m/N
ηJ=0.3の場合
20
2.0
1.8
1.6
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0
lJ
1.2
lB
1.0
lB
lJ
0.8
R, l
R, l
Rとlのダイナミクス
R (B - B)
R (B - J)
R (B - J)
0.6
0.4
R (B - J)
R (B - B)
R (B - J)
0.2
0
0
5
10
15
20
0
5
10
15
t=m/N
t=m/N
ηJ=1.2の場合
ηJ=0.3の場合
20
21
巨視的変数の解析解
22
G en e raliza tio n E rro r
定常解析
10
B-J
J
1
B
0.1
0.0
0.5
1.0
1.5
2.0
ηJ
4
1.0
R (B - B)
3.5
3
R (B - J)
0.6
l
R
0.8
0.4
2
R (B - J)
0.2
lB
1.5
0
0.0
lJ
2.5
1
0.5
1.0
ηJ
1.5
2.0
0.0
0.5
1.0
ηJ
1.5
2.0
23
B
B J
ηJ=1.8
B
J
B
J
B
J
ηJ=0
24
まとめ
• 真の教師,動く教師,生徒がノイズ有りの
線形なパーセプトロンである場合を考え,
統計力学的手法により汎化誤差を解析的
に求めた.
• 生徒が動く教師の入出力だけを使用する
にもかかわらず,生徒が動く教師よりも賢く
なりうるという興味深い結果が明らかに
なった.
25