スライド 1

アンサンブル教師に対する
オンライン学習の解析
三好 誠司
岡田 真人
神戸高専
東大,理研,さきがけ
1
あらまし
真の教師のまわりに複数の教師(アンサンブル教師)が
存在し,生徒はアンサンブル教師の入出力を順番に例
題として用いるようなモデルを考える.真の教師,アン
サンブル教師,生徒のいずれもが雑音有りの線形な
パーセプトロンである場合について,オンライン学習の
枠組みで統計力学的手法を用いて解析した.生徒の学
習係数ηが1より小さい場合には教師数が多いほど,ま
た教師の多様性が豊かであるほど生徒の汎化誤差が
小さくなるが,ηが1より大きい場合には全く逆であるこ
とが明らかになった.
2
背 景 (1/2)
• バッチ学習
–
–
–
–
与えられたいくつかの例題を繰り返し使用
すべての例題に正しく答えられる
長い時間が必要
例題を蓄えておくメモリが必要
• オンライン学習
–
–
–
–
一度使った例題は捨ててしまう
過去の例題に必ず正しく答えられるとは限らない
例題を蓄えておくメモリが不要
時間的に変化する教師にも追随
3
背 景 (2/2)
現実の人間社会においては,生徒が複数の教師の入
出力を観測でき,また,その教師達が少しずつ違って
いる場合が多い.
目 的
• 真の教師のまわりにK個の教師(アンサンブル教師)
が存在し,生徒がアンサンブル教師の入出力を順番に
例題として学習するモデルを考え,汎化誤差を解析的
に求める.
• 教師の数や教師の多様性と生徒の汎化誤差の関係
を明らかにする.
4
モデル (1/4)
真の教師
• JはB1,B2,・・・の出力を
順番に学習
• Jは直接にはAの出力
は見えない
• A, B1,B2,・・・ ,Jはノイ
ズがのった線形パーセ
プトロン
BK A B1
Bk 教師たち
Bk'
RB k
qkk'
RBkJ
RJ
J
生徒
5
モデル (2/4)
• 真の教師の出力
線形パーセプトロン
ガウス雑音
• アンサンブル教師の出力
線形パーセプトロン
ガウス雑音
• 生徒の出力
線形パーセプトロン
ガウス雑音
6
モデル (3/4)
•
•
•
•
•
入力:
生徒の初期値:
真の教師:
アンサンブル教師:
N→∞(熱力学的極限)
• 巨視的変数
– 生徒の長さ
– 方向余弦
7
モデル (4/4)
二乗誤差
勾配法
fkm
K個のアンサンブル教師を1回ずつ順番に学習
8
汎化誤差
• 統計的学習理論の目的のひとつは汎化誤差を理論的に計算すること
• 汎化誤差=未知の入力に関する誤差の平均
多重ガウス分布
誤差
9
巨視的変数のダイナミクスを記述する決定論的な連立微分方程式を
熱力学的極限における自己平均性に基づいて導出する方法
1.解析を容易にするため補助的な巨視的変数を導入
2.
Jm+1 = Jm + fkm xm
の両辺にAをかける
3.
NrJm+1 = NrJm
NrJm+2 = NrJm+1
+ fkm ym
+ fkm+1 ym+1
Ndt個
+
NrJm+Ndt = NrJm+Ndt-1 + fkm+Ndt-1 ym+Ndt-1
10
巨視的変数のダイナミクスを記述する
決定論的連立微分方程式
11
巨視的変数の解析解
12
汎化誤差, R, l のダイナミクス
1.2
q=1.00
q=0.80
q=0.60
q=0.49
1.0
0.8
1.0
O r d er P ar a me te r s
G e n er a liza tio n E rr o r
(η=0.3, K=3, RB=0.7, σA2=0.0, σB2=0.1, σJ2=0.2)
生徒の汎化誤差
0.6
0.4
0.2
0
教師の汎化誤差
5
10
t=m/N
15
20
教師の多様性が豊かなとき
生徒は教師より賢くなっている
l
0.8
0.6
R
0.4
q=1.00
q=0.80
q=0.60
q=0.49
0.2
0.0
0
5
10
t=m/N
20
15
教師の多様性が豊かであるほど
生徒は真の教師に近づいている
13
定常解析 ( t → ∞ )
・ η<0 または η>2 のとき
生徒の汎化誤差εgや長さ l は正に発散
・ 0<η<2 のとき
η<1ならば教師の数Kが多いほど,教師の多様性が
豊か(qが小さい)であるほど生徒は賢くなれる
η>1ならば教師の数Kが少ないほど,教師の多様性が
乏しい(qが大きい)ほど生徒は賢くなれる
14
10
q=1.00
q=0.80
q=0.60
q=0.49
q=1.00
q=0.80
q=0.60
q=0.49
0.8
0.6
1
R
Ge n er a liza t io n E rr o r
汎化誤差, R, l の定常値
(K=3, RB=0.7, σA2=0.0, σB2=0.1, σJ2=0.2)
0.4
0.2
0.1
0
0.5
1
1.5
2
η
教師の多様性が
豊かなほど
生徒は賢い
0.0
0
0.5
1
1.5
2
η
教師の多様性が
乏しいほど
生徒は賢い
15
10
1.0
K=1
K=3
K=10
K=30
K=1
K=3
K=10
K=30
0.8
0.6
1
R
G e n er a liz a tio n E rr o r
汎化誤差, R, l の定常値
(q=0.49, RB=0.7, σA2=0.0, σB2=0.1, σJ2=0.2)
0.4
0.2
0.1
0
0.5
1
η
教師が多いほど
生徒は賢い
1.5
2
0.0
0
0.5
1
1.5
2
η
教師が少ないほど
生徒は賢い
16
まとめ
• 生徒の学習係数ηが1より小さい場合は教師数Kが
多いほど,また,教師の多様性が豊かであるほど生
徒の汎化誤差は小さくなるが,ηが1より大きい場合
は逆である.
• 教師が十分な多様性を持っているとき,η→0,K→∞
の極限で真の教師と生徒の方向余弦 RJ は雑音の分
散によらず 1 になる.
17