スライド タイトルなし

P1-6
教師がコミティマシンの場合のアンサンブル学習
三好 誠司(P)(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
1
あらまし
アンサンブル学習の大きな特徴として,多数決などで生徒を組み
合わせることにより,単一の生徒では表現できない入出力関係を
実現できることがあげられる.その意味で,教師が生徒のモデル
空間内にない場合のアンサンブル学習の解析は非常に興味深い
.そこで本研究では,教師がコミティマシンであり生徒が単純パー
セプトロンである場合のアンサンブル学習を統計力学的なオンライ
ン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算
した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸
近すること,パーセプトロン学習では生徒の多様性が消滅せず,そ
のためにアンサンブルの効果が残ること,アダトロン学習では一種
の過学習が起こることなど,学習則毎の顕著な特徴が明らかにな
っ
た
.
2
背 景 (1)
• アンサンブル学習
– 精度の低いルールや学習機械を組み合わせて精度の
高い予測や分類を行う
• 教師が1個の単純パーセプトロン で
生徒がK個の単純パーセプトロン の場合の解析
→ 学習則によりアンサンブルの効果に違いがある
(三好,原,岡田,2003-2004)
Teacher
1
Students
2
K
3
背 景 (2)
• 教師が1個の非単調パーセプトロン で
生徒が1個の単純パーセプトロン の場合の解析
(Inoue & Nishimori, PRE, 1997)
(Inoue, Nishimori & Kabashima, TANC-97, cond-mat/9708096, 1997)
Teacher
Students
sg n( ul )
B1
x1
BN
xN
J1
x1
JN
xN
教師が生徒のモデル空間内にない場合の解析
4
• アンサンブル学習の特徴
– 多数決などで生徒を組み合わせることにより,単一の生
徒では表現できない入出力関係を実現できる
学習不能な場合(教師が生徒一個のモデル空間内にない
場合)のアンサンブル学習の解析は非常に興味深い
目 的
• 教師がコミティマシンで生徒がK個の単純パーセプ
トロンの場合のアンサンブル学習をオンライン学習
の枠組みで解析
5
モデル(1)
Teacher
Students
sgn( u1 l)
J11
x1
•
•
•
•
1
J1N J21
xN x1
sgn( u2 l)
2
J2N
xN
sgn(uKl)
JK1
x1
K
J KN
xN
同じ入力 x が同じ順序で提示される
一度使った入力 x は廃棄される(オンライン学習)
生徒は独立に学習
生徒集団としての出力は多数決で決定
6
モデル(2)
•
•
•
•
入力:
教師:
生徒:
N→∞(熱力学的極限)
生徒の長さ
7
理 論
統計的学習理論の目的のひとつは汎化誤差を理論的に計算することである
汎化誤差: 新たな入力に対して教師と異なる答を出す確率
多重ガウス分布
8
教師中間層と生徒の
類似度
生徒間の類似度
9
3個の巨視的変数 l,R,q のダイナミクスを記述する決定論的連
立微分方程式(熱力学的極限における自己平均性に基づいて
導出)
10
汎化誤差の計算手順
1. 微分方程式を数値的に解いてl,R,qのダイナ
ミクスを計算.その際,サンプル平均<・>はメ
トロポリス法で算出
2. 得られたR,qを使って数値積分を実行するこ
とにより汎化誤差を計算.数値積分はメトロ
ポリス法で実行
11
よく知られている3つの学習則
ヘブ学習
パーセプトロン学習
アダトロン学習
教師の出力
ステップ関数
12
学習の初期段階でアンサンブルの効果
0.5
Gene ralization Error
Generali zation Erro r
結果1 ヘブ学習
K=1
K=3
K=5
K=7
K=9
0.4
理論
0.3
M =9
M =3
0.2
0
10
20
30
40
50
K=1
K=3
K=5
K=7
K=9
0.4
0.3
計算機シミュレーション
(N=1000)
0.2
0
10
20
30
40
M =9
M =3
50
Time
Time
1
0.5
アンサンブルの効果が消滅
q
Similarity
0.8
生徒の多様性が消滅(q=1)
0.6
0.4
R (M=3)
0.2
R (M=9)
生徒が教師中間層の中央に漸近
0
0
10
20
30
Time
40
50
M: 教師中間層ユニット数
K: 生徒数
13
0.5
K=1
K=3
K=5
K=7
K=9
0.4
理論
0.3
Generalization Erro r
Generali zation Erro r
結果2 パーセプトロン学習
M=9
M=3
0.2
0
10
20
30
40
50
1 q (M=3)
Similarity
K=1
K=3
K=5
K=7
K=9
0.4
0.3
計算機シミュレーション
(N=1000)
M =9
M =3
0.2
0
10
20
30
40
50
Time
Time
アンサンブルの効果が残っている
(Kによる違いが残っている)
q (M=9)
0.8
0.5
0.6
0.4
R (M=3)
0.2
R (M=9)
生徒の多様性が残っている(q<0)
0
0
10
20
30
Time
40
50
14
結果3 アダトロン学習
0.5
K=1
K=3
K=5
K=7
K=9
理論
0.4
Gener aliza tion E rror
Gene raliza tion Error
一種の“過学習”
M=9
0.3
M=3
0
10
20
30
40
50
Time
Similarity
計算機シミュレーションK=1
K=3
(N=1000)
K=5
0.4
K=7
K=9
M=9
0.3
0
M=3
10
20
30
40
50
Time
1
Rが極大値をとる
→ 生徒が一個でも過学習がある
q
0.8
0.5
0.6
0.4
R (M=3)
0.2
R (M=9)
0
0
10
20
30
Time
40
50
15
Residual Generalization Error
結果4 残留汎化誤差
0.3
AdaTron
0.25
Perceptron
0.2
Hebbian
K=1
K=3
K=5
K=7
K=9
0.15
3
5
7
9
M
M: 教師中間層ユニット数
K: 生徒数
16
まとめ
• 教師がコミティマシンの場合のアンサンブル
学習をオンライン学習の枠組みで解析・議論
した.その結果,学習則毎に顕著な特徴があ
ることが明らかになった.
• ヘブ学習 → 生徒が教師中間層の中央に漸近
• パーセプトロン学習 → アンサンブルの効果が残る
• アダトロン学習 → 過学習が起こる
17