Document

ABSTRACT
Online learning with an ensemble of
nonlinear perceptrons is analyzed. It decides
an output by using the majority vote of K
students. It is shown that the AdaTron
learning is superior to the Hebbian learning
and the perceptron learning in generalization
performance as an ensemble.
非線形パーセプトロンによるアンサンブル
学習をオンライン学習の枠組みで議論する.
K人の生徒が多数決により集団の出力を決定
する場合を考える.「生徒の多様性維持」と
いうアンサンブル学習との相性において,
アダトロン学習がパーセプトロン学習やヘ
ブ学習よりもすぐれていることが明らかに
なった.
1
背
景
• 精度の低いルールや学習機械(生徒)を
組み合わせて精度の高い予測や分類を行
うことはアンサンブル学習と呼ばれ近年
注目されている.
• 生徒が線形パーセプトロンの場合につい
ては理論的な解析が行われ明快な結果が
得られている(原&岡田,2002.)
• 非線形パーセプトロンの学習則としては
ヘブ学習、パーセプトロン学習、アダト
ロン学習がよく知られており,これらを
アンサンブル学習に適用した場合の違い
はたいへん興味深い課題であるが,この
点に着目した解析は行われていない.
2
目
的
• 符号関数を出力関数とするよう
な非線形パーセプトロンによる
アンサンブル学習をオンライン
学習の枠組みで解析する.
モデル
Teacher
Students
1
2
K
3
モデル (続き)
• 同じ入力 x が同じ順序で提示される
• 一度使った入力 x は廃棄される(オンライン学習)
• 生徒は独立に学習
• 集団としての出力は多数決で決定
入力:
教師:
生徒:
生徒の長さ
4
汎化誤差
新たな入力に対して教師と異なる答を出す確率
教師の内部状態
生徒の内部状態
5
Rとq
教師と生徒の類似度
生徒間の類似度
B
Jk
Rk R
Jk' J
k
k'
B
J k'
q k k'
6
R と q (続き)
B
Jk
B
J k'
q kk'
qが小さい→
アンサンブル効果大
Jk
J k'
qが大きい→
アンサンブル効果小
アンサンブル学習において
は生徒の多様性が維持さ
れていることが重要
→ R と q の関係が本質的
7
l と R を記述する微分方程式 (先行研究)
q を記述する微分方程式の導出 (新)
8
ヘブ学習
(先行研究)
(新)
9
パーセプトロン学習
(先行研究)
(新)
10
アダトロン学習
(先行研究)
(新)
11
R と q のダイナミクス
ヘブ学習
O ve rlap
1
0.8
q
0.6
R
0.4
0.2
0
0
2
4
6
8
10
8
10
Time
パーセプトロン学習
O verlap
1
0.8
0.6
R
q
0.4
0.2
0
0
2
6
4
Time
アダトロン学習
O ve rlap
1
0.8
R
0.6
q
0.4
0.2
0
0
2
4
6
Time
8
10
12
1
ヘブ
0.8
パーセプトロン
q
0.6
0.4
アダトロン
0.2
0
0
0.2 0.4 0.6 0.8
1
R
13
ヘブ学習
G en e raliza t io n E rro r
汎化誤差のダイナミクス
Theory (K=1)
Theory (K=3)
Simulation (K=3)
0.5
0.4
0.3
0.2
0.1
パーセプトロン学習
G en e raliza tio n E rro r
0
2
4
6
8
10
Time
Theory (K=1)
Theory (K=3)
Simulation (K=3)
0.5
0.4
0.3
0.2
0.1
0
2
4
6
8
10
アダトロン学習
Gen e raliza tio n E rro r
Time
Theory (K=1)
Theory (K=3)
Simulation (K=3)
0.5
0.4
0.3
0.2
0.1
0
2
4
6
Time
8
10
14
ヘブ学習
G en e ra liza tio n E rro r
汎化誤差のダイナミクス
1
0.1
0.01
0.001
0.0001
0.1
K=1,Theory
K=1
K=3
K=11
K=31
1
10
100
1000
10000
1000
10000
パーセプトロン学習
G en e ra liza tio n E rro r
Time
1
0.1
0.01
0.001
0.0001
0.1
K=1,Theory
K=1
K=3
K=11
K=31
1
10
100
アダトロン学習
G en e raliza tio n E rro r
Time
1
K=1,Theory
K=1
K=3
K=11
K=31
0.1
0.01
0.001
0.0001
0.1
1
10
100
Time
1000
10000
15
G en e raliza tio n E rro r
統合方法による汎化誤差の違い
(アダトロン学習,理論)
K=1
K=3 (Majority Vote)
K=3 (|u| max.)
K=3 (Average of J)
0.5
0.4
0.3
0.2
0.1
0
2
4
6
8
10
Time
「各生徒にアナログ値を出してもらって足
す(Jの平均)のがもちろん一番いいけれ
ど,強い意見を主張している生徒の言うこ
とだけを尊重するという方法(|u|最大)もそ
れよりちょっと悪いだけで多数決よりは
ずっといい」
16
まとめ
非線形パーセプトロンによるアン
サンブル学習をオンライン学習
の枠組みで議論
ヘブ学習,パーセプトロン学習,
アダトロン学習は「生徒の多様性
維持」という点で異なった性質を
有しており,アダトロン学習がもっ
とも優れている
17