ABSTRACT Online learning with an ensemble of nonlinear perceptrons is analyzed. It decides an output by using the majority vote of K students. It is shown that the AdaTron learning is superior to the Hebbian learning and the perceptron learning in generalization performance as an ensemble. 非線形パーセプトロンによるアンサンブル 学習をオンライン学習の枠組みで議論する. K人の生徒が多数決により集団の出力を決定 する場合を考える.「生徒の多様性維持」と いうアンサンブル学習との相性において, アダトロン学習がパーセプトロン学習やヘ ブ学習よりもすぐれていることが明らかに なった. 1 背 景 • 精度の低いルールや学習機械(生徒)を 組み合わせて精度の高い予測や分類を行 うことはアンサンブル学習と呼ばれ近年 注目されている. • 生徒が線形パーセプトロンの場合につい ては理論的な解析が行われ明快な結果が 得られている(原&岡田,2002.) • 非線形パーセプトロンの学習則としては ヘブ学習、パーセプトロン学習、アダト ロン学習がよく知られており,これらを アンサンブル学習に適用した場合の違い はたいへん興味深い課題であるが,この 点に着目した解析は行われていない. 2 目 的 • 符号関数を出力関数とするよう な非線形パーセプトロンによる アンサンブル学習をオンライン 学習の枠組みで解析する. モデル Teacher Students 1 2 K 3 モデル (続き) • 同じ入力 x が同じ順序で提示される • 一度使った入力 x は廃棄される(オンライン学習) • 生徒は独立に学習 • 集団としての出力は多数決で決定 入力: 教師: 生徒: 生徒の長さ 4 汎化誤差 新たな入力に対して教師と異なる答を出す確率 教師の内部状態 生徒の内部状態 5 Rとq 教師と生徒の類似度 生徒間の類似度 B Jk Rk R Jk' J k k' B J k' q k k' 6 R と q (続き) B Jk B J k' q kk' qが小さい→ アンサンブル効果大 Jk J k' qが大きい→ アンサンブル効果小 アンサンブル学習において は生徒の多様性が維持さ れていることが重要 → R と q の関係が本質的 7 l と R を記述する微分方程式 (先行研究) q を記述する微分方程式の導出 (新) 8 ヘブ学習 (先行研究) (新) 9 パーセプトロン学習 (先行研究) (新) 10 アダトロン学習 (先行研究) (新) 11 R と q のダイナミクス ヘブ学習 O ve rlap 1 0.8 q 0.6 R 0.4 0.2 0 0 2 4 6 8 10 8 10 Time パーセプトロン学習 O verlap 1 0.8 0.6 R q 0.4 0.2 0 0 2 6 4 Time アダトロン学習 O ve rlap 1 0.8 R 0.6 q 0.4 0.2 0 0 2 4 6 Time 8 10 12 1 ヘブ 0.8 パーセプトロン q 0.6 0.4 アダトロン 0.2 0 0 0.2 0.4 0.6 0.8 1 R 13 ヘブ学習 G en e raliza t io n E rro r 汎化誤差のダイナミクス Theory (K=1) Theory (K=3) Simulation (K=3) 0.5 0.4 0.3 0.2 0.1 パーセプトロン学習 G en e raliza tio n E rro r 0 2 4 6 8 10 Time Theory (K=1) Theory (K=3) Simulation (K=3) 0.5 0.4 0.3 0.2 0.1 0 2 4 6 8 10 アダトロン学習 Gen e raliza tio n E rro r Time Theory (K=1) Theory (K=3) Simulation (K=3) 0.5 0.4 0.3 0.2 0.1 0 2 4 6 Time 8 10 14 ヘブ学習 G en e ra liza tio n E rro r 汎化誤差のダイナミクス 1 0.1 0.01 0.001 0.0001 0.1 K=1,Theory K=1 K=3 K=11 K=31 1 10 100 1000 10000 1000 10000 パーセプトロン学習 G en e ra liza tio n E rro r Time 1 0.1 0.01 0.001 0.0001 0.1 K=1,Theory K=1 K=3 K=11 K=31 1 10 100 アダトロン学習 G en e raliza tio n E rro r Time 1 K=1,Theory K=1 K=3 K=11 K=31 0.1 0.01 0.001 0.0001 0.1 1 10 100 Time 1000 10000 15 G en e raliza tio n E rro r 統合方法による汎化誤差の違い (アダトロン学習,理論) K=1 K=3 (Majority Vote) K=3 (|u| max.) K=3 (Average of J) 0.5 0.4 0.3 0.2 0.1 0 2 4 6 8 10 Time 「各生徒にアナログ値を出してもらって足 す(Jの平均)のがもちろん一番いいけれ ど,強い意見を主張している生徒の言うこ とだけを尊重するという方法(|u|最大)もそ れよりちょっと悪いだけで多数決よりは ずっといい」 16 まとめ 非線形パーセプトロンによるアン サンブル学習をオンライン学習 の枠組みで議論 ヘブ学習,パーセプトロン学習, アダトロン学習は「生徒の多様性 維持」という点で異なった性質を 有しており,アダトロン学習がもっ とも優れている 17
© Copyright 2024 ExpyDoc