既存評価関数のパラメタ を活かした適応学習 東京大学大学院 矢野友貴, 三輪 誠 横山大作, 近山 隆 既存パラメタの活用 • 既存評価関数に新たな特徴を追加する際, 評価関数パラメタの再学習が一般的 学習された既存知識 (パラメタ) の損失 • 提案 : ドメイン適応を用いた既存パラメタを活 かした学習 – ドメイン適用 : 関連深いドメインで得られたパラメ タを他のドメインの学習に活用 – 将棋を対象に評価 1 本研究の貢献 • 既存パラメタを学習に活かす新しいフレーム ワークの提案 • 既存パラメタの利用による学習の効率化の 実現 2 本発表の流れ • 関連研究 • 提案手法 • 評価設定 • 評価 • おわりに 3 本発表の流れ • 関連研究 • 提案手法 • 評価設定 • 評価 • おわりに 4 兄弟節点比較による評価関数の調整 [保木, 2006;金子等, 2008] • すべての合法手に対し,探索後の評価値が (棋譜の手の後の局面) > (その他の手の後の局面) となるようパラメタ調整 その他の手 棋譜の手 評価値 評価値 探索 評価値 探索 ・・・ 探索 5 ドメイン適応 • 元ドメインで得られた知識を用いて,対象ドメ インでの学習を行う手法 (例:「一般文章」→ 「医療文章」) – 本研究ではBayesian Divergence Priorを利用 元ドメイン 知識 対象ドメイン 学習器 6 Bayesian Divergence Prior [X. Li et al., 2007] • 元パラメタと対象パラメタにおける尤度のKLダ イバージェンスを最小化 元パラメタでの分類結果との差異をなくす方向へ のパラメタ調整 min L(w, S ) C w w ad w 損失関数 tr 尤度のKL ダイバージェンス 7 本発表の流れ • 関連研究 • 提案手法 • 評価設定 • 評価 • おわりに 8 既存パラメタを活かした適応学習 • 既存パラメタによる抑制項 (Bayesian Divergence Prior) を利用した学習 抑制パラメタ w pre C min L(w, S ) w w 2 0 損失関数 2 既存パラメタによる抑制項 訓練データに則した パラメタ調整 既存パラメタの 形状を維持 9 既存パラメタを活かすメリット • 既存パラメタの持つ知識を活かしたより強い プレイヤの作成 • 既存パラメタを初期値として用いることによる 学習速度の向上 10 本発表の流れ • 関連研究 • 提案手法 • 評価設定 • 評価 • おわりに 11 評価環境 • 将棋プログラム「激指」を利用 • InTrigger (広域分散したクラスタ群) を使用 – 学習は約20時間 • Intel Xeon E5410 (2.33GHz) を搭載したクラスタにおい て80並列計算 12 学習方法 • 以下の操作を10ステップ繰り返し行う 1. 5000棋譜中の全合法手について探索を行い, 訓 練データを作成 • 探索の深さは5 • 棋譜以外の手の探索では, 探索窓を歩5枚分相当に設定 2. 作成した訓練データを用いて,50回パラメタを調整 • 損失関数にはロジスティック回帰,学習には Stochastic Meta Descent [N.N.Schraudolph, 2002] を利用 13 学習設定 • 「激指」の評価関数に下記の特徴を追加 特徴 激指の特徴 玉の他の駒の相対位置 特徴数 410 9,248 玉と他の駒の絶対位置 2駒の相対位置 隣接する2駒の絶対位置 総数 209,952 147,968 331,776 699,354 ※玉に関する新規特徴は進行度に応じて特徴量を変化させた 14 評価方法 • 評価基準は次の3つ 基準 詳細 一致率 不一致度 勝率 学習を用いなかった250棋譜で計測 学習を用いなかった250棋譜で計測 初手30手を固定, 一手10秒の探索(100試合) 対戦の相手は激指のパラメタ ※対戦では新規パラメタ部分を0で埋めたオリジナルパラメタを用いる点に注意 ※不一致度は以下の式で計算 局面数 合法手i T ( (i) (棋譜の手)) 不一致度 1 1 T ( x) 1 exp(7 x / 256) 15 本発表の流れ • 関連研究 • 提案手法 • 評価設定 • 評価 • おわりに 16 評価 1. (予備実験) 抑制パラメタの調整 2. 各種手法との比較 17 抑制パラメタの調整 • 目的:損失関数と抑制項の調整 • 方法:抑制パラメタを10^-5~10^+5まで変化 させ,評価 – 初期値には激指の既存パラメタを使用 – Stochastic Meta Descentのパラメタは1ステップの 学習で調整 18 抑制パラメタによる一致率の変化 correct rate(%) 10^-5~10^2 10^3~10^5 step 19 抑制パラメタによる不一致度の変化 j prime 10^3~10^5 step 10^-5~10^2 20 抑制パラメタによるオリジナルに対する勝率 C=100 winning rate(%) 63 60 58 57 56 54 53 52 有意水準5%(61) 59 53 互角(50) 44 restrict param 21 各種手法との比較 • 目的 – 既存パラメタを初期値とする有用性の評価 – 抑制項の有用性の評価 • 方法: 初期値・抑制項を変えた5手法を比較 初期値 抑制項 proposed 激指の既存パラメタ C=100 no bind 激指の既存パラメタ なし const 激指の既存パラメタ 既存パラメタ固定 koma 駒割 なし bind koma 駒割 C=1 22 correct rate(%) 各種手法による一致率の違い step 23 j prime 各種手法による不一致度の違い step 24 winning rate(%) 各種手法でのオリジナルに対する勝率 61 有意水準5%(61) 56 55 52 48 method 互角(50) 25 相互対戦結果(200試合) 既存パラメタを用いた手法 proposed no bind const proposed 53.5 koma bind koma 60 61.5 64.5 61.5 55 60.5 59 54.5 no bind 46.5 const 40 38.5 koma 38.5 45 41 bind koma 35.5 39.5 45.5 青文字 : 50%で勝ち越した対戦 53.5 46.5 既存パラメタを用いない手法 赤文字 : 有意水準5%で勝ち越した対戦(115勝以上) 緑文字 : 有意水準5%で負け越した対戦(85勝以下) 26 既存パラメタを用いる意味 棋譜 + 人間の 知識 既存パラメタを用いた手法 はより多くの情報を使用 利用 利用 既存パラメタ 利用 新規パラメタ よりよい評価関数 の獲得 27 学習速度 一致率 不一致度 6 step 10 step 6 step proposed(6step) v.s. koma(10step) 10 step 52.5%(200試合) より少ないステップ数で同程度の強さのパラメタを獲得 28 本発表の流れ • 関連研究 • 提案手法 • 評価設定 • 評価 • おわりに 29 まとめと今後の課題 • ドメイン適応の手法を用いた,既存パラメタを 活かす適応学習を提案 – 激指の既存パラメタを初期値として用いることで 学習速度の向上,有用な評価関数の獲得に成功 • 今後の課題 – GPS将棋に用いられている特徴など有効性が十 分に評価された特徴の利用 30 ご清聴ありがとうございました
© Copyright 2024 ExpyDoc