既存評価関数のパラメタを 活かした適応学習

既存評価関数のパラメタ
を活かした適応学習
東京大学大学院
矢野友貴, 三輪 誠
横山大作, 近山 隆
既存パラメタの活用
• 既存評価関数に新たな特徴を追加する際,
評価関数パラメタの再学習が一般的
学習された既存知識 (パラメタ) の損失
• 提案 : ドメイン適応を用いた既存パラメタを活
かした学習
– ドメイン適用 : 関連深いドメインで得られたパラメ
タを他のドメインの学習に活用
– 将棋を対象に評価
1
本研究の貢献
• 既存パラメタを学習に活かす新しいフレーム
ワークの提案
• 既存パラメタの利用による学習の効率化の
実現
2
本発表の流れ
• 関連研究
• 提案手法
• 評価設定
• 評価
• おわりに
3
本発表の流れ
• 関連研究
• 提案手法
• 評価設定
• 評価
• おわりに
4
兄弟節点比較による評価関数の調整
[保木, 2006;金子等, 2008]
• すべての合法手に対し,探索後の評価値が
(棋譜の手の後の局面) > (その他の手の後の局面)
となるようパラメタ調整
その他の手
棋譜の手
評価値
評価値
探索
評価値
探索
・・・
探索
5
ドメイン適応
• 元ドメインで得られた知識を用いて,対象ドメ
インでの学習を行う手法 (例:「一般文章」→
「医療文章」)
– 本研究ではBayesian Divergence Priorを利用
元ドメイン
知識
対象ドメイン
学習器
6
Bayesian Divergence Prior
[X. Li et al., 2007]
• 元パラメタと対象パラメタにおける尤度のKLダ
イバージェンスを最小化
元パラメタでの分類結果との差異をなくす方向へ
のパラメタ調整
min L(w, S )  C w  w
ad
w
損失関数
tr
尤度のKL
ダイバージェンス
7
本発表の流れ
• 関連研究
• 提案手法
• 評価設定
• 評価
• おわりに
8
既存パラメタを活かした適応学習
• 既存パラメタによる抑制項 (Bayesian
Divergence Prior) を利用した学習
抑制パラメタ
 w pre 
C

min L(w, S )  w  
w
2
 0 
損失関数
2
既存パラメタによる抑制項
訓練データに則した
パラメタ調整
既存パラメタの
形状を維持
9
既存パラメタを活かすメリット
• 既存パラメタの持つ知識を活かしたより強い
プレイヤの作成
• 既存パラメタを初期値として用いることによる
学習速度の向上
10
本発表の流れ
• 関連研究
• 提案手法
• 評価設定
• 評価
• おわりに
11
評価環境
• 将棋プログラム「激指」を利用
• InTrigger (広域分散したクラスタ群) を使用
– 学習は約20時間
• Intel Xeon E5410 (2.33GHz) を搭載したクラスタにおい
て80並列計算
12
学習方法
• 以下の操作を10ステップ繰り返し行う
1. 5000棋譜中の全合法手について探索を行い, 訓
練データを作成
• 探索の深さは5
• 棋譜以外の手の探索では, 探索窓を歩5枚分相当に設定
2. 作成した訓練データを用いて,50回パラメタを調整
• 損失関数にはロジスティック回帰,学習には
Stochastic Meta Descent [N.N.Schraudolph, 2002]
を利用
13
学習設定
• 「激指」の評価関数に下記の特徴を追加
特徴
激指の特徴
玉の他の駒の相対位置
特徴数
410
9,248
玉と他の駒の絶対位置
2駒の相対位置
隣接する2駒の絶対位置
総数
209,952
147,968
331,776
699,354
※玉に関する新規特徴は進行度に応じて特徴量を変化させた
14
評価方法
• 評価基準は次の3つ
基準
詳細
一致率
不一致度
勝率
学習を用いなかった250棋譜で計測
学習を用いなかった250棋譜で計測
初手30手を固定, 一手10秒の探索(100試合)
対戦の相手は激指のパラメタ
※対戦では新規パラメタ部分を0で埋めたオリジナルパラメタを用いる点に注意
※不一致度は以下の式で計算
局面数 合法手i
T ( (i)   (棋譜の手))
不一致度 
1
1
T ( x) 
1  exp(7 x / 256)
15
本発表の流れ
• 関連研究
• 提案手法
• 評価設定
• 評価
• おわりに
16
評価
1. (予備実験) 抑制パラメタの調整
2. 各種手法との比較
17
抑制パラメタの調整
• 目的:損失関数と抑制項の調整
• 方法:抑制パラメタを10^-5~10^+5まで変化
させ,評価
– 初期値には激指の既存パラメタを使用
– Stochastic Meta Descentのパラメタは1ステップの
学習で調整
18
抑制パラメタによる一致率の変化
correct rate(%)
10^-5~10^2
10^3~10^5
step
19
抑制パラメタによる不一致度の変化
j prime
10^3~10^5
step
10^-5~10^2
20
抑制パラメタによるオリジナルに対する勝率
C=100
winning rate(%)
63
60
58
57
56
54
53
52
有意水準5%(61)
59
53
互角(50)
44
restrict param
21
各種手法との比較
• 目的
– 既存パラメタを初期値とする有用性の評価
– 抑制項の有用性の評価
• 方法: 初期値・抑制項を変えた5手法を比較
初期値
抑制項
proposed
激指の既存パラメタ
C=100
no bind
激指の既存パラメタ
なし
const
激指の既存パラメタ
既存パラメタ固定
koma
駒割
なし
bind koma
駒割
C=1
22
correct rate(%)
各種手法による一致率の違い
step
23
j prime
各種手法による不一致度の違い
step
24
winning rate(%)
各種手法でのオリジナルに対する勝率
61
有意水準5%(61)
56
55
52
48
method
互角(50)
25
相互対戦結果(200試合)
既存パラメタを用いた手法
proposed
no bind
const
proposed
53.5
koma
bind koma
60
61.5
64.5
61.5
55
60.5
59
54.5
no bind
46.5
const
40
38.5
koma
38.5
45
41
bind koma
35.5
39.5
45.5
青文字 : 50%で勝ち越した対戦
53.5
46.5
既存パラメタを用いない手法
赤文字 : 有意水準5%で勝ち越した対戦(115勝以上)
緑文字 : 有意水準5%で負け越した対戦(85勝以下)
26
既存パラメタを用いる意味
棋譜
+
人間の
知識
既存パラメタを用いた手法
はより多くの情報を使用
利用
利用
既存パラメタ
利用
新規パラメタ
よりよい評価関数
の獲得
27
学習速度
一致率
不一致度
6 step
10 step
6 step
proposed(6step) v.s. koma(10step)
10 step
52.5%(200試合)
より少ないステップ数で同程度の強さのパラメタを獲得
28
本発表の流れ
• 関連研究
• 提案手法
• 評価設定
• 評価
• おわりに
29
まとめと今後の課題
• ドメイン適応の手法を用いた,既存パラメタを
活かす適応学習を提案
– 激指の既存パラメタを初期値として用いることで
学習速度の向上,有用な評価関数の獲得に成功
• 今後の課題
– GPS将棋に用いられている特徴など有効性が十
分に評価された特徴の利用
30
ご清聴ありがとうございました