Document

最大エントロピー法を利用した
棋譜集からの指し手学習
鶴岡慶雅
大山名人はこの局面でどう指す?
後手番
正解 2五歩
激指の予測
2五歩(9.2%)
8四歩(7.3%)
4五歩(5.9%)
5三銀(5.4%)
:
指し手を確率的に予測
• 用途
– 棋士の棋風を再現
– 実現確率打ち切り探索の遷移確率
– 探索の枝狩り/延長
–
:
• 方法
– 大量の棋譜から確率モデルを利用して機械学
習
最大エントロピー法による
機械学習
• Log-linear model
素性の重み
素性関数
1
 F

qx   exp  i f i x 
Z
 i 1

• 2値分類: 「指される」 or 「指されない」
• 訓練データの尤度を最大化するようにパラメータ
(素性の重み)を決定
学習に利用する素性(特徴量)
•
•
•
•
•
•
•
•
•
指し手そのもの(移動元と移動先の座標、駒の種類)
駒の種類
駒の移動元の局所的な盤面情報(3x3)
駒の移動先の局所的な盤面情報(3x3)
駒の移動先に敵のききがあるかどうか
駒得をする手かどうか
直前に動いた駒を取り返す手かどうか
相手の飛車の位置と局所的な盤面情報の組み合わせ
:
学習
• 大山十五世名人の棋譜650局を分割
– 訓練データ: 512局
– テストデータ:100局
• 中盤までの全ての局面(進行度40以内)
において、可能な指し手を全て生成し、学
習データとする
指し手予測の正解率
順位
訓練データに
存在する局面
訓練データに
存在しない局面
計
1
77.7
35.3
46.9
2
91.0
49.4
60.8
3
95.5
58.0
68.2
4
98.5
63.8
73.2
5
99.1
69.1
77.3
6
99.4
73.3
80.4
7
99.8
76.8
83.1
8
99.8
79.4
84.9
9
99.9
82.2
87.0
10
99.9
84.6
88.8
※局面ごとに上位n個の
指し手を出力し、そ
の中に正解手が含ま
れているかどうかの
パーセンテージ
※訓練データ:512局
• 訓練データに存在し
ない局面でも3割以
上の確率で正解手を
当てている。
正解率と訓練データ量の関係
known
unknown
total
100
90
80
正解率(%)
70
60
50
• 訓練データは多けれ
ば多いほどよい
• 500局でもまだ不足
40
30
20
10
0
10
100
訓練データ数(局数)
1000
指し手予測の例
先手番
正解 1六歩
激指の予測
6六歩(25%)
6八銀(11%)
4七銀(10%)
3七銀(9%)
:
指し手予測の例
先手番
正解 4五歩
激指の予測
4五歩(70.1%)
5五歩(23.2%)
4五桂(6.4%)
2五歩(3.8%)
:
課題
• 予測精度
– 学習に利用する特徴量をさらに工夫する
– 訓練データを増やす
• 探索への利用
– 実現確率打ち切りに適用
• 棋風の再現
– 探索による結果とどう折り合いをつけるか