最大エントロピー法を利用した 棋譜集からの指し手学習 鶴岡慶雅 大山名人はこの局面でどう指す? 後手番 正解 2五歩 激指の予測 2五歩(9.2%) 8四歩(7.3%) 4五歩(5.9%) 5三銀(5.4%) : 指し手を確率的に予測 • 用途 – 棋士の棋風を再現 – 実現確率打ち切り探索の遷移確率 – 探索の枝狩り/延長 – : • 方法 – 大量の棋譜から確率モデルを利用して機械学 習 最大エントロピー法による 機械学習 • Log-linear model 素性の重み 素性関数 1 F qx exp i f i x Z i 1 • 2値分類: 「指される」 or 「指されない」 • 訓練データの尤度を最大化するようにパラメータ (素性の重み)を決定 学習に利用する素性(特徴量) • • • • • • • • • 指し手そのもの(移動元と移動先の座標、駒の種類) 駒の種類 駒の移動元の局所的な盤面情報(3x3) 駒の移動先の局所的な盤面情報(3x3) 駒の移動先に敵のききがあるかどうか 駒得をする手かどうか 直前に動いた駒を取り返す手かどうか 相手の飛車の位置と局所的な盤面情報の組み合わせ : 学習 • 大山十五世名人の棋譜650局を分割 – 訓練データ: 512局 – テストデータ:100局 • 中盤までの全ての局面(進行度40以内) において、可能な指し手を全て生成し、学 習データとする 指し手予測の正解率 順位 訓練データに 存在する局面 訓練データに 存在しない局面 計 1 77.7 35.3 46.9 2 91.0 49.4 60.8 3 95.5 58.0 68.2 4 98.5 63.8 73.2 5 99.1 69.1 77.3 6 99.4 73.3 80.4 7 99.8 76.8 83.1 8 99.8 79.4 84.9 9 99.9 82.2 87.0 10 99.9 84.6 88.8 ※局面ごとに上位n個の 指し手を出力し、そ の中に正解手が含ま れているかどうかの パーセンテージ ※訓練データ:512局 • 訓練データに存在し ない局面でも3割以 上の確率で正解手を 当てている。 正解率と訓練データ量の関係 known unknown total 100 90 80 正解率(%) 70 60 50 • 訓練データは多けれ ば多いほどよい • 500局でもまだ不足 40 30 20 10 0 10 100 訓練データ数(局数) 1000 指し手予測の例 先手番 正解 1六歩 激指の予測 6六歩(25%) 6八銀(11%) 4七銀(10%) 3七銀(9%) : 指し手予測の例 先手番 正解 4五歩 激指の予測 4五歩(70.1%) 5五歩(23.2%) 4五桂(6.4%) 2五歩(3.8%) : 課題 • 予測精度 – 学習に利用する特徴量をさらに工夫する – 訓練データを増やす • 探索への利用 – 実現確率打ち切りに適用 • 棋風の再現 – 探索による結果とどう折り合いをつけるか
© Copyright 2025 ExpyDoc