進化型IPDを用いた最適戦略の探索

統計数理研究所・共同研究・H25年度
「社会物理学の展望」電機大130313
しっぺ返しに勝つ戦略
とこまで先を読むべきか?
田中美栄子、糸井良太
共同研究者のM2糸井良太君は卒業
鳥取大学大学院工学研究科
情報エレクトロニクス専攻
知識工学A研究室
はじめに
囚人のジレンマ
•
•
協力的な行動はリスクが高い
裏切り的な行動を選んでしまう
例.核兵器保有問題,値下げ競争問題 etc
核兵器を持たない=協力,核兵器を持つ=裏切り
裏切り
協力
どの様に行動を決定するかが重要
戦略
目的
戦略
相手と自分の過去の行動から次手を決定
(履歴)
履歴1個
直前の相手の行動を参照
裏切り 協力 戦略
直前の
相手の行動
裏切り
裏切り 裏切り 戦略
直前の
相手の行動
協力
裏切り
裏切り
戦略
相手と自分の過去の行動から次手を決定
(履歴)
履歴1個
直前の相手の行動を参照
裏切り 協力 戦略
裏切り 裏切り 戦略
直前の
相手の行動
裏切り
直前の
相手の行動
協力
裏切り
裏切り
0
協力
裏切り
1
しっぺ返しより強い戦略は?
「パブロフ」 は 「しっぺ返し」 より強い
• 「しっぺ返し」 は 前回の相手の手に対応
• 「パブロフ」 は 前回の自分と相手の手
「パブロフ」の方が多くの項目を考慮
→ もっと先読みをするともっと強くなる?
強い戦略をさがすために・・・
進化型繰り返し囚人のジレンマモデル
(Iterated Prisoner’s Dilemma)
• 新しい戦略が自動生成
• 強い戦略が生き残る
強い戦略を生成する
参考文献
Kristian Lindgren :“Evolutionary Phenomena in Simple Dynamics”
Artificial Life II,Addison-Wesley,PP.295-312(1990)
進化型IPDモデル
進化型IPDモデルの流れ
対戦
評価
突然変異
世代交代
進化型IPDモデルの流れ
自身を含めた全ての戦略と対戦
対戦
評価
突然変異
世代交代
進化型IPDモデルの流れ
対戦
戦略A
自身を含めた全ての戦略と対戦
戦略B
戦略A
戦略A
戦略B
戦略C
戦略B
戦略C
戦略C
進化型IPDモデルの流れ
対戦
利得
3
0
5
3
自身を含めた全ての戦略と対戦
戦略A
行動
1
1
0
1
戦略B
行動
利得
1
0
0
1
1
3
5
0
3
行
動
失
敗
進化型IPDモデルの流れ
対戦
獲得利得 − 全体利得平均
評価
突然変異
世代交代
進化型IPDモデルの流れ
対戦
評価
突然変異
強い戦略が繁栄
世代交代
進化型IPDモデルの流れ
対戦
評価
突然変異
世代交代
進化型IPDモデルの流れ
新しい戦略の出現
対戦
評価
突然変異
世代交代
進化型IPDモデルの流れ
突然変異
新しい戦略の出現
点変異 1 0 0 1
複写変異 1 0
1 1 0 1
1 0 1 0
※ただし戦略の特徴は変わらない
分離変異 1 1 0 1
※残る戦略はランダムに選択
1 1
進化型IPDモデルの流れ
対戦
評価
突然変異
1サイクル=1世代
世代交代
実験条件
初期戦略
パラメータ
確率
ランダム
点変異確率
2 × 10−5
複写変異確率
1 × 10−5
分離変異確率
ノイズ発生確率
対戦終了確率
1 × 10−5
0.01
0.01
最大世代数
10万世代
自分 , 相手
協力
裏切り
協力
3,3
5,0
裏切り
0,5
1,1
50回のシミュレーションを行う
11753 個(重複あり) の戦略が出現
戦略の評価
評価値𝑊𝑖 の求め方
𝑊𝑖 ≥ 0ならば
強い戦略
𝑊𝑖 < 0ならば
𝑊𝑖 =
(獲得利得 − 平均値)
弱い戦略
戦略の評価結果
785
11753
…
Strategy
1011
0.08
1011 1011 0001 0001
1011 0011 0001 0001
0000
1111 0011 0011 0001
1101 0011 0001 0001
-0.00
11101110
10110100
-2.12
-2.35
0.00
-0.00
𝑾𝒊 ≥ 𝟎
…
遺伝子座ごとの分析
戦略の分析
1001
0000 1111
1111 0000 1010 0101
戦略の分析
• 戦略の長さを合わせる
1001 1001 1001 1001 1001 10011001 1001
0000 1111 0000 11110000 1111 0000 1111
1111 0000 1010 0101 1111 0000 1010 0101
戦略の分析
• 各配置に‘1’が使われる確率を求める
1001 1001 1001 1001 1001 10011001 1001
0000 1111 0000 11110000 1111 0000 1111
1111 0000 1010 0101 1111 0000 1010 0101
0.66
0.33
0.00
分析結果
全ての戦略( 11753 個)
0.5に近い値
戦略構造に特徴がない
分析結果
𝑊𝑖 ≥ 0 を満たす 785 個の戦略
0.5から遠い値
戦略構造に特徴がある
分析結果
𝑊𝑖 ≥ 0 を満たす 785 個の戦略
分析結果
𝑊𝑖 ≥ 0 を満たす 785 個の戦略
1001 0001 0001 0001 1001 0001 0001 0001
同じ文字列
考察
の特徴
の特徴①
2手前の
自分の行動
2手前の
相手の行動
自
相
2手前の
相手の行動
自
相
相
自
相
相
自
相
自分からは裏切らない
相
の特徴②
2手前の
自分の行動
2手前の
相手の行動
自
相
2手前の
相手の行動
自
自
相
相
相
相
自
相
相
裏切られたら即座に報復する
相
の特徴③
2手前の
自分の行動
2手前の
相手の行動
自
相
2手前の
相手の行動
自
自
相
相
相
相
自
相
相
相
裏切り合いが2回続くと関係修復を図る
の特徴④
2手前の
自分の行動
2手前の
相手の行動
自
相
2手前の
相手の行動
自
自
相
相
相
相
自
相
相
搾取できる相手からは,搾取を行う
相
まとめ
• 進化型IPDモデルを用いて様々な戦略
を出現,競わせた
• 出現した戦略を評価、分析を行った
• 長さ32の最強戦略=長さ16戦略
まとめ
• 自分からは裏切らない
• 裏切られたら即座に報復
• 裏切り合いが続くと,関係修復を図る
• 搾取できる相手からは,搾取を行う
今後の課題
• しっぺ返し(L=2)より強い戦略はもっと長い
• パブロフや報復型しっぺ返し(R-TFT)はL=4
• L=4で主流となる「3竦み」はもっと長い戦略に
負ける
• L=16 で安定な戦略が見つかった
• L=32で安定な戦略はL=16 と同一
• L=64 までは大きな変化なし
• L>64 は今後の課題