囚人のジレンマ ―― 裏切りのインセンティブ ―― 宮野 哲史 平野研究室 2009年度 夏合宿 今日お話しすること ゲーム理論 複数の行為主体が各自の目的のために行動を起こすと き、利害の対立と協力が生ずる(ゲーム的状況) ゲーム的状況において、どのような意思決定をすることが 合理的であるか? 囚人のジレンマ 本日のメイントピック ゲーム理論における、ひとつの重要な帰結 個々の最適な選択が、全体としての最適な選択とはなら ない状況のこと 1 「ゲーム」の構成要素 プレイヤー(Player) 合理的であり、自己の利得を最大化することを前提とする 戦略(Strategy) プレイヤーがとる行動のこと 利得(Payoff) ある戦略を実行したときに得られる結果を数値化 以下では、プレイヤーが2人の場合についてみていく。 2 「ゲーム」の例 AliceとBobは、トランプのKとQを一枚ずつもっています。 わたしがAliceです ^ω^ ^o^ K わたしがBobです Q K Q 出したカードに応じて、お金がもらえるゲームです。 • プレイヤー → 「Aさん」と「Bさん」 • 戦略 → 「K」か「Q」か • 利得 →もらえる金額 3 「ゲーム」の例 AliceとBobは、トランプのKとQを一枚ずつもっています。 わたしがAliceです ^ω^ ^o^ K わたしがBobです Q K Q 出したカードに応じて、お金がもらえるゲームです。 •A=K, B=K → Aは5000円、Bは2000円もらえる •A=K, B=Q → Aは7000円、Bは4000円もらえる なんだか わかりづらい。。。 •A=Q, B=K → Aは4000円、Bは7000円もらえる •A=Q, B=Q → Aは3000円、Bは8000円もらえる 4 利得行列 A,Bの戦略と、利得の関係を行列として表す 行はAの戦略、列はBの戦略 各成分は (Aの利得, Bの利得) Bの戦略 K Q Aの戦略 K (5000, 2000) (7000, 4000) Q (4000, 7000) (3000, 8000) いまの例から利得行列をつくると、上記のようになる。 5 例)利得行列を使った分析 ――Aの立場に立って Bの戦略 K Q Aの戦略 K (5000,2000) (7000,4000) Q (4000,7000) (3000,8000) 相手(B)の出方を予測 – Bはクイーンを出したほうが利得が高い 自分(A)の利得を高める戦略を考える – Aはキングを出したほうが利得が高い 相手の出方に対して、最も利得を高める戦略を選ぶ・・・最適反応 6 例)利得行列を使った分析 ――Bの立場に立って Bの戦略 K Q Aの戦略 K (5000,2000) (7000,4000) Q (4000,7000) (3000,8000) 相手(A)の出方を予測 – Aはキングを出したほうが利得が高い 自分(B)の利得を高める戦略を考える – Bはクイーンを出したほうが利得が高い 最適反応が一致 → この場合の支配戦略は、Alice:K, Bob:Q 7 ゲームの分類 各プレーヤーが事前に話 し合いを持たずに、各自 の戦略を自ら決定する 非協力ゲーム ある1人の利益が、必ずし も他者の損失にならない 非zero-sumゲーム 協力ゲーム zero-sumゲーム (Aの利得+Bの利得≠0) プレーヤーは同時に戦略を 決定する 同時進行ゲーム 交互進行ゲーム 8 囚人のジレンマ 問題設定 強盗を犯した二人組(AliceとBob)が逮捕され、 別々の部屋で尋問されている。 わたしが やりました アタシ 黙秘 ていうか やってないし みたいな 戦略・・・「自白」or「黙秘」のふたつ それぞれの戦略をとったときに、 二人とも黙秘・・・二人とも懲役2年 どちらかが自白・・・自白したほうは懲役1年、黙秘したほうは20年 二人とも自白・・・二人とも懲役5年 いま支配戦略は何だろうか? 9 囚人のジレンマ 利得行列 Bの戦略 (懲役は損だからマイナスとして書いた) 自白 黙秘 Aの戦略 自白 (-5, -5) (-1, -20) 黙秘 (-20, -1) (-2, -2) Bobが自白を選ぶと仮定 →Aliceは自白したほうが得 Bobが黙秘を選ぶと仮定 支配戦略は ふたりとも自白 →Aliceは自白したほうがやっぱり得 10 囚人のジレンマ 利得行列 Bの戦略 (懲役は損だからマイナスとして書いた) 自白 黙秘 Aの戦略 自白 (-5, -5) 黙秘 (-20, -1) (-1, -20) 和=-10 和=-4 (-2, -2) 支配戦略にしたがって、結果はふたりとも懲役5年 しかし、ふたりとも黙秘していれば懲役2年で済んだ 全体の利得を最大にする方法があるのに、 自分の利得のみを追求した結果たがいに損をしてしまう! 11 囚人のジレンマ 問題を一般化 Bの戦略 裏切り 協調 Aの戦略 裏切り (P, P) (T, S) 協調 (S, T) (R, R) 利得の条件 S < P < R < T, 2 R > S + T S : 裏切られて俺だけ大損 R : 信じあってみんな得 P : 裏切りあってみんな損 T : 裏切って俺だけウハウハ 12 例)軍拡競争における「囚人のジレンマ」 適用例 プレイヤー S P R T 軍拡競争 国家 弱小化 軍拡 国際緊張 軍縮協定 協定違反 強大化 自国は軍縮せず、相手国は協定に誠実に軍縮している 状態がもっともいい(T) それに次ぐのは両国が軍縮している状態(R)、その次は 両国が軍縮しない状態である(P) 最悪はその国は誠実に軍縮しているのに相手国はしてい ない状態である(S) 結局、各国は軍拡を選択し、国際緊張に陥ってしまう 13 まとめ 「自分だけ裏切れば得をする」という状況では、 誰もが裏切りのインセンティブ(動機、誘因)を持ち、 そして実行してしまう こういった状況は現実社会にもよく見られる 適用例 プレイヤー S P R T 軍拡競争 国家 弱小化 軍拡 国際緊張 軍縮協定 協定違反 強大化 環境問題 企業 競争力低下 環境悪化 環境保護 競争力上昇 秩序問題 ヒト 生命の危機 自然状態 社会状態 優越 表の出典:計量社会科学ワークショップ(http://www.qmss.jp/qmss/) 14 参考文献 J. von Neumann et.al. , “Theory of Games and Economic Behavior”, 1944 まじめに勉強したい方はフォンノイマンの本を読んでみよう! ぼくもいつか読んでみたいです THE END 15
© Copyright 2024 ExpyDoc