混合戦略ナッシュ均衡とは? (1)ナッシュ均衡が存在しないゲームが結構ある。 たとえば、コイン合わせゲーム。どの戦略の組 み合わせにも逸脱のインセンティブがある。 プレイヤー2 表を出す 裏を出す プレイヤー1 表を出す (1,-1) (-1,1) 裏を出す (-1,1) (1,-1) 戦略集合の拡張とは? 今までは表をだすか、あるいは裏を出すかという2 者択一の選択であったが、両方の戦略の混合を 考えることができる。たとえば、さいころを振り、出 た目によって戦略を決めるような方法もある。ただ し、各戦略には自由に確率(あるいは確率分布) を与えることができると考えます。すなわち、表を 出す戦略に確率pを、裏を出す戦略に確率1-p を与えると考えます。たとえば、表を出す戦略に 確率1/3(さいころの目が1と2が出たら)で、裏 を出す戦略に確率2/3(さいころの目が3,4,5, 6が出たら)で採用すると考えます。混合戦略と呼 ばれます。 期待値の考え方: 具体例:くじA,B を考える くじA:5%の確率で100 万円,95%の確率でハズレ (0 万円) くじB:20%の確率で8 万円,80%の確率で4 万円 ・ これらを比較する方法(の1 つ)として考えられるの が,期待値(確率変数の平均値)を計算する方法で ある。 期待値の公式 ・ 確率的にあらわれる数値,あるいは確率的にあら われる状態に対して数値を割り当てる関数を,確率 変数と呼ぶ。(例:サイコロの目) ・ それぞれの確率変数に,それがどれくらいの確率 であらわれるかを掛けたものを合計して、 足したものを期待値(平均値)と呼ぶ。 上の具体例の期待値 くじA の期待値:100 万円×0.05+0 万円 ×0.95=5 万円 くじB の期待値:8 万円×0.2+4 万円×0.8 =4.8 万円 サイコロの目(サイコロの目を賞金額とすれ ば)の期待値(平均賞金額) 1×1/6+2×1/6+・・・+6×1/6=21/6=3.5 ペナルティキック(コイン合わせゲーム に代えて) ペナルティキックはキッカーとキーパーの1対1。 キーパーはボールの方向を読む。キッカーは キーパーの読みを外そうとする。 キッカー 左 右 キーパー 左 (1,-1) (-1,1) 右 (-1,1) (1,-1) • キーパーの混合戦略は、 ( p1,1 p1), 0 p1 1 • キッカーの混合戦略は、 ( p2 ,1 p2 ), 0 p2 1 • たとえば、 p1 p2 1/ 2 ならば、キー パーは確率1/2で左に、確率1/2で右に 飛ぶ。キッカーは確率1/2で左にけり、確 率1/2で右にける。 ペナルティキック‧ゲーム 各セルの確率の積は、そのセルが起きる 確率 キッカー 左 キーパー 左 右 p1 p2 右 p1(1 p2 ) (1 p1) p2 (1 p1)(1 p2 ) • 両プレイヤーが混合戦略を採用する場合は、各 プレイヤーは、自らの期待利得を最大にするよう に、混合戦略を決める。キーパーの期待利得は、 Eキーパー(左) p2 1 ( 1 p2 ) (1) 2 p2 1 • キーパーの期待利得は、 Eキーパー(右) p2( 1)( 1 p2 )1 1 2 p2 • しかし、キーパーの期待利得はキーパーの混合 戦略に依存していない。 • もし p2 、 1/ 2 (キッカーが左にキックする確 率)ならば、 Eキーパー(左) 2 p2 1<1 2 p2 Eキーパー(右) キッカーが左にキックする確率が1/2より小さい ので、キーパーは右に飛ぶ。ただし、1/2は 2 p2 1 1 2 p2 すなわち、 4 p2 2 から 計算さ れる • もし p、2>1/ 2 ならば、 Eキーパー(左) 2 p2 1>1 2 p2 Eキーパー(右) キッカーが左にキックする確率が1/2より大きい ので、キーパーは左に飛ぶ。ただし、1/2は 2 p2 1 1 2 p2 すなわち、 4 p2 2 p2 1 /2 • もし p2、 1/ 2 ならば、 Eキーパー(左) 2 p2 1=1 2 p2 Eキーパー(右) • キッカーが左にキックする確率が1/2の 時、キーパーは左に飛ぶことと、右に飛ぶ ことが無差別である。 • キーパーの最適反応関数(左に飛ぶ確率 )は、 0 Bキーパー ( p2) = p:1 0 p1 1 1 も し 、 p2 1/ 2 も し 、 p2 1/ 2 も し 、 p2 1/ 2 p1 • もし ば、 p、1 1/ 2(キッカーが左に蹴る確率)なら Eキッ カー(左) 1 -2 p1>2 p1-1 Eキッ カー(右) キーパーが左に飛ぶ確率が1/2より小さいので、 キッカーは左に蹴る。 もし、 p> 1 1/ 2 ならば、 Eキッ カー(左) 1 -2 p1<2 p1-1 Eキッ カー(右) キーパーが左に飛ぶ確率が1/2より大きいので、 キッカーは左に蹴る。 • キッカーの最適反応関数(左に蹴る確率)は、 1 Bキッ カー ( p1 ) = p2: 0 p 2 1 0 も し 、 p1 1/ 2 も し 、 p1 1/ 2 も し 、 p1 1/ 2 p2 2人の最適反応関数の図示 キッカーの左へ蹴る確率 キッカーの反応関数 1 キーパーの反応関数 1/2 1/2 1 キーパーの 左へ飛ぶ 確率 p1 • 混合戦略ナッシュ均衡 ( p1,1 p1) ( 1/ 2,1/ 2) ( p2 ,1 p2 ) ( 1/ 2,1/ 2) • ナッシュ均衡の期待利得の最大化と予 想と実際に一致(予想の一貫性)を満足 している。また、混合戦略ナッシュ均衡 は2つの純戦略から得られる利得を等 しくすることによって得られている。 混合ナッシュ均衡(1/2,1/2)はナッシュ均 衡の定義2に一致する。 ナッシュ均衡は次のような性質を満たす戦略 * のペア s S S である。 S 1 2 n * * si Bi (si ) for all i N ただし、 Bi (si ) si Si : ui (si , si ) ui (si, si ) for all si Si • もし ば、 p1 1/ 2 (キーパーが左に飛ぶ確率)なら Eキッ カー(左) 1 -2 p1 1/ 2 2 p1-1 1/ 2 Eキッ カー(右) キッカーはどのように戦略 変化しない。したがって、 p2 を変更しても、利得は uキッ カー(si , si ) uキッ カー(si, si ) を満足する。 • もし p 2 ば、 1/ 2 (キッカーが左に蹴る確率)なら Eキーパー(左) 2 p2 1=1 2 p2 Eキーパー(右) キーパーはどのように戦略 p1 を変更しても、利得 は変化しない。したがって、 uキーパー(si , si ) uキーパー(si, si ) を満足する。 恋愛ゲームの混合戦略ナッシュ均衡 計算を簡単にするために、前出の恋愛ゲームをよ り簡単にしている。 女性 男性 野球観戦 野球観戦 (2,1) ディズニー ランド 1 p2 (0,0) ディズニー ランド (0,0) (1,2) p1 1 p1 p2 • 両プレイヤーが混合戦略を採用する場合は、 各プレイヤーは自らの期待利得を最大にする ように、混合戦略を決める。男性の期待利得は E男性(野球観戦) p2 2 ( 1 p2 ) 0 2 p2 E男性 (ディ ズニーラ ンド ) p2 0 ( 1 p2 )1 1 p2 ただし 、 p1は女性が野球観戦に行く 確率 • 2つの戦略が等しい期待利得を与える確率は 2 p2 1 p2 p2 1/ 3およ び1-p2 2 / 3 • 男性の最適反応関数(野球に行く確率)は 0 B男性 ( p2) = p:1 0 p1 1 1 も し 、 p2 1/ 3 も し 、 p2 1/ 3 も し 、 p2 1/ 3 • 女性の期待利得は、 E女性(野球観戦) p1 1 ( 1 p1 ) 0 p1 E女性 (ディ ズニーラ ンド ) p1 0 ( 1 p1 ) 2 2 ( 1 p1 ) 2つの戦略が等しい期待利得を与える確率 は p1 2 ( 1 p1 ) p1 2 / 3およ び1-p1 2 / 3 • 女性の最適反応関数は、 1 B女性 ( p1) = p2: 0 p 2 1 0 も し 、 p1 2 /3 も し 、 p1 2 /3 も し 、 p1 2 /3 2人の最適反応関数の図示 p2女性の野球の確率 1 B女性 ( p1) 女性の反応関数 男性の反応関数 B男性 ( p2) 1/3 男性の野球の確率 2/3 1 p1 • 混合戦略ナッシュ均衡は2つの最適反応関 数混合戦略ナッシュ均衡の交点に対応する 。混合戦略ナッシュ均衡は、 ( p1,1 p1) ( 1/3 ,2 /3 ) ( p2 ,1 p2 ) ( 2 /3 ,1/3 ) • 恋愛ゲームではこの混合ナッシュ均衡と2つ の純戦略ナッシュ均衡の合計3つある。すべ て、2つの反応関数の交点に対応する。 他の2つの純戦略ナッシュ均衡は、 ( p1,1 p1) ( 1 ,0 ) ( p2 ,1 p2 ) ( 1 ,0 ) ( p1,1 p1) ( 0 ,1 ) ( p2 ,1 p2 ) ( 0 ,1 ) タカ‧ハトゲームの利得表 ハト タカ ハト (2,2) (1,3) タカ (3,1) (0,0) プレイ ヤー2 プレイ ヤー1 • プレイヤー1の期待利得は、 Eプレイ ヤー1 (ハト ) p2 2 ( 1 p2 )1 p2 1 Eプレイ ヤー1 (タ カ) p2 3 ( 1 p2 ) 0 3 p2 2つの戦略が等しい期待利得を与える確率 は p2 +1 3 p2 p2 1/2 およ び1-p2 1 /2 • プレイヤー1の最適反応関数(ハトをとる確 率)は、 0 すなわち、 ハト Bプレイ ヤー1 ( p2) = p:1 0 p1 1 1 すなわち、 タ カ も し 、 p2>1/2 も し 、 p2 1/2 も し 、 p2>1/2 • プレイヤー2の期待利得は、 Eプレイ ヤー2 (ハト ) p1 2 ( 1 p1)1 p1 1 Eプレイ ヤー1 (タ カ) p1 3 ( 1 p1 ) 0 3 p1 2つの戦略が等しい期待利得を与える確率は p1+1 3 p1 p1 1/2 およ び1-p1 1 /2 • プレイヤー2の最適反応関数は、 0 すなわち、 ハト Bプレイ ヤー2 ( p1) = 0 , 1 1 すなわち、 タ カ も し 、 p2<1/2 も し 、 p2 1/2 も し 、 p2>1/2 2人の最適反応関数の図示 p2 1 タカ 1/2 ハト プレイヤー2の反応関数 プレイヤー1の反応関数 1/2 タカ 1 p1 じゃんけんゲームにおける混合戦 略ナッシュ均衡。 純戦略ナッシュ均衡は存在しないが、混合戦略 ナッシュ均衡は存在する。 グー チョキ パー グー 0,0 1,-1 -1,1 チョキ 1,-1 0, 0 1.-1 パー 1,-1 -1,1 0, 0 じゃんけんゲームにも純粋ナッシュ 均衡は存在しない。 グー チョキ パー グー 0,0 1,-1 -1,1 チョキ 1,-1 0,0 1.-1 パー 1,-1 -1,1 0,0 • プレイヤー1は、 ( p1, p2 ,1 p1 p2 ) • プレイヤー2は、 ( q1, q2 ,1 q1 q2 ) という混合戦略をとる。期待値は同じになる Eプレ イ ヤー1 (グー) p1 0 p 2 1 (1) ( 1 p1 p 2 ) 1 p1 Eプレイ ヤー1 (チョ キ) p1 1 p 2 0 1( 1 p1 p 2 ) 2 p1 p 2 1 Eプレイ ヤー1 (パー) p1 1 p 2 -1 0 ( 1 p1 p 2 ) p1 p 2 • 混合戦略ナッシュ均衡は一つであり、 ( p1, p2 ,1 p1 p2 ) ( 1/3 ,1/3 ,1/3 ) ( q1, q2 ,1 q1 q2 ) ( 1/3 ,1/3 ,1/3 ) 期待値は同じになる 1 1 1 Eプレ イ ヤー1 (グー) 0 1 ( 1 ) 0 3 3 3 1 1 1 Eプレイ ヤー1 (チョ キ) (1) 0 ( -1) 0 3 3 3 1 1 1 Eプレイ ヤー1 (パー) 1 (1) 0 0 3 3 3 ナッシュは次の定理も証明した。 有限ゲームおいて、混合戦略ナッシュ 均衡の混合戦略を構成する純戦略は他 のプレイヤーの混合戦略に対して最適 戦略になっている。なぜなら、混合戦略 ナッシュ均衡を構成する純戦略は同じ 期待利得を与えるからです。 ナッシュは次の定理を証明した。 戦略の数が有限である有限ゲームお いて、戦略集合を混合戦略まで含め ると、この有限ゲームには必ずナッシ ュ均衡が存在する。
© Copyright 2024 ExpyDoc