経済学のためのゲーム理論入門 第 1 章 完備情報の静学ゲーム 1.10 記号の表記法は 1.9 と同じ.また,1.9 の解答に倣い,本問の解答においても,「厳密な混合戦 略」とは「純粋戦略ではない混合戦略(ある純粋戦略に確率 1 を付与し,他の全ての純粋戦略には 確率 0 を付与している戦略)」を意味するものとし,純粋戦略も広い意味での「混合戦略」のうち の 1 つであると考える. (Case1)囚人のジレンマ 「黙秘」を C , 「自白」を D で表す.プレイヤー 1 が C に付与する確率を p,プレイヤー 2 が C に 付与する確率を q で表す(つまり,σ1 (C) = p, σ1 (D) = 1 − p, σ2 (C) = q, σ2 (D) = 1 − q であ る) .ここで,プレイヤー 1 の期待利得は, u1 = −pq − 9p(1 − p) − 6(1 − p)(1 − q) = (2q − 3)p + 6q − 6 (1) ここで,2q − 3 は常に負だから,プレイヤー 1 は,p = 0 とするのが最適である*1 .同様にプレイ ヤー 2 の意思決定についても考えて,q = 0 とするのが常に最適である.よって Nash 均衡では, プレイヤー 1 は q の値によらず p = 0(つまり純粋戦略 D) ,プレイヤー 2 は p の値によらず q = 0 (純粋戦略 D )をプレイすることがわかる*2 .よって,(D, D) が唯一の Nash 均衡であり,(厳密 な)混合戦略 Nash 均衡が存在しないことが分かる. 以下では,混合戦略 Nash 均衡を考えていく上で重要になる命題をいくつか挙げていく. (命題 1) 一般に, (厳密でない混合戦略も許して)混合戦略の組 σ ∗ ∈ Σ を Nash 均衡であるとし,さらにあ るプレイヤー i の戦略 s′i ∈ Si が他の戦略に強く支配されている場合, s′i ̸∈ supp(σi∗ ) (2) が成立する*3 .つまり,他の戦略に強支配される純粋戦略は,混合戦略 Nash 均衡においては正の 確率を付与されていない(サポートに含まれていない)ということである.このことに対する簡単 な証明を以下で与える. 混合戦略 Nash 均衡 σ ∗ ∈ Σ において,あるプレイヤー i の混合戦略に,他の何らかの戦略に強支 配される純粋戦略(これを s′i と名付ける)に正の確率が付与されていたとする.この時,プレイ *1 Nash 均衡では,相手の戦略を所与として各プレイヤーが自分の期待利得を最大化している(つまり,相手の戦略に 対して常に最適な反応をとっている)ことが必要である.ここでは,プレイヤー 1 が q の値を所与として,p の値を 変化させることにより自らの期待利得を最大化することを考えている. これは,両プレイヤーにとって,純粋戦略 D が強支配戦略であることからも導くことができる. *3 プレイヤー i の混合戦略のサポート(supp(·))は,supp(σi ) = {si ∈ Si |σi (si ) > 0} で定義される.つまり,あ る混合戦略について,その混合戦略において正の確率を付与されている純粋戦略の集合を「サポート」と呼ぶ. *2 1 経済学のためのゲーム理論入門 第 1 章 完備情報の静学ゲーム ヤー i は,他のプレイヤーの戦略によらず,s′i に付与されている確率を少しだけ小さくすることに よって自己の期待利得を厳密に向上させることができる.特に,他のプレイヤーの戦略を混合戦略 ∗ Nash 均衡 σ−i における戦略に固定すれば,プレイヤー i は,σi (s′i ) を少しだけ小さくすることに よって期待利得を厳密に向上させることができる(そしてこれは,Nash 均衡における戦略の最適 性と矛盾する)ので,このことから,s′i が混合 Nash 均衡における戦略 σi∗ のサポートに含まれて いないことが分かる. この命題を用いれば,各プレイヤーについて D が C に強支配されているため,混合戦略 Nash 均 衡においては D に付与される確率が 0 になっていなければならないから,厳密な混合戦略 Nash 均衡が存在しないことがすぐにわかる. (Case2)表 1.1.1 先述の(命題 1)を繰り返し用いる. (1) まず,プレイヤー 2 の純粋戦略 R は M に強く支配されているので,均衡ではプレイヤー 2 が M に付与する確率は 0 になっているはずである. (2) さらに,プレイヤー 2 が M に付与する確率が 0 であることをプレイヤー 1 が知っているとす るならば,L と M に付与される確率によらず,プレイヤー 1 にとっては U をとるのが常に最適で ある(つまり,D には正の確率を付与しないことが最適である). (3) D に付与される確率が 0 になる(つまり,プレイヤー 1 が確率 1 で U をプレイする)ことをプ レイヤー 2 が知っていれば,プレイヤー 2 にとっては M を確率 1 でプレイするのが最適である*4 . 以上の推論から,このゲームには唯一の Nash 均衡 (U, M ) が存在して,厳密な混合戦略 Nash 均 衡は存在しない. (命題 2) σ ∗ を厳密な混合戦略 Nash 均衡とする.この時,σ ∗ のサポートに含まれるプレイヤー i の全ての ∗ 純粋戦略は,σ−i に対して全く同じ期待利得を与える.つまり, ∗ ∗ ) = Eui (bi , σ−i ) ∀ai , bi ∈ supp(σi∗ ) , Eui (ai , σ−i (3) ∗ となっている.これは,サポートに含まれている純粋戦略が,σ−i の下でもし違う期待利得を与え ているとしたら,大きいほうの期待利得を与える純粋戦略により大きな確率を付与することで,プ レイヤー i は自己の期待利得を厳密に向上させることができる(これは Nash 均衡における戦略の 最適性と矛盾する)ことから証明することができる.この命題は,特に純粋戦略集合の数が 3 つ以 上になった場合に,混合戦略 Nash 均衡を計算していく上で非常に有用な命題である. (Case3)表 1.1.4 プレイヤー 2 が L に付与する確率を p,C に付与する確率を q ,R に付与する確率を 1 − p − q と *4 (1),(2),(3) が,強支配される戦略の逐次消去(Iterative Elimination of Strongly Dominated Strategy)の 過程と同じになっていることに気づかれたい. 2 経済学のためのゲーム理論入門 第 1 章 完備情報の静学ゲーム する.この時,プレイヤー 1 について, T をとることによる期待利得: πT = 5 − 5p − q M をとることによる期待利得: πM = 5 − 5p − q U をとることによる期待利得: πT = 6 − 3p − 3q (4) となっている.ここで,πT = πM = πU を満たす (p, q) の組(ただし,0 < p, q < 1)が存在しな いことから, (命題 2)より,T ,M ,B の各純粋戦略の全てに正の確率を付与する混合戦略の Nash 均衡は存在しないことがわかる.次に,T と M だけに正の確率を付与する厳密な混合戦略 Nash 均衡の存在を確かめる.もしそのような Nash 均衡が存在するならば,πT = πM より,p = q .か つ,仮定から p + q = 1 なので,p = q = 1 2 である*5 . この時,πT = πM = 2 だが,この p と q を 所与とした場合,B をとることにより確実に 3 の利得を得ることができるから,プレイヤー 1 に とっては純粋戦略 B をとるのが最適になる.これは Nash 均衡における戦略の最適性に反するの で,T と M だけに正の確率を付与するような厳密な混合戦略 Nash 均衡は存在しないことがわか る.次に,T と B だけに正の確率を付与するような厳密な混合戦略が存在するかを確かめる.も しそのような Nash 均衡が存在するならば,πT = πB より,p + 1 2 = q が得られ,かつ M には正 の確率を付与しない均衡を考えているので,q = 0 である.この時,p = − 12 となるが,0 < p < 1 が必要であることから,明らかにこの p の値は不適切である.ゆえに,T と B だけに正の確率を 付与する厳密な混合戦略 Nash 均衡は存在しない.全く同様の理由で,M と B だけに正の確率を 付与するような厳密な混合戦略 Nash 均衡も存在しない*6 .以上の推論から,2 つ以上の戦略に厳 密に正の確率を与えるような混合戦略 Nash 均衡は存在しないことが分かる.そして,このゲーム における唯一の Nash 均衡は,純粋戦略 Nash 均衡 (B, R) である. *5 状況がプレイヤー 1 とプレイヤー 2 について完全に対称的なので,均衡における戦略も対称的なものになっている はずである.ここでは,プレイヤー 2 が各純粋戦略に付与する確率ついて,L と T ,C と M ,B と R の間で全て 等しいと考えても問題ない.つまり,均衡においてプレイヤー 1 が T に付与する確率が a (ただし 0 ≤ a ≤ 1) と なっていれば,プレイヤー 2 も L に全く同じ確率 a を付与しているはずである,ということであり,本問ではこの ことを踏まえて分析を進めていく. *6 この場合,p = 0, q = − 1 が得られ,q の値が不適切であることが分かる. 2 3
© Copyright 2024 ExpyDoc