Repeated Games and Reputations Reputations with Short-Lived Players 九州大学 ジョ・ヨンジュン Long-lived player (player 1) and short lived player (player 2) H L 長期 プレイヤ 短期 プレイヤ h 2, 3 3, 0 l 0, 2 1, 1 … … 概要 • 非対称な(長期プレイヤと短期プレイヤ) ゲームにおける評判を考える • 非合理的・非理性的なプレイヤのtypeを想定, 短期プレイヤに長期プレイヤのtypeを 予想させる • 均衡によって実現できるpayoffと比べ, より高いpayoffを実現する アウトライン • • • • • • The Adverse Selection Approach to Reputation Commitment Types Perfect Monitoring Games Imperfect Monitoring Games Temporary Reputation まとめ The Adverse Selection Approach to Reputation • 非対称な(長期プレイヤと短期プレイヤ) 関係を持つゲームにおいて 評判がどのように確立・影響するかを分析 • 評判に関する説明 1. 各stage gameにおけるNash equilibriumでない 行動を引き起こす 2. 相手に関する情報が分からないから… • 今回は2番目の方法 (Adverse Selection approach)を採用 The Adverse Selection Approach to Reputation • Incomplete gameという解釈 – 相手のpayoffがわからない – 相手の行動における制約がわからない • Incomplete gameと捉えた場合, 均衡集合の それぞれの均衡のpayoffは大きく変化 • 可能な均衡の条件を設けることができる • 不完備であるため, 相違な均衡集合達がある The production-choice game • 望ましいaction profile – 生産者: H – 消費者: h – NEではない! H L h 2, 3 3, 0 • 生産者はHを採り続けることで, 「良い物を作っている」と言う 評判を作ることが出来るのか? l 0, 2 1, 1 The production-choice game • もし, 生産者がHを採り続けるとしても, 最初, それから暫くの間は 消費者が生産者の意図(type)に気づけない • 疑問点 – 最初に生産者がHを採る, そして採り続けることは 生産者にとっては投資 – ならば, その投資は subsequent payoff, つまり 後で得られるpayoffに見合うものとなるか? The Adverse Selection Approach to Reputation • 完備情報ゲームにおいては, 今までの履歴は今後のゲームに影響しない • 不完備ゲームならば, player 1がcommitment typeである可能性 𝝁 をplayer 2が少しでも考慮するならば, 状況は大きく変化する • 更に, imperfect monitoring gameの時, どんなに𝝁が小さくても0より大きければ, … アウトライン • • • • • • The Adverse Selection Approach to Reputation Commitment Types Perfect Monitoring Games Imperfect Monitoring Games Temporary Reputation まとめ Payoff Types and Commitment Types • player 1のタイプ𝜉 ∈ Ξを二つに分類する – Payoff types Ξ1 平均割引利得を最大化しようとするタイプ – Commitment types Ξ2 = Ξ \Ξ1 , Ξ1 𝑐 今回はsimple commitment typesを中心に議論 • Payoff typesとcommitment typesの区分は 明確ではない Commitment Types • ランダムなcommitment typesはそのプレイヤの payoffの下限を上げることが出来る • Simple commitment typesとは, historyと関係なく同じactionを採り続けるtype • Player 2が短期プレイヤの場合, commitment typeのplayer 1の事前payoffは simple commitment typesである時のみ得られる Commitment Types • Player 1のpure-action Stackelberg payoff 𝑣1∗ は 𝑣1∗ = sup min 𝑢1 𝑎1 , 𝛼2 となる 𝑎1 ∈A1 𝛼2 ∈𝐵 𝑎1 – 𝛼2 = 𝐵 𝑎1 : 𝑎1 に対するmyopicな最適反応 • あるaction 𝑎1∗ によって𝑣1∗ の上限が達成されるな らば, これを Stackelberg actionとする 𝑎1∗ ∈ arg max min 𝑢1 𝑎1 , 𝛼2 𝑎1 ∈𝐴1 𝛼2 ∈𝐵 𝑎1 • (Pure action) Stackelberg actionを採り続ける player 1のtypeを 𝜉 𝑎1∗ ≡ 𝜉 ∗ とする アウトライン • • • • • • The Adverse Selection Approach to Reputation Commitment Types Perfect Monitoring Games Imperfect Monitoring Games Temporary Reputation まとめ Perfect Monitoring Games • Player 1のbehavior strategy – 𝜎1 : 𝐻 × Ξ → Δ 𝐴1 • Player 1の commitment types 𝜉 behavior strategy – 𝜎1 ℎ𝑡 , 𝜉 𝜎1 = 𝜎1 ℎ𝑡 • A Nash equilibrium is a collection of mutual best responses Perfect Monitoring Games • A strategy profile σ1 , σ2 is a Nash equilibrium of the reputation game with perfect monitoring if for all ξ ∈ 𝛯1 , σ1 maximizes 𝑈1 𝜎1 , σ2 , 𝜉 over player 1’s repeated game strategies, and if for all 𝑡 and all ℎ𝑡 ∈ 𝐻 that have positive probability under σ1 , σ2 and μ, 𝐸 𝑢2 σ1 ℎ𝑡 , 𝜉 , σ2 ℎ𝑡 ℎ𝑡 = 𝑚𝑎𝑥 𝐸 𝑢2 σ1 ℎ𝑡 , 𝜉 , 𝑎2 ℎ𝑡 𝑎2 ∈𝐴2 Building a Reputation with Perfect Monitoring Games • player 2がnormalなplayer 1のタイプが 𝜉 𝑎’1 ≡ 𝜉’’である確率が正だと思っている – player 1は 𝑎1′ を採り続ける – player 2は, 𝑎1′ が採られる可能性 (player 1が𝜉 𝑎’1 である確率)を上げていく – その「評判」を築くまでには時間を要する – その間の費用・投資は player 1が十分辛抱強ければ無視出来る Building a Reputation with Perfect Monitoring Games ′ 𝑎1 がStackelberg ∗ 𝑎1 ならば, • もし, action player 1が十分辛抱強い時, player 1のpayoffのlower boundは player 1の 𝑣1∗ (pure-action Stackelberg payoff) となる Building a Reputation with Perfect Monitoring Games • Ω ≡ Ξ × 𝐴1 × 𝐴2 ∞ – Ω is the space of outcomes • ω = 𝜉, 𝑎10 𝑎20 , 𝑎11 𝑎21 , … ∈ Ω • 𝐏∈𝚫 Ω – P is probability measure on the set of outcomes Ω • Ω′ = 𝜔: 𝑎1𝑡 𝜔 = 𝑎1′ ∀𝑡 ⊂ Ω – Ω′ is the event that the action 𝑎1′ is chosen in every period Building a Reputation with Perfect Monitoring Games • 𝑞 𝑡 ≡ 𝑷 𝑎1𝑡 = 𝑎1′ ℎ𝑡 – ℎ𝑡 ∈ 𝐻 𝑡 is the public history • 𝑞 𝑡 ℎ𝑡 ≡ 𝑞 𝑡 𝜔 ≡ 𝑷 𝑎1𝑡 = 𝑎1′ ℎ𝑡 𝜔 – 𝑞𝑡 ℎ𝑡 is player 2’s belief about player 1’s play after any history ℎ𝑡 Building a Reputation with Perfect Monitoring Games • The normal player 1 receives payoff at least min ′ 𝑢1 𝑎1′ , 𝑎2 in period t in which 𝑞𝑡 is sufficiently 𝑎2 ∈𝐵(𝑎1 ) large – Player 2 choose the best response 𝑎2 – Hence, player 1 plays 𝑎1′ • The normal player 1 have option of always playing 𝑎1′ – The payoff in any Nash equilibrium is also bounded below by the payoff generated by always playing 𝑎1′ – If there is a bound on the number of periods in which after always observing 𝑎1′ , player 2’s period 𝑡 belief assign low probability to 𝑎1′ , then there is a lower bound on the normal player ‘1s equilibrium payoff The Reputation Bound with Perfect Monitoring Games • In the stage-game, player 1 can guarantee the payoff 𝑣1∗ 𝑎1 ≡ min 𝑢1 𝑎1 , 𝑎2 𝑎2 ∈𝐵 𝑎1 • Let 𝑣1 (𝜉0 , 𝜇, 𝛿) be the infimum over the set of the normal player 1’s payoff in any (pure or mixed) Nash equilibrium The Reputation Bound with Perfect Monitoring Games • Commitment typeの集合が十分であれば, player 1のpayoffの下限はStackelberg payoff となる The Reputation Bound with Perfect Monitoring Games The role of discounting • In the reputation argument, the discount factor plays a dual role – Make future payoffs relatively more important – It discounts into insignificance the initial sequence of periods during which it may be costly for player 1 to mimic the commitment type • Future payoffs could attain sufficient weight to deter current deviations – Via a sufficiently large discount – Via stage-game payoffs that provide sufficiently small rewards for deviating from prescribed actions The role of discounting • We have seen that large discount factors also suffice to support reputation arguments. • There is no reason to expect stage-game payoffs that provide relatively small incentives for deviating from an equilibrium to do likewise H L h 2, 3 3, 0 l 0, 2 1, 1 アウトライン • • • • • • The Adverse Selection Approach to Reputation Commitment Types Perfect Monitoring Games Imperfect Monitoring Games Temporary Reputation まとめ Imperfect Monitoring Games • Playerのprivate historyは 自分の採った行動と受け取ったシグナルとの 組合せの時系列で構成される • Player 1のbehavior strategy – 𝜎1 : 𝐻1 × Ξ → Δ 𝐴1 • Player 1のcommitment type behavior strategy 𝜎1 – 𝜎1 ℎ1𝑡 , 𝜉 𝜎1 = 𝜎1 ℎ1𝑡 • player 2のbehavior strategy – 𝜎2 : 𝐻2 → Δ A2 Imperfect Monitoring Games • A strategy profile σ1 , σ2 is a Nash equilibrium of the reputation game with imperfect monitoring if for all ξ ∈ 𝛯1 , σ1 maximizes 𝑈1 𝜎1 , σ2 , 𝜉 over player 1’s repeated game strategies, and if for all 𝑡 and all ℎ2𝑡 ∈ 𝐻2 that have positive probability under σ1 , σ2 and μ, 𝐸 𝑢2 σ1 ℎ1𝑡 , 𝜉 , σ2 ℎ2𝑡 ℎ2𝑡 = 𝑚𝑎𝑥 𝐸 𝑢2 σ1 ℎ1𝑡 , 𝜉 , 𝑎2 ℎ2𝑡 𝑎2 ∈𝐴2 Stackelberg Payoffs with Imperfect Monitoring Games • Imperfect monitoringでは, 𝑎1 に対する player 2の最適反応は(perfect monitoringに おける最適反応𝐵 𝑎1 とは限らない • player 1がかなりの確率である混合戦略α1 を 採ると考えると, player 2の(混合)戦略α2 は 𝜀 − 𝑐𝑜𝑛𝑓𝑖𝑟𝑚𝑒𝑑 𝑏𝑒𝑠𝑡 𝑟𝑒𝑠𝑝𝑜𝑛𝑠𝑒 𝑡𝑜 α1 : 𝐵𝜀 α1 とする Stackelberg Payoffs with Imperfect Monitoring Games • 𝐵𝜀 α1 = 𝛼2 とは player 1のあるmixed action 𝛼1′ に関して – player 2のmixed action 𝛼2 は, 𝛼1′ に対する最適反 応𝑎2 から構成される • α2 a2 > 0 ⇒ 𝑎2 ∈ arg max 𝑢2 𝛼1′ , 𝑎2′ 𝑎2′ – Action profile (𝛼1 , 𝛼2 ) が採られた時と, action profile (𝛼1′ , 𝛼2 )が採られた時の各シグナルの observation probabilityの差がε以下 • 𝜋2 ∙ 𝛼1 , 𝛼2 − 𝜋 ∙ 𝛼1′ , 𝛼2 ≤𝜀 Stackelberg Payoffs with Imperfect Monitoring Games • Short-lived playerにとって, private monitoring とcanonical public monitoringの間には プレイヤの選択を導く情報に差がある • Private monitoringでは – 𝐵𝜀∗ 𝛼1 ≡ 𝛼2 : 𝑠𝑢𝑝𝑝 𝛼2 ⊂ 𝐵𝜀 𝛼1 • Canonical public monitoringでは – 𝐵𝜀∗ 𝛼1 ≡ 𝐵𝜀 𝛼1 Stackelberg Payoffs with Imperfect Monitoring Games • player 2がplayer 1を simple commitment type 𝜉 𝛼1′ である正の信念を持っているならば, 全てのNash equilibriumは𝑣 𝛼1′ 以上である – 𝑣 𝛼1′ : 𝛼1′ と𝛼2 ∈ 𝐵0∗ 𝛼1′ に関する最小のpayoff – 𝑣 𝛼1′ の上限を𝑣1∗∗ とする The purchase game • 望ましいaction profile – 生産者: H – 消費者: b – NEではない! H L d 0, 0 0, 0 d b 1, 1 2, -1 0 0 b H 1 1 L 2 -1 The purchase game • 𝐻に対する最適反応𝐵(𝐻)は, 𝑏 のみである • max min 𝑢1 𝑎1 , 𝑎2 = 1となるので, 𝑎1 ∈𝐴1 𝑎2 ∈𝐵 𝑎1 pure-action Stackelberg payoffはaction 𝐻に よって達成される • よって, pure-action Stackelberg type 𝜉 ∗ の プレイヤはaction 𝐻を採る The purchase game • Player 1 のtype 𝜉は𝜉 ∈ Ξ = 𝜉0 , 𝜉 ∗ とする • 𝜋2 ∙ 𝐻𝑑 − 𝜋2 ∙ 𝐿𝑑 = 0 なので, 𝑏と𝑑は共に𝐻への 0 − 𝑐𝑜𝑛𝑓𝑖𝑟𝑚𝑒𝑑 𝑏𝑒𝑠𝑡 𝑟𝑒𝑠𝑝𝑜𝑛𝑠𝑒𝑠 である • よって, 𝑣1∗∗ = 0 → 最低限の利得しか実現できない 1 2 ∗ 1 2 • 計算してみると, 𝛿 > かつ 𝜇 𝜉 < なら sequential equilibriumのpayoffは(0,0)となる The purchase game • 望ましい均衡を考える – すべてのplayer 2は 𝑑 を選択 – Normal type 𝜉0 の player 1はLを選択 – Stackelberg type 𝜉 ∗ の player 1はHを選択 • 与えられた 𝜇 から考えるに, 𝑏を選択するということは賭け – 𝜇 において, player 1のtype が 𝜉0 である確率が 1 より大きいと考えるならば, 2 player 2は best responseとして 𝑑 を選択 • 結果的にNash equilibriumとして, (0,0)を得る The purchase game • Player 2が𝑏を採ってきたら, 𝜉0 なplayer 1は L を採る(NEは依然と(0,0)) • This strategy profile fails a minimal sequential rationality requirement • しかし, 本当に𝜉0 なplayer 1は L を採るか? • もし, player 1がHを採れば(ξ 𝜎1 = 𝜉 ∗ ) – Lを採れば, 自分のtypeが𝜉0 だとを知らせるだけ – Hを採れば, ξ∗ である可能性を次のplayer 2が気づく Hが採り続けられる限り, player 2も 𝑏 を採ってくれる The purchase game • 消費者が𝑑を採る時, 何の情報も得られない • よって, 𝑑が全ての𝛼1 に対する最適反応なら, 生産者の行動Hに対する最適反応も𝑑になる • 情報を与えてくれないアクションが無いことが, 𝐵 𝛼1 = 𝐵0 𝛼1 となる必要条件 • つまり, player 2がどのような行動に対しても, player 1の異なる行動が 同じ確率でシグナルを発生させてはならない The Reputation Bound with Imperfect Monitoring Games • 𝑣 𝜉0 , 𝜇, 𝛿 はnormal player 1のpayoffの下限の集合 • Proposition 15.4.1 Let 𝜉 denote the simple commitment type that always plays 𝛼1 ∈ Δ A1 . Suppose 𝜇 𝜉0 , 𝜇 𝜉 > 0. In private monitoring or canonical public monitoring, for every ε > 0, there is a value 𝐾 such that for all δ • 𝑣1 𝜉0 , 𝜇, 𝛿 ≥ 1 − 𝜀 𝛿 𝐾 (1 − 1 − 𝜀 inf ∗ 𝑢1 ( 𝛼1 , 𝛼2 ) + 𝛼2 ∈𝐵𝜀 𝛼1 𝛿 𝐾 ) min 𝑢1 𝑎∈𝐴 𝑎 The Reputation Bound with Imperfect Monitoring Games • Corollary 15.4.1 Suppose 𝜇 assigns positive probability to some 𝑘 ∞ sequence of simple types 𝜉 𝛼1 𝑘=1 with each 𝛼1𝑘 satisfying 𝑘 𝑣1∗∗ = lim min 𝑢 𝛼 , 𝛼 1 2 1 ∗ 𝑘 𝑛→∞ 𝛼2 ∈𝐵0 (𝛼1 ) For all 𝜀 ′ > 0, there exists 𝛿 < 1 such that for all 𝛿 ∈ 𝛿, 1 , 𝑣1 𝜉0 , 𝜇, 𝛿 ≥ 𝑣1∗∗ − 𝜀 ′ • Perfect monitoringなら, 𝜇に関して player 1のtypeに対する評判は simple typeなら効率的に築くことができる The Reputation Bound with Imperfect Monitoring Games Measure - 測度はわからないので省略… Small Players with Idiosyncratic Signals • Short-lived player を a continuum of small and anonymous long-lived playersとして 考える 1. Small players等が同じsignalを観測するならば, identicalな pure equilibrium strategyを構成する 2. Playerがそれぞれ各signalに対して違う受け取り 方をする(idiosyncratic signal)ならば, その集団における確実性はなく, 各small players はランダムといえるsignalを受け取ることになる Idiosyncratic Signals • In each period 𝑡 with signal distribution π2 z2 𝛼2𝑡 by private history ℎ2𝜏 ∈ 𝐻2 • τはどこから… Small Players with Idiosyncratic Signals • Proposition 15.4.2 Suppose each continuum of small and anonymous players receive idiosyncratic signals. Let 𝜉 denote the simple commitment type that always plays 𝛼1 ∈ Δ A1 . Suppose 𝜉0 , 𝜉 ∈ Ξ. For every ε > 0, there is a value 𝐾 such that for all δ, • 𝑣1 𝜉0 , 𝜇, 𝛿 ≥ 1 − 𝜀 𝛿 𝐾 inf ∗ 𝛼2 ∈𝐵𝜀 𝛼1 𝑢1 ( 𝛼1 , 𝛼2 ) + (1 − 1 − 𝜀 𝛿 𝐾 ) min 𝑢1 𝑎 𝑎∈𝐴 アウトライン • • • • • • The Adverse Selection Approach to Reputation Commitment Types Perfect Monitoring Games Imperfect Monitoring Games Temporary Reputation まとめ Temporary Reputations • Adverse selection approachは – player 2がplayer 1のタイプを学習していく • Lemma 15.4.3より – player 1のタイプが予想と違う (commitment typesである)ことに気づいていく Temporary Reputations • Perfect monitoringでは, normalとcommitment typeのplayer 1による 理想的なequilibrium pathを辿る一括均衡がある – Normal typeなら, 逸脱には罰則がついてくることが予 想できるので逸脱しない • Imperfect monitoringでは, perfect monitoringの 時のような一括均衡は存在しない – Normal typeはcommitment typeに対し, 自分の信念をも裏切って, 常に逸脱する誘因を持つ Asymptotic Beliefs • Assumption 15.5.1 – 𝐹𝑜𝑟 𝑎𝑙𝑙 𝑖 = 1,2, 𝑎 ∈ 𝐴, 𝑧𝑖 ∈ 𝑍𝑖 , 𝜋𝑖 𝑧𝑖 𝑎 > 0 • Assumption 15.5.2 – 𝐹𝑜𝑟 𝑎𝑙𝑙 𝑎1 ∈ 𝐴1 , 𝑡ℎ𝑒 𝑐𝑜𝑙𝑙𝑒𝑐𝑡𝑖𝑜𝑛 𝑜𝑓 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛𝑠 𝜋1 ∙, 𝑎1 , 𝑎2 : 𝑎2 ∈ 𝐴2 𝑖𝑠 𝑙𝑖𝑛𝑖𝑒𝑎𝑟𝑙𝑦 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡 • ある固定されたstage-gameの下, プレイヤiが受け取るシグナルの頻度より プレイヤjの行動を区別可能とする Asymptotic Beliefs • Stackelberg typeならば, player 1はStackelberg actionを採ることで, player 2に最適反応を求めることができる • … • player 1はsimple commitment types Ξ = 𝜉0 , 𝜉 であると仮定 Asymptotic Beliefs • Proposition 15.5.1 – Suppose the monitoring distribution π satisfies assumption 15.4.1, 15.5.1, and 15.5.2; action space are finite; an the commitment action 𝛼1 satisfies assumption 15.5.3. in any Nash equilibrium of the game with incomplete information, 𝜇𝑡 ≡ 𝑃 𝜉 𝐺2𝑡 → 0, 𝑃 − 𝑎. 𝑠. Asymptotic Beliefs • Suppose there is a Nash equilibrium of the incomplete information game in which both the normal and the commitment type receive positive probability In the limit. • On this set of histories, player 2 cannot distinguish between signals generated by the two types, and hence must believe that the normal and commitment types are playing the same strategies on average. • But then player 2 must play a best response to this strategy and thus to the commitment type. • Because the commitment type’s behavior is not a best response for the normal type ( to this player 2 behavior), player 1 must eventually find it optimal to not play the commitment-type strategy, contradicting player 2’s beliefs. Uniformly Disappearing Reputations Asymptotic Equilibrium Play • We should expect continuation play to converge to an equilibrium of the complete information game if the monitoring technology is such that Player 1 knows player 2’s belief Temporary Reputations • A partial converse • Private belief アウトライン • • • • • • The Adverse Selection Approach to Reputation Commitment Types Perfect Monitoring Games Imperfect Monitoring Games Temporary Reputation まとめ まとめ • 非対称な(長期プレイヤと短期プレイヤ) ゲームにおいて長期プレイヤに対する 短期プレイヤの評判が確立でき, より高い equilibrium payoffを実現することができる
© Copyright 2024 ExpyDoc