Reputations with Short-Lived Players

Repeated Games and Reputations
Reputations with
Short-Lived Players
九州大学
ジョ・ヨンジュン
Long-lived player (player 1)
and short lived player (player 2)
H
L
長期
プレイヤ
短期
プレイヤ
h
2, 3
3, 0
l
0, 2
1, 1
…
…
概要
• 非対称な(長期プレイヤと短期プレイヤ)
ゲームにおける評判を考える
• 非合理的・非理性的なプレイヤのtypeを想定,
短期プレイヤに長期プレイヤのtypeを
予想させる
• 均衡によって実現できるpayoffと比べ,
より高いpayoffを実現する
アウトライン
•
•
•
•
•
•
The Adverse Selection Approach to Reputation
Commitment Types
Perfect Monitoring Games
Imperfect Monitoring Games
Temporary Reputation
まとめ
The Adverse Selection Approach to
Reputation
• 非対称な(長期プレイヤと短期プレイヤ)
関係を持つゲームにおいて
評判がどのように確立・影響するかを分析
• 評判に関する説明
1. 各stage gameにおけるNash equilibriumでない
行動を引き起こす
2. 相手に関する情報が分からないから…
• 今回は2番目の方法
(Adverse Selection approach)を採用
The Adverse Selection Approach to
Reputation
• Incomplete gameという解釈
– 相手のpayoffがわからない
– 相手の行動における制約がわからない
• Incomplete gameと捉えた場合, 均衡集合の
それぞれの均衡のpayoffは大きく変化
• 可能な均衡の条件を設けることができる
• 不完備であるため, 相違な均衡集合達がある
The production-choice game
• 望ましいaction profile
– 生産者: H
– 消費者: h
– NEではない!
H
L
h
2, 3
3, 0
• 生産者はHを採り続けることで,
「良い物を作っている」と言う
評判を作ることが出来るのか?
l
0, 2
1, 1
The production-choice game
• もし, 生産者がHを採り続けるとしても,
最初, それから暫くの間は
消費者が生産者の意図(type)に気づけない
• 疑問点
– 最初に生産者がHを採る, そして採り続けることは
生産者にとっては投資
– ならば, その投資は subsequent payoff, つまり
後で得られるpayoffに見合うものとなるか?
The Adverse Selection Approach to
Reputation
• 完備情報ゲームにおいては,
今までの履歴は今後のゲームに影響しない
• 不完備ゲームならば,
player 1がcommitment typeである可能性
𝝁 をplayer 2が少しでも考慮するならば,
状況は大きく変化する
• 更に, imperfect monitoring gameの時,
どんなに𝝁が小さくても0より大きければ,
…
アウトライン
•
•
•
•
•
•
The Adverse Selection Approach to Reputation
Commitment Types
Perfect Monitoring Games
Imperfect Monitoring Games
Temporary Reputation
まとめ
Payoff Types and Commitment Types
• player 1のタイプ𝜉 ∈ Ξを二つに分類する
– Payoff types Ξ1
平均割引利得を最大化しようとするタイプ
– Commitment types Ξ2 = Ξ \Ξ1 , Ξ1 𝑐
今回はsimple commitment typesを中心に議論
• Payoff typesとcommitment typesの区分は
明確ではない
Commitment Types
• ランダムなcommitment typesはそのプレイヤの
payoffの下限を上げることが出来る
• Simple commitment typesとは,
historyと関係なく同じactionを採り続けるtype
• Player 2が短期プレイヤの場合,
commitment typeのplayer 1の事前payoffは
simple commitment typesである時のみ得られる
Commitment Types
• Player 1のpure-action Stackelberg payoff 𝑣1∗ は
𝑣1∗ = sup min 𝑢1 𝑎1 , 𝛼2
となる
𝑎1 ∈A1 𝛼2 ∈𝐵 𝑎1
– 𝛼2 = 𝐵 𝑎1 : 𝑎1 に対するmyopicな最適反応
• あるaction 𝑎1∗ によって𝑣1∗ の上限が達成されるな
らば, これを Stackelberg actionとする
𝑎1∗ ∈ arg max min 𝑢1 𝑎1 , 𝛼2
𝑎1 ∈𝐴1
𝛼2 ∈𝐵 𝑎1
• (Pure action) Stackelberg actionを採り続ける
player 1のtypeを 𝜉 𝑎1∗ ≡ 𝜉 ∗ とする
アウトライン
•
•
•
•
•
•
The Adverse Selection Approach to Reputation
Commitment Types
Perfect Monitoring Games
Imperfect Monitoring Games
Temporary Reputation
まとめ
Perfect Monitoring Games
• Player 1のbehavior strategy
– 𝜎1 : 𝐻 × Ξ → Δ 𝐴1
• Player 1の
commitment types 𝜉 behavior strategy
– 𝜎1 ℎ𝑡 , 𝜉 𝜎1
= 𝜎1 ℎ𝑡
• A Nash equilibrium is a collection of
mutual best responses
Perfect Monitoring Games
• A strategy profile σ1 , σ2 is a Nash
equilibrium of the reputation game with
perfect monitoring if for all ξ ∈ 𝛯1 ,
σ1 maximizes 𝑈1 𝜎1 , σ2 , 𝜉 over player 1’s
repeated game strategies, and if for all 𝑡 and
all ℎ𝑡 ∈ 𝐻 that have positive probability under
σ1 , σ2 and μ,
𝐸 𝑢2 σ1 ℎ𝑡 , 𝜉 , σ2 ℎ𝑡 ℎ𝑡
= 𝑚𝑎𝑥 𝐸 𝑢2 σ1 ℎ𝑡 , 𝜉 , 𝑎2 ℎ𝑡
𝑎2 ∈𝐴2
Building a Reputation with
Perfect Monitoring Games
• player 2がnormalなplayer 1のタイプが
𝜉 𝑎’1 ≡ 𝜉’’である確率が正だと思っている
– player 1は 𝑎1′ を採り続ける
– player 2は, 𝑎1′ が採られる可能性
(player 1が𝜉 𝑎’1 である確率)を上げていく
– その「評判」を築くまでには時間を要する
– その間の費用・投資は
player 1が十分辛抱強ければ無視出来る
Building a Reputation with
Perfect Monitoring Games
′
𝑎1 がStackelberg
∗
𝑎1 ならば,
• もし,
action
player 1が十分辛抱強い時,
player 1のpayoffのlower boundは
player 1の 𝑣1∗ (pure-action Stackelberg payoff)
となる
Building a Reputation with
Perfect Monitoring Games
• Ω ≡ Ξ × 𝐴1 × 𝐴2
∞
– Ω is the space of outcomes
• ω = 𝜉, 𝑎10 𝑎20 , 𝑎11 𝑎21 , … ∈ Ω
• 𝐏∈𝚫 Ω
– P is probability measure on the set of outcomes Ω
• Ω′ = 𝜔: 𝑎1𝑡 𝜔 = 𝑎1′ ∀𝑡 ⊂ Ω
– Ω′ is the event that the action 𝑎1′ is chosen in
every period
Building a Reputation with
Perfect Monitoring Games
• 𝑞 𝑡 ≡ 𝑷 𝑎1𝑡 = 𝑎1′ ℎ𝑡
– ℎ𝑡 ∈ 𝐻 𝑡 is the public history
• 𝑞 𝑡 ℎ𝑡 ≡ 𝑞 𝑡 𝜔 ≡ 𝑷 𝑎1𝑡 = 𝑎1′ ℎ𝑡 𝜔
– 𝑞𝑡 ℎ𝑡 is player 2’s belief about player 1’s play
after any history ℎ𝑡
Building a Reputation with
Perfect Monitoring Games
• The normal player 1 receives payoff at least
min ′ 𝑢1 𝑎1′ , 𝑎2 in period t in which 𝑞𝑡 is sufficiently
𝑎2 ∈𝐵(𝑎1 )
large
– Player 2 choose the best response 𝑎2
– Hence, player 1 plays 𝑎1′
• The normal player 1 have option of always playing 𝑎1′
– The payoff in any Nash equilibrium is also bounded below
by the payoff generated by always playing 𝑎1′
– If there is a bound on the number of periods in which after
always observing 𝑎1′ , player 2’s period 𝑡 belief assign low
probability to 𝑎1′ , then there is a lower bound on the
normal player ‘1s equilibrium payoff
The Reputation Bound with
Perfect Monitoring Games
• In the stage-game, player 1 can guarantee the
payoff
𝑣1∗ 𝑎1 ≡ min 𝑢1 𝑎1 , 𝑎2
𝑎2 ∈𝐵 𝑎1
• Let 𝑣1 (𝜉0 , 𝜇, 𝛿) be the infimum over the set of
the normal player 1’s payoff
in any (pure or mixed) Nash equilibrium
The Reputation Bound with
Perfect Monitoring Games
• Commitment typeの集合が十分であれば,
player 1のpayoffの下限はStackelberg payoff
となる
The Reputation Bound with
Perfect Monitoring Games
The role of discounting
• In the reputation argument,
the discount factor plays a dual role
– Make future payoffs relatively more important
– It discounts into insignificance the initial sequence of
periods during which it may be costly for player 1 to
mimic the commitment type
• Future payoffs could attain sufficient weight to
deter current deviations
– Via a sufficiently large discount
– Via stage-game payoffs that provide sufficiently small
rewards for deviating from prescribed actions
The role of discounting
• We have seen that large discount factors also
suffice to support reputation arguments.
• There is no reason to expect stage-game
payoffs that provide relatively small incentives
for deviating from an equilibrium to do
likewise
H
L
h
2, 3
3, 0
l
0, 2
1, 1
アウトライン
•
•
•
•
•
•
The Adverse Selection Approach to Reputation
Commitment Types
Perfect Monitoring Games
Imperfect Monitoring Games
Temporary Reputation
まとめ
Imperfect Monitoring Games
• Playerのprivate historyは
自分の採った行動と受け取ったシグナルとの
組合せの時系列で構成される
• Player 1のbehavior strategy
– 𝜎1 : 𝐻1 × Ξ → Δ 𝐴1
• Player 1のcommitment type behavior strategy 𝜎1
– 𝜎1 ℎ1𝑡 , 𝜉 𝜎1
= 𝜎1 ℎ1𝑡
• player 2のbehavior strategy
– 𝜎2 : 𝐻2 → Δ A2
Imperfect Monitoring Games
• A strategy profile σ1 , σ2 is a Nash
equilibrium of the reputation game with
imperfect monitoring if for all ξ ∈ 𝛯1 ,
σ1 maximizes 𝑈1 𝜎1 , σ2 , 𝜉 over player 1’s
repeated game strategies, and if for all 𝑡 and
all ℎ2𝑡 ∈ 𝐻2 that have positive probability
under σ1 , σ2 and μ,
𝐸 𝑢2 σ1 ℎ1𝑡 , 𝜉 , σ2 ℎ2𝑡 ℎ2𝑡
= 𝑚𝑎𝑥 𝐸 𝑢2 σ1 ℎ1𝑡 , 𝜉 , 𝑎2 ℎ2𝑡
𝑎2 ∈𝐴2
Stackelberg Payoffs with
Imperfect Monitoring Games
• Imperfect monitoringでは, 𝑎1 に対する
player 2の最適反応は(perfect monitoringに
おける最適反応𝐵 𝑎1 とは限らない
• player 1がかなりの確率である混合戦略α1 を
採ると考えると, player 2の(混合)戦略α2 は
𝜀 − 𝑐𝑜𝑛𝑓𝑖𝑟𝑚𝑒𝑑 𝑏𝑒𝑠𝑡 𝑟𝑒𝑠𝑝𝑜𝑛𝑠𝑒 𝑡𝑜 α1 : 𝐵𝜀 α1
とする
Stackelberg Payoffs with
Imperfect Monitoring Games
• 𝐵𝜀 α1 = 𝛼2 とは
player 1のあるmixed action 𝛼1′ に関して
– player 2のmixed action 𝛼2 は, 𝛼1′ に対する最適反
応𝑎2 から構成される
• α2 a2 > 0 ⇒ 𝑎2 ∈ arg max 𝑢2 𝛼1′ , 𝑎2′
𝑎2′
– Action profile (𝛼1 , 𝛼2 ) が採られた時と, action
profile (𝛼1′ , 𝛼2 )が採られた時の各シグナルの
observation probabilityの差がε以下
• 𝜋2 ∙ 𝛼1 , 𝛼2 − 𝜋 ∙ 𝛼1′ , 𝛼2
≤𝜀
Stackelberg Payoffs with
Imperfect Monitoring Games
• Short-lived playerにとって, private monitoring
とcanonical public monitoringの間には
プレイヤの選択を導く情報に差がある
• Private monitoringでは
– 𝐵𝜀∗ 𝛼1 ≡ 𝛼2 : 𝑠𝑢𝑝𝑝 𝛼2 ⊂ 𝐵𝜀 𝛼1
• Canonical public monitoringでは
– 𝐵𝜀∗ 𝛼1 ≡ 𝐵𝜀 𝛼1
Stackelberg Payoffs with
Imperfect Monitoring Games
• player 2がplayer 1を simple commitment type
𝜉 𝛼1′ である正の信念を持っているならば,
全てのNash equilibriumは𝑣 𝛼1′ 以上である
– 𝑣 𝛼1′ : 𝛼1′ と𝛼2 ∈ 𝐵0∗ 𝛼1′ に関する最小のpayoff
– 𝑣 𝛼1′ の上限を𝑣1∗∗ とする
The purchase game
• 望ましいaction profile
– 生産者: H
– 消費者: b
– NEではない!
H
L
d
0, 0
0, 0
d
b
1, 1
2, -1
0
0
b
H
1
1
L
2
-1
The purchase game
• 𝐻に対する最適反応𝐵(𝐻)は, 𝑏 のみである
• max
min 𝑢1 𝑎1 , 𝑎2 = 1となるので,
𝑎1 ∈𝐴1 𝑎2 ∈𝐵 𝑎1
pure-action Stackelberg payoffはaction 𝐻に
よって達成される
• よって, pure-action Stackelberg type 𝜉 ∗ の
プレイヤはaction 𝐻を採る
The purchase game
• Player 1 のtype 𝜉は𝜉 ∈ Ξ = 𝜉0 , 𝜉 ∗ とする
• 𝜋2 ∙ 𝐻𝑑 − 𝜋2 ∙ 𝐿𝑑 = 0 なので,
𝑏と𝑑は共に𝐻への 0 −
𝑐𝑜𝑛𝑓𝑖𝑟𝑚𝑒𝑑 𝑏𝑒𝑠𝑡 𝑟𝑒𝑠𝑝𝑜𝑛𝑠𝑒𝑠 である
• よって, 𝑣1∗∗ = 0
→ 最低限の利得しか実現できない
1
2
∗
1
2
• 計算してみると, 𝛿 > かつ 𝜇 𝜉 < なら
sequential equilibriumのpayoffは(0,0)となる
The purchase game
• 望ましい均衡を考える
– すべてのplayer 2は 𝑑 を選択
– Normal type 𝜉0 の player 1はLを選択
– Stackelberg type 𝜉 ∗ の player 1はHを選択
• 与えられた 𝜇 から考えるに,
𝑏を選択するということは賭け
– 𝜇 において, player 1のtype が 𝜉0 である確率が
1
より大きいと考えるならば,
2
player 2は best responseとして 𝑑 を選択
• 結果的にNash equilibriumとして, (0,0)を得る
The purchase game
• Player 2が𝑏を採ってきたら,
𝜉0 なplayer 1は L を採る(NEは依然と(0,0))
• This strategy profile fails
a minimal sequential rationality requirement
• しかし, 本当に𝜉0 なplayer 1は L を採るか?
• もし, player 1がHを採れば(ξ 𝜎1 = 𝜉 ∗ )
– Lを採れば, 自分のtypeが𝜉0 だとを知らせるだけ
– Hを採れば, ξ∗ である可能性を次のplayer 2が気づく
Hが採り続けられる限り, player 2も 𝑏 を採ってくれる
The purchase game
• 消費者が𝑑を採る時, 何の情報も得られない
• よって, 𝑑が全ての𝛼1 に対する最適反応なら,
生産者の行動Hに対する最適反応も𝑑になる
• 情報を与えてくれないアクションが無いことが,
𝐵 𝛼1 = 𝐵0 𝛼1 となる必要条件
• つまり, player 2がどのような行動に対しても,
player 1の異なる行動が
同じ確率でシグナルを発生させてはならない
The Reputation Bound with
Imperfect Monitoring Games
• 𝑣 𝜉0 , 𝜇, 𝛿 はnormal player 1のpayoffの下限の集合
• Proposition 15.4.1
Let 𝜉 denote the simple commitment type that always
plays 𝛼1 ∈ Δ A1 .
Suppose 𝜇 𝜉0 , 𝜇 𝜉 > 0. In private monitoring or
canonical public monitoring, for every ε > 0,
there is a value 𝐾 such that for all δ
• 𝑣1 𝜉0 , 𝜇, 𝛿 ≥ 1 − 𝜀 𝛿 𝐾
(1 − 1 − 𝜀
inf
∗
𝑢1 ( 𝛼1 , 𝛼2 ) +
𝛼2 ∈𝐵𝜀 𝛼1
𝛿 𝐾 ) min 𝑢1
𝑎∈𝐴
𝑎
The Reputation Bound with
Imperfect Monitoring Games
• Corollary 15.4.1
Suppose 𝜇 assigns positive probability to some
𝑘 ∞
sequence of simple types 𝜉 𝛼1 𝑘=1 with each 𝛼1𝑘
satisfying
𝑘
𝑣1∗∗ = lim min
𝑢
𝛼
,
𝛼
1
2
1
∗ 𝑘
𝑛→∞ 𝛼2 ∈𝐵0 (𝛼1 )
For all 𝜀 ′ > 0, there exists 𝛿 < 1 such that for all
𝛿 ∈ 𝛿, 1 ,
𝑣1 𝜉0 , 𝜇, 𝛿 ≥ 𝑣1∗∗ − 𝜀 ′
• Perfect monitoringなら, 𝜇に関して
player 1のtypeに対する評判は
simple typeなら効率的に築くことができる
The Reputation Bound with
Imperfect Monitoring Games
Measure - 測度はわからないので省略…
Small Players with Idiosyncratic Signals
• Short-lived player を a continuum of
small and anonymous long-lived playersとして
考える
1. Small players等が同じsignalを観測するならば,
identicalな pure equilibrium strategyを構成する
2. Playerがそれぞれ各signalに対して違う受け取り
方をする(idiosyncratic signal)ならば,
その集団における確実性はなく, 各small players
はランダムといえるsignalを受け取ることになる
Idiosyncratic Signals
• In each period 𝑡 with signal distribution π2 z2 𝛼2𝑡
by private history ℎ2𝜏 ∈ 𝐻2
• τはどこから…
Small Players with Idiosyncratic Signals
• Proposition 15.4.2
Suppose each continuum of small and
anonymous players receive idiosyncratic signals.
Let 𝜉 denote the simple commitment type that
always plays 𝛼1 ∈ Δ A1 .
Suppose 𝜉0 , 𝜉 ∈ Ξ. For every ε > 0,
there is a value 𝐾 such that for all δ,
• 𝑣1 𝜉0 , 𝜇, 𝛿 ≥ 1 − 𝜀 𝛿 𝐾
inf
∗
𝛼2 ∈𝐵𝜀 𝛼1
𝑢1 ( 𝛼1 , 𝛼2 ) +
(1 − 1 − 𝜀 𝛿 𝐾 ) min 𝑢1 𝑎
𝑎∈𝐴
アウトライン
•
•
•
•
•
•
The Adverse Selection Approach to Reputation
Commitment Types
Perfect Monitoring Games
Imperfect Monitoring Games
Temporary Reputation
まとめ
Temporary Reputations
• Adverse selection approachは
– player 2がplayer 1のタイプを学習していく
• Lemma 15.4.3より
– player 1のタイプが予想と違う
(commitment typesである)ことに気づいていく
Temporary Reputations
• Perfect monitoringでは,
normalとcommitment typeのplayer 1による
理想的なequilibrium pathを辿る一括均衡がある
– Normal typeなら, 逸脱には罰則がついてくることが予
想できるので逸脱しない
• Imperfect monitoringでは, perfect monitoringの
時のような一括均衡は存在しない
– Normal typeはcommitment typeに対し,
自分の信念をも裏切って, 常に逸脱する誘因を持つ
Asymptotic Beliefs
• Assumption 15.5.1
– 𝐹𝑜𝑟 𝑎𝑙𝑙 𝑖 = 1,2, 𝑎 ∈ 𝐴, 𝑧𝑖 ∈ 𝑍𝑖 , 𝜋𝑖 𝑧𝑖 𝑎 > 0
• Assumption 15.5.2
– 𝐹𝑜𝑟 𝑎𝑙𝑙 𝑎1 ∈ 𝐴1 , 𝑡ℎ𝑒 𝑐𝑜𝑙𝑙𝑒𝑐𝑡𝑖𝑜𝑛 𝑜𝑓
𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛𝑠 𝜋1 ∙, 𝑎1 , 𝑎2 : 𝑎2 ∈ 𝐴2
𝑖𝑠 𝑙𝑖𝑛𝑖𝑒𝑎𝑟𝑙𝑦 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡
• ある固定されたstage-gameの下,
プレイヤiが受け取るシグナルの頻度より
プレイヤjの行動を区別可能とする
Asymptotic Beliefs
• Stackelberg typeならば,
player 1はStackelberg actionを採ることで,
player 2に最適反応を求めることができる
• …
• player 1はsimple commitment types
Ξ = 𝜉0 , 𝜉 であると仮定
Asymptotic Beliefs
• Proposition 15.5.1
– Suppose the monitoring distribution π satisfies
assumption 15.4.1, 15.5.1, and 15.5.2; action
space are finite; an the commitment action 𝛼1
satisfies assumption 15.5.3. in any Nash
equilibrium of the game with incomplete
information,
𝜇𝑡 ≡ 𝑃 𝜉 𝐺2𝑡 → 0,
𝑃 − 𝑎. 𝑠.
Asymptotic Beliefs
• Suppose there is a Nash equilibrium of the incomplete
information game in which both the normal and the
commitment type receive positive probability In the limit.
• On this set of histories, player 2 cannot distinguish between
signals generated by the two types, and hence must believe
that the normal and commitment types are playing the
same strategies on average.
• But then player 2 must play a best response to this strategy
and thus to the commitment type.
• Because the commitment type’s behavior is not a best
response for the normal type ( to this player 2 behavior),
player 1 must eventually find it optimal to not play the
commitment-type strategy, contradicting player 2’s beliefs.
Uniformly Disappearing Reputations
Asymptotic Equilibrium Play
• We should expect continuation play to
converge to an equilibrium of the complete
information game if the monitoring
technology is such that Player 1 knows player
2’s belief
Temporary Reputations
• A partial converse
• Private belief
アウトライン
•
•
•
•
•
•
The Adverse Selection Approach to Reputation
Commitment Types
Perfect Monitoring Games
Imperfect Monitoring Games
Temporary Reputation
まとめ
まとめ
• 非対称な(長期プレイヤと短期プレイヤ)
ゲームにおいて長期プレイヤに対する
短期プレイヤの評判が確立でき, より高い
equilibrium payoffを実現することができる