E ( 協力 )

12章
Private Monitoring
橋本 直幸
1
概要
• 本章では私的観測において,様々な状況での
均衡を考察する
– ほぼ公的観測,条件付き独立,belief-based,belief-free
• プレイヤは観測したシグナルと信念をもとに行動
を選択する
• プレイヤのシグナル間に関連があるか否かで状況
が大きく分かれる
• シグナル間に関連が無い場合,信念を用いた均衡
を考察する
2
アウトライン
•
•
•
•
•
A Two-Period Example
Private Monitoring Games
Almost Public Monitoring
Independent Monitoring
A Belief-Free Example
3
アウトライン
•
•
•
•
•
A Two-Period Example
Private Monitoring Games
Almost Public Monitoring
Independent Monitoring
A Belief-Free Example
4
A Two-Period Example
• まず,2回繰り返しゲームを考える
• 2回目は,無限回繰り返しの場合の代替
として解釈
• first period
E
E
(協力)
S
(非協力)
S
2,2
-1,3
3,-1
0,0
• second period
G
G
(Good)
B
(Bad)
B
3,3
0,0
0,0
1,1
5
不完全公的観測 (1/2)
• 不完全公的観測の場合について考える
• 公的シグナルの観測確率ρを次のように定義
– a : 行動
– y  { y , y} : 公的シグナル (Good or Bad)
 p, if a  EE,

 ( y | a)  q, if a  ES or SE ,
r , if a  SS ,

– ただし, 0  r  q  p  1
6
不完全公的観測 (2/2)
• 最初にEを選択する誘因があるとき,トリガー
戦略のみがPPEとなる
• トリガー戦略
– 最初はE(協力)
– 2回目は y のときB, y のときG
• Eの期待利得がSより高くなる条件
2  3 p  (1  p)  3  3q  (1  q)
2( p  q)  1
7
私的観測
• 私的観測では,プレイヤの観測するシグナル間に関
連があるか否かで大きく分かれる
• 関連があるとき
– 自分のシグナルから相手のシグナルを推測できる
– ここではほぼ公的観測になる場合を考える
• 関連がないとき
– 自分のシグナルから相手のシグナルを推測できない
– このとき,シグナルは条件付き独立であるという
8
ほぼ公的観測(1/3)
• 私的観測がほぼ公的観測となる場合を考える
– 自分も相手も同じシグナルを観測する確率が高い
• シグナルの観測確率を以下のように定義
z
z
z
(1-η)(1-ε)
ε/2
z
ε/2
η(1-ε)
 p, if a1a2  EE,

  q, if a1a2  ES or SE ,
r , if a a  SS ,
1 2

9
ほぼ公的観測(2/3)
• このとき,トリガー戦略が均衡となる条件を
求める
• トリガー戦略
– 最初はE(協力)
– z を観測したときG,z を観測したときBを選択
• 自分が z を観測したとき,相手も z を観測
する確率が高いので,最適反応はG
• 同様に,z を観測したときの最適反応はB
10
ほぼ公的観測(3/3)
• また,Eの期待利得がSのより高くなるとき,
次の不等式を満たす
2( p  q)(1   )  1
• このとき,トリガー戦略は均衡となる
• εが十分に小さいとき,不完全公的観測の
場合と同じになる
11
アウトライン
•
•
•
•
•
A Two-Period Example
Private Monitoring Games
Almost Public Monitoring
Independent Monitoring
A Belief-Free Example
12
私的観測付き無限回繰り返しゲーム
• ここでは,無限回繰り返しゲームを考える
– Ai :プレイヤ i の行動セット
– Z i :プレイヤ i の私的シグナルセット
–  ( z | a) :aのときzを観測する確率
•

はfull-supportとする
–  i ( zi | a)  0 : for all i, zi  Z i and all a  A
• シグナルは条件付き独立である
• 各プレイヤの割引因子δは同じ
13
ε-完全観測
• ε-完全観測を次のように定義する
Definition 12.2.1
各プレイヤ i は,シグナルの部分集合 Z i を持ち
すべての行動a∈Aにおいて Z i (a)aA は
次の条件を満たす
ziZi (a)  i ( zi | a)  1  
• 正しいシグナルを観測する確率が 1   と
言う意味?
14
プレイヤの戦略
• 公的観測では,公的シグナルで自分の行動
を決定していた
• 私的観測では,自分の私的シグナルと信念
で行動を決定する
– 信念:相手は相手の私的シグナルに従って行動
を決定しているという仮定
• 信念は自分の行動の履歴で更新
– 相手の次の行動を推測する
15
action-free strategy
• 公的観測と同様,観測したシグナルの履歴
から次の行動を決定する戦略を考える
– 自分の行動の履歴は関係なし
• このような戦略をaction-free strategyと呼ぶ
• シグナルの履歴が同じでも,次の行動が確率
で変化する場合はaction-free strategyでは
ない
16
私的観測での均衡
• 私的観測では,観測した私的シグナルの
履歴から,行動を選択するのは最適ではない
ことがある
– action-free strategy同士は均衡にならない
可能性がある
• プレイヤは,私的シグナルの履歴と信念から
最適な行動を選択する
• このときの均衡をsequential equilibrium
と呼ぶ
17
sequential equilibrium
• sequential equilibriumを次のように定義する
Definition 12.2.3
t
t
任意の自分の履歴 hi において,戦略  i | hi が
E[ i | ht i | hit ] に対する最適反応である
ただし,
 i | ht i  ( 1 | h1t ,,  i 1 | hit1 ,  i 1 | hit1 ,,  n | hnt )
• 戦略  i から逸脱しても利得は増加しない
18
オートマトンによる戦略の表現
• 戦略はオートマトンによって表現できる
– Wi :状態のセット
– f i : Wi  ( Ai ) :状態から行動を決定する関数
–  i : Wi  Ai  Zi :遷移関数
• 例:トリガー戦略
z
初期状態
wi0
wE
f i wE   E
z
z, z
wS
f i wS   S
19
オートマトンと信念
• 自分の過去の行動から,相手がどの状態に
いるかを推測する
• 例:相手がトリガー戦略
– 自分は最初Eを選択した
– 相手は1-εの確率で zを観測し,状態は
z
初期状態
w 0j
wE
1 
z
wE
z, z
wS

20
オートマトンを用いた
sequential equilibrium
t
hiに
• 戦略σが任意のプレイヤ iと任意の履歴
おいて,次の式を最大化するとき,かつ
そのときに限り,sequential equilibriumとなる
 1   u a , f w 

w
i
i
i
i
今期の利得
i
  Vi  i wi , ai zi , i wi , ai zi   z | a 
ai zZ

  wi | hit

j i

f j a j | w j 

来期以降の利得
21
アウトライン
•
•
•
•
•
A Two-Period Example
Private Monitoring Games
Almost Public Monitoring
Independent Monitoring
A Belief-Free Example
22
ほぼ公的観測
• 7章では公的観測において,PPEという均衡
を考えた
• ほぼ公的観測においても同じように,シグナ
ルの履歴にのみ依存した戦略の均衡を
考える
23
ほぼ公的観測
• ほぼ公的観測を次のように定義する
– 定義
SS
 ( z1 z 2 | EE )   zEE
,

(
z
1
z
2
|
SS
)


1z 2
z1 z 2 ,
 ( z1 z 2 | ES )   ( z1 z 2 | SE )   zES
1z 2
• ε-close to ρ
|  ( z z | a )   ( y | a ) |   , |  ( z z | a)   ( y | a) |  
z1  z 2,  ( z1 z 2 | a)  2
 p, if a  EE,

 ( y | a)  q, if a  ES or SE ,
r , if a  SS

24
Forgiving Profile
• プレイヤは2人
• 2人とも次の戦略をとっているとする
z
z
WE
w0
z
WS
z
• このとき,均衡を構成する条件は
–
–
z を観測したとき,Eを選択する方が利得が高くなる
z を観測したとき,Sを選択する方が利得が高くなる
25
Forgiving Profile
• 計算すると,次の2つの不等式が求まる
–
–
1
(1  2 )(1  2 ) 
,
 ( p  q)
 ( p  q)(1  2 )(3  2 )  1,
  Pr( z 2  z | z1  z )
  Pr( z 2  z | z1  z)
• これらを満たす    と    が存在し,
sequential equilibriumとなる.
• 詳しくは13.3節を参照
26
Grim Trigger
• Grim Triggerの場合について考える
• 私的観測では次のようになる
z
z, z
WE
z
WS
w0
• Forgiving Profileでは過去1回のシグナルのみが
影響していた
• Grim Triggerでは過去すべてのシグナルが影響
するという点で異なる
27
Grim Trigger
• ほぼ公的観測(ε-close to ρ)であるとき,
 が存在し,  0,   において次の定理が成立
Proposition 12.3.1
1. q  r のとき,grim triggerはナッシュ均衡
にならない
2. q  r のとき,grim triggerはナッシュ均衡
になる
( q  r のときはprivate monitoring distribution
によって決まる)
28
補助定理
lemma 12.3.1
q  r において,履歴が ( E z, Sz , Sz , Sz ,) と
なるとき,grim triggerに従って S を選択する
ことは最適ではない
•
 は full support なので,相手の状態は
wE である可能性がある
• また,自分が S を選択し,z を観測したとき
相手は E を選択した確率が高い
 ( z | SE )  q  r   ( z | SS )
29
補助定理
lemma 12.3.2
q  r において,grim triggerがナッシュ均衡
となる
• S を選択した後 z を観測したとき,相手も S
を選択した確率が高い
 ( z | SE )  q  r   ( z | SS )
• 一方 z を観測したとき,相手は E を選択した
確率が高いが,ほぼ公的なので相手も z を
観測する
– 相手は状態 wS に遷移
30
補助定理
• 履歴が ( Ez , Ez , Ez ,) となるときを考える
• εが十分小さいとき,相手の状態が wで
E
ある確率は1に近い
• このとき E を選択するのが最適となる
31
アウトライン
•
•
•
•
•
A Two-Period Example
Private Monitoring Games
Almost Public Monitoring
Independent Monitoring
A Belief-Free Example
33
Independent Monitoring
• プレイヤのシグナルは条件付き独立
• シグナルの観測はε-perfectとする
• 次の無限回囚人のジレンマを考える
E
(協力)
S
E
S
2,2
-1,3
3,-1
0,0
(非協力)
34
プレイヤの戦略
• プレイヤの戦略は以下の2種類
•  iS :常に非協力
S t
t
 i (hi )  S , hi
T

• i :トリガー戦略
s

E
,
if
t

0
,
or
z
T t
i  z for 0  s  t  1,
 i (hi )  
S , otherwise.
35
プレイヤの戦略
• 2つの戦略は以下のオートマトンで表現できる
z
wE
T
 i の初期状態
z
z, z
wS
S
 i の初期状態
36
均衡
• 利得表は次のようになる
 2T
T
1
1S
 2S
TS
1
TS
2
TT
1
TT
2
v ,v
ST
1
ST
2
0,0
v ,v
v ,v
• このとき,常に v1ST  0  v1TS
TT
ST
•   1 / 3 かつ  が十分小さいとき v1  v1
• ある確率  で  T を選択するとき均衡
37
Belief-Based Equilibrium
• 条件付き独立の場合,belief-basedの
sequential rationalityを考える
– i :相手のプレイヤの状態が wE である確率
• i は毎期更新される
•   2 / 5 のとき最適反応は
– i  1 / 2 のときS,i  1 / 2 のときE
• 信念と整合性がとれ,かつ均衡となっている
ときbelief-based equilibrium
38
アウトライン
•
•
•
•
•
A Two-Period Example
Private Monitoring Games
Almost Public Monitoring
Independent Monitoring
A Belief-Free Example
39
The product choice game
• 私的観測におけるproduct choice game
について考える
– プレイヤ1はlong-lived
– プレイヤ2はshort-lived
h
l
H
2,3
0,2
L
3,0
1,1
40
The product choice game
• プレイヤのシグナル間は条件付き独立
• プレイヤ1の観測するシグナルの確率
1   if z1  z1 and a2  l , or

 1 z1 | a   
z1  z1 and a2  h,

otherwise

• プレイヤ2の観測するシグナルの確率
1   if z2  z2 and a1  L, or

 2 z2 | a   
z2  z2 and a1  H ,

otherwise

41
The product choice game
• プレイヤ1の戦略
z, z
1
1
f1 ( w1 )   H   L
2
2
w1
w10
• プレイヤ2の戦略
z
z
w
0
2
w
z
z
w
   h  (1   )  l , if w2  w2,
f 2 ( w2 )  
   h  (1   )  l , if w2  w2
42
Belief-free
• 信念は毎期更新されていくので,解析が困難
• ここでは,信念に依存しない戦略を考える
– 行動の選択は履歴に依存しない
– 今回の場合,プレイヤ1の戦略がこれにあたる
1
1
f1 ( w1 )   H   L
2
2
43
Belief-free equilibrium
• プレイヤ2は次の条件を満たすような  ,  
をとる
– V1 a1 , w2  :プレイヤ2の状態が w2 のとき,
プレイヤ1が a1 を選択したときの利得
V1 H , w2   V1 L, w2   V1 w2 
V1 H , w2   V1 L, w2   V1 w2 
• このとき
1
     
2 (1  2 )
44
以上です
45