サンクションの進化モデル

サンクションの進化モデル
大浦宏邦
(帝京大学)
問題の所在
サンクションには通常コストがかかるのに、なぜ
サンクションが存在しているのか
 1次サンクションは普遍的なのに2次以上のサン
クションが珍しいのはなぜか。
→ 1次が必要なら2次以上も必要では?
2次が不要なら1次も不要では?

先行研究


余りない
国家が提供してくれるから?
サンクションなしの回避研究が多い
Henrich and Boyd(2001)
高次サンクションになるとコスト低なので
若干の同調傾向があれば維持される
(J.theor.Biol.208:79-89)
実験的研究

Fehrら(2002) Nature 415:137-140
資源提供とサンクション提供を交互に繰り返す
サンクションにはコストが必要
試行ごとに被験者の組み合わせを変更
同じ相手とは二度と対戦しない
→ 高い確率で非提供者に罰を与えた
<利他的なサンクション>と命名
非協力者に対する怒りが至近要因
「非協力者に対する怒り」という心理メカニズムが
存在しているらしい
 2次サンクションがなくても1次サンクションは提
供される → Boydモデルは不適切
 Gintis(2000)のアイディア J.T.B. 206:169-179
2次ジレンマ以上の淘汰圧はいずれにせよ
小さいので、わずかな群淘汰圧があれば
1次サンクションは維持されるのでは?
→ きちんとモデルを立てて検討

モデルの構成




舞台設定
資源とサンクションの交互提供
サンクションの学習モデル
ロス・エレブ型試行錯誤学習を仮定
サンクションの進化モデル
離合集散群淘汰を仮定
Priceの共分散法による解釈
1次サンクションで必要十分な理由
舞台設定




n人の資源提供ゲーム(n≧3)
元手はb円。提供すると2倍の額が均等配分。
C(k)=2kb/n
D(k)=2kb/n+b (kは提供人数)
資源提供ゲーム後、ランダムに一人選んだ他の
プレーヤーに罰を与える機会がある
罰を与えるコストc。罰を受けたプレーヤーは2c
の損失をこうむる。
学習ダイナミクス
ロス・エレブ型試行錯誤学習を想定
 集団中 i 番目のプレーヤーが資源提供をする確
率をxi、罰を与える確率をyiとする
 資源提供の学習と罰の学習は独立と仮定
E[Δxi]=xi(1-xi)(u11i-u12i)/分母
E[Δyi]=yi(1-yi)(u21i-u22i)/分母
u11、u12は資源提供有無時の利得
u21、u22は罰提供有無時の利得

資源提供の利得


xiの平均をx、yiの平均をyとする → n人のうち
平均してnx人が資源提供
罰による利得損失の期待値は2cy
資源提供者の利得 =2nxb/n=2xb
資源非提供者の利得=2xb+b-2cy
よって u11i-u12i=2cy-b なので
E[Δxi]=xi(1-xi)(2cy-b)/分母
サンクションの利得


非提供行動を目撃する確率は(1-x) → 与罰
予定者が実際に罰を与える確率は(1-x)
負担コストの期待値は(1-x)cなので
u21i-u22i=-(1-x)c
以上より、学習ダイナミクスは
E[Δxi]=xi(1-xi)(2cy-b)/分母
E[Δyi]=-cyi(1-yi)(1-x)/分母
(式1)
(式2)
ダイナミクスの軌道
yiは常に減少
(x=1のとき定常)
 xi は
y>b/2cで増加
y<b/2cで減少
→x=1、y> b/2cが
リャプノフ安定
x=0、y=0が
漸近安定

1
y
リャ
プノ
フ安
定
0.8
0.6
b/2
c
0.4
0.2
漸近安定
0
0
0.2
0.4
0.6
0.8
1
x
学習モデルの結論
サンクションのない状態は漸近安定
この状態になると回復困難
 サンクションがある状態はリャプノフ安定
サンクションのお陰で非提供者がいない
→ サンクションの費用が不要
→ 2次ジレンマが顕在化しない
★ ただし、摂動に弱いので、非提供者が
繰り返し現れると、漸近安定点に遷移

サンクションの進化モデル
サンクション傾向が遺伝的に継承されると仮定
 学習ダイナミクスの初期値として定式化
サンクション傾向大 → yi(0)大
サンクション傾向小 → yi(0)小
 たとえば
xi(0)=0.5、yi(0)=0.9 をAタイプ
xi(0)=0.5、yi(0)=0.1 をBタイプ
として、Aタイプが進化できるかどうか考える

A,B混在時の学習ダイナミクス



Aの割合をp
とする
p≧0.6のと
きはリャプノ
フ安定
p≦ 0.5のと
きは漸近安
定に収束
y
1
p=1
0.8
p=0.8
0.6
p=0.6
p=0.4
0.4
p=0.2
0.2
0
0
0.2
0.4
0.6
0.8
x
1
p=0.6のときのダイナミクス
収束時、
Aタイプは
y=0.71
Bタイプは
y=0.03
★Aタイプの方が
摂動時に不利
(罰のコスト大)

1
y
0.8
Aタイプ
0.6
0.4
0.2
Bタイプ
x
0
0
0.2
0.4
0.6
0.8
1
収束時の利得
p≦0.5のとき 漸近安定状態に収束
ua=10 、 ub=10
 p≧0.6のとき
リャプノフ安定状態に収束
Aタイプの方がサンクション実施確率が高い
→ Bタイプより、εだけ利得が低いとする
ua=20-ε 、 ub=20
★ 単一集団モデルでは、Aタイプの方が不利

集団が複数の場合


5人グループが6つあると仮定
Aタイプの人数はそれぞれ0人~5人とする。
A人数
0
1
2
3
4
5
B人数
5
4
3
2
1
0
A利得
10
10
10
20-ε
20-ε
20-ε
B利得
10
10
10
20
20
20
漸近安定に収束

リャプノフ安定に収束
Aタイプの平均利得
(10×0+10×1+10×2+(20-ε)×3+
(20-ε)×4+(20-ε)×5)/15=18-0.8ε

Bタイプの平均利得
(10×5+10×4+10×3+20×2+20×1
+20×0)/15 =12
これより ε<7.5のとき
Aタイプの平均利得>Bタイプの平均利得
★ Aタイプのシェアが一様分布しているときに
は、Aが有利になりうる
離合集散のある場合



集団が時々離合集散すると仮定
新しい集団がランダムに創設される
→ Aの人数は二項分布する
全体集団におけるAシェアを p
集団人数=5人、ε=2として、各タイプの
平均利得を数値的に計算。
数値計算の結果


p=0.67付近以
下でAタイプの
利得がBタイプ
を上回る
遺伝的ダイナミ
クスを考えると、
p=0.67付近で
多形安定
25
平均利得
20
15
Aタイプ
Bタイプ
10
5
p
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
サンクションのない離合集散モデル


常に非提供の
利得が提供を
上回る
サンクションが
ない場合は、離
合集散程度の
群淘汰圧では
協力は進化で
きない
30
平均利得
25
20
非提供
15
10
提供
5
p
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Priceの共分散法


i 番目の集団の
サイズ si
戦略Aのシェア fi
平均適応度 πi とする
全体集団の
サイズ s=Σsi → qi=si/s とすると
戦略Aのシェア f=Σsifi/s=Σqifi
平均適応度 π=Σsiπi/s=Σqiπi




次期の集団サイズ si'=siπi
次期の全体サイズ s'=Σsiπi=sπ
次期の全体Aシェア f'=Σsi' fi' / s'
=Σsiπi fi' /sπ
=Σqiπi fi' /π
Aシェアの変化 Δf=f'-f とすると
πΔf=πf'-πf
=Σqiπi(fi+Δfi)-Σπqifi
=Σqi(πi-π)fi+ΣqiπiΔfi
=Cov(πi、fi)+E(πiΔfi)


なぜならば
Cov(πi、fi)=Σqi(πi-π)(fi-f) かつ
Σqi(πi-π) =Σqiπi-Σqiπ=0
したがって
πΔf=Cov(πi、fi)+E(πiΔfi)
=r(πi、fi)σ(πi)σ(fi)+E(πiΔfi)
集団間淘汰
集団内淘汰
★ 利他的戦略の場合 r(πi、fi)>0、Δfi<0
なので、σ(fi)が十分大きいことが進化の条件
サンクションの意味
戦略Aがサンクション戦略の場合
1) πΔf=r(πi、fi)σ(πi)σ(fi)+E(πiΔfi)
においてΔfi は0に近い。
2) 協力行動を促進するのでr(πi、fi)>0
→σ(fi)が小さな値でも Δf>0 になりうる
★ サンクションは集団内淘汰の足を止めつつ
協力のエンジンを駆動させることで、協力と共進
化できる。