サンクションの進化モデル 大浦宏邦 (帝京大学) 問題の所在 サンクションには通常コストがかかるのに、なぜ サンクションが存在しているのか 1次サンクションは普遍的なのに2次以上のサン クションが珍しいのはなぜか。 → 1次が必要なら2次以上も必要では? 2次が不要なら1次も不要では? 先行研究 余りない 国家が提供してくれるから? サンクションなしの回避研究が多い Henrich and Boyd(2001) 高次サンクションになるとコスト低なので 若干の同調傾向があれば維持される (J.theor.Biol.208:79-89) 実験的研究 Fehrら(2002) Nature 415:137-140 資源提供とサンクション提供を交互に繰り返す サンクションにはコストが必要 試行ごとに被験者の組み合わせを変更 同じ相手とは二度と対戦しない → 高い確率で非提供者に罰を与えた <利他的なサンクション>と命名 非協力者に対する怒りが至近要因 「非協力者に対する怒り」という心理メカニズムが 存在しているらしい 2次サンクションがなくても1次サンクションは提 供される → Boydモデルは不適切 Gintis(2000)のアイディア J.T.B. 206:169-179 2次ジレンマ以上の淘汰圧はいずれにせよ 小さいので、わずかな群淘汰圧があれば 1次サンクションは維持されるのでは? → きちんとモデルを立てて検討 モデルの構成 舞台設定 資源とサンクションの交互提供 サンクションの学習モデル ロス・エレブ型試行錯誤学習を仮定 サンクションの進化モデル 離合集散群淘汰を仮定 Priceの共分散法による解釈 1次サンクションで必要十分な理由 舞台設定 n人の資源提供ゲーム(n≧3) 元手はb円。提供すると2倍の額が均等配分。 C(k)=2kb/n D(k)=2kb/n+b (kは提供人数) 資源提供ゲーム後、ランダムに一人選んだ他の プレーヤーに罰を与える機会がある 罰を与えるコストc。罰を受けたプレーヤーは2c の損失をこうむる。 学習ダイナミクス ロス・エレブ型試行錯誤学習を想定 集団中 i 番目のプレーヤーが資源提供をする確 率をxi、罰を与える確率をyiとする 資源提供の学習と罰の学習は独立と仮定 E[Δxi]=xi(1-xi)(u11i-u12i)/分母 E[Δyi]=yi(1-yi)(u21i-u22i)/分母 u11、u12は資源提供有無時の利得 u21、u22は罰提供有無時の利得 資源提供の利得 xiの平均をx、yiの平均をyとする → n人のうち 平均してnx人が資源提供 罰による利得損失の期待値は2cy 資源提供者の利得 =2nxb/n=2xb 資源非提供者の利得=2xb+b-2cy よって u11i-u12i=2cy-b なので E[Δxi]=xi(1-xi)(2cy-b)/分母 サンクションの利得 非提供行動を目撃する確率は(1-x) → 与罰 予定者が実際に罰を与える確率は(1-x) 負担コストの期待値は(1-x)cなので u21i-u22i=-(1-x)c 以上より、学習ダイナミクスは E[Δxi]=xi(1-xi)(2cy-b)/分母 E[Δyi]=-cyi(1-yi)(1-x)/分母 (式1) (式2) ダイナミクスの軌道 yiは常に減少 (x=1のとき定常) xi は y>b/2cで増加 y<b/2cで減少 →x=1、y> b/2cが リャプノフ安定 x=0、y=0が 漸近安定 1 y リャ プノ フ安 定 0.8 0.6 b/2 c 0.4 0.2 漸近安定 0 0 0.2 0.4 0.6 0.8 1 x 学習モデルの結論 サンクションのない状態は漸近安定 この状態になると回復困難 サンクションがある状態はリャプノフ安定 サンクションのお陰で非提供者がいない → サンクションの費用が不要 → 2次ジレンマが顕在化しない ★ ただし、摂動に弱いので、非提供者が 繰り返し現れると、漸近安定点に遷移 サンクションの進化モデル サンクション傾向が遺伝的に継承されると仮定 学習ダイナミクスの初期値として定式化 サンクション傾向大 → yi(0)大 サンクション傾向小 → yi(0)小 たとえば xi(0)=0.5、yi(0)=0.9 をAタイプ xi(0)=0.5、yi(0)=0.1 をBタイプ として、Aタイプが進化できるかどうか考える A,B混在時の学習ダイナミクス Aの割合をp とする p≧0.6のと きはリャプノ フ安定 p≦ 0.5のと きは漸近安 定に収束 y 1 p=1 0.8 p=0.8 0.6 p=0.6 p=0.4 0.4 p=0.2 0.2 0 0 0.2 0.4 0.6 0.8 x 1 p=0.6のときのダイナミクス 収束時、 Aタイプは y=0.71 Bタイプは y=0.03 ★Aタイプの方が 摂動時に不利 (罰のコスト大) 1 y 0.8 Aタイプ 0.6 0.4 0.2 Bタイプ x 0 0 0.2 0.4 0.6 0.8 1 収束時の利得 p≦0.5のとき 漸近安定状態に収束 ua=10 、 ub=10 p≧0.6のとき リャプノフ安定状態に収束 Aタイプの方がサンクション実施確率が高い → Bタイプより、εだけ利得が低いとする ua=20-ε 、 ub=20 ★ 単一集団モデルでは、Aタイプの方が不利 集団が複数の場合 5人グループが6つあると仮定 Aタイプの人数はそれぞれ0人~5人とする。 A人数 0 1 2 3 4 5 B人数 5 4 3 2 1 0 A利得 10 10 10 20-ε 20-ε 20-ε B利得 10 10 10 20 20 20 漸近安定に収束 リャプノフ安定に収束 Aタイプの平均利得 (10×0+10×1+10×2+(20-ε)×3+ (20-ε)×4+(20-ε)×5)/15=18-0.8ε Bタイプの平均利得 (10×5+10×4+10×3+20×2+20×1 +20×0)/15 =12 これより ε<7.5のとき Aタイプの平均利得>Bタイプの平均利得 ★ Aタイプのシェアが一様分布しているときに は、Aが有利になりうる 離合集散のある場合 集団が時々離合集散すると仮定 新しい集団がランダムに創設される → Aの人数は二項分布する 全体集団におけるAシェアを p 集団人数=5人、ε=2として、各タイプの 平均利得を数値的に計算。 数値計算の結果 p=0.67付近以 下でAタイプの 利得がBタイプ を上回る 遺伝的ダイナミ クスを考えると、 p=0.67付近で 多形安定 25 平均利得 20 15 Aタイプ Bタイプ 10 5 p 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 サンクションのない離合集散モデル 常に非提供の 利得が提供を 上回る サンクションが ない場合は、離 合集散程度の 群淘汰圧では 協力は進化で きない 30 平均利得 25 20 非提供 15 10 提供 5 p 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Priceの共分散法 i 番目の集団の サイズ si 戦略Aのシェア fi 平均適応度 πi とする 全体集団の サイズ s=Σsi → qi=si/s とすると 戦略Aのシェア f=Σsifi/s=Σqifi 平均適応度 π=Σsiπi/s=Σqiπi 次期の集団サイズ si'=siπi 次期の全体サイズ s'=Σsiπi=sπ 次期の全体Aシェア f'=Σsi' fi' / s' =Σsiπi fi' /sπ =Σqiπi fi' /π Aシェアの変化 Δf=f'-f とすると πΔf=πf'-πf =Σqiπi(fi+Δfi)-Σπqifi =Σqi(πi-π)fi+ΣqiπiΔfi =Cov(πi、fi)+E(πiΔfi) なぜならば Cov(πi、fi)=Σqi(πi-π)(fi-f) かつ Σqi(πi-π) =Σqiπi-Σqiπ=0 したがって πΔf=Cov(πi、fi)+E(πiΔfi) =r(πi、fi)σ(πi)σ(fi)+E(πiΔfi) 集団間淘汰 集団内淘汰 ★ 利他的戦略の場合 r(πi、fi)>0、Δfi<0 なので、σ(fi)が十分大きいことが進化の条件 サンクションの意味 戦略Aがサンクション戦略の場合 1) πΔf=r(πi、fi)σ(πi)σ(fi)+E(πiΔfi) においてΔfi は0に近い。 2) 協力行動を促進するのでr(πi、fi)>0 →σ(fi)が小さな値でも Δf>0 になりうる ★ サンクションは集団内淘汰の足を止めつつ 協力のエンジンを駆動させることで、協力と共進 化できる。
© Copyright 2024 ExpyDoc