九州大学集中講義 - Kyoto University Bioinformatics

集中講義(九州大学数理学研究院)
バイオ構造データに対する数理モデルと
アルゴリズム(2)
タンパク質進化の数理モデル
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
内容



タンパク質ドメイン進化の数理モデル
タンパク質相互作用ネットワークの
数理モデル
マルチドメインタンパク質進化の数理モデル
研究の目的
タンパク質ドメインおよびタンパク質相互作用
ネットワークにおける各種分布の数理的説明



タンパク質相互作用ネットワーク:power-law [Jeong et al., 2001]
k種類のドメインからなるタンパク数: exponential [Koonin et al.,
2002]


k個のドメインからなるタンパク数: power-law [Koonin et al., 2002]
タンパク全体におけるドメインの分布: power-law [Wuchty, 2001]
進化に基づく数理モデルの構築


ネットワークそれ自体が進化するわけではない。進
化するのは遺伝子・タンパク質である。
タンパク質ドメイン進化の
数理モデル
J.C. Nacher, M. Hayashida and T. Akutsu: Physica A, 367, 538-552, 2006
タンパク質ドメイン
Domain: Well-defined region within a
protein that either performs a specific
function or constitutes a stable unit
3種類のドメインからなる
タンパク質
タンパク質ドメインの例
D3
D1
D2
D2
D4
タンパク質ドメイン進化の数理モデル
別々のドメイン1個
からなる定数個の
タンパク質
次のステップを n 回繰り返す
a) 確率 (1-a) で、新規なドメイン1個からなる新規なタンパクを生成
(MUTATION)
b) 上記が選択されなかった場合、1個のタンパク質をランダムに選んで、
そのコピーを生成 (PROTEIN DUPLICATION)
仮定:1個のタンパク質は1個のドメインから構成される
Model
(continued)
Mutation
Duplication of Protein
a
1-a
T times
a ~ 1.0



i : ドメイン i
k i : ドメイン i からなるタンパク質の個数
t i : ドメイン i が最初に生成された時刻
dk i
ki
a
dt
t
t
ki  c
 ti



PD (k )  k [ 1(1/ a)]
PD(k): k 個のコピーを持つドメインの頻度
a
As in
Barabasi &
Albert 1999
優先的選択型成長モデルとの比較

類似点




ドメイン i を持つたんぱく質の個数⇔ 頂点 i の次数
ドメイン i のコピーの生成 ⇔ 頂点 i への辺の接続
突然変異(新規ドメインの生成) ⇔ 新たな頂点の追加
相違点
k [ 1(1/ a)]
vs. k 3
PD(1)=3
PD(2)=1
PD(3)=1
1-a
a
Duplication
Mutation
new edge
a ~ 1.0
new node
タンパク質相互作用ネットワークの
数理モデル
J.C. Nacher, M. Hayashida and T. Akutsu: BioSystems, 95, 155-159, 2009
ドメインに基づくタンパク質相互作用モデル
[Sprinzak & Margalit 2001, Deng et al. 2002]

タンパク質が相互作用 ⇔ 相互作用するドメインペアが存在
ドメイン間相互作用
A
X
タンパク質間
相互作用
B
Y
C
D
Z
ドメインの進化モデルとドメインに基づく相互作用
モデルの組み合わせ
ドメインの進化モデル
PD (k )  k [ 1(1/ a)]
ランダムなドメイン間相互作用モデル
Pr(Di interactswith Dj )  
ドメインに基づく相互作用モデル





タンパク質が相互作用 ⇔ 相互作用するドメインペアが存在
タンパク質相互作用ネットワークのスケールフリー性
PPPI (k )  k
[ 1(1/ a )]
数理解析


1個のドメインペアをランダムに選択
x 個のコピーを持つドメインAと、y 個のコ
ピーを持つドメインBが選ばれる確率は

x y

domain
A
domain
B

次数が y となるタンパク質の個数の期待
値は
K
P r(nB  y ) E[n A ]  y
 
1

y 
 x 2 
2
K
1


1

x  x dx
nA=x
=3
nB=y
=2
 K 2   1   
 y
 
 2 
⇒ power-law分布
(しかし、中心極限定理によりドメインペアの個数が多い
と正規分布)
3 proteins
with
degree 2
マルチドメインタンパク質進化の
数理モデル
J.C. Nacher, M. Hayashida and T. Akutsu: BioSystems, in press.
ドメイン融合と内部重複 (1)
1. 内部重複
1個のタンパク質内にある1個もしくは複数のドメインが重複
2. ドメイン融合
 2個のタンパクが融合

ドメイン重複
突然変異
内部重複
ドメイン融合
二種類の分布


k種類のドメインからなるタンパク数 ⇒ exponential
k個のドメインからなるタンパク数 ⇒ power-law
[Koonin et al., 2002]
A
ドメインの種類
4
B
ドメインの個数
A
3
C
2
B
A
A
1
B
B
C
1
2
3
重複、突然変異、融合のモデル化 (1)




Ni(t) : 時刻 t において i 個のドメインからなるタンパク質
の個数
pm : 突然変異の確率
pd : タンパク質重複の確率
pf : ドメイン融合の確率
(t )
1
(t )
1
dN
N
 pm  pd
dt
t
(t )
(t )
(t )
(t )
k 1
dNk
Nk
N k i N i
 pd
 pf 

dt
t
t
t
i 1
重複、突然変異、融合のモデル化 (2)
dN1(t )
N1(t )
 pm  pd
dt
t
k 1
dNk(t )
N k(t )
N k(t)i N i(t )
 pd
 pf 

dt
t
t
t
i 1
ni(t) =Ni(t) /t , ni = ni(t) for t→∞ と置くと
n1  pm  pd n1
k 1
nk  pd nk  p f  nk 1ni
i 1
重複、突然変異、融合のモデル化 (3)
母関数を用いると以下の厳密解を得る
nk 
pm  p f
2pf
(2k  2)!  4 pm p f 
 2 k 1

2 k!(k  1)!  ( pm  p f ) 
k
Stirlingの公式を用いると以下の近似を得る
 ( pm  p f ) 
1

nk 


2  p f (2k  1) k  4 pm p f 
pm  p f
nk はほとんど exponential distribution
k
内部重複のモデル化
(t )
k
dN
 ps
dt
N
(t )
(k / r )
t
(t )
k
N
 ps
t
ni(t) =Ni(t) /t, ni = ni(t) for t→∞ と置くと
nk  ps n( k / r )  ps nk
l
 ps 
 ps 
n( k / r )  
 n( k / r l )
nk  
 1  ps 
 1  ps 
 ps 

nk  
 1  ps 
log r k
k
 p
log r  s
 1 p s



nk : power-law
突然変異、融合、内部・外部重複すべての組み合わせ
dN1(t )
N1(t )
N1(t )
 pm  pd
 ps
dt
t
t
(t )
k
(t )
k
k 1
(t )
k i
(t )
i
dN
N
N
N
 pd
 pf 

dt
t
t
t
i 1
 ps
N ((kt )/ r )
t
N k(t )
 ps
t
厳密解を求めるのは困難
⇒ 計算機シミュレーション
まとめ

ドメイン進化の数理モデル


ドメインのタンパク全体にわたる分布: power-law
ドメインに基づく相互作用モデルとドメイン進化モデル
の組み合わせ
⇒ 相互作用ネットワークの次数分布: power-law
⇒ 既存モデル (e.g., duplication-divergence) より単純

マルチドメインタンパク質進化の数理モデル
⇒ k 種類のドメインからなるタンパク数: exponential
⇒ k 個のドメインからなるタンパク数: power-law
⇒ データベース解析とシミュレーション結果の整合性
⇒ 内部重複の重要性