システム生物情報学 - Kyoto University Bioinformatics

生命情報学/システム生物情報学 (4)
タンパク質相互作用解析
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
講義予定(阿久津担当分)


第1回: 生命情報学・システム生物情報学概観
第2回:生体内ネットワークの特徴解析(1)


第3回:生体内ネットワークの特徴解析(2)




スケールフリーネットワーク
代謝ネットワーク
第4回:タンパク質相互作用解析
第5回:遺伝子発現データ解析
レポート課題(阿久津担当分)は第5回に出題
内容



タンパク質相互作用推定
タンパク質ドメイン進化の数理モデル
タンパク質相互作用ネットワークの数理モデル
タンパク質相互作用推定
相互作用の種類

遺伝子間相互作用


タンパク質間相互作用


どのタンパク質と、どのタンパク質が結合するか?
化合物-タンパク質間相互作用


どの遺伝子が、どの遺伝子を、どのように制御するか
?
どの化合物と、どのタンパク質が結合するか?
タンパク質-DNA間相互作用

どのタンパク質が、DNAのどの部分に結合するか?
ドメイン間相互作用に基づくタンパク質相互作用推定




タンパク質はドメインとよばれる部品から構成されて
いると考えられる
ドメイン間相互作用を直接計測するのは難しいか、一
部のタンパク質間相互作用は実験により計測可能
既知のタンパク質間相互作用データからドメイン間相
互作用を予測
未知のタンパク質間相互作用を、予測したドメイン間
相互作用から推定
上記以外にも、配列の共進化に基づく方法、遺伝子融合に基づく方法、
系統プロファイルを用いる方法など、様々な方法が提案されている。
タンパク質ドメインの例
D3
D1
D2
D4
D2
ドメイン間相互作用モデル
• タンパク質ペアが相互作用 ⇔ 少なくとも一つのドメインペア
が相互作用
ドメイン
A
B
C
D
タンパク質
X
Y
Z
ドメイン間相互作用の予測(例1)
• 左側の3種類の相互作用データから、右のドメイン間相互作用
を推定
P1
P3
D1
D2
P5
D1
D3
D4
D1 D3
D5
D4
D5
D6
P2
D2
D5
D4
D7
D8
P4
D8
P4
D7
D2
D4
ドメイン間相互作用の予測(例2)
P1
P2
P4
D1 D2
D2
D1
P1 D1 D2
D2
P2
D1
D2
D2 D
3
P3
D2
D2
D3
P5
D2
D3
P6
D1
D3
D2 D3 D4
ドメイン間相互作用の確率モデル

確率モデル[Deng et al., 2002]




どれか1組ドメインが相互作用すれば、
タンパク質どうしが相互作用
各ドメインペアの相互作用の確率は独立
Pij=1: タンパク質 Pi と Pj が相互作用
Dmn=1: ドメイン Dm と Dn が相互作用
Prob( Pij  1)  1 
Pi
Dm
Dn
Pj
 (1  Prob(D
mn
Dmn Pij
 1))
確率モデルに基づく相互作用予測



既知の相互作用データから、
Prob(Dmn=1) を推定
未知のタンパク質配列ペアが与えられ
たら、Pfamなどのソフトによりドメイン
構成を推定
下式を用いて相互作用の確率を推定
Prob( Pij  1)  1 
Pi
Dm
Dn
Pj
 (1  Prob(D
mn
Dmn Pij
 1))
アソシエーション法



既知データからのドメインどうしの相互
作用の確率を頻度に基づいて推定
Imn: ドメインペア Dm, Dn を含むタンパ
ク質のペアのうち、相互作用しているペ
アの個数
Nmn: ドメインペア Dm, Dn を含むタンパ
ク質のペアの個数
Prob( Dmn
I mn
 1) :
N mn
Pi
Dm
Dn
Pj
EM法




尤度を以下(L)のように定義し、それを極大化する一般手
法である EM法 を適用
fp: false positive rate, fn: false negative rate
Pij: Pi と Pj が相互作用する確率
Oij: Pi と Pj の相互作用が観測される確率
fp  P r(Oij  1 | Pij  0)
fn  P r(Oij  0 | Pij  1)
P r(Oij  1)  P r(Oij  1, Pij  1)  P r(Oij  1, Pij  0)
 P r(Pij  1)(1  fn)  (1  P r(Pij  1)) fp
L   (P r(Oij  1) Oij (1  P r(Oij  1))1Oij
タンパク質ドメイン進化の
数理モデル
ドメイン進化の数理モデル (1)
異なるドメイン1個
からなる
N0 個のタンパク
以下をn 回繰り返す:
a) 確率 1-a で新たなドメインからなるタンパク質1個を生成
(突然変異に対応)
b) 確率 a で、どれか1個のタンパクを選び、そのコピーを生成
(遺伝子重複に対応)
(1個のタンパク質は1個のドメインだけから構成されると仮定)
ドメイン進化の数理モデル(2)
遺伝子重複
突然変異
確率 1-
a
確率
a
モデルの
解析
突然変異
遺伝子重複
a
1-a
n 回繰り返し
a ~ 1.0


i : i 種類目のドメイン ti : ドメイン i の生成時刻
ki : ドメイン i から成るタンパク質の個数
t
ki  c
 ti
dk i
ki
a
dt
t
Q(k )  k [ 1(1/ a )]
Q(k): コピーを k 個持つタンパク質の頻度



a
Q(k)の説明
ドメインの種類
1
2
3
4
5
6
タンパク質の種類
k1  1, k2  3, k3  2, k4  2, k5  2, k6  1
Q(1)  62 , Q(2)  63 , Q(3)  16 , Q(4)  Q(5)    0
ドメイン分布の数理解析



ki(t): (時刻 ti)に生成されたi 種類目のドメイン i の時刻 t におけ
るコピー数(タンパク質の種類数)
時刻 t までに追加されたコピー数の総和≒t
dk i (t )
ki (t )
時刻 t にドメイン i のコピー数が増加する確率は dt  a t
t
ki (t )   
 ti 
a

この微分方程式を条件 ki(ti)=1 のもとで解くと

時刻 tn に進化が完了したとすると、
tn
ti  1/ a
コピー数k のドメインの生成時刻は、ki(tn)=k を解いて、
k

ここで、k が1だけ増えると、ti がどれくらい減るかは、 t n  (11/ a )
 k
上の式を k で微分することにより、
a

よって、時刻が (tn/a)k -(1+1/a) だけ異なると k が1変わる

よって、Q(k)∝k -(1+1/a)
優先的選択型成長モデルとの比較

類似点




ドメイン i を持つタンパク質の個数 ⇔ 頂点 i の次数
ドメイン i の重複 ⇔ 頂点 i の辺の追加
突然変異(新規ドメインの追加) ⇔ 新たな頂点の追加
相違点
k [ 1(1/ a)]
vs. k 3
Q(1)=3
Q(2)=1
Q(3)=1
1-a
a
遺伝子重複
突然変異
辺の追加
a ~ 1.0
新規頂点
タンパク質相互作用ネットワークの
数理モデル
Duplication-Divergenceモデル
• 以下のメカニズムに従ってネットワークが成長
Duplication: ある頂点がランダムに選ばれて、そのコピーが生
成される。もとの頂点に接続する辺も全てコピーされる。
Divergence: コピーされた辺はそれぞれ同確率で有効となる。
1本も有効となる辺がなかった頂点は削除される。
duplication
divergence
でも、実際に進化するのはネットワークでなく、配列
ドメイン間相互作用に基づくネットワークモデル
ドメイン間相互作用モデル +
ドメイン配列の進化モデル
(これまで説明したモデルの組み合わせ)

モデル
• 突然変異と遺伝子重複に基づくモデルにより、
タンパク質配列が生成
• 2個のドメインの相互作用確率は一様ランダム
• 2個のタンパク質が相互作用⇔対応するドメイ
ンが相互作用
モデルの解析


ランダムに選ばれた1個のドメインペア (A,B) のみが相互作用
すると仮定
ドメイン X からなるタンパク質の個数を nX とする
k
(1(1/ a))
k


k 個のコピーを持つドメインの個数は

よって、コピーが x個, y個であるようなペア (A,B) が選ばれる
確率は x   y 

その場合、次数が y のタンパク質が x 個あることになる
よって、次数が y であるようなタンパク質の個数の期待値は

Pr(nB  y)  E[nA ]  y



x  x  dx   12  y 
x 1
N個(≪n)のランダムペアの場合も同様
次数分布  y 
まとめ
• タンパク質相互作用推定
• タンパクが相互作用 ⇔ ドメインが相互作用
• 既知データからドメイン間相互作用を推定
• タンパク質ドメイン進化の数理モデル
• 突然変異+遺伝子重複
• タンパク質相互作用ネットワークの数理モデル
• ランダムなドメイン間相互作用+上記モデルの組
み合わせ