システム生物情報学2008

タンパク質相互作用ネットワークの
スケールフリーモデル
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
研究の目的 (1)
• 人間の設計図
– 32億文字 ⇒ CD-ROM 1枚
• 意外に少ない
– パソコンゲームより少ないかも
– 細胞は60兆個もある
• ここに全てが書かれているはず
– 臓器の作り方、脳の作り方
– 顔の作り方
– 知能、本能
⇒ でも、どう書かれているか、ほとんどわかっ
ていない
研究の目的 (2)
• 設計図は手に入れたけど、設計図がどの
ように書かれているか、ほとんど、わかっ
ていない
⇒設計図は荘大なパズル
⇒これを解くのは21世紀の重要研究課題
• 人間の設計図がCD-ROM 1枚
⇒数理的・情報学的原理があるはず !
⇒それを解明したい
バイオインフォマティクス
• 生命情報学
• バイオ(生物)+インフォマティクス(情報学)
• 32億文字を目だけで分析するのは無理
⇒ コンピュータによる解析が必要
バイオインフォマティクスの目的
• DNA配列やタンパク質構造などのコンピュータ
による解析方法の開発
• コンピュータを用いた生物学的知識の発見
システム生物学
• 生命をシステムとして理解
• 細胞、臓器などの数理モデルを
構築し、生物学的実験によりモデ
ルを検証、改良
主要研究トピック
• ネットワーク構造解析
– スケールフリーネットワーク
– 代謝ネットワークの頑健性解析
• 遺伝子ネットワーク解析(ブーリアンネットワー
ク)
– アトラクター、制御
• RNA二次構造・相互作用予測
• カーネル法
– 化学構造の解析、設計
• 木構造のパターンマッチング、検索
内容
• スケールフリーネットワーク
• タンパク質相互作用ネットワークの数理モデル
グラフと実際のネットワークの対応
• 代謝ネットワーク
– 頂点 ⇔ 化合物、
辺 ⇔ 代謝反応
• タンパク質相互作用ネットワーク
– 頂点 ⇔ タンパク質、 辺 ⇔ 相互作用
• 遺伝子ネットワーク
– 頂点 ⇔ 遺伝子、
辺 ⇔ 遺伝子間制御関係
• WWW
– 頂点 ⇔ WEBページ、辺 ⇔ リンク
• 共著関係
– 頂点 ⇔ 研究者、
辺 ⇔ 共著論文の有無
スケールフリーネットワーク (1)

頂点の次数


P(k)



次数=5
その頂点につながっ
ている辺の個数
次数分布
次数 k の頂点の頻
度
次数=2
スケールフリーネッ
トワーク

P(k) がべき乗則に
従う
P( k )  k

次数=3
代謝マップ, グラフ, 次数
A



D
F
G
H
I
J
次数1の頂点: J
次数2の頂点: B, C, D, F, G, H
次数3の頂点: E, I, A
次数分布: P(k)

C
E
次数


B
P(1)=0.1, P(2)=0.6, P(3)=0.3, P(4)=P(5)=P(6)=…=0
スケールフリーネットワーク (2)
次数=5
次数=2
頂
点
数
頂点数 ∝ (次数)-3
次数
次数=3
スケールフリーネットワーク (3)
• Barabasi らが1999年頃に発見。以降、数多く
の研究
• 特徴: 有力な頂点(ハブ)に多くの頂点が連結
• 次数 k の頂点の個数が k -γに比例(べき乗則)
– ランダムな場合(ポアソン分布: e-λλk/k!)と大差
• 実際のネットワークにおける k –γ
–
–
–
–
–
タンパク質相互作用: γ≒2.2
代謝ネットワーク: γ≒2.24 (生物種により異なる)
映画俳優の共演関係:γ≒2.3
WWW:γ≒2.1
送電網: γ≒4
ポアソン分布とべき乗分布
べき乗分布
(スケールフリーグラフ)
P (k)
log P (k)
ポアソン分布
(ランダムグラフ)
k
log(k)
タンパク質ネットワークの解析
• タンパク質相互作用のネットワークもべき乗則
に従う(酵母の場合)
– 頂点:タンパク質
– 辺:相互作用の有無
• 次数5以下の頂点(全体の93%)
– 21%程度が必須(生存に必要)
• 次数16以上の頂点(全体の0.7%)
– 62%程度が必須
– 次数の高い頂点はハブと呼ばれ、重要な役割を
果たすものが多い
スケールフリーネットワーク構成法:優先的選択法
• 優先的選択法(優先的選択型成長モデル)
[Barabasi & Albert 1999]
– 別名: Rich-get-richer モデル
• 構成法(ほぼ、k -3 のべき乗則従うネットワークを生成)
– m0 個の頂点から成るグラフを構成する
– 以下のステップを必要なだけ繰り返す
• 現在のグラフに新たな頂点 v を追加する
• v から既存の頂点に、deg(vi)/(Σj deg(vj)) に従う確率で、ランダムに辺
を張る(全部で m 本の辺を張る)
• 参考:ランダムグラフの構成法
– N個の頂点を配置
– 以下の操作を辺の個数が指定の数になるまで繰り返す
• 任意の2頂点をランダムに選んでは辺を追加
ランダムネットワーク vs. スケールフリーネットワーク
ランダムネットワーク
スケールフリーネットワーク
2/6
2/6
4/14
3/10
3/10
2/6
2/14
4/14
2/10
2/10
2/14
2/14
優先的選択法の平均場近似による解析
• ki(t): 頂点 i の時刻 t における次数
• 時刻 t までに追加された辺の個数≒mt
ki (t ) mk i (t )
• 時刻 t において頂点 i の次数が1増加する確率は t  2mt
• この微分方程式を条件 ki(ti)=m のもとで解くと
t
ki (t )  m 
 ti 
• 時刻 tn にネットワークが完成したとすると、
次数 k の頂点の生成時刻は、ki(tn)=k を解いて、
0.5
m 2t n
ti  2
k
• ここで、k が1だけ増えると、ti がどれくらい減るかは、  2m 2t n
上の式を k で微分することにより、
k3
• よって、時刻が 2tnm2k -3 だけ異なると k が1変わる
• よって、次数 k の頂点は 2tnm2k -3 のオーダーの個数存在
ki (t)
k+1
k
m
 2m 2t n
ti 
k3
m 2t n
ti  2
k
tn
t
タンパク質相互作用推定
相互作用の種類
• 遺伝子間相互作用
– どの遺伝子が、どの遺伝子を、どのように制御する
か?
• タンパク質間相互作用
– どのタンパク質と、どのタンパク質が結合するか?
• 化合物-タンパク質間相互作用
– どの化合物と、どのタンパク質が結合するか?
• タンパク質-DNA間相互作用
– どのタンパク質が、DNAのどの部分に結合するか
?
ドメイン間相互作用に基づくタンパク質相互作用推定
• タンパク質はドメインとよばれる部品から構成されて
いると考えられる
• ドメイン間相互作用を直接計測するのは難しいか、一
部のタンパク質間相互作用は実験により計測可能
• 既知のタンパク質間相互作用データからドメイン間相
互作用を予測
• 未知のタンパク質間相互作用を、予測したドメイン間
相互作用から推定
上記以外にも、配列の共進化に基づく方法、遺伝子融合に基づく方法、
系統プロファイルを用いる方法など、様々な方法が提案されている。
タンパク質ドメインの例
D3
D1
D2
D4
D2
ドメイン間相互作用モデル
• タンパク質ペアが相互作用 ⇔ 少なくとも一つのドメインペア
が相互作用
ドメイン
A
B
C
D
タンパク質
X
Y
Z
ドメイン間相互作用の予測(例)
• 左側の3種類の相互作用データから、右のドメイン間相互作用
を推定
P1
P3
D1
D2
P5
D1
D3
D4
D1 D3
D5
D4
D5
D6
P2
D2
D5
D4
D7
D8
P4
D8
P4
D7
D2
D4
ドメイン間相互作用の確率モデル
• 確率モデル[Deng et al., 2002]
– どれか1組ドメインが相互作用すれば、
タンパク質どうしが相互作用
– 各ドメインペアの相互作用の確率は独立
– Pij=1: タンパク質 Pi と Pj が相互作用
– Dmn=1: ドメイン Dm と Dn が相互作用
Prob( Pij  1)  1 
Pi
Dm
Dn
Pj
 (1  Prob(D
mn
Dmn Pij
 1))
確率モデルに基づく相互作用予測
• 既知の相互作用データから、
Prob(Dmn=1) を推定
• 未知のタンパク質配列ペアが与えられ
たら、Pfamなどのソフトによりドメイン
構成を推定
• 下式を用いて相互作用の確率を推定
Prob( Pij  1)  1 
Pi
Dm
Dn
Pj
 (1  Prob(D
mn
Dmn Pij
 1))
アソシエーション法
• 既知データからのドメインどうしの相互
作用の確率を頻度に基づいて推定
• Imn: ドメインペア Dm, Dn を含むタンパ
ク質のペアのうち、相互作用しているペ
アの個数
• Nmn: ドメインペア Dm, Dn を含むタンパ
ク質のペアの個数
Prob( Dmn
I mn
 1) :
N mn
Pi
Dm
Dn
Pj
EM法
• 尤度を以下(L)のように定義し、それを極大化する一般手
法である EM法 を適用
• fp: false positive rate, fn: false negative rate
• Pij: Pi と Pj が相互作用する確率
• Oij: Pi と Pj の相互作用が観測される確率
fp  P r(Oij  1 | Pij  0)
fn  P r(Oij  0 | Pij  1)
P r(Oij  1)  P r(Oij  1, Pij  1)  P r(Oij  1, Pij  0)
 P r(Pij  1)(1  fn)  (1  P r(Pij  1)) fp
L   (P r(Oij  1) Oij (1  P r(Oij  1))1Oij
タンパク質ドメイン進化の
数理モデル
ドメイン進化の数理モデル (1)
異なるドメイン1個
からなる
N0 個のタンパク
以下をn 回繰り返す:
a) 確率 1-a で新たなドメインからなるタンパク質1個を生成
(突然変異に対応)
b) 確率 a で、どれか1個のタンパクを選び、そのコピーを生成
(遺伝子重複に対応)
(1個のタンパク質は1個のドメインだけから構成されると仮定)
ドメイン進化の数理モデル(2)
遺伝子重複
突然変異
確率 1-
a
確率
a
モデルの
解析
突然変異
遺伝子重複
a
1-a
n 回繰り返し
a ~ 1.0
• i : i 種類目のドメイン
• ki : i 種類目のドメインから成るタンパク質の個数
t 
ki  c 
 t0 
dk i
ki
a
dt
t
Q(k )  k [ 1(1/ a )]
Q(k): コピーを k 個持つタンパク質の頻度
a
Q(k)の説明
ドメインの種類
1
2
3
4
5
6
タンパク質の種類
k1  1, k2  3, k3  2, k4  2, k5  2, k6  1
Q(1)  62 , Q(2)  63 , Q(3)  13 , Q(4)  Q(5)    0
優先的選択型成長モデルとの比較
• 類似点
– ドメイン i を持つタンパク質の個数 ⇔ 頂点 i の次数
– ドメイン i の重複 ⇔ 頂点 i の辺の追加
– 突然変異(新規ドメインの追加) ⇔ 新たな頂点の追加
• 相違点
k [ 1(1/ a)]
vs. k 3
Q(1)=3
Q(2)=1
Q(3)=1
1-a
a
遺伝子重複
突然変異
辺の追加
a ~ 1.0
新規頂点
タンパク質相互作用ネットワーク
の数理モデル
Duplication-Divergenceモデル
• 以下のメカニズムに従ってネットワークが成長
Duplication: ある頂点がランダムに選ばれて、そのコピーが生
成される。もとの頂点に接続する辺も全てコピーされる。
Divergence: コピーされた辺はそれぞれ同確率で有効となる。
1本も有効となる辺がなかった頂点は削除される。
duplication
divergence
でも、実際に進化するのはネットワークでなく、配列
ドメイン間相互作用に基づくネットワークモデル
• ドメイン間相互作用モデル +
ドメイン配列の進化モデル
(これまで説明したモデルの組み合わせ)
モデル
• 突然変異と遺伝子重複に基づくモデルにより、
タンパク質配列が生成
• 2個のドメインの相互作用確率は一様ランダム
• 2個のタンパク質が相互作用⇔対応するドメイ
ンが相互作用
モデルの解析
• ランダムに選ばれた1個のドメインペア (A,B) のみが相互作用
すると仮定
• ドメイン X からなるタンパク質の個数を nx とする
• k 個のコピーを持つドメインの個数は
k
(1(1/ a))
k

• よって、コピーが x個, y個であるようなペア (A,B) が選ばれる
確率は x   y 
• その場合、次数が x のタンパク質が y 個あることになる
• よって、次数が y であるようなタンパク質の個数の期待値は
Pr(nB  y)  E[nA ]  y



x  x  dx   12  y 
x 1
N個(≪n)のランダムペアの場合も同様
次数分布  y 
まとめ
• タンパク質相互作用推定
• タンパクが相互作用 ⇔ ドメインが相互作用
• 既知データからドメイン間相互作用を推定
• タンパク質ドメイン進化の数理モデル
• 突然変異+遺伝子重複
• タンパク質相互作用ネットワークの数理モデル
• ランダムなドメイン間相互作用+上記モデルの組
み合わせ