タンパク質相互作用ネットワークの スケールフリーモデル 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター 研究の目的 (1) • 人間の設計図 – 32億文字 ⇒ CD-ROM 1枚 • 意外に少ない – パソコンゲームより少ないかも – 細胞は60兆個もある • ここに全てが書かれているはず – 臓器の作り方、脳の作り方 – 顔の作り方 – 知能、本能 ⇒ でも、どう書かれているか、ほとんどわかっ ていない 研究の目的 (2) • 設計図は手に入れたけど、設計図がどの ように書かれているか、ほとんど、わかっ ていない ⇒設計図は荘大なパズル ⇒これを解くのは21世紀の重要研究課題 • 人間の設計図がCD-ROM 1枚 ⇒数理的・情報学的原理があるはず ! ⇒それを解明したい バイオインフォマティクス • 生命情報学 • バイオ(生物)+インフォマティクス(情報学) • 32億文字を目だけで分析するのは無理 ⇒ コンピュータによる解析が必要 バイオインフォマティクスの目的 • DNA配列やタンパク質構造などのコンピュータ による解析方法の開発 • コンピュータを用いた生物学的知識の発見 システム生物学 • 生命をシステムとして理解 • 細胞、臓器などの数理モデルを 構築し、生物学的実験によりモデ ルを検証、改良 主要研究トピック • ネットワーク構造解析 – スケールフリーネットワーク – 代謝ネットワークの頑健性解析 • 遺伝子ネットワーク解析(ブーリアンネットワー ク) – アトラクター、制御 • RNA二次構造・相互作用予測 • カーネル法 – 化学構造の解析、設計 • 木構造のパターンマッチング、検索 内容 • スケールフリーネットワーク • タンパク質相互作用ネットワークの数理モデル グラフと実際のネットワークの対応 • 代謝ネットワーク – 頂点 ⇔ 化合物、 辺 ⇔ 代謝反応 • タンパク質相互作用ネットワーク – 頂点 ⇔ タンパク質、 辺 ⇔ 相互作用 • 遺伝子ネットワーク – 頂点 ⇔ 遺伝子、 辺 ⇔ 遺伝子間制御関係 • WWW – 頂点 ⇔ WEBページ、辺 ⇔ リンク • 共著関係 – 頂点 ⇔ 研究者、 辺 ⇔ 共著論文の有無 スケールフリーネットワーク (1) 頂点の次数 P(k) 次数=5 その頂点につながっ ている辺の個数 次数分布 次数 k の頂点の頻 度 次数=2 スケールフリーネッ トワーク P(k) がべき乗則に 従う P( k ) k 次数=3 代謝マップ, グラフ, 次数 A D F G H I J 次数1の頂点: J 次数2の頂点: B, C, D, F, G, H 次数3の頂点: E, I, A 次数分布: P(k) C E 次数 B P(1)=0.1, P(2)=0.6, P(3)=0.3, P(4)=P(5)=P(6)=…=0 スケールフリーネットワーク (2) 次数=5 次数=2 頂 点 数 頂点数 ∝ (次数)-3 次数 次数=3 スケールフリーネットワーク (3) • Barabasi らが1999年頃に発見。以降、数多く の研究 • 特徴: 有力な頂点(ハブ)に多くの頂点が連結 • 次数 k の頂点の個数が k -γに比例(べき乗則) – ランダムな場合(ポアソン分布: e-λλk/k!)と大差 • 実際のネットワークにおける k –γ – – – – – タンパク質相互作用: γ≒2.2 代謝ネットワーク: γ≒2.24 (生物種により異なる) 映画俳優の共演関係:γ≒2.3 WWW:γ≒2.1 送電網: γ≒4 ポアソン分布とべき乗分布 べき乗分布 (スケールフリーグラフ) P (k) log P (k) ポアソン分布 (ランダムグラフ) k log(k) タンパク質ネットワークの解析 • タンパク質相互作用のネットワークもべき乗則 に従う(酵母の場合) – 頂点:タンパク質 – 辺:相互作用の有無 • 次数5以下の頂点(全体の93%) – 21%程度が必須(生存に必要) • 次数16以上の頂点(全体の0.7%) – 62%程度が必須 – 次数の高い頂点はハブと呼ばれ、重要な役割を 果たすものが多い スケールフリーネットワーク構成法:優先的選択法 • 優先的選択法(優先的選択型成長モデル) [Barabasi & Albert 1999] – 別名: Rich-get-richer モデル • 構成法(ほぼ、k -3 のべき乗則従うネットワークを生成) – m0 個の頂点から成るグラフを構成する – 以下のステップを必要なだけ繰り返す • 現在のグラフに新たな頂点 v を追加する • v から既存の頂点に、deg(vi)/(Σj deg(vj)) に従う確率で、ランダムに辺 を張る(全部で m 本の辺を張る) • 参考:ランダムグラフの構成法 – N個の頂点を配置 – 以下の操作を辺の個数が指定の数になるまで繰り返す • 任意の2頂点をランダムに選んでは辺を追加 ランダムネットワーク vs. スケールフリーネットワーク ランダムネットワーク スケールフリーネットワーク 2/6 2/6 4/14 3/10 3/10 2/6 2/14 4/14 2/10 2/10 2/14 2/14 優先的選択法の平均場近似による解析 • ki(t): 頂点 i の時刻 t における次数 • 時刻 t までに追加された辺の個数≒mt ki (t ) mk i (t ) • 時刻 t において頂点 i の次数が1増加する確率は t 2mt • この微分方程式を条件 ki(ti)=m のもとで解くと t ki (t ) m ti • 時刻 tn にネットワークが完成したとすると、 次数 k の頂点の生成時刻は、ki(tn)=k を解いて、 0.5 m 2t n ti 2 k • ここで、k が1だけ増えると、ti がどれくらい減るかは、 2m 2t n 上の式を k で微分することにより、 k3 • よって、時刻が 2tnm2k -3 だけ異なると k が1変わる • よって、次数 k の頂点は 2tnm2k -3 のオーダーの個数存在 ki (t) k+1 k m 2m 2t n ti k3 m 2t n ti 2 k tn t タンパク質相互作用推定 相互作用の種類 • 遺伝子間相互作用 – どの遺伝子が、どの遺伝子を、どのように制御する か? • タンパク質間相互作用 – どのタンパク質と、どのタンパク質が結合するか? • 化合物-タンパク質間相互作用 – どの化合物と、どのタンパク質が結合するか? • タンパク質-DNA間相互作用 – どのタンパク質が、DNAのどの部分に結合するか ? ドメイン間相互作用に基づくタンパク質相互作用推定 • タンパク質はドメインとよばれる部品から構成されて いると考えられる • ドメイン間相互作用を直接計測するのは難しいか、一 部のタンパク質間相互作用は実験により計測可能 • 既知のタンパク質間相互作用データからドメイン間相 互作用を予測 • 未知のタンパク質間相互作用を、予測したドメイン間 相互作用から推定 上記以外にも、配列の共進化に基づく方法、遺伝子融合に基づく方法、 系統プロファイルを用いる方法など、様々な方法が提案されている。 タンパク質ドメインの例 D3 D1 D2 D4 D2 ドメイン間相互作用モデル • タンパク質ペアが相互作用 ⇔ 少なくとも一つのドメインペア が相互作用 ドメイン A B C D タンパク質 X Y Z ドメイン間相互作用の予測(例) • 左側の3種類の相互作用データから、右のドメイン間相互作用 を推定 P1 P3 D1 D2 P5 D1 D3 D4 D1 D3 D5 D4 D5 D6 P2 D2 D5 D4 D7 D8 P4 D8 P4 D7 D2 D4 ドメイン間相互作用の確率モデル • 確率モデル[Deng et al., 2002] – どれか1組ドメインが相互作用すれば、 タンパク質どうしが相互作用 – 各ドメインペアの相互作用の確率は独立 – Pij=1: タンパク質 Pi と Pj が相互作用 – Dmn=1: ドメイン Dm と Dn が相互作用 Prob( Pij 1) 1 Pi Dm Dn Pj (1 Prob(D mn Dmn Pij 1)) 確率モデルに基づく相互作用予測 • 既知の相互作用データから、 Prob(Dmn=1) を推定 • 未知のタンパク質配列ペアが与えられ たら、Pfamなどのソフトによりドメイン 構成を推定 • 下式を用いて相互作用の確率を推定 Prob( Pij 1) 1 Pi Dm Dn Pj (1 Prob(D mn Dmn Pij 1)) アソシエーション法 • 既知データからのドメインどうしの相互 作用の確率を頻度に基づいて推定 • Imn: ドメインペア Dm, Dn を含むタンパ ク質のペアのうち、相互作用しているペ アの個数 • Nmn: ドメインペア Dm, Dn を含むタンパ ク質のペアの個数 Prob( Dmn I mn 1) : N mn Pi Dm Dn Pj EM法 • 尤度を以下(L)のように定義し、それを極大化する一般手 法である EM法 を適用 • fp: false positive rate, fn: false negative rate • Pij: Pi と Pj が相互作用する確率 • Oij: Pi と Pj の相互作用が観測される確率 fp P r(Oij 1 | Pij 0) fn P r(Oij 0 | Pij 1) P r(Oij 1) P r(Oij 1, Pij 1) P r(Oij 1, Pij 0) P r(Pij 1)(1 fn) (1 P r(Pij 1)) fp L (P r(Oij 1) Oij (1 P r(Oij 1))1Oij タンパク質ドメイン進化の 数理モデル ドメイン進化の数理モデル (1) 異なるドメイン1個 からなる N0 個のタンパク 以下をn 回繰り返す: a) 確率 1-a で新たなドメインからなるタンパク質1個を生成 (突然変異に対応) b) 確率 a で、どれか1個のタンパクを選び、そのコピーを生成 (遺伝子重複に対応) (1個のタンパク質は1個のドメインだけから構成されると仮定) ドメイン進化の数理モデル(2) 遺伝子重複 突然変異 確率 1- a 確率 a モデルの 解析 突然変異 遺伝子重複 a 1-a n 回繰り返し a ~ 1.0 • i : i 種類目のドメイン • ki : i 種類目のドメインから成るタンパク質の個数 t ki c t0 dk i ki a dt t Q(k ) k [ 1(1/ a )] Q(k): コピーを k 個持つタンパク質の頻度 a Q(k)の説明 ドメインの種類 1 2 3 4 5 6 タンパク質の種類 k1 1, k2 3, k3 2, k4 2, k5 2, k6 1 Q(1) 62 , Q(2) 63 , Q(3) 13 , Q(4) Q(5) 0 優先的選択型成長モデルとの比較 • 類似点 – ドメイン i を持つタンパク質の個数 ⇔ 頂点 i の次数 – ドメイン i の重複 ⇔ 頂点 i の辺の追加 – 突然変異(新規ドメインの追加) ⇔ 新たな頂点の追加 • 相違点 k [ 1(1/ a)] vs. k 3 Q(1)=3 Q(2)=1 Q(3)=1 1-a a 遺伝子重複 突然変異 辺の追加 a ~ 1.0 新規頂点 タンパク質相互作用ネットワーク の数理モデル Duplication-Divergenceモデル • 以下のメカニズムに従ってネットワークが成長 Duplication: ある頂点がランダムに選ばれて、そのコピーが生 成される。もとの頂点に接続する辺も全てコピーされる。 Divergence: コピーされた辺はそれぞれ同確率で有効となる。 1本も有効となる辺がなかった頂点は削除される。 duplication divergence でも、実際に進化するのはネットワークでなく、配列 ドメイン間相互作用に基づくネットワークモデル • ドメイン間相互作用モデル + ドメイン配列の進化モデル (これまで説明したモデルの組み合わせ) モデル • 突然変異と遺伝子重複に基づくモデルにより、 タンパク質配列が生成 • 2個のドメインの相互作用確率は一様ランダム • 2個のタンパク質が相互作用⇔対応するドメイ ンが相互作用 モデルの解析 • ランダムに選ばれた1個のドメインペア (A,B) のみが相互作用 すると仮定 • ドメイン X からなるタンパク質の個数を nx とする • k 個のコピーを持つドメインの個数は k (1(1/ a)) k • よって、コピーが x個, y個であるようなペア (A,B) が選ばれる 確率は x y • その場合、次数が x のタンパク質が y 個あることになる • よって、次数が y であるようなタンパク質の個数の期待値は Pr(nB y) E[nA ] y x x dx 12 y x 1 N個(≪n)のランダムペアの場合も同様 次数分布 y まとめ • タンパク質相互作用推定 • タンパクが相互作用 ⇔ ドメインが相互作用 • 既知データからドメイン間相互作用を推定 • タンパク質ドメイン進化の数理モデル • 突然変異+遺伝子重複 • タンパク質相互作用ネットワークの数理モデル • ランダムなドメイン間相互作用+上記モデルの組 み合わせ
© Copyright 2024 ExpyDoc