情報科学講究II (8) タンパク質構造の推定技術と情報処理 相同(類似)による推定・モデリング 物理化学的な計算による推定 今回の目標 • タンパク質の構造推定に対する 情報技術の貢献を見る – 構造推定の必要性とCAPSなどの競争 – 相同性(類似性)による推定方法・モデリング – 物理化学的な計算による推定方法 • 今日のタネ本は – – – – 松澤洋編 タンパク質工学の基礎 A. M. Lesk バイオインフォマティクス基礎講義 J. C. Satubal 分子生物学のためのバイオインフォマティクス入門 清水謙太郎 http://www.bi.a.u-tokyo.ac.jp/~shimizu/bio-old Page 2 講究II (8) 2007/11/16 タンパク質の立体構造の必要性 • 構造 ⇒ 機能なので、構造を知りたい – タンパク質が与えられて、その機能を推定したい – タンパク質を改変して、役立つようにしたい • • • 有効な機能を引き出す 不都合な機能を消し去る 構造同定の方法として 1. 実物を分析(結晶化してX線回折、NMR) • • 手間・時間(半年~1年?) X線回折~結晶化必要、NMR~大きさ上限 2. アミノ酸配列から推定できないか? ← ← Page 3 講究II (8) 2007/11/16 アミノ酸配列から構造を推定する? • 一意に折り畳み構造が決まる(Anfinsenのドグマ) ならば • 計算によって構造を求められるはず! 1. 物理化学的に(エネルギー最小の形)推定 – (精度⇔計算量)の問題がある 2. タンパク質固有の情報を使う方法 – 「配列が似ていれば構造も似ている」かも(経験) – 「それなりに」うまくいく (「いつも」ではない) Page 4 講究II (8) 2007/11/16 物理化学モデルから計算する方法 (分子動力学(Molecular Dynamics)法) • 原子間に働くいろいろな力 を重ね合わせる – 力場(ポテンシャル)関数 – 結果として極小の場所がたく さんある http://www.bi.a.u-tokyo.ac.jp/~shimizu/bioinfo/structure.html • 配列(=伸びた状態)からシミュレーションする – 類似の構造が無く類推できない時でも、有効 • 計算量が膨大 = 腕力 – 小さなタンパク質(数十残基)なら有効 ← 限度 Page 5 講究II (8) 2007/11/16 分子動力学法 • エネルギーの極小化(Eを極小化) • フォールディングのシミュレーション – mi d2ri/dt2 = -∇i E を差分化 • E = Eb + Eθ + Eφ + Evdw + Eel – Eb = ΣKb(r-r0)2 結合長 – Eθ = ΣKθ(θ-θ0)2 結合角 – Eφ = ΣKφ[1+cos(nφ-δ)] 二面角 – Evdw = Σ[Aij/(rij2)-Bij/(rij6)] ファンデルワールス力 – Eel = Σqiqj/(εrij) 静電相互作用(クーロン力) Page 6 講究II (8) 2007/11/16 様々な工夫がされている • 格子モデル: 各アミノ酸を格子点に置く – 相互作用を隣接する格子点間のみに限定 – 粗視化⇒計算量は減るが精度は不足 エネルギーの差が小さいので、精度は必要 • 統計ポテンシャルを使う: – 物理的ではなく、既知の構造データから、取り得る 構造の傾向を統計的に確率として算出して、ポテ ンシャルとして定義する – 個々の計算は容易、統計ポテンシャル算出は大変 – 統計の元データ分布や質、測定条件などの問題 Page 7 講究II (8) 2007/11/16 格子モデル • 各残基が格子点 にあると仮定 • 予測よりも、 フォールディング の定性的な理解 のために利用され る Page 8 講究II (8) 2007/11/16 ソフトの例 • 電子構造法: Gaussian – 無機化学では標準的に使われる、物理化学 モデルによる構造計算(有償)パッケージ – 計算量が多く、タンパク質での計算は大変 • 分子動力学法 – Gromos/Gromacs • 速い(らしい)、GPLでフリー – 他に、AMBER, CHARMM, NAMD, TINKER など多数作られている Page 9 講究II (8) 2007/11/16 タンパク質固有アプローチ ~ CAPSコンテストから • CAPS: 推定技術がいかに進んだか競争 – 1994から隔年で過去7回(2006まで) – 3つの問題分野 1. 比較モデリング (既知の近縁タンパク質を使える範囲、 ホモロジーモデリングを適用できる) 2. フォールド認識 (類似のフォールドを持つ構造は使え る。近縁のものはない。トポロジーが類似した構造を同 定することが問題) 3. 新規フォールド (同じ折り畳みパターンを持つ構造は 知られていない) Page 10 講究II (8) 2007/11/16 タンパク質構造の「分類」 • 構造から機能が決まると期待 • SCOP(立体構造分類データベース)の 階層的クラス分け – Class: 二次構造の組成による分類 αのみ、βのみ、βαβ構造、別々のα+βなど – Fold: 構造は似ているが進化的類縁は考えない – SuperFamily: 構造は似ていて進化的類縁が推測 されるが配列上は相同性が検出されない – Family: 配列上も相同で、明らかに進化的類縁 Page 11 講究II (8) 2007/11/16 準備レベルとして 二次構造(ヘリックス・シート)の予測 • 三次構造(全体)を予測するよりは容易 • うまくすれば二次構造の組合わせて三次構造 が予測できないか? • 相同性などを使ってかなり正しく予測できる (70~80%) 例:CASP2000のPROFシステム • ニューラルネットワークを使うと(アミノ酸列と 相同性情報を入力)かなり正しく予測できる 例:EVAシステム Page 12 講究II (8) 2007/11/16 二次構造予測 • 二次構造が予測できれば、それを単位にした全 体構造の予測が出来るのでは?? • 配列中の残基をα・β・その他のどれに属するか 予測 • この部分は、70~80%の的中率が実現できる – いろいろな方法が提案されてきた – ニューラルネット、HMM、など Page 13 講究II (8) 2007/11/16 様々な工夫 ~ Rosettaの場合 • 部分配列(連続数残基)に区切り、 • 部分配列(~二次構造)を類似性から予測し • 全体の構造(部分配列間の関係)を 独自のエネルギー関数を使って推定 • CASP2000では(新規フォールド部門で) 優れた結果を出した • CASP2004、2006でも、新規フォールド部門 で引続いて上位を占める Page 14 講究II (8) 2007/11/16 ホモロジー(相同性)モデリング • 「配列が似ていれば立体構造も似ている」 – 経験則だがある程度成り立つ – 遺伝的に類縁関係があれば、似ていて当然 • 2つのアプローチ – フラグメント(部分)に基くアプローチ • 既知タンパクフラグメントと同じ形の部分を利用 • 構造を保存していない部分は別手法(ループ等) – 制約条件に基くアプローチ • 構造上の特徴を制約条件(C間の距離、角度な ど)で表し、それを満たすようにモデルを作る Page 15 講究II (8) 2007/11/16 フラグメントに基くアプローチ • 標的タンパク質と、よく似た(アラインメント結果 で40~50%以上一致)既知のタンパク質の比 較をする • 挿入や欠失のある部分(概してループ領域が 多い)を、既知タンパク質に追加する (ループモデリングなど別の手法を用いる) • 既知のものと違っている側鎖を埋める – 回転異性体などを選んで衝突の無い様にする • エネルギー最小化で微調整し、精密化する Page 16 講究II (8) 2007/11/16 ループ部分のモデリング • 既知タンパク質との比較で決める – ループの両端の構造+ループ部分の残基数で パターンマッチングをし、合うものを探す • 物理化学的計算で決める – ループの両端を制約条件として、エネルギー最 小計算をする – 残基数が少ないので計算できるが、ループ外 の原子の影響を無視しているので正しくない Page 17 講究II (8) 2007/11/16 フラグメントに基くアプローチ • 相同性(類縁関係)のある既知構造から 大まかな形を譲り受けて、細部調整 • 複数の既知類縁タンパク質があれば、 変化の多い部分と少ない部分の区別も 出来るので、より精度を上げられる • よくできたソフトウェアがある 例: SWISS-MODEL Page 18 講究II (8) 2007/11/16 制約条件に基くアプローチ • 類縁の既知タンパク質をテンプレートとし、 その中のC間の距離や角度の値の分布を 取り出しておく • これをどれだけよく満足するかを目的関数と し、それを最小化するように位置を決める • 例) MODELLER (Rockfeller大のSali) http://salilab.org/modeller/ Page 19 講究II (8) 2007/11/16 フォールド認識とスレッディング • フォールド認識: 多数の構造テンプレートに対して可能なアライ ンメントを試し、どのテンプレートに属するかを 決める – 具体的な形の詳細を決めるというよりは 大まかなモデル(構造テンプレート)を探す (どれに近いか、どのグループに属するか) • スレッディング 立体構造(テンプレート)とアミノ酸配列の間の アラインメント Page 20 講究II (8) 2007/11/16 スレッディングとアライメント 立体構造 A L G F G S L Y G A L G G V S L G A L G F G A L G S L Y G G V S L G T C A V F G L G K V R L S D V 入力アミノ酸配列 Page 21 講究II (8) 2007/11/16 スレッディング法の分類 • プロファイルによるスレッディング – プロファイル=アラインメントでのスコア行列に相当 – プロファイルによるアラインメント~動的計画法 – 3D-1D法 – PSI-BLAST • 残基間のポテンシャルによるスレッディング – いろいろなポテンシャルモデル Page 22 講究II (8) 2007/11/16 3D-1D法のプロファイル(Eisenberg) • 環境クラス: – 個々の残基の位置(内外性+極性) 6種類 – 二次構造(α・β・それ以外) 3種類 – の直積の18種類に分類 • タンパク質のそれぞれの残基(側鎖)を環境クラ スで置き換えた配列(3Dプロファイル)を作る – タンパク質間で、この3Dプロファイルのアラインメン トを行えばよい Page 23 講究II (8) 2007/11/16 その他のプロファイル • 様々な手法が提案されている • 配列のマルチプルアラインメントに基くプロ ファイル – PSI-BLAST、HMM • 立体構造のマルチプルアラインメントに基く プロファイル • 角度情報なども考慮したプロファイル Page 24 講究II (8) 2007/11/16 残基間のポテンシャルによるスレッディング • スコア関数によって、よいものを選ぶ。スコア 関数の取り方にいろいろ提案 • プロファイル型(数えて出現頻度)や ポテンシャル型(物理的ポテンシャル関数) • ポテンシャル型: 全体のエネルギーを最小化 – 接触するか否か(0/1)vs距離の関数を与える Page 25 講究II (8) 2007/11/16 立体構造予測の発展 • スレッディング法 (Eisenberg et al. 1991) – 配列上の相同性がない場合の構造予測 • PSI-BLAST (Altschul et al. 1997) – プロファイルに基くマルチプルアラインメント の繰返し実行 • Rosetta (Baker 1997) – 統計+シミュレーションによるab initioな予測 Page 26 講究II (8) 2007/11/16 まとめ • 立体構造予測はまだホットな分野 – まだ簡単には正確な予測が得られない – 大体の形の予測なら多少出来る – 二次構造の予測なら70-80%程度できる • CAPS2006では – 新規: ROSETTA後継が有力 – 類縁利用: PSI-BLAST+αの推定が有力 • 将来 ? – 構造データが充実するとアラインメントから推定 できる? Page 27 講究II (8) 2007/11/16
© Copyright 2025 ExpyDoc