bif07_8

情報科学講究II (8)
タンパク質構造の推定技術と情報処理
相同(類似)による推定・モデリング
物理化学的な計算による推定
今回の目標
• タンパク質の構造推定に対する
情報技術の貢献を見る
– 構造推定の必要性とCAPSなどの競争
– 相同性(類似性)による推定方法・モデリング
– 物理化学的な計算による推定方法
•
今日のタネ本は
–
–
–
–
松澤洋編 タンパク質工学の基礎
A. M. Lesk バイオインフォマティクス基礎講義
J. C. Satubal 分子生物学のためのバイオインフォマティクス入門
清水謙太郎 http://www.bi.a.u-tokyo.ac.jp/~shimizu/bio-old
Page 2
講究II (8)
2007/11/16
タンパク質の立体構造の必要性
•
構造 ⇒ 機能なので、構造を知りたい
– タンパク質が与えられて、その機能を推定したい
– タンパク質を改変して、役立つようにしたい
•
•
•
有効な機能を引き出す
不都合な機能を消し去る
構造同定の方法として
1. 実物を分析(結晶化してX線回折、NMR)
•
•
手間・時間(半年~1年?)
X線回折~結晶化必要、NMR~大きさ上限
2. アミノ酸配列から推定できないか? ← ←
Page 3
講究II (8)
2007/11/16
アミノ酸配列から構造を推定する?
•
一意に折り畳み構造が決まる(Anfinsenのドグマ)
ならば
•
計算によって構造を求められるはず!
1. 物理化学的に(エネルギー最小の形)推定
– (精度⇔計算量)の問題がある
2. タンパク質固有の情報を使う方法
– 「配列が似ていれば構造も似ている」かも(経験)
– 「それなりに」うまくいく (「いつも」ではない)
Page 4
講究II (8)
2007/11/16
物理化学モデルから計算する方法
(分子動力学(Molecular Dynamics)法)
• 原子間に働くいろいろな力
を重ね合わせる
– 力場(ポテンシャル)関数
– 結果として極小の場所がたく
さんある
http://www.bi.a.u-tokyo.ac.jp/~shimizu/bioinfo/structure.html
• 配列(=伸びた状態)からシミュレーションする
– 類似の構造が無く類推できない時でも、有効
• 計算量が膨大 = 腕力
– 小さなタンパク質(数十残基)なら有効 ← 限度
Page 5
講究II (8)
2007/11/16
分子動力学法
• エネルギーの極小化(Eを極小化)
• フォールディングのシミュレーション
– mi d2ri/dt2 = -∇i E を差分化
• E = Eb + Eθ + Eφ + Evdw + Eel
– Eb = ΣKb(r-r0)2
結合長
– Eθ = ΣKθ(θ-θ0)2
結合角
– Eφ = ΣKφ[1+cos(nφ-δ)] 二面角
– Evdw = Σ[Aij/(rij2)-Bij/(rij6)] ファンデルワールス力
– Eel = Σqiqj/(εrij)
静電相互作用(クーロン力)
Page 6
講究II (8)
2007/11/16
様々な工夫がされている
• 格子モデル: 各アミノ酸を格子点に置く
– 相互作用を隣接する格子点間のみに限定
– 粗視化⇒計算量は減るが精度は不足
エネルギーの差が小さいので、精度は必要
• 統計ポテンシャルを使う:
– 物理的ではなく、既知の構造データから、取り得る
構造の傾向を統計的に確率として算出して、ポテ
ンシャルとして定義する
– 個々の計算は容易、統計ポテンシャル算出は大変
– 統計の元データ分布や質、測定条件などの問題
Page 7
講究II (8)
2007/11/16
格子モデル
• 各残基が格子点
にあると仮定
• 予測よりも、
フォールディング
の定性的な理解
のために利用され
る
Page 8
講究II (8)
2007/11/16
ソフトの例
• 電子構造法: Gaussian
– 無機化学では標準的に使われる、物理化学
モデルによる構造計算(有償)パッケージ
– 計算量が多く、タンパク質での計算は大変
• 分子動力学法
– Gromos/Gromacs
• 速い(らしい)、GPLでフリー
– 他に、AMBER, CHARMM, NAMD, TINKER
など多数作られている
Page 9
講究II (8)
2007/11/16
タンパク質固有アプローチ
~ CAPSコンテストから
• CAPS: 推定技術がいかに進んだか競争
– 1994から隔年で過去7回(2006まで)
– 3つの問題分野
1. 比較モデリング (既知の近縁タンパク質を使える範囲、
ホモロジーモデリングを適用できる)
2. フォールド認識 (類似のフォールドを持つ構造は使え
る。近縁のものはない。トポロジーが類似した構造を同
定することが問題)
3. 新規フォールド (同じ折り畳みパターンを持つ構造は
知られていない)
Page 10
講究II (8)
2007/11/16
タンパク質構造の「分類」
• 構造から機能が決まると期待
• SCOP(立体構造分類データベース)の
階層的クラス分け
– Class: 二次構造の組成による分類
αのみ、βのみ、βαβ構造、別々のα+βなど
– Fold: 構造は似ているが進化的類縁は考えない
– SuperFamily: 構造は似ていて進化的類縁が推測
されるが配列上は相同性が検出されない
– Family: 配列上も相同で、明らかに進化的類縁
Page 11
講究II (8)
2007/11/16
準備レベルとして
二次構造(ヘリックス・シート)の予測
• 三次構造(全体)を予測するよりは容易
• うまくすれば二次構造の組合わせて三次構造
が予測できないか?
• 相同性などを使ってかなり正しく予測できる
(70~80%) 例:CASP2000のPROFシステム
• ニューラルネットワークを使うと(アミノ酸列と
相同性情報を入力)かなり正しく予測できる
例:EVAシステム
Page 12
講究II (8)
2007/11/16
二次構造予測
• 二次構造が予測できれば、それを単位にした全
体構造の予測が出来るのでは??
• 配列中の残基をα・β・その他のどれに属するか
予測
• この部分は、70~80%の的中率が実現できる
– いろいろな方法が提案されてきた
– ニューラルネット、HMM、など
Page 13
講究II (8)
2007/11/16
様々な工夫 ~ Rosettaの場合
• 部分配列(連続数残基)に区切り、
• 部分配列(~二次構造)を類似性から予測し
• 全体の構造(部分配列間の関係)を
独自のエネルギー関数を使って推定
• CASP2000では(新規フォールド部門で)
優れた結果を出した
• CASP2004、2006でも、新規フォールド部門
で引続いて上位を占める
Page 14
講究II (8)
2007/11/16
ホモロジー(相同性)モデリング
• 「配列が似ていれば立体構造も似ている」
– 経験則だがある程度成り立つ
– 遺伝的に類縁関係があれば、似ていて当然
• 2つのアプローチ
– フラグメント(部分)に基くアプローチ
• 既知タンパクフラグメントと同じ形の部分を利用
• 構造を保存していない部分は別手法(ループ等)
– 制約条件に基くアプローチ
• 構造上の特徴を制約条件(C間の距離、角度な
ど)で表し、それを満たすようにモデルを作る
Page 15
講究II (8)
2007/11/16
フラグメントに基くアプローチ
• 標的タンパク質と、よく似た(アラインメント結果
で40~50%以上一致)既知のタンパク質の比
較をする
• 挿入や欠失のある部分(概してループ領域が
多い)を、既知タンパク質に追加する
(ループモデリングなど別の手法を用いる)
• 既知のものと違っている側鎖を埋める
– 回転異性体などを選んで衝突の無い様にする
• エネルギー最小化で微調整し、精密化する
Page 16
講究II (8)
2007/11/16
ループ部分のモデリング
• 既知タンパク質との比較で決める
– ループの両端の構造+ループ部分の残基数で
パターンマッチングをし、合うものを探す
• 物理化学的計算で決める
– ループの両端を制約条件として、エネルギー最
小計算をする
– 残基数が少ないので計算できるが、ループ外
の原子の影響を無視しているので正しくない
Page 17
講究II (8)
2007/11/16
フラグメントに基くアプローチ
• 相同性(類縁関係)のある既知構造から
大まかな形を譲り受けて、細部調整
• 複数の既知類縁タンパク質があれば、
変化の多い部分と少ない部分の区別も
出来るので、より精度を上げられる
• よくできたソフトウェアがある
例: SWISS-MODEL
Page 18
講究II (8)
2007/11/16
制約条件に基くアプローチ
• 類縁の既知タンパク質をテンプレートとし、
その中のC間の距離や角度の値の分布を
取り出しておく
• これをどれだけよく満足するかを目的関数と
し、それを最小化するように位置を決める
• 例) MODELLER (Rockfeller大のSali)
http://salilab.org/modeller/
Page 19
講究II (8)
2007/11/16
フォールド認識とスレッディング
• フォールド認識:
多数の構造テンプレートに対して可能なアライ
ンメントを試し、どのテンプレートに属するかを
決める
– 具体的な形の詳細を決めるというよりは
大まかなモデル(構造テンプレート)を探す
(どれに近いか、どのグループに属するか)
• スレッディング
立体構造(テンプレート)とアミノ酸配列の間の
アラインメント
Page 20
講究II (8)
2007/11/16
スレッディングとアライメント
立体構造
A L G F G S L Y G
A L G G V S L G
A L G F G
A L G
S L Y G
G V S L
G
T C A V F G L G K V R L S D
V
入力アミノ酸配列
Page 21
講究II (8)
2007/11/16
スレッディング法の分類
• プロファイルによるスレッディング
– プロファイル=アラインメントでのスコア行列に相当
– プロファイルによるアラインメント~動的計画法
– 3D-1D法
– PSI-BLAST
• 残基間のポテンシャルによるスレッディング
– いろいろなポテンシャルモデル
Page 22
講究II (8)
2007/11/16
3D-1D法のプロファイル(Eisenberg)
• 環境クラス:
– 個々の残基の位置(内外性+極性) 6種類
– 二次構造(α・β・それ以外) 3種類
– の直積の18種類に分類
• タンパク質のそれぞれの残基(側鎖)を環境クラ
スで置き換えた配列(3Dプロファイル)を作る
– タンパク質間で、この3Dプロファイルのアラインメン
トを行えばよい
Page 23
講究II (8)
2007/11/16
その他のプロファイル
• 様々な手法が提案されている
• 配列のマルチプルアラインメントに基くプロ
ファイル
– PSI-BLAST、HMM
• 立体構造のマルチプルアラインメントに基く
プロファイル
• 角度情報なども考慮したプロファイル
Page 24
講究II (8)
2007/11/16
残基間のポテンシャルによるスレッディング
• スコア関数によって、よいものを選ぶ。スコア
関数の取り方にいろいろ提案
• プロファイル型(数えて出現頻度)や
ポテンシャル型(物理的ポテンシャル関数)
• ポテンシャル型: 全体のエネルギーを最小化
– 接触するか否か(0/1)vs距離の関数を与える
Page 25
講究II (8)
2007/11/16
立体構造予測の発展
• スレッディング法 (Eisenberg et al. 1991)
– 配列上の相同性がない場合の構造予測
• PSI-BLAST (Altschul et al. 1997)
– プロファイルに基くマルチプルアラインメント
の繰返し実行
• Rosetta (Baker 1997)
– 統計+シミュレーションによるab initioな予測
Page 26
講究II (8)
2007/11/16
まとめ
• 立体構造予測はまだホットな分野
– まだ簡単には正確な予測が得られない
– 大体の形の予測なら多少出来る
– 二次構造の予測なら70-80%程度できる
• CAPS2006では
– 新規: ROSETTA後継が有力
– 類縁利用: PSI-BLAST+αの推定が有力
• 将来 ?
– 構造データが充実するとアラインメントから推定
できる?
Page 27
講究II (8)
2007/11/16