生命情報学基礎論 - Kyoto University Bioinformatics

生命情報学基礎論（５）
タンパク質立体構造予測
阿久津達也
京都大学化学研究所
バイオインフォマティクスセンター
講義予定













４月１４日（月）: 生命情報学の基盤
４月２１日（月）：配列の比較と相同性検索
４月２８日（月）：進化系統樹推定
５月１２日（月）：隠れマルコフモデル
５月１９日（月）：タンパク質立体構造予測
５月２６日（月）、６月２日（月）：カーネル法
６月９日（月）：生物情報ネットワークの構造解析
６月１６日（月）: 遺伝子ネットワークの解析と制御（田村）
６月２３日（月）：代謝ネットワークの堅牢性（田村）
６月３０日（月）：木の編集距離（田村）
７月７日（月）：タンパク質相互作用予測（林田）
７月１４日（月）：タンパク質複合体予測（林田）
７月１７日（木）：生物データの圧縮による比較（林田）
タンパク質立体構造
アミノ酸とタンパク質


アミノ酸：２０種類
タンパク質：アミノ
酸の鎖（短いもの
はペプチドと呼ば
れる）
アミノ酸
R
H
側鎖
OH
C
N
アミノ基
C
カルボシキル基
H
H
O
蛋白質
R
N
H
C
H
H
C
O
N
H
C
R
ペプチド結合
O
C
タンパク質の種類と高次構造

タンパク質の分類







球状タンパク質
繊維状タンパク質
膜タンパク質
一次構造（アミノ酸配列）
二次構造（α、β、それ以外（ループ、コイル））
三次構造（三次元構造、立体構造）
四次構造（複数の鎖）
タンパク質立体構造の決定

主にX線結晶解析かNMR解析による



アミノ酸配列決定より困難



一般にX線解析の方が精度が高い
しかし、結晶中の構造しかわからない
半年から１年くらいかかることも珍しく無い
既知アミノ酸配列 >> 10万
既知立体構造 < 数万
タンパク質立体構造の特徴


基本的には鎖（ひも）状
二種類の特徴的な構造
が頻繁に現れ、立体構造
の骨格（コア）を作る


αへリックス（らせん状の部
分）
βシート（ひも状の部分が並
んだ部分）
α
β
ループ
タンパク質立体構造の例（１）
立体構造:Cα原子の座標列で概要がわかる
αへリックスとβシートが構造の骨格を形成
タンパク質立体構造の例（２）
タンパク質立体構造の例（３）
構造とアミノ酸の種類の関係

(球状）タンパク質


αへリックス


内側：疎水性外側：親水性
βストランド


内側：疎水性アミノ酸外側：親水性アミノ酸
疎水性と親水性が交互に現れる
ループ領域

親水性が高い
立体構造分類
タンパク質立体構造データベース



立体構造と機能の間には密接な関係
配列が似ていなくても構造類似のタンパク質が多数
存在
タンパク質立体構造データベース


PDB (Protein Data Bank)
構造分類データベース



SCOP（人間が分類）
FSSP（DALIプログラムにより分類）
CATH（SSAPプログラムなどにより分類）
タンパク質立体構造の分類

構造分類の必要性



立体構造と機能の間には密接な関係
配列が似ていなくても構造類似のタンパク質が多数存
在
SCOPによる階層的クラス分け




Class: 二次構造の組成（α、β、α+βなど）に基づく分類
Fold: 構造の類似性 ← スレッディング法の対象
Superfamily: 進化的類縁性
Family: 明らかな進化的類縁性
タンパク質立体構造予測
タンパク質立体構造予測



アミノ酸配列から、タ
ンパク質の立体構造
（３次元構造）をコン
ピュータにより推定
実験よりは、はるか
に精度が悪い
だいたいの形がわか
れば良いのであれば、
４～５割近くの予測
率？
アミノ酸配列
T C A V F G L G G V R L S D
V
コンピュータ
タンパク質
立体構造
立体構造予測法の分類

物理的原理に基づく方法 (ab initio法)


ホモロジーモデリング




各アミノ酸がα、β、それ以外のいずれかにあるかを予測
ランダムに予測すれば33.3…%の予測率であるが、高性能の手法を用い
れば80%近い予測率
格子モデル
スレッディング


配列アラインメントにより主鎖のだいたいの配置を決定した後、主鎖や側鎖
の配置の最適化を分子動力学法などで実行
２次構造予測


エネルギー最小化、分子動力学法
予測したい配列と既知構造の間のアラインメントを計算
フラグメント・アセンブリー法

数残基から十数残基からなる複数のフラグメント候補をデータベース検索
により選択した後、分子動力学法などを用いてそれらをつなげ合わせる
二次構造予測




アミノ酸配列中の各残基
が、α、β、それ以外のど
れに属するかを予測
でたらめに推定しても、
33.3%の的中率
最も高精度なソフトを使え
ば、70%～80%の的中率
ニューラルネット、HMM、
サポートベクタマシンなど
の利用
L A P I K
α
β
それ以外
フォールド予測（Fold Recognition）


精密な３次元構造
ではなく、だいたい
の形（fold)を予測
立体構造は1000
種類程度の形に分
類される、との予
測(Chotia, 1992)
に基づく
アミノ酸配列
T C A V F G L G G V R L S D
V
1000個のテンプレート構造
タンパク質スレッディング
立体構造（テンプレート）とアミノ酸配列の間
のアラインメント
立体構造
T C A V F G L G K V R L S D
V
アミノ酸配列
スレッディングとアラインメント
立体構造
A L G F G S L Y G
A L G G V S L G
A L G F G
A L G
T C A V F G L G K V R L S D
V
入力アミノ酸配列
S L Y G
G V S L
G
スレディング法の分類

プロファイルによるスレッディング





動的計画法で最適解が計算可能
PSI-BLAST
3D-1D法
構造アライメント結果に基づくスレッディング
残基間ポテンシャルによるスレッディング




NP困難。ただし、整数計画法などが効果的に適用可能
コンタクトポテンシャル
距離依存ポテンシャル
その他のポテンシャル
プロファイル
残基４


アラインメントに
おけるスコア行
列と類似
スレッディングの
場合、残基位置
ごとにスコア(位
置依存スコア)
残基３
立体構造
残基２
残基1
残基1 残基2 残基3 残基4
A
3.8
-3.5
1.2
2.3
C
1.5
1.3
-0.3
-4.6
D
-1.5
-2.9
4.2
3.1
E
0.2
2.1
3.7
-1.3
プロファイルによるアラインメント


動的計画法
(DP)により最
適解を計算
スコア行列の
かわりにプロ
ファイルを使う
アミノ酸配列： AED ......
プロファイル：
残基1 残基2 残基3 残基4
A
3.8
-3.5
1.2
2.3
C
D
1.5
1.3
-0.3
-4.6
-1.5
-2.9
4.2
3.1
E
0.2
-4.1
3.7
-1.3
アライメント
123 .....
AED .....
1234 .....
A-ED .....
1- 23 .....
AEDC ...
スコア
3.8-4.1+4.2
=3.9
3.8-2.0+3.7+
3.1=8.7
3.8-2.0-2.9+
-0.3=-1.4
3D-1Dプロファイル


最初のversionは
Eisenbergらが
1991年に提案
構造中の残基（位
置）を１８種類の環
境に分類


二次構造（３種類）
内外性＋極性（６
種類）
主鎖
α
β
側鎖
内外性
E
P2
P1
B3
B2
B1
極
性
3D-1Dプロファイル
残基1
タンパク質
立体構造
残基2
残基4
残基3
環境クラス
B 1α B 1β B 1
内外性
E
P2
P1
B3
極
B2 性
B1
ア
ミ
ノ
酸
・・・・
A
-0.66
-0.79
-0.91
・・・・
A
-0.79
-0.79
-0.91 ・・・・
R
-1.67
-1.16
-2.16
・・・・
R
-1.16
-1.16
-2.16 ・・・・
0.07
0.07
0.17
・・・・
1.17
1.17
1.05
・・・・
・
・
・
・
・
・
・
・
Y
・
W
・
・
Y
・
W
0.18
0.07
0.17
・・・・
1.00
1.17
1.05
・・・・
残基1 残基2
3D-1Dスコア
残基3
3D-プロファイル
その他のプロファイル

配列のマルチプルアラインメントに基づくプロファ
イル




PSI-BLAST、HMM
立体構造のマルチプルアラインメントに基づくプロ
ファイル作成
角度情報なども考慮したプロファイル
プロファイル vs プロファイルによるアラインメント
ポテンシャル型スコア関数を用いたスレッディング

全体のポテン
シャルエネル
ギーを最小化
（Σfd(X,Y)が最
小となるような
スレッディング
を計算）
立体構造
f d (T, F)
d
T C A V F G L G K V R L S D
V
アミノ酸配列
プロファイル型スコア関数と
ポテンシャル型スコア関数

プロファイル型スコア
関数
(Eisenberg
et al. 1991)

ポテンシャル型スコア
関数
(Miyazawa, Sippl, . . .)
Pos1 Pos2 Pos3 Pos4
A
3.8
-3.5
1.2
2.3
C
1.5
1.3
-0.3
-4.6
D
E
-1.5
-2.9
4.2
3.1
0.2
2.1
3.7
-1.3
score
A
d
L
d
ポテンシャル型の場合の最適解計算


厳密な最適解の計算は困難(NP完全)
様々なアルゴリズムの提案

分枝限定法 (Lathrop & Smith 96, Ming Li et al.
2002)



Frozen Approximation (Godzik & Skolnick 92)


多くの場合に現実的な時間で最適解を計算可能
コア領域内でのギャップは許されない
通常のDPと同様のアルゴリズムが利用可能
Double DP (Jones, Taylor & Thornton 92)


DPを二重に用いる
立体構造アライメントなどにも応用可能
Frozen Approximation
○にFをアラインする際の
スコアの正確な計算には、
○に何がアラインされてい
るかを知ることが必要
⇒動的計画法では最適解
が計算できない
 Frozen Approximation：
もとの構造中で○に割り
当てられている残基の情
報を利用
（図の例ではFとDのコンタ
クトポテンシャル）

立体構造
D
T C A V F G L G K V R L S D
V
アミノ酸配列
スコア関数の導出

残基の出現頻度の対数をとる


統計力学のボルツマン分布などが根拠
3D-1Dスコア


環境eのもとでの残基aの出現頻度：fe(a) (条件付確率）
score(e,a)=log (fe(a)/fe)

ポテンシャル型スコア（Quasichemical Approximation
(Miyazawa 85)）
 距離dにおける残基ペアa,bの出現頻度：fd(a,b)
 scored(a,b) =-log fd(a,b)
他のスコア関数導出法

学習データ（既知構造データ）より以下を満たす
スコア（エネルギー）を導出





正しい構造のエネルギー＜誤った構造のエネルギ or
Max( 誤った構造のエネルギー－正しい構造のエネルギー )
ニューラルネット (Goldstein et al. 92)
モンテカルロ法 (Mirny,Shakhnovich 96)
線形計画法 (Maiorov,Crippen 92)
立体構造予測におけるブレークスルー

スレッディング法の発明(Eisenberg et al., 1991)


PSI-BLASTの開発(Altschul et al, 1997)


構造既知の配列と類似性が無い配列の構造予測
プロファイルに基づくマルチプルアラインメントの繰り返
し実行によるスレッディング
David Baker によるフラグメントアセンブリ法
(1997)

統計情報＋シミュレーション
フラグメント・アセンブリ法
Univ. Washington の Baker らが開発

現時点では最強の方法とされている
方法

数残基から十数残基の断片構造（フラグメント）をプロ
ファイル比較法などを用いて既知構造データベース
から取得
⇒ 各断片配列ごとにいくつかの候補を選ぶ

フラグメントをつなぎ合わせることにより全体構造を
予測。つなぎ合わせる際には分子動力学法などによ
るエネルギー最適化などを行う

立体構造予測コンテスト：CASP
CASP (Critical Assessment of Techniques for
Protein Structure Prediction)
ブラインドテストにより予測法を評価


半年以内に立体構造が実験により決定する見込みの配
列（数十種類）をインターネット上で公開
参加者は予測結果を送付
構造決定後、正解とのずれなどを評価、順位づけ
①
②
③
結果の公表



会議、専門学術誌（Proteins）
ホームページ


http://predictioncenter.gc.ucdavis.edu/
1994年より２年ごとに開催
まとめ

立体構造比較


立体構造予測




構造分類データベースが作成されている
正確な座標は予測できない
だいたいの形の予測であれば４割～５割近く
二次構造予測であれば、80%～程度
スレッディング法

プロファイル型スコア関数


動的計画法で最適解が計算可能
ポテンシャル型スコア関数

NP困難だが整数計画法などにより最適解が計算可能

Download Report