ゲノム統合データベースからの知識発見

集中講義(東京大学)「化学システム工学特論第3」
バイオインフォマティクス的手法による化合物の性質予測
(4)
タンパク質立体構造予測
ースレッディング法を中心としてー
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
内容







構造予測に関連する基本事項
立体構造予測の分類
スレッディング法
3D-1Dプロファイル
ポテンシャル型スコア関数を用いたスレッ
ディング
CASP
まとめ
タンパク質立体構造予測



アミノ酸配列から、タンパク
質の立体構造(3次元構
造)をコンピュータにより推
定
実験よりは、精度は低い
だいたいの形がわかれば
良いのであれば、5割近く
の予測率
アミノ酸配列
T C A V F G L G G V R L S D
V
コンピュータ
タンパク質
立体構造
アミノ酸とタンパク質


アミノ酸:20種類
タンパク質:アミノ
酸の鎖(短いもの
はペプチドと呼ば
れる)
アミノ酸
R
H
側鎖
OH
C
N
アミノ基
C
カルボシキル基
H
H
O
タンパク質
R
N
H
C
H
H
C
O
N
H
C
R
ペプチド結合
O
C
側鎖の例
Ala アラニン
Phe フェニル
アラニン
CH 3
CH
HC
Val バリン
H3 C
CH
C
CH 3
CH
O
CH
HC
Asp アスパラ
ギン酸
CH 2
O
C
-
His ヒス
チジン
Cys シス
テイン
HN
SH
+
NH
CH 2
CH 2
CH 2
Gly グリシン
H
タンパク質の種類と高次構造

タンパク質の分類







球状タンパク質
繊維状タンパク質
膜タンパク質
一次構造(アミノ酸配列)
二次構造(α、β、それ以外(ループ、コイル))
三次構造(三次元構造、立体構造)
四次構造(複数の鎖)
タンパク質立体構造の決定

主にX線結晶解析かNMR解析による



アミノ酸配列決定より困難



一般にX線解析の方が精度が高い
しかし、結晶中の構造しかわからない
半年から1年くらいかかることも珍しく無い
既知アミノ酸配列 > 10万
既知立体構造(重複を除く) < 1万数千
タンパク質立体構造の特徴


基本的には鎖(ひも)状
二種類の特徴的な構造
が頻繁に現れ、立体構造
の骨格(コア)を作る


αへリックス(らせん状の部
分)
βシート(ひも状の部分が
並んだ部分)
α
β
ループ
立体構造データベース

PDB(Protein Data Bank )



SCOP


タンパク質立体構造データベース
現在約20000データ(ただし重複あり)
立体構造分類データベース
FSSP/DALI

立体構造アライメントデータベース/アライメ
ントサーバー
タンパク質立体構造の分類

構造分類の必要性



立体構造と機能の間には密接な関係
配列が似ていなくても構造類似のタンパク質が多
数存在
SCOPによる階層的クラス分け




Class: 二次構造の組成(α、β、α+βなど)に基づく
分類
Fold: 構造の類似性 ← スレッディング法の対象
Superfamily: 進化的類縁性
Family: 明らかな進化的類縁性
立体構造予測法の分類




物理学的原理に基づく方法
格子モデル
2次構造予測
スレッディング
物理的原理に基づく方法






エネルギー最小化、もしくは、微分方程式を(数
値的に)解く、などの物理的原理に基づく方法
主として分子動力学法(Molecular Dynamics)
数十残基程度であれば、実際の蛋白質やペプチ
ドと似た構造を推定可能(なことがある)
構造の最適化や安定性の解析には実用的
側鎖のパッキングの計算にも有効
超並列計算機の利用、専用計算機の開発
分子動力学法


エネルギーの極小化(Eを極小化)
フォールディングのシミュレーション


mi d2ri/dt2 = -∇i E を差分化
E = Eb + Eθ + Eφ + Evdw + Eel





Eb = ΣKb(r-r0)2
結合長
Eθ = ΣKθ(θ-θ0)2
結合角
Eφ = ΣKφ[1+cos(nφ-δ)] 二面角
Evdw = Σ[Aij/(rij2)-Bij/(rij6)] ファンデルワールス力
Eel = Σqiqj/(εrij)
静電相互作用(クーロン力)
格子モデル


各残基が格子点
にあると仮定
予測よりも、
フォールディング
の定性的な理解
のために利用され
る
格子モデルに基づく研究


折れ畳み経路の
シミュレーションに
よる定性的理解
→フォールディン
グファンネル
エネルギー最小
の構造の計算法
→NP困難
親水性アミノ酸
疎水性アミノ酸
スコア
=-9
スコア
=-5
配列
格子モデル(String Folding問題)に
関する結果

2次元で1/4近似、3次元で3/8近似
[Hart,Istrail, STOC’95]

3次元でNP-Hard [Berger,Leighton,RECOMB’98]
2次元でNP-Hard [Crescenzi et al.,STOC’98]
2次元で1/3近似 [Newman, SODA’02]

実際には数十残基まで最適解が計算可能


二次構造予測




アミノ酸配列中の各残基
が、α、β、それ以外のど
れに属するかを予測
でたらめに推定しても、
33.3%の的中率
最も高精度なソフトを使え
ば、70%~80%の的中率
ニューラルネット、HMM、
サポートベクタマシンなど
の利用
L A P I K
α
β
それ以外
ニューラルネットによる二次構造予測
出力層
中間層 (隠れ層)
入力層
Lys
Val
Leu
Asn
Ala
Thr
Gly
フォールド予測(Fold Recognition)


精密な3次元構造
ではなく、だいたい
の形(fold)を予測
立体構造は1000
種類程度の形に分
類される、との予
測(Chotia, 1992)
に基づく
アミノ酸配列
T C A V F G L G G V R L S D
V
1000個のテンプレート構造
タンパク質スレッディング
立体構造(テンプレート)とアミノ酸配列の間
のアライメント
立体構造
T C A V F G L G K V R L S D
V
アミノ酸配列
スレッディングとアライメント
立体構造
A L G F G S L Y G
A L G G V S L G
A L G F G
A L G
T C A V F G L G K V R L S D
V
入力アミノ酸配列
S L Y G
G V S L
G
スレディング法の分類

プロファイルによるスレッディング




PSI-BLAST
3D-1D法
構造アライメント結果に基づくスレッディング
残基間ポテンシャルによるスレッディング



コンタクトポテンシャル
距離依存ポテンシャル
その他のポテンシャル
残基4
プロファイル
残基3
立体構造


アライメントに
おけるスコア
行列と類似
スレッディング
の場合、残基
位置ごとにスコ
ア(位置依存ス
コア)
残基2
残基1
残基1 残基2 残基3 残基4
A
3.8
-3.5
1.2
2.3
C
1.5
1.3
-0.3
-4.6
D
-1.5
-2.9
4.2
3.1
E
0.2
2.1
3.7
-1.3
プロファイルによるアライメント


動的計画法
(DP)により最
適解を計算
スコア行列の
かわりにプロ
ファイルを使う
アミノ酸配列: AED ......
プロファイル:
残基1 残基2 残基3 残基4
A
3.8
-3.5
1.2
2.3
C
D
1.5
1.3
-0.3
-4.6
-1.5
-2.9
4.2
3.1
E
0.2
-4.1
3.7
-1.3
アライメント
123 .....
AED .....
1234 .....
A-ED .....
1- 23 .....
AEDC ...
スコア
3.8-4.1+4.2
=3.9
3.8-2.0+3.7+
3.1=8.7
3.8-2.0-2.9+
-0.3=-1.4
3D-1Dプロファイル


最初のversionは
Eisenbergらが
1991年に提案
構造中の残基(位
置)を18種類の環
境に分類


二次構造(3種類)
内外性+極性(6
種類)
主鎖
α
β
側鎖
内外性
E
P2
P1
B3
B2
B1
極
性
残基1
3D-1Dプロファイル
残基4
蛋白質立体
構造
残基2
残基3
環境クラス
B 1α B 1β B 1
内外性
E
P2
P1
B3
極
B2 性
B1
ア
ミ
ノ
酸
・ ・ ・ ・
A
-0.66
-0.79
-0.91
・ ・ ・ ・
A
-0.79
-0.79
-0.91 ・ ・ ・ ・
R
-1.67
-1.16
-2.16
・ ・ ・ ・
R
-1.16
-1.16
-2.16 ・ ・ ・ ・
・
・
・
・
・
・
・
・
・
・
・
・
Y
0.18
0.07
0.17
・ ・ ・ ・
Y
0.07
0.07
0.17
・ ・ ・ ・
W
1.00
1.17
1.05
・ ・ ・ ・
W
1.17
1.17
1.05
・ ・ ・ ・
残基1 残基2
3D-1Dスコア
残基3
3D-プロファイル
その他のプロファイル

配列のマルチプルアライメントに基づくプロ
ファイル




PSI-BLAST、HMM
立体構造のマルチプルアライメントに基づく
プロファイル作成
角度情報なども考慮したプロファイル
プロファイル vs プロファイルによるアライメ
ント
アライメントプロファイルに基づく
スレッディング
構造未知
配列
A H WA K GY LD
アライメ
ント結果
A D R Y P K W- D
A- HF A- YVD
A- KF THYL D
スレッディ
ング
A - H WA K G Y L D
A D R Y P K - W- D
A - H F A- - Y V D
A- KF TH- YL D
ポテンシャル型スコア関数を
用いたスレッディング

全体のポテン
シャルエネル
ギーを最小化
(Σfd(X,Y)が最
小となるような
スレッディング
を計算)
立体構造
f d (T, F)
d
T C A V F G L G K V R L S D
V
アミノ酸配列
プロファイル型スコア関数と
ポテンシャル型スコア関数


Pos1 Pos2 Pos3 Pos4
プロファイル型スコア
関数
A
3.8
-3.5
1.2
2.3
C
1.5
1.3
-0.3
-4.6
(Eisenberg et al. 1991)
D
E
-1.5
-2.9
4.2
3.1
0.2
2.1
3.7
-1.3
ポテンシャル型スコア
関数
(Miyazawa, Sippl, . . .)
score
A
d
L
d
コンタクトポテンシャルと
距離依存ポテンシャル

コンタクトポテンシャ
ル (Miyazawa... 1985)

score
A
d
比較的少ないデータからス
コア関数を導出可能
L
d

距離依存ポテンシャ
ル (Sippl, . . .)

精度の高いスコア関
数を得るには多くの
データが必要
score
A
d
L
d
ポテンシャル型関数を用いた場
合の最適解の計算(1)


厳密な最適解の計算は困難(NP完全)
最適解の計算法 (コア領域内ではギャップ無し)

分岐限定法 (Lathrop & Smith 96)




コアの位置の範囲を徐々に縮小
大きなタンパクに対しては最適解が計算不可
分割統治を用いる方法(Y. Xu et al., 1998)
線形計画法を用いる方法 (J. Xu et al. 2003)




整数計画問題として定式化し、更に線形計画問題に緩和
線形計画問題の解をもとに整数計画の解を探索
多くの場合には線形計画問題の解が整数解(最適解)
CAFASP3 でも良好な成績
ポテンシャル型関数を用いた場
合の最適解の計算(2)

コア領域のスレッディング
立体構造
アミノ酸配列
ポテンシャル型関数を用いた場
合の最適解の計算(3)

近似解法

Frozen Approximation (Godzik & Skolnick 92)



ポテンシャルエネルギー計算の際に、もとの構造の残基
を用いる
通常のDPと同様のアルゴリズムが利用可能
Double DP (Jones, Taylor & Thornton 92)


DPを二重に用いる
立体構造アライメントなどにも応用可能
最適解がDPで計算できない理由と
Frozen Approximation


○にFをアラインする際
のスコアの正確な計算
には、○に何がアライン
されているかを知ること
が必要
Frozen Approximation
もとの構造中で○に割り
当てられている残基の
情報を利用
(図の例ではFとDのコン
タクトポテンシャル)
立体構造
D
T C A V F G L G K V R L S D
V
アミノ酸配列
スコア関数の導出

残基の出現頻度の対数をとる


統計力学のボルツマン分布などが根拠
3D-1Dスコア


環境eのもとでの残基aの出現頻度:fe(a) (条件付確率)
 score(e,a)=log (fe(a)/fe)
ポテンシャル型スコア
(Quasichemical Approximation (Miyazawa 85))

距離dにおける残基ペアa,bの出現頻度:fd(a,b)
 scored(a,b) =-log fd(a,b)
他のスコア関数導出法

学習データ(既知構造データ)より以下を
満たすスコア(エネルギー)を導出





正しい構造のエネルギー < 誤った構造のエネルギ or
Max( 誤った構造のエネルギー - 正しい構造のエネルギー )
ニューラルネット (Goldstein et al. 92)
モンテカルロ法 (Mirny,Shakhnovich 96)
線形計画法 (Maiorov,Crippen 92)
スレッディングに関するまとめ

プロファイル型


DPによりスレッディングが計算可能
ポテンシャル型

DPは(直接は)適用不可




Frozen Approximation, Double DP, 線形計画法の利用
コンタクトポテンシャル
距離依存ポテンシャル
スコア関数の導出

対数頻度
立体構造予測におけるブレーク
スルー

スレッディング法の発明(Eisenberg et al.,
1991)


PSI-BLASTの開発(Altschul et al, 1997)


構造既知の配列と類似性が無い配列の構造予測
プロファイルに基づくマルチプルアライメントの繰り
返し実行によるスレッディング
David Baker による ab initio 予測(1997)

統計情報+シミュレーション
立体構造予測コンテスト:CASP


CASP (Critical Assessment of Techniques for
Protein Structure Prediction)
ブラインドテストにより予測法を評価
①
②
③
半年以内に立体構造が実験により決定する見込み
の配列(数十種類)をインターネット上で公開
参加者は予測結果を送付
構造決定後、正解とのずれなどを評価、順位づけ
CASPの経過と結果の公表


CASP1 (1994), CASP2(1996), CASP3(1998),
CASP4(2000), CASP5(2002), CASP6(2004)
CAFASP(1998,2000,2002,2004)


完全自動予測法の評価
結果の公表


会議
ホームページ


http://prediction center.llnl.gov/
学術専門誌(Proteins)
まとめ

立体構造予測




正確な座標は予測できない
だいたいの形の予測であれば4~5割近く
二次構造予測であれば、70%-80%程度
国際プロジェクトの進展と構造予測

立体構造の網羅的決定(タンパク質3000プロジェ
クトなど)
→ 残りの構造はアライメントでほぼ確実に推定?
→ スレッディングは不要?
参考文献

CASP5特集:Proteins, 53, Supplement 6 (2003)