生命情報学入門 - Kyoto University Bioinformatics

生命情報学入門
タンパク質立体構造予測法
2011年5月24日
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
本日の内容







構造予測に関連する基本事項
立体構造予測法の分類
スレッディング法
3D-1Dプロファイル
ポテンシャル型スコア関数を用いたスレッ
ディング
CASP
まとめ
タンパク質立体構造予測



アミノ酸配列から、タン
パク質の立体構造(3次
元構造)をコンピュータ
により推定
実験よりは、はるかに精
度が悪い
だいたいの形がわかれ
ば良いのであれば、4~
5割近くの予測率
アミノ酸配列
T C A V F G L G G V R L S D
V
コンピュータ
タンパク質
立体構造
アミノ酸とタンパク質


アミノ酸:20種類
タンパク質:アミノ
酸の鎖(短いもの
はペプチドと呼ば
れる)
アミノ酸
R
H
側鎖
OH
C
N
アミノ基
C
カルボシキル基
H
H
O
蛋白質
R
N
H
C
H
H
C
O
N
H
C
R
ペプチド結合
O
C
側鎖の例
Ala アラニン
Phe フェニル
アラニン
CH 3
CH
HC
Val バリン
H3 C
CH
C
CH 3
CH
O
CH
HC
Asp アスパラ
ギン酸
CH 2
O
C
-
His ヒス
チジン
Cys シス
テイン
HN
SH
+
NH
CH 2
CH 2
CH 2
Gly グリシン
H
タンパク質の種類と高次構造

タンパク質の分類







球状タンパク質
繊維状タンパク質
膜タンパク質
一次構造(アミノ酸配列)
二次構造(α、β、それ以外(ループ、コイル))
三次構造(三次元構造、立体構造)
四次構造(複数の鎖)
タンパク質立体構造の決定

主にX線結晶解析かNMR解析による



アミノ酸配列決定より困難



一般にX線解析の方が精度が高い
しかし、結晶中の構造しかわからない
半年から1年くらいかかることも珍しく無い
既知アミノ酸配列 >> 10万
既知立体構造 < 数万
タンパク質立体構造の特徴


基本的には鎖(ひも)状
二種類の特徴的な構造
が頻繁に現れ、立体構造
の骨格(コア)を作る


αへリックス(らせん状の部
分)
βシート(ひも状の部分が
並んだ部分)
α
β
ループ
構造とアミノ酸の種類の関係

(球状)タンパク質


αへリックス


内側:疎水性 外側:親水性
βストランド


内側:疎水性アミノ酸 外側:親水性アミノ酸
疎水性と親水性が交互に現れる
ループ領域

親水性が高い
立体構造データベース

PDB(Protein Data Bank )



SCOP


タンパク質立体構造データベース
2011年5月10日現在約73009データ(ただし
重複あり)
立体構造分類データベース
FSSP/DALI

立体構造アライメントデータベース/アライメ
ントサーバー
タンパク質立体構造の分類

構造分類の必要性



立体構造と機能の間には密接な関係
配列が似ていなくても構造類似のタンパク質が多
数存在
SCOPによる階層的クラス分け




Class: 二次構造の組成(α、β、α+βなど)に基づく
分類
Fold: 構造の類似性 ← スレッディング法の対象
Superfamily: 進化的類縁性
Family: 明らかな進化的類縁性
立体構造予測法の分類





物理的原理に基づく方法
ホモロジーモデリング
格子モデル
2次構造予測
スレッディング
物理的原理に基づく方法




エネルギー最小化、もしくは、微分方程式を(数
値的に)解く、などの物理的原理に基づく方法
主として分子動力学法(Molecular Dynamics)
数十残基程度であれば、実際のタンパク質やペ
プチドと似た構造を推定可能(なことがある)
構造の最適化や安定性の解析には実用的
⇒ ホモロジーモデリング
主鎖をアラインメントで計算した後に
側鎖構造などを最適化
格子モデル


各残基が格子点
にあると仮定
予測よりも、
フォールディング
の定性的な理解
のために利用され
る
格子モデルに基づく研究


折れ畳み経路の
シミュレーションに
よる定性的理解
→フォールディン
グファンネル
エネルギー最小
の構造の計算法
→NP困難
親水性アミノ酸
疎水性アミノ酸
スコア
=-9
スコア
=-5
配列
二次構造予測




アミノ酸配列中の各残基
が、α、β、それ以外のど
れに属するかを予測
でたらめに推定しても、
33.3%の的中率
最も高精度なソフトを使え
ば、70%~80%の的中率
ニューラルネット、HMM、
サポートベクタマシンなど
の利用
L A P I K
α
β
それ以外
ニューラルネットによる二次構造予測
出力層
中間層 (隠れ層)
入力層
Lys
Val
Leu
Asn
Ala
Thr
Gly
膜タンパク質の膜貫通領域予測

膜貫通領域



αへリックス
7~17残基程
度の疎水性指
標の平均値を
プロット
平均値が高い
部分が膜貫通
領域と推定
D A G I
膜タンパク
細
胞
膜
V L P V R K Q
A 1.8
C: 2.5
D: -3.5
E: -3.5
F: 2.8
...
疎水性
指標
フォールド予測(Fold Recognition)


精密な3次元構造
ではなく、だいたい
の形(fold)を予測
立体構造は1000
種類程度の形に分
類される、との予
測(Chotia, 1992)
に基づく
アミノ酸配列
T C A V F G L G G V R L S D
V
1000個のテンプレート構造
タンパク質スレッディング
立体構造(テンプレート)とアミノ酸配列の間
のアライメント
立体構造
T C A V F G L G K V R L S D
V
アミノ酸配列
スレッディングとアライメント
立体構造
A L G F G S L Y G
A L G G V S L G
A L G F G
A L G
T C A V F G L G K V R L S D
V
入力アミノ酸配列
S L Y G
G V S L
G
スレディング法の分類

プロファイルによるスレッディング




PSI-BLAST
3D-1D法
構造アライメント結果に基づくスレッディング
残基間ポテンシャルによるスレッディング



コンタクトポテンシャル
距離依存ポテンシャル
その他のポテンシャル
残基4
プロファイル
残基3
立体構造


アライメントに
おけるスコア
行列と類似
スレッディング
の場合、残基
位置ごとにスコ
ア(位置依存ス
コア)
残基2
残基1
残基1 残基2 残基3 残基4
A
3.8
-3.5
1.2
2.3
C
1.5
1.3
-0.3
-4.6
D
-1.5
-2.9
4.2
3.1
E
0.2
2.1
3.7
-1.3
プロファイルによるアライメント


動的計画法
(DP)により最
適解を計算
スコア行列の
かわりにプロ
ファイルを使う
アミノ酸配列: AED ......
プロファイル:
残基1 残基2 残基3 残基4
A
3.8
-3.5
1.2
2.3
C
D
1.5
1.3
-0.3
-4.6
-1.5
-2.9
4.2
3.1
E
0.2
-4.1
3.7
-1.3
アライメント
123 .....
AED .....
1234 .....
A-ED .....
1- 23 .....
AEDC ...
スコア
3.8-4.1+4.2
=3.9
3.8-2.0+3.7+
3.1=8.7
3.8-2.0-2.9+
-0.3=-1.4
3D-1Dプロファイル


最初のversionは
Eisenbergらが
1991年に提案
構造中の残基(位
置)を18種類の環
境に分類


二次構造(3種類)
内外性+極性(6
種類)
主鎖
α
β
側鎖
内外性
E
P2
P1
B3
B2
B1
極
性
残基1
3D-1Dプロファイル
残基4
タンパク質
立体構造
残基2
残基3
環境クラス
B 1α B 1β B 1
内外性
E
P2
P1
B3
極
B2 性
B1
ア
ミ
ノ
酸
・ ・ ・ ・
A
-0.66
-0.79
-0.91
・ ・ ・ ・
A
-0.79
-0.79
-0.91 ・ ・ ・ ・
R
-1.67
-1.16
-2.16
・ ・ ・ ・
R
-1.16
-1.16
-2.16 ・ ・ ・ ・
0.07
0.07
0.17
・ ・ ・ ・
1.17
1.17
1.05
・ ・ ・ ・
・
・
・
・
・
・
・
・
Y
・
W
・
・
Y
・
W
0.18
0.07
0.17
・ ・ ・ ・
1.00
1.17
1.05
・ ・ ・ ・
残基1 残基2
3D-1Dスコア
残基3
3D-プロファイル
その他のプロファイル

配列のマルチプルアライメントに基づくプロ
ファイル




PSI-BLAST、HMM
立体構造のマルチプルアライメントに基づ
くプロファイル作成
角度情報なども考慮したプロファイル
プロファイル vs プロファイルによるアライメ
ント
ポテンシャル型スコア関数を
用いたスレッディング



全体のポテンシャル
エネルギーを最小化
(Σfd(X,Y)が最小とな
るようなスレッディン
グを計算)
精度向上が期待で
きる
でも計算時間が問
題
立体構造
f d (T, F)
d
T C A V F G L G K V R L S D
V
アミノ酸配列
プロファイル型スコア関数と
ポテンシャル型スコア関数


Pos1 Pos2 Pos3 Pos4
プロファイル型スコア
関数
A
3.8
-3.5
1.2
2.3
C
1.5
1.3
-0.3
-4.6
(Eisenberg et al. 1991)
D
E
-1.5
-2.9
4.2
3.1
0.2
2.1
3.7
-1.3
ポテンシャル型スコア
関数
(Miyazawa, Sippl, . . .)
score
A
d
L
d
フラグメント・アセンブリ法
Univ. Washington の Baker らが開発

現時点では最強の方法と考えられている
方法

数残基から十数残基の断片構造をプロファイル比較法
などを用いて既知構造データベースから取得 =>
各断片配列ごとにいくつかの候補を選ぶ

フラグメントをつなぎ合わせることにより全体構造を予
測。つなぎ合わせる際には分子動力学法などによるエ
ネルギー最適化などを行う

立体構造予測におけるブレーク
スルー

スレッディング法の発明(Eisenberg et al.,
1991)


PSI-BLASTの開発(Altschul et al, 1997)


構造既知の配列と類似性が無い配列の構造予測
プロファイルに基づくマルチプルアライメントの繰り
返し実行によるスレッディング
David Baker による ab initio 予測(1997)

統計情報+シミュレーション
立体構造予測コンテスト:CASP


CASP (Critical Assessment of Techniques
for Protein Structure Prediction)
ブラインドテストにより予測法を評価
①
②
③
半年以内に立体構造が実験により決定する見込み
の配列(数十種類)をインターネット上で公開
参加者は予測結果を送付
構造決定後、正解とのずれなどを評価、順位づけ
CASPの経過と結果の公表


CASP1 (1994), CASP2(1996), CASP3(1998),
CASP4(2000), CASP5(2002), CASP6(2004),
CASP7(2006), CASP8(2008), CASP9(2010)
CAFASP(1998,2000,2002,2004,2006)


完全自動予測法の評価
結果の公表


会議
ホームページ


http://predictioncenter.gc.ucdavis.edu/
学術専門誌(Proteins)
まとめ

立体構造予測


正確な座標は予測できない
だいたいの形の予測であれば4~5割近く



タンパク質スレッディング法が有力
近年では、フラグメントアセンブリー法が有力
二次構造予測であれば、70%-80%程度
参考文献



阿久津達也:バイオインフォマティクスの数理とアルゴ
リズム、共立出版、2007.
丸山修、阿久津達也:バイオインフォマティクス –配
列データ解析と構造予測、朝倉書店、2007.
藤博幸:タンパク質機能解析のためのバイオインフォ
マティクス、共立出版、2004.