生命情報学基礎論 - Kyoto University Bioinformatics

生命情報学基礎論 (5)
タンパク質立体構造予測
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
講義予定













4月14日(月): 生命情報学の基盤
4月21日(月): 配列の比較と相同性検索
4月28日(月): 進化系統樹推定
5月12日(月): 隠れマルコフモデル
5月19日(月): タンパク質立体構造予測
5月26日(月)、6月2日(月): カーネル法
6月9日(月): 生物情報ネットワークの構造解析
6月16日(月): 遺伝子ネットワークの解析と制御(田村)
6月23日(月): 代謝ネットワークの堅牢性(田村)
6月30日(月): 木の編集距離(田村)
7月7日(月): タンパク質相互作用予測(林田)
7月14日(月): タンパク質複合体予測(林田)
7月17日(木): 生物データの圧縮による比較(林田)
タンパク質立体構造
アミノ酸とタンパク質


アミノ酸:20種類
タンパク質:アミノ
酸の鎖(短いもの
はペプチドと呼ば
れる)
アミノ酸
R
H
側鎖
OH
C
N
アミノ基
C
カルボシキル基
H
H
O
蛋白質
R
N
H
C
H
H
C
O
N
H
C
R
ペプチド結合
O
C
タンパク質の種類と高次構造

タンパク質の分類







球状タンパク質
繊維状タンパク質
膜タンパク質
一次構造(アミノ酸配列)
二次構造(α、β、それ以外(ループ、コイル))
三次構造(三次元構造、立体構造)
四次構造(複数の鎖)
タンパク質立体構造の決定

主にX線結晶解析かNMR解析による



アミノ酸配列決定より困難



一般にX線解析の方が精度が高い
しかし、結晶中の構造しかわからない
半年から1年くらいかかることも珍しく無い
既知アミノ酸配列 >> 10万
既知立体構造 < 数万
タンパク質立体構造の特徴


基本的には鎖(ひも)状
二種類の特徴的な構造
が頻繁に現れ、立体構造
の骨格(コア)を作る


αへリックス(らせん状の部
分)
βシート(ひも状の部分が並
んだ部分)
α
β
ループ
タンパク質立体構造の例(1)
立体構造:Cα原子の座標列で概要がわかる
αへリックスとβシートが構造の骨格を形成
タンパク質立体構造の例(2)
タンパク質立体構造の例(3)
構造とアミノ酸の種類の関係

(球状)タンパク質


αへリックス


内側:疎水性 外側:親水性
βストランド


内側:疎水性アミノ酸 外側:親水性アミノ酸
疎水性と親水性が交互に現れる
ループ領域

親水性が高い
立体構造分類
タンパク質立体構造データベース



立体構造と機能の間には密接な関係
配列が似ていなくても構造類似のタンパク質が多数
存在
タンパク質立体構造データベース


PDB (Protein Data Bank)
構造分類データベース



SCOP(人間が分類)
FSSP(DALIプログラムにより分類)
CATH(SSAPプログラムなどにより分類)
タンパク質立体構造の分類

構造分類の必要性



立体構造と機能の間には密接な関係
配列が似ていなくても構造類似のタンパク質が多数存
在
SCOPによる階層的クラス分け




Class: 二次構造の組成(α、β、α+βなど)に基づく分類
Fold: 構造の類似性 ← スレッディング法の対象
Superfamily: 進化的類縁性
Family: 明らかな進化的類縁性
タンパク質立体構造予測
タンパク質立体構造予測



アミノ酸配列から、タ
ンパク質の立体構造
(3次元構造)をコン
ピュータにより推定
実験よりは、はるか
に精度が悪い
だいたいの形がわか
れば良いのであれば、
4~5割近くの予測
率?
アミノ酸配列
T C A V F G L G G V R L S D
V
コンピュータ
タンパク質
立体構造
立体構造予測法の分類

物理的原理に基づく方法 (ab initio法)


ホモロジーモデリング




各アミノ酸がα、β、それ以外のいずれかにあるかを予測
ランダムに予測すれば33.3…%の予測率であるが、高性能の手法を用い
れば80%近い予測率
格子モデル
スレッディング


配列アラインメントにより主鎖のだいたいの配置を決定した後、主鎖や側鎖
の配置の最適化を分子動力学法などで実行
2次構造予測


エネルギー最小化、分子動力学法
予測したい配列と既知構造の間のアラインメントを計算
フラグメント・アセンブリー法

数残基から十数残基からなる複数のフラグメント候補をデータベース検索
により選択した後、分子動力学法などを用いてそれらをつなげ合わせる
二次構造予測




アミノ酸配列中の各残基
が、α、β、それ以外のど
れに属するかを予測
でたらめに推定しても、
33.3%の的中率
最も高精度なソフトを使え
ば、70%~80%の的中率
ニューラルネット、HMM、
サポートベクタマシンなど
の利用
L A P I K
α
β
それ以外
フォールド予測(Fold Recognition)


精密な3次元構造
ではなく、だいたい
の形(fold)を予測
立体構造は1000
種類程度の形に分
類される、との予
測(Chotia, 1992)
に基づく
アミノ酸配列
T C A V F G L G G V R L S D
V
1000個のテンプレート構造
タンパク質スレッディング
立体構造(テンプレート)とアミノ酸配列の間
のアラインメント
立体構造
T C A V F G L G K V R L S D
V
アミノ酸配列
スレッディングとアラインメント
立体構造
A L G F G S L Y G
A L G G V S L G
A L G F G
A L G
T C A V F G L G K V R L S D
V
入力アミノ酸配列
S L Y G
G V S L
G
スレディング法の分類

プロファイルによるスレッディング





動的計画法で最適解が計算可能
PSI-BLAST
3D-1D法
構造アライメント結果に基づくスレッディング
残基間ポテンシャルによるスレッディング




NP困難。ただし、整数計画法などが効果的に適用可能
コンタクトポテンシャル
距離依存ポテンシャル
その他のポテンシャル
プロファイル
残基4


アラインメントに
おけるスコア行
列と類似
スレッディングの
場合、残基位置
ごとにスコア(位
置依存スコア)
残基3
立体構造
残基2
残基1
残基1 残基2 残基3 残基4
A
3.8
-3.5
1.2
2.3
C
1.5
1.3
-0.3
-4.6
D
-1.5
-2.9
4.2
3.1
E
0.2
2.1
3.7
-1.3
プロファイルによるアラインメント


動的計画法
(DP)により最
適解を計算
スコア行列の
かわりにプロ
ファイルを使う
アミノ酸配列: AED ......
プロファイル:
残基1 残基2 残基3 残基4
A
3.8
-3.5
1.2
2.3
C
D
1.5
1.3
-0.3
-4.6
-1.5
-2.9
4.2
3.1
E
0.2
-4.1
3.7
-1.3
アライメント
123 .....
AED .....
1234 .....
A-ED .....
1- 23 .....
AEDC ...
スコア
3.8-4.1+4.2
=3.9
3.8-2.0+3.7+
3.1=8.7
3.8-2.0-2.9+
-0.3=-1.4
3D-1Dプロファイル


最初のversionは
Eisenbergらが
1991年に提案
構造中の残基(位
置)を18種類の環
境に分類


二次構造(3種類)
内外性+極性(6
種類)
主鎖
α
β
側鎖
内外性
E
P2
P1
B3
B2
B1
極
性
3D-1Dプロファイル
残基1
タンパク質
立体構造
残基2
残基4
残基3
環境クラス
B 1α B 1β B 1
内外性
E
P2
P1
B3
極
B2 性
B1
ア
ミ
ノ
酸
・ ・ ・ ・
A
-0.66
-0.79
-0.91
・ ・ ・ ・
A
-0.79
-0.79
-0.91 ・ ・ ・ ・
R
-1.67
-1.16
-2.16
・ ・ ・ ・
R
-1.16
-1.16
-2.16 ・ ・ ・ ・
0.07
0.07
0.17
・ ・ ・ ・
1.17
1.17
1.05
・ ・ ・ ・
・
・
・
・
・
・
・
・
Y
・
W
・
・
Y
・
W
0.18
0.07
0.17
・ ・ ・ ・
1.00
1.17
1.05
・ ・ ・ ・
残基1 残基2
3D-1Dスコア
残基3
3D-プロファイル
その他のプロファイル

配列のマルチプルアラインメントに基づくプロファ
イル




PSI-BLAST、HMM
立体構造のマルチプルアラインメントに基づくプロ
ファイル作成
角度情報なども考慮したプロファイル
プロファイル vs プロファイルによるアラインメント
ポテンシャル型スコア関数を用いたスレッディング

全体のポテン
シャルエネル
ギーを最小化
(Σfd(X,Y)が最
小となるような
スレッディング
を計算)
立体構造
f d (T, F)
d
T C A V F G L G K V R L S D
V
アミノ酸配列
プロファイル型スコア関数と
ポテンシャル型スコア関数

プロファイル型スコア
関数
(Eisenberg
et al. 1991)

ポテンシャル型スコア
関数
(Miyazawa, Sippl, . . .)
Pos1 Pos2 Pos3 Pos4
A
3.8
-3.5
1.2
2.3
C
1.5
1.3
-0.3
-4.6
D
E
-1.5
-2.9
4.2
3.1
0.2
2.1
3.7
-1.3
score
A
d
L
d
ポテンシャル型の場合の最適解計算


厳密な最適解の計算は困難(NP完全)
様々なアルゴリズムの提案

分枝限定法 (Lathrop & Smith 96, Ming Li et al.
2002)



Frozen Approximation (Godzik & Skolnick 92)


多くの場合に現実的な時間で最適解を計算可能
コア領域内でのギャップは許されない
通常のDPと同様のアルゴリズムが利用可能
Double DP (Jones, Taylor & Thornton 92)


DPを二重に用いる
立体構造アライメントなどにも応用可能
Frozen Approximation
○にFをアラインする際の
スコアの正確な計算には、
○に何がアラインされてい
るかを知ることが必要
⇒動的計画法では最適解
が計算できない
 Frozen Approximation:
もとの構造中で○に割り
当てられている残基の情
報を利用
(図の例ではFとDのコンタ
クトポテンシャル)

立体構造
D
T C A V F G L G K V R L S D
V
アミノ酸配列
スコア関数の導出

残基の出現頻度の対数をとる


統計力学のボルツマン分布などが根拠
3D-1Dスコア


環境eのもとでの残基aの出現頻度:fe(a) (条件付確率)
score(e,a)=log (fe(a)/fe)

ポテンシャル型スコア (Quasichemical Approximation
(Miyazawa 85))
 距離dにおける残基ペアa,bの出現頻度:fd(a,b)
 scored(a,b) =-log fd(a,b)
他のスコア関数導出法

学習データ(既知構造データ)より以下を満たす
スコア(エネルギー)を導出





正しい構造のエネルギー < 誤った構造のエネルギ or
Max( 誤った構造のエネルギー - 正しい構造のエネルギー )
ニューラルネット (Goldstein et al. 92)
モンテカルロ法 (Mirny,Shakhnovich 96)
線形計画法 (Maiorov,Crippen 92)
立体構造予測におけるブレークスルー

スレッディング法の発明(Eisenberg et al., 1991)


PSI-BLASTの開発(Altschul et al, 1997)


構造既知の配列と類似性が無い配列の構造予測
プロファイルに基づくマルチプルアラインメントの繰り返
し実行によるスレッディング
David Baker による フラグメントアセンブリ法
(1997)

統計情報+シミュレーション
フラグメント・アセンブリ法
Univ. Washington の Baker らが開発

現時点では最強の方法とされている
方法

数残基から十数残基の断片構造(フラグメント)をプロ
ファイル比較法などを用いて既知構造データベース
から取得
⇒ 各断片配列ごとにいくつかの候補を選ぶ

フラグメントをつなぎ合わせることにより全体構造を
予測。つなぎ合わせる際には分子動力学法などによ
るエネルギー最適化などを行う

立体構造予測コンテスト:CASP
CASP (Critical Assessment of Techniques for
Protein Structure Prediction)
ブラインドテストにより予測法を評価


半年以内に立体構造が実験により決定する見込みの配
列(数十種類)をインターネット上で公開
参加者は予測結果を送付
構造決定後、正解とのずれなどを評価、順位づけ
①
②
③
結果の公表



会議、専門学術誌(Proteins)
ホームページ


http://predictioncenter.gc.ucdavis.edu/
1994年より2年ごとに開催
まとめ

立体構造比較


立体構造予測




構造分類データベースが作成されている
正確な座標は予測できない
だいたいの形の予測であれば4割~5割近く
二次構造予測であれば、80%~程度
スレッディング法

プロファイル型スコア関数


動的計画法で最適解が計算可能
ポテンシャル型スコア関数

NP困難だが整数計画法などにより最適解が計算可能