ゲノム統合データベースからの知識発見

神奈川科学技術アカデミー
バイオインフォマティクスコース
蛋白質立体構造予測 I,II,演習
阿久津 達也
東京大学 医科学研究所
ヒトゲノム解析センター
講義内容 I
①
②
③
④
⑤
蛋白質立体構造とその特徴
立体構造データベース: PDB
立体構造の分類: SCOP
立体構造表示ソフト: RASMOL
構造予測法の分類
講義内容 II
①
②
③
④
⑤
⑥
物理的原理に基づく方法
格子モデル
二次構造予測法
スレッディング法
スコア関数
立体構造予測コンテスト CASP
実習内容
①
立体構造の検索、表示、分類
(PDB,RASMOL,SCOP)
②
③
④
⑤
⑥
立体構造アライメント(DALI)
二次構造予測(PHD)
フォールド予測(スレッディング)
(GTOP,FUGUE,3DPSSM)
ホモロジーモデリング(FAMS)
CASP
遺伝子と蛋白質

遺伝情報の流れ


エキソン
DNA
DNA配列中で直接的に
機能する部分
転写 ・
スプライシング
mRNA
GGU


GGU → Gly
GCA → Ala
染色体全体(半数体)
遺伝情報の総体
タンパク質
アミノ酸(20種類)の鎖
GCA
翻訳
ゲノム


エキソン
遺伝子


DNA⇒RNA⇒タンパク
エキソン
タンパク質
蛋白質立体構造予測



アミノ酸配列から、蛋
白質の立体構造(3次
元構造)をコンピュー
タにより推定
実験よりは、はるかに
精度が悪い
だいたいの形がわか
れば良いのであれば、
5割近くの予測率
アミノ酸配列
T C A V F G L G G V R L S D
V
コンピュータ
タンパク質
立体構造
アミノ酸と蛋白質


アミノ酸:20種
類
蛋白質:アミノ酸
の鎖(短いもの
はペプチドと呼
ばれる)
アミノ酸
R
H
側鎖
OH
C
N
アミノ基
C
カルボシキル基
H
H
O
蛋白質
R
N
H
C
H
H
C
O
N
H
C
R
ペプチド結合
O
C
側鎖の例
Ala アラニン
Phe フェニル
アラニン
CH 3
CH
HC
Val バリン
H3 C
CH
C
CH 3
CH
O
CH
HC
Asp アスパラ
ギン酸
CH 2
O
C
-
His ヒス
チジン
Cys シス
テイン
HN
SH
+
NH
CH 2
CH 2
CH 2
Gly グリシン
H
アミノ酸コード表
Ala
Arg
Asn
Asp
Cys
Gln
Glu
Gly
His
Ile
A
R
N
D
C
Q
E
G
H
I
アラニン
アルギニン
アスパラギン
アスパラギン酸
システイン
グルタミン
グルタミン酸
グリシン
ヒスチジン
イソロイシン
Leu
Lys
Met
Phe
Pro
Ser
Thr
Trp
Tyr
Val
L ロイシン
K リシン
M メチオニン
F フェニルアラニン
P プロリン
S セリン
T トレオニン
W トリプトファン
Y チロシン
V バリン
アミノ酸の分類

疎水性アミノ酸


荷電アミノ酸(親水性)


Asp, Glu, Lys, Arg
極性アミノ酸


Ala, Val, Leu, Ile, Phe, Pro, Met
Ser, Thr, Tyr, His, Cys, Asn, Glu, Trp
グリシン(疎水性に分類されることもある)

Gly
蛋白質の種類と高次構造

蛋白質の分類







球状蛋白質
繊維状蛋白質
膜蛋白質
一次構造(アミノ酸配列)
二次構造(α、β、それ以外(ループ、コイル))
三次構造(三次元構造、立体構造)
四次構造(複数の鎖)
蛋白質立体構造の決定

主にX線結晶解析かNMR解析による



アミノ酸配列決定より困難



一般にX線解析の方が精度が高い
しかし、結晶中の構造しかわからない
半年から1年くらいかかることも珍しく無い
既知アミノ酸配列 > 10万
既知立体構造 < 1万
蛋白質立体構造の特徴


基本的には鎖(ひも)状
二種類の特徴的な構
造が頻繁に現れ、立体
構造の骨格(コア)を作
る


αへリックス(らせん状の
部分)
βシート(ひも状の部分
が並んだ部分)
α
β
ループ
構造とアミノ酸の種類の関係

(球状)蛋白質


αへリックス


内側:疎水性 外側:親水性
βストランド


内側:疎水性アミノ酸 外側:親水性アミノ酸
疎水性と親水性が交互に現れる
ループ領域

親水性が高い
立体構造データベース

PDB(Protein Data Bank )



SCOP


蛋白質立体構造データベース
現在約16000データ(ただし重複あり)
立体構造分類データベース
FSSP/DALI

立体構造アライメントデータベース/アライメ
ントサーバー
蛋白質立体構造の分類

構造分類の必要性



立体構造と機能の間には密接な関係
配列が似ていなくても構造類似の蛋白質が多数存在
SCOPによる階層的クラス分け




Class: 二次構造の組成(α、β、α+βなど)に基づく分
類
Fold: 構造の類似性
Superfamily: 進化的類縁性
Family: 明らかな進化的類縁性
立体構造アライメント



立体構造の類似性
判定のために有用
どのように回転、平
行移動すれば、最適
な残基間の対応づけ
が得られるかを計算
DALI,VASTなどいく
つかのアルゴリズム
Rasmol




蛋白質立体構造表示ツール
Windows版、UNIX版、LINUX版など(フ
リー)
バックボーン表示、リボン形式など様々な
形式での表示が可能
マウスなどで、回転、拡大なども可能
立体構造予測法の分類




力学的原理に基づく方法
格子モデル
2次構造予測
スレッディング
物理的原理に基づく方法






エネルギー最小化、もしくは、微分方程式を(数
値的に)解く、などの物理的原理に基づく方法
主として分子動力学法(Molecular Dynamics)
数十残基程度であれば、実際の蛋白質やペプチ
ドと似た構造を推定可能(なことがある)
構造の最適化や安定性の解析には実用的
側鎖のパッキングの計算にも有効
超並列計算機の利用 IBM BLUE GENEなど
分子動力学法


エネルギーの極小化(Eを極小化)
フォールディングのシミュレーション


mi d2ri/dt2 = -∇i E を差分化
E = Eb + Eθ + Eφ + Evdw + Eel





Eb = ΣKb(r-r0)2
結合長
Eθ = ΣKθ(θ-θ0)2
結合角
Eφ = ΣKφ[1+cos(nφ-δ)] 二面角
Evdw = Σ[Aij/(rij2)-Bij/(rij6)] ファンデルワールス力
Eel = Σqiqj/(εrij)
静電相互作用(クーロン力)
格子モデル


各残基が格子
点にあると仮定
予測よりも、
フォールディン
グの定性的な
理解のために
利用される
格子モデルに基づく研究


折れ畳み経路の
シミュレーションに
よる定性的理解
→フォールディン
グファンネル
エネルギー最小
の構造の計算法
→NP困難
親水性アミノ酸
疎水性アミノ酸
スコア
=-9
スコア
=-5
配列
二次構造予測




アミノ酸配列中の各残基
が、α、β、それ以外のど
れに属するかを予測
でたらめに推定しても、
33.3%の的中率
最も高精度なソフトを使え
ば、70%~80%の的中率
ニューラルネット、HMM、
サポートベクタマシンなど
の利用
L A P I K
α
β
それ以外
ニューラルネットによる二次構造予測
出力層
中間層 (隠れ層)
入力層
Lys
Val
Leu
Asn
Ala
Thr
Gly
膜蛋白質の膜貫通領域予測

膜貫通領域



αへリックス
7~17残基程
度の疎水性指
標の平均値を
プロット
平均値が高い
部分が膜貫通
領域と推定
D A G I
膜蛋白
細
胞
膜
V L P V R K Q
A 1.8
C: 2.5
D: -3.5
E: -3.5
F: 2.8
...
疎水性
指標
フォールド予測(Fold Recognition)


精密な3次元構造
ではなく、だいたい
の形(fold)を予測
立体構造は1000
種類程度の形に分
類される、との予
測(Chotia, 1992)
に基づく
アミノ酸配列
T C A V F G L G G V R L S D
V
1000個のテンプレート構造
蛋白質スレッディング
立体構造(テンプレート)とアミノ酸配列の間
のアライメント
立体構造
T C A V F G L G K V R L S D
V
アミノ酸配列
スレッディングとアライメント
立体構造
A L G F G S L Y G
A L G G V S L G
A L G F G
A L G
T C A V F G L G K V R L S D
V
入力アミノ酸配列
S L Y G
G V S L
G
蛋白質スレッディングによる構造予測
①
②
③
構造未知の配列と既知の立体構造(数
百種類程度)の間のスレッディングを、そ
れぞれ、計算
スレッディング結果のスコア(適合度)が
最も高い構造を採用(スレッディングによ
り対応づけられた座標にアミノ酸を配置)
必要があれば、分子動力学法などを用
いて構造を最適化
スレディング法の分類

プロファイルによるスレッディング




PSI-BLAST
3D-1D法
構造アライメント結果に基づくスレッディング
残基間ポテンシャルによるスレッディング



コンタクトポテンシャル
距離依存ポテンシャル
その他のポテンシャル
残基4
プロファイル
残基3
立体構造


アライメントに
おけるスコア
行列と類似
スレッディング
の場合、残基
位置ごとにスコ
ア(位置依存ス
コア)
残基2
残基1
残基1 残基2 残基3 残基4
A
3.8
-3.5
1.2
2.3
C
1.5
1.3
-0.3
-4.6
D
-1.5
-2.9
4.2
3.1
E
0.2
2.1
3.7
-1.3
プロファイルによるアライメント


動的計画法
(DP)により
最適解を計
算
スコア行列
のかわりに
プロファイ
ルを使う
アミノ酸配列: AED ......
プロファイル:
残基1 残基2 残基3 残基4
A
3.8
-3.5
1.2
2.3
C
D
1.5
1.3
-0.3
-4.6
-1.5
-2.9
4.2
3.1
E
0.2
-4.1
3.7
-1.3
アライメント
123 .....
AED .....
1234 .....
A-ED .....
1- 23 .....
AEDC ...
スコア
3.8-4.1+4.2
=3.9
3.8-2.0+3.7+
3.1=8.7
3.8-2.0-2.9+
-0.3=-1.4
3D-1Dプロファイル


最初のversion
はEisenbergら
が1991年に提
α
案
構造中の残基
(位置)を18種 β
類の環境に分類


二次構造
(3種類)
内外性+極性
(6種類)
主鎖
側鎖
内外性
E
P2
P1
B3
B2
B1
極
性
残基1
3D-1Dプロファイル
残基4
蛋白質立体
構造
残基2
残基3
環境クラス
B 1α B 1β B 1
内外性
E
P2
P1
B3
極
B2 性
B1
ア
ミ
ノ
酸
・ ・ ・ ・
A
-0.66
-0.79
-0.91
・ ・ ・ ・
A
-0.79
-0.79
-0.91 ・ ・ ・ ・
R
-1.67
-1.16
-2.16
・ ・ ・ ・
R
-1.16
-1.16
-2.16 ・ ・ ・ ・
・
・
・
・
・
・
・
・
・
・
・
・
Y
0.18
0.07
0.17
・ ・ ・ ・
Y
0.07
0.07
0.17
・ ・ ・ ・
W
1.00
1.17
1.05
・ ・ ・ ・
W
1.17
1.17
1.05
・ ・ ・ ・
残基1 残基2
3D-1Dスコア
残基3
3D-プロファイル
その他のプロファイル

配列のマルチプルアライメントに基づくプロ
ファイル



PSI-BLAST、HMM
立体構造のマルチプルアライメントに基づ
くプロファイル作成
角度情報なども考慮したプロファイル
アライメントプロファイルに基づく
スレッディング
構造未知
配列
A H WA K GY LD
アライメ
ント結果
A D R Y P K W- D
A- HF A- YVD
A- KF THYL D
スレッディ
ング
A - H WA K G Y L D
A D R Y P K - W- D
A - H F A- - Y V D
A- KF TH- YL D
ポテンシャル型スコア関数を
用いたスレッディング

全体のポテン
シャルエネル
ギーを最小化
(Σfd(X,Y)が最
小となるような
スレッディング
を計算)
立体構造
f d (T, F)
d
T C A V F G L G K V R L S D
V
アミノ酸配列
プロファイル型スコア関数と
ポテンシャル型スコア関数


Pos1 Pos2 Pos3 Pos4
プロファイル型スコア
関数
A
3.8
-3.5
1.2
2.3
C
1.5
1.3
-0.3
-4.6
(Eisenberg et al. 1991)
D
E
-1.5
-2.9
4.2
3.1
0.2
2.1
3.7
-1.3
ポテンシャル型スコア
関数
(Miyazawa, Sippl, . . .)
score
A
d
L
d
コンタクトポテンシャルと
距離依存ポテンシャル

コンタクトポテンシャ
ル (Miyazawa... 1985)

score
A
d
比較的少ないデータからス
コア関数を導出可能
L
d

距離依存ポテンシャ
ル (Sippl, . . .)

精度の高いスコア関
数を得るには多くの
データが必要
score
A
d
L
d
ポテンシャル型関数を用いた場
合の最適解の計算


厳密な最適解の計算は困難(NP完全)
様々なアルゴリズムの提案

分枝限定法 (Lathrop & Smith 94,96)



Frozen Approximation (Godzik & Skolnick 92)


多くの場合に現実的な時間で最適解を計算可能
コア領域内でのギャップは許されない
通常のDPと同様のアルゴリズムが利用可能
Double DP (Jones, Taylor & Thornton 92)


DPを二重に用いる
立体構造アライメントなどにも応用可能
最適解がDPで計算できない理由と
Frozen Approximation


○にFをアラインする際
のスコアの正確な計算
には、○に何がアライン
されているかを知ること
が必要
Frozen Approximation
もとの構造中で○に割り
当てられている残基の
情報を利用
(図の例ではFとDのコン
タクトポテンシャル)
立体構造
D
T C A V F G L G K V R L S D
V
アミノ酸配列
スコア関数の導出

残基の出現頻度の対数をとる


統計力学のボルツマン分布などが根拠
3D-1Dスコア



環境eのもとでの残基aの出現頻度:fe(a)
環境eの出現確率
 score(e,a)=log (fe(a)/ fe)
ポテンシャル型スコア
(Quasichemical Approximation (Miyazawa 85))

距離dにおける残基ペアa,bの出現頻度:fd(a,b)
 scored(a,b) =-log fd(a,b)
他のスコア関数導出法

学習データ(既知構造データ)より以下を
満たすスコア(エネルギー)を導出





正しい構造のエネルギー < 誤った構造のエネルギ or
Max( 誤った構造のエネルギー - 正しい構造のエネルギー )
ニューラルネット (Goldstein et al. 92)
モンテカルロ法 (Mirny,Shakhnovich 96)
線形計画法 (Maiorov,Crippen 92)
スレッディングに関するまとめ

プロファイル型


DPによりスレッディングが計算可能
ポテンシャル型

DPは(直接は)適用不可




Frozen Approximation, Double DP, …
コンタクトポテンシャル
距離依存ポテンシャル
スコア関数の導出

対数頻度
立体構造予測コンテスト:CASP


CASP (Critical Assessment of Techniques
for Protein Structure Prediction)
ブラインドテストにより予測法を評価
①
②
③
半年以内に立体構造が実験により決定する見込
みの配列(数十種類)をインターネット上で公開
参加者は予測結果を送付
構造決定後、正解とのずれなどを評価、順位づ
け
CASPの経過と結果の公表


CASP1 (1994), CASP2(1996), CASP3(1998),
CASP4(2000)
CAFASP(1998,2000)


完全自動予測法の評価
結果の公表


会議
ホームページ


http://predictioncenter.llnl.gov/
学術専門誌(Proteins)
予測カテゴリー

3D coordinate


Alignments to PDB structure


スレッディング
Residue-residue contacts


具体的な座標値まで計算→MDなど
残基間距離の推定
Secondary structure assignments

二次構造予測
各種サイト





PDB(立体構造データベース)
RASMOL(立体構造表示プログラム)
PHD(二次構造予測システム)
GTOP(PSI-BLASTベースの予測システム)
CAFASP2 servers(各種スレッディングプロ
グラムへのリンク)
まとめ

立体構造予測




実用的な予測法


正確な座標は予測できない
だいたいの形の予測であれば5割程度
二次構造予測であれば、70%-80%程度
PSI-BLASTに基づく方法が有力
進行中のプロジェクト

立体構造の網羅的決定→
残りの構造はアライメントでほぼ確実に推定
演習1

立体構造の検索、表示、分類




PDB(http://www.rcsb.org/pdb/)
RASMOL(http://www.umass.edu/microbio/rasmol/i
ndex2.htm)
SCOP(http://scop.mrc-lmb.cam.ac.uk/scop/)
実際の作業

PDBにてキーワード入力



(例:myoglobin, 1bov)
RASMOLで表示
SCOPにて分類を確認
演習2

立体構造アライメント、表示


DALI/FSSP(http://www.ebi.ac.uk/dali/)
実際の作業



FSSPにてmyoglobinと入力
1a6mをチェック
1a6m,1ash,1cpcAをチェック→アライメント結
果の表示(narrow)→アライメント結果をセーブ
し、RASMOLで表示
演習3

二次構造予測


PHD(http://www.emblheidelberg.de/predictprotein/predictprotein
.html)
実際の作業

DBGETでSwissprotをセレクトし、キーワード入
力(例:prion,lectin)→配列データをコピーし、
PHDに入力
演習4

フォールド予測(PSI-BLASTベース)


GTOP(http://spock.genes.nig.ac.jp/~geno
me/)
実際の作業

演習3のデータをGTOPにコピー→結果を見る
演習5

構造プロファイルなどに基づくスレッディン
グ


FUGUE(http://wwwcryst.bioc.cam.ac.uk/~fugue/prfsearch.htm
l)
3DPSSM(http://www.bmm.icnet.uk/servers
/3dpssm/)
演習6、7

ホモロジーモデリング


FAMS(http://physchem.pharm.kitasatou.ac.jp/FAMS/fams.html)
CASP結果の閲覧

http://predictioncenter.llnl.gov/