ゲノム統合データベースからの知識発見

神奈川科学技術アカデミー
バイオインフォマティクスコース
蛋白質立体構造予測 I,II,演習
阿久津達也
東京大学医科学研究所
ヒトゲノム解析センター
講義内容 I
①
②
③
④
⑤
蛋白質立体構造とその特徴
立体構造データベース: PDB
立体構造の分類: SCOP
立体構造表示ソフト: RASMOL
構造予測法の分類
講義内容 II
①
②
③
④
⑤
⑥
物理的原理に基づく方法
格子モデル
二次構造予測法
スレッディング法
スコア関数
立体構造予測コンテスト CASP
実習内容
①
立体構造の検索、表示、分類
(PDB,RASMOL,SCOP)
②
③
④
⑤
⑥
立体構造アライメント(DALI)
二次構造予測(PHD)
フォールド予測（スレッディング）
(GTOP,FUGUE,3DPSSM)
ホモロジーモデリング(FAMS)
CASP
遺伝子と蛋白質

遺伝情報の流れ


エキソン
DNA
DNA配列中で直接的に
機能する部分
転写・
スプライシング
mRNA
GGU


GGU → Gly
GCA → Ala
染色体全体（半数体）
遺伝情報の総体
タンパク質
アミノ酸（２０種類）の鎖
GCA
翻訳
ゲノム


エキソン
遺伝子


DNA⇒RNA⇒タンパク
エキソン
タンパク質
蛋白質立体構造予測



アミノ酸配列から、蛋
白質の立体構造（３次
元構造）をコンピュー
タにより推定
実験よりは、はるかに
精度が悪い
だいたいの形がわか
れば良いのであれば、
５割近くの予測率
アミノ酸配列
T C A V F G L G G V R L S D
V
コンピュータ
タンパク質
立体構造
アミノ酸と蛋白質


アミノ酸：２０種
類
蛋白質：アミノ酸
の鎖（短いもの
はペプチドと呼
ばれる）
アミノ酸
R
H
側鎖
OH
C
N
アミノ基
C
カルボシキル基
H
H
O
蛋白質
R
N
H
C
H
H
C
O
N
H
C
R
ペプチド結合
O
C
側鎖の例
Ala アラニン
Phe フェニル
アラニン
CH 3
CH
HC
Val バリン
H3 C
CH
C
CH 3
CH
O
CH
HC
Asp アスパラ
ギン酸
CH ２
O
C
-
His ヒス
チジン
Cys シス
テイン
HN
SH
+
NH
CH ２
CH 2
CH ２
Gly グリシン
H
アミノ酸コード表
Ala
Arg
Asn
Asp
Cys
Gln
Glu
Gly
His
Ile
A
R
N
D
C
Q
E
G
H
I
アラニン
アルギニン
アスパラギン
アスパラギン酸
システイン
グルタミン
グルタミン酸
グリシン
ヒスチジン
イソロイシン
Leu
Lys
Met
Phe
Pro
Ser
Thr
Trp
Tyr
Val
L ロイシン
K リシン
M メチオニン
F フェニルアラニン
P プロリン
S セリン
T トレオニン
W トリプトファン
Y チロシン
V バリン
アミノ酸の分類

疎水性アミノ酸


荷電アミノ酸（親水性）


Asp, Glu, Lys, Arg
極性アミノ酸


Ala, Val, Leu, Ile, Phe, Pro, Met
Ser, Thr, Tyr, His, Cys, Asn, Glu, Trp
グリシン(疎水性に分類されることもある）

Gly
蛋白質の種類と高次構造

蛋白質の分類







球状蛋白質
繊維状蛋白質
膜蛋白質
一次構造（アミノ酸配列）
二次構造（α、β、それ以外（ループ、コイル））
三次構造（三次元構造、立体構造）
四次構造（複数の鎖）
蛋白質立体構造の決定

主にX線結晶解析かNMR解析による



アミノ酸配列決定より困難



一般にX線解析の方が精度が高い
しかし、結晶中の構造しかわからない
半年から１年くらいかかることも珍しく無い
既知アミノ酸配列 > 10万
既知立体構造 < 1万
蛋白質立体構造の特徴


基本的には鎖（ひも）状
二種類の特徴的な構
造が頻繁に現れ、立体
構造の骨格（コア）を作
る


αへリックス（らせん状の
部分）
βシート（ひも状の部分
が並んだ部分）
α
β
ループ
構造とアミノ酸の種類の関係

(球状）蛋白質


αへリックス


内側：疎水性外側：親水性
βストランド


内側：疎水性アミノ酸外側：親水性アミノ酸
疎水性と親水性が交互に現れる
ループ領域

親水性が高い
立体構造データベース

PDB(Protein Data Bank )



SCOP


蛋白質立体構造データベース
現在約16000データ（ただし重複あり）
立体構造分類データベース
FSSP／DALI

立体構造アライメントデータベース／アライメ
ントサーバー
蛋白質立体構造の分類

構造分類の必要性



立体構造と機能の間には密接な関係
配列が似ていなくても構造類似の蛋白質が多数存在
SCOPによる階層的クラス分け




Class: 二次構造の組成（α、β、α+βなど）に基づく分
類
Fold: 構造の類似性
Superfamily: 進化的類縁性
Family: 明らかな進化的類縁性
立体構造アライメント



立体構造の類似性
判定のために有用
どのように回転、平
行移動すれば、最適
な残基間の対応づけ
が得られるかを計算
DALI,VASTなどいく
つかのアルゴリズム
Rasmol




蛋白質立体構造表示ツール
Windows版、UNIX版、LINUX版など（フ
リー）
バックボーン表示、リボン形式など様々な
形式での表示が可能
マウスなどで、回転、拡大なども可能
立体構造予測法の分類




力学的原理に基づく方法
格子モデル
２次構造予測
スレッディング
物理的原理に基づく方法






エネルギー最小化、もしくは、微分方程式を（数
値的に）解く、などの物理的原理に基づく方法
主として分子動力学法(Molecular Dynamics)
数十残基程度であれば、実際の蛋白質やペプチ
ドと似た構造を推定可能（なことがある）
構造の最適化や安定性の解析には実用的
側鎖のパッキングの計算にも有効
超並列計算機の利用 IBM BLUE GENEなど
分子動力学法


エネルギーの極小化（Eを極小化）
フォールディングのシミュレーション


mi d2ri/dt2 = -∇i E を差分化
E = Eb + Eθ + Eφ + Evdw + Eel





Eb = ΣKb(r-r0)2
結合長
Eθ = ΣKθ(θ-θ0)2
結合角
Eφ = ΣKφ[1+cos(nφ-δ)] 二面角
Evdw = Σ[Aij/(rij2)-Bij/(rij6)] ファンデルワールス力
Eel = Σqiqj/(εrij)
静電相互作用（クーロン力）
格子モデル


各残基が格子
点にあると仮定
予測よりも、
フォールディン
グの定性的な
理解のために
利用される
格子モデルに基づく研究


折れ畳み経路の
シミュレーションに
よる定性的理解
→フォールディン
グファンネル
エネルギー最小
の構造の計算法
→NP困難
親水性アミノ酸
疎水性アミノ酸
スコア
＝－９
スコア
＝－５
配列
二次構造予測




アミノ酸配列中の各残基
が、α、β、それ以外のど
れに属するかを予測
でたらめに推定しても、
33.3%の的中率
最も高精度なソフトを使え
ば、70%～80%の的中率
ニューラルネット、HMM、
サポートベクタマシンなど
の利用
L A P I K
α
β
それ以外
ニューラルネットによる二次構造予測
出力層
中間層（隠れ層）
入力層
Lys
Val
Leu
Asn
Ala
Thr
Gly
膜蛋白質の膜貫通領域予測

膜貫通領域



αへリックス
7～１７残基程
度の疎水性指
標の平均値を
プロット
平均値が高い
部分が膜貫通
領域と推定
D A G I
膜蛋白
細
胞
膜
V L P V R K Q
A 1.8
C: 2.5
D: -3.5
E: -3.5
F: 2.8
...
疎水性
指標
フォールド予測（Fold Recognition)


精密な３次元構造
ではなく、だいたい
の形（fold)を予測
立体構造は1000
種類程度の形に分
類される、との予
測(Chotia, 1992)
に基づく
アミノ酸配列
T C A V F G L G G V R L S D
V
1000個のテンプレート構造
蛋白質スレッディング
立体構造（テンプレート）とアミノ酸配列の間
のアライメント
立体構造
T C A V F G L G K V R L S D
V
アミノ酸配列
スレッディングとアライメント
立体構造
A L G F G S L Y G
A L G G V S L G
A L G F G
A L G
T C A V F G L G K V R L S D
V
入力アミノ酸配列
S L Y G
G V S L
G
蛋白質スレッディングによる構造予測
①
②
③
構造未知の配列と既知の立体構造（数
百種類程度）の間のスレッディングを、そ
れぞれ、計算
スレッディング結果のスコア（適合度）が
最も高い構造を採用（スレッディングによ
り対応づけられた座標にアミノ酸を配置）
必要があれば、分子動力学法などを用
いて構造を最適化
スレディング法の分類

プロファイルによるスレッディング




PSI-BLAST
3D-1D法
構造アライメント結果に基づくスレッディング
残基間ポテンシャルによるスレッディング



コンタクトポテンシャル
距離依存ポテンシャル
その他のポテンシャル
残基４
プロファイル
残基３
立体構造


アライメントに
おけるスコア
行列と類似
スレッディング
の場合、残基
位置ごとにスコ
ア(位置依存ス
コア)
残基２
残基1
残基1 残基2 残基3 残基4
A
3.8
-3.5
1.2
2.3
C
1.5
1.3
-0.3
-4.6
D
-1.5
-2.9
4.2
3.1
E
0.2
2.1
3.7
-1.3
プロファイルによるアライメント


動的計画法
(DP)により
最適解を計
算
スコア行列
のかわりに
プロファイ
ルを使う
アミノ酸配列： AED ......
プロファイル：
残基1 残基2 残基3 残基4
A
3.8
-3.5
1.2
2.3
C
D
1.5
1.3
-0.3
-4.6
-1.5
-2.9
4.2
3.1
E
0.2
-4.1
3.7
-1.3
アライメント
123 .....
AED .....
1234 .....
A-ED .....
1- 23 .....
AEDC ...
スコア
3.8-4.1+4.2
=3.9
3.8-2.0+3.7+
3.1=8.7
3.8-2.0-2.9+
-0.3=-1.4
3D-1Dプロファイル


最初のversion
はEisenbergら
が1991年に提
α
案
構造中の残基
（位置）を１８種 β
類の環境に分類


二次構造
（３種類）
内外性＋極性
（６種類）
主鎖
側鎖
内外性
E
P2
P1
B3
B2
B1
極
性
残基1
3D-1Dプロファイル
残基4
蛋白質立体
構造
残基2
残基3
環境クラス
B 1α B 1β B 1
内外性
E
P2
P1
B3
極
B2 性
B1
ア
ミ
ノ
酸
・・・・
A
-0.66
-0.79
-0.91
・・・・
A
-0.79
-0.79
-0.91 ・・・・
R
-1.67
-1.16
-2.16
・・・・
R
-1.16
-1.16
-2.16 ・・・・
・
・
・
・
・
・
・
・
・
・
・
・
Y
0.18
0.07
0.17
・・・・
Y
0.07
0.07
0.17
・・・・
W
1.00
1.17
1.05
・・・・
W
1.17
1.17
1.05
・・・・
残基1 残基2
3D-1Dスコア
残基3
3D-プロファイル
その他のプロファイル

配列のマルチプルアライメントに基づくプロ
ファイル



PSI-BLAST、HMM
立体構造のマルチプルアライメントに基づ
くプロファイル作成
角度情報なども考慮したプロファイル
アライメントプロファイルに基づく
スレッディング
構造未知
配列
A H WA K GY LD
アライメ
ント結果
A D R Y P K W- D
A- HF A- YVD
A- KF THYL D
スレッディ
ング
A - H WA K G Y L D
A D R Y P K - W- D
A - H F A- - Y V D
A- KF TH- YL D
ポテンシャル型スコア関数を
用いたスレッディング

全体のポテン
シャルエネル
ギーを最小化
（Σfd(X,Y)が最
小となるような
スレッディング
を計算）
立体構造
f d (T, F)
d
T C A V F G L G K V R L S D
V
アミノ酸配列
プロファイル型スコア関数と
ポテンシャル型スコア関数


Pos1 Pos2 Pos3 Pos4
プロファイル型スコア
関数
A
3.8
-3.5
1.2
2.3
C
1.5
1.3
-0.3
-4.6
(Eisenberg et al. 1991)
D
E
-1.5
-2.9
4.2
3.1
0.2
2.1
3.7
-1.3
ポテンシャル型スコア
関数
(Miyazawa, Sippl, . . .)
score
A
d
L
d
コンタクトポテンシャルと
距離依存ポテンシャル

コンタクトポテンシャ
ル (Miyazawa... 1985)

score
A
d
比較的少ないデータからス
コア関数を導出可能
L
d

距離依存ポテンシャ
ル (Sippl, . . .)

精度の高いスコア関
数を得るには多くの
データが必要
score
A
d
L
d
ポテンシャル型関数を用いた場
合の最適解の計算


厳密な最適解の計算は困難(NP完全)
様々なアルゴリズムの提案

分枝限定法 (Lathrop & Smith 94,96)



Frozen Approximation (Godzik & Skolnick 92)


多くの場合に現実的な時間で最適解を計算可能
コア領域内でのギャップは許されない
通常のDPと同様のアルゴリズムが利用可能
Double DP (Jones, Taylor & Thornton 92)


DPを二重に用いる
立体構造アライメントなどにも応用可能
最適解がDPで計算できない理由と
Frozen Approximation


○にFをアラインする際
のスコアの正確な計算
には、○に何がアライン
されているかを知ること
が必要
Frozen Approximation
もとの構造中で○に割り
当てられている残基の
情報を利用
（図の例ではFとDのコン
タクトポテンシャル）
立体構造
D
T C A V F G L G K V R L S D
V
アミノ酸配列
スコア関数の導出

残基の出現頻度の対数をとる


統計力学のボルツマン分布などが根拠
3D-1Dスコア



環境eのもとでの残基aの出現頻度：fe(a)
環境eの出現確率
 score(e,a)=log (fe(a)/ fe)
ポテンシャル型スコア
（Quasichemical Approximation (Miyazawa 85)）

距離dにおける残基ペアa,bの出現頻度：fd(a,b)
 scored(a,b) =-log fd(a,b)
他のスコア関数導出法

学習データ（既知構造データ）より以下を
満たすスコア（エネルギー）を導出





正しい構造のエネルギー＜誤った構造のエネルギ or
Max( 誤った構造のエネルギー－正しい構造のエネルギー )
ニューラルネット (Goldstein et al. 92)
モンテカルロ法 (Mirny,Shakhnovich 96)
線形計画法 (Maiorov,Crippen 92)
スレッディングに関するまとめ

プロファイル型


DPによりスレッディングが計算可能
ポテンシャル型

DPは（直接は）適用不可




Frozen Approximation, Double DP, …
コンタクトポテンシャル
距離依存ポテンシャル
スコア関数の導出

対数頻度
立体構造予測コンテスト：CASP


CASP (Critical Assessment of Techniques
for Protein Structure Prediction)
ブラインドテストにより予測法を評価
①
②
③
半年以内に立体構造が実験により決定する見込
みの配列（数十種類）をインターネット上で公開
参加者は予測結果を送付
構造決定後、正解とのずれなどを評価、順位づ
け
CASPの経過と結果の公表


CASP1 (1994), CASP2(1996), CASP3(1998),
CASP4(2000)
CAFASP(1998,2000)


完全自動予測法の評価
結果の公表


会議
ホームページ


http://predictioncenter.llnl.gov/
学術専門誌(Proteins)
予測カテゴリー

３D coordinate


Alignments to PDB structure


スレッディング
Residue-residue contacts


具体的な座標値まで計算→MDなど
残基間距離の推定
Secondary structure assignments

二次構造予測
各種サイト





PDB（立体構造データベース）
RASMOL（立体構造表示プログラム）
PHD（二次構造予測システム）
GTOP(PSI-BLASTベースの予測システム）
CAFASP2 servers(各種スレッディングプロ
グラムへのリンク）
まとめ

立体構造予測




実用的な予測法


正確な座標は予測できない
だいたいの形の予測であれば５割程度
二次構造予測であれば、70%-80%程度
PSI-BLASTに基づく方法が有力
進行中のプロジェクト

立体構造の網羅的決定→
残りの構造はアライメントでほぼ確実に推定
演習１

立体構造の検索、表示、分類




PDB(http://www.rcsb.org/pdb/)
RASMOL(http://www.umass.edu/microbio/rasmol/i
ndex2.htm)
SCOP(http://scop.mrc-lmb.cam.ac.uk/scop/)
実際の作業

PDBにてキーワード入力



(例：myoglobin, 1bov)
RASMOLで表示
SCOPにて分類を確認
演習２

立体構造アライメント、表示


DALI/FSSP(http://www.ebi.ac.uk/dali/)
実際の作業



FSSPにてmyoglobinと入力
1a6mをチェック
1a6m,1ash,1cpcAをチェック→アライメント結
果の表示(narrow)→アライメント結果をセーブ
し、RASMOLで表示
演習３

二次構造予測


PHD(http://www.emblheidelberg.de/predictprotein/predictprotein
.html)
実際の作業

DBGETでSwissprotをセレクトし、キーワード入
力（例：prion,lectin）→配列データをコピーし、
PHDに入力
演習４

フォールド予測（PSI-BLASTベース）


GTOP(http://spock.genes.nig.ac.jp/~geno
me/)
実際の作業

演習３のデータをGTOPにコピー→結果を見る
演習５

構造プロファイルなどに基づくスレッディン
グ


FUGUE(http://wwwcryst.bioc.cam.ac.uk/~fugue/prfsearch.htm
l)
3DPSSM(http://www.bmm.icnet.uk/servers
/3dpssm/)
演習６、７

ホモロジーモデリング


FAMS(http://physchem.pharm.kitasatou.ac.jp/FAMS/fams.html)
CASP結果の閲覧

http://predictioncenter.llnl.gov/

Download Report