奈良女子大集中講義 - Kyoto University Bioinformatics

奈良女子大集中講義
バイオインフォマティクス (8)
タンパク質立体構造予測
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
講義予定
• 9月5日
–
–
–
–
分子生物学概観
分子生物学データベース
配列アラインメント
実習1(データベース検索と配列アラインメント)
• 9月6日
–
–
–
–
モチーフ発見
隠れマルコフモデル
カーネル法
進化系統樹推定
• 9月7日
–
–
–
–
タンパク質立体構造予測
相互作用推定
スケールフリーネットワーク
実習2(構造予測)
内容
•
•
•
•
•
立体構造予測に関連する基本事項
立体構造予測法の分類
スレッディング法
3D-1Dプロファイル
ポテンシャル型スコア関数を用いたスレッディ
ング
• CASP
タンパク質立体構造予測
• アミノ酸配列から、タン
パク質の立体構造(3
次元構造)をコンピュー
タにより推定
• 実験よりは、はるかに
精度が悪い
• だいたいの形がわかれ
ば良いのであれば、4
~5割近くの予測率
アミノ酸配列
T C A V F G L G G V R L S D
V
コンピュータ
タンパク質
立体構造
タンパク質とアミノ酸
• アミノ酸:20種類
• タンパク質:アミノ
酸の鎖(短いもの
はペプチドと呼ば
れる)
アミノ酸
R
H
側鎖
OH
C
N
アミノ基
C
カルボシキル基
H
H
O
蛋白質
R
N
H
C
H
H
C
O
N
H
C
R
ペプチド結合
O
C
側鎖の例
Ala アラニン
Phe フェニル
アラニン
CH 3
CH
HC
Val バリン
H3 C
CH
C
CH 3
CH
O
CH
HC
Asp アスパラ
ギン酸
CH 2
O
C
-
His ヒス
チジン
Cys シス
テイン
HN
SH
+
NH
CH 2
CH 2
CH 2
Gly グリシン
H
タンパク質の種類と高次構造
• タンパク質の分類
– 球状タンパク質
– 繊維状タンパク質
– 膜タンパク質
•
•
•
•
一次構造(アミノ酸配列)
二次構造(α、β、それ以外(ループ、コイル))
三次構造(三次元構造、立体構造)
四次構造(複数の鎖)
タンパク質立体構造の決定
• 主にX線結晶解析かNMR解析による
– 一般にX線解析の方が精度が高い
– しかし、結晶中の構造しかわからない
• アミノ酸配列決定より困難
– 半年から1年くらいかかることも珍しく無い
• 既知アミノ酸配列 >> 10万
• 既知立体構造 < 数万
タンパク質立体構造の特徴
• 基本的には鎖(ひも)状
• 二種類の特徴的な構造
が頻繁に現れ、立体構
造の骨格(コア)を作る
– αへリックス(らせん状の
部分)
– βシート(ひも状の部分が
並んだ部分)
α
β
ループ
構造とアミノ酸の種類の関係
• (球状)タンパク質
– 内側:疎水性アミノ酸 外側:親水性アミノ酸
• αへリックス
– 内側:疎水性 外側:親水性
• βストランド
– 疎水性と親水性が交互に現れる
• ループ領域
– 親水性が高い
立体構造データベース
• PDB(Protein Data Bank )
– タンパク質立体構造データベース
– 2007年5月15日現在43459データ(ただし重複あ
り)
• SCOP
– 立体構造分類データベース
• FSSP/DALI
– 立体構造アライメントデータベース/アライメント
サーバー
タンパク質立体構造の分類
• 構造分類の必要性
– 立体構造と機能の間には密接な関係
– 配列が似ていなくても構造類似のタンパク質が多
数存在
• SCOPによる階層的クラス分け
– Class: 二次構造の組成(α、β、α+βなど)に基づく
分類
– Fold: 構造の類似性 ← スレッディング法の対象
– Superfamily: 進化的類縁性
– Family: 明らかな進化的類縁性高い
立体構造予測法の分類
•
•
•
•
物理的原理に基づく方法
格子モデル
2次構造予測
スレッディング
物理的原理に基づく方法
• エネルギー最小化、もしくは、微分方程式を(数
値的に)解く、などの物理的原理に基づく方法
• 主として分子動力学法(Molecular Dynamics)
• 数十残基程度であれば、実際のタンパク質やペ
プチドと似た構造を推定可能(なことがある)
• 構造の最適化や安定性の解析には実用的
• 超並列計算機の利用、専用計算機の開発
格子モデル(1)
• 各残基が格子点
にあると仮定
• 予測よりも、
フォールディング
の定性的な理解
のために利用さ
れる
格子モデル(2)
• エネルギー最小とな
る折畳みを計算
• HPモデルでは疎水
性アミノ酸どうしが
隣接すると -1で、他
はすべて0 という簡
単なエネルギー関
数を用いる
親水性アミノ酸
疎水性アミノ酸
スコア
=-9
スコア
=-5
配列
二次構造予測
• アミノ酸配列中の各
残基が、α、β、それ
以外のどれに属す
るかを予測
• でたらめに推定して
も、33.3%の的中率
• 最も高精度なソフト
を使えば、80%近い
的中率
• ニューラルネット、
HMM、サポートベク
タマシンなどの利用
L A P I K
α
β
それ以外
ニューラルネットによる二次構造予測
出力層
中間層 (隠れ層)
入力層
Lys
Val
Leu
Asn
Ala
Thr
Gly
膜タンパク質の膜貫通領域予測
• 膜貫通領域: αへリックス
• 7~17残基程度の疎水性指標の平均値をプロット
• 平均値が高い部分が膜貫通領域と推定
D A G I
膜タンパク
細
胞
膜
V L P V R K Q
A 1.8
C: 2.5
D: -3.5
E: -3.5
F: 2.8
...
疎水性
指標
フォールド予測
• 精密な3次元構造で
はなく、だいたいの
形(fold)を予測
• 立体構造は1000種
類程度のパターンに
分類される、との予
測(Chotia, 1992)に
基づく
アミノ酸配列
T C A V F G L G G V R L S D
V
1000個のテンプレート構造
タンパク質スレッディング
• 立体構造(テンプレート)とアミノ酸配列の間の
アライメント
立体構造
T C A V F G L G K V R L S D
V
アミノ酸配列
スレッディングとアライメント
• スレッディング
立体構造
• アラインメント
A L G F G S L Y G
A L G G V S L G
A L G F G
A L G
T C A V F G L G K V R L S D
V
入力アミノ酸配列
S L Y G
G V S L
G
スレッディング法の分類
• プロファイルによるスレッディング
– 3D-1D法
– PSI-BLAST
– 構造アライメントを用いるスレッディング
• 残基間ポテンシャルによるスレッディング
– コンタクトポテンシャル
– 距離依存ポテンシャル
– その他のポテンシャル
プロファイル
• アライメントにお
けるスコア行列
と類似
• スレッディングの
場合、残基位置
ごとにスコア(位
置依存スコア)
残基4
残基3
立体構造
残基2
残基1
残基1 残基2 残基3 残基4
A
3.8
-3.5
1.2
2.3
C
1.5
1.3
-0.3
-4.6
D
-1.5
-2.9
4.2
3.1
E
0.2
2.1
3.7
-1.3
プロファイルによるアライメント
• 動的計画法
(DP)により最
適解を計算
• スコア行列の
かわりにプロ
ファイルを使う
アミノ酸配列: AED ......
プロファイル:
残基1 残基2 残基3 残基4
A
3.8
-3.5
1.2
2.3
C
D
1.5
1.3
-0.3
-4.6
-1.5
-2.9
4.2
3.1
E
0.2
-4.1
3.7
-1.3
アライメント
123 .....
AED .....
1234 .....
A-ED .....
1- 23 .....
AEDC ...
スコア
3.8-4.1+4.2
=3.9
3.8-2.0+3.7+
3.1=8.7
3.8-2.0-2.9+
-0.3=-1.4
3D-1Dプロファイル
• 最初のversionは
Eisenbergらが
1991年に提案
• 構造中の残基(位
置)を18種類の環
境に分類
– 二次構造(3種類)
– 内外性+極性(6
種類)
主鎖
α
β
側鎖
内外性
E
P2
P1
B3
B2
B1
極
性
残基1
3D-1Dプロファイル
タンパク質
立体構造
残基2
残基4
残基3
環境クラス
B 1α B 1β B 1
内外性
E
P2
P1
B3
極
B2 性
B1
ア
ミ
ノ
酸
・ ・ ・ ・
A
-0.66
-0.79
-0.91
・ ・ ・ ・
A
-0.79
-0.79
-0.91 ・ ・ ・ ・
R
-1.67
-1.16
-2.16
・ ・ ・ ・
R
-1.16
-1.16
-2.16 ・ ・ ・ ・
0.07
0.07
0.17
・ ・ ・ ・
1.17
1.17
1.05
・ ・ ・ ・
・
・
・
・
・
・
・
・
Y
・
W
・
・
Y
・
W
0.18
0.07
0.17
・ ・ ・ ・
1.00
1.17
1.05
・ ・ ・ ・
残基1 残基2
3D-1Dスコア
残基3
3D-プロファイル
その他のプロファイル
• 配列のマルチプルアライメントに基づくプロファ
イル
– PSI-BLAST、HMM
• 立体構造のマルチプルアライメントに基づくプロ
ファイル作成
• 角度情報なども考慮したプロファイル
• プロファイル vs プロファイルによるアライメント
ポテンシャル型スコア関数を用いたスレッディング
• 全体のポテンシャル
エネルギーを最小化
(Σfd(X,Y)が最小と
なるようなスレッディ
ングを計算)
• 精度向上が期待で
きる
• でも計算時間が問
題
立体構造
f d (T, F)
d
T C A V F G L G K V R L S D
V
アミノ酸配列
プロファイル型スコア関数と
ポテンシャル型スコア関数
• プロファイル型スコア
関数
– 各アミノ酸は独立
– 位置にのみ依存
• ポテンシャル型スコア
関数
– アミノ酸ペア(種類)と
その距離に依存
Pos1 Pos2 Pos3 Pos4
A
3.8
-3.5
1.2
2.3
C
1.5
1.3
-0.3
-4.6
D
E
-1.5
-2.9
4.2
3.1
0.2
2.1
3.7
-1.3
score
A
d
L
d
立体構造予測コンテスト:CASP
•
•
CASP (Critical Assessment of Techniques
for Protein Structure Prediction)
ブラインドテストにより予測法を評価
① 半年以内に立体構造が実験により決定する見込み
の配列(数十種類)をインターネット上で公開
② 参加者は予測結果を送付
③ 構造決定後、正解とのずれなどを評価、順位づけ
CASPの経過と結果の公表
• CASP1 (1994), CASP2(1996), CASP3(1998),
CASP4(2000), CASP5(2002), CASP6(2004),
CASP7(2006)
• CAFASP(1998,2000,2002,2004,2006)
– 完全自動予測法の評価
• 結果の公表
– 会議
– ホームページ
• http://predictioncenter.org/
– 学術専門誌(Proteins)
まとめ
• 正確な座標の予測は難しい
• だいたいの形の予測であれば4~5割近く
– タンパク質スレッディング法が有力
• プロファイルを用いる方法
• 残基間ポテンシャルを用いる方法
– 近年では、構造フラグメントと ab initio 法の組み合わせも
有力
• 二次構造予測であれば、80%近い予測率
• 参考文献
– 丸山修、阿久津達也:バイオインフォマティクス –配列データ解析と構造予測、
朝倉書店、2007