生命情報学

生命情報学 (5)
タンパク質構造解析
阿久津 達也
京都大学 化学研究所
バイオインフォマティクスセンター
タンパク質立体構造
アミノ酸とタンパク質


アミノ酸:20種類
タンパク質:アミノ
酸の鎖(短いもの
はペプチドと呼ば
れる)
アミノ酸
R
H
側鎖
OH
C
N
アミノ基
C
カルボシキル基
H
H
O
蛋白質
R
N
H
C
H
H
C
O
N
H
C
R
ペプチド結合
O
C
タンパク質の種類と高次構造

タンパク質の分類







球状タンパク質
繊維状タンパク質
膜タンパク質
一次構造(アミノ酸配列)
二次構造(α、β、それ以外(ループ、コイル))
三次構造(三次元構造、立体構造)
四次構造(複数の鎖)
タンパク質立体構造の決定

主にX線結晶解析かNMR解析による



アミノ酸配列決定より困難



一般にX線解析の方が精度が高い
しかし、結晶中の構造しかわからない
半年から1年くらいかかることも珍しく無い
既知アミノ酸配列 >> 10万
既知立体構造 < 数万
タンパク質立体構造の特徴


基本的には鎖(ひも)状
二種類の特徴的な構造
が頻繁に現れ、立体構造
の骨格(コア)を作る


αへリックス(らせん状の部
分)
βシート(ひも状の部分が並
んだ部分)
α
β
ループ
タンパク質立体構造の例(1)
立体構造:Cα原子の座標列で概要がわかる
αへリックスとβシートが構造の骨格を形成
タンパク質立体構造の例(2)
タンパク質立体構造の例(3)
構造とアミノ酸の種類の関係

(球状)タンパク質


αへリックス


内側:疎水性 外側:親水性
βストランド


内側:疎水性アミノ酸 外側:親水性アミノ酸
疎水性と親水性が交互に現れる
ループ領域

親水性が高い
立体構造アラインメント
タンパク質立体構造比較の必要性



立体構造と機能の間には密接な関係
配列が似ていなくても構造類似のタンパク質が多
数存在
構造分類データベース



SCOP(人間が分類)
FSSP(DALIプログラムにより分類)
CATH(SSAPプログラムなどにより分類)
立体構造アラインメント



立体構造の類似性判
定のために有用
どのように回転、平行
移動すれば、最適な残
基間の対応づけ(アラ
インメント)が得られる
かを計算
配列アラインメントの場
合と異なり、決定版とい
うようなアルゴリズムが
無い
構造アラインメント例
ヘモグロビン
ミオグロビン
RMSD(Root Mean Square Deviation)


点(e.g., Cα原子)の対応
関係がわかっている場合
に最適な重ね合わせとな
る回転・平行移動を計算
行列計算により O(n) 時
間で計算可能
p2
1 n
2
min
|
T
(
p
)

q
|

i
i
T
n i 1
q1
p3
p4
d rms ( P, Q) 
p1
T
q2
q3
q4
構造アラインメントプログラム: stralign

広くは利用されていないが、理論(計算幾何学)的
考察に基づいてアルゴリズムが設計されている
問題の定義
入力: 3次元点列: P=( p1,…, pm ), Q=(q1,…, qn),お
よび、 実数δ
(m ≦ n とする)
出力: 以下を満たし、かつ、長さ(アラインされる点
のペアの個数)が最大となる P,Q 間のアラインメ
ント M (および、付随する平行・回転移動 T )
max | T ( pi )  q j |  
( pi ,q j )M
stralign の基本アルゴリズム







M0← {}
for all triplets PP=(pi1,pi2,pi3) from P do
for all triplets QQ=(qj1,qj2,qj3) from Q do
Compute rigid motion TPP,QQ from PP to QQ
Compute alignment M between TPP,QQ(P) and Q
if |M| > |M0| then M0 ← M
Output M0
回転・平行移動 TPP,QQ の計算法

PP=(p1,p2,p3)、
QQ=(q1,q2,q3)
に対するTPP,QQ の計算法



p1 が q1 に重なるように PP
を並行移動
p1p2 と q1q2 が同一直線上
にあるように、 PP を回転
移動
PP と QQ が同一平面上に
あるように、PP を p1p2 を
軸として回転移動
q3
p1
q1
q2
p3
p2
TPP,QQ
T(P) と Q に対するアラインメント M の計算
q1
p1
q2
q3
p3
cδ

S[i  1, j ]

S[i, j ]  max
S[i, j  1]
S[i  1, j  1]  w
ij

1 if | T ( pi )  q j |  c
wij  
0 otherwise
p2
p1
q1
q4
p2
q2
p3
q3
q4
基本アルゴリズムの性能解析(1)

補題: PP=(p1,p2,p3), QQ=(q1,q2,q3)とし、T を
|T(pi) - qi| ≦δ (i=1,2,3) を満たす変換とすると、
任意の p  reg(p1,p2,p3) について以下が成立
|T(p) - q| ≦ δ ならば |T PP,QQ(p) - q| ≦ 8δ
T
p3
p1
p2
p
T(p)
≦δ
q
≦8δ
TPP,QQ
TPP,QQ(p)
reg( p1, p2 , p3 )  { x | | x  p1 |  | p2  p1 |, dist( x, p1 p2 )  dist( p3 , p1 p2 ) }
基本アルゴリズムの性能解析(2)

定理: δに対する最適アラインメントを MOPT とすると、
基本アルゴリズムは O(n8) 時間で、以下を満たすアラ
インメント M (と変換 T)を出力する
max | T ( pi )  q j |  8 and | M |  | M OPT |
( pi ,q j )M
証明概略
MOPT に現れる P,Q の部分集合を、それぞれ、P’,Q’ とする。す
ると、P’ がregの中に全部含まれるような PPP’ が存在。
MOPT において、PP に対応する QQ も存在し、補題の仮定を満
たす。よって、T(P’) は Q’ と 8δ 以内でマッチするため、アル
ゴリズムは |M|≧|MOPT| を満たすアラインメントを出力。
注: (かなり大きくなるが)定数倍の時間をかければ、8δ は δ に近づけることが可能
実用版 stralign




基本アルゴリズムは O(n8) 時間かかるので非実用的
ランダムサンプリング や sparse DP などを用いると O(n5) 時間
くらいに近づけることができるが、それでも非実用的
そこで、理論的な性能保証はあきらめ、実用的なアルゴリズムを
開発
PP,QQ として 長さ 10~20残基程度の連続した fragment を利
用し、TPP,QQ は rmsd の計算法により求める



全部で O(n2) ペアしか調べないので、 O(n2)×DPの計算量= O(n4)時間 。
実際には rmsd が大きいペアには DP を行わないため、より高速。
解の精度を高めるため、「アラインメント ⇒ rmsd fitting」 を数回
繰り返す
多くの場合、数秒程度でアラインメント可能
他の構造アラインメント・アルゴリズム


数多くの構造アライメント手法が提案
例






DALI(距離行列のアラインメント)
SSAP(二重DP) [Taylor & Orengo 1989]
CE (Combinatorial Expansion) [Shindyalov & Bourne 1998]
VAST (Vector Alignment Search Tool) [Gibrat et al. 1998]
DP+Iterative Improvement [Gernstein & Levitt 1998]
StrMul (二重DPを基にした多重構造アラインメント)
[Daiyasu & Toh 2000]
DALI (Alignment of Distance Matrices)

Distance Matrix のアラインメント [Holm & Sander 1993]

Distance Matrix



(同一タンパク P 内の)残基間の距離を行列形式で表現したもの
P と Q の distance matrix (ただし、アラインメントされる残基のみから構成
される行列)ができるだけ類似するようなアラインメントを計算
Simulated Annealing に類似した方法を用いて、アラインメントを計算
G
L
A
D
V
0
3
5
8
6
3
0
1
5
4
5
1
0
2
7
8
5
2
0
3
6
4
7
3
0
G
A
E
R
V
0
5
8
1
6
5
0
2
5
7
8
2
0
2
2
1
5
2
0
3
6
7
2
3
0
アラインメント
G L A D - V
G - A E R V
G
A
D
V
G
0
5
8
6
A
5
0
2
7
D
8
2
0
3
V
6
7
3
0
G
A
E
V
G
0
5
8
6
A
5
0
2
7
E
8
2
0
2
V
6
7
2
0
タンパク質立体構造予測
タンパク質立体構造予測



アミノ酸配列から、タ
ンパク質の立体構造
(3次元構造)をコン
ピュータにより推定
実験よりは、はるか
に精度が悪い
だいたいの形がわか
れば良いのであれば、
4~5割近くの予測
率?
アミノ酸配列
T C A V F G L G G V R L S D
V
コンピュータ
タンパク質
立体構造
立体構造予測法の分類

物理的原理に基づく方法 (ab initio法)


ホモロジーモデリング




各アミノ酸がα、β、それ以外のいずれかにあるかを予測
ランダムに予測すれば33.3…%の予測率であるが、高性能の手法を用い
れば80%近い予測率
格子モデル
スレッディング


配列アラインメントにより主鎖のだいたいの配置を決定した後、主鎖や側鎖
の配置の最適化を分子動力学法などで実行
2次構造予測


エネルギー最小化、分子動力学法
予測したい配列と既知構造の間のアラインメントを計算
フラグメント・アセンブリー法

数残基から十数残基からなる複数のフラグメント候補をデータベース検索
により選択した後、分子動力学法などを用いてそれらをつなげ合わせる
二次構造予測




アミノ酸配列中の各残基
が、α、β、それ以外のど
れに属するかを予測
でたらめに推定しても、
33.3%の的中率
最も高精度なソフトを使え
ば、70%~80%の的中率
ニューラルネット、HMM、
サポートベクタマシンなど
の利用
L A P I K
α
β
それ以外
フォールド予測(Fold Recognition)


精密な3次元構造
ではなく、だいたい
の形(fold)を予測
立体構造は1000
種類程度の形に分
類される、との予
測(Chotia, 1992)
に基づく
アミノ酸配列
T C A V F G L G G V R L S D
V
1000個のテンプレート構造
タンパク質スレッディング
立体構造(テンプレート)とアミノ酸配列の間
のアラインメント
立体構造
T C A V F G L G K V R L S D
V
アミノ酸配列
スレッディングとアラインメント
立体構造
A L G F G S L Y G
A L G G V S L G
A L G F G
A L G
T C A V F G L G K V R L S D
V
入力アミノ酸配列
S L Y G
G V S L
G
スレディング法の分類

プロファイルによるスレッディング





動的計画法で最適解が計算可能
PSI-BLAST
3D-1D法
構造アライメント結果に基づくスレッディング
残基間ポテンシャルによるスレッディング




NP困難。ただし、整数計画法などが効果的に適用可能
コンタクトポテンシャル
距離依存ポテンシャル
その他のポテンシャル
プロファイル
残基4


アラインメントに
おけるスコア行
列と類似
スレッディングの
場合、残基位置
ごとにスコア(位
置依存スコア)
残基3
立体構造
残基2
残基1
残基1 残基2 残基3 残基4
A
3.8
-3.5
1.2
2.3
C
1.5
1.3
-0.3
-4.6
D
-1.5
-2.9
4.2
3.1
E
0.2
2.1
3.7
-1.3
プロファイルによるアラインメント


動的計画法
(DP)により最
適解を計算
スコア行列の
かわりにプロ
ファイルを使う
アミノ酸配列: AED ......
プロファイル:
残基1 残基2 残基3 残基4
A
3.8
-3.5
1.2
2.3
C
D
1.5
1.3
-0.3
-4.6
-1.5
-2.9
4.2
3.1
E
0.2
-4.1
3.7
-1.3
アライメント
123 .....
AED .....
1234 .....
A-ED .....
1- 23 .....
AEDC ...
スコア
3.8-4.1+4.2
=3.9
3.8-2.0+3.7+
3.1=8.7
3.8-2.0-2.9+
-0.3=-1.4
3D-1Dプロファイル


最初のversionは
Eisenbergらが
1991年に提案
構造中の残基(位
置)を18種類の環
境に分類


二次構造(3種類)
内外性+極性(6
種類)
主鎖
α
β
側鎖
内外性
E
P2
P1
B3
B2
B1
極
性
3D-1Dプロファイル
残基1
タンパク質
立体構造
残基2
残基4
残基3
環境クラス
B 1α B 1β B 1
内外性
E
P2
P1
B3
極
B2 性
B1
ア
ミ
ノ
酸
・ ・ ・ ・
A
-0.66
-0.79
-0.91
・ ・ ・ ・
A
-0.79
-0.79
-0.91 ・ ・ ・ ・
R
-1.67
-1.16
-2.16
・ ・ ・ ・
R
-1.16
-1.16
-2.16 ・ ・ ・ ・
0.07
0.07
0.17
・ ・ ・ ・
1.17
1.17
1.05
・ ・ ・ ・
・
・
・
・
・
・
・
・
Y
・
W
・
・
Y
・
W
0.18
0.07
0.17
・ ・ ・ ・
1.00
1.17
1.05
・ ・ ・ ・
残基1 残基2
3D-1Dスコア
残基3
3D-プロファイル
その他のプロファイル

配列のマルチプルアラインメントに基づくプロファ
イル




PSI-BLAST、HMM
立体構造のマルチプルアラインメントに基づくプロ
ファイル作成
角度情報なども考慮したプロファイル
プロファイル vs プロファイルによるアラインメント
ポテンシャル型スコア関数を用いたスレッディング

全体のポテン
シャルエネル
ギーを最小化
(Σfd(X,Y)が最
小となるような
スレッディング
を計算)
立体構造
f d (T, F)
d
T C A V F G L G K V R L S D
V
アミノ酸配列
プロファイル型スコア関数と
ポテンシャル型スコア関数

プロファイル型スコア
関数
(Eisenberg
et al. 1991)

ポテンシャル型スコア
関数
(Miyazawa, Sippl, . . .)
Pos1 Pos2 Pos3 Pos4
A
3.8
-3.5
1.2
2.3
C
1.5
1.3
-0.3
-4.6
D
E
-1.5
-2.9
4.2
3.1
0.2
2.1
3.7
-1.3
score
A
d
L
d
立体構造予測におけるブレークスルー

スレッディング法の発明(Eisenberg et al., 1991)


PSI-BLASTの開発(Altschul et al, 1997)


構造既知の配列と類似性が無い配列の構造予測
プロファイルに基づくマルチプルアラインメントの繰り返
し実行によるスレッディング
David Baker による フラグメントアセンブリ法
(1997)

統計情報+シミュレーション
フラグメント・アセンブリ法
Univ. Washington の Baker らが開発

現時点では最強の方法とされている
方法

数残基から十数残基の断片構造(フラグメント)をプロ
ファイル比較法などを用いて既知構造データベース
から取得
⇒ 各断片配列ごとにいくつかの候補を選ぶ

フラグメントをつなぎ合わせることにより全体構造を
予測。つなぎ合わせる際には分子動力学法などによ
るエネルギー最適化などを行う

立体構造予測コンテスト:CASP
CASP (Critical Assessment of Techniques for
Protein Structure Prediction)
ブラインドテストにより予測法を評価


半年以内に立体構造が実験により決定する見込みの配
列(数十種類)をインターネット上で公開
参加者は予測結果を送付
構造決定後、正解とのずれなどを評価、順位づけ
①
②
③
結果の公表



会議、専門学術誌(Proteins)
ホームページ


http://predictioncenter.gc.ucdavis.edu/
1994年より2年ごとに開催
まとめ

立体構造比較


構造分類データベースが作成されている
比較のためには構造アラインメントが有用


立体構造予測




ただし、決定版はなく様々な方法が提案されている
正確な座標は予測できない
だいたいの形の予測であれば4割~5割近く
二次構造予測であれば、70%-80%程度
スレッディング法

プロファイル型スコア関数


動的計画法で最適解が計算可能
ポテンシャル型スコア関数

NP困難だが整数計画法などにより最適解が計算可能