生命情報学基礎論 (第9回) 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター 講義予定 12月7日 12月21日 (担当:上田展久) 配列データおよび化学構造データ解析のため のカーネル法 1月11日 タンパク質立体構造予測 相互作用推定 2月1日 スケールフリーネットワーク 内容 構造予測に関連する基本事項 立体構造予測の分類 スレッディング法 3D-1Dプロファイル ポテンシャル型スコア関数を用いたスレッ ディング CASP まとめ 蛋白質立体構造予測 アミノ酸配列から、蛋白 質の立体構造(3次元構 造)をコンピュータにより 推定 実験よりは、はるかに精 度が悪い だいたいの形がわかれ ば良いのであれば、5割 近くの予測率 アミノ酸配列 T C A V F G L G G V R L S D V コンピュータ タンパク質 立体構造 アミノ酸と蛋白質 アミノ酸:20種類 蛋白質:アミノ酸 の鎖(短いものは ペプチドと呼ばれ る) アミノ酸 R H 側鎖 OH C N アミノ基 C カルボシキル基 H H O 蛋白質 R N H C H H C O N H C R ペプチド結合 O C 側鎖の例 Ala アラニン Phe フェニル アラニン CH 3 CH HC Val バリン H3 C CH C CH 3 CH O CH HC Asp アスパラ ギン酸 CH 2 O C - His ヒス チジン Cys シス テイン HN SH + NH CH 2 CH 2 CH 2 Gly グリシン H 蛋白質の種類と高次構造 蛋白質の分類 球状蛋白質 繊維状蛋白質 膜蛋白質 一次構造(アミノ酸配列) 二次構造(α、β、それ以外(ループ、コイル)) 三次構造(三次元構造、立体構造) 四次構造(複数の鎖) 蛋白質立体構造の決定 主にX線結晶解析かNMR解析による アミノ酸配列決定より困難 一般にX線解析の方が精度が高い しかし、結晶中の構造しかわからない 半年から1年くらいかかることも珍しく無い 既知アミノ酸配列 > 10万 既知立体構造(重複を除く) < 1万数千 蛋白質立体構造の特徴 基本的には鎖(ひも)状 二種類の特徴的な構造 が頻繁に現れ、立体構造 の骨格(コア)を作る αへリックス(らせん状の部 分) βシート(ひも状の部分が 並んだ部分) α β ループ 構造とアミノ酸の種類の関係 (球状)蛋白質 αへリックス 内側:疎水性 外側:親水性 βストランド 内側:疎水性アミノ酸 外側:親水性アミノ酸 疎水性と親水性が交互に現れる ループ領域 親水性が高い 立体構造データベース PDB(Protein Data Bank ) SCOP 蛋白質立体構造データベース 現在約20000データ(ただし重複あり) 立体構造分類データベース FSSP/DALI 立体構造アライメントデータベース/アライメ ントサーバー 蛋白質立体構造の分類 構造分類の必要性 立体構造と機能の間には密接な関係 配列が似ていなくても構造類似の蛋白質が多数 存在 SCOPによる階層的クラス分け Class: 二次構造の組成(α、β、α+βなど)に基づく 分類 Fold: 構造の類似性 ← スレッディング法の対象 Superfamily: 進化的類縁性 Family: 明らかな進化的類縁性 立体構造予測法の分類 力学的原理に基づく方法 格子モデル 2次構造予測 スレッディング 物理的原理に基づく方法 エネルギー最小化、もしくは、微分方程式を(数 値的に)解く、などの物理的原理に基づく方法 主として分子動力学法(Molecular Dynamics) 数十残基程度であれば、実際の蛋白質やペプチ ドと似た構造を推定可能(なことがある) 構造の最適化や安定性の解析には実用的 側鎖のパッキングの計算にも有効 超並列計算機の利用、専用計算機の開発 分子動力学法 エネルギーの極小化(Eを極小化) フォールディングのシミュレーション mi d2ri/dt2 = -∇i E を差分化 E = Eb + Eθ + Eφ + Evdw + Eel Eb = ΣKb(r-r0)2 結合長 Eθ = ΣKθ(θ-θ0)2 結合角 Eφ = ΣKφ[1+cos(nφ-δ)] 二面角 Evdw = Σ[Aij/(rij2)-Bij/(rij6)] ファンデルワールス力 Eel = Σqiqj/(εrij) 静電相互作用(クーロン力) 格子モデル 各残基が格子点 にあると仮定 予測よりも、 フォールディング の定性的な理解 のために利用され る 格子モデルに基づく研究 折れ畳み経路の シミュレーションに よる定性的理解 →フォールディン グファンネル エネルギー最小 の構造の計算法 →NP困難 親水性アミノ酸 疎水性アミノ酸 スコア =-9 スコア =-5 配列 格子モデル(String Folding問題)に 関する結果 2次元で1/4近似、3次元で3/8近似 [Hart,Istrail, STOC’95] 3次元でNP-Hard [Berger,Leighton,RECOMB’98] 2次元でNP-Hard [Crescenzi et al.,STOC’98] 2次元で1/3近似 [Newman, SODA’02] 東工大スーパーコンピュータコンテスト2002の問題 高校生が44残基の問題で最適解を計算! 二次構造予測 アミノ酸配列中の各残基 が、α、β、それ以外のど れに属するかを予測 でたらめに推定しても、 33.3%の的中率 最も高精度なソフトを使え ば、70%~80%の的中率 ニューラルネット、HMM、 サポートベクタマシンなど の利用 L A P I K α β それ以外 ニューラルネットによる二次構造予測 出力層 中間層 (隠れ層) 入力層 Lys Val Leu Asn Ala Thr Gly 膜蛋白質の膜貫通領域予測 膜貫通領域 αへリックス 7~17残基程 度の疎水性指 標の平均値を プロット 平均値が高い 部分が膜貫通 領域と推定 D A G I 膜蛋白 細 胞 膜 V L P V R K Q A 1.8 C: 2.5 D: -3.5 E: -3.5 F: 2.8 ... 疎水性 指標 フォールド予測(Fold Recognition) 精密な3次元構造 ではなく、だいたい の形(fold)を予測 立体構造は1000 種類程度の形に分 類される、との予 測(Chotia, 1992) に基づく アミノ酸配列 T C A V F G L G G V R L S D V 1000個のテンプレート構造 蛋白質スレッディング 立体構造(テンプレート)とアミノ酸配列の間 のアライメント 立体構造 T C A V F G L G K V R L S D V アミノ酸配列 スレッディングとアライメント 立体構造 A L G F G S L Y G A L G G V S L G A L G F G A L G T C A V F G L G K V R L S D V 入力アミノ酸配列 S L Y G G V S L G スレディング法の分類 プロファイルによるスレッディング PSI-BLAST 3D-1D法 構造アライメント結果に基づくスレッディング 残基間ポテンシャルによるスレッディング コンタクトポテンシャル 距離依存ポテンシャル その他のポテンシャル 残基4 プロファイル 残基3 立体構造 アライメントに おけるスコア 行列と類似 スレッディング の場合、残基 位置ごとにスコ ア(位置依存ス コア) 残基2 残基1 残基1 残基2 残基3 残基4 A 3.8 -3.5 1.2 2.3 C 1.5 1.3 -0.3 -4.6 D -1.5 -2.9 4.2 3.1 E 0.2 2.1 3.7 -1.3 プロファイルによるアライメント 動的計画法 (DP)により最 適解を計算 スコア行列の かわりにプロ ファイルを使う アミノ酸配列: AED ...... プロファイル: 残基1 残基2 残基3 残基4 A 3.8 -3.5 1.2 2.3 C D 1.5 1.3 -0.3 -4.6 -1.5 -2.9 4.2 3.1 E 0.2 -4.1 3.7 -1.3 アライメント 123 ..... AED ..... 1234 ..... A-ED ..... 1- 23 ..... AEDC ... スコア 3.8-4.1+4.2 =3.9 3.8-2.0+3.7+ 3.1=8.7 3.8-2.0-2.9+ -0.3=-1.4 3D-1Dプロファイル 最初のversionは Eisenbergらが 1991年に提案 構造中の残基(位 置)を18種類の環 境に分類 二次構造(3種類) 内外性+極性(6 種類) 主鎖 α β 側鎖 内外性 E P2 P1 B3 B2 B1 極 性 残基1 3D-1Dプロファイル 残基4 蛋白質立体 構造 残基2 残基3 環境クラス B 1α B 1β B 1 内外性 E P2 P1 B3 極 B2 性 B1 ア ミ ノ 酸 ・ ・ ・ ・ A -0.66 -0.79 -0.91 ・ ・ ・ ・ A -0.79 -0.79 -0.91 ・ ・ ・ ・ R -1.67 -1.16 -2.16 ・ ・ ・ ・ R -1.16 -1.16 -2.16 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ Y 0.18 0.07 0.17 ・ ・ ・ ・ Y 0.07 0.07 0.17 ・ ・ ・ ・ W 1.00 1.17 1.05 ・ ・ ・ ・ W 1.17 1.17 1.05 ・ ・ ・ ・ 残基1 残基2 3D-1Dスコア 残基3 3D-プロファイル その他のプロファイル 配列のマルチプルアライメントに基づくプロ ファイル PSI-BLAST、HMM 立体構造のマルチプルアライメントに基づ くプロファイル作成 角度情報なども考慮したプロファイル プロファイル vs プロファイルによるアライメ ント アライメントプロファイルに基づく スレッディング 構造未知 配列 A H WA K GY LD アライメ ント結果 A D R Y P K W- D A- HF A- YVD A- KF THYL D スレッディ ング A - H WA K G Y L D A D R Y P K - W- D A - H F A- - Y V D A- KF TH- YL D ポテンシャル型スコア関数を 用いたスレッディング 全体のポテン シャルエネル ギーを最小化 (Σfd(X,Y)が最 小となるような スレッディング を計算) 立体構造 f d (T, F) d T C A V F G L G K V R L S D V アミノ酸配列 プロファイル型スコア関数と ポテンシャル型スコア関数 Pos1 Pos2 Pos3 Pos4 プロファイル型スコア 関数 A 3.8 -3.5 1.2 2.3 C 1.5 1.3 -0.3 -4.6 (Eisenberg et al. 1991) D E -1.5 -2.9 4.2 3.1 0.2 2.1 3.7 -1.3 ポテンシャル型スコア 関数 (Miyazawa, Sippl, . . .) score A d L d コンタクトポテンシャルと 距離依存ポテンシャル コンタクトポテンシャ ル (Miyazawa... 1985) score A d 比較的少ないデータからス コア関数を導出可能 L d 距離依存ポテンシャ ル (Sippl, . . .) 精度の高いスコア関 数を得るには多くの データが必要 score A d L d ポテンシャル型関数を用いた場 合の最適解の計算 厳密な最適解の計算は困難(NP完全) 様々なアルゴリズムの提案 分枝限定法 (Lathrop & Smith 96, Ming Li et al. 2002) 多くの場合に現実的な時間で最適解を計算可能 コア領域内でのギャップは許されない Frozen Approximation (Godzik & Skolnick 92) 通常のDPと同様のアルゴリズムが利用可能 Double DP (Jones, Taylor & Thornton 92) DPを二重に用いる 立体構造アライメントなどにも応用可能 最適解がDPで計算できない理由と Frozen Approximation ○にFをアラインする際 のスコアの正確な計算 には、○に何がアライン されているかを知ること が必要 Frozen Approximation もとの構造中で○に割り 当てられている残基の 情報を利用 (図の例ではFとDのコン タクトポテンシャル) 立体構造 D T C A V F G L G K V R L S D V アミノ酸配列 スコア関数の導出 残基の出現頻度の対数をとる 統計力学のボルツマン分布などが根拠 3D-1Dスコア 環境eのもとでの残基aの出現頻度:fe(a) (条件付確率) score(e,a)=log (fe(a)/fe) ポテンシャル型スコア (Quasichemical Approximation (Miyazawa 85)) 距離dにおける残基ペアa,bの出現頻度:fd(a,b) scored(a,b) =-log fd(a,b) 他のスコア関数導出法 学習データ(既知構造データ)より以下を 満たすスコア(エネルギー)を導出 正しい構造のエネルギー < 誤った構造のエネルギ or Max( 誤った構造のエネルギー - 正しい構造のエネルギー ) ニューラルネット (Goldstein et al. 92) モンテカルロ法 (Mirny,Shakhnovich 96) 線形計画法 (Maiorov,Crippen 92) スレッディングに関するまとめ プロファイル型 DPによりスレッディングが計算可能 ポテンシャル型 DPは(直接は)適用不可 Frozen Approximation, Double DP, … コンタクトポテンシャル 距離依存ポテンシャル スコア関数の導出 対数頻度 立体構造予測におけるブレーク スルー スレッディング法の発明(Eisenberg et al., 1991) PSI-BLASTの開発(Altschul et al, 1997) 構造既知の配列と類似性が無い配列の構造予測 プロファイルに基づくマルチプルアライメントの繰り 返し実行によるスレッディング David Baker による ab initio 予測(1997) 統計情報+シミュレーション 立体構造予測コンテスト:CASP CASP (Critical Assessment of Techniques for Protein Structure Prediction) ブラインドテストにより予測法を評価 ① ② ③ 半年以内に立体構造が実験により決定する見込み の配列(数十種類)をインターネット上で公開 参加者は予測結果を送付 構造決定後、正解とのずれなどを評価、順位づけ CASPの経過と結果の公表 CASP1 (1994), CASP2(1996), CASP3(1998), CASP4(2000), CASP5(2002), CASP6(2004) CAFASP(1998,2000,2002,2004) 完全自動予測法の評価 結果の公表 会議 ホームページ http://predictioncenter.llnl.gov/ 学術専門誌(Proteins) まとめ 立体構造予測 実用的な予測法 正確な座標は予測できない だいたいの形の予測であれば5割近く 二次構造予測であれば、70%-80%程度 PSI-BLASTに基づく方法が有力 国際プロジェクトの進展と構造予測 立体構造の網羅的決定(タンパク質3000プロジェクトなど) → 残りの構造はアライメントでほぼ確実に推定? → スレッディングは不要? 参考文献 Newman: Proc. ACM-SIAM Symp. Discrete Algorithms, 876 (2002) Bowie et al.: Science, 253, 164 (1991) Godzik, Skolnick: PNAS, 89, 12098 (1992) Jones et al.: Nature, 358, 86 (1992) Miyazawa, Jernigan: Macromolecules, 18, 538 (1985) Sippl, JMB, 213: 859 (1990) Lathrop, Smith: JMB, 255, 641 (1996) Goldstein et al.: PNAS, 89, 4918 (1992) Mirny, Shakhnovich: JMB, 264, 1164 (1996) Maiorov, Crippen: JMB, 227, 876 (1992) Simons,,,Baker: JMB, 268, 209 (1997) CASP4特集:Proteins, Supplement 3 (2001)
© Copyright 2024 ExpyDoc