神奈川科学技術アカデミー バイオインフォマティクスコース 蛋白質立体構造予測 I,II,演習 阿久津 達也 東京大学 医科学研究所 ヒトゲノム解析センター 講義内容 I ① ② ③ ④ ⑤ 蛋白質立体構造とその特徴 立体構造データベース: PDB 立体構造の分類: SCOP 立体構造表示ソフト: RASMOL 構造予測法の分類 講義内容 II ① ② ③ ④ ⑤ ⑥ 物理的原理に基づく方法 格子モデル 二次構造予測法 スレッディング法 スコア関数 立体構造予測コンテスト CASP 実習内容 ① 立体構造の検索、表示、分類 (PDB,RASMOL,SCOP) ② ③ ④ ⑤ ⑥ 立体構造アライメント(DALI) 二次構造予測(PHD) フォールド予測(スレッディング) (GTOP,FUGUE,3DPSSM) ホモロジーモデリング(FAMS) CASP 遺伝子と蛋白質 遺伝情報の流れ エキソン DNA DNA配列中で直接的に 機能する部分 転写 ・ スプライシング mRNA GGU GGU → Gly GCA → Ala 染色体全体(半数体) 遺伝情報の総体 タンパク質 アミノ酸(20種類)の鎖 GCA 翻訳 ゲノム エキソン 遺伝子 DNA⇒RNA⇒タンパク エキソン タンパク質 蛋白質立体構造予測 アミノ酸配列から、蛋 白質の立体構造(3次 元構造)をコンピュー タにより推定 実験よりは、はるかに 精度が悪い だいたいの形がわか れば良いのであれば、 5割近くの予測率 アミノ酸配列 T C A V F G L G G V R L S D V コンピュータ タンパク質 立体構造 アミノ酸と蛋白質 アミノ酸:20種 類 蛋白質:アミノ酸 の鎖(短いもの はペプチドと呼 ばれる) アミノ酸 R H 側鎖 OH C N アミノ基 C カルボシキル基 H H O 蛋白質 R N H C H H C O N H C R ペプチド結合 O C 側鎖の例 Ala アラニン Phe フェニル アラニン CH 3 CH HC Val バリン H3 C CH C CH 3 CH O CH HC Asp アスパラ ギン酸 CH 2 O C - His ヒス チジン Cys シス テイン HN SH + NH CH 2 CH 2 CH 2 Gly グリシン H アミノ酸コード表 Ala Arg Asn Asp Cys Gln Glu Gly His Ile A R N D C Q E G H I アラニン アルギニン アスパラギン アスパラギン酸 システイン グルタミン グルタミン酸 グリシン ヒスチジン イソロイシン Leu Lys Met Phe Pro Ser Thr Trp Tyr Val L ロイシン K リシン M メチオニン F フェニルアラニン P プロリン S セリン T トレオニン W トリプトファン Y チロシン V バリン アミノ酸の分類 疎水性アミノ酸 荷電アミノ酸(親水性) Asp, Glu, Lys, Arg 極性アミノ酸 Ala, Val, Leu, Ile, Phe, Pro, Met Ser, Thr, Tyr, His, Cys, Asn, Glu, Trp グリシン(疎水性に分類されることもある) Gly 蛋白質の種類と高次構造 蛋白質の分類 球状蛋白質 繊維状蛋白質 膜蛋白質 一次構造(アミノ酸配列) 二次構造(α、β、それ以外(ループ、コイル)) 三次構造(三次元構造、立体構造) 四次構造(複数の鎖) 蛋白質立体構造の決定 主にX線結晶解析かNMR解析による アミノ酸配列決定より困難 一般にX線解析の方が精度が高い しかし、結晶中の構造しかわからない 半年から1年くらいかかることも珍しく無い 既知アミノ酸配列 > 10万 既知立体構造 < 1万 蛋白質立体構造の特徴 基本的には鎖(ひも)状 二種類の特徴的な構 造が頻繁に現れ、立体 構造の骨格(コア)を作 る αへリックス(らせん状の 部分) βシート(ひも状の部分 が並んだ部分) α β ループ 構造とアミノ酸の種類の関係 (球状)蛋白質 αへリックス 内側:疎水性 外側:親水性 βストランド 内側:疎水性アミノ酸 外側:親水性アミノ酸 疎水性と親水性が交互に現れる ループ領域 親水性が高い 立体構造データベース PDB(Protein Data Bank ) SCOP 蛋白質立体構造データベース 現在約16000データ(ただし重複あり) 立体構造分類データベース FSSP/DALI 立体構造アライメントデータベース/アライメ ントサーバー 蛋白質立体構造の分類 構造分類の必要性 立体構造と機能の間には密接な関係 配列が似ていなくても構造類似の蛋白質が多数存在 SCOPによる階層的クラス分け Class: 二次構造の組成(α、β、α+βなど)に基づく分 類 Fold: 構造の類似性 Superfamily: 進化的類縁性 Family: 明らかな進化的類縁性 立体構造アライメント 立体構造の類似性 判定のために有用 どのように回転、平 行移動すれば、最適 な残基間の対応づけ が得られるかを計算 DALI,VASTなどいく つかのアルゴリズム Rasmol 蛋白質立体構造表示ツール Windows版、UNIX版、LINUX版など(フ リー) バックボーン表示、リボン形式など様々な 形式での表示が可能 マウスなどで、回転、拡大なども可能 立体構造予測法の分類 力学的原理に基づく方法 格子モデル 2次構造予測 スレッディング 物理的原理に基づく方法 エネルギー最小化、もしくは、微分方程式を(数 値的に)解く、などの物理的原理に基づく方法 主として分子動力学法(Molecular Dynamics) 数十残基程度であれば、実際の蛋白質やペプチ ドと似た構造を推定可能(なことがある) 構造の最適化や安定性の解析には実用的 側鎖のパッキングの計算にも有効 超並列計算機の利用 IBM BLUE GENEなど 分子動力学法 エネルギーの極小化(Eを極小化) フォールディングのシミュレーション mi d2ri/dt2 = -∇i E を差分化 E = Eb + Eθ + Eφ + Evdw + Eel Eb = ΣKb(r-r0)2 結合長 Eθ = ΣKθ(θ-θ0)2 結合角 Eφ = ΣKφ[1+cos(nφ-δ)] 二面角 Evdw = Σ[Aij/(rij2)-Bij/(rij6)] ファンデルワールス力 Eel = Σqiqj/(εrij) 静電相互作用(クーロン力) 格子モデル 各残基が格子 点にあると仮定 予測よりも、 フォールディン グの定性的な 理解のために 利用される 格子モデルに基づく研究 折れ畳み経路の シミュレーションに よる定性的理解 →フォールディン グファンネル エネルギー最小 の構造の計算法 →NP困難 親水性アミノ酸 疎水性アミノ酸 スコア =-9 スコア =-5 配列 二次構造予測 アミノ酸配列中の各残基 が、α、β、それ以外のど れに属するかを予測 でたらめに推定しても、 33.3%の的中率 最も高精度なソフトを使え ば、70%~80%の的中率 ニューラルネット、HMM、 サポートベクタマシンなど の利用 L A P I K α β それ以外 ニューラルネットによる二次構造予測 出力層 中間層 (隠れ層) 入力層 Lys Val Leu Asn Ala Thr Gly 膜蛋白質の膜貫通領域予測 膜貫通領域 αへリックス 7~17残基程 度の疎水性指 標の平均値を プロット 平均値が高い 部分が膜貫通 領域と推定 D A G I 膜蛋白 細 胞 膜 V L P V R K Q A 1.8 C: 2.5 D: -3.5 E: -3.5 F: 2.8 ... 疎水性 指標 フォールド予測(Fold Recognition) 精密な3次元構造 ではなく、だいたい の形(fold)を予測 立体構造は1000 種類程度の形に分 類される、との予 測(Chotia, 1992) に基づく アミノ酸配列 T C A V F G L G G V R L S D V 1000個のテンプレート構造 蛋白質スレッディング 立体構造(テンプレート)とアミノ酸配列の間 のアライメント 立体構造 T C A V F G L G K V R L S D V アミノ酸配列 スレッディングとアライメント 立体構造 A L G F G S L Y G A L G G V S L G A L G F G A L G T C A V F G L G K V R L S D V 入力アミノ酸配列 S L Y G G V S L G 蛋白質スレッディングによる構造予測 ① ② ③ 構造未知の配列と既知の立体構造(数 百種類程度)の間のスレッディングを、そ れぞれ、計算 スレッディング結果のスコア(適合度)が 最も高い構造を採用(スレッディングによ り対応づけられた座標にアミノ酸を配置) 必要があれば、分子動力学法などを用 いて構造を最適化 スレディング法の分類 プロファイルによるスレッディング PSI-BLAST 3D-1D法 構造アライメント結果に基づくスレッディング 残基間ポテンシャルによるスレッディング コンタクトポテンシャル 距離依存ポテンシャル その他のポテンシャル 残基4 プロファイル 残基3 立体構造 アライメントに おけるスコア 行列と類似 スレッディング の場合、残基 位置ごとにスコ ア(位置依存ス コア) 残基2 残基1 残基1 残基2 残基3 残基4 A 3.8 -3.5 1.2 2.3 C 1.5 1.3 -0.3 -4.6 D -1.5 -2.9 4.2 3.1 E 0.2 2.1 3.7 -1.3 プロファイルによるアライメント 動的計画法 (DP)により 最適解を計 算 スコア行列 のかわりに プロファイ ルを使う アミノ酸配列: AED ...... プロファイル: 残基1 残基2 残基3 残基4 A 3.8 -3.5 1.2 2.3 C D 1.5 1.3 -0.3 -4.6 -1.5 -2.9 4.2 3.1 E 0.2 -4.1 3.7 -1.3 アライメント 123 ..... AED ..... 1234 ..... A-ED ..... 1- 23 ..... AEDC ... スコア 3.8-4.1+4.2 =3.9 3.8-2.0+3.7+ 3.1=8.7 3.8-2.0-2.9+ -0.3=-1.4 3D-1Dプロファイル 最初のversion はEisenbergら が1991年に提 α 案 構造中の残基 (位置)を18種 β 類の環境に分類 二次構造 (3種類) 内外性+極性 (6種類) 主鎖 側鎖 内外性 E P2 P1 B3 B2 B1 極 性 残基1 3D-1Dプロファイル 残基4 蛋白質立体 構造 残基2 残基3 環境クラス B 1α B 1β B 1 内外性 E P2 P1 B3 極 B2 性 B1 ア ミ ノ 酸 ・ ・ ・ ・ A -0.66 -0.79 -0.91 ・ ・ ・ ・ A -0.79 -0.79 -0.91 ・ ・ ・ ・ R -1.67 -1.16 -2.16 ・ ・ ・ ・ R -1.16 -1.16 -2.16 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ Y 0.18 0.07 0.17 ・ ・ ・ ・ Y 0.07 0.07 0.17 ・ ・ ・ ・ W 1.00 1.17 1.05 ・ ・ ・ ・ W 1.17 1.17 1.05 ・ ・ ・ ・ 残基1 残基2 3D-1Dスコア 残基3 3D-プロファイル その他のプロファイル 配列のマルチプルアライメントに基づくプロ ファイル PSI-BLAST、HMM 立体構造のマルチプルアライメントに基づ くプロファイル作成 角度情報なども考慮したプロファイル アライメントプロファイルに基づく スレッディング 構造未知 配列 A H WA K GY LD アライメ ント結果 A D R Y P K W- D A- HF A- YVD A- KF THYL D スレッディ ング A - H WA K G Y L D A D R Y P K - W- D A - H F A- - Y V D A- KF TH- YL D ポテンシャル型スコア関数を 用いたスレッディング 全体のポテン シャルエネル ギーを最小化 (Σfd(X,Y)が最 小となるような スレッディング を計算) 立体構造 f d (T, F) d T C A V F G L G K V R L S D V アミノ酸配列 プロファイル型スコア関数と ポテンシャル型スコア関数 Pos1 Pos2 Pos3 Pos4 プロファイル型スコア 関数 A 3.8 -3.5 1.2 2.3 C 1.5 1.3 -0.3 -4.6 (Eisenberg et al. 1991) D E -1.5 -2.9 4.2 3.1 0.2 2.1 3.7 -1.3 ポテンシャル型スコア 関数 (Miyazawa, Sippl, . . .) score A d L d コンタクトポテンシャルと 距離依存ポテンシャル コンタクトポテンシャ ル (Miyazawa... 1985) score A d 比較的少ないデータからス コア関数を導出可能 L d 距離依存ポテンシャ ル (Sippl, . . .) 精度の高いスコア関 数を得るには多くの データが必要 score A d L d ポテンシャル型関数を用いた場 合の最適解の計算 厳密な最適解の計算は困難(NP完全) 様々なアルゴリズムの提案 分枝限定法 (Lathrop & Smith 94,96) Frozen Approximation (Godzik & Skolnick 92) 多くの場合に現実的な時間で最適解を計算可能 コア領域内でのギャップは許されない 通常のDPと同様のアルゴリズムが利用可能 Double DP (Jones, Taylor & Thornton 92) DPを二重に用いる 立体構造アライメントなどにも応用可能 最適解がDPで計算できない理由と Frozen Approximation ○にFをアラインする際 のスコアの正確な計算 には、○に何がアライン されているかを知ること が必要 Frozen Approximation もとの構造中で○に割り 当てられている残基の 情報を利用 (図の例ではFとDのコン タクトポテンシャル) 立体構造 D T C A V F G L G K V R L S D V アミノ酸配列 スコア関数の導出 残基の出現頻度の対数をとる 統計力学のボルツマン分布などが根拠 3D-1Dスコア 環境eのもとでの残基aの出現頻度:fe(a) 環境eの出現確率 score(e,a)=log (fe(a)/ fe) ポテンシャル型スコア (Quasichemical Approximation (Miyazawa 85)) 距離dにおける残基ペアa,bの出現頻度:fd(a,b) scored(a,b) =-log fd(a,b) 他のスコア関数導出法 学習データ(既知構造データ)より以下を 満たすスコア(エネルギー)を導出 正しい構造のエネルギー < 誤った構造のエネルギ or Max( 誤った構造のエネルギー - 正しい構造のエネルギー ) ニューラルネット (Goldstein et al. 92) モンテカルロ法 (Mirny,Shakhnovich 96) 線形計画法 (Maiorov,Crippen 92) スレッディングに関するまとめ プロファイル型 DPによりスレッディングが計算可能 ポテンシャル型 DPは(直接は)適用不可 Frozen Approximation, Double DP, … コンタクトポテンシャル 距離依存ポテンシャル スコア関数の導出 対数頻度 立体構造予測コンテスト:CASP CASP (Critical Assessment of Techniques for Protein Structure Prediction) ブラインドテストにより予測法を評価 ① ② ③ 半年以内に立体構造が実験により決定する見込 みの配列(数十種類)をインターネット上で公開 参加者は予測結果を送付 構造決定後、正解とのずれなどを評価、順位づ け CASPの経過と結果の公表 CASP1 (1994), CASP2(1996), CASP3(1998), CASP4(2000) CAFASP(1998,2000) 完全自動予測法の評価 結果の公表 会議 ホームページ http://predictioncenter.llnl.gov/ 学術専門誌(Proteins) 予測カテゴリー 3D coordinate Alignments to PDB structure スレッディング Residue-residue contacts 具体的な座標値まで計算→MDなど 残基間距離の推定 Secondary structure assignments 二次構造予測 各種サイト PDB(立体構造データベース) RASMOL(立体構造表示プログラム) PHD(二次構造予測システム) GTOP(PSI-BLASTベースの予測システム) CAFASP2 servers(各種スレッディングプロ グラムへのリンク) まとめ 立体構造予測 実用的な予測法 正確な座標は予測できない だいたいの形の予測であれば5割程度 二次構造予測であれば、70%-80%程度 PSI-BLASTに基づく方法が有力 進行中のプロジェクト 立体構造の網羅的決定→ 残りの構造はアライメントでほぼ確実に推定 演習1 立体構造の検索、表示、分類 PDB(http://www.rcsb.org/pdb/) RASMOL(http://www.umass.edu/microbio/rasmol/i ndex2.htm) SCOP(http://scop.mrc-lmb.cam.ac.uk/scop/) 実際の作業 PDBにてキーワード入力 (例:myoglobin, 1bov) RASMOLで表示 SCOPにて分類を確認 演習2 立体構造アライメント、表示 DALI/FSSP(http://www.ebi.ac.uk/dali/) 実際の作業 FSSPにてmyoglobinと入力 1a6mをチェック 1a6m,1ash,1cpcAをチェック→アライメント結 果の表示(narrow)→アライメント結果をセーブ し、RASMOLで表示 演習3 二次構造予測 PHD(http://www.emblheidelberg.de/predictprotein/predictprotein .html) 実際の作業 DBGETでSwissprotをセレクトし、キーワード入 力(例:prion,lectin)→配列データをコピーし、 PHDに入力 演習4 フォールド予測(PSI-BLASTベース) GTOP(http://spock.genes.nig.ac.jp/~geno me/) 実際の作業 演習3のデータをGTOPにコピー→結果を見る 演習5 構造プロファイルなどに基づくスレッディン グ FUGUE(http://wwwcryst.bioc.cam.ac.uk/~fugue/prfsearch.htm l) 3DPSSM(http://www.bmm.icnet.uk/servers /3dpssm/) 演習6、7 ホモロジーモデリング FAMS(http://physchem.pharm.kitasatou.ac.jp/FAMS/fams.html) CASP結果の閲覧 http://predictioncenter.llnl.gov/
© Copyright 2024 ExpyDoc