奈良女子大集中講義 バイオインフォマティクス (8) タンパク質立体構造予測 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター 講義予定 • 9月5日 – – – – 分子生物学概観 分子生物学データベース 配列アラインメント 実習1(データベース検索と配列アラインメント) • 9月6日 – – – – モチーフ発見 隠れマルコフモデル カーネル法 進化系統樹推定 • 9月7日 – – – – タンパク質立体構造予測 相互作用推定 スケールフリーネットワーク 実習2(構造予測) 内容 • • • • • 立体構造予測に関連する基本事項 立体構造予測法の分類 スレッディング法 3D-1Dプロファイル ポテンシャル型スコア関数を用いたスレッディ ング • CASP タンパク質立体構造予測 • アミノ酸配列から、タン パク質の立体構造(3 次元構造)をコンピュー タにより推定 • 実験よりは、はるかに 精度が悪い • だいたいの形がわかれ ば良いのであれば、4 ~5割近くの予測率 アミノ酸配列 T C A V F G L G G V R L S D V コンピュータ タンパク質 立体構造 タンパク質とアミノ酸 • アミノ酸:20種類 • タンパク質:アミノ 酸の鎖(短いもの はペプチドと呼ば れる) アミノ酸 R H 側鎖 OH C N アミノ基 C カルボシキル基 H H O 蛋白質 R N H C H H C O N H C R ペプチド結合 O C 側鎖の例 Ala アラニン Phe フェニル アラニン CH 3 CH HC Val バリン H3 C CH C CH 3 CH O CH HC Asp アスパラ ギン酸 CH 2 O C - His ヒス チジン Cys シス テイン HN SH + NH CH 2 CH 2 CH 2 Gly グリシン H タンパク質の種類と高次構造 • タンパク質の分類 – 球状タンパク質 – 繊維状タンパク質 – 膜タンパク質 • • • • 一次構造(アミノ酸配列) 二次構造(α、β、それ以外(ループ、コイル)) 三次構造(三次元構造、立体構造) 四次構造(複数の鎖) タンパク質立体構造の決定 • 主にX線結晶解析かNMR解析による – 一般にX線解析の方が精度が高い – しかし、結晶中の構造しかわからない • アミノ酸配列決定より困難 – 半年から1年くらいかかることも珍しく無い • 既知アミノ酸配列 >> 10万 • 既知立体構造 < 数万 タンパク質立体構造の特徴 • 基本的には鎖(ひも)状 • 二種類の特徴的な構造 が頻繁に現れ、立体構 造の骨格(コア)を作る – αへリックス(らせん状の 部分) – βシート(ひも状の部分が 並んだ部分) α β ループ 構造とアミノ酸の種類の関係 • (球状)タンパク質 – 内側:疎水性アミノ酸 外側:親水性アミノ酸 • αへリックス – 内側:疎水性 外側:親水性 • βストランド – 疎水性と親水性が交互に現れる • ループ領域 – 親水性が高い 立体構造データベース • PDB(Protein Data Bank ) – タンパク質立体構造データベース – 2007年5月15日現在43459データ(ただし重複あ り) • SCOP – 立体構造分類データベース • FSSP/DALI – 立体構造アライメントデータベース/アライメント サーバー タンパク質立体構造の分類 • 構造分類の必要性 – 立体構造と機能の間には密接な関係 – 配列が似ていなくても構造類似のタンパク質が多 数存在 • SCOPによる階層的クラス分け – Class: 二次構造の組成(α、β、α+βなど)に基づく 分類 – Fold: 構造の類似性 ← スレッディング法の対象 – Superfamily: 進化的類縁性 – Family: 明らかな進化的類縁性高い 立体構造予測法の分類 • • • • 物理的原理に基づく方法 格子モデル 2次構造予測 スレッディング 物理的原理に基づく方法 • エネルギー最小化、もしくは、微分方程式を(数 値的に)解く、などの物理的原理に基づく方法 • 主として分子動力学法(Molecular Dynamics) • 数十残基程度であれば、実際のタンパク質やペ プチドと似た構造を推定可能(なことがある) • 構造の最適化や安定性の解析には実用的 • 超並列計算機の利用、専用計算機の開発 格子モデル(1) • 各残基が格子点 にあると仮定 • 予測よりも、 フォールディング の定性的な理解 のために利用さ れる 格子モデル(2) • エネルギー最小とな る折畳みを計算 • HPモデルでは疎水 性アミノ酸どうしが 隣接すると -1で、他 はすべて0 という簡 単なエネルギー関 数を用いる 親水性アミノ酸 疎水性アミノ酸 スコア =-9 スコア =-5 配列 二次構造予測 • アミノ酸配列中の各 残基が、α、β、それ 以外のどれに属す るかを予測 • でたらめに推定して も、33.3%の的中率 • 最も高精度なソフト を使えば、80%近い 的中率 • ニューラルネット、 HMM、サポートベク タマシンなどの利用 L A P I K α β それ以外 ニューラルネットによる二次構造予測 出力層 中間層 (隠れ層) 入力層 Lys Val Leu Asn Ala Thr Gly 膜タンパク質の膜貫通領域予測 • 膜貫通領域: αへリックス • 7~17残基程度の疎水性指標の平均値をプロット • 平均値が高い部分が膜貫通領域と推定 D A G I 膜タンパク 細 胞 膜 V L P V R K Q A 1.8 C: 2.5 D: -3.5 E: -3.5 F: 2.8 ... 疎水性 指標 フォールド予測 • 精密な3次元構造で はなく、だいたいの 形(fold)を予測 • 立体構造は1000種 類程度のパターンに 分類される、との予 測(Chotia, 1992)に 基づく アミノ酸配列 T C A V F G L G G V R L S D V 1000個のテンプレート構造 タンパク質スレッディング • 立体構造(テンプレート)とアミノ酸配列の間の アライメント 立体構造 T C A V F G L G K V R L S D V アミノ酸配列 スレッディングとアライメント • スレッディング 立体構造 • アラインメント A L G F G S L Y G A L G G V S L G A L G F G A L G T C A V F G L G K V R L S D V 入力アミノ酸配列 S L Y G G V S L G スレッディング法の分類 • プロファイルによるスレッディング – 3D-1D法 – PSI-BLAST – 構造アライメントを用いるスレッディング • 残基間ポテンシャルによるスレッディング – コンタクトポテンシャル – 距離依存ポテンシャル – その他のポテンシャル プロファイル • アライメントにお けるスコア行列 と類似 • スレッディングの 場合、残基位置 ごとにスコア(位 置依存スコア) 残基4 残基3 立体構造 残基2 残基1 残基1 残基2 残基3 残基4 A 3.8 -3.5 1.2 2.3 C 1.5 1.3 -0.3 -4.6 D -1.5 -2.9 4.2 3.1 E 0.2 2.1 3.7 -1.3 プロファイルによるアライメント • 動的計画法 (DP)により最 適解を計算 • スコア行列の かわりにプロ ファイルを使う アミノ酸配列: AED ...... プロファイル: 残基1 残基2 残基3 残基4 A 3.8 -3.5 1.2 2.3 C D 1.5 1.3 -0.3 -4.6 -1.5 -2.9 4.2 3.1 E 0.2 -4.1 3.7 -1.3 アライメント 123 ..... AED ..... 1234 ..... A-ED ..... 1- 23 ..... AEDC ... スコア 3.8-4.1+4.2 =3.9 3.8-2.0+3.7+ 3.1=8.7 3.8-2.0-2.9+ -0.3=-1.4 3D-1Dプロファイル • 最初のversionは Eisenbergらが 1991年に提案 • 構造中の残基(位 置)を18種類の環 境に分類 – 二次構造(3種類) – 内外性+極性(6 種類) 主鎖 α β 側鎖 内外性 E P2 P1 B3 B2 B1 極 性 残基1 3D-1Dプロファイル タンパク質 立体構造 残基2 残基4 残基3 環境クラス B 1α B 1β B 1 内外性 E P2 P1 B3 極 B2 性 B1 ア ミ ノ 酸 ・ ・ ・ ・ A -0.66 -0.79 -0.91 ・ ・ ・ ・ A -0.79 -0.79 -0.91 ・ ・ ・ ・ R -1.67 -1.16 -2.16 ・ ・ ・ ・ R -1.16 -1.16 -2.16 ・ ・ ・ ・ 0.07 0.07 0.17 ・ ・ ・ ・ 1.17 1.17 1.05 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ Y ・ W ・ ・ Y ・ W 0.18 0.07 0.17 ・ ・ ・ ・ 1.00 1.17 1.05 ・ ・ ・ ・ 残基1 残基2 3D-1Dスコア 残基3 3D-プロファイル その他のプロファイル • 配列のマルチプルアライメントに基づくプロファ イル – PSI-BLAST、HMM • 立体構造のマルチプルアライメントに基づくプロ ファイル作成 • 角度情報なども考慮したプロファイル • プロファイル vs プロファイルによるアライメント ポテンシャル型スコア関数を用いたスレッディング • 全体のポテンシャル エネルギーを最小化 (Σfd(X,Y)が最小と なるようなスレッディ ングを計算) • 精度向上が期待で きる • でも計算時間が問 題 立体構造 f d (T, F) d T C A V F G L G K V R L S D V アミノ酸配列 プロファイル型スコア関数と ポテンシャル型スコア関数 • プロファイル型スコア 関数 – 各アミノ酸は独立 – 位置にのみ依存 • ポテンシャル型スコア 関数 – アミノ酸ペア(種類)と その距離に依存 Pos1 Pos2 Pos3 Pos4 A 3.8 -3.5 1.2 2.3 C 1.5 1.3 -0.3 -4.6 D E -1.5 -2.9 4.2 3.1 0.2 2.1 3.7 -1.3 score A d L d 立体構造予測コンテスト:CASP • • CASP (Critical Assessment of Techniques for Protein Structure Prediction) ブラインドテストにより予測法を評価 ① 半年以内に立体構造が実験により決定する見込み の配列(数十種類)をインターネット上で公開 ② 参加者は予測結果を送付 ③ 構造決定後、正解とのずれなどを評価、順位づけ CASPの経過と結果の公表 • CASP1 (1994), CASP2(1996), CASP3(1998), CASP4(2000), CASP5(2002), CASP6(2004), CASP7(2006) • CAFASP(1998,2000,2002,2004,2006) – 完全自動予測法の評価 • 結果の公表 – 会議 – ホームページ • http://predictioncenter.org/ – 学術専門誌(Proteins) まとめ • 正確な座標の予測は難しい • だいたいの形の予測であれば4~5割近く – タンパク質スレッディング法が有力 • プロファイルを用いる方法 • 残基間ポテンシャルを用いる方法 – 近年では、構造フラグメントと ab initio 法の組み合わせも 有力 • 二次構造予測であれば、80%近い予測率 • 参考文献 – 丸山修、阿久津達也:バイオインフォマティクス –配列データ解析と構造予測、 朝倉書店、2007
© Copyright 2024 ExpyDoc