情報科学科4年 81025G 蓬来祐一郎 研究対象 経験的なタンパク質の構造予測方法である タンパク質スレッディング • 特定のスコア関数で最適スレッディングを求める Branch-and-boundアルゴリズムの実装と改良 • SVMによるスコア関数の学習 研究の動機 • タンパク質の構造決定はアミノ酸配列の決 定より困難 • 遺伝子の機能の予測 • 抗生物質など薬剤の設計への期待 研究の背景 • タンパク質の構造には1000種類程度の 多様性しかないという予測[Chothia92] • タンパク質の構造データの蓄積 (PDB)[Bernstein76] • タンパク質スレッディングのモデル • 最適スレッディングを求める効率的なBranchand-bound Algorithm[Lathrop96,99] • 統計的スコア関数[Miyazawa85] タンパク質スレッディング T ×1 A ×3 S ×2 D ×1 M ×1 T A A A S ×1 S ×1 D ×1 M ×1 T ? A ?コア1A ? A ? S ? S ? コア2 D ? M ? 相互作用 K E T A A A K F E R Q H M D S S T S A A xi T A A A スコア関数 wT 1 T ×1 A ×3 wA 3 S ×2 D ×1 M ×1 wD 1 S ×1 S ×1 D ×1 M ×1 wS 2 wM 1 wTS 1 wAS 1 wAD 1 wAM 1 パラメータの種類 パラメータの数 20 αヘリックス 20 βシート 20×(20+1)/2=210 相互作用 250 w x i i i 1 b 学習データ アミノ酸配列 ARSTNTFNYATYHTLDEIYDFMDLLVAQHPELVSKLQIGRSY コア部分の 実際の アミノ酸配列 LDEIYDFMDLLVAQ サポートベクターマシン 超平面 wx b 1 wx b 0 最大マージン サポートベクター w x b 1 スコア関数の評価 • アミノ酸配列をそれ自身の構造に割り当て 最適スレッディングと実際のスレッディング を比較 • Branch-and-bound Algorithm – ギャップを許したタンパク質スレッディングで最 適のアラインメントを求める問題は、NP困難 – 探索空間をスコアのlower boundを求めながら 分割していき、最適解を探す スレッディングエラー アミノ酸配列 ARSTNTFNYATYHTLDEIYDFMDLLVAQHPELVSKLQIGRSY コア部分の 実際の アミノ酸配列 LDEIYDFMDLLVAQ スコア関数の精度 ランダムに生成したデータから得られた スコア関数を一般のタンパク質構造でテスト 0.5 0.45 αへリックス βストランド 合計 0.4 0.35 頻度 0.3 0.25 0.2 0.15 0.1 0.05 0-10<= -8 -6 -4 -2 0 2 スレッディングエラー 4 6 8 10<= 特化スコア関数(1) α-up-down fold familyのランダムに生成したデータから 得られたスコア関数をそのfamilyのタンパク質構造でテスト 0.6 score function specialized to α-up-down fold family general score function 0.5 頻度 0.4 0.3 0.2 0.1 0-10<= -8 -6 -4 -2 0 2 4 αヘリックスのスレッディングエラー 6 8 10<= 特化スコア関数(2) Lipocalins fold familyのランダムに生成したデータから 得られたスコア関数を そのfamilyのタンパク質構造でテスト 0.4 0.35 score function specialized to Lipocalins fold family general score function 0.3 頻度 0.25 0.2 0.15 0.1 0.05 0-10<= -8 -6 -4 -2 0 2 4 βシートのスレッディングエラー 6 8 10<= 問題点 • 既存のスコア関数とあまり変わらない – 現在のモデルは単純すぎたかもしれない – 学習に使ったタンパク質のデータが少なかっ た • 二次計画問題を解くので、あまりデータを 多くできない 今後の課題 • よりリアルなスレッディングモデル • より多くのタンパク質構造からの学習 • より高速なスレッダー
© Copyright 2024 ExpyDoc