サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア

情報科学科4年
81025G
蓬来祐一郎
研究対象
経験的なタンパク質の構造予測方法である
タンパク質スレッディング
• 特定のスコア関数で最適スレッディングを求める
Branch-and-boundアルゴリズムの実装と改良
• SVMによるスコア関数の学習
研究の動機
• タンパク質の構造決定はアミノ酸配列の決
定より困難
• 遺伝子の機能の予測
• 抗生物質など薬剤の設計への期待
研究の背景
• タンパク質の構造には1000種類程度の
多様性しかないという予測[Chothia92]
• タンパク質の構造データの蓄積
(PDB)[Bernstein76]
• タンパク質スレッディングのモデル
• 最適スレッディングを求める効率的なBranchand-bound Algorithm[Lathrop96,99]
• 統計的スコア関数[Miyazawa85]
タンパク質スレッディング
T ×1
A ×3
S ×2
D ×1
M ×1
T
A
A
A
S ×1
S ×1
D ×1
M ×1
T
?
A
?コア1A
?
A
?
S
?
S
? コア2
D
?
M
?
相互作用
K E T A A A K F E R Q H M D S S T S A A
xi
T
A
A
A
スコア関数
wT  1
T ×1
A ×3
 wA  3
S ×2
D ×1
M ×1
 wD  1
S ×1
S ×1
D ×1
M ×1
 wS  2
 wM  1
 wTS  1
 wAS  1
 wAD  1
 wAM  1
パラメータの種類 パラメータの数
20
αヘリックス
20
βシート
20×(20+1)/2=210
相互作用
250
w x
i i
i 1
b
学習データ
アミノ酸配列 ARSTNTFNYATYHTLDEIYDFMDLLVAQHPELVSKLQIGRSY
コア部分の
実際の
アミノ酸配列
LDEIYDFMDLLVAQ
サポートベクターマシン
超平面
wx  b 1
wx  b  0
最大マージン
サポートベクター
w  x  b  1
スコア関数の評価
• アミノ酸配列をそれ自身の構造に割り当て
最適スレッディングと実際のスレッディング
を比較
• Branch-and-bound Algorithm
– ギャップを許したタンパク質スレッディングで最
適のアラインメントを求める問題は、NP困難
– 探索空間をスコアのlower boundを求めながら
分割していき、最適解を探す
スレッディングエラー
アミノ酸配列 ARSTNTFNYATYHTLDEIYDFMDLLVAQHPELVSKLQIGRSY
コア部分の
実際の
アミノ酸配列
LDEIYDFMDLLVAQ
スコア関数の精度
ランダムに生成したデータから得られた
スコア関数を一般のタンパク質構造でテスト
0.5
0.45
αへリックス
βストランド
合計
0.4
0.35
頻度
0.3
0.25
0.2
0.15
0.1
0.05
0-10<=
-8
-6
-4
-2
0
2
スレッディングエラー
4
6
8
10<=
特化スコア関数(1)
α-up-down fold familyのランダムに生成したデータから
得られたスコア関数をそのfamilyのタンパク質構造でテスト
0.6
score function specialized to
α-up-down fold family
general score function
0.5
頻度
0.4
0.3
0.2
0.1
0-10<=
-8
-6
-4
-2
0
2
4
αヘリックスのスレッディングエラー
6
8
10<=
特化スコア関数(2)
Lipocalins fold familyのランダムに生成したデータから
得られたスコア関数を
そのfamilyのタンパク質構造でテスト
0.4
0.35
score function specialized to
Lipocalins fold family
general score function
0.3
頻度
0.25
0.2
0.15
0.1
0.05
0-10<=
-8
-6
-4
-2
0
2
4
βシートのスレッディングエラー
6
8
10<=
問題点
• 既存のスコア関数とあまり変わらない
– 現在のモデルは単純すぎたかもしれない
– 学習に使ったタンパク質のデータが少なかっ
た
• 二次計画問題を解くので、あまりデータを
多くできない
今後の課題
• よりリアルなスレッディングモデル
• より多くのタンパク質構造からの学習
• より高速なスレッダー