PowerPoint プレゼンテーション

2個体分散遺伝的アルゴリズムによる
タンパク質立体構造のエネルギー最小化
同志社大学
同志社大学
○ 同志社大学大学院
国立分子科学研究所
廣安 知之
三木 光範
岩橋 崇史
岡本 祐幸
研究背景
バイオインフォマティクス
Bio (生物学) + informatics (情報学)
情報技術を用いて,生命現象を解明
バイオインフォマティクス分野の課題
遺伝子の特定と機能の推定
タンパク質立体構造の推定
遺伝子ネットワークの推定
タンパク質立体構造の推定
タンパク質
生物の生命現象の中で重要な役割を担っている
タンパク質の機能
タンパク質の立体構造
タンパク質の立体構造の解明
新薬の開発
病理の発現機構の解明
アルツハイマー
狂牛病
C-peptide
タンパク質の立体構造に関する研究
実験的手法
NMR法,X線結晶構造解析
実験環境が解析結果に影響
純粋なタンパク質が
大量に必要
分子シミュレーション
運動方程式を用いて,
立体構造を予測
アミノ酸の配列情報のみが
必要
タンパク質の立体構造
タンパク質
アミノ酸が連なっている
エネルギーの最も低い状態で存在
High Energy
エネルギー最小構造を
求めることにより,タンパク質の
立体構造を予測可能
Low Energy
最適化問題としてとらえる
タンパク質のモデル化
設計変数:二面角
タンパク質の原子間の回転角
目的関数:エネルギー関数(KONF90) [岡本,1991]
タンパク質の持つエネルギー値を定義する式
二面角
原子間の回転角
Energy : 3243
A
B
C
D
二面角
原子間の回転角
Energy : 3243
A
A
二面角を回転
B
B
C
D
C
D
二面角
原子間の回転角
立体構造が変化
エネルギー値が変化
Energy : 3243
Energy : 231
A
A
二面角を回転
B
B
C
D
C
D
エネルギー最小化
二面角の組み合わせを最適化
Optimum
タンパク質の立体構造予測
e.g. 5つのアミノ酸残基を持つMet-enkephalin
Energy : - 11
タンパク質のエネルギー関数
タンパク質の持つエネルギー値(Ep)を定義する式
ECEPP/2のエネルギーパラメータを採用したKONF90
静電力項
レナードジョーンズ項
水素結合項
ねじれ角項
タンパク質のエネルギー関数
局所的に無数の極小値を持ち,
大域的にもいくつかの極小値
を持つ
高い探索能力を持つ最適化手法が必要
シミュレーテッドアニーリング(SA)が良く用いられている
遺伝的アルゴリズム(GA)では,困難であると報告されている
[Laurence,1996]
遺伝的アルゴリズム(GA)
生物の進化を模倣した最適化アルゴリズム
母集団に対して,遺伝的操作を繰り返し適用
多点探索により,大域的な探索に優れている
個体
母集団
対象タンパク質
Met-enkephalin
5個のアミノ酸から構成される
最小エネルギー構造
E ≦ ー11 [kcal/mol]
19個の二面角
Met-enkephalin
実験パラメータ
個体数
800, 1600, 3200, 6400
設計変数(二面角数)
19
染色体長
171 (=19×9)
交叉率
交叉法
突然変異率
0.6
1点交叉
0.006 (=1/171)
終了条件
1.9×106評価
試行回数
30
実験結果
全ての個体数において,最適解発見率が低い
解探索が早熟収束することを確認した
早熟収束を回避した
多様性を維持する探索を行うGAモデルが有効
分散遺伝的アルゴリズム(DGA)
母集団をサブ母集団(島)に分割
島内でGAの遺伝的操作を行う
移住による島間の個体の交換
サブ母集団 (島)
DGAの特徴
島数の増加による多様性の向上
パラメータ設定の複雑化
サブ母集団サイズ,移住率,移住間隔
2個体分散遺伝的アルゴリズム(Dual DGA)
島内の個体数が 2
島内の個体数に適した遺伝的操作
Dual DGAの遺伝的操作(移住)
移住
2個体のうち,一方のコピーを他の島へ送る
適合度の低い個体と移住個体を交換する
他の島へ
移住
移住個体
高
低
移住個体と
適合度の低い個体を交換
Dual DGAの遺伝的操作(交叉,突然変異)
交叉
親個体を交叉し,子個体を生成
突然変異
子個体の一部を変化
Dual DGAの遺伝的操作(選択)
選択
親個体から適合度の高い方の個体を選ぶ
子個体から適合度の高い方の個体を選ぶ
低
高
低
高
次世代へ生き残る
Dual DGAの特徴
多様性を維持した探索
DGAよりもパラメータ設定が減少
設定すべきパラメータが固定
サブ母集団サイズ
2
移住率
0.5
交叉率
1.0
タンパク質立体構造のエネルギー最小化に
有効な手法だと考えられる
数値実験
DualDGAによるMet-enkephalinの立体構造
のエネルギー最小化
DualDGAとタンパク質立体構造の
エネルギー最小化に用いられている
他の最適化手法の比較
実験パラメータ
GA
DGA
母集団サイズ
サブ母集団サイズ
400, 800, 1600, 3200, 6400
-
4, 8, 16
設計変数(二面角の数)
2
19
染色体長
171 (=19×9)
交叉率
交叉法
Dual DGA
0.6
1.0
1点交叉
突然変異率
0.006 (=1/171)
移住間隔
-
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
移住率
-
0.25
0.5
終了条件
1.9×106 評価
試行回数
30
個体数の変化による最適解発見率
DualDGA
個体数が増すことにより,
最適解発見率が向上
個体数が6400のとき,
最も最適解発見率が高い
DGA
島内の個体数により,
最適解発見率が異なる
GA
全ての個体数において,
最適解発見率が低い
解探索履歴(個体数6400)
DualDGA,DGAは早熟収束することなく,
有効な解探索を行っている
他手法との比較
タンパク質立体構造のエネルギー最小化に
用いられている他手法と比較する
シミュレーテッドアニ-リング(SA)
[岡本,1993]
金属の物理現象を模倣した最適化手法
遺伝的交叉を用いた並列SA(PSA/GAc) [廣安,2002]
SAとGAを組み合わせたハイブリッドアルゴリズム
タンパク質立体構造のエネルギー最小化に
有効な手法であると報告されている
他手法との比較結果
SAよりも最適解発見率が
高い
PSA/GAcと最適解発見率
がほぼ等しい値を示した
まとめ
GAによるタンパク質立体構造のエネルギー最小化
は困難であると報告されていた
早熟収束に注目し,多様性を維持した探索を行う
GAモデルの検討を行った
Dual DGAは小規模のタンパク質(Metenkephalin)の立体構造のエネルギー最小化に対
して
有効な手法であることを示した
個体数は多いほど,解探索能力が増す
SAよりも,解探索能力が高い
PSA/GAcとほぼ同等の解探索能力である
Fin
Appendix
タンパク質の機能
タンパク質は生物の生命現象に重要な役割を担っている
センサー(受容器)
外界からの刺激を感知し,情報を伝える.
(ex.神経伝達物質)
ヘモグロビン 酸素を筋肉などの組織に運ぶ
免疫 身体防御システム(ex.抗体)
酵素 生体内での化学反応を調整
細胞 体を構成する要素 (ex.筋肉,皮膚,DNA)
実験によるタンパク質の立体構造解析
X線結晶構造解析法
空気中の立体構造を知るための方法
結晶化したタンパク質にX線を当てることにより,
解析を行う
生理条件下でのタンパク質の立体構造を解析不可能
核磁気共鳴(NMR)法
水溶液(溶媒)中での立体構造を知るための方法
溶媒中でタンパク質を高速に回転し,解析を行う
小規模なタンパク質のみ解析が可能
タンパク質のモデル化
全原子型モデル
設計変数は二面角
立体構造予測が困難
予測の精度は高い
格子型モデル
設計変数はアミノ酸
立体構造予測が容易
予測の精度は低い
GAベースによる他の研究
格子型モデル
モンテカルロ法を用いたGA (MCGA) [Unger, Moult ,1993]
ローカルサーチを組み込んだGA (Multimeme
Algorithms ) [N.Krasnogor,2002]
全原子型モデル
UNDXを用いた実数値GA [友部,1998]
ビットストリング型と実数値型を
組み合わせた階層型GA [高橋,1999]
早熟収束
早熟収束により,
解探索序盤に局所解に陥る場合がある
低
適合度
高
早熟収束を回避するために,
多様性を維持した探索を行う必要がある
移住間隔の変化 (個体数1600)
移住間隔の変化 (個体数3200)
移住間隔の変化 (個体数6400)
移住間隔の変化 (個体数12800)
最適な移住間隔
DualDGA
母集団サイズ
DGA(8)
移住間隔
母集団サイズ
移住間隔
400
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
400
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
800
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
800
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
1600
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
1600
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
3200
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
3200
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
6400
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
6400
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
DGA(4)
DGA(16)
母集団サイズ
移住間隔
母集団サイズ
移住間隔
400
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
400
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
800
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
800
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
1600
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
1600
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
3200
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
3200
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
6400
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
6400
1, 2, 3, 4, 5, 6, 7, 8, 9, 10
最適な移住間隔
DGA(8)
DualDGA
母集団サイズ
移住間隔
400
400
1,
10
1, 2,
2, 3,
3, 4,
4, 5,
5, 6,
6, 7,
7, 8,
8, 9
9,, 10
800
800
1,
7, 8,
8, 9,
9, 10
10
1, 2,
2, 3,
3, 4,
4, 5,
5, 6
6,, 7,
1600
1600
1,
10
1, 2,
2, 3,
3, 4,
4, 5,
5, 6,
6, 7,
7, 8,
8, 9
9,, 10
3200
3200
1,
1, 2,
2, 3,
3, 4,
4, 5,
5, 6,
6, 7
7,, 8,
8, 9,
9, 10
10
6400
6400
1,
7, 8,
8, 9,
9, 10
10
1, 2,
2, 3,
3, 4,
4, 5,
5, 6
6,, 7,
DGA(16)
DGA(4)
母集団サイズ
母集団サイズ
移住間隔
移住間隔
400
400 1,1,2,2,3,3,4,4,5,5,6,6,7,7,8,8,9,9,10
10
800 1,1,2,2,3,3,4,4,5,5,6,6,7,7,8,8,9,9,10
800
10
1600 1,
1600
1,2,
2,3,
3,4,
4,5,
5,6,
6,7,
7,8,
8,99,
10
, 10
3200 1,1,2,2,3,3,4,4,5,5,6,6,77, ,8,8,9,9,10
3200
10
6400 1,1,2,2,33,
6400
4,5,
5,6,
6,7,7,8,8,9,9,10
10
, 4,
DualDGA,DGAともに
個体数によって,最適な
移住間隔が異なる
DGAでは,島内の個体数
により,最適な移住間隔
が異なるため,最適な
パラメータ設定が困難で
ある
移住率の違いによる最適解発見率
DGA(4)は移住率0.5の方が
解探索能力が高い
DGA(8),DGA(16)は
移住率0.25の方が解探索能力
が高い
DualDGAの解探索履歴(個体数6400)
移住間隔が大きくなるにつれて,多様性を維持した探索を
行うが,解探索終盤において収束性を失う
DGA(16)の解探索履歴(個体数6400)
移住間隔の大きさの違いにより,
解探索履歴に大きな差は現れなかった
DualDGA,DGA(16) (個体数6400,移住間隔10)
DualDGA
DGA(16)
DualDGA
移住後,解探索は停滞する
DGA(16)
移住後においても,解探索は進む
評価計算回数 3.8×106 (= 1.9×106 × 2)
最大評価計算回数を伸ばすことによって,
最適解発見率が向上する
有効な解探索を行うには移住が重要である
対象タンパク質
タンパク質
Met-enkephalin
二面角
19
30
64
(Ala)10
C-peptide
Met-enkephalin
(Ala)10
最適解領域
E ≦ ー11 [kcal/mol]
E ≦ ー9.7 [kcal/mol]
E ≦ ー42 [kcal/mol]
C-peptide
実験結果(DualDGA,DGA)
タンパク質
Met-enkephalin
二面角
(Ala)10
C-peptide
Met-enkephalin
DualDGA
19
93 %
30
64
(Ala)10
DGA
90 %
96 %
0%
C-peptide
87 %
0%
MGGの実験パラメータ
母集団サイズ
400
生成個体数
100
設計変数(二面角の数)
19
染色体長
171 (=19×9)
交叉率
交叉法
突然変異率
1.0
2点交叉
0.006 (=1/171)
終了条件
1.9×106 評価
試行回数
30
DualDGA,MGG,GAの解探索履歴
MGGよりもDualDGAの方が,多様性を維持した探索
を行っている
実験結果(DualDGA,MGG)
タンパク質
Met-enkephalin
二面角
(Ala)10
C-peptide
Met-enkephalin
DualDGA
19
93 %
30
64
(Ala)10
MGG
60 %
96 %
0%
C-peptide
0%
0%
シミュレーテッドアニーリング(SA)
金属の物理現象を模倣した最適化手法
改悪方向への推移を確率的に認める 局所解への脱出
単純なSAでは,大規模なタンパク質立体構造の
エネルギー最小化は困難である
受理率 P = 1
改悪方向
-(Enext-
exp
P
=
受理率
Ecurrent
)
Temperature
Metropolis基準
受理判定
推移
クーリング
低温の場合
高温の場合
energy
生成
改良方向
遺伝的交叉を用いた並列SA(PSA/GAc)
SAとGAのハイブリッドアルゴリズム
SAは局所的な探索に優れている
GAは大域的な探索に優れている
並列SA
+
遺伝的交叉
遺伝的交叉を用いた並列SA
大域的にも局所的にも良好な探索が行える
PSA/GAcのメカニズム
PSAの解の伝達に遺伝的交叉(Crossover)を用いる手法
PSA/GAcにおける交叉処理
遺伝的交叉の処理:設計変数間交叉
e.g. 3設計変数の連続関数最小化問題
SA, PSA/GAcの実験パラメータ
SA
個体数
PSA/GAc
1
20
100000
4992
交叉間隔
---
32
試行回数
10
10
MCsweep数 / 個体
温度スケジュール
近傍幅
2.0 → 0.1
±180 → ±54
DualDGAとDGAの比較実験
Rastrigin関数:
n
2
F x   10n   xi  10cos2xi 
i 1
 5.12  xi  5.12
n  10次元
Griewank関数:
2
n
  xi  
xi
F x   1  
   cos  
 i 
i 1 4000
i 1 
 512  xi  512 n  10次元
n
Rosenbrock関数:
n 1


F x    100 xi 1  xi
i 1
  1  x  
2 2
2
i
 2.048 xi  2.048 n  10次元
DualDGAとDGAの比較実験
DGA
母集団サイズ
Dual DGA
400
サブ母集団サイズ
4, 8, 16
2
設計変数
10
遺伝子長
10 (=10×10)
交叉率
交叉法
突然変異率
移住間隔
移住率
1.0
1点交叉
0.01 (=1/100)
5
0.5
終了条件
4.0×104評価
試行回数
100
実験結果(Rastrigin関数)
DualDGAの方がDGAよりも解収束が遅い
DGAよりも多様性を維持した探索を行っている
実験結果(Griewank関数)
DualDGAの方がDGAよりも有効な解探索を
行っている
多様性を維持し,解探索終盤に解収束している
実験結果(Rosenbrock関数)
DualDGAの方がDGAよりも有効な解探索を
行っている
多様性を維持し,解探索終盤に解収束している
DGAの汎用パラメータ
母集団サイズ
400, 800, 1600, 3200, 6400
サブ母集団サイズ
10
設計変数(二面角の数)
19
染色体長
171 (=19×9)
交叉率
交叉法
突然変異率
移住間隔
移住率
1.0
1点交叉
0.006 (=1/171)
5
0.5
終了条件
1.9×106 評価
試行回数
30
実験結果
DualDGA,PSA/GAcの利点
DualDGA
多様性を維持した探索を行う
粒度が小さいため,並列化効率が高い
PSA/GAc
並列SAによる局所的探索を行う
遺伝的交叉により部分解の交換を行う
選択操作の検討
親個体と子個体から適合度の高い個体を2個体選択
従来の選択手法とほぼ同等の解探索能力
ハミング距離の比較
Huming Distance
600000
DualDGA
500000
DGA(8)
400000
300000
200000
100000
0
0
500000
1000000
# Evaluation
1500000