バイオインフォマティクス 第12回 最適化 シミュレーション 山村雅幸(東工大 総合理工) 前回のまとめ 自己組織化 K-means法によるクラスタリング 自己組織化マップ 進化系統樹の構築 分子時計 近隣結合法 この辺まで 最節約法 確率モデル 例:アラインメントパラメータによる異なる系統樹の構築 02/07/18 バイオインフォマティクス第12回 2 補足:Jukes & Cantorモデル(1969) 置換速度行列 A C G T A - 3α α α α C G T α α α - 3α α α α - 3α α α α - 3α 置換行列 A C G T 02/07/18 バイオインフォマティクス第12回 C st rt st st G st st rt st ( 1 1 + 3e − 4αt 4 1 st = 1 − e − 4αt 4 rt = ※無限時間後の平衡状態 A,T,C,Gが1/4ずつ A rt st s t s t ( T st st st rt ) ) 3 計算例 …A… …G… st=1/4 (1-exp(-4αt)) st …C… …G… rt=1/4 (1+3exp(-4αt)) st …C… …G… 葉ノードで同じ座位の塩基が不一致の場合 …A… st …G… …G… st=1/4 (1-exp(-4αt)) …G… rt …G… rt=1/4 (1+3exp(-4αt)) …G… 葉ノードで同じ座位の塩基が一致する場合 02/07/18 バイオインフォマティクス第12回 4 親-葉 一致 st 親-葉 不一致 rt 全一致 st*st 親-片葉 不一致 st*rt 全 不一致 rt*rt 葉-葉 不一致 葉-葉 一致 1vs1 1vs4 1vs16 1 0.009803 0.990197 9.61E-05 0.009707 0.980491 0.019605 0.980779 0.019228 0.018141 0.014372 0.01 2 0.019221 0.980779 0.000369 0.018851 0.961928 0.038442 0.963036 0.037021 0.033065 0.021042 0.01 4 0.036964 0.963036 0.001366 0.035598 0.927438 0.073928 0.931537 0.068867 0.055669 0.023769 0.01 8 0.068463 0.931537 0.004687 0.063776 0.867762 0.136925 0.881823 0.120744 0.082796 0.018306 0.01 16 0.118177 0.881823 0.013966 0.104211 0.777612 0.236354 0.819509 0.193694 0.106605 0.009782 0.01 32 0.180491 0.819509 0.032577 0.147914 0.671596 0.360981 0.769326 0.277712 0.126452 0.005436 0.01 64 0.230674 0.769326 0.05321 0.177463 0.591863 0.461348 0.751494 0.3467 0.14714 0.004773 0.01 128 0.248506 0.751494 0.061755 0.186751 0.564743 0.497012 0.750009 0.372763 0.157265 0.004982 0.01 256 0.249991 0.750009 0.062496 0.187496 0.562513 0.499982 0.75 0.374987 0.158197 0.005011 0.01 512 0.25 0.75 0.0625 0.1875 0.5625 0.5 0.75 0.375 0.158203 0.005011 0.01 1024 0.25 0.75 0.0625 0.1875 0.5625 0.5 0.75 0.375 0.158203 0.005011 進化 速度 時間 0.01 02/07/18 バイオインフォマティクス第12回 5 確率モデルの使い方 確率モデル 系統樹の評価=モデルからデータを説明する尤度 系統樹の作り方は別に考える モデルは精密にできる かなりの計算量がかかる 最適化問題:次回 座位依存で進化速度が違ったら? ギャップがあったら? 使い方 予言力 vs 計算量、人間の手間はトレードオフ 試行錯誤が必要 02/07/18 バイオインフォマティクス第12回 6 4.6 例:分子進化系統樹の構築 ① DNA配列のアラインメント処理 進化距離 ② ①の結果より進化距離行列作成 A B ③ ②を用いての無根系統樹構築 C F E D 系統樹のトポロジー (④ ③に対して根の決定をす る) アラインメントパラメータの依存性を知る 02/07/18 バイオインフォマティクス第12回 7 ①配列のアラインメントについて 類似度の算出 配列1 G A C C C T 配列2 G C C G T 配列1 G A C C C T 配列2 G - C C G T 変異、挿入・欠損の推定 動的計画法 アラインメント候補となるものを推定 一致、不一致、ギャップ(欠損・挿入)を得点パラメータ →最大の得点和を持つものを結果として採用 02/07/18 バイオインフォマティクス第12回 8 計算機実験 用いる生物 真核生物(3種)・真正細菌(2種)・古細菌(2種) 用いる遺伝子配列(GenomeNet - KEGG) ペプチド鎖伸張因子 EF-1α(Tu) アラインメントのパラメータをさまざまに変化 近隣結合法により系統樹を構築 妥当とされる系統樹ができるか 02/07/18 バイオインフォマティクス第12回 9 結果 1 パラメータ (1,-1,-4,-2) (1,-1,-3,-2) (1,-2,-4,-2) 3 パラメータ (1,-3,-4,-2) (2,-2,-4,-2) 系統樹のトポロジーの典型例 2 パラメータ (1,-2,-3,-2) (1,-3,-4,-3) (2,-2,-4,-3) 4 パラメータ (1,-1,-5,-2) (2,-1,-3,-2) (一致、不一致、ギャップ、連続) 02/07/18 バイオインフォマティクス第12回 10 考察 アラインメントパラメータの影響 大 →系統樹の結果はアラインメントにかかっている 置換vsギャップ 質の異なる情報を安易に混ぜてはまずい パラメータ強い依存性 今回 実問題 02/07/18 結果 結果 最適パラメータ 判明 事前の最適設定 不可能 最適パラメータ 推定値 バイオインフォマティクス第12回 11 系統樹構築のまとめ 分子時計とUPGMA法 加法性と近隣結合法 置換数の最小化 最尤法 距離情報のみから、近隣節点の選択・結合 最節約法 近接配列のボトムアップなクラスタリング 尤度の最大化 例:アラインメントパラメータによるさまざまな系統樹 の構築 02/07/18 バイオインフォマティクス第12回 12 本日のメニュー 進化系統樹の構築 最適化 最適化とは 関数最適化、組合せ最適化 局所探索法:焼きなまし 大域探索法:遺伝的アルゴリズム 適用例:タンパク質の立体構造アラインメント シミュレーション 02/07/18 バイオインフォマティクス第12回 13 5.最適化 最適化とは 局所探索法:焼きなまし 大域探索法:遺伝的アルゴリズム 例:立体構造アラインメント 参考書 自分でプログラムを組むときの Numerical Recipe in C (技術評論社) 脇本和昌「乱数の知識」(森北出版) 乱数の教科書はあまり多くない。これは手ごろ。 茨木俊秀:「アルゴリズムとデータ構造」 岩波講座情報科学「最適化」 柳浦、茨木:「組合せ最適化」 乱数・探索法を含む一通りのことを調べるのに便利 最新。局所探索中心。GAのあたりはちょっと不満 ※ GAについては、考え方がそれぞれ異なり、ミス リーディングなものが多いので紹介しない。 02/07/18 バイオインフォマティクス第12回 15 5.1 最適化とは optimization 最も適切な計画・設計・方策の作成・選択 工学の基本的・中心的課題 日常生活のありふれた活動 数理的研究 1940年代から オペレーションズリサーチ 第二次世界大戦中イギリス、軍事作戦(オペレーション) システムズアプローチ 02/07/18 バイオインフォマティクス第12回 16 形式的定義 解空間:S 制約条件:C 目的関数:f X Determine: 目的関数を最小化(最大化)する解候補 形式化 C Given: S 最適化 min f ( x ) s.t x ∈ C ⊂ S 自分の抱えている問題は一度形式化してみると良い 最適化対象による分類 関数最適化、組合せ最適化 02/07/18 バイオインフォマティクス第12回 17 関数最適化 重要な概念 大域解(global minimum) 局所解(local minima) 単峰性 近傍:ユークリッド空間なら十分小さい球 凸集合+凸関数=単峰 局所解は容易、大域解は困難 関数最適化(数理計画) 歴史的には凸計画の解法の提案から 02/07/18 バイオインフォマティクス第12回 18 凸計画の例:線形計画法 例:栄養問題 炭水化物は400g以上、タンパク質は300g以上、 脂肪は600g以下。 2種の食品A, B 料理の価格を最小化 02/07/18 バイオインフォマティクス第12回 19 形式化 min Z = 1000 x + 1500 y s.t 400 x + 200 y ≥ 400 炭水化物 100 x + 300 y ≥ 300 タンパク質 150 x + 200 y ≤ 600 脂肪 x, y ≥ 0 min Z = 2 x + 3 y 約分 s.t 2 x + y ≥ 2 x + 3y ≥ 3 3 x + 4 y ≤ 12 x, y ≥ 0 02/07/18 バイオインフォマティクス第12回 20 LPの探索空間 凸空間に注意 大域解は端点にある シンプレクス法 行列の掃き出しによる線形計画の解法 O(N3)程度の計算量 数千変数でも実用に耐える性能 02/07/18 バイオインフォマティクス第12回 21 関数最適化のクラスと解法 線形 微分可能 微分利用不能 多峰性 02/07/18 線形計画 最急降下法 Newton法 共役勾配法 直接探索法 シンプレクス法(≠線形計画) 近似探索法 焼きなまし法 遺伝的アルゴリズム だんだん効率が悪くなる バイオインフォマティクス第12回 22 組合せ最適化 離散的=手がかりがない 最終的には全部数え上げるしかない。 関数最適化の凸性に対応するものは? 最適原理(Bellman 1950’s) 動的計画法(dynamic programming:DP)により 効率的に解決 例:配列のアラインメント、確率モデルの同定 02/07/18 バイオインフォマティクス第12回 23 組合せ最適化のクラスと解法 最適原理 動的計画法 数え上げ可能 縦型・横型探索 ヒューリスティクス探索 分枝限定法 近似探索法 焼きなまし法 遺伝的アルゴリズム だんだん効率が悪くなる 列挙不可能 (組合せ爆発) 02/07/18 バイオインフォマティクス第12回 24 5.2 局所探索法:SA local search 現在の探索点の近傍を調べる 近傍 適応度景観 傾斜 局所最適解 ローカルミニマ 02/07/18 大域解 バイオインフォマティクス第12回 25 焼き鈍し法(SA) エネルギー GENERATE(x) 探索点xはエネルギーE(x)を持つ 現在の探索点xの近傍x’をランダム生成 ACCEPT(x) 1 −( E ( x )− E ( x ' )) T e if E ( x') ≤ E ( x ) otherwise T:温度パラメータ 02/07/18 バイオインフォマティクス第12回 26 02/07/18 バイオインフォマティクス第12回 27 SAのパラメータ 初期温度 ある温度での探索回数 REDUCE(Tk) 温度スケジュール、徐冷スケジュール 02/07/18 対数型(理論保証) 指数型(頻用) Tk +1 = T1 / log k Tk +1 = γTk バイオインフォマティクス第12回 (0.8 ≤ γ < 1) 28 SAの収束定理 定理 十分ゆっくり温度を下げてゆくならば,SAは最適 解で収束する 定理の意味に注意 収束=無限に時間をかけること 実際にSAを用いる条件は異なる 02/07/18 全部の解候補を無限回訪問した末に最適解に収束 解空間の一部しか訪問しない.だからこそ意味がある バイオインフォマティクス第12回 29 マルチスタート法 局所最適解 山登り,傾斜法..→ 初期解がどこだったか マルチスタート 初期解をランダム発生,局所探索を繰り返す 系統的な発生方法 格子状,前回となるべく離れた位置など ☆ 極めて強力 × 多次元(数十以上)になると通用しなくなる 02/07/18 バイオインフォマティクス第12回 30 局所探索のまとめ 近傍 山登り 焼きなまし法 局所解という難点はあるが、 応用 マルチスタート程度の工夫で相当に強力 02/07/18 バイオインフォマティクス第12回 31 5.3 大域探索法:GA simple (standard) GA 遺伝子(gene) 遺伝子の列。通常固定長。固定数。 例)0001100100100011100 個体(individual) 最小構成要素。通常{0、1} 染色体(chromosome) ミクロ/マクロな生命現象の模倣 染色体の集合。通常は1染色体、1倍体 集団(population) 個体の集合。通常固定サイズ 02/07/18 バイオインフォマティクス第12回 32 遺伝オペレーション(ミクロ) 突然変異(mutation) ある遺伝子座の遺伝子を対立遺伝子と置換 例) 01101 01001 Pm:突然変異率(mutation rate) 1点交叉(one point crossover) 2つの染色体を途中から組み換える 例) 01101 01100 11000 11001 Pc:交叉率(crossover rate) 02/07/18 バイオインフォマティクス第12回 33 遺伝オペレーション(マクロ) 適応度関数(fitness function) 個体の生存力・繁殖力・競争力を表す量 発生・形態形成などの抽象化 ルーレット選択(roulette wheele selection) 用語注意 02/07/18 選択(selection) 淘汰(selection) 増殖(reproduction) 30.9% 14.4% 5.5% バイオインフォマティクス第12回 49.2% 34 単純GAの手順 1 2 3 4 5 6 初期化 適応度計算 選択 交叉 突然変異 停止条件 02/07/18 個体をランダムに生成 各個体の適応度を計算 両親をルーレット選択 確率Pcで交叉して親と置換 確率Pmで子を突然変異 打ち切り世代で停止 さもなければ2へ バイオインフォマティクス第12回 35 動作例(初期世代) 個体 染色体 表現型 適応度 選択率 選択数 1 2 3 4 01101 13 11000 24 01000 8 10011 19 169 14.4% 1回 576 49.2% 2回 64 5.5% 0回 361 30.9% 1回 バイナリ表現 ルーレットの幅 f(x)=x2 (一例として) 02/07/18 バイオインフォマティクス第12回 36 動作例(第2世代) 親 染色体 交叉点 子染色体 表現型 適応度 1 2 2 4 01101 11000 11000 10011 4 4 2 2 01100 11001 11010 10000 12 25 26 16 144 625 676 256 ランダムに決定 突然変異 02/07/18 バイオインフォマティクス第12回 37 遺伝的アルゴリズムの応用 教科書・ウェブサイト公開ライブラリ 不用意に使わないで!! 単純GAベース 最悪の部品の組合せ 単純GA=説明が簡単なだけ 1st choiceを紹介 02/07/18 バイオインフォマティクス第12回 38 関数最適化用交叉 α d2 d2 α d1 d1 親1 親2 α d1 α d2 実数コード化/BLX-α Eshelman 93 02/07/18 実数コード化/正規分布交叉 小野95 バイオインフォマティクス第12回 39 汎用世代交代モデル first choice: MGG [佐藤 97] 02/07/18 バイオインフォマティクス第12回 40 5.4 例:立体構造アラインメント 配列アラインメント 配列が似ている → 構造が似ている → 機能が似ている MASAYUKIYAMAMURA YAMAMASA -mA-sayukiyAMA-murA y-Am-------AMAs---A * *** * masayukiYAMAMurA---------YAMAM--Asa ***** * 配列が似ている → × 構造が似ている → 機能が似ている 立体構造アラインメント 02/07/18 バイオインフォマティクス第12回 41 既存方法の問題点 研究の目的 局所探索性: 大域的探索: RMS-fitting DP-matching Genetic Algorithm タンパク質の形状に 依存する タンパク質の形状に 依存しない 保存部位・活性部位が 保存部位・活性部位を 無視される:RMSd 重視する:評価関数 不明瞭な精度評価: 原子間の距離: RMSd とM(対応原子数) 精度記号 02/07/18 バイオインフォマティクス第12回 42 実数値GAの適用 z s = ∑ exp( ε × dist c2i ) i =1 s + 1 .0 f = g + 1 .0 g =m−z δ = 5 .0 ε<0 評価関数:距離の近い対応の強調 = 保存部位・機能部位の発見 02/07/18 バイオインフォマティクス第12回 43 比較実験:対応原子間の距離 YSAS : RMSd + DP-matching + Monte Carlo Stralign : RMSd + Graph-matching (T.Akutsu) δ=5.0, fragment length:15, max test times:100 GSA : Real-coded GA + UNDX + MGG Yale Structural Alignment Server(M.Gerstein) 集団サイズ:50, 交叉回数:100, 世代数:3000, UNDX(α=0.5, β=0.3), 突然変異率=0.01, δ=5.0, ε= - 0.8 精度記号 dist2 記号 >δ or GAP 1 なし 2 ・ >1.5 and 異文字 3 : >1.5 and 同文字 4 * ≦1.5 5 | ≦1.0 6 # 02/07/18 ≦0.5 記号4,5,6が多ければ良い 保存部位・活性部位が表現可? バイオインフォマティクス第12回 44 2+ Ca -binding Proteins Active Sites : CD-hand , EF-hand Quotations from PDBsum 3icb.pdb 02/07/18 5cpv.pdb バイオインフォマティクス第12回 45 2+ Ca -binding Proteins NMR 02/07/18 バイオインフォマティクス第12回 46 6.シミュレーション ハイブリッドペトリネット 力学シミュレーション 6.1 ハイブリッドペトリネット プレース トランジション トークン ペトリネット もともとは離散事象のモデル 分子=トークン、 反応=トランジション ハイブリッド←反応速度 02/07/18 バイオインフォマティクス第12回 48 6.2 力学モデリング Bioinformatics 生命現象の再現と予測 ゲノム配列情報 遺伝子ネットワーク たんぱく質立体構造 etc. 個体 器官 細胞 ・・・・ 生物の個体をまるごと再現 Î 細胞レベルに注目 02/07/18 バイオインフォマティクス第12回 たんぱく質 分子 49 モデル生物:線虫Caenorhabditis elegans 発生 細胞配置の重要性 卵殻なし 卵殻あり ABの娘細胞 ABp P2 ABa EMS 野生型 02/07/18 EMS P2 Lois G. Edgar et al.; Early transcription in Caenorhabditis elegans embryos, バイオインフォマティクス第12回 50 Development, 120, pp.448(1994) 改変 研究の目的 細胞配置シミュレーション 卵殻と細胞分裂時の細胞伸長 細胞レベルの力学モデリング 細胞配置を再現 力学的相互作用 ABp AB 野生型 P1 P2 ABa 2細胞期 02/07/18 3細胞期 バイオインフォマティクス第12回 EMS 4細胞期 51 構成要素のモデリング 細胞 細胞膜 ・・・質点をメッシュ状に接続 Î ばね定数を距離の関数k(x)とする Fspr = −k ( x) ⋅ x ただし,k ( x) = k spr ⋅ x 2 半径は,質点間に働く 力の安定距離を表す ばね 【細胞膜に働く拘束条件】 質点 ダンパー 細胞の体積を一定にする力 FV = kV ⋅ dV dV:標準体積からの差分 細胞膜を平らにする力 細胞膜をランダムに振動 細胞膜 Fpl = k pl ⋅θ dist θdist :隣り合う三角パッチ間の角度 02/07/18 バイオインフォマティクス第12回 細胞 52 現象のモデリング 細胞分裂過程 細胞形状の伸長 二つの中心体間に一定の大きさの斥力 FCEN − CEN = k CEN 中心体-細胞膜間にばねによる斥力 中心体 収縮環 FCEN − MEM = k ( x ) ⋅ x ただし,k ( x ) = k CEN − MEM ⋅ x 2 細胞 収縮環の収縮 収縮環の質点同士に引力 FCRNG = k ( x) ⋅ x 2 ただし,k ( x ) = k CRNG ⋅ x 中心体が離れら れる最大距離 細胞膜の追加・削除 質点間の距離に応じて質点を追加・削除 02/07/18 バイオインフォマティクス第12回 娘細胞 53 4細胞期の細胞配置の比較 顕微鏡画像 シミュレーション結果 ダイアモンド型 平行四辺形型 T型 正方形型 ABp ABa P2 EMS 卵殻あり(野生型) EMS ABの 娘細胞 P2 卵殻なし 02/07/18 バイオインフォマティクス第12回 54 CEN-MEM CEN-CEN max of CENs 細胞配置4パターンの分布 80 CEN-CEN 20 80 200000 80 200000 80 60 80 ABa-ABp 120 120 120 120 120 120 120 120 ABa-ABp 60 80 100000 CEN-CEN 200000 CEN-CEN 20 80 200000 80 200000 80 60 80 100 100 100 100 120 120 120 120 120 120 02/07/18 300000 100000 200000 300000 100000 200000 300000 100000 200000 300000 バイオインフォマティクス第12回 100 120 200000 300000 20 40 100 200000 80 40 100 100000 60 CEN-CEN 20 40 60 100000 300000 CEN-CEN 20 40 60 100000 300000 CEN-CEN 20 40 60 100000 300000 20 ABa-ABp 120 300000 300000 100000 200000 300000 100000 60 80 100 120 200000 300000 55 1.0 80 ABa-ABp 100 40 60 80 100 200000 120 200000 40 100 20 40 60 100 100000 100 40 100 300000 CEN-CEN 20 80 80 CEN-CEN 20 40 60 100000 300000 60 ABa-ABp 200000 80 200000 CEN-CEN 20 40 60 100000 ABa-ABp 100000 80 300000 ABa-ABp ABa-ABp 80 200000 CEN-CEN 20 40 60 100000 300000 CEN-CEN 20 40 60 200000 ABa-ABp CEN-CEN 20 100000 300000 ABa-ABp CEN-CEN 200000 ABa-ABp 300000 100000 300000 20 40 120 200000 300000 40 120 100000 120 200000 CEN-CEN 20 40 60 100000 300000 CEN-CEN 20 40 60 100000 300000 CEN-CEN 20 40 60 100000 300000 100 0.8 ABa-ABp CEN-CEN 200000 100 120 ABa-ABp 100000 300000 100 20 300000 200000 100 80 200000 100000 100 100 100000 120 100 300000 CEN-CEN 120 100 60 200000 120 60 40 100000 120 80 ABa-ABp ABa-ABp ABa-ABp 80 CEN-CEN 120 40 60 200000 100 60 0.6 100000 100 20 40 80 100 300000 CEN-CEN 20 40 100 ABa-ABp CEN-CEN 200000 60 ABa-ABp 100000 300000 80 20 40 100 ABa-ABp 200000 80 60 ABa-ABp 120 80 60 CEN-CEN 20 40 ABa-ABp 80 60 180 CEN-CEN 20 40 ABa-ABp 100 60 160 CEN-CEN 20 40 ABa-ABp 80 ABa-ABp ABa-ABp 60 CEN-CEN 20 40 40 100000 CEN-CEN 20 140 ABa-ABp CEN-CEN 20 120 ABa-ABp 100 ABa-ABp CEN-CEN 80 max of CENs 0.4 CEN-MEM 60 考察 野生型と同じ細胞配置を再現するには 中心体が離れられる最大距離(max of CENs)が 大きく影響 中心体間の力(CEN-CEN)と中心体-細胞膜間の 力(CEN-MEM)に相対的な関係が必要 =細胞骨格の役割が重要 CEN-CEN CEN-MEM 細胞 中心体 max of CENs 02/07/18 バイオインフォマティクス第12回 56 結論 細胞レベルの力学に基づくモデル 細胞,卵殻,細胞分裂 Î 野生型の細胞配置を再現可能 細胞配置シミュレーションでのパラメータ解析 野生型の細胞配置を再現するには 卵殻と細胞伸長との力学的な相互作用 細胞が十分に伸長 細胞の伸長する力が大きい ことが必要 02/07/18 バイオインフォマティクス第12回 57 発展 野生型と異なる分裂パターンと比較検証 【生物学実験】 レーザー照射 特定細胞にレーザーを当てて細胞分裂を止める 突然変異体 等分裂になる,分裂方向が異なる,など 02/07/18 バイオインフォマティクス第12回 58 レポート課題(確認) 課題 関心のある問題をひとつ取り上げ、講義で紹介したモデ ルのいずれかの上で形式化してみる。今回紹介した最適 化でも良い。余裕があれば、予想される利点・欠点を述 べよ。A4 1枚程度で。 例 未知種のゲノム上で、遺伝子領域を予測する → ウイン ドウで配列をスキャンするニューラルネットによりモデル 化、近縁種の既知の遺伝子領域のデータを教師とする。 シグナル伝達経路の微分方程式モデルの未知パラメー タを推測する。解空間はn次元の数値パラメータ、制約条 件はパラメータの範囲、評価関数は実験によって得たタ イムコースデータとの誤差、これを最小化する。 02/07/18 バイオインフォマティクス第12回 59 総まとめ 機械学習 自己組織化 クラスタリング、SOM ※ コンピュータは道具である プロは道具を使い分ける 進化系統樹構築 道具は研がねば使えない ↓ 近隣結合法、確率モデル 問題クラスとの適性に注意せよ 最適化 ニューラルネットワーク、決定木 焼鈍し法、遺伝的アルゴリズム シミュレーション 02/07/18 バイオインフォマティクス第12回 60
© Copyright 2024 ExpyDoc