短い部分文字列の ミスマッチトレランスを 高速計算するアルゴリズム 宇野 毅明 (情報研) 2004年1月30日 COMP研 ミスマッチトレランスとは ・ 文字列 L と ( L より短い) 文字列 S に対して L の中で S に最も似ている( S と同じ長さの)部分列との違い の大きさを「S のミスマッチトレンランス」という ・ 「似ている」の尺度には、ハミング距離を用いる ATGCCG ATCCCG 距離1 ATGCTG AATGCT 距離5 応用:ジェンチップとマイクロアレイ ・ 「DNAの中に、指定した20文字程度の部分列があると反応する 試薬(ジェンチップ)」ができた ・ Q さんがXという遺伝子を持つか: 1.Xを20文字ずつにぶつ切り (オーバーラップするようにする)、 2.それらに反応するような試薬を作る 遺伝子 3.Q さんのDNAを入れて反応を見る ・ 全部に同じように反応するならば、 遺伝子があるだろう QさんのDNA 精度の高い判定をするために ・標的の部分以外に類似する部分列があると、そこが反応してしま うかも ・なるべく固有な(似たものがない)部分列で判定したい ・ ミスマッチトレランスが大きい部分列に切る分ける ミスマッチトレランスの既存研究 入力: 出力: 文字列 L と 文字列 S S のミスマッチトレランス ・O(|L|+|S|) 時間で簡単にできる ・suffix array のように、ある種のデータ構造を作成してから質問(S のミスマッチトレランス)に高速に答えるようなことは難しいようだ (Queryと呼ぶ。ほんとはこれがしたい) ・「ミスマッチトレランスの下界」なら、データ構造で質問に高速回答 できる(O(|S|K)時間、Kはパラーメータ、定数)(山田森下02) ・一般のエディット距離でできるともっとうれしい 今回の問題 入力: 出力: 文字列 L と 長さk L の各部分列のミスマッチトレランス (文字種は定数とする。総ミスマッチ計算と呼ぶ) ・普通に計算すると O(|L|2) 時間かかる ・ゲノムのような長い文字列に対しては、動かない ( 30億の2乗/1000MIPS ≒ 90億秒 ≒270年 ) ・もう少しオーダーの小さい、あるいは実際に速いアルゴリズ ムが欲しい 今回の結果 ・総ミスマッチ計算に対する O(|L|2k) 時間アルゴリズム (線形時間!K=20 なら 30億×100万、もとの300倍) ・実用的に高速にする改良 (K=20 なら 30億×100? 、もとの300万倍) ・こんなこともできる ・類似するペアを列挙(複数の文字列間も可) ⇒ ゲノムの比較に使える! ・O(|L|2k)メモリを使うと Queryが O(2k) 時間で解ける ・一般のエディット距離(係数が大きくなる) 基本のアイデア:類似の条件 子問題1: 各部分列 S に対して、異なりが d 文字以下の部分列があるか ・ Yes ⇔ S と i1,…, ik-d番目の文字が等しい部分列がある 子問題2: i1,…, ik-dを固定。i1,…, ik-d文字目が等しい 他の部分列が存在する部分列を列挙 ・Radix ソートで O(|L|k) 時間 AC T CG T AC G CG A GA G TG A GA C TG C TG G TG A 基本のアイデア2:分類 子問題3: 全てのi1,…, ik-dに対して、i1,…, ik-d文字目が等しい 他の部分列が存在する部分列を列挙 ⇒ 各部分列のミスマッチトレランスが d 以下かどうか分かる AC T CG T AC G CG A GA G TG A GA C TG C TG G TG A 基本のアイデア2:分類 子問題3: 全てのi1,…, ik-dに対して、i1,…, ik-d文字目が等しい 他の部分列が存在する部分列を列挙 ⇒ 各部分列のミスマッチトレランスが d 以下かどうか分かる AC T CG T AC G CG A GA G TG A GA C TG C TG G TG A 基本のアイデア2:分類 子問題3: 全てのi1,…, ik-dに対して、i1,…, ik-d文字目が等しい 他の部分列が存在する部分列を列挙 ⇒ 各部分列のミスマッチトレランスが d 以下かどうか分かる AC T CG T AC G CG A GA G TG A GA C TG C TG G TG A O(|L|k kCd) 時間でできる p=0,…,k 全てについて行うと O(|L|k 2k) 時間 実用上の高速化 1 ・ 全てのi1,…, ik-dに対して、毎回律儀にソートする必要は無い ・ まず1文字目でソートしておけば、i1,…, ik-dが1文字目を含むな ら、このソートの結果を共同利用できる ・ 同様に、再帰的に i文字目のソート結果を再利用できる ・ 何文字かでソートした際に、すでに等しい部分列がないものが でたら、以後それは考慮しなくて良い ⇒ 計算時間の短縮 実用上の高速化 2 ! 早めに共通部分のソートをした方が、同値類が小さくなる ・ 添え字集合 i1,…, ik-dを分類 1.k/2 以下の添え字がk/2+1 以上のものより同じか少ない 2.k/2+1以上の添え字がk/2以下の添え字より少ない 1.は 1,…,k/2 文字目を先にソート 2.は k/2+1,…,k 文字目を先にソート これを再帰的に繰り返す 実用上の高速化 3 ・ 何文字かでソートした際に、すでに等しい部分列がないもの がでたら、以後それは考慮しなくて良い ・ 何文字かでソートした際に、等しい部分列が少なくなったら、 直接比較したほうが速い (等しい部分列のグループ = 同値類) 実用上の高速化 4 ・ i文字目までをソートした ・ そこまでの同値類で、全てのメンバーのミスマッチトレランス がd以下だとすでにわかっている ⇒ その同値類は以後計算する必要はない 実験 ・ 東芝ノートPC ・ Pentium III 750MHz、RAM 256MB(実際は80MB) ・ C で組み、Windows上のLinux、Cygwin で実行 ・ Radix sort を2k 回行ったもの、改良1,2,3,4を順々に加えたも のを比較 ・ d を k の1-2割とし、ミスマッチトレランスがそれ以上のもの は「それ以上」とだけ答えるようにした (実用性&計算時間から) 実験:k=20, d=2 time(sec) 10000 1000 100 10 1 210 0.1 Original method1 method2 method3 method4 700 2100 7000 22950 length 実験:k=20, d=3 time(sec) 10000 1000 100 Original method1 method2 method3 method4 10 1 210 700 length 2100 7000 22950 実験:k=40, d=4 70 21 0 70 0 21 00 70 00 22 95 0 time(sec 1000000 ) 100000 10000 1000 100 10 1 Original method1 method2 method3 method4 length 実験:長さを200万、ミスマッチ率10% で固定、kを変化させる time(sec) 100000 10000 1000 100 Original method1 method2 method3 method4 10 1 20 30 40 50 60 70 80 length Query に答える ・ 計算の再帰構造をメモリに記憶する ・ 与えられた文字列 S に対して、 S に関係する再帰だけをト レースすると、S を含む同値類が列挙できる ⇒ S のミスマッチトレランスがわかる ・ 人間のY染色体で行うと、10GBくらいのメモリを使うことにな るようだ。 類似する部分列のペアを列挙 ・ 各 i1,…, ik-pでの同値類を計算し、大きさ2以上の同値類のメ ンバー同士は、ハミング距離がp 以下。そういうペアを全部出力 ・ ハミング距離がp 未満だと、複数回出力される (ちょうどp だと、ちょうど1回出力される) ⇒ ハミング距離がちょうどp のペアのみ出力 p を 1 から k まで順に大きくする ・ ゲノムAの部分列と B の部分列で似ているものを列挙、 ということもできる 一般のエディット距離に拡張 ・ 各 i1,…, ik-pでと j1,…, jk-pの組に対して、i1番目とj1番目、i2番 目とj2番目,…,ik-p番目とjk-p番目が同じ部分列の組を見つけれ ばよい ATG C C G ATC C C G 距離1 ATG C TG AATGCT 距離2 まとめ ・ 文字列の、長さ k の各部分列のミスマッチトレランスを線形 時間で計算する、分類型アルゴリズムを提案した ・ 実用上速くなる手法を提案した (再帰的に分類、無用な再帰の省略) ・ 計算実験の結果を示した(ノートPCでも、何とかゲノムが扱 える) ・ 類似する部分列のペアの列挙、一般の距離への拡張など の応用を示した
© Copyright 2025 ExpyDoc