配列解析2補足資料

IT
配列解析2補足資料
藤 博幸
BIO
BLAST
(BasicLocalAlignmentSearchTool)
(1)問い合わせ配列のwordへの分割
(2)生成されたwordの有限オートマトンによる表現
100101100
(3)wordのヒットの部分からのギャップなしの拡張
BLASTgapなしのアラインメント 問い合せ配列
の断片
アラインメントスコア y
配列データベース
E-value: 配列データベースの配列を、問い合せ配列と比較
した時にy以上のスコアを有する類似性を示す配列の本数
の期待値
P-value: 配列データベースの配列を、問い合せ配列と比較
した時にy以上のスコアを有する類似性が見いだされる確率
いずれも小さい方が良い。E-valueが目安として使われる
ことが多い。
E-value,P-valueの計算
0
-1
S Y V T G P M N R
T W Q T S K I I Y
BLASTrandomwalk
0から出発し、ungappedalignemntの各サイト
のアミノ酸対に対応するスコアを考え、
それを加算していく。加算した結果が-1以下
になったらrandomwalkは停止するものとする。
この時各サイトのアミノ酸対の出現
頻度は、比較する2本の配列における
アミノ酸の出現頻度の積で表される
ものとする(BLASTの帰無仮説)。
(1)  BLAST random walkの停止するまでに表れる最大値Y(↓)がy以上である
確率はgeometric-like distribution となる。Prob(Y > y) ~ C exp(- λy)
(2) 問い合わせ配列の長さをN1, データベースから取り出した配列の長さをN2、
BLAST random walkが停止するまでの平均のステップ数をAとする。すると、
二つの配列を比較する際、n = (N1N2 )/A 個程度のrandom walkが生じる。
n個のrandom walkのいづれにおいても得られた最高スコアがy以上で
ある確率は、順位統計に従い以下のように計算される。
.
Prob(Y >.y) = 1 - (1 - Cexp(-λ (y-1)))n = 1 - (1 - Cnexp(-λ (y -1))/n) n�
= 1 - exp(-Cnexp(-λ (y -1))) = 1 - exp(-N1N2 Kexp (-λy ))
�ここで K = (C/A) exp(-λ)である。
(3) (2) で2本の配列を比較した時にy以上のスコアが得られる確率が計算された。
� 次に、データベース中でy以上のスコアを有する配列の本数の期待値を
� 求める。データベース中の配列のトータルの残基数をDとすると、長さのN2
� 配列がD / N2本含まれていると見なす事ができる。そのそれぞれが、確率
� 1 - exp(-N1N2 Kexp (-λy ))でy以上のスコアを有するので、二項分布を考え
E-value = ((1 - exp(-N1N2 Kexp (-λy )) D) / N2
となる。
(4) 上記のy以上のスコアを有する配列の本数に関する二項分布は、E-valueを
� 平均と分散としたポアソン分布で近似できるものとする。
� すると、y以上のスコアが得られる確率は、そのようなスコアを有する
��配列の本数が0本である確率を1から引くことで得られるので、
��P-value = 1 - exp(-E-value)
��として計算される。
※�実際はedge effectに関する補正など、種々の補正が行われるので、
��必ずしも上の通りの計算ではない。また、複数のアラインメント
��については、Karlin-Altschulのsum statisticが利用される。�
より詳しくは添付の参考資料参照
オリジナルのBLASTはgapを扱えない
検出配列はgapが入らない代わりに、断片化されて
しまい出力が見づらい
Gapを導入できるように拡張されたgappedBASTが
構築された
1)gapped-BLASTの手続き�
�
�
Step 1: 有限オートマトン生成まではBLASTに同じ�
Step 2: データベース中の各配列に次の操作を行う�
�
2-1) 有限オートマトンによるhitを検出(これもBLASTに同じ) �
�
2-2) 同じ対角線上で十分近接した2個のhitから�
ungapped extensionによりHSPを求め、そこからseedを�
決定して両側にgapped extension を行う。�
2-3) 有意性評価(E-value)をして出力
Two-Hits Strategy と Gapped Extension �
�
(1) Two-hit induced ungapped extensionによるHSPの検出�
(1-1) hit検出�
(1-2) second hit (C末側で、距離がA残基以内の同じ対角線上)検出�
(1-3) second hitからungapped extensionによりHSP検出�
�
(2) seedとなる残基対の同定�
(2-1) HSPが11残基対以上の時: HSP にそって11残基のセグメントの�
スコア を計算し、最大値を示すセグメントの中間をseedとする。�
(2-2) HSPが11残基より短い時:中間の残基対をseedとする。�
�
(3) gapped extension �
seedより両側に動的計画法によりgapped extensionを実行�
ただし、この時の動的計画法は、現在見ている残基対のスコアが、�
それ以前に達成された最高スコアからXg以下にならないように実行される。�
これは、ungapped extensionが、それ以前に達成された最高スコアからX以下�
にならないように実行されることに対応している。�
Two-HitsStrategy 1
BLASTの各hitごとの
ungappedextensionは
時間を要するので、
その部分を短縮
同じ対角線上に
ある二つのhitとは
FASTAでいう所の
同じオフセット値
を有するタプルに
相当する。
Two-HitsStrategy 2
SecondhitからBLAST
同様にungappedextension
を行い、HSPを求める
HSPが11残基以下の長さの時
その中点の残基対をseedとする。
HSPが11残基対より長い時
11残基対のウィンドウでスキャン
し、最大スコアを示す領域を見つ
けその中点の残基対をseedとする。
Two-HitsStrategy 3
Seedとなる残基対
ここを出発点として
両側にgappedextension
してアラインメントを
構築する。
gappedextension
Seedとなる残基対
seedより両側に動的計画法により�
gapped extensionを実行�
ただし、この時の動的計画法は、�
Smith & Waterman法ではない。�
現在見ている残基対のスコアが、�
それ以前に達成された最高スコア�
からXg以下にならないように実行�
される。�
これは、ungapped extensionが、�
それ以前に達成された最高スコア�
からX以下にならないように�
実行されることに対応している。
BLASTの統計評価 PSI-BLASTの統計評価
gapなしのアラインメント (HSP) gapのあるアラインメント
のスコア のスコア
分布関数は理論的に導かれている BLASTの評価法をもとに
シミュレーションなどにより
パラメータをフィットさせて使用
実用上は問題ないが、理論的には
gapのあるアラインメントの統計理論は
不十分なものである。