鈴木,0.3Mb

一分子シーケンサPacBioを用いた
低メチル化領域検出
東大院・新領域・情報生命 森下研究室
鈴木 裕太
2014/07/26
Plan of this talk
●
PacBio による DNA 修飾計測の原理
–
分割問題として解く
●
分割アルゴリズムの一般的な定式化
●
重み最大区間検出(MSS)問題とその変種
–
(constrained) k­maximal segment sum
–
DNA トポロジカルドメインの検出
PacBio による DNA 修飾計測の原理
●
●
シーケンサとしての PacBio の特性
–
長いリード (~20 kbp)
–
増幅を経ないサンプルの一分子計測
ヌクレオチド取込みの時系列はDNA修飾を反映 D'
Inter Pulse Duration (IPD)
Copyrighted Material
IPD ratio = D' / D
D
Flusberg et al. (2010)
基本となるアイディア
●
最もシンプルなモデル (失敗)
is_methylated (position) := (average IPD ratio of that position) > threshold
●
–
信頼できる平均値を得るために大量のデータが必要
–
ゲノムサイズの小さなバクテリア・ウイルスに限られる
知識を取り入れたモデル
is_methylated (region) := (average IPD ratio of that region) > threshold
–
領域ごとのメチル化状態を考える
–
(resolution を下げて精度を追求)
–
CpG sites だけを考慮
分割問題として解く
●
全CpG sitesの列を、(高/低)メチル化領域へ分割
1.各CpG sites に対し、(高/低)メチル化領域へ分類した
ときのスコアを付与
スコアは、IPD ratio と coverage で決める
2.制約の下で、スコアの和が最大になる分割を探す
制約を付けなければ、自明な解(各位置を独立にスコアが大きい方へ分類す
る)が得られてしまう。ここでは、以下の制約を考える。
得られた各領域は 少なくとも 50 CpG sites を含む
(最小長さに関する制約)
アルゴリズムの設計
●
●
●
●
入力
–
{ski} : 位置 i をクラス k へ分類した場合のスコア (1≦i≦N, 1≦k≦K)
–
lk : クラス k へ分類される区間の最小サイズ (1≦k≦K)
–
{ci} : サイズの制約を満たし、スコアの和を最大化する位置ごとの分類
出力
動的計画法を用いるため、部分問題の解 Sk(i) を「1~ i までの分類で、全ての制
約を満たし、位置 i がクラス k へ分類されているものの最大スコア」と定義する
Sk(i) は以下の再帰式で順次求まる
Sk(i) = max of { Sk(i-1) + ski ,
max_k' {Sk'(i-lk)} + Σskj } (i-lk+1≦ j≦i)
Csuros (2004) のアルゴリズムと本質的に同一
得られた分類の精度
Treated Hypo­methylation as positive, checked prediction for each CpG site.
(data from medaka fish, used bisulfite data as ground truth.)
x: Sensitivity(Recall) = #TP / (#TP + #FN) y: Precision = #TP / (#TP + #FP)
Regional prediction
Position­wise prediction
Copyrighted Material
他の手法との関連
●
HMM
–
●
●
区間の長さは transition prob. を通して制御
される (幾何分布を暗に仮定)
HSMM (Hidden Semi­Markov Model)
–
区間の長さの分布を指定できる。
–
多くのアルゴリズムが O(n^2) で走る
区間分割に基づく手法はHSMMと重なる部分も多い
が、確率モデルの枠組みから離れた問題にも適用で
きる(スコアが常に対数尤度のような解釈を許す訳で
はない:スケジューリング問題など)
アルゴリズムの設計(再掲)
●
●
●
●
入力
–
{ski} : 位置 i をクラス k へ分類した場合のスコア (1≦i≦N, 1≦k≦K)
–
lk : クラス k へ分類される区間の最小サイズ (1≦k≦K)
–
{ci} : サイズの制約を満たし、スコアの和を最大化する位置ごとの分類
出力
動的計画法を用いるため、部分問題の解 Sk(i) を「1~ i までの分類で、全ての制
約を満たし、位置 i がクラス k へ分類されているものの最大スコア」と定義する
Sk(i) は以下の再帰式で順次求まる
Sk(i) = max of { Sk(i-1) + ski ,
max_k' {Sk'(i-lk)} + Σskj } (i-lk+1≦ j≦i)
Csűrös /tʃyːroːʃ/ (2004) のアルゴリズムと本質的に同一
アルゴリズムの設計(拡張1)
一様でない長さ
●
●
●
●
入力
–
{ski} : 位置 i をクラス k へ分類した場合のスコア (1≦i≦N, 1≦k≦K)
–
{λki } : 位置 i をクラス k へ分類した場合の”長さ” (1≦i≦N, 1≦k≦K)
–
lk : クラス k へ分類される区間の最小サイズ (1≦k≦K)
動的計画法を用いるため、部分問題の解 Sk(i) を「1~ i までの分類で、全ての制
約を満たし、位置 i がクラス k へ分類されているものの最大スコア」と定義する
Lk(i) : i で終わるクラス k の最小の区間の開始位置 ← {λki } から計算
Sk(i) は以下の再帰式で順次求まる
Sk(i) = max of { Sk(i-1) + ski ,
max(k', l){Sk'(l)} + Σskj } (Lk(i-1)< l ≦ Lk(i+1), l+1≦ j≦i)
アルゴリズムの設計(拡張2)
単調な制約
●
入力
–
{ski} : 位置 i をクラス k へ分類した場合のスコア (1≦i≦N, 1≦k≦K)
–
accept(i, j, k): クラス k の区間 [i .. j] が制約を満たすか判定する関数
accept(i, j, k) => forall i' ≦ i, j ≦ j', accept(i', j', k) (単調性)
●
●
●
動的計画法を用いるため、部分問題の解 Sk(i) を「1~ i までの分類で、全ての制
約を満たし、位置 i がクラス k へ分類されているものの最大スコア」と定義する
Lk(i) : i で終わるクラス k の最小の区間の開始位置 ← accept() から計算
Sk(i) は以下の再帰式で順次求まる
Sk(i) = max of { Sk(i-1) + ski ,
max(k', l){Sk'(l)} + Σskj } (Lk(i-1)< l ≦ Lk(i+1), l+1≦ j≦i)
ここまでのまとめ
●
PacBio を用いた(高/低)メチル化領域の検出
を分割問題として定式化して良い精度を得た
–
●
リード長を生かして、トランスポゾン上やアレル
間のメチル化解析へ応用できる?
Csűrös のアルゴリズムを拡張し、一様でない
長さや、単調な制約に対しての線形アルゴリズ
ムを得た
–
–
エピジェネティクスへの応用
アルゴリズムは線形で単純
(← Program derivation 等で導出できる...?)
Plan of this talk
●
PacBio による DNA 修飾計測の原理
–
分割問題として解く
●
分割アルゴリズムの一般的な定式化
●
重み最大区間検出(MSS)問題とその変種
–
(constrained) k­maximal segment sum
–
DNA トポロジカルドメインの検出
色々な Maximal Segment Sum 問題
オリジナルのMaximal Segment Sum
入力: 実数の列
出力: 和が最大となる一つの区間
Maximal Sum Segment (MSS)は、次の
ような仕様で記述される問題へ発展
入力: 実数(の組)の列
出力: 何らかの基準で最良となる 区間(の組)
例えば、
- 平均値を最大化する区間を求める
- 区間の長さに制約(上限 and/or 下限)
- 重ならない k 個の区間を求める
- 重なっても良い k 個の区間を求める
= 1~k 番目に最良の区間を求めるこ
とに相当
DNA トポロジカルドメイン検出
トポロジカル ドメイン(TD) = 物理的に近接している連続した領域
(「ドメイン内の相互作用 >> ドメイン間の相互作用」という関係により定義)
Hi-C 法で得られたデータ(近接ペアの情報)からHMMなどで予測されるが...
- 多数の細胞集団に由来する情報を、単一の分割へ集約できるのか?
- ドメインの [左半分] と [右半分] の長さは独立ではない
- ドメインの長さが幾何分布に従う根拠は無い
そこで「1~ k 番目に良い(TDらしい)領域」を探し出したらどうだろうか?
→ MSS 問題の変種として高速に実行可能 (と思われる) まとめ
●
●
PacBio によるメチル化計測
–
最小長さの制約を付けて分割
–
さらに Csűrös の方法の拡張を考えた
–
どんな自然な応用があるか?
DNAトポロジカルドメインの検出
–
細胞集団のheterogeneityを考慮した定式化