「Finishing Module活用例とTips」(2015年7月23日)

Finishing Module 活用例と Tips
Sample to Insight
株式会社キアゲン
グローバルインフォマティクスソリューションズ & サポート アプライドアドバンストゲノミクス
宮本 真理, PhD [email protected]
2015/07/23 Filgen WebEx seminar
1
アジェンダ
 CLC Finishing Module 概要
 論文事例
 論文での活用内容
 デモ
 解析環境拡張
 まとめ
Sample to Insight
2015/07/23 Filgen WebEx seminar
2
CLC Finishing Module
Sample to Insight
2015/07/23 Filgen WebEx seminar
3
CLC Genome Finishing Module 1.4.2 (名前が変わりました)
概要
• CLC Genome Finishing モジュールは、CLC Genomics Workbenchの有償アドオンモジュー
ルです。
Add-on module
+
Sample to Insight
2015/07/23 Filgen WebEx seminar
4
CLC Genomics Workbench
NGS Sequencer
•Server Plug-in
Plug-in
Internet
Viewers
• Finishing Module
• Microbial Genomics Module
• Ingenuity Variant Analysis
• Transcript Discovery
• Transfac
• IPA integration
• BIOBASE integration
Sample to Insight
2015/07/23 Filgen WebEx seminar
5
NGSのアプリケーション
ゲノミクス
トランスクリプトミクス
エピゲノミクス
• ゲノムアセンブリ
• 変異解析、構造変異
• RNA-seq (発現差解析)
• Small RNA解析
• 新規トランスクリプト予測
• ChIP-seq
Sample to Insight
2015/07/23 Filgen WebEx seminar
6
Finishing?
?
•
•
•
•
•
コンティグ同士の位置関係がどうなって
いるのか?
近縁種のゲノムと比較して精度を確認
重なりはあるか?重なっているところを
どうやってつなげるか?
GapやNNNの箇所はどこか?
リシークエンスは必要か?
Sample to Insight
2015/07/23 Filgen WebEx seminar
7
Finishing
課題
• Finishingのステップは、すんなりクローズできる場合もあれば、再度リ
シークエンスを経て、クローズ、またはDraftのゲノムにすることとなり
ます。
• Finishingのステップに明確な決まったプロセスはなく、得られるリード
のタイプやゲノムの複雑さなどから、次のステップを決めていきます。
• 近縁種のゲノムが得られる場合、近縁種との比較が効率よくDraftを決定
するステップとなる場合もあります。
Sample to Insight
2015/07/23 Filgen WebEx seminar
8
ワークフロー例
ショートリードのみ
Import
Quality Check
De novo assembly
Align contigs to
close genome
Determine
resequence regions
Primer creation
Sample to Insight
2015/07/23 Filgen WebEx seminar
9
ワークフロー例
Import
Quality Check
De novo assembly
Align contigs to
close genome
Determine
resequence regions
Primer creation
CLC
Genome Finishing
Module
Sample to Insight
2015/07/23 Filgen WebEx seminar
10
ワークフロー例
IlluminaとPacBioのハイブリッドアセンブリの場合
Import
Quality Check
Illumina
De novo assembly
Scaffold using
PacBio
Polish by read
mapping
Sample to Insight
2015/07/23 Filgen WebEx seminar
11
ワークフロー例
Import
Quality Check
Illumina
De novo assembly
Scaffold using
PacBio
Polish by read
mapping
CLC Genome
Finishing Module
Sample to Insight
2015/07/23 Filgen WebEx seminar
12
論文事例
すでに多くの論文でも、その利用が発表されて始めています!
Sample to Insight
2015/07/23 Filgen WebEx seminar
13
どのように使われているのか?
•
PacBioのデータをHGAPで連結、その後Finishing Module を使い、さらに連結することで1本
になった。評価のために、カバレッジの低い箇所をGenomics Workbench を使い見つけ、
PCRでSangerで確認。間違っていた箇所は1塩基のみであった。
Sample to Insight
2015/07/23 Filgen WebEx seminar
14
どのように使われているのか?
•
Illumina HiSeqのデータをSOAPdenovo2でアセンブリ、SOAPdenovoのgap closerを使い、
Gapをある程度Close.その後、残りのGapをFinishing モジュールのreference-guided assembly
を使い、マニュアルでクローズ。
Sample to Insight
2015/07/23 Filgen WebEx seminar
15
どのように使われているのか?
•
Genomics Workbench でアセンブルし、アノテーション付けもFinishing Moduleで
行っている。
Sample to Insight
2015/07/23 Filgen WebEx seminar
16
どのように使われているのか?
連結
•
Join Contig:
• 作成されたContig同士の末端をチェックし、オーバーラッ
プがあれば、結合
Sample to Insight
2015/07/23 Filgen WebEx seminar
17
どのように使われているのか?
連結
PacBioを使い、Scaffolding
PacBio リード
コンティグ
•
PacBioのデータを使い、ショートリードを
Scaffolding。PacBioのデータは、エラーコレク
ションせずに利用可能。
Sample to Insight
2015/07/23 Filgen WebEx seminar
18
どのように使われているのか?
Reference based assembly
参照するゲノム使い、コンティグ同士の位置を確認。NNNを挿入。
参照ゲノム
NNNN
コンティグ
•
参照できるゲノムを用い、コンティグのGapと
なっている箇所を参照配列で補完する。
•
BLASTのパラメーターは調節可能
•
NNNを挿入した箇所は、あとからリシークエン
ス用のプライマー設計対象とすることが可能
Sample to Insight
2015/07/23 Filgen WebEx seminar
19
どのように使われているのか?
連結
コンティグ同士の連結 (Align contig )
•
•
コンティグ同士の連結
末端部分をBLASTし、BLASTのスコアや、
最低何塩基が一致していないと連結しない
か、といった設定を行って、連結。
Sample to Insight
2015/07/23 Filgen WebEx seminar
20
どのように使われているのか?
Align Contig, Gap Closing
•
論文には記載されにくい機能ですが、コンティグを近縁種のゲノムへマップ可能
Sample to Insight
2015/07/23 Filgen WebEx seminar
21
どのように使われているのか?
連結
近縁種にマップさせ、マニュアルで連結
•
重なりがある箇所について、マニュアルで確認
し、右クリックからJoin Two Contigs を選び連結
できる。
Sample to Insight
2015/07/23 Filgen WebEx seminar
22
どのように使われているのか?
リシークエンスが必要な場所の特定
•
カバレッジが低かった場所
コンティグに再度リードをマップさせ、カバレッジが低い領域は、De novo アセンブリ、ま
たはGap close などがうまく行われなかった可能性があると考え、リシークエンスで確認。
•
Scaffold により、NNNが挿入されている。
ペアエンドや、メイトペアの場合、リードが読んでいない領域は、アセンブルを行っても
完全に塩基が同定できていない場合がある。
•
カバレッジが急激に高くなっている
カバレッジの変化は繰り返し領域がある事を示唆している場合があると考え、リシークエン
スを考慮する。
•
リードの末端にアライメントされていない領域がある
大きな挿入や欠失などが考えられる場合があります。
•
ペアエンドのペアが保たれていない
大きな挿入や欠失などが考えられる場合があります。
Sample to Insight
2015/07/23 Filgen WebEx seminar
23
どのように使われているのか?
リシークエンスが必要な領域のチェック
•
Analyze contig ツールにより、カバレッジの低い箇所、カバレッジの急激な変化、リードのアライメン
トが取れていない箇所、ペアエンドのペアが保たれていない箇所、リードがマルチヒットする箇所、な
どにアノテーションを付けることが出来る。
Sample to Insight
2015/07/23 Filgen WebEx seminar
24
どのように使われているのか?
リシークエンスが必要な領域のチェック
•
アノテーションが付いた様子はビューアで確認できる。
Sample to Insight
2015/07/23 Filgen WebEx seminar
25
どのように使われているのか?
プライマーの自動作成
•
リシークエンスの必要な可能性のある箇所をチェック後、実際にリシークエンスを行うアノ
テーションの箇所を決定し、プライマー設計。対象となるアノテーションが付いた全領域に自
動でプライマーが設計できる。
Sample to Insight
2015/07/23 Filgen WebEx seminar
26
どのように使われているのか?
アノテーション付け
参照ゲノムの遺伝子アノテーション
配列の類似度からContigへもアノテーション付け
Sample to Insight
2015/07/23 Filgen WebEx seminar
27
詳細機能
アノテーション付け
•
アノテーション付け後、GenBankフォーマットやGFFフォー
マットでエクスポートが可能。登録までのステップを軽減
Sample to Insight
2015/07/23 Filgen WebEx seminar
28
自動化
効率化のために
•
Finishing は非常に複数のステップを減ることがほとんど。
•
複数のサンプルを経験すると、ある程度のステップは同じ作業の繰り返しとなる。
•
各ラボの研究目的、入手可能なデータに合わせて、ステップの自動化が可能。
Sample to Insight
2015/07/23 Filgen WebEx seminar
29
ワークフローツール
Workflows tool
•
ワークフローツールを使い、フローを自動化。
•
ルーチンで実行できるようなプロセスが決まれば、自動化する
ことで、より迅速に、解析もれなく実行できる。
Sample to Insight
2015/07/23 Filgen WebEx seminar
30
注意点:ゲノムサイズ
対応ゲノムサイズ:
•
CLC Genomics Workbench
• ヒトや植物など、大きなゲノムサイズもアセンブリ可能(※利用するPCにもそれなり
の仕様が必要となります)。
•
CLC Genome Finishing Module
• 比較的小さな、微生物ゲノム、真核生物の寄生生物、カビなど
Sample to Insight
2015/07/23 Filgen WebEx seminar
31
DEMO
Sample to Insight
2015/07/23 Filgen WebEx seminar
32
解析環境拡張
Finishing Module はサーバー対応となりました!
ノード
・・・・・・・
・・・・・・
•
Genomics Server と組み合わせることで、複数ノードを平行して利用できるようになる
ため、大きなシステム上での実施が可能。
•
•
処理を複数のコンピュータで並列して実行させる。
Finishing Module 最新バージョン1.4.2バージョンからサーバーでの利用が可能。
Sample to Insight
2015/07/23 Filgen WebEx seminar
33
まとめ
•
CLC Finishing モジュールは、Finishingに必要な様々なツールを搭載している。
•
利用はすべてウィザード形式で実行でき、ビジュアライゼーションで簡単に確認することが
できる。
•
Finishing モジュールはFinishing後に必要となるアノテーション付けまでをカバーし、研究
プロセスの効率化に活用できる。
•
Genomics Server との連携により、大人数での作業や、大量な処理なども行う事ができる。
Sample to Insight
2015/07/23 Filgen WebEx seminar
34
ご清聴ありがとうございました。
Question?
Sample to Insight
2015/07/23 Filgen WebEx seminar
35