国立遺伝学研究所 大量遺伝情報研究室 望月孝子

DDBJ Pipeline講習:
NGS公共データベースを利用したDNA多型解析ワークフローの実習
DDBJ Sequence
Read Archive
(DRA)
DDBJ Pipeline:
DDBJ Read Annotation Pipeline
DNA多型
DNA多型
注釈
ユーザデータ
国立遺伝学研究所 大量遺伝情報研究室
望月孝子
DDBJ Read Annotation Pipeline 全体像
DDBJ Sequence
Read Archive
(DRA)
ユーザデータ
DDBJ Pipeline: DDBJ Read Annotation Pipeline
基礎処理部
マッピング
de novo アセンブリ
高次処理部
解析目的別ワークフロー
DNA多型
注釈
(DNApod)
発現量解
析
転写因子結
合部位解析
Contig,
Scaffold注釈
HLA 解析ツール !
(金沢大 細道先生)
DNApod : DNA Polymorphism annOtation Database
ワークフローとデータベースを公開
DDBJ
Sequence
Read Archive
WGS:!
whole-genome
sequencing
(DRA)
ユーザデータ
Reference
GACCGAGCTACGCCTCCTGTGGA!
!
Reads
GAGCTACGCCACCTG
(BWA)
GAGCTACGCCACCTG
GAGCTACGCCACCTG
AGCTACGCCACCTGT
GCTACGCCACCTGTG
GCTACGCCACCTGTG
SNP
(samtools mpileup)
Reference
gene
DDBJ Read Annotation Pipeline
基礎処理部
!
!
!
!
!
!
高次処理部
!
DNApod workflow
intron
exon
バクテリア∼動
!
物、植物を網羅して
現在、イネ679系統、
行く予定
DNApod
トウモロコシ404系統、
ソルガム66系統
DRA データ登録状況
↓WGS
27,928
DBCLS SRA http://sra.dbcls.jp/trends.html
DRAデータサーチ
DBCLS SRA Metadata Search
マニュアル : https://github.com/inutano/soylatte/blob/master/README.md
【実習】DNA多型注釈 DNApod ワークフロー
DRA
基礎処理部
ERA013525
- ERR018562
マッピング
コンセンサス配列の決定
E.coli O157:H7 !
strain ZAP430
インポート
高次処理部 (p-galaxy)
DNA多型検出&注釈
ホモSNPs検出
既知遺伝子による注釈付け
DDBJ Pipeline 基礎処理部
アクセス
キーワード検索
DDBJのHPからのリンク
DDBJ Pipeline 基礎処理部
ログイン
アカウントの取得
ユーザIDとパ
スを設定
講習用ID : koshu01
パス : nigkoshu01
DDBJ Pipeline 基礎処理部
クエリの選択
E.coli O157:H7 strain ZAP430
ERA013525
ユ
1. Private DRA
ーザオリジナルデータ
entryを選択
を使用する場合は、FTP
2.DRAアクセッションを選択
upload
DRAデータを用いて解析するには、まず、
「import public DRA」でデータをインポート
しなければならない。
(今回の講習データはインポート済み)
3.解析に使用するデータを選択
4.次へ
DDBJ Pipeline 基礎処理部
マッピングツールの選択
1. Reference
Genome Mappingを選択
Mapping / de novo Assembly
ツール、各種選択できます。
2.ツールを選択
3.次へ
DDBJ Pipeline 基礎処理部
クエリセットの作成
2.クリック
1. クエリセット単位
でデータを選択
3.次へ
DDBJ Pipeline 基礎処理部
リファレンスの指定
マウスなどのモデル生物は、Major genome
1.Downlaod or
setsで以前にリファレンスを用意しています。
upload referenceを選択
また、INSD, Refseqデータのインポートもで
きます。
講習用のリファレンスファイルはこちらからダウン
ロードしてください。
Escherichia coli_ O157:H7 str. Sakai
3.UPLOADをクリック
(ftp://tga.nig.ac.jp/dnapod/sequence1.fasta)
2.ローカルPCのファイ
ルを選択
4.次へ
DDBJ Pipeline 基礎処理部
実行パラメータの設定
必要に応じて実行パラメータを変更してく
ださい。パラメータの詳細は、各ツールの
HELPをご確認下さい。
1.適宜パラメータを指定する
2.次へ
DDBJ Pipeline 基礎処理部
実行条件の確認
1.不備があれば、戻る
ジョブが終わるとメールが送
信されます。
2.問題なければ、実行
講習ではRUNボタンを押さない
で下さい。
DDBJ Pipeline 基礎処理部
実行結果の確認
2. 自分のジョブの
みを表示
1. ジョブ終了
メールが来たら、ク
リック
3. クリックし詳
細を表示
DDBJ Pipeline 基礎処理部
実行結果の確認 - 詳細 -
bwaにてマッピング
統
ユニー
計量
ク化
!
Errors by Read Position (%)
40
35
30
25
20
samtoolsで
15
10
DNA多型を検出した
5
0
結果
0
10
20
30
40
50
Read Position (bp)
60
70
DDBJ Pipeline 基礎処理部
ログアウト
本実習では、ここで一度ログアウトしてく
ださい。
(ご自分のデータで解析を行う場合はログアウト
する必要はありません。)
DDBJ Pipeline 高次処理部
アクセス
キーワード検索
DDBJ pipeplineの
メニューをクリック
DDBJ Pipeline 高次処理部
ログイン
1.クリック
講習用IDとパスは配布資料をご参照く
ださい。
2. DDBJ pipeline基礎処理部の
アカウント作成に使用したEmailとパス
ワードを入力
3.クリック
DDBJ Pipeline 高次処理部
ヒストリーの作成
1.クリック
2.クリック
講習会のidを使い回してい
るため、前の実行結果が表示
されている場合は、ヒストリー
の作成をして下さい。
DDBJ Pipeline 高次処理部
1.
クリック
2.
クリック
基礎処理部にログインした
ままの場合は、この画面は出てきませ
ん。
本講習会では、koshu01で実行した結果を使
用します。基礎部を一度ログアウトして、
ID: koshu01 Password: nigkoshu01
でログインしてください。
基礎処理部のsamtools mpileupのデータインポート
3.基礎処理部をログアウト
した場合のみ基礎処理部のIDとパス
ワードを入力してログイン
4. インポートしたいデータの
Importボタンをクリック
5. データがイン
ポートされた
目玉マークをクリック
するとファイルの中身を確認
できます。
DDBJ Pipeline 高次処理部
ホモSNPsの検出
2.ファイルフォーマッ
トを指定
3.ヒストリーから解析
ファイルを指定
1.クリック
4.検出条件の指定
6.データの
中身を確認
5.実行
指定した閾値以上かつ、GT 1/1 でホモ
SNPのデータのみが出力されている。
DDBJ Pipeline 高次処理部
SNPsアノテーション SnpEff
2.ヒストリーから解析ファイルを指定
3.入力、出力ファイ
ルの形式を選択
3. アノテーションを指定
1.クリック
今回は このオプショ
ンで実行
4.実行
ファイルが2つ
作成されます。
DDBJ Pipeline 高次処理部
SNPsアノテーション SnpEff 出力ファイル (1) アノテーション情報
vcfファイルのINFOフィールド内にEFF=でアノテーションが付与される。
…
…
詳細はSnpEffのサイトを参照
http://snpeff.sourceforge.net/
SnpEff_manual.html#input
DDBJ Pipeline 高次処理部
解析統計情報を表示
SNPsアノテーション SnpEff 出力ファイル (2) 統計情報
ご清聴ありがとうございました
DNApod データベース
http://tga.nig.ac.jp/dnapod/
DDBJ Read Annotation Pipeline
基礎処理部
http://p.ddbj.nig.ac.jp/
高次処理部
DNApod ワークフロー
https://p-galaxy.ddbj.nig.ac.jp/