DDBJ と NIG SuperComputer の紹介、大量配列情報解析

DDBJとNIG Supercomputerの紹介、大量
配列情報解析 by 神沼英里(国立遺伝学研究所)
All members of DNA Data Bank of Japan
Jun Mashima, Hideo Aono, Yuji Ashizawa, Yukino Dobashi, Mayumi Ejima, Masahiro Fujimoto,
Asami Fukuda, Tomohiro Hirai, Naofumi Ishikawa, Chiharu Kawagoe, Yuichi Kodama, Junko Kohira,
Takehide Kosuge, Kyungbum Lee, Mika Maki, Hisako Mashima, Fujitaka Matsumori, Kimiko Mimura,
Hiroshi Miyazaki, Naoko Murakata, Toshihisa Okido, Yoshihiro Okuda, Katsunaga Sakai, Yukie Sakon,
Makoto Sato, Yoshihiro Serizawa, Aimi Shiida, Rie Sugita, Kimiko Suzuki, Haru Tsutsui,
Koji Watanabe, Tomohiko Yasuda, Emi Yokoyama,
Masanori Arita, Eli Kaminuma, Osamu Ogasawara,
Kosaku Okubo, Toshihisa Takagi, and Yasukazu Nakamura
第33回 DDBJing 講習会 in 東京
日時:2015年11月11日(水)10:00~17:00
場所:国立研究開発法人 科学技術振興機構(JST) 東京本部別館(K's 五番町)
(1)DNA Data Bank of Japan
http://www.ddbj.nig.ac.jp/
DDBJ(DNA Data Bank of Japan) は
国際塩基配列データベースの構築機関
http://www.ddbj.nig.ac.jp/
・Daily exchange among three databanks
DDBJは、米国NCBI・欧EBIと協力して
データベースを運営(定期交換)
サービス群
特許庁の塩基配列・アミノ酸配列も公開。
JPO (Japan Patent Office)
KIPO (Korean Intellectual Property Office)
EPO (European Patent Office)
USPTO (United States Patent and Trademark Office)
DDBJのデータベース①
Archive DB for
analyzed data
Quantitative data
Sequence
DDBJ
DDBJ Omics
ARchive(DOR)
INSDC
collaboration
NCBI
(GenBank)
collaboration
EBI
(EMBL-Bank)
GEO
ArrayExpress
DDBJ Pipeline
Archive DB for
raw data
DTA
DRA
(DDBJ Trace Archive)
(DDBJ Sequence Read Archive)
Capillary Electrophoresis
Sequencer
Next-generation
Sequencer (NGS)
DDBJのデータベース②
DDBJのデータベース③
Japanese Genotype-phenotype Archive
http://trace.ddbj.nig.ac.jp/jga/submission.html
 個人に由来する次世代シークエンス、アレイ、解析データ (bam, vcf etc)、表現型情報を
受付・保存・提供
 データ提供と利用をガイドラインに従って審査
7
2014年度 スパコンユーザ会資料(児玉)より
増え続けるデータ量
JGA
BioProject
SRA
データベース数
SRA のファイルサイズ (TB)
BioSample
Trace
Archive
2014年度 スパコンユーザ会資料(児玉)より
DDBJへの登録国(Top10)
2014年DDBJ事業報告より
DDBJへの分類別3機関登録比率
2014年DDBJ事業報告より
http://www.ddbj.nig.ac.jp/sub/locus-j.html
(%)
(%)
日・欧・米でのデータベース名称の違い
http://www.insdc.org/
個人ゲノムNGS : JGA
: EGA
: dbGaP
DDBJ の沿革
PDBj
DBCLS
DDBJ
http://www.ddbj.nig.
ac.jp/history-j.html
DDBJ センター人員2015/09
スタッフ 6 (センター長、教授3、助教2)
アノテータ 12 (Ph.D. 7)
DDBJ 事業運用エンジニア 9
遺伝研スパコン管理 6
広報・対外活動 3
企画調整 1
事務担当 2
合計 39
アノテータ
エンジニア
スパコンユーザ会資料(児玉)より
13
DDBJの大量配列解析用サービス
①Archive DB of NGS reads
DDBJ
Sequence
Read Archive
(DDBJ-SRA)
②Computational resources
NIG Supercomputer
(Today’s topic)
http://trace.ddbj.nig.ac.jp/dra/
③A Web-based
analytical system for NGS reads
DDBJ Pipeline
④Tutorials
(※Japanese only)
Video tutorials
DDBJing seminar
https://www.youtube.com/user/
DDBJvideo
http://p.ddbj.nig.ac.jp
http://www.ustream.tv/channel/ddbjing-25
本日のデモ用ログインID・パスワード
①大量配列を保管
DDBJ-SRA
アーカイブ
データベース
http://trace.ddbj.nig.ac.jp/D-way/
登録システムデモ(D-way)
Login ID: dradev
Pasword: dradev01
③クラウド型大量配列解析ツール
DDBJ Pipeline
②計算機資源利用
遺伝研 新スパコン利用案内
http://www.ddbj.nig.ac.jp/system/supercom/
supercom-intro.html (一般用)
http://rgm2.lab.nig.ac.jp/wiki/index.php/Main_Page
(玄人用)
稼働状況ログ
http://www.ddbj.nig.ac.jp/system/supercom
/supercom-util.html
④講習会開催 / QA対応
DDBJing講習会(2015年第31回分映像)
http://www.ddbj.nig.ac.jp/ddbjing/dl.html
Check current jobsボタンを押すと、
ゲストでログイン
http://p.ddbj.nig.ac.jp/
DBCLSライフサイエンスQA, DDBJ tag
http://qa.lifesciencedb.jp/
(2)NIG SuperComputer
http://sc.ddbj.nig.ac.jp/
遺伝研スーパーコンピュータ
構成概略
2015/2/3 NIIオープンフォーラム資料(小笠原)より
<世界で170位相当の性能>
2012年3月の測定で、82.9テラFLOPS(計算速度)、
2011年11月に統計された世界スパコンTop500ランキングとの性能比較による
NIGスパコン:Phase1(2012年導
入),Phase2(2014年導入)の2部構成
オープンソース解析ツールを
インストール(申請可能)
汎用データベースをインストール済
目的別の利用統計
2015/2/3 NIIオープンフォーラム資料(小笠原)より
利用案内:Just Now All Free!
http://sc.ddbj.nig.ac.jp/index.php/account-conditions
①責任者にアカウント・パスワード郵送
②年度末更新時に要報告書
NIGスパコンのユーザ登録
http://sc.ddbj.nig.ac.jp/
new registration for supercomputer account (log in use)
large-volume resource request
new registration for MiGAP (Web only)
new registration for DDBJ PipeLine (Web only)
request for software install
ログインから計算ノード利用のステップ
ssh gw.ddbj.nig.ac.jp
USER
gw.ddbj.nig.ac.jp
gateway server
node
qlogin
node
node
node
computational servers
(注:2015年からSSH公開鍵認証)
NIG Supercomputer
Qsub
qsub *** Jobs
ジョブの状態確認と、混雑具合の確認
http://www.slideshare.net/oogasawa
check
http://sc.ddbj.nig.ac.jp/index.php/ja-nig-statistics
NIGスパコンの使い方ヘルプ
■より詳しいNIGスパコン紹介映像
■ガイド本
Ⅵ プロトコール データ解析と環境構築
1 解析環境を導入する スパコンの利用
【小笠原 理】
https://www.youtube.com/watch?v=p_FikxzF9Ms
(3)Web Analytical Services
http://www.ddbj.nig.ac.jp/searches-j.html
検索・解析サービス
http://www.ddbj.nig.ac.jp/searches-j.html
<getentry>
アクセッション番号からのDDBJエントリ検索
①番号入力
②検索実行
<ARSA>
キーワードによるDDBJエントリ検索
④View
(Fasta形式選択)
①キーワード入力
②検索実行
③必要なエントリ選択
⑤配列確認
<clustalW>
系統樹生成
http://etetoolkit.org/treeview/
①前ページ
matK配列をペースト
②実行
③Bootstrapped Tree
結果をコピー
④Bootstrapped Tree
結果をペースト
⑤実行
MiGAP(Micobial Genome Annotation Pipeline)
De novo annotation of nucleotide sequences of prokaryotic and eukaryotic microbes
Sugawara H, Ohyama A, Mori H and Kurokawa K.
Microbial Genome Annotation Pipeline (MiGAP) for diverse users.
20th Int. Conf. Genome Informatics (Kanagawa, Japan)
2009: S-001, p 1-2.
DDBJ Read Annotation Pipeline紹介
NGS大量配列のクラウド型解析システム(2009年度公開)
DDBJ Sequence Read Archive
高速
シークエンサImage data
DDBJ Pipeline
高次処理部
(Annotation Tools)
PSU Galaxy Workflow
Interface
(Giardine et al., Genome
Res 2005)
・SNP 検出/ 注釈
・Contig 注釈
・RNA-seq 解析
:
Instrumentation
data
データ
mass-ftp
ディスク送付
base calling
Sequence + quality
>Seq1
(fastq)
メタデータ
[email protected]
http://www.ddbj.nig.ac.jp/sub/trace_sraj.html
AGTCGGGTGG . . . .
DDBJ Pipeline
基礎処理部
Reference Genome Mapping
De novo Assembly
配列 +
アノテーションファイル
Contigs
(Overlapping reads)
WGS
Scaffolds
(Supercontigs)
CON
Complete genome
- Annotation
+ Annotation
DRA
Contig 情報ファイル +
アノテーションファイル
finishing/gap
closure
annotation
通常
データ
mass-ftp
電子メール
MSS
大量登録システム
配列 +
アノテーションファイル
他のツール
自動アノテーション
結果
研究者による編集
DDBJ Read Annotation Pipeline http://p.ddbj.nig.ac.jp/(Kaminuma et al., NAR 2010;Nagasaki et al., 2013)
→遺伝研スパコンをクラウド利用、10TB,2TB mem / 162 nodes / 100TB storage利用
DDBJ Pipeline利用統計
計算機資源不足や解析支援員不足状況の
実験研究者を支援する!(←理念)
登録ユーザ557名(14年7月)、年間約8000ジョブのサービスに発展
▼新スパコン移行
▼高次部Galaxy本格公開
▼基礎部公開
裏歴史
<猛烈反響時代>
・民業圧迫!!(民間研究者)
・激励とダメ嵐(アカデミック研究者)
<情報共有機能>→×(NGS現場の会始まる)
(他Pipeline情報共有部の参考?)
<Pipeline乱立時代>
・常連さん一部は他Pipelineへ
→将来?
<セキュリティ強化へ>
・Pipeline基礎部GUI-Jar盗られる
DDBJ Pipelineのユーザ統計
45か国のユーザ
(2012年度計算)
主な利用者のドメイン
DDBJ Pipelineツール利用統計
マッピングツールは毎年 bwa の利用が
最も多い。
Bowtie2、TopHat2は、2013 年の
導入以降、利用数が急速に 伸びている。
de novo アセンブルツールは
VelvetとTrinity の利用が多い 。
2014年春に導入した Platanus 、
HGAPの利用も伸びを見せている 。
DDBJ Pipelineユーザ対応と管理
■2013年度ユーザ対応内訳(質問、連絡)
Pipeline基礎部
対応数
2013
対応数
2014
利用方法の質問
65
45
エラー連絡
48
24
システム不具合の連絡
25
8
パスワード再発行
6
要望検討
合計
Pipeline高次部(P-Galaxy)
対応数
2013
対応数
2014
利用方法の質問
8
3
エラー連絡
0
3
システム不具合の連絡
2
1
12
本家Galaxy(米国PSU)から連絡
2
0
5
0
要望検討
2
0
149
89
合計
14
7
>実行エラー(Job aborted) : 23
アップロードファイルの問題(名称、形式、中身破損)
システム不具合 9
オプション指定の誤り 4
>解析結果エラー(No output files) : 25
オプション指定の誤り 9
アップロードファイルの問題(名称、形式、中身破損)
メモリ不足 5
システム不具合 4
実行後の結果消去までの日数
対応期間
90日
2010/7/30~2013/5/6
60日
2013/5/7~現在
10
7
(4)DDBJのサポート
http://www.ddbj.nig.ac.jp/faq/
講習会、QAサイト
DDBJing講習会
http://www.ddbj.nig.ac.jp/ddbjing/dl.html
・DB登録・ツール利用の実習
・定員30名
・ほぼ年2回開催
依頼により、貴組織で開催いたします。
(要Network接続環境)
DBCLS ライフサイエンスQA
DDBJタグをサポート
メールマガジン・Twitter
御静聴をありがとうございました