DDBJとNIG Supercomputerの紹介、大量 配列情報解析 by 神沼英里(国立遺伝学研究所) All members of DNA Data Bank of Japan Jun Mashima, Hideo Aono, Yuji Ashizawa, Yukino Dobashi, Mayumi Ejima, Masahiro Fujimoto, Asami Fukuda, Tomohiro Hirai, Naofumi Ishikawa, Chiharu Kawagoe, Yuichi Kodama, Junko Kohira, Takehide Kosuge, Kyungbum Lee, Mika Maki, Hisako Mashima, Fujitaka Matsumori, Kimiko Mimura, Hiroshi Miyazaki, Naoko Murakata, Toshihisa Okido, Yoshihiro Okuda, Katsunaga Sakai, Yukie Sakon, Makoto Sato, Yoshihiro Serizawa, Aimi Shiida, Rie Sugita, Kimiko Suzuki, Haru Tsutsui, Koji Watanabe, Tomohiko Yasuda, Emi Yokoyama, Masanori Arita, Eli Kaminuma, Osamu Ogasawara, Kosaku Okubo, Toshihisa Takagi, and Yasukazu Nakamura 第33回 DDBJing 講習会 in 東京 日時:2015年11月11日(水)10:00~17:00 場所:国立研究開発法人 科学技術振興機構(JST) 東京本部別館(K's 五番町) (1)DNA Data Bank of Japan http://www.ddbj.nig.ac.jp/ DDBJ(DNA Data Bank of Japan) は 国際塩基配列データベースの構築機関 http://www.ddbj.nig.ac.jp/ ・Daily exchange among three databanks DDBJは、米国NCBI・欧EBIと協力して データベースを運営(定期交換) サービス群 特許庁の塩基配列・アミノ酸配列も公開。 JPO (Japan Patent Office) KIPO (Korean Intellectual Property Office) EPO (European Patent Office) USPTO (United States Patent and Trademark Office) DDBJのデータベース① Archive DB for analyzed data Quantitative data Sequence DDBJ DDBJ Omics ARchive(DOR) INSDC collaboration NCBI (GenBank) collaboration EBI (EMBL-Bank) GEO ArrayExpress DDBJ Pipeline Archive DB for raw data DTA DRA (DDBJ Trace Archive) (DDBJ Sequence Read Archive) Capillary Electrophoresis Sequencer Next-generation Sequencer (NGS) DDBJのデータベース② DDBJのデータベース③ Japanese Genotype-phenotype Archive http://trace.ddbj.nig.ac.jp/jga/submission.html 個人に由来する次世代シークエンス、アレイ、解析データ (bam, vcf etc)、表現型情報を 受付・保存・提供 データ提供と利用をガイドラインに従って審査 7 2014年度 スパコンユーザ会資料(児玉)より 増え続けるデータ量 JGA BioProject SRA データベース数 SRA のファイルサイズ (TB) BioSample Trace Archive 2014年度 スパコンユーザ会資料(児玉)より DDBJへの登録国(Top10) 2014年DDBJ事業報告より DDBJへの分類別3機関登録比率 2014年DDBJ事業報告より http://www.ddbj.nig.ac.jp/sub/locus-j.html (%) (%) 日・欧・米でのデータベース名称の違い http://www.insdc.org/ 個人ゲノムNGS : JGA : EGA : dbGaP DDBJ の沿革 PDBj DBCLS DDBJ http://www.ddbj.nig. ac.jp/history-j.html DDBJ センター人員2015/09 スタッフ 6 (センター長、教授3、助教2) アノテータ 12 (Ph.D. 7) DDBJ 事業運用エンジニア 9 遺伝研スパコン管理 6 広報・対外活動 3 企画調整 1 事務担当 2 合計 39 アノテータ エンジニア スパコンユーザ会資料(児玉)より 13 DDBJの大量配列解析用サービス ①Archive DB of NGS reads DDBJ Sequence Read Archive (DDBJ-SRA) ②Computational resources NIG Supercomputer (Today’s topic) http://trace.ddbj.nig.ac.jp/dra/ ③A Web-based analytical system for NGS reads DDBJ Pipeline ④Tutorials (※Japanese only) Video tutorials DDBJing seminar https://www.youtube.com/user/ DDBJvideo http://p.ddbj.nig.ac.jp http://www.ustream.tv/channel/ddbjing-25 本日のデモ用ログインID・パスワード ①大量配列を保管 DDBJ-SRA アーカイブ データベース http://trace.ddbj.nig.ac.jp/D-way/ 登録システムデモ(D-way) Login ID: dradev Pasword: dradev01 ③クラウド型大量配列解析ツール DDBJ Pipeline ②計算機資源利用 遺伝研 新スパコン利用案内 http://www.ddbj.nig.ac.jp/system/supercom/ supercom-intro.html (一般用) http://rgm2.lab.nig.ac.jp/wiki/index.php/Main_Page (玄人用) 稼働状況ログ http://www.ddbj.nig.ac.jp/system/supercom /supercom-util.html ④講習会開催 / QA対応 DDBJing講習会(2015年第31回分映像) http://www.ddbj.nig.ac.jp/ddbjing/dl.html Check current jobsボタンを押すと、 ゲストでログイン http://p.ddbj.nig.ac.jp/ DBCLSライフサイエンスQA, DDBJ tag http://qa.lifesciencedb.jp/ (2)NIG SuperComputer http://sc.ddbj.nig.ac.jp/ 遺伝研スーパーコンピュータ 構成概略 2015/2/3 NIIオープンフォーラム資料(小笠原)より <世界で170位相当の性能> 2012年3月の測定で、82.9テラFLOPS(計算速度)、 2011年11月に統計された世界スパコンTop500ランキングとの性能比較による NIGスパコン:Phase1(2012年導 入),Phase2(2014年導入)の2部構成 オープンソース解析ツールを インストール(申請可能) 汎用データベースをインストール済 目的別の利用統計 2015/2/3 NIIオープンフォーラム資料(小笠原)より 利用案内:Just Now All Free! http://sc.ddbj.nig.ac.jp/index.php/account-conditions ①責任者にアカウント・パスワード郵送 ②年度末更新時に要報告書 NIGスパコンのユーザ登録 http://sc.ddbj.nig.ac.jp/ new registration for supercomputer account (log in use) large-volume resource request new registration for MiGAP (Web only) new registration for DDBJ PipeLine (Web only) request for software install ログインから計算ノード利用のステップ ssh gw.ddbj.nig.ac.jp USER gw.ddbj.nig.ac.jp gateway server node qlogin node node node computational servers (注:2015年からSSH公開鍵認証) NIG Supercomputer Qsub qsub *** Jobs ジョブの状態確認と、混雑具合の確認 http://www.slideshare.net/oogasawa check http://sc.ddbj.nig.ac.jp/index.php/ja-nig-statistics NIGスパコンの使い方ヘルプ ■より詳しいNIGスパコン紹介映像 ■ガイド本 Ⅵ プロトコール データ解析と環境構築 1 解析環境を導入する スパコンの利用 【小笠原 理】 https://www.youtube.com/watch?v=p_FikxzF9Ms (3)Web Analytical Services http://www.ddbj.nig.ac.jp/searches-j.html 検索・解析サービス http://www.ddbj.nig.ac.jp/searches-j.html <getentry> アクセッション番号からのDDBJエントリ検索 ①番号入力 ②検索実行 <ARSA> キーワードによるDDBJエントリ検索 ④View (Fasta形式選択) ①キーワード入力 ②検索実行 ③必要なエントリ選択 ⑤配列確認 <clustalW> 系統樹生成 http://etetoolkit.org/treeview/ ①前ページ matK配列をペースト ②実行 ③Bootstrapped Tree 結果をコピー ④Bootstrapped Tree 結果をペースト ⑤実行 MiGAP(Micobial Genome Annotation Pipeline) De novo annotation of nucleotide sequences of prokaryotic and eukaryotic microbes Sugawara H, Ohyama A, Mori H and Kurokawa K. Microbial Genome Annotation Pipeline (MiGAP) for diverse users. 20th Int. Conf. Genome Informatics (Kanagawa, Japan) 2009: S-001, p 1-2. DDBJ Read Annotation Pipeline紹介 NGS大量配列のクラウド型解析システム(2009年度公開) DDBJ Sequence Read Archive 高速 シークエンサImage data DDBJ Pipeline 高次処理部 (Annotation Tools) PSU Galaxy Workflow Interface (Giardine et al., Genome Res 2005) ・SNP 検出/ 注釈 ・Contig 注釈 ・RNA-seq 解析 : Instrumentation data データ mass-ftp ディスク送付 base calling Sequence + quality >Seq1 (fastq) メタデータ [email protected] http://www.ddbj.nig.ac.jp/sub/trace_sraj.html AGTCGGGTGG . . . . DDBJ Pipeline 基礎処理部 Reference Genome Mapping De novo Assembly 配列 + アノテーションファイル Contigs (Overlapping reads) WGS Scaffolds (Supercontigs) CON Complete genome - Annotation + Annotation DRA Contig 情報ファイル + アノテーションファイル finishing/gap closure annotation 通常 データ mass-ftp 電子メール MSS 大量登録システム 配列 + アノテーションファイル 他のツール 自動アノテーション 結果 研究者による編集 DDBJ Read Annotation Pipeline http://p.ddbj.nig.ac.jp/(Kaminuma et al., NAR 2010;Nagasaki et al., 2013) →遺伝研スパコンをクラウド利用、10TB,2TB mem / 162 nodes / 100TB storage利用 DDBJ Pipeline利用統計 計算機資源不足や解析支援員不足状況の 実験研究者を支援する!(←理念) 登録ユーザ557名(14年7月)、年間約8000ジョブのサービスに発展 ▼新スパコン移行 ▼高次部Galaxy本格公開 ▼基礎部公開 裏歴史 <猛烈反響時代> ・民業圧迫!!(民間研究者) ・激励とダメ嵐(アカデミック研究者) <情報共有機能>→×(NGS現場の会始まる) (他Pipeline情報共有部の参考?) <Pipeline乱立時代> ・常連さん一部は他Pipelineへ →将来? <セキュリティ強化へ> ・Pipeline基礎部GUI-Jar盗られる DDBJ Pipelineのユーザ統計 45か国のユーザ (2012年度計算) 主な利用者のドメイン DDBJ Pipelineツール利用統計 マッピングツールは毎年 bwa の利用が 最も多い。 Bowtie2、TopHat2は、2013 年の 導入以降、利用数が急速に 伸びている。 de novo アセンブルツールは VelvetとTrinity の利用が多い 。 2014年春に導入した Platanus 、 HGAPの利用も伸びを見せている 。 DDBJ Pipelineユーザ対応と管理 ■2013年度ユーザ対応内訳(質問、連絡) Pipeline基礎部 対応数 2013 対応数 2014 利用方法の質問 65 45 エラー連絡 48 24 システム不具合の連絡 25 8 パスワード再発行 6 要望検討 合計 Pipeline高次部(P-Galaxy) 対応数 2013 対応数 2014 利用方法の質問 8 3 エラー連絡 0 3 システム不具合の連絡 2 1 12 本家Galaxy(米国PSU)から連絡 2 0 5 0 要望検討 2 0 149 89 合計 14 7 >実行エラー(Job aborted) : 23 アップロードファイルの問題(名称、形式、中身破損) システム不具合 9 オプション指定の誤り 4 >解析結果エラー(No output files) : 25 オプション指定の誤り 9 アップロードファイルの問題(名称、形式、中身破損) メモリ不足 5 システム不具合 4 実行後の結果消去までの日数 対応期間 90日 2010/7/30~2013/5/6 60日 2013/5/7~現在 10 7 (4)DDBJのサポート http://www.ddbj.nig.ac.jp/faq/ 講習会、QAサイト DDBJing講習会 http://www.ddbj.nig.ac.jp/ddbjing/dl.html ・DB登録・ツール利用の実習 ・定員30名 ・ほぼ年2回開催 依頼により、貴組織で開催いたします。 (要Network接続環境) DBCLS ライフサイエンスQA DDBJタグをサポート メールマガジン・Twitter 御静聴をありがとうございました
© Copyright 2024 ExpyDoc