MSS submission

Mass Submission System 紹介
DDBJ annotator 李
慶 範
第30回 DDBJing 講習会 (DDBJ)
DDBJ Data Submission
Raw outputs
Sanger data
NGS data
(raw reads)
DDBJ Sequence Read
Archive
(DRA)
DDBJ Trace Archive
(DTA)
http://trace.ddbj.nig.ac.jp/dta/index_e.html
http://trace.ddbj.nig.ac.jp/dra/index_e.html
+ Assembly
+ Annotation
e.g. 16S rRNA, EST etc.
e.g. WGS, CON, TSA etc.
e.g. complete genome
Interactive nucleotide sequence
submission system via WWW
DDBJ Nucleotide Sequence
Submission System
For large-scale data
Mass Submission System
http://www.ddbj.nig.ac.jp/sub/mss_flow-e.html
http://www.ddbj.nig.ac.jp/sub/websub-e.html
UME check
tool
- multi-FASTA format
- authenticated submission system based on e-mail
- flexible input system
- specialized templates such as 16S rRNA, CDS, D-loop etc.
5. Check by annotators
- large-scale sequences
4. Submission - multiple nucleotide sequences
1.MSS files
- complex or many features
Request +Annotation file (submitter)
(submitter)
- FASTA file + Annotation file
+Sequence file
(+)AGP file(CON)
WGS, CON, EST, TSA, complete genome etc.
3.BioProject BioSample (submitter)
- Genome-level data
- Transcriptome Shotgun Assembly (TSA)
Kosuge,T. et al. Nucl. Acids Res.(2014) 42(D1):D44-D49
6.Issue Accession No.
2.Introduce how to use MSS
1
MSS submission
Genome-level data 概要
次世代シークエンサ(NGS)の Genomic DNA
DDBJ Sequence Read Archive (DRA)
raw reads
Assembly(overlapping) WGS data
CON data
MSS submission
・WGS (Whole Genome Shotgun) conJg(overlapping reads) 配列
個々に登録された一連の配列データを相互に 結合し, より長い配列を構築 (superconJg, scaffoldconJg)
gap
gap
Sequencing gap を用いた断片配列の連結構造
-­‐ 冗長な raw reads をつなぎ合わせた con6g(overlapping reads)
-­‐ CDS 等のアノテーションの記載が可能/未記載も登録可能
-­‐ "アノテーションファイル + 配列ファイル" ・CON division -­‐ 個々に登録された一連の配列データ(WGS または HTG データ)を sequencing gap を用い相互に結合し、再構築したデータ
-­‐ CDS 等のアノテーションの記載が可能/未記載も登録可能
-­‐ "アノテーションファイル + AGP ファイル" + op6on(配列ファイル) ・Complete genome sequence (Taxonomic Division) Complete genome
Finished 配列
-­‐ 配列解析を Finishing したデータ
-­‐ CDS,tRNA,rRNA等のアノテーションに /locus_tag の使用
-­‐ "アノテーションファイル + 配列ファイル" 第30回 DDBJing 講習会 (DDBJ)
2
MSS submission
Transcriptome Shotgun Assembly (TSA) data 概要
再構成された (assembled) mRNA 配列
http://www.ddbj.nig.ac.jp/sub/tsa-j.html
cDNA1
EST data
cDNA2
cDNA3
MSS submission
新型シーケンサー 由来の Genomic DNA
DRA
raw reads
Assembly TSA contig1
TSA data
TSA contig2
TSA contig3
MSS submission
conJg(overlapping) 配列
-­‐ 先立ってアセンブリの元となる1次転写産物 (primary transcripts)の配列データ(プライマリーエントリ)
が DDBJ/EMBL-­‐Bank/GenBank の EST division,DDBJ Trace Archive,DDBJ Sequence Read Archive (DRA) の何れかに登録されている必要がある
(注意);プライマリーエントリが TSA 登録者と異なる登録者に帰属する配列データである場合は,TPA (Third Party Annota6on) 第30回 DDBJing 講習会 (DDBJ)
3
DDBJ Submission System
MSS 利用案内 1 http://www.ddbj.nig.ac.jp/index-j.html
アノテーションをつけた塩基配列の登録
・DDBJ Nucleotide Sequence Submission System
(Web経由の塩基配列登録システム)
・Mass Submission System (MSS)
http://www.ddbj.nig.ac.jp/submission_general-j.html
第30回 DDBJing 講習会 (DDBJ)
4
Mass Submission System
MSS 利用案内 2 登録予定データが,件数が多い,多数の Feature を持つ,配列が長大,などの
場合や,web経由の登録システムが対応していないデータ(例:WGS)の登録
特徴 ・定型化したテキストファイルの利用による登録 -­‐ 登録に必要なアノテーションファイルと配列ファイル -­‐> 登録者側で作成(テキストファイル) -­‐> スクリプト、(MS Excel などの) 表計算ソフト、 テキストエディタ等を使用 -­‐ 作成したファイルは、 ソフトウェアツールでチェック
UME (UJliJes for MSS file Errorcheck) Paser/transChecker ・データ転送が簡便(Eメール、D-way 経由)
・大規模データの登録向き
受付対象のデータ ・エントリ数(登録する配列の数)が多い
例: 大規模転写物(EST, HTC, TSA) , ゲノム断片(GSS, HTG),
特定の遺伝子や領域(16S rRNA, ITS-­‐rRNA など)
・1エントリあたり,多数(概ね30以上)のBiological Feature
例: オルガネラゲノム,プラスミド全長など
・配列が長大 (概ね 500 kbp 以上) 例: 全ゲノム規模データ,遺伝子クラスターなど
http://www.ddbj.nig.ac.jp/sub/mss_flow-j.html
・塩基配列登録システムが対応していない登録
例: WGS,CONなど
第30回 DDBJing 講習会 (DDBJ)
5
MSS submission flow
UME check tool
6.アクセッション 番号発行
データ公開・公開待ち
5.査定作業
-­‐ 登録ファイルフォー
マットチェックツール 登録者 塩基配列解析データ
データ公開・共有
4.登録ファイル
作成
+AnnotaJon file MSS
1.登録依頼
+Sequence file (+)AGP file (for CON) INSDC 3.BioProject BioSample 登録
2.MSS 利用案内
登録案内
BP/BS 登録対象データ - Genome-level data (WGS, CON, complete genome)
- Transcriptome Shotgun Assembly (TSA)
第30回 DDBJing 講習会 (DDBJ)
6
MSS submission flow
1.登録依頼
1. 以前に MSS を利用されたことがありますか?
2. コンタクトパーソン
* 氏名(英語)
* E-mail address
* FAX number
* 所属 (英語)
3. 登録担当者
4. 登録データの概略
* 公開予定
* 件数
* Sequencing Technology (複数選択可)
* データ種別
* 生物学的概要(日本語可)
http://www.ddbj.nig.ac.jp/sub/mss_flow-j.html
MSS申し込みフォーム
MSS申し込み 必須項目を記載
5. 補足情報 (日本語可)
http://www.ddbj.nig.ac.jp/sub/masssub-j.html
第30回 DDBJing 講習会 (DDBJ)
7
MSS submission flow
2.MSS 利用案内 登録案内
Subject: [DDBJ:mass-0001] How to use MSS
From: [email protected]
登録依頼の内容を確認
登録案内メール送付
第30回 DDBJing 講習会 (DDBJ)
8
MSS submission flow
2.MSS 利用案内 登録案内
登録案内メールの参照リンク MSS 関連資料
・データファイルチェック用ツール
・データファイル作成関連ドキュメント
・アノテーション関連ドキュメント
http://www.ddbj.nig.ac.jp/sub/mss/massSub-j.html
第30回 DDBJing 講習会 (DDBJ)
9
MSS submission flow
3.BioProject・BioSample 登録
-­‐ BioProject 登録
BP/BS 登録対象データ - Genome-level data (WGS, CON, complete genome)
- Transcriptome Shotgun Assembly (TSA)
研究プロジェクトとプロジェクトに由来するデータ
をまとめるためのデータベース
BioProject 登録完了(locus_tag prefix 取得)
例、
From: [email protected]
---------------------------------------------------------------------------------
PSUB ID
| BioProject ID | Organism name
| Hold/
Release
PSUBxxxxxx | PRJDBxxxx
| Streptomyces flavus | Hold
---------------------------------------------------------------------------------
MSS 登録に使用
http://trace.ddbj.nig.ac.jp/bioproject/index.html
第30回 DDBJing 講習会 (DDBJ)
BioProject ID Organism name locus_tag prefix 登録
10
MSS submission flow
3.BioProject・BioSample 登録
-­‐ BioSample 登録
BP/BS 登録対象データ - Genome-level data (WGS, CON, complete genome)
- Transcriptome Shotgun Assembly (TSA)
DDBJ の一次データベースに登録されている実験データを得る
のに使われた生物学的な試料 (サンプル) についての情報を集
中して管理するデータベース
BioSample 登録完了
例、
From: [email protected]
---------------------------------------------------------
[Submission ID]
SSUBxxxxxx
[Hold/Release]
Hold
Sample Name
| BioSample ID
Streptomyces flavus | SAMD000xxxxx
----------------------------------------------------------
http://trace.ddbj.nig.ac.jp/biosample/index.html
MSS 登録に使用
第30回 DDBJing 講習会 (DDBJ)
BioSample ID 11
MSS submission flow
4. MSS 登録ファイル作成
http://www.ddbj.nig.ac.jp/sub/mss/massSub-j.html
・配列ファイル作成
・アノテーションファイル作成 ・ AGPファイル作成(CON data)
http://www.ddbj.nig.ac.jp/sub/mss/make_files-j.html
第30回 DDBJing 講習会 (DDBJ)
12
MSS submission flow
4. MSS 登録ファイル作成 (配列ファイル作成)
エントリ名 ・エントリ名は行頭の「>」に続けて、 [space], " [double-­‐quote], ? [ques6on], [back-­‐slash] を 含まない半角英数字 32 文字以内
・エントリ名はエントリ毎にユニークな文字列
-­‐ clone 名,isolate 名といった個々のエントリに よって異なる名称の使用が一般的
・アノテーションファイルと配列ファイルの同一のエントリ名
-­‐ 同じエントリ名をつけ、同じ順番になるようにそれぞれ入力
・入力されたエントリ順にアクセッション番号を発行
配列 ・ベクター,リンカー,アダプターなどの配列は必ず除去
-­‐ ベクターなどの配列自体は例外 ・特殊なケースを除き,末端の n は除去
・塩基配列には a,t,g,c 以外にも、必要に応じて、 各種核酸コードが使用可能
http://www.ddbj.nig.ac.jp/sub/mss/sequence_file-j.html
・途中にスペース、空行が入らないように
終端子 ・終端子として配列情報終了フラグ(//)を必ず入力
第30回 DDBJing 講習会 (DDBJ)
13
MSS submission flow
一般登録ファイルの例
4. MSS 登録ファイル作成 (アノテーションファイル作成)
Entry, Feature, Location, Qualifier, Value の 5 カラム
COMMON
アノテーションファイルでは全てのエントリに共通な情報
SUBMITTER
登録者情報
REFERENCE 登録データ関連の文献情報
COMMENT FEATURES/Loca6on/Qualifiers で記述できない その他の情報やコメント
Entry 情報
Biological Feature
Biological feature の定義、記述方法の詳細
The DDBJ/EMBL/GenBank Feature Table:
Definition hdp://www.ddbj.nig.ac.jp/FT/full_index.html
第30回 DDBJing 講習会 (DDBJ)
14
MSS submission flow
WGS 登録ファイルの例
4. MSS 登録ファイル作成 (アノテーションファイル作成)
DATATYPE
type WGS を記載
KEYWORD
DIVISION と DATATYPE で示されたデータ種別を 基本に細分化した情報、実験手法に関する情報などを、 原則として、規定値で記載 例、WGS データ: WGS と methodological keyword 記載
・INSDC agreed methodological keywords
- STANDARD_DRAFT
- HIGH_QUALITY_DRAFT
- IMPROVED_HIGH_QUALITY_DRAFT
- ANNOTATION_GRADE
- NON_CONTIGUOUS_FINISHED
DBLINK
BioProject BioSample 特定データベースへのリンク
DRA(op6on)
ST_COMMENT Genome assembly 情報 -­‐ Assembly sogware -­‐ Genome coverage -­‐ Sequencers
locus_tag は
一定な識別子を 遺伝子とその関連 feature の検索を目的とし
て割り当てたものCDS,tRNA,rRNA, ncRNA など遺伝子関連の
feature 配下 に記載
http://www.ddbj.nig.ac.jp/sub/locus_tag-j.html
第30回 DDBJing 講習会 (DDBJ)
15
MSS submission flow
4. MSS 登録ファイル作成 ( CON の AGP ファイル作成)
CON 登録ファイルの例 (AGP ファイル)
9 カラムで構成
http://www.ddbj.nig.ac.jp/sub/mss/agp_file-j.html
・AGP ファイル - CON エントリを構築する際のピースエントリの順序,種類,方向等が記載
- 公開フラットファイル上に表示 "contig 行"
例、
CONTIG
join(BZZZ01123456.1:1..1345,gap(1500),BZZZ01123457.1:1..1456,
gap(unk100),complement(BZZZ01123458.1:1..1230)) - AGPファイルは、UME (Utilities for MSS Error check)でチェック可
第30回 DDBJing 講習会 (DDBJ)
16
MSS submission flow
4. MSS 登録ファイル作成 (Sample files)
アノテーションファイルの作成に際しては、サンプルアノテーションファイルをご参照ください
http://www.ddbj.nig.ac.jp/sub/mss/sample-j.html
第30回 DDBJing 講習会 (DDBJ)
17
MSS submission flow
4. MSS 登録ファイル作成 (登録ファイルフォーマットチェック)
UME (Utilities for MSS file Error check)
Mass Submission System (MSS) を利用した登録に必要な 配列ファ
イル と アノテーションファイル のフォーマットチェックを行うツール
- あらかじめ、Java Development Kit (JDK) をインストール
- OS と 実行環境 に応じて、ツールを選択
http://www.ddbj.nig.ac.jp/sub/mss/massSub-j.html
第30回 DDBJing 講習会 (DDBJ)
18
MSS submission flow
4. MSS 登録ファイル作成
登録ファイルフォーマットチェック・データの送付
#1
#5
#1 アノテーションファイルと配列ファイル をそれぞれ指定
・Parser エラーメッセージ一覧
http://www.ddbj.nig.ac.jp/sub/validator-j.html#parser
#2
#2 Parser の機能
- 構文とフォーマットを検証
#3
・AGPParser エラーメッセージ一覧
#3 transChecker の機能
http://www.ddbj.nig.ac.jp/sub/validator-j.html#AGP
- アミノ酸翻訳を検証
(登録データが CDS feature を含む場合)
#4
#4 FFconv の機能
- 擬似的なフラットファイルを作成
・transChecker エラーメッセージ一覧
http://www.ddbj.nig.ac.jp/sub/validatorj.html#transChecker
#5 CON エントリの配列の構築
- AGPファイルとピースエントリの配列ファイルを用いて構築
http://www.ddbj.nig.ac.jp/sub/mss/ume-j.html
登録ファイルフォーマットチェックの後 データの送付
登録に必要な配列ファイルとアノテーションファイルを作成し、
登録予定データの一部をサンプルデータとして DDBJ に送付
ファイルサイズが合計で 10 M byte を超える場合は、
公開鍵と秘密鍵を用いた SCP によるファイル転送
第30回 DDBJing 講習会 (DDBJ)
19
MSS submission flow
5. 査定作業 6.アクセッション番号発行
査定作業完了後
アクセッション番号発行
From: DDBJ <[email protected]>
例、 WGS data
[Hold-­‐Date] 20150612 Accession number : BXXX01000001-­‐BXXX01000100 (100 entries)
第30回 DDBJing 講習会 (DDBJ)
20
MSS submission
公開ファイルとの対応関係
第30回 DDBJing 講習会 (DDBJ)
21
MSS submission
公開ファイルとの対応関係
http://www.ddbj.nig.ac.jp/sub/mss/sample-j.html
第30回 DDBJing 講習会 (DDBJ)
22
MSS submission
WGS 公開ファイルの記載例
http://getentry.ddbj.nig.ac.jp/top-j.html
#1
#1Accession No.
#2DBLINK
#2
#3KEYWORDS
#3
..中略..
#4
#5
#4ST_COMMENT
#5locus_tag
..中略..
第30回 DDBJing 講習会 (DDBJ)
23
MSS submission
MSS 参考資料
MSS 登録関連ページ
MSS ホーム
hdp://www.ddbj.nig.ac.jp/sub/mss/massSub-­‐j.html
hdp://www.ddbj.nig.ac.jp/sub/mss/massSub-­‐e.html
MSS 用データファイル作成 -­‐目次-­‐ hdp://www.ddbj.nig.ac.jp/sub/mss/make_files-­‐j.html
hdp://www.ddbj.nig.ac.jp/sub/mss/make_files-­‐e.html
UME ユーザーマニュアル
hdp://www.ddbj.nig.ac.jp/sub/mss/ume-­‐j.html
hdp://www.ddbj.nig.ac.jp/sub/mss/ume-­‐e.html
Parser ユーザーマニュアル
hdp://www.ddbj.nig.ac.jp/sub/mss/parser-­‐j.html
hdp://www.ddbj.nig.ac.jp/sub/mss/parser-­‐e.html
transChecker ユーザーマニュアル
hdp://www.ddbj.nig.ac.jp/sub/mss/transchecker-­‐j.html
hdp://www.ddbj.nig.ac.jp/sub/mss/transchecker-­‐e.html
サンプルアノテーションファイル
hdp://www.ddbj.nig.ac.jp/sub/mss/sample-­‐j.html
hdp://www.ddbj.nig.ac.jp/sub/mss/sample-­‐e.html
アノテーションファイルとフラットファイルの対応関係
hdp://www.ddbj.nig.ac.jp/sub/mss/ann2ff-­‐j.html
hdp://www.ddbj.nig.ac.jp/sub/mss/ann2ff-­‐e.html
第30回 DDBJing 講習会 (DDBJ)
24