PDF をダウンロード

1
Handbooks
DDBJ Sequence Read Archive Handbook
公開日: 2014年3月25日; 最終更新日: 2015年4月30日
DDBJ Sequence Read Archive
メタデータ
メタデータオブジェクト
オブジェクトの構成例
Submission
Study (BioProject)
Sample (BioSample)
Experiment
Run
Analysis
データファイル
登録するデータファイルの形式について
BAM ファイル
fastq
454
Illumina Genome Analyzer
SOLiD
Ion Torrent
Helicos Heliscope
Complete Genomics
Pacific Biosciences
Oxford Nanopore
キャピラリシークエンサ
DRA へのデータ登録
DRA 登録の流れ
DRA へのデータ登録方法
データ構成
新規登録の作成
シークエンスデータのアップロード
ウェブツールでのメタデータ作成
XML でのメタデータ登録方法
データファイルの検証
アクセッション番号の発行
データ公開
登録の更新
各データベースにおける更新方法
公開予定日の変更
メタデータの更新
データファイルの追加
データの削除
補足: MD5 値
MD5 値の取得 (Linux)
MD5 値の取得 (Mac OS X)
MD5 値の取得 (Windows)
免責事項
DDBJ Sequence Read Archive
DDBJ Sequence Read Archive (DRA) は Roche 454 GS System®,Illumina Genome Analyzer®,Applied
Biosystems SOLiD® System などの次世代シークエンサからの出力データのためのデータベースです。 DRA は
DDBJ Sequence Read Archive Handbook Handbook
2
International Nucleotide Sequence Database Collaboration (INSDC) のメンバーであり, NCBI Sequence
Read Archive (SRA) と EBI Sequence Read Archive (ERA) との国際協力のもと,運営されています。
公開された Analysis 以外のデータは3極で自動的にミラーリングされます。
従来のキャピラリ式シークエンサからの出力データは fastq ファイルとして DRA に登録することができます。 クロマト
グラムの登録を希望する場合は DDBJ Trace Archive に登録します。
メタデータ
メタデータオブジェクト
メタデータにはシークエンスデータがどのようにして得られたのかが記載されています。 メタデータは
Submission,BioProject,BioSample,Experiment,Run,Analysis の各オブジェクトで構成されます。 各オブジェク
トは XML スキーマで定義され,相互に関連付けられています。アクセッション番号はオブジェクトに対して発行されま
す。 オブジェクトの構造とアクセッション番号は DDBJ/EBI/NCBI で共通です。 Experiment,Run,Analysis は SRA
のオブジェクトで,BioProject と BioSample は外部データベースのオブジェクトになります。
メタデータの詳細は対応する XML スキーマをご覧ください。XML Schemas (NCBI)
S ubmis s ion
登録するオブジェクトをとりまとめるオブジェクト。
BioProje ct
研究プロジェクト全体の概要。プロジェクトは複数のサンプルやデータセットを含むことが一般的です。
BioS ample
生物学的なサンプルに関する記述。サンプルはユニークな属性をもった BioSample として登録します。
Expe rime nt
BioSample に由来するシークエンス用ライブラリーとシークエンスの手法について記載します。 Experiment は1つの
BioProject と1つの BioSample を参照します。 複数の Experiment は1つの BioSample を参照することができます
が,逆に1つの Experiment が複数の BioSample を参照することはできません。
Run
シークエンス用ライブラリー (Experiment) に由来するファイルをまとめます。 Experiment を介してデータファイルは特
定のサンプルにリンクされます。 Run に含まれる全てのファイルは1つの SRA/fastq ファイルにマージされ,Run のア
クセッション番号がファイル名になります。そのため,異なるサンプルや replicate に由来するファイルは同じ Run に含
めるべきではありません。 一方,ペアードのデータファイルは同じ Run に含め,リードが正しくペアとして処理されるよう
にします。
Analys is
Run に格納されたデータを解析したデータで,しかるべき登録先がないようなデータを登録します。Analysis は
DDBJ/EBI/NCBI で交換していません。 交換を希望する場合は DRA チームに連絡します。 Analysis は DRASearch
でインデックスされず,ftp でのファイル公開のみになります。
DDBJ Sequence Read Archive Handbook Handbook
3
データモデル
オブジェクトの構成例
登録者は実際のデータにあわせて柔軟にオブジェクトを構成することができます。
最もシンプルなケース
三つの菌株の比較ゲノム解析
(Technical, Biological) replicate がある場合
関連するデータが別々の論文に発表される場合
最も シンプルなケース
最もシンプルなケース
三つの 菌株の 比較ゲノム 解析
DDBJ Sequence Read Archive Handbook Handbook
4
三つの菌株の比較ゲノム解析.
(Te chnical, Biolog ical) re plicate が ある 場合
関連する FAQ: DRA 登録にはいくつのサンプルが必要ですか?
(Technical, Biolog ical) replicate がある場合
関連す る データ が 別々の 論文に発表さ れ る 場合
DDBJ Sequence Read Archive Handbook Handbook
5
関連するデータが別々の論文に発表される場合
メ タデータ各項目の 説明
必須*
条件によって必須*
Submission
Ce nte r Name
登録者が所属する組織に関する情報を記載します。
Center Name *
登録者が所属する組織の Center Name。Center Name リスト。DDBJ/EBI/NCBI SRA にデータを登録する際にはこの
Center Name が必要です。
メタデータ作成ツールはアカウント情報から Center Name を自動的に取得します。
Center Name は登録の所有権を示すものではなく,SRA が運用上使用している略称です。所有権は Submitter に記載される
登録者にあります。
Lab Name *
登録者が所属する研究室やグループ名。アカウントに登録されている "Lab/Group","Department (2)","Department
(1)","Org anization" がカンマで連結されたテキストが初期表示されます。
Hold Until
公開方法を指定します。
Hold Until*
公開予定日を設定します。最長で2年後まで設定でき,延長することができます。
Immediate Release *
即日公開。登録作業が終わり次第,データが公開されます。
S ubmitte r
登録者の名前とメールアドレスのリストです。責任者 (principal investigator) を含めてください。登録に関する連絡
は記入された全てのアドレスに対して行われます。責任者以外の人が登録作業をした場合,その作業者を含めてくだ
さい。登録者情報は公開されません。登録者情報を明示したい場合は BioProject に記載してください。
DDBJ Sequence Read Archive Handbook Handbook
6
Name *
登録者の名前。
E-mail*
登録者の電子メールアドレス。
Study (BioProject)
BioProject ID*
BioProject に登録済みのプロジェクトから該当するものを1つ選択するか,新規に BioProject を登録します。BioProject の登
録方法は BioProject Handbook を参照してください。
Sample (BioSample)
BioSample ID*
BioSample に登録済みのサンプルから該当するものを選択するか,新たにサンプルを登録します。BioSample の登録方法は
BioSample Handbook を参照してください。
Experiment
Alias
自動的に Experiment に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。
BioSample Used*
Experiment が参照している BioSample を選択します。
Title *
検索結果で表示される Experiment の短いタイトル。 自動的に "[Sequencing Instrument Model] [paired end]
sequencing of [BioSample ID]" というタイトル(例 "Illumina HiSeq 2000 paired end sequencing of
SAMD00025741")が構築されます。 独自のタイトルを入力する場合は,Experiment の内容をタブ区切りテキストファイルと
してダウンロードし,Title カラムにユニークなテキストを入力しアップロードします。
Library Name
ライブラリーの名前。
Library Source *
ライブラリー構築に用いた試料。
L ib ra ry S o u rce
D e s crip t io n
GENOMIC
Geno mic DNA (includes PCR pro ducts fro m geno mic DNA).
TRANSCRIPTOMIC
Transcriptio n pro ducts o r no n geno mic DNA (EST, cDNA, RT-PCR, screened libraries).
METAGENOMIC
Mixed material fro m metageno me.
METATRANSCRIPTOMIC
Transcriptio n pro ducts fro m co mmunity targets.
SYNTHETIC
Synthetic DNA.
VIRAL RNA
Viral RNA.
OTHER
Other, unspecified, o r unkno wn library so urce material.
Library Selection*
シークエンスに用いたライブラリを構築するためのサンプルの選別や濃縮方法。
L ib ra ry S e le ct io n
D e s crip t io n
RANDOM
Rando m shearing o nly.
PCR
So urce material was selected by designed primers.
RANDOM PCR
So urce material was selected by rando mly generated primers.
DDBJ Sequence Read Archive Handbook Handbook
7
L ib ra ry S e le ct io n
D e s crip t io n
RT-PCR
So urce material was selected by reverse transcriptio n PCR.
HMPR
Hypo -methylated partial restrictio n digest.
MF
Methyl Filtrated.
repeat fractio natio n
Selectio n fo r less repetitive (and mo re gene rich) sequence thro ugh
Co t filtratio n (CF) o r o ther fractio natio n techniques based o n DNA
kinetics.
size fractio natio n
Physical selectio n o f size appro priate targets.
MSLL
Methylatio n Spanning Linking Library.
cDNA
co mplementary DNA.
ChIP
Chro matin immuno precipitatio n.
MNase
Micro co ccal Nuclease (MNase) digestio n.
DNAse
Deo xyribo nuclease (DNase) digestio n.
Hybrid Selectio n
Selectio n by hybridizatio n in array o r so lutio n.
Reduced Representatio n
Repro ducible geno mic subsets, o ften generated by restrictio n
fragment size selectio n, co ntaining a manageable number o f lo ci to
facilitate re-sampling.
Restrictio n Digest
DNA fractio natio n using restrictio n enzymes.
5-methylcytidine antibo dy
Selectio n o f methylated DNA fragments using an antibo dy raised
against 5-methylcyto sine o r 5-methylcytidine (m5C)MBD2 pro tein
methyl-CpG binding do main : Enrichment by methyl-CpG binding
do main.
MBD2 pro tein methyl-CpG binding do main
MBD2 pro tein methyl-CpG binding do main.
CAGE
Cap-analysis gene expressio n.
RACE
Rapid Amplificatio n o f cDNA Ends.
MDA
multiple displacement amplificatio n.
padlo ck pro bes capture metho d
Padlo ck Pro bes capture strategy to be used in co njuctio n with
Bisulfite-Seq.
o ther
Other library enrichment, screening, o r selectio n pro cess.
unspecified
Library enrichment, screening, o r selectio n is no t specified.
Library Strategy*
ライブラリーの構築手法。
L ib ra ry S t ra t e g y
D e s crip t io n
WGS
Who le geno me sho tgun.
WGA
Who le geno me amplificatio n.
WXS
Rando m sequencing o f exo nic regio ns selected fro m the geno me.
RNA-Seq
Rando m sequencing o f who le transcripto me.
miRNA-Seq
Micro RNA and o ther small no n-co ding RNA sequencing.
ncRNA-Seq
Capture o f o ther no n-co ding RNA types, including po st-translatio n mo dificatio n types
such as snRNA (small nuclear RNA) o r sno RNA (small nucleo lar RNA), o r expressio n
regulatio n types such as siRNA (small interfering RNA) o r piRNA/piwi/RNA (piwiinteracting RNA).
WCS
Who le chro mo so me (o r o ther replico n) sho tgun.
CLONE
Geno mic clo ne based (hierarchical) sequencing.
POOLCLONE
Sho tgun o f po o led clo nes (usually BACs and Fo smids).
DDBJ Sequence Read Archive Handbook Handbook
8
L ib ra ry S t ra t e g y
D e s crip t io n
AMPLICON
Sequencing o f o verlapping o r distinct PCR o r RT-PCR pro ducts.
CLONEEND
Clo ne end (5', 3', o r bo th) sequencing.
FINISHING
Sequencing intended to finish (clo se) gaps in existing co verage.
ChIP-Seq
Direct sequencing o f chro matin immuno precipitates.
MNase-Seq
Direct sequencing fo llo wing MNase digestio n.
DNase-Hypersensitivity
Sequencing o f hypersensitive sites, o r segments o f o pen chro matin that are mo re
readily cleaved by DNaseI.
Bisulfite-Seq
Sequencing fo llo wing treatment o f DNA with bisulfite to co nvert cyto sine residues to
uracil depending o n methylatio n status.
EST
Single pass sequencing o f cDNA templates.
FL-cDNA
Full-length sequencing o f cDNA templates.
CTS
Co ncatenated Tag Sequencing.
MRE-Seq
Methylatio n-Sensitive Restrictio n Enzyme Sequencing strategy.
MeDIP-Seq
Methylated DNA Immuno precipitatio n Sequencing strategy.
MBD-Seq
Direct sequencing o f methylated fractio ns sequencing strategy.
Tn-Seq
Gene fitness determinatio n thro ugh transpo so n seeding.
FAIRE-seq
Fo rmaldehyde Assisted Iso latio n o f Regulato ry Elements
SELEX
Systematic Evo lutio n o f Ligands by EXpo nential enrichment
RIP-Seq
Direct sequencing o f RNA immuno precipitates (includes CLIP-Seq, HITS-CLIP and PARCLIP).
ChIA-PET
Direct sequencing o f pro ximity-ligated chro matin immuno precipitates.
Other
Library strategy no t listed.
Library Construction Protocol
ライブラリーを構築したプロトコール。
Instrument*
シークエンサの機種を選択します。
In s t ru me n t M o d e l
4 54 GS
4 54 GS 20
4 54 GS FLX
4 54 GS FLX+
4 54 GS FLX Titanium
4 54 GS Junio r
Illumina Geno me Analyzer
Illumina Geno me Analyzer II
Illumina Geno me Analyzer IIx
Illumina HiSeq 250 0
Illumina HiSeq 20 0 0
Illumina HiSeq 150 0
Illumina HiSeq 10 0 0
Illumina MiSeq
Illumina HiScanSQ
DDBJ Sequence Read Archive Handbook Handbook
9
In s t ru me n t M o d e l
HiSeq X Ten
NextSeq 50 0
Helico s HeliSco pe
AB SOLiD System
AB SOLiD System 2.0
AB SOLiD System 3.0
AB SOLiD 3 Plus System
AB SOLiD 4 System
AB SOLiD 4 hq System
AB SOLiD PI System
AB 550 0 Genetic Analyzer
AB 550 0 xl Genetic Analyzer
AB 550 0 xl-W Genetic Analysis System
Co mplete Geno mics
MinION
GridION
PacBio RS
PacBio RS II
Io n To rrent PGM
Io n To rrent Pro to n
AB 3730 xL Genetic Analyzer
AB 3730 Genetic Analyzer
AB 350 0 xL Genetic Analyzer
AB 350 0 Genetic Analyzer
AB 3130 xL Genetic Analyzer
AB 3130 Genetic Analyzer
AB 310 Genetic Analyzer
Spot Type *
データファイル中のリード構成を選択します。
S p o t T yp e
D e s crip t io n
single
Single read
paired (FF)
Paired reads with same directio n.
paired (FR)
Paired reads with o ppo site directio n.
Nominal Length*
ペアエンドライブラリを構築した際のインサートサイズ。
Nominal Sdev
インサートサイズの標準偏差
Spot Length*
データファイル中のリードの長さを記載します。ペアードの場合は両リードの合計長 (ギャップ長は除きます) を記入します。
Spot leng th が一定の場合,一定の値を記入
DDBJ Sequence Read Archive Handbook Handbook
10
リード長が一定ではない 454 プラットフォームの場合,フロー数を記入
不定長の fastq の場合,平均長を記入
Run
Alias
自動的に Run に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。
Title *
Run の短いタイトル。ユニークなタイトルを付けます。 検索結果で表示される Run の短いタイトル。 自動的に "[Sequencing
Instrument Model] [paired end] sequencing of [BioSample ID]" というタイトル(例 "Illumina HiSeq 2000 paired
end sequencing of SAMD00025741")が構築されます。 独自のタイトルを入力する場合は,Run の内容をタブ区切りテキ
ストファイルとしてダウンロードし,Title カラムにユニークなテキストを入力しアップロードします。
Experiment Referenced*
Run が属する Experiment を選択します。
Data file s for Run
Run に含めるデータファイルを選択します。
File Name *
シークエンスデータファイル名。DRA サーバにアップロードされているファイル名が自動的に入力されます。
Run/Analysis contains files *
データファイルが属する Run を選択します。
File Type *
シークエンスデータのファイル形式。リード長が一定ではない fastq ファイルの場合は "g eneric_fastq",一定の場合は "fastq"
を選択します。イルミナ qseq の場合,Run XML を編集して "Illumina_native_qseq" を入力します。
File T yp e
D e s crip t io n
generic_fastq
fastq files with variable read length
fastq
fastq files with co nstant read length
sff
4 54 Standard Flo wgram Fo rmat file
hdf5
PacBio hdf5 Fo rmat file
SOLiD_native
SOLiD csfasta and qual files
bam
Binary SAM fo rmat fo r use by lo aders that co mbine alignment and sequencing data
tab
A tab-delimited table maps "SN in SQ line o f BAM header" and "reference fasta file"
reference_fasta
Reference sequence file in single fasta fo rmat used to co nstruct SRA archive file fo rmat.
Filename must end with ".fa"
MD5 Checksum*
データファイルの MD5 チェックサム値。MD5 チェックサム値の取得方法
Analysis
Alias
自動的に Analysis に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。
Title *
Analysis オブジェクトのタイトル。
Description*
Analysis の内容を記述します。
DDBJ Sequence Read Archive Handbook Handbook
11
Analysis Type *
Analysis の種類を選択します。アライメントデータは Run に登録します。
An a lys is T yp e
D e s crip t io n
De No vo Assembly
A placement o f sequences including trace, SRA, GI reco rds into a multiple alignment
fro m which a co nsensus is co mputed..
Sequence Anno tatio n
Per sequence anno tatio n o f named attributes and values.
Example: Pro cessed sequencing data fo r submissio n to dbEST witho ut assembly.
Reads have already been submitted to o ne o f the sequence read archives in raw
fo rm.
The fasta data submitted under this analysis o bject result fro m the fo llo wing
treatments, which may serve to filter reads fro m the raw dataset:
- sequencing adapter remo val
- lo w quality trimming
- po ly-A tail remo val
- strand o rientatio n
- co ntaminant remo val.
Abundance Measurement
Identify the to o ls and pro cessing steps used to pro duce the abundance
measurements (co verage tracks).
Data file s for Analys is
Analysis に含めるデータファイルを選択します。
File Name *
解析データのファイル名。
Run/Analysis contains files *
データファイルが属する Analysis を選択します。
File Type *
解析データのファイル形式。
File T yp e
D e s crip t io n
bam
Binary fo rm o f the Sequence alignment/map fo rmat fo r read placements, fro m the SAM to o ls pro ject.
See http://so urcefo rge.net/pro jects/samto o ls/.
tab
A tab delimited text file that can be viewed as a spreadsheet. The first line sho uld co ntain co lumn
headers..
ace
Multiple alignment file o utput fro m the phred assembler and similar pro grams.
See http://www.phrap.o rg/co nsed/distributio ns/README.16 .0 .txt fo r a descriptio n o f the ACE file
fo rmat..
fasta
Sequence data fo rmat indicating sequence base calls.The fo rmat is simple: a header line initiated
with the > character, data lines fo llo wing with base calls..
wig
The wiggle (WIG) fo rmat allo ws display o f co ntinuo us-valued data in track fo rmat.This display type is
useful fo r GC percent, pro bability sco res, and transcripto me data.
See http://geno me.ucsc.edu/go ldenPath/help/wiggle.html fo r a descriptio n o f the Wiggle Track
fo rmat..
bed
BED fo rmat pro vides a flexible way to define the data lines that are displayed in an anno tatio n track.
See http://geno me.ucsc.edu/FAQ/FAQfo rmat#fo rmat1 fo r a descriptio n o f the BED fo rmat..
vcf
Variant Call Fo rmat.
See http://www.10 0 0 geno mes.o rg/wiki/analysis/variant%20 call%20 fo rmat/vcf-variant-call-fo rmatversio n-4 1 fo r a descriptio n o f the VCF fo rmat.
maf
Mutatio n Anno tatio n Fo rmat
gff
General Feature Fo rmat
csv
DDBJ Sequence Read Archive Handbook Handbook
12
File T yp e
D e s crip t io n
tsv
MD5 Checksum*
Analysis データファイルの MD5 チェックサム値。MD5 チェックサム値の取得方法補足
データファイル
アライメントデータやシークエンスデータを登録します。
fasta は受け付けていません。最低限 quality score 付きのベース/カラーコールデータが必要です。
プールされたデータはサンプルごとに分割し,シークエンスデータが単一の BioSample に由来するようにして
ください。
データファイルは登録用ディレクトリの直下に置いてください。基本的に tar などのアーカイブファイルのなかに
ディレクトリを作成しないでください。
BAM や SFF などのバイナリーファイルは圧縮しないでください。
登録するデータファイルの形式について
DRA のメタデータ作成ツールは technical read (アダプター,プライマーやバーコード配列) を記載することに対応し
ていません。 「technical read を含む生データを登録する場合」や「SRA XML schema (NCBI) 中にはあるがツール
中には無い項目をメタデータに記載する場合」はメタデータを XML ファイルで登録する必要があります。
一般的な形式
Format Platform
Recommended
BAM
all platforms Yes
fastq
all platforms Yes
プラットフォーム特異的な形式
Format
Platform
Recommended
SFF
454 and Ion Torrent Yes
SOLiD csfasta/qual
SOLiD
Yes
PacBio HDF
PacBio
Yes
Illumina qseq and scarf Illumina
No (please convert to fastq)
BAM ファイル
Run にアライメントデータを登録する場合は,「BAM」,「INSDC, refseq アクセッション番号 OR リファレンス配列
fasta」,「SN と リファレンス配列 の対応表」が必要です。
Run ではなく Analysis に登録する場合「SN と リファレンス配列の対応表」は不要です。
将来,新しいツールで再解析や再アライメントする際に重要であるため,BAM ファイルのみを登録するときはアライ
メントされなかったリードを含めてください。
1. BAM
アライメントデータを BAM フォーマットで登録することができます。BAM ファイルは SAMtools と picard で読み込
める形式になっている必要があります。圧縮していない BAM ファイルをアップロードしてください。
Run の File Type には "bam" を選択します。
DDBJ Sequence Read Archive Handbook Handbook
13
2. INS DC, re fs e q アクセッション番号 O R リ ファレ ンス 配列 fas ta
リファレンス配列が ftp://ftp-trace.ncbi.nlm.nih.gov/sra/refseq/ にある場合,アクセッション番号.バージョン
番号 (例 NC_000001.11) でリファレンスを参照することができます。 配列のバージョン番号は必須です。リファレ
ンスゲノム配列のアクセッション番号は NCBI Assembly で検索することができます。
上記レポジトリに配列がない場合,リファレンス配列を fasta ファイルで登録します。マルチ fasta ではなくシングル
fasta 形式にし,拡張子を ".fa" にします。 Run の File Type には "reference_fasta" を選択します。
3. S N- リ ファレ ンス 配列の 対応表
ご自分で独自に作成するファイルです。「BAM ファイルヘッダーの SQ 行中の SN」と「アクセッション番号 OR リ
ファレンス fasta ファイル (拡張子 .fa を除いたもの)」との対応関係をタブ区切りで記載します。 Run の File Type
には "tab" を選択します。
BAM ファイルヘッダー
@HD VN:1.0 GO:none SO:coordinate @SQ SN:chr1 LN:249698942 @SQ SN:chr2 LN:242508799 @SQ SN:chr3 LN:198450956 ...
SN-リファレンス配列の対応表。例では SN:chr1 にリファレンス fasta ファイル ref1.fa が対応。
chr1 ref1 chr2 ref2 chr3 ref3 ...
SN-リファレンス配列の対応表。例では SN:chr1 に NC_000001.11 が対応。
chr1 NC_000001.11 chr2 NC_000002.12 chr3 NC_000003.12 ...
fastq
リード長が揃っている fastq ファイルの場合,Run の file type で fastq を選択します。ペアードデータの場合,対に
なっているファイル中でペアとなっているリードが同じ順番で記載されている必要があります。
リード長が一定ではない fastq ファイル: Run の file type で generic_fastq を選択
Quality value は phred 形式にしてください。ファイルは tar でまとめないでください。データ転送に時間がかかる場
合には,必要に応じて fastq ファイルを gzip (.gz) もしくは bzip2 (.bz2) で圧縮してください。
454
454 からのシークエンスデータは sff ファイル か fastq ファイルで登録します。
sff ファイル中のリード名は,プレート内の位置情報とユニークな run id を反映した情報を含んでいるので,sff ファイ
ルを書き変えないでください。
sffファイル形式はすでに最適化されており,ファイルをさらに圧縮する必要はありません。圧縮していない sff ファイルを
送付してください。
sff ファイルに2つ以上のサンプルに由来するデータが含まれている場合は,sff から生成した fastq ファイルをサンプ
ルごとに分割して登録してください。
Illumina Genome Analyzer
Illumina Native Data
Illumina pipeline v1.4 以降
ファイル名を変更せずに qseq ファイルを Run の Data Block ごとに tar でまとめたものを登録します。 ペアードの
データファイルが Data Block ごとの tar ファイルに含まれている場合,ペアはリード名から自動判定されます。
データ転送に時間がかかる場合には,必要に応じて tar アーカイブファイル全体を gzip (.gz) もしくは bzip2 (.bz2)
で圧縮してください。qseq ファイルそのものは圧縮しないでください。
qseq の場合,Run XML を編集して filetype に "Illumina_native_qseq" を入力します。
qseq ファイルでの登録は推奨していません。できるだけ fastq に変換して登録してください。
DDBJ Sequence Read Archive Handbook Handbook
14
SOLiD
S O LiD Native Format
それぞれのランからの csfasta と QV.qual ファイルを登録します。ペアードデータの場合には,ペアのファイル (F3 と
R3) を登録します。 ファイルは tar でまとめないでください。データ転送に時間がかかる場合には,必要に応じてデータ
ファイルを gzip (.gz) もしくは bzip2 (.bz2) で圧縮してください。
Ion Torrent
sff ファイルもしくは fastq ファイルを登録します。
Helicos Heliscope
quality value をすべて "14" として作成した fastq ファイルを登録します。
Complete Genomics
fastq ファイルを登録します。
Pacific Biosciences
Pacific BioSystems は生データを格納するためにディレクトリ様構造を持つ HDF5 ファイルを使用しています。DRA
は bas.h5 と bax.h5 両方のファイル形式での登録を受け付けています。RS II から出力されるデータは,一つの (1)
bas.h5 と三つの (3) bax.h5 ファイルが必要であることに注意してください。
Pacific BioSystems からの出力データは fastq ファイルでの登録も受け付けています。リード長が一定ではないの
で,Run filetype には "generic_fastq" を指定してください。
Oxford Nanopore
fastq ファイルを登録します。
キャピラリシークエンサ
fastq ファイルを登録します。
DRA へのデータ登録
ヒ トを対象とした研究データ の 登録について
ヒトを対象とした全ての研究において DDBJ に送付するデータの由来である個人 (被験者) の情報・プライバシー
は,適用されるべき法律,規定,登録者が所属している機関の方針に従い,登録者の責任において保護されている
必要があります。
原則として,被験者を直接特定し得る参照情報は,登録データから取り除いてください。
ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」をご覧ください。
特許に関連す る データ の 登録
登録するデータが特許に関連する場合は,「特許に関連する塩基配列の登録に関する注意,データの優先権」の
内容を必ずご確認ください。
次世代シークエンサからのデータを DRA に登録するためにはメタデータとシークエンスデータが必要です。
アセンブルした配列データは DDBJ へ登録します。DDBJ Mass Submission System (MSS) が,次世代シークエン
サから生み出されるゲノムや大量データの登録受付先になります。
DDBJ Sequence Read Archive Handbook Handbook
15
DRA 登録の流れ
1. 登録アカウントを作成
D-way 登録アカウントを作成
公開鍵と center name をアカウントに登録し,DRA 登録を可能に
2. DRA 登録を作成しデータファイルをアップロード
新規 DRA 登録を作成 (アカウントに DRA 登録権限を付与しておきます)
BioProject,BioSample,Experiment と Run を投稿する前にデータファイルを scp でアップ
ロード
3. プロジェクトとサンプル情報を登録
BioProject (Study)
研究プロジェクトの内容
「なぜ」そのサンプルをシークエンスしたのか
BioSample (Sample)
生物学的,物理的にユニークなサンプル
「何を」シークエンスしたのか
メタデータをタブ区切りテキストファイルで登録できます
4. Experiment と Run を登録
DRA Experiment
特定のサンプルから構築したライブラリーについての説明
「どのように」シークエンスをしたのか
複数の Experiment は一つの Sample を参照できるが,逆はできない
DRA Run
Experiment と Run を投稿した後,データファイルの検証処理を開始
Run にリンクしている全てのデータファイルは 1 つの SRA ファイルにマージされます
5. シークエンスデータファイルの検証処理
シークエンスデータファイルをアーカイブ用 SRA ファイルに変換する処理を開始
検証処理を通った登録が査定されアクセッション番号が発行される
DRA へのデータ登録方法
データ構成
オブジェクトの構成例はこちらをご覧ください。 Submission 中では1つの BioProject のみ登録できます。
BioSample,Experiment,Run は複数登録することができます。サンプル数を中心に考えるとデータを構成しやすくな
ります。
ここでは3つのバクテリア菌株のゲノム配列をペアーエンドでシークエンスしたデータを登録する場合を例に説明しま
DDBJ Sequence Read Archive Handbook Handbook
16
す。
三つの菌株のゲノム配列を登録
新規登録の作成
D-way (https://trace.ddbj.nig.ac.jp/D-way) にログインします。上部の DRA メニューから DRA のデータ登録一覧
ページへ進みます。
[Create new Submission(s)] をクリックし,新規登録を作成します。
同時に,データ受付サーバ (dradata.ddbj.nig.ac.jp) に対応するディレクトリがホーム直下に作成されます。データファ
イルはこのディレクトリにアップロードします。
新規 DRA 登録の作成
登録のステータスには以下のものがあります。"submission_validated" と "data_error" になった登録が査定されま
す。
DRA 登録のステータス一覧
ステータス
状態
New
メタデータの投稿前
metadata_submitted
メタデータが投稿された
data_validating
データファイルの検証処理中
data_error
データファイルの検証処理エラー
submission_validated メタデータとデータファイルの検証処理が完了
completed
アクセッション番号が発行された
confidential
公開用ファイルの作成処理が完了し,非公開に保たれている状態
Public
公開されている状態
DDBJ Sequence Read Archive Handbook Handbook
17
シークエンスデータのアップロード
メタデータを作成する前に登録するシークエンスデータファイルをアップロードします。先にメタデータを作成する場合は
適当なファイルをアップロードしてください。
タ ーミナ ルによ る シークエンス データ の 転送 (Linux/ Mac O S X)
ファイルを SCP 転送します。
$ scp <Your Files> <D-way Login ID>@dradata.ddbj.nig.ac.jp:~/<DRA Submission ID>
<Your Files> 転送するファイル。例: file1 file2 (file1とfile2),file* (fileではじまる全てのファイル)
<D-way Login ID> D-way の Login ID (例 test07)
<DRA Submission ID> DRA 登録の Submission ID (例: test07-0018)
コマンドの例: scp strainA_1.fastq [email protected]:~/test07-0018
鍵を作成したときに指定したパスフレーズを入力します。
Enter passphrase for key '/home/you/.ssh/id_rsa':
サーバにログインし,直接ファイルを操作することができます。サーバに SSH でログインします。
$ ssh <D-way Login ID>@dradata.ddbj.nig.ac.jp
鍵を作成したときに指定したパスフレーズを入力します。
Enter passphrase for key '/home/you/.ssh/id_rsa':
ログインに成功すると,次のコマンドプロンプトが表示されます。
[test07@dradata ~]$
サーバのログイン環境は,登録者専用のプライベート環境になっていて,登録者以外はアクセスすることができません。
実行できるコマンドは下記のものに制限されています。
ls cd cp mv rm more mkdir tar gzip gunzip bzip2 bunzip2 zip unzip
WinS CP によ る シークエンス データ の 転送 (Window s )
WinSCP (http://winscp.net/eng/download.php) をインストールし,起動します。
以下のように設定した後, 右中央にある [Advanced...] をクリックします。
File protocol: SFTP
Hos t name : dradata.ddbj.nig.ac.jp
Port numbe r: 22
Us e r name : (D-way の Login ID を入力)
Pas s w ord: (空欄のまま)
DDBJ Sequence Read Archive Handbook Handbook
18
"Authentication" にある "Private key file" で,事前に作成した PuTTY 形式の秘密鍵を選択します。
最後に,下中央にある [Login] をクリックします。
初回接続時には警告メッセージが表示されますが,“はい” を選択してください (次回から表示されません)。次の画面
では,鍵を作成した際に指定したパスフレーズを入力します。
ログインに成功すると,左側のウィンドウにユーザの PC のフォルダ,右側のウィンドウにデータ受付サーバの登録者専
用ディレクトリが表示されます。 左側ウィンドウでファイルを選択し右側ウィンドウへドラッグ&ドロップし,サーバへファイ
ルを転送します。
転送したファイルは,ファイルを選択し [削除] ボタンをクリックすることで削除できます。
DDBJ Sequence Read Archive Handbook Handbook
19
Cybe rduck によ る シークエンス データ の 転送 (Mac O S X)
Cyberduck (http://cyberduck.ch) をインストールし,起動します。
トップ画面で “Open Connection” を選択します。
使用する転送方式で “SFTP (SSH File Transfer Protocol)” を選択します。
Cyberduck の起動画面で,以下のように設定し More Options の “Use Public Key Authentication” をチェック
します。
S e rve r: dradata.ddbj.nig.ac.jp
Port: 22
Us e rname : (D-wayのLogin IDを入力)
Pas s w ord: (空欄のまま)
Add to Ke ychain: (チェックを入れる)
DDBJ Sequence Read Archive Handbook Handbook
20
秘密鍵 (private key) はデフォルトで “ユーザのホームフォルダ .ssh フォルダ (Finder からは見えない隠しフォルダ) >
id_rsa” に保存されています。
初回接続時には警告メッセージが表示されますが “常に” を選択してください (次回から表示されません)。
ログインに成功すると,データ受付サーバの登録者専用ディレクトリが表示されます。登録者の PC にあるファイルを選
択しウィンドウにドラッグ&ドロップすることで,ファイルをサーバに転送します。
dradata.ddbj.nig.ac.jp サーバに秘密鍵を使って ssh でログインすることができます。 実行できるコマンドは下記
のものに制限されています。
ls cd cp mv rm more mkdir tar gzip gunzip bzip2 bunzip2 zip unzip
DDBJ 大量登録システム (Mass Submission System, MSS) 用の登録ファイルでサイズがメール添付の上限を
超えるような場合は DRA サーバを利用することができます。 MSS チームに連絡した後,ファイルを
/submission/[submitter ID]/mass にアップロードします。
ウェブツールでのメタデータ作成
作成した新規登録をクリックし,登録詳細ページへ移動します。
登録詳細ページへ移動
登録詳細ページ中の [Submit/Update Metadata] をクリックし,メタデータ作成ツールを起動します。
DDBJ Sequence Read Archive Handbook Handbook
21
メタデータ作成ツールを起動
新規登録に対応するファイルサーバのディレクトリにデータファイルがアップロードされていない場合,下記のようなメッ
セージが表示されます。データファイルをアップロードします。
先にメタデータを作成しておきたい場合は,適当なファイルをアップロードしておきます。
データファイルがアップロードされていない場合
メタデータは Submission,Study (BioProject),Sample (BioSample),Experiment,Run,Analysis (任意) オブ
ジェクトで構成されています。 メタデータ作成ツールの画面上で,各項目に内容を英語で入力していきます。
入力画面で必須項目は赤色のアスタリスク記号 (*) で示されています。
画面の下部にある [Save] や次のオブジェクトへの移動ボタンをクリックすると入力内容がチェックされます。エラーが
表示された場合は内容を修正してください。
S ubmis s ion
公開予定日を2年以内に設定します。 登録者には実作業者と責任者を含む複数名を指定してください。登録者情報は
一般に公開されません。
Submission に登録情報を入力
S tudy
[Create New BioProject] をクリックして新規にプロジェクトを登録するか,もしくは,自身のアカウントで登録したプロ
ジェクト一覧から,該当するものを1つ選びます。 従来通りプロジェクトを BioProject から個別に登録することもできま
す。
複数のプロジェクトを登録することはできません。 自身のアカウント以外で取得されたプロジェクトを参照したい場合は
DRA チームに連絡してください。
DDBJ Sequence Read Archive Handbook Handbook
22
BioProject の新規登録,もしくは選択
BioProject を新規登録する場合は左のタブから順番に内容を英語で入力していきます。二段目が BioProject になり
ます。登録者などの情報は DRA Submission で入力した内容が引き写されます。
各項目の説明は BioProject Handbook を参照してください。
BioProject の新規登録
ゲノムをアセンブルするプロジェクトでは,アセンブリに対してユニークな Locus tag prefix が必要です。
[Project data type="Genome Sequencing" or "Metagenome"] AND [Capture="Whole"] AND
[Objective="Sequence" or "Annotation" or "Assembly"] で Locus tag prefix 入力ボックスが現れます。
プレフィックスには3文字以上の英数字のみを含めることができます。先頭は英文字にします。数字は2文字目以降で使
用できます (例: A1C)。 シンボル (-_*) を含めることはできません。プレフィックスとタグの値はアンダースコア '_' で区
切ります (例: A1C_00001)。
WGS の登録のみで prefix を使用しない場合は入力欄を空にしてください。
prefix は NCBI が一括管理しています。プロジェクトを投稿する段階で,NCBI に prefix を予約しにいきます。予約済
みの場合はエラーになるので,再度希望する prefix を入力して投稿します。
複数の prefix の取得を希望する場合は DRA チームに連絡します
DDBJ Sequence Read Archive Handbook Handbook
23
Locus tag prefix の取得
最後の "OVERVIEW" で内容を確認したうえで [Submit BioProject] をクリックして投稿します。
BioProject の投稿
BioProject を投稿した後,Study では投稿したプロジェクトが選択されている状態になります。
投稿されたプロジェクトが選択される
S ample
DDBJ Sequence Read Archive Handbook Handbook
24
[Create New BioSample] でサンプルを新規に登録するか,もしくは,自身のアカウントで作成した BioSample 一覧
から,該当するものを全て選択します。
一つのチェックボックスを選択し,続いて Shift キーを押しながら次のボックスをクリックすると,サンプルが範囲選択さ
れます。 また,カラム上部のボックスにテキストを入力しサンプルを絞った状態で [Select filtered BioSamples] をク
リックすると,フィルターされたサンプルが全て選択されます。
自身のアカウント以外で取得された BioSample を参照したい場合は DRA チームに連絡してください。
BioSample の新規登録 or 選択
BioSample を新規登録する場合は左のタブから順番に内容を英語で入力していきます。二段目が BioSample にな
ります。登録者などの情報は DRA Submission で入力した内容が引き写されます。
各項目の説明は BioSample Handbook を参照してください。
BioSample の新規登録
"SAMPLE TYPE" でサンプルの種類を選択します。ゲノム配列を取得したサンプルの場合,MIxS 基準を満たしたサン
プル記述をする必要があります。
Sample type については BioSample Handbook を参照してください。
DDBJ Sequence Read Archive Handbook Handbook
25
Sample type の選択
Sample type に応じた属性入力用テンプレートファイルをダウンロードします。
必須・任意・ユーザが定義した一連の属性でサンプルを記述することが,登録作業の中心になります。
サンプル属性テンプレートファイルのダウンロード
ファイルはタブで区切られているので,エクセルなどの表計算ソフトで編集することができます。一行目には属性名が記
載されています。* が必須属性です。
二行目以降に1行1サンプルで入力していきます。BioProject アクセッション番号が発行されていないプロジェクトの場
合,bioproject_id には PSUB 番号を入力します。値がない属性には,適宜 "missing" や "not applicable" などを記
入します。
BioSample 属性の説明。独自の属性を追加したい場合は,右端に属性名と値を追加します。
表計算ソフトでのサンプル属性入力
最後の "OVERVIEW" で内容を確認したうえで投稿します。"ATTRIBUTES" で属性ファイルをダウンロードすることがで
きます。
DDBJ Sequence Read Archive Handbook Handbook
26
BioSample の投稿
BioSample を投稿した後,Sample では投稿したサンプルが選択されている状態になります。
投稿されたサンプルが選択される
Expe rime nt
初期状態では選択された BioSample と同数の Experiment と Run が作成され,それぞれの BioSample Experiment - Run がリンクされています。
BioProject - BioSample (1) - Experiment (1) - Run (1)
- BioSample (2) - Experiment (2) - Run (2)
- BioSample (3) - Experiment (3) - Run (3)
下の例では3つの Experiment が自動的に作成され,それぞれがユニークな BioSample を参照しています。
[Add new Experiment(s)] で Experiment の追加,右端の [Delete] で Experiment の削除をすることができます。
Run から参照されている Experiment は削除することができません。
各 BioSample を参照している Experiment が自動的に作成される
DDBJ Sequence Read Archive Handbook Handbook
27
タブ区切りテキストファイルでまとめて Experiment を作成することができます。まず [Save] で内容を保存し,Alias
(例 test07-0018_Experiment_0001 〜 0003) を確定します。Alias はアクセッション番号が発行されるまでのオブ
ジェクトの仮の名称になります。
[Download TSV file] で内容をタブ区切りテキストファイルとしてダウンロードします。
Save して Alias を確定し,タブ区切りテキストファイルをダウンロード
エクセルなどの表計算ソフトでメタデータをまとめて作成することができます。
"Title" は空であれば,自動的に "[Sequencing Instrument Model] [paired end] sequencing of [BioSample
ID]" というタイトル(例 "Illumina HiSeq 2000 paired end sequencing of SAMD00025741")が構築されます。
独自の Title を付けたい場合は,"Title" 欄にテキストを入力します。
"BioSample Used" は "SSUB BioSample Submission ID" : "Sample name" (例 SSUB003746 : Genome
bacteria strain A) で指定します。":" の両側の空白は無視されます。
Experiment テンプレートファイル
入力内容をタブ区切りテキストファイルとして保存し,選択したうえで [Upload TSV file] をクリックして読み込ませま
す。
Experiment をタブ区切りテキストファイルとしてアップロード
エクセルなどの表計算ソフト独自の形式ではなくタブ区切りテキストファイルとしてアップロードします。
Run
初期状態で選択された BioSample と同数の Experiment と Run が作成されており,それぞれの Run はユニークな
Experiment を参照しています。
下の例では3つの Run が作成され,それぞれが作成された Experiment を参照しています。
[Add new Run(s)] で Run の追加,右端の [Delete] で Run の削除をすることができます。ファイルが紐づいている
DDBJ Sequence Read Archive Handbook Handbook
28
Run は削除することができません。
Save して Alias を確定
[Save] で Run の Alias を確定すると,内容をタブ区切りテキストファイルでまとめて編集できるようになります。
[Select data files for Run] で Run とアップロードしたデータファイルをリンクする画面に移動します。
ファイルと Run をリンクする画面へ移動
ディレクトリにアップロードされているファイル一覧が表示されます。ファイルが属すべき Run の Alias を
"Run/Analysis contains files" で選択します。
続いて File type と MD5 Checksum を入力します。タブ区切りテキストファイルでまとめて内容を入力することができ
ます。
ペアリードが含まれるファイルは同じ Run に含めます。リード名からペアは自動で判定されます。Run に含まれて
いるファイルは1つにまとめられます。
リード長が一定ではない fastq ファイルの場合,filetype には "generic_fastq" を選択します。
データファイルの属性を入力し Run に結び付ける
DDBJ Sequence Read Archive Handbook Handbook
29
Analysis (任意) が不要な場合は [Submit/Update DRA metadata] をクリックし,メタデータを投稿します。
DRA メタデータの投稿
メタデータの投稿後,データファイルを検証する処理を開始します。"Validate uploaded data files to finish this
submission" をクリックします。
メタデータ投稿後,データファイルの検証に進む
Analys is (任意)
必要な数の Analysis を作成後,それぞれの Analysis について詳細を入力します。不要な Analysis は [Delete] ボ
タンで削除することができます。
[Select data files for Analysis] ボタンをクリックし,ファイルと Analysis を結び付ける画面に移動します。
Analysis の入力
データファイルの属性を入力し,Analysis とリンクさせます。
データファイルと Analysis のリンク
[Submit/Update DRA metadata] をクリックして内容を投稿し,データファイルの検証に進みます。Analysis 用のファ
イルは md5 しかチェックされません。
XML でのメタデータ登録方法
メタデータ作成ツールは technical read (アダプター,プライマーやバーコード配列) を記載することに対応していませ
ん。 「technical read を含む生データを登録する場合」や「SRA XML schema (NCBI) 中にはあるがツール中には無
い項目をメタデータに記載する場合」は メタデータを XML ファイルで登録します。
1. メタデータ作成ツールでメタデータを作成し,投稿します。
DDBJ Sequence Read Archive Handbook Handbook
30
2. "metadata_submitted" になった登録の Submission,Experiment,Run,Analysis (任意) を XML ファイルとし
てダウンロードします。
3. XML を編集します。ファイル中のリードの構成を記載する SPOT_DESCRIPTOR については記入例を参考にして
ください。 その他の項目については,SRA XML schema (NCBI) 中の説明を参照してください。
4. アクセッション番号が未発行の BioProject と BioSample を Experiment から参照する場合,以下のように記載
します。
<STUDY_REF>
<IDENTIFIERS>
<SAMPLE_DESCRIPTOR>
<PRIMARY_ID label="BioProject Submission ID">PSUB004220</PRIMARY_ID>
<IDENTIFIERS>
</IDENTIFIERS> </ST
<PRIMARY_ID label="BioSample Submission ID">SSUB003742 : sample name</PRIMARY_
5. XML を検証します。以下の Unix コマンドで XML をスキーマに対して検証することができます。エラーになる XML
をアップロードすることはできません。
xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.submission.xsd?view=co test07-0018.Submission.xml xmllint --
6. 編集した XML をアップロードします。Submission,Experiment,Run,Analysis (任意) の XML ファイルを選択
し,同時にアップロードします。
アップロードされた XML について「SRA xsd に対する妥当性」と「オブジェクト間の関係性」がチェックされます。エ
ラーが発生した場合はファイルを修正してください。
データファイルの検証
転送したシークエンスデータファイルをアーカイブ用 SRA ファイルに変換する過程で MD5 値とシークエンスデータの
整合性が検証されます。
“Data Files” に「Run と Analysis (任意) のメタデータに記載されているファイル名」と「データ受付サーバにアップ
ロードされたファイル名と MD5 値」が一覧表示されます。
メタデータに記載されている全てのファイルがアップロードされている場合,[Validate data files] がクリックできる状態
になります。
アップロードされているファイルのうちメタデータに記載されていないものは無視されます。
DDBJ Sequence Read Archive Handbook Handbook
31
登録詳細画面中の [Validate data files] をクリックし,シークエンスデータファイルの検証処理を開始します。
シークエンスデータの検証処理を開始
検証処理は以下の順番で実行されます。
MD5 Che ck
メタデータに記載されている MD5 値と,実際のファイルの MD5 値とが一致するかチェックされ,一致しない場合はエ
ラーが表示されます。 エラーの場合は [Submit/Update Metadata] からメタデータを修正するか,ファイルを再アップ
ロードしてください。
Data Che ck
シークエンスデータからアーカイブ用の SRA ファイルを作成します。この過程でシークエンスデータファイルのフォーマッ
トとメタデータとの整合性が検証されます。 作成に失敗するとエラーが表示されます。エラーが発生した場合は [Stop
validation] をクリックして検証処理を停止した後,メタデータを修正,もしくは,データファイルを再アップロードします。
ファイルサイズが大きい場合は検証処理に時間がかかります。
問題が無ければ登録のステータスが "submission_validated" になり,検証 されたファイルが別ディレクトリに移され
ます。
登録のステータスが "submission_validated" になると DRA スタッフが査定を始めます。 DRA スタッフから指示が
あるまで D-way を操作せずにお待ちください。
data_ e rror になった場合
検証処理のいずれかのステップでエラーになると,ステータスが "data_error" になります。 [Stop validation] をク
リックして検証処理を停止してから,メタデータの編集やファイルの再アップロードを行い,再度 [Validate data files]
をクリックしてください。
FAQ: データファイルの validation エラーへの対処方法は?
検証処理を停止
ステータスが "metadata_submitted" に戻るので,必要に応じてメタデータの修正,データファイルの再アップロード
を行います。
データを修正
アクセッション番号の発行
DDBJ Sequence Read Archive Handbook Handbook
32
メタデータとシークエンスデータに問題がなければ,プレフィックス DR (Submission (DRA),Experiment (DRX),Run
(DRR),Analysis (DRZ)) のアクセッション番号が発行され,ステータスが “completed” になります。アクセッション番
号は “Component” に表示されます。
また,Submission に記載されている登録者には,アクセッション番号がメールで通知されます。
DRA アクセッション番号
データ公開
登録データのデータベースへの取り込みが完了するとステータスが "confidential" になり,即日公開が指定されてい
る場合以外は,以下の原則に則り,データが公開されるまで非公開で保持されます。
DRA では以下の場合にデータを公開しています。
A. 登録者から公開依頼の連絡を受けた場合
B. 登録者がアクセッション番号を公表した事を確認した場合。
登録者以外の第三者が過失により他人のアクセッション番号を論文や学会等で公表した場合などは該当しま
せん。
公表とは,アクセッション番号を不特定多数の対象に知らせる行為 (学術論文,学会,インターネット,報道機関
などを媒体とした発表) を指します。
C. 公開予定日が到来した場合
D. DRA Run (DRR) アクセッション番号を引用している DDBJ/EMBL-Bank/GenBank レコード (TSA,WGS,
CON など) が公開された場合
B, C または D の場合は登録者の了解がなくても例外なく公開します。D の場合,引用されている DRR 番号を含む
DRA 登録全体が公開されます。
FAQ: BioProject/BioSample/塩基配列データの連動公開の仕組みは?
データが公開されると,数日間のうちに DRASearch で検索可能になり NCBI SRA にミラーリングされます。
DRA ファイルサーバに存在する fastq ファイル一覧: fastqlist
オブジェクトは Submission 単位で公開されます。オブジェクトを異なる時期に公開したい場合は Submission を
分けて登録してください。
登録の更新
各データベースにおける更新方法
データベース
更新方法
Annotated sequence database ウェブフォームから依頼
DDBJ Sequence Read Archive Handbook Handbook
33
Sequence Read Archive (DRA)
D-way にログインして登録者自身で更新
(配列データの追加や削除はウェブフォームから依頼)
BioProject
ウェブフォームから依頼
BioSample
ウェブフォームから依頼
公開予定日の変更
公開予定日は最長で2年後まで指定でき,繰り返し更新することができます。Hold Date の [Change] をクリックし,公
開予定日変更ページに移動し,予定日を変更します。
データを即日公開する場合は "Release Now" をクリックします。作業した日の深夜に公開処理が実施され,ftp に
データファイルが公開され,数日以内に DRA 検索システムにインデックスされます。
メタデータの更新
[Submit/Update Metadata] からメタデータを編集します。編集不可項目はブロックされています。 必要な編集が完
了後,メタデータ作成ツールの [Submit] ボタンをクリックし,更新内容を DRA データベースに反映させます。
関連する文献が公表された場合は,pubmed ID を含む文献情報を添えて BioProject チーム に追加を依頼します。
データファイルの追加
DRA では登録が完了した Run オブジェクトに直接データを追加することはできません。別の Submission で新しく
Experiment-Run のセットを追加し,既存の BioProject や BioSample を参照することでデータを追加します。
D-way にログインし,[Create new Submission(s)] をクリックし,新規 DRA 登録を作成します。 作成した新規登録
でデータを追加する対象の BioProject と BioSample を選択します。
新たにサンプルを追加する場合は BioProject を共有し,新規登録で BioSample - Experiment - Run を追加し
ます。
既存のサンプルにデータを追加する場合は BioProject と BioSample を共有し,新規登録で Experiment - Run
を追加します。
続いて DRA Experiment と Run タブで,Experiment,Run オブジェクトとデータファイルを追加します。
メタデータを submit し,ファイルの検証処理を実行します。追加された Experiment/Run オブジェクトに対してアク
セッション番号が発行されます。
追加したデータに対応する BioProject 番号は同一ですが,Submission に対する DRA 番号は異なります。
DDBJ Sequence Read Archive Handbook Handbook
34
サンプルの追加
サンプルへのデータ追加
DDBJ Sequence Read Archive Handbook Handbook
35
登録が完了した DRA 登録にデータファイルを直接追加する場合は DRA チームに連絡してください。
データの削除
DRA チームに連絡してください。
補足: MD5 値
MD5 (Message Digest Algorithm 5) はハッシュ関数であり,与えられたファイルに対してハッシュ値 (MD5値,32桁
の英数字) を出力します。ファイルが破損していると MD5 値が変化します。 DRA では,到着したファイルの MD5 値の
一致をチェックすることで,ファイルの破損がないかどうか確認しています。
MD5 値の取得 (Linux)
ファイルの MD5 値を取得します。
$ md5sum file1 file2 9F6E6800CFAE7749EB6C486619254B9C file1 B636E0063E29709B6082F324C76D0911 file2
MD5 値の取得 (Mac OS X)
ファイルの MD5 値を取得します。
$ md5 file1 file2 9F6E6800CFAE7749EB6C486619254B9C file1 B636E0063E29709B6082F324C76D0911 file2
MD5 値の取得 (Windows)
Fsum Frontend (http://sourceforge.net/projects/fsumfe/) をインストールし,起動します。
まず, "md5" にチェックを入れてください。
[+] ボタンをクリックし,必要なシークエンスデータファイルを開いてください。同時に複数のファイルを選択することが可
能です。
最後に,[Calculate hashes] ボタンをクリックしてください。各ファイルの MD5 値が表示されます。[Export] ボタンか
DDBJ Sequence Read Archive Handbook Handbook
36
ら,MD5 値の一覧表 (.html, .csv, .xml) を作成することができます。
免責事項
ソフトウェアの入手と利用は利用者の責任において行って下さい。 ソフトウェアの利用や誤った使用によって発生した損
失や損害に対して DDBJ は一切の責任を負いません。
DDBJ Sequence Read Archive Handbook Handbook