1 Handbooks DDBJ Sequence Read Archive Handbook 公開日: 2014年3月25日; 最終更新日: 2015年4月30日 DDBJ Sequence Read Archive メタデータ メタデータオブジェクト オブジェクトの構成例 Submission Study (BioProject) Sample (BioSample) Experiment Run Analysis データファイル 登録するデータファイルの形式について BAM ファイル fastq 454 Illumina Genome Analyzer SOLiD Ion Torrent Helicos Heliscope Complete Genomics Pacific Biosciences Oxford Nanopore キャピラリシークエンサ DRA へのデータ登録 DRA 登録の流れ DRA へのデータ登録方法 データ構成 新規登録の作成 シークエンスデータのアップロード ウェブツールでのメタデータ作成 XML でのメタデータ登録方法 データファイルの検証 アクセッション番号の発行 データ公開 登録の更新 各データベースにおける更新方法 公開予定日の変更 メタデータの更新 データファイルの追加 データの削除 補足: MD5 値 MD5 値の取得 (Linux) MD5 値の取得 (Mac OS X) MD5 値の取得 (Windows) 免責事項 DDBJ Sequence Read Archive DDBJ Sequence Read Archive (DRA) は Roche 454 GS System®,Illumina Genome Analyzer®,Applied Biosystems SOLiD® System などの次世代シークエンサからの出力データのためのデータベースです。 DRA は DDBJ Sequence Read Archive Handbook Handbook 2 International Nucleotide Sequence Database Collaboration (INSDC) のメンバーであり, NCBI Sequence Read Archive (SRA) と EBI Sequence Read Archive (ERA) との国際協力のもと,運営されています。 公開された Analysis 以外のデータは3極で自動的にミラーリングされます。 従来のキャピラリ式シークエンサからの出力データは fastq ファイルとして DRA に登録することができます。 クロマト グラムの登録を希望する場合は DDBJ Trace Archive に登録します。 メタデータ メタデータオブジェクト メタデータにはシークエンスデータがどのようにして得られたのかが記載されています。 メタデータは Submission,BioProject,BioSample,Experiment,Run,Analysis の各オブジェクトで構成されます。 各オブジェク トは XML スキーマで定義され,相互に関連付けられています。アクセッション番号はオブジェクトに対して発行されま す。 オブジェクトの構造とアクセッション番号は DDBJ/EBI/NCBI で共通です。 Experiment,Run,Analysis は SRA のオブジェクトで,BioProject と BioSample は外部データベースのオブジェクトになります。 メタデータの詳細は対応する XML スキーマをご覧ください。XML Schemas (NCBI) S ubmis s ion 登録するオブジェクトをとりまとめるオブジェクト。 BioProje ct 研究プロジェクト全体の概要。プロジェクトは複数のサンプルやデータセットを含むことが一般的です。 BioS ample 生物学的なサンプルに関する記述。サンプルはユニークな属性をもった BioSample として登録します。 Expe rime nt BioSample に由来するシークエンス用ライブラリーとシークエンスの手法について記載します。 Experiment は1つの BioProject と1つの BioSample を参照します。 複数の Experiment は1つの BioSample を参照することができます が,逆に1つの Experiment が複数の BioSample を参照することはできません。 Run シークエンス用ライブラリー (Experiment) に由来するファイルをまとめます。 Experiment を介してデータファイルは特 定のサンプルにリンクされます。 Run に含まれる全てのファイルは1つの SRA/fastq ファイルにマージされ,Run のア クセッション番号がファイル名になります。そのため,異なるサンプルや replicate に由来するファイルは同じ Run に含 めるべきではありません。 一方,ペアードのデータファイルは同じ Run に含め,リードが正しくペアとして処理されるよう にします。 Analys is Run に格納されたデータを解析したデータで,しかるべき登録先がないようなデータを登録します。Analysis は DDBJ/EBI/NCBI で交換していません。 交換を希望する場合は DRA チームに連絡します。 Analysis は DRASearch でインデックスされず,ftp でのファイル公開のみになります。 DDBJ Sequence Read Archive Handbook Handbook 3 データモデル オブジェクトの構成例 登録者は実際のデータにあわせて柔軟にオブジェクトを構成することができます。 最もシンプルなケース 三つの菌株の比較ゲノム解析 (Technical, Biological) replicate がある場合 関連するデータが別々の論文に発表される場合 最も シンプルなケース 最もシンプルなケース 三つの 菌株の 比較ゲノム 解析 DDBJ Sequence Read Archive Handbook Handbook 4 三つの菌株の比較ゲノム解析. (Te chnical, Biolog ical) re plicate が ある 場合 関連する FAQ: DRA 登録にはいくつのサンプルが必要ですか? (Technical, Biolog ical) replicate がある場合 関連す る データ が 別々の 論文に発表さ れ る 場合 DDBJ Sequence Read Archive Handbook Handbook 5 関連するデータが別々の論文に発表される場合 メ タデータ各項目の 説明 必須* 条件によって必須* Submission Ce nte r Name 登録者が所属する組織に関する情報を記載します。 Center Name * 登録者が所属する組織の Center Name。Center Name リスト。DDBJ/EBI/NCBI SRA にデータを登録する際にはこの Center Name が必要です。 メタデータ作成ツールはアカウント情報から Center Name を自動的に取得します。 Center Name は登録の所有権を示すものではなく,SRA が運用上使用している略称です。所有権は Submitter に記載される 登録者にあります。 Lab Name * 登録者が所属する研究室やグループ名。アカウントに登録されている "Lab/Group","Department (2)","Department (1)","Org anization" がカンマで連結されたテキストが初期表示されます。 Hold Until 公開方法を指定します。 Hold Until* 公開予定日を設定します。最長で2年後まで設定でき,延長することができます。 Immediate Release * 即日公開。登録作業が終わり次第,データが公開されます。 S ubmitte r 登録者の名前とメールアドレスのリストです。責任者 (principal investigator) を含めてください。登録に関する連絡 は記入された全てのアドレスに対して行われます。責任者以外の人が登録作業をした場合,その作業者を含めてくだ さい。登録者情報は公開されません。登録者情報を明示したい場合は BioProject に記載してください。 DDBJ Sequence Read Archive Handbook Handbook 6 Name * 登録者の名前。 E-mail* 登録者の電子メールアドレス。 Study (BioProject) BioProject ID* BioProject に登録済みのプロジェクトから該当するものを1つ選択するか,新規に BioProject を登録します。BioProject の登 録方法は BioProject Handbook を参照してください。 Sample (BioSample) BioSample ID* BioSample に登録済みのサンプルから該当するものを選択するか,新たにサンプルを登録します。BioSample の登録方法は BioSample Handbook を参照してください。 Experiment Alias 自動的に Experiment に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。 BioSample Used* Experiment が参照している BioSample を選択します。 Title * 検索結果で表示される Experiment の短いタイトル。 自動的に "[Sequencing Instrument Model] [paired end] sequencing of [BioSample ID]" というタイトル(例 "Illumina HiSeq 2000 paired end sequencing of SAMD00025741")が構築されます。 独自のタイトルを入力する場合は,Experiment の内容をタブ区切りテキストファイルと してダウンロードし,Title カラムにユニークなテキストを入力しアップロードします。 Library Name ライブラリーの名前。 Library Source * ライブラリー構築に用いた試料。 L ib ra ry S o u rce D e s crip t io n GENOMIC Geno mic DNA (includes PCR pro ducts fro m geno mic DNA). TRANSCRIPTOMIC Transcriptio n pro ducts o r no n geno mic DNA (EST, cDNA, RT-PCR, screened libraries). METAGENOMIC Mixed material fro m metageno me. METATRANSCRIPTOMIC Transcriptio n pro ducts fro m co mmunity targets. SYNTHETIC Synthetic DNA. VIRAL RNA Viral RNA. OTHER Other, unspecified, o r unkno wn library so urce material. Library Selection* シークエンスに用いたライブラリを構築するためのサンプルの選別や濃縮方法。 L ib ra ry S e le ct io n D e s crip t io n RANDOM Rando m shearing o nly. PCR So urce material was selected by designed primers. RANDOM PCR So urce material was selected by rando mly generated primers. DDBJ Sequence Read Archive Handbook Handbook 7 L ib ra ry S e le ct io n D e s crip t io n RT-PCR So urce material was selected by reverse transcriptio n PCR. HMPR Hypo -methylated partial restrictio n digest. MF Methyl Filtrated. repeat fractio natio n Selectio n fo r less repetitive (and mo re gene rich) sequence thro ugh Co t filtratio n (CF) o r o ther fractio natio n techniques based o n DNA kinetics. size fractio natio n Physical selectio n o f size appro priate targets. MSLL Methylatio n Spanning Linking Library. cDNA co mplementary DNA. ChIP Chro matin immuno precipitatio n. MNase Micro co ccal Nuclease (MNase) digestio n. DNAse Deo xyribo nuclease (DNase) digestio n. Hybrid Selectio n Selectio n by hybridizatio n in array o r so lutio n. Reduced Representatio n Repro ducible geno mic subsets, o ften generated by restrictio n fragment size selectio n, co ntaining a manageable number o f lo ci to facilitate re-sampling. Restrictio n Digest DNA fractio natio n using restrictio n enzymes. 5-methylcytidine antibo dy Selectio n o f methylated DNA fragments using an antibo dy raised against 5-methylcyto sine o r 5-methylcytidine (m5C)MBD2 pro tein methyl-CpG binding do main : Enrichment by methyl-CpG binding do main. MBD2 pro tein methyl-CpG binding do main MBD2 pro tein methyl-CpG binding do main. CAGE Cap-analysis gene expressio n. RACE Rapid Amplificatio n o f cDNA Ends. MDA multiple displacement amplificatio n. padlo ck pro bes capture metho d Padlo ck Pro bes capture strategy to be used in co njuctio n with Bisulfite-Seq. o ther Other library enrichment, screening, o r selectio n pro cess. unspecified Library enrichment, screening, o r selectio n is no t specified. Library Strategy* ライブラリーの構築手法。 L ib ra ry S t ra t e g y D e s crip t io n WGS Who le geno me sho tgun. WGA Who le geno me amplificatio n. WXS Rando m sequencing o f exo nic regio ns selected fro m the geno me. RNA-Seq Rando m sequencing o f who le transcripto me. miRNA-Seq Micro RNA and o ther small no n-co ding RNA sequencing. ncRNA-Seq Capture o f o ther no n-co ding RNA types, including po st-translatio n mo dificatio n types such as snRNA (small nuclear RNA) o r sno RNA (small nucleo lar RNA), o r expressio n regulatio n types such as siRNA (small interfering RNA) o r piRNA/piwi/RNA (piwiinteracting RNA). WCS Who le chro mo so me (o r o ther replico n) sho tgun. CLONE Geno mic clo ne based (hierarchical) sequencing. POOLCLONE Sho tgun o f po o led clo nes (usually BACs and Fo smids). DDBJ Sequence Read Archive Handbook Handbook 8 L ib ra ry S t ra t e g y D e s crip t io n AMPLICON Sequencing o f o verlapping o r distinct PCR o r RT-PCR pro ducts. CLONEEND Clo ne end (5', 3', o r bo th) sequencing. FINISHING Sequencing intended to finish (clo se) gaps in existing co verage. ChIP-Seq Direct sequencing o f chro matin immuno precipitates. MNase-Seq Direct sequencing fo llo wing MNase digestio n. DNase-Hypersensitivity Sequencing o f hypersensitive sites, o r segments o f o pen chro matin that are mo re readily cleaved by DNaseI. Bisulfite-Seq Sequencing fo llo wing treatment o f DNA with bisulfite to co nvert cyto sine residues to uracil depending o n methylatio n status. EST Single pass sequencing o f cDNA templates. FL-cDNA Full-length sequencing o f cDNA templates. CTS Co ncatenated Tag Sequencing. MRE-Seq Methylatio n-Sensitive Restrictio n Enzyme Sequencing strategy. MeDIP-Seq Methylated DNA Immuno precipitatio n Sequencing strategy. MBD-Seq Direct sequencing o f methylated fractio ns sequencing strategy. Tn-Seq Gene fitness determinatio n thro ugh transpo so n seeding. FAIRE-seq Fo rmaldehyde Assisted Iso latio n o f Regulato ry Elements SELEX Systematic Evo lutio n o f Ligands by EXpo nential enrichment RIP-Seq Direct sequencing o f RNA immuno precipitates (includes CLIP-Seq, HITS-CLIP and PARCLIP). ChIA-PET Direct sequencing o f pro ximity-ligated chro matin immuno precipitates. Other Library strategy no t listed. Library Construction Protocol ライブラリーを構築したプロトコール。 Instrument* シークエンサの機種を選択します。 In s t ru me n t M o d e l 4 54 GS 4 54 GS 20 4 54 GS FLX 4 54 GS FLX+ 4 54 GS FLX Titanium 4 54 GS Junio r Illumina Geno me Analyzer Illumina Geno me Analyzer II Illumina Geno me Analyzer IIx Illumina HiSeq 250 0 Illumina HiSeq 20 0 0 Illumina HiSeq 150 0 Illumina HiSeq 10 0 0 Illumina MiSeq Illumina HiScanSQ DDBJ Sequence Read Archive Handbook Handbook 9 In s t ru me n t M o d e l HiSeq X Ten NextSeq 50 0 Helico s HeliSco pe AB SOLiD System AB SOLiD System 2.0 AB SOLiD System 3.0 AB SOLiD 3 Plus System AB SOLiD 4 System AB SOLiD 4 hq System AB SOLiD PI System AB 550 0 Genetic Analyzer AB 550 0 xl Genetic Analyzer AB 550 0 xl-W Genetic Analysis System Co mplete Geno mics MinION GridION PacBio RS PacBio RS II Io n To rrent PGM Io n To rrent Pro to n AB 3730 xL Genetic Analyzer AB 3730 Genetic Analyzer AB 350 0 xL Genetic Analyzer AB 350 0 Genetic Analyzer AB 3130 xL Genetic Analyzer AB 3130 Genetic Analyzer AB 310 Genetic Analyzer Spot Type * データファイル中のリード構成を選択します。 S p o t T yp e D e s crip t io n single Single read paired (FF) Paired reads with same directio n. paired (FR) Paired reads with o ppo site directio n. Nominal Length* ペアエンドライブラリを構築した際のインサートサイズ。 Nominal Sdev インサートサイズの標準偏差 Spot Length* データファイル中のリードの長さを記載します。ペアードの場合は両リードの合計長 (ギャップ長は除きます) を記入します。 Spot leng th が一定の場合,一定の値を記入 DDBJ Sequence Read Archive Handbook Handbook 10 リード長が一定ではない 454 プラットフォームの場合,フロー数を記入 不定長の fastq の場合,平均長を記入 Run Alias 自動的に Run に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。 Title * Run の短いタイトル。ユニークなタイトルを付けます。 検索結果で表示される Run の短いタイトル。 自動的に "[Sequencing Instrument Model] [paired end] sequencing of [BioSample ID]" というタイトル(例 "Illumina HiSeq 2000 paired end sequencing of SAMD00025741")が構築されます。 独自のタイトルを入力する場合は,Run の内容をタブ区切りテキ ストファイルとしてダウンロードし,Title カラムにユニークなテキストを入力しアップロードします。 Experiment Referenced* Run が属する Experiment を選択します。 Data file s for Run Run に含めるデータファイルを選択します。 File Name * シークエンスデータファイル名。DRA サーバにアップロードされているファイル名が自動的に入力されます。 Run/Analysis contains files * データファイルが属する Run を選択します。 File Type * シークエンスデータのファイル形式。リード長が一定ではない fastq ファイルの場合は "g eneric_fastq",一定の場合は "fastq" を選択します。イルミナ qseq の場合,Run XML を編集して "Illumina_native_qseq" を入力します。 File T yp e D e s crip t io n generic_fastq fastq files with variable read length fastq fastq files with co nstant read length sff 4 54 Standard Flo wgram Fo rmat file hdf5 PacBio hdf5 Fo rmat file SOLiD_native SOLiD csfasta and qual files bam Binary SAM fo rmat fo r use by lo aders that co mbine alignment and sequencing data tab A tab-delimited table maps "SN in SQ line o f BAM header" and "reference fasta file" reference_fasta Reference sequence file in single fasta fo rmat used to co nstruct SRA archive file fo rmat. Filename must end with ".fa" MD5 Checksum* データファイルの MD5 チェックサム値。MD5 チェックサム値の取得方法 Analysis Alias 自動的に Analysis に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。 Title * Analysis オブジェクトのタイトル。 Description* Analysis の内容を記述します。 DDBJ Sequence Read Archive Handbook Handbook 11 Analysis Type * Analysis の種類を選択します。アライメントデータは Run に登録します。 An a lys is T yp e D e s crip t io n De No vo Assembly A placement o f sequences including trace, SRA, GI reco rds into a multiple alignment fro m which a co nsensus is co mputed.. Sequence Anno tatio n Per sequence anno tatio n o f named attributes and values. Example: Pro cessed sequencing data fo r submissio n to dbEST witho ut assembly. Reads have already been submitted to o ne o f the sequence read archives in raw fo rm. The fasta data submitted under this analysis o bject result fro m the fo llo wing treatments, which may serve to filter reads fro m the raw dataset: - sequencing adapter remo val - lo w quality trimming - po ly-A tail remo val - strand o rientatio n - co ntaminant remo val. Abundance Measurement Identify the to o ls and pro cessing steps used to pro duce the abundance measurements (co verage tracks). Data file s for Analys is Analysis に含めるデータファイルを選択します。 File Name * 解析データのファイル名。 Run/Analysis contains files * データファイルが属する Analysis を選択します。 File Type * 解析データのファイル形式。 File T yp e D e s crip t io n bam Binary fo rm o f the Sequence alignment/map fo rmat fo r read placements, fro m the SAM to o ls pro ject. See http://so urcefo rge.net/pro jects/samto o ls/. tab A tab delimited text file that can be viewed as a spreadsheet. The first line sho uld co ntain co lumn headers.. ace Multiple alignment file o utput fro m the phred assembler and similar pro grams. See http://www.phrap.o rg/co nsed/distributio ns/README.16 .0 .txt fo r a descriptio n o f the ACE file fo rmat.. fasta Sequence data fo rmat indicating sequence base calls.The fo rmat is simple: a header line initiated with the > character, data lines fo llo wing with base calls.. wig The wiggle (WIG) fo rmat allo ws display o f co ntinuo us-valued data in track fo rmat.This display type is useful fo r GC percent, pro bability sco res, and transcripto me data. See http://geno me.ucsc.edu/go ldenPath/help/wiggle.html fo r a descriptio n o f the Wiggle Track fo rmat.. bed BED fo rmat pro vides a flexible way to define the data lines that are displayed in an anno tatio n track. See http://geno me.ucsc.edu/FAQ/FAQfo rmat#fo rmat1 fo r a descriptio n o f the BED fo rmat.. vcf Variant Call Fo rmat. See http://www.10 0 0 geno mes.o rg/wiki/analysis/variant%20 call%20 fo rmat/vcf-variant-call-fo rmatversio n-4 1 fo r a descriptio n o f the VCF fo rmat. maf Mutatio n Anno tatio n Fo rmat gff General Feature Fo rmat csv DDBJ Sequence Read Archive Handbook Handbook 12 File T yp e D e s crip t io n tsv MD5 Checksum* Analysis データファイルの MD5 チェックサム値。MD5 チェックサム値の取得方法補足 データファイル アライメントデータやシークエンスデータを登録します。 fasta は受け付けていません。最低限 quality score 付きのベース/カラーコールデータが必要です。 プールされたデータはサンプルごとに分割し,シークエンスデータが単一の BioSample に由来するようにして ください。 データファイルは登録用ディレクトリの直下に置いてください。基本的に tar などのアーカイブファイルのなかに ディレクトリを作成しないでください。 BAM や SFF などのバイナリーファイルは圧縮しないでください。 登録するデータファイルの形式について DRA のメタデータ作成ツールは technical read (アダプター,プライマーやバーコード配列) を記載することに対応し ていません。 「technical read を含む生データを登録する場合」や「SRA XML schema (NCBI) 中にはあるがツール 中には無い項目をメタデータに記載する場合」はメタデータを XML ファイルで登録する必要があります。 一般的な形式 Format Platform Recommended BAM all platforms Yes fastq all platforms Yes プラットフォーム特異的な形式 Format Platform Recommended SFF 454 and Ion Torrent Yes SOLiD csfasta/qual SOLiD Yes PacBio HDF PacBio Yes Illumina qseq and scarf Illumina No (please convert to fastq) BAM ファイル Run にアライメントデータを登録する場合は,「BAM」,「INSDC, refseq アクセッション番号 OR リファレンス配列 fasta」,「SN と リファレンス配列 の対応表」が必要です。 Run ではなく Analysis に登録する場合「SN と リファレンス配列の対応表」は不要です。 将来,新しいツールで再解析や再アライメントする際に重要であるため,BAM ファイルのみを登録するときはアライ メントされなかったリードを含めてください。 1. BAM アライメントデータを BAM フォーマットで登録することができます。BAM ファイルは SAMtools と picard で読み込 める形式になっている必要があります。圧縮していない BAM ファイルをアップロードしてください。 Run の File Type には "bam" を選択します。 DDBJ Sequence Read Archive Handbook Handbook 13 2. INS DC, re fs e q アクセッション番号 O R リ ファレ ンス 配列 fas ta リファレンス配列が ftp://ftp-trace.ncbi.nlm.nih.gov/sra/refseq/ にある場合,アクセッション番号.バージョン 番号 (例 NC_000001.11) でリファレンスを参照することができます。 配列のバージョン番号は必須です。リファレ ンスゲノム配列のアクセッション番号は NCBI Assembly で検索することができます。 上記レポジトリに配列がない場合,リファレンス配列を fasta ファイルで登録します。マルチ fasta ではなくシングル fasta 形式にし,拡張子を ".fa" にします。 Run の File Type には "reference_fasta" を選択します。 3. S N- リ ファレ ンス 配列の 対応表 ご自分で独自に作成するファイルです。「BAM ファイルヘッダーの SQ 行中の SN」と「アクセッション番号 OR リ ファレンス fasta ファイル (拡張子 .fa を除いたもの)」との対応関係をタブ区切りで記載します。 Run の File Type には "tab" を選択します。 BAM ファイルヘッダー @HD VN:1.0 GO:none SO:coordinate @SQ SN:chr1 LN:249698942 @SQ SN:chr2 LN:242508799 @SQ SN:chr3 LN:198450956 ... SN-リファレンス配列の対応表。例では SN:chr1 にリファレンス fasta ファイル ref1.fa が対応。 chr1 ref1 chr2 ref2 chr3 ref3 ... SN-リファレンス配列の対応表。例では SN:chr1 に NC_000001.11 が対応。 chr1 NC_000001.11 chr2 NC_000002.12 chr3 NC_000003.12 ... fastq リード長が揃っている fastq ファイルの場合,Run の file type で fastq を選択します。ペアードデータの場合,対に なっているファイル中でペアとなっているリードが同じ順番で記載されている必要があります。 リード長が一定ではない fastq ファイル: Run の file type で generic_fastq を選択 Quality value は phred 形式にしてください。ファイルは tar でまとめないでください。データ転送に時間がかかる場 合には,必要に応じて fastq ファイルを gzip (.gz) もしくは bzip2 (.bz2) で圧縮してください。 454 454 からのシークエンスデータは sff ファイル か fastq ファイルで登録します。 sff ファイル中のリード名は,プレート内の位置情報とユニークな run id を反映した情報を含んでいるので,sff ファイ ルを書き変えないでください。 sffファイル形式はすでに最適化されており,ファイルをさらに圧縮する必要はありません。圧縮していない sff ファイルを 送付してください。 sff ファイルに2つ以上のサンプルに由来するデータが含まれている場合は,sff から生成した fastq ファイルをサンプ ルごとに分割して登録してください。 Illumina Genome Analyzer Illumina Native Data Illumina pipeline v1.4 以降 ファイル名を変更せずに qseq ファイルを Run の Data Block ごとに tar でまとめたものを登録します。 ペアードの データファイルが Data Block ごとの tar ファイルに含まれている場合,ペアはリード名から自動判定されます。 データ転送に時間がかかる場合には,必要に応じて tar アーカイブファイル全体を gzip (.gz) もしくは bzip2 (.bz2) で圧縮してください。qseq ファイルそのものは圧縮しないでください。 qseq の場合,Run XML を編集して filetype に "Illumina_native_qseq" を入力します。 qseq ファイルでの登録は推奨していません。できるだけ fastq に変換して登録してください。 DDBJ Sequence Read Archive Handbook Handbook 14 SOLiD S O LiD Native Format それぞれのランからの csfasta と QV.qual ファイルを登録します。ペアードデータの場合には,ペアのファイル (F3 と R3) を登録します。 ファイルは tar でまとめないでください。データ転送に時間がかかる場合には,必要に応じてデータ ファイルを gzip (.gz) もしくは bzip2 (.bz2) で圧縮してください。 Ion Torrent sff ファイルもしくは fastq ファイルを登録します。 Helicos Heliscope quality value をすべて "14" として作成した fastq ファイルを登録します。 Complete Genomics fastq ファイルを登録します。 Pacific Biosciences Pacific BioSystems は生データを格納するためにディレクトリ様構造を持つ HDF5 ファイルを使用しています。DRA は bas.h5 と bax.h5 両方のファイル形式での登録を受け付けています。RS II から出力されるデータは,一つの (1) bas.h5 と三つの (3) bax.h5 ファイルが必要であることに注意してください。 Pacific BioSystems からの出力データは fastq ファイルでの登録も受け付けています。リード長が一定ではないの で,Run filetype には "generic_fastq" を指定してください。 Oxford Nanopore fastq ファイルを登録します。 キャピラリシークエンサ fastq ファイルを登録します。 DRA へのデータ登録 ヒ トを対象とした研究データ の 登録について ヒトを対象とした全ての研究において DDBJ に送付するデータの由来である個人 (被験者) の情報・プライバシー は,適用されるべき法律,規定,登録者が所属している機関の方針に従い,登録者の責任において保護されている 必要があります。 原則として,被験者を直接特定し得る参照情報は,登録データから取り除いてください。 ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」をご覧ください。 特許に関連す る データ の 登録 登録するデータが特許に関連する場合は,「特許に関連する塩基配列の登録に関する注意,データの優先権」の 内容を必ずご確認ください。 次世代シークエンサからのデータを DRA に登録するためにはメタデータとシークエンスデータが必要です。 アセンブルした配列データは DDBJ へ登録します。DDBJ Mass Submission System (MSS) が,次世代シークエン サから生み出されるゲノムや大量データの登録受付先になります。 DDBJ Sequence Read Archive Handbook Handbook 15 DRA 登録の流れ 1. 登録アカウントを作成 D-way 登録アカウントを作成 公開鍵と center name をアカウントに登録し,DRA 登録を可能に 2. DRA 登録を作成しデータファイルをアップロード 新規 DRA 登録を作成 (アカウントに DRA 登録権限を付与しておきます) BioProject,BioSample,Experiment と Run を投稿する前にデータファイルを scp でアップ ロード 3. プロジェクトとサンプル情報を登録 BioProject (Study) 研究プロジェクトの内容 「なぜ」そのサンプルをシークエンスしたのか BioSample (Sample) 生物学的,物理的にユニークなサンプル 「何を」シークエンスしたのか メタデータをタブ区切りテキストファイルで登録できます 4. Experiment と Run を登録 DRA Experiment 特定のサンプルから構築したライブラリーについての説明 「どのように」シークエンスをしたのか 複数の Experiment は一つの Sample を参照できるが,逆はできない DRA Run Experiment と Run を投稿した後,データファイルの検証処理を開始 Run にリンクしている全てのデータファイルは 1 つの SRA ファイルにマージされます 5. シークエンスデータファイルの検証処理 シークエンスデータファイルをアーカイブ用 SRA ファイルに変換する処理を開始 検証処理を通った登録が査定されアクセッション番号が発行される DRA へのデータ登録方法 データ構成 オブジェクトの構成例はこちらをご覧ください。 Submission 中では1つの BioProject のみ登録できます。 BioSample,Experiment,Run は複数登録することができます。サンプル数を中心に考えるとデータを構成しやすくな ります。 ここでは3つのバクテリア菌株のゲノム配列をペアーエンドでシークエンスしたデータを登録する場合を例に説明しま DDBJ Sequence Read Archive Handbook Handbook 16 す。 三つの菌株のゲノム配列を登録 新規登録の作成 D-way (https://trace.ddbj.nig.ac.jp/D-way) にログインします。上部の DRA メニューから DRA のデータ登録一覧 ページへ進みます。 [Create new Submission(s)] をクリックし,新規登録を作成します。 同時に,データ受付サーバ (dradata.ddbj.nig.ac.jp) に対応するディレクトリがホーム直下に作成されます。データファ イルはこのディレクトリにアップロードします。 新規 DRA 登録の作成 登録のステータスには以下のものがあります。"submission_validated" と "data_error" になった登録が査定されま す。 DRA 登録のステータス一覧 ステータス 状態 New メタデータの投稿前 metadata_submitted メタデータが投稿された data_validating データファイルの検証処理中 data_error データファイルの検証処理エラー submission_validated メタデータとデータファイルの検証処理が完了 completed アクセッション番号が発行された confidential 公開用ファイルの作成処理が完了し,非公開に保たれている状態 Public 公開されている状態 DDBJ Sequence Read Archive Handbook Handbook 17 シークエンスデータのアップロード メタデータを作成する前に登録するシークエンスデータファイルをアップロードします。先にメタデータを作成する場合は 適当なファイルをアップロードしてください。 タ ーミナ ルによ る シークエンス データ の 転送 (Linux/ Mac O S X) ファイルを SCP 転送します。 $ scp <Your Files> <D-way Login ID>@dradata.ddbj.nig.ac.jp:~/<DRA Submission ID> <Your Files> 転送するファイル。例: file1 file2 (file1とfile2),file* (fileではじまる全てのファイル) <D-way Login ID> D-way の Login ID (例 test07) <DRA Submission ID> DRA 登録の Submission ID (例: test07-0018) コマンドの例: scp strainA_1.fastq [email protected]:~/test07-0018 鍵を作成したときに指定したパスフレーズを入力します。 Enter passphrase for key '/home/you/.ssh/id_rsa': サーバにログインし,直接ファイルを操作することができます。サーバに SSH でログインします。 $ ssh <D-way Login ID>@dradata.ddbj.nig.ac.jp 鍵を作成したときに指定したパスフレーズを入力します。 Enter passphrase for key '/home/you/.ssh/id_rsa': ログインに成功すると,次のコマンドプロンプトが表示されます。 [test07@dradata ~]$ サーバのログイン環境は,登録者専用のプライベート環境になっていて,登録者以外はアクセスすることができません。 実行できるコマンドは下記のものに制限されています。 ls cd cp mv rm more mkdir tar gzip gunzip bzip2 bunzip2 zip unzip WinS CP によ る シークエンス データ の 転送 (Window s ) WinSCP (http://winscp.net/eng/download.php) をインストールし,起動します。 以下のように設定した後, 右中央にある [Advanced...] をクリックします。 File protocol: SFTP Hos t name : dradata.ddbj.nig.ac.jp Port numbe r: 22 Us e r name : (D-way の Login ID を入力) Pas s w ord: (空欄のまま) DDBJ Sequence Read Archive Handbook Handbook 18 "Authentication" にある "Private key file" で,事前に作成した PuTTY 形式の秘密鍵を選択します。 最後に,下中央にある [Login] をクリックします。 初回接続時には警告メッセージが表示されますが,“はい” を選択してください (次回から表示されません)。次の画面 では,鍵を作成した際に指定したパスフレーズを入力します。 ログインに成功すると,左側のウィンドウにユーザの PC のフォルダ,右側のウィンドウにデータ受付サーバの登録者専 用ディレクトリが表示されます。 左側ウィンドウでファイルを選択し右側ウィンドウへドラッグ&ドロップし,サーバへファイ ルを転送します。 転送したファイルは,ファイルを選択し [削除] ボタンをクリックすることで削除できます。 DDBJ Sequence Read Archive Handbook Handbook 19 Cybe rduck によ る シークエンス データ の 転送 (Mac O S X) Cyberduck (http://cyberduck.ch) をインストールし,起動します。 トップ画面で “Open Connection” を選択します。 使用する転送方式で “SFTP (SSH File Transfer Protocol)” を選択します。 Cyberduck の起動画面で,以下のように設定し More Options の “Use Public Key Authentication” をチェック します。 S e rve r: dradata.ddbj.nig.ac.jp Port: 22 Us e rname : (D-wayのLogin IDを入力) Pas s w ord: (空欄のまま) Add to Ke ychain: (チェックを入れる) DDBJ Sequence Read Archive Handbook Handbook 20 秘密鍵 (private key) はデフォルトで “ユーザのホームフォルダ .ssh フォルダ (Finder からは見えない隠しフォルダ) > id_rsa” に保存されています。 初回接続時には警告メッセージが表示されますが “常に” を選択してください (次回から表示されません)。 ログインに成功すると,データ受付サーバの登録者専用ディレクトリが表示されます。登録者の PC にあるファイルを選 択しウィンドウにドラッグ&ドロップすることで,ファイルをサーバに転送します。 dradata.ddbj.nig.ac.jp サーバに秘密鍵を使って ssh でログインすることができます。 実行できるコマンドは下記 のものに制限されています。 ls cd cp mv rm more mkdir tar gzip gunzip bzip2 bunzip2 zip unzip DDBJ 大量登録システム (Mass Submission System, MSS) 用の登録ファイルでサイズがメール添付の上限を 超えるような場合は DRA サーバを利用することができます。 MSS チームに連絡した後,ファイルを /submission/[submitter ID]/mass にアップロードします。 ウェブツールでのメタデータ作成 作成した新規登録をクリックし,登録詳細ページへ移動します。 登録詳細ページへ移動 登録詳細ページ中の [Submit/Update Metadata] をクリックし,メタデータ作成ツールを起動します。 DDBJ Sequence Read Archive Handbook Handbook 21 メタデータ作成ツールを起動 新規登録に対応するファイルサーバのディレクトリにデータファイルがアップロードされていない場合,下記のようなメッ セージが表示されます。データファイルをアップロードします。 先にメタデータを作成しておきたい場合は,適当なファイルをアップロードしておきます。 データファイルがアップロードされていない場合 メタデータは Submission,Study (BioProject),Sample (BioSample),Experiment,Run,Analysis (任意) オブ ジェクトで構成されています。 メタデータ作成ツールの画面上で,各項目に内容を英語で入力していきます。 入力画面で必須項目は赤色のアスタリスク記号 (*) で示されています。 画面の下部にある [Save] や次のオブジェクトへの移動ボタンをクリックすると入力内容がチェックされます。エラーが 表示された場合は内容を修正してください。 S ubmis s ion 公開予定日を2年以内に設定します。 登録者には実作業者と責任者を含む複数名を指定してください。登録者情報は 一般に公開されません。 Submission に登録情報を入力 S tudy [Create New BioProject] をクリックして新規にプロジェクトを登録するか,もしくは,自身のアカウントで登録したプロ ジェクト一覧から,該当するものを1つ選びます。 従来通りプロジェクトを BioProject から個別に登録することもできま す。 複数のプロジェクトを登録することはできません。 自身のアカウント以外で取得されたプロジェクトを参照したい場合は DRA チームに連絡してください。 DDBJ Sequence Read Archive Handbook Handbook 22 BioProject の新規登録,もしくは選択 BioProject を新規登録する場合は左のタブから順番に内容を英語で入力していきます。二段目が BioProject になり ます。登録者などの情報は DRA Submission で入力した内容が引き写されます。 各項目の説明は BioProject Handbook を参照してください。 BioProject の新規登録 ゲノムをアセンブルするプロジェクトでは,アセンブリに対してユニークな Locus tag prefix が必要です。 [Project data type="Genome Sequencing" or "Metagenome"] AND [Capture="Whole"] AND [Objective="Sequence" or "Annotation" or "Assembly"] で Locus tag prefix 入力ボックスが現れます。 プレフィックスには3文字以上の英数字のみを含めることができます。先頭は英文字にします。数字は2文字目以降で使 用できます (例: A1C)。 シンボル (-_*) を含めることはできません。プレフィックスとタグの値はアンダースコア '_' で区 切ります (例: A1C_00001)。 WGS の登録のみで prefix を使用しない場合は入力欄を空にしてください。 prefix は NCBI が一括管理しています。プロジェクトを投稿する段階で,NCBI に prefix を予約しにいきます。予約済 みの場合はエラーになるので,再度希望する prefix を入力して投稿します。 複数の prefix の取得を希望する場合は DRA チームに連絡します DDBJ Sequence Read Archive Handbook Handbook 23 Locus tag prefix の取得 最後の "OVERVIEW" で内容を確認したうえで [Submit BioProject] をクリックして投稿します。 BioProject の投稿 BioProject を投稿した後,Study では投稿したプロジェクトが選択されている状態になります。 投稿されたプロジェクトが選択される S ample DDBJ Sequence Read Archive Handbook Handbook 24 [Create New BioSample] でサンプルを新規に登録するか,もしくは,自身のアカウントで作成した BioSample 一覧 から,該当するものを全て選択します。 一つのチェックボックスを選択し,続いて Shift キーを押しながら次のボックスをクリックすると,サンプルが範囲選択さ れます。 また,カラム上部のボックスにテキストを入力しサンプルを絞った状態で [Select filtered BioSamples] をク リックすると,フィルターされたサンプルが全て選択されます。 自身のアカウント以外で取得された BioSample を参照したい場合は DRA チームに連絡してください。 BioSample の新規登録 or 選択 BioSample を新規登録する場合は左のタブから順番に内容を英語で入力していきます。二段目が BioSample にな ります。登録者などの情報は DRA Submission で入力した内容が引き写されます。 各項目の説明は BioSample Handbook を参照してください。 BioSample の新規登録 "SAMPLE TYPE" でサンプルの種類を選択します。ゲノム配列を取得したサンプルの場合,MIxS 基準を満たしたサン プル記述をする必要があります。 Sample type については BioSample Handbook を参照してください。 DDBJ Sequence Read Archive Handbook Handbook 25 Sample type の選択 Sample type に応じた属性入力用テンプレートファイルをダウンロードします。 必須・任意・ユーザが定義した一連の属性でサンプルを記述することが,登録作業の中心になります。 サンプル属性テンプレートファイルのダウンロード ファイルはタブで区切られているので,エクセルなどの表計算ソフトで編集することができます。一行目には属性名が記 載されています。* が必須属性です。 二行目以降に1行1サンプルで入力していきます。BioProject アクセッション番号が発行されていないプロジェクトの場 合,bioproject_id には PSUB 番号を入力します。値がない属性には,適宜 "missing" や "not applicable" などを記 入します。 BioSample 属性の説明。独自の属性を追加したい場合は,右端に属性名と値を追加します。 表計算ソフトでのサンプル属性入力 最後の "OVERVIEW" で内容を確認したうえで投稿します。"ATTRIBUTES" で属性ファイルをダウンロードすることがで きます。 DDBJ Sequence Read Archive Handbook Handbook 26 BioSample の投稿 BioSample を投稿した後,Sample では投稿したサンプルが選択されている状態になります。 投稿されたサンプルが選択される Expe rime nt 初期状態では選択された BioSample と同数の Experiment と Run が作成され,それぞれの BioSample Experiment - Run がリンクされています。 BioProject - BioSample (1) - Experiment (1) - Run (1) - BioSample (2) - Experiment (2) - Run (2) - BioSample (3) - Experiment (3) - Run (3) 下の例では3つの Experiment が自動的に作成され,それぞれがユニークな BioSample を参照しています。 [Add new Experiment(s)] で Experiment の追加,右端の [Delete] で Experiment の削除をすることができます。 Run から参照されている Experiment は削除することができません。 各 BioSample を参照している Experiment が自動的に作成される DDBJ Sequence Read Archive Handbook Handbook 27 タブ区切りテキストファイルでまとめて Experiment を作成することができます。まず [Save] で内容を保存し,Alias (例 test07-0018_Experiment_0001 〜 0003) を確定します。Alias はアクセッション番号が発行されるまでのオブ ジェクトの仮の名称になります。 [Download TSV file] で内容をタブ区切りテキストファイルとしてダウンロードします。 Save して Alias を確定し,タブ区切りテキストファイルをダウンロード エクセルなどの表計算ソフトでメタデータをまとめて作成することができます。 "Title" は空であれば,自動的に "[Sequencing Instrument Model] [paired end] sequencing of [BioSample ID]" というタイトル(例 "Illumina HiSeq 2000 paired end sequencing of SAMD00025741")が構築されます。 独自の Title を付けたい場合は,"Title" 欄にテキストを入力します。 "BioSample Used" は "SSUB BioSample Submission ID" : "Sample name" (例 SSUB003746 : Genome bacteria strain A) で指定します。":" の両側の空白は無視されます。 Experiment テンプレートファイル 入力内容をタブ区切りテキストファイルとして保存し,選択したうえで [Upload TSV file] をクリックして読み込ませま す。 Experiment をタブ区切りテキストファイルとしてアップロード エクセルなどの表計算ソフト独自の形式ではなくタブ区切りテキストファイルとしてアップロードします。 Run 初期状態で選択された BioSample と同数の Experiment と Run が作成されており,それぞれの Run はユニークな Experiment を参照しています。 下の例では3つの Run が作成され,それぞれが作成された Experiment を参照しています。 [Add new Run(s)] で Run の追加,右端の [Delete] で Run の削除をすることができます。ファイルが紐づいている DDBJ Sequence Read Archive Handbook Handbook 28 Run は削除することができません。 Save して Alias を確定 [Save] で Run の Alias を確定すると,内容をタブ区切りテキストファイルでまとめて編集できるようになります。 [Select data files for Run] で Run とアップロードしたデータファイルをリンクする画面に移動します。 ファイルと Run をリンクする画面へ移動 ディレクトリにアップロードされているファイル一覧が表示されます。ファイルが属すべき Run の Alias を "Run/Analysis contains files" で選択します。 続いて File type と MD5 Checksum を入力します。タブ区切りテキストファイルでまとめて内容を入力することができ ます。 ペアリードが含まれるファイルは同じ Run に含めます。リード名からペアは自動で判定されます。Run に含まれて いるファイルは1つにまとめられます。 リード長が一定ではない fastq ファイルの場合,filetype には "generic_fastq" を選択します。 データファイルの属性を入力し Run に結び付ける DDBJ Sequence Read Archive Handbook Handbook 29 Analysis (任意) が不要な場合は [Submit/Update DRA metadata] をクリックし,メタデータを投稿します。 DRA メタデータの投稿 メタデータの投稿後,データファイルを検証する処理を開始します。"Validate uploaded data files to finish this submission" をクリックします。 メタデータ投稿後,データファイルの検証に進む Analys is (任意) 必要な数の Analysis を作成後,それぞれの Analysis について詳細を入力します。不要な Analysis は [Delete] ボ タンで削除することができます。 [Select data files for Analysis] ボタンをクリックし,ファイルと Analysis を結び付ける画面に移動します。 Analysis の入力 データファイルの属性を入力し,Analysis とリンクさせます。 データファイルと Analysis のリンク [Submit/Update DRA metadata] をクリックして内容を投稿し,データファイルの検証に進みます。Analysis 用のファ イルは md5 しかチェックされません。 XML でのメタデータ登録方法 メタデータ作成ツールは technical read (アダプター,プライマーやバーコード配列) を記載することに対応していませ ん。 「technical read を含む生データを登録する場合」や「SRA XML schema (NCBI) 中にはあるがツール中には無 い項目をメタデータに記載する場合」は メタデータを XML ファイルで登録します。 1. メタデータ作成ツールでメタデータを作成し,投稿します。 DDBJ Sequence Read Archive Handbook Handbook 30 2. "metadata_submitted" になった登録の Submission,Experiment,Run,Analysis (任意) を XML ファイルとし てダウンロードします。 3. XML を編集します。ファイル中のリードの構成を記載する SPOT_DESCRIPTOR については記入例を参考にして ください。 その他の項目については,SRA XML schema (NCBI) 中の説明を参照してください。 4. アクセッション番号が未発行の BioProject と BioSample を Experiment から参照する場合,以下のように記載 します。 <STUDY_REF> <IDENTIFIERS> <SAMPLE_DESCRIPTOR> <PRIMARY_ID label="BioProject Submission ID">PSUB004220</PRIMARY_ID> <IDENTIFIERS> </IDENTIFIERS> </ST <PRIMARY_ID label="BioSample Submission ID">SSUB003742 : sample name</PRIMARY_ 5. XML を検証します。以下の Unix コマンドで XML をスキーマに対して検証することができます。エラーになる XML をアップロードすることはできません。 xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.submission.xsd?view=co test07-0018.Submission.xml xmllint -- 6. 編集した XML をアップロードします。Submission,Experiment,Run,Analysis (任意) の XML ファイルを選択 し,同時にアップロードします。 アップロードされた XML について「SRA xsd に対する妥当性」と「オブジェクト間の関係性」がチェックされます。エ ラーが発生した場合はファイルを修正してください。 データファイルの検証 転送したシークエンスデータファイルをアーカイブ用 SRA ファイルに変換する過程で MD5 値とシークエンスデータの 整合性が検証されます。 “Data Files” に「Run と Analysis (任意) のメタデータに記載されているファイル名」と「データ受付サーバにアップ ロードされたファイル名と MD5 値」が一覧表示されます。 メタデータに記載されている全てのファイルがアップロードされている場合,[Validate data files] がクリックできる状態 になります。 アップロードされているファイルのうちメタデータに記載されていないものは無視されます。 DDBJ Sequence Read Archive Handbook Handbook 31 登録詳細画面中の [Validate data files] をクリックし,シークエンスデータファイルの検証処理を開始します。 シークエンスデータの検証処理を開始 検証処理は以下の順番で実行されます。 MD5 Che ck メタデータに記載されている MD5 値と,実際のファイルの MD5 値とが一致するかチェックされ,一致しない場合はエ ラーが表示されます。 エラーの場合は [Submit/Update Metadata] からメタデータを修正するか,ファイルを再アップ ロードしてください。 Data Che ck シークエンスデータからアーカイブ用の SRA ファイルを作成します。この過程でシークエンスデータファイルのフォーマッ トとメタデータとの整合性が検証されます。 作成に失敗するとエラーが表示されます。エラーが発生した場合は [Stop validation] をクリックして検証処理を停止した後,メタデータを修正,もしくは,データファイルを再アップロードします。 ファイルサイズが大きい場合は検証処理に時間がかかります。 問題が無ければ登録のステータスが "submission_validated" になり,検証 されたファイルが別ディレクトリに移され ます。 登録のステータスが "submission_validated" になると DRA スタッフが査定を始めます。 DRA スタッフから指示が あるまで D-way を操作せずにお待ちください。 data_ e rror になった場合 検証処理のいずれかのステップでエラーになると,ステータスが "data_error" になります。 [Stop validation] をク リックして検証処理を停止してから,メタデータの編集やファイルの再アップロードを行い,再度 [Validate data files] をクリックしてください。 FAQ: データファイルの validation エラーへの対処方法は? 検証処理を停止 ステータスが "metadata_submitted" に戻るので,必要に応じてメタデータの修正,データファイルの再アップロード を行います。 データを修正 アクセッション番号の発行 DDBJ Sequence Read Archive Handbook Handbook 32 メタデータとシークエンスデータに問題がなければ,プレフィックス DR (Submission (DRA),Experiment (DRX),Run (DRR),Analysis (DRZ)) のアクセッション番号が発行され,ステータスが “completed” になります。アクセッション番 号は “Component” に表示されます。 また,Submission に記載されている登録者には,アクセッション番号がメールで通知されます。 DRA アクセッション番号 データ公開 登録データのデータベースへの取り込みが完了するとステータスが "confidential" になり,即日公開が指定されてい る場合以外は,以下の原則に則り,データが公開されるまで非公開で保持されます。 DRA では以下の場合にデータを公開しています。 A. 登録者から公開依頼の連絡を受けた場合 B. 登録者がアクセッション番号を公表した事を確認した場合。 登録者以外の第三者が過失により他人のアクセッション番号を論文や学会等で公表した場合などは該当しま せん。 公表とは,アクセッション番号を不特定多数の対象に知らせる行為 (学術論文,学会,インターネット,報道機関 などを媒体とした発表) を指します。 C. 公開予定日が到来した場合 D. DRA Run (DRR) アクセッション番号を引用している DDBJ/EMBL-Bank/GenBank レコード (TSA,WGS, CON など) が公開された場合 B, C または D の場合は登録者の了解がなくても例外なく公開します。D の場合,引用されている DRR 番号を含む DRA 登録全体が公開されます。 FAQ: BioProject/BioSample/塩基配列データの連動公開の仕組みは? データが公開されると,数日間のうちに DRASearch で検索可能になり NCBI SRA にミラーリングされます。 DRA ファイルサーバに存在する fastq ファイル一覧: fastqlist オブジェクトは Submission 単位で公開されます。オブジェクトを異なる時期に公開したい場合は Submission を 分けて登録してください。 登録の更新 各データベースにおける更新方法 データベース 更新方法 Annotated sequence database ウェブフォームから依頼 DDBJ Sequence Read Archive Handbook Handbook 33 Sequence Read Archive (DRA) D-way にログインして登録者自身で更新 (配列データの追加や削除はウェブフォームから依頼) BioProject ウェブフォームから依頼 BioSample ウェブフォームから依頼 公開予定日の変更 公開予定日は最長で2年後まで指定でき,繰り返し更新することができます。Hold Date の [Change] をクリックし,公 開予定日変更ページに移動し,予定日を変更します。 データを即日公開する場合は "Release Now" をクリックします。作業した日の深夜に公開処理が実施され,ftp に データファイルが公開され,数日以内に DRA 検索システムにインデックスされます。 メタデータの更新 [Submit/Update Metadata] からメタデータを編集します。編集不可項目はブロックされています。 必要な編集が完 了後,メタデータ作成ツールの [Submit] ボタンをクリックし,更新内容を DRA データベースに反映させます。 関連する文献が公表された場合は,pubmed ID を含む文献情報を添えて BioProject チーム に追加を依頼します。 データファイルの追加 DRA では登録が完了した Run オブジェクトに直接データを追加することはできません。別の Submission で新しく Experiment-Run のセットを追加し,既存の BioProject や BioSample を参照することでデータを追加します。 D-way にログインし,[Create new Submission(s)] をクリックし,新規 DRA 登録を作成します。 作成した新規登録 でデータを追加する対象の BioProject と BioSample を選択します。 新たにサンプルを追加する場合は BioProject を共有し,新規登録で BioSample - Experiment - Run を追加し ます。 既存のサンプルにデータを追加する場合は BioProject と BioSample を共有し,新規登録で Experiment - Run を追加します。 続いて DRA Experiment と Run タブで,Experiment,Run オブジェクトとデータファイルを追加します。 メタデータを submit し,ファイルの検証処理を実行します。追加された Experiment/Run オブジェクトに対してアク セッション番号が発行されます。 追加したデータに対応する BioProject 番号は同一ですが,Submission に対する DRA 番号は異なります。 DDBJ Sequence Read Archive Handbook Handbook 34 サンプルの追加 サンプルへのデータ追加 DDBJ Sequence Read Archive Handbook Handbook 35 登録が完了した DRA 登録にデータファイルを直接追加する場合は DRA チームに連絡してください。 データの削除 DRA チームに連絡してください。 補足: MD5 値 MD5 (Message Digest Algorithm 5) はハッシュ関数であり,与えられたファイルに対してハッシュ値 (MD5値,32桁 の英数字) を出力します。ファイルが破損していると MD5 値が変化します。 DRA では,到着したファイルの MD5 値の 一致をチェックすることで,ファイルの破損がないかどうか確認しています。 MD5 値の取得 (Linux) ファイルの MD5 値を取得します。 $ md5sum file1 file2 9F6E6800CFAE7749EB6C486619254B9C file1 B636E0063E29709B6082F324C76D0911 file2 MD5 値の取得 (Mac OS X) ファイルの MD5 値を取得します。 $ md5 file1 file2 9F6E6800CFAE7749EB6C486619254B9C file1 B636E0063E29709B6082F324C76D0911 file2 MD5 値の取得 (Windows) Fsum Frontend (http://sourceforge.net/projects/fsumfe/) をインストールし,起動します。 まず, "md5" にチェックを入れてください。 [+] ボタンをクリックし,必要なシークエンスデータファイルを開いてください。同時に複数のファイルを選択することが可 能です。 最後に,[Calculate hashes] ボタンをクリックしてください。各ファイルの MD5 値が表示されます。[Export] ボタンか DDBJ Sequence Read Archive Handbook Handbook 36 ら,MD5 値の一覧表 (.html, .csv, .xml) を作成することができます。 免責事項 ソフトウェアの入手と利用は利用者の責任において行って下さい。 ソフトウェアの利用や誤った使用によって発生した損 失や損害に対して DDBJ は一切の責任を負いません。 DDBJ Sequence Read Archive Handbook Handbook
© Copyright 2024 ExpyDoc