NGS - Figshare

NGS解析(RNAseq)
坊農 秀雅(ぼうのう ひでまさ)
大学共同利用機関法人 情報・システム研究機構
ライフサイエンス統合データベースセンター
(DBCLS)
今日のレシピ
»NGS は Now Generation
Sequencer!
»NGSデータ解析の概要!
»具体的な解析例→ハンズオン!
»おまけ
4
NGS(Next Generation
Sequencer)は既に Now
Generation Sequencer
DNA塩基配列解読の超高速化
• かつてはSanger法
• 最近は「次世代シーケンサー(NGS)」
‒Illumina: Sequence By Synthesis
• http://www.youtube.com/watch?v=womKfikWlxM !
‒Life Technologies(現 ThermoFisher Scientific)
•ヌクレオチドがDNA鎖に取り込まれる過程でポリメラー
ゼによって放出される水素イオンを検出
• http://www.youtube.com/watch?v=MxkYa9XCvBQ !
‒PacBio: 一分子・リアルタイム(SMRT®)検出
• http://www.youtube.com/watch?v=NHCJ8PtYCFc
6
MiSeq → NextSeq
• Illumina社のデスクトップ次世代シーケンサ
NextSeq 500
• ヒト全ゲノムリシーケンス(3Gb ゲノム)
‒coverage: 30x
‒リード長: 2 x 150塩基
‒時間: 29h
‒データ出力: 100-120Gb/run
‒(右図はMiSeq)
7
NGSからの生データ
• FASTQフォーマットのファイル
‒4行/readが基本単位
‒Illumina NextSeq 500
‒3億リードx4行
‒=12億行
SRR001356.1 2023DAAXX:5:1:123:563 length=33
TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC
+SRR001356.1 2023DAAXX:5:1:123:563 length=33
-IIIIIIII8IIIIIIIIIII6IIIIIIIII9I
@SRR001356.2 2023DAAXX:5:1:123:476 length=33
TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG
+SRR001356.2 2023DAAXX:5:1:123:476 length=33
IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III
@SRR001356.3 2023DAAXX:5:1:121:746 length=33
GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT
+SRR001356.3 2023DAAXX:5:1:121:746 length=33
IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII
• ファイルサイズも4Gbyte/file超
‒FAT32フォーマットでは扱えない
• いわゆる「開く」ことが不可能
8
NGSでできること
• RNA転写量測定!
–RNAseq(transcriptome sequencing)!
• DNA結合タンパク質の結合配列の解析!
–ChIPseq(ヒストンや転写因子)!
• ChIPはChromatin immunoprecipitationの略!
• 多型解析!
–Exome(exon限定), Re-sequence!
• その他、塩基配列解読が伴うさまざまな応用
9
NGSによるデータ解析の概要
トランスクリプトーム解析
(RNAseq)
RNAseqとは?
• 「次世代シーケンサを利用して、サンプル中
の RNA の中身に関する情報を得るために cDNA をシーケンシングする方法」!
–http://en.wikipedia.org/wiki/RNA-Seqより勝手に翻訳!
• Whole transcriptome shutgun sequencing (WTSS) や!
• Transcriptome sequencingとも
11
SRR001356.1 2023DAAXX:5:1:123:563 length=33!
TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC!
+SRR001356.1 2023DAAXX:5:1:123:563 length=33!
-IIIIIIII8IIIIIIIIIII6IIIIIIIII9I!
@SRR001356.2 2023DAAXX:5:1:123:476 length=33!
TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG!
+SRR001356.2 2023DAAXX:5:1:123:476 length=33!
IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III!
@SRR001356.3 2023DAAXX:5:1:121:746 length=33!
GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT!
+SRR001356.3 2023DAAXX:5:1:121:746 length=33!
IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII
FASTQ
RNAseq データ
解析の流れ1
ゲノム
1.tophat
(bowtie)
2.cufflinks
.fa
ゲノムに対する多重配列アラインメント
.gtf
ゲノムアノ
テーション
予測転写単位ごとの
(推定)発現量情報
.bam
遺伝子アノ
テーション
3.cummeRbund
12
種々のデータフォーマット
ファイルフォーマット ファイル拡張子
1
2
3
4
5
6
7
FASTA
FASTQ
SRA/SRA-lite
SAM/BAM
GTF(GFF)
BED
VCF
.fa .fasta
.fq .fastq
.sra .lite.sra
.sam .bam
.gtf .gff
.bed
.vcf
13
1. FASTA
• FASTAというプログラムで使われる配列データ形式!
–プレーンテキスト。ファイル拡張子: .fa .fasta など!
• 1行目に“>”で始まる1行のヘッダ行!
• 2行目以降に実際のシーケンス文字列
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]!
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV!
EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG!
LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL!
GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX!
IENY
参考: http://ja.wikipedia.org/wiki/FASTA
14
2. FASTQ
• NGSデータの配列データ形式のデファクトスタンダード!
–プレーンテキスト。ファイル拡張子: .fq .fastq など!
• 1行目に“@”で始まる1行のヘッダ行!
• 2行目に実際の塩基配列!
• 3行目に”+”!
• 4行目に2行目に記述した配列のクオリティ値
@SEQ_ID!
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT!
+!
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
参考: http://ja.wikipedia.org/wiki/Fastq
15
3. SRA, SRA-lite
• FASTQ形式の代わりに使われている、NGS
配列データ配布フォーマット!
–配列拡張子: .sra .lite.sra !
• SRA-toolkitを使ってFASTQを生成できる!
–http://www.ncbi.nlm.nih.gov/Traces/sra/?view=software
fastq-dump -A SRR233129 SRR233129.lite.sra
16
4. SAM/BAM
• ゲノムマッピングしたときに生成されるアラ
インメントのフォーマット!
–リファレンスゲノム配列に対するアラインメント!
• SAMはプレーンテキスト(ASCII)形式なのに
対して、BAMはバイナリ(binary)形式!
1:497:R:-272+13M17D24M!
19:20389:F:275+18M2D19M!
19:20389:F:275+18M2D19M!
9:21597+10M2I25M:R:-209!
113!
99!
147!
83!
1!
1!
1!
1!
497! 37!
17644!0!
17919!0!
21678!0!
37M! 15!
37M! =!
18M2D19M!
8M2I27M!
100338662! 0!
CGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAG! 0;==-==9;>>>>>=>>>>>>>>>>>=
17919!314! TATGACTGCTAATAATACCTACACATGTTAGAACCAT!
>>>>>>>>>>>>>>>>>>>><<>>><<>>4:
=!
17644!-314! GTAGTACCAACTGTAAGTCCTTATCTTCATACTTTGT!
;44999;499<8<8<<<8<<><<<<><
=!
21469!-244! CACCACATCACATATACCAAGCCTGGCTGTGTCTTCT!
<;9<<5><<<<><<<>><<><>><9>
参考: http://genome.sph.umich.edu/wiki/SAM
17
5. GTF(GFF)
• General Transfer Format. GFF(General
Feature Format)のversion2!
• ゲノムアノテーションのフォーマット!
–例: ゲノム上のどこに遺伝子があるか
X!
X!
X!
X!
X!
X!
Ensembl!
Ensembl!
Ensembl!
Ensembl!
Ensembl!
Ensembl!
Repeat!2419108! 2419128! 42! .! .! hid=trf; hstart=1; hend=21!
Repeat!2419108! 2419410! 2502! -! .! hid=AluSx; hstart=1; hend=303!
Repeat!2419108! 2419128! 0! .! .! hid=dust; hstart=2419108; hend=2419128!
Pred.trans.!2416676! 2418760! 450.19!-! 2! genscan=GENSCAN00000019335!
Variation! 2413425! 2413425! .! +! .! !
Variation! 2413805! 2413805! .! +! .
参考: http://asia.ensembl.org/info/website/upload/gff.html
18
6. BED
• ゲノムアノテーションのフォーマット!
–例: ゲノム上のどこに遺伝子があるか
track name=pairedReads description="Clone Paired Reads" useScore=1!
chr22 1000 5000 cloneA 960 + 1000 5000 0 2 567,488, 0,3512!
chr22 2000 6000 cloneB 900 - 2000 6000 0 2 433,399, 0,3601
参考: http://genome.ucsc.edu/FAQ/FAQformat.html#format1
19
7. VCF
• Variant Call Format!
• 配列の多型を記述するフォーマット
##fileformat=VCFv4.0!
##fileDate=20110705!
##reference=1000GenomesPilot-NCBI37!
##phasing=partial!
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">!
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">!
##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency">!
##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">!
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">!
##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">!
##FILTER=<ID=q10,Description="Quality below 10">!
##FILTER=<ID=s50,Description="Less than 50% of samples have data">!
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">!
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">!
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">!
##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">!
#CHROM POS ID
REF ALT QUAL FILTER INFO
FORMAT
Sample1
Sample2
Sample3!
2
4370 rs6057 G A
29 .
NS=2;DP=13;AF=0.5;DB;H2
GT:GQ:DP:HQ 0|0:48:1:52,51 1|0:48:8:51,51 1/1:43:5:.,.!
2
7330 .
T A
3 q10 NS=5;DP=12;AF=0.017
GT:GQ:DP:HQ 0|0:46:3:58,50 0|1:3:5:65,3 0/0:41:3!
2
110696 rs6055 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4!
2
130237 .
T .
47 .
NS=2;DP=16;AA=T
GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:56,51 0/0:61:2!
2
134567 microsat1 GTCT G,GTACT 50 PASS NS=2;DP=9;AA=G
GT:GQ:DP 0/1:35:4
0/2:17:2
1/1:40:3
参考: http://en.wikipedia.org/wiki/Variant_Call_Format
20
NGSに比べてマイクロアレイ
• 2000年前後に使われ初めて、ある程度(技術と
して)枯れてきた!
–参考: 公共データベースの登録数の推移!
–遺伝子発現バンク(GEO)目次 http://lifesciencedb.jp/geo/!
• 本もそれなりに出ている
21
マイクロアレイ解析の流れ
遺伝子アノ
テーション
oligoprobeに対応する
遺伝子ごとの発現量
Genespring
22
SRR001356.1 2023DAAXX:5:1:123:563 length=33!
TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC!
+SRR001356.1 2023DAAXX:5:1:123:563 length=33!
-IIIIIIII8IIIIIIIIIII6IIIIIIIII9I!
@SRR001356.2 2023DAAXX:5:1:123:476 length=33!
TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG!
+SRR001356.2 2023DAAXX:5:1:123:476 length=33!
IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III!
@SRR001356.3 2023DAAXX:5:1:121:746 length=33!
GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT!
+SRR001356.3 2023DAAXX:5:1:121:746 length=33!
IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII
FASTQ
RNAseq データ
解析の流れ
ゲノム
1.tophat
(bowtie)
2.cufflinks
.fa
ゲノムに対する多重配列アラインメント
.gtf
ゲノムアノ
テーション
予測転写単位ごとの
(推定)発現量情報
.bam
遺伝子アノ
テーション
3.cummeRbund
23
マイクロアレイのデータ形式の実際
• タブ区切りテキスト!
–数万(=スポットの数)行!
• (古い)Excelでも「開ける」!
–Excel2003の行数制限内!
• コマンドライン操作なしで中身が直接見れる
24
データ解析に必要なもの
解析ソフト
マイクロアレイ NGS(RNAseq)
+++
+++
遺伝子
+++
アノテーション
+++
ゲノム
アノテーション
++
ゲノム配列
-
++
コマンドライ
ン操作
+
+++
計算機パワー
+
+++
25
マイクロアレイとの違い: RPKM
• Reads Per Kilobase per Million mapped reads!
• ノーマライズした遺伝子発現量!
–100万リード数マップされたとき、転写産物を
1000塩基長としたときのマップされたリード数!
• FPKMもほぼ同じ!
–Fragments Per Kilobase of exon per Million
mapped fragments!
–!
• Reference: Nat Methods, 5(7):621-628.
26
具体的な解析例
ハンズオン!
次世代シークエンス解析スタンダード!
NGSのポテンシャルを活かしきるWET&DRY
• 通称、「愛本」!
• https://www.yodosha.co.jp/jikkenigaku/book/9784758101912/
28
The cat way
• 理化学研究所の二階堂愛さんのブログ!
–http://cat.hackingisbelieving.org/lecture/!
tophat
! -p 8 -r 100 -o output_dir/iPS_01 bowtie2_indexes/mm9 iPS_01_1.fastq
!
cuffdiff
-p 24 ensembl_gene.gtf !
-L iPS_01,iPS_02,hESC_01,hESC_02,Fibroblast_01,Fibroblast_02!
-o! results iPS_01.bam,iPS_2.bam hESC_1.bam,hESC_2.bam
Fibroblast_01.bam,Fibroblast_02.bam!
!
• オープンソースソフトウェア!
–Tuxedo suite!
• bowtie,tophat,cufflinks!
–R + Bioconductor
29
SRR001356.1 2023DAAXX:5:1:123:563 length=33!
TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC!
+SRR001356.1 2023DAAXX:5:1:123:563 length=33!
-IIIIIIII8IIIIIIIIIII6IIIIIIIII9I!
@SRR001356.2 2023DAAXX:5:1:123:476 length=33!
TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG!
+SRR001356.2 2023DAAXX:5:1:123:476 length=33!
IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III!
@SRR001356.3 2023DAAXX:5:1:121:746 length=33!
GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT!
+SRR001356.3 2023DAAXX:5:1:121:746 length=33!
IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII
FASTQ
RNAseq データ
解析の流れ1
ゲノム
1.tophat
(bowtie)
2.cufflinks
.fa
ゲノムに対する多重配列アラインメント
.gtf
ゲノムアノ
テーション
予測転写単位ごとの
(推定)発現量情報
.bam
遺伝子アノ
テーション
3.cummeRbund
30
0. ゲノム&アノテーション
ファイル取得
• Illumina iGenomes
31
Illumina iGenomes
• 超でかいですが、とりあえず必要なのは(human
UCSC hg19の場合)!
• (インデックス済みゲノム配列)!
–Homo_sapiens/UCSC/hg19/Sequence/Bowtie2Index/ 以下!
–これをコピーしておきましょう!
% cp
-r Bowtie2Index/ 141025/
!
• (ゲノムアノテーション)!
–Homo_sapiens/UCSC/hg19/Annotation/Genes/genes.gtf !
–これもコピーしておきましょう
% cp genes.gtf 141025/
32
1. fastqファイル取得
• すでに.fastqファイルを持っている場合はpass!
• .sra 形式のファイルは fastq-dump で変換!
–fastq-dumpはhomebrewのsratoolkitに含まれています!
% ! brew install sratoolkit -v
–インストール失敗した人はtapしていないからかも!
% brew tap homebrew/science -v
!
% ! fastq-dump *.sra
–分オーダーで時間がかかります!
• .fastqなファイルをゲット
33
2. tophat(bowtie)!
でゲノムにマッピング
• tophatをインストール!
% brew install tophat -v
!
• bowtie2, samtoolsとか同時に色々入ります!
• 実行!!
%! tophat -p 8 -o tophat/CNTL Bowtie2Index/
genome GSE50491/SRR960409.fastq
!
• tophatからbowtieを呼び出してゲノム配列にマッピ
ングを行います
35
tophat2
• 出力ディレクトリがないと怒れました。作りましょう!
% ! mkdir tophat
• 再度実行!
% ! tophat -p 8 -o tophat/BRD4 Bowtie2Index/
genome
GSE50491/SRR960410.fastq
!
• オプション!
• p: 使用CPU数!
• r: ペアエンド間の距離の指定(ペアエンドシークエンス
の場合に指定)!
• 1fastqあたり小1時間かかりました(MacProで-p 12)
36
3. cufflinksで発現量を定量
• cufflinksをインストール!
% brew
install cufflinks -v
!
• 実行!!
% cufflinks -p 8 -o cufflinks_CNTL tophat/
!
CNTL/accepted_hits.bam!
%! cufflinks -p 8 -o cufflinks_BRD4 tophat/
BRD4/accepted_hits.bam
!
• 1bamあたり1.5時間程かかりました(MacProで-p 12)
38
cuffmerge
• cuffmergeでassemblyをmerge!
% cuffmerge -p8 —s hg19.fa assemblies.txt
!
• cuffcompare!
% ! cuffcompare -p8 —s hg19.fa -r genes.gtf
merged_asm/merged.gtf
!
• こちらを使うのは新規transcriptやslice variant
の発見を行う場合!
• そうでない場合は次のcuffdiffを
39
cuffdiff
% cuffdiff -p 8 -L CNTL,BRD4 -o cuffdiff
genes.gtf tophat/CNTL/accepted_hits.bam
tophat/BRD4/accepted_hits.bam
• homebrewで入れたバイナリではエラー…!
• 仕方なく、バイナリ配布のものを使用!
• http://cufflinks.cbcb.umd.edu/
% ~/Downloads/cufflinks-2.2.1.OSX_x86_64/
cuffdiff -p 8 -L CNTL,BRD4 -o cuffdiff
genes.gtf tophat/CNTL/accepted_hits.bam
tophat/BRD4/accepted_hits.bam
40
4. cummeRbundでRの世界に
% R
• cummeRbundをインストール!
> !source("http://bioconductor.org/biocLite.R")!
> biocLite("cummeRbund")
!
• 可能なグラフ in R Graphical Manual!
• http://rgm3.lab.nig.ac.jp/RGM/R_image_list?
package=cummeRbund&init=true!
> browseVignettes("cummeRbund")
42
cummeRbund(続)
• manualを参照!
>
>
>
>
library(“cummeRbund")!
!setwd("~/Desktop/141025")!
!cuff.dir <- "cuffdiff"!
cuff <- readCufflinks(dir=cuff.dir)
!
• 発現の密度分布プロット!
> dens <- csDensity(genes(cuff))!
> !dens
• CSV形式でFPKM値を出力
> gene.matrix <- fpkmMatrix(genes(cuff))!
> write.csv(gene.matrix, file="fpkm.csv")
43
4. おまけ
統計解析環境R
• Rを使ったトランスクリプトーム解析!
–(Rで)マイクロアレイデータ解析!
• http://www.iu.a.u-tokyo.ac.jp/~kadota/r.html!
–(Rで)塩基配列解析!
• http://www.iu.a.u-tokyo.ac.jp/~kadota/r_seq.html!
!
• トランスクリプトーム解析 by 門田幸二 from 共立出版!
–http://www.kyoritsu-pub.co.jp/bookdetail/9784320123700
45
有償のソフトウェアの利用
•CLC Genomics workbench!
•Agilent!
–Avadis NGS!
–GeneSpring!
•TIBCO Spotfire
46
SRR001356.1 2023DAAXX:5:1:123:563 length=33!
TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC!
+SRR001356.1 2023DAAXX:5:1:123:563 length=33!
-IIIIIIII8IIIIIIIIIII6IIIIIIIII9I!
@SRR001356.2 2023DAAXX:5:1:123:476 length=33!
TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG!
+SRR001356.2 2023DAAXX:5:1:123:476 length=33!
IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III!
@SRR001356.3 2023DAAXX:5:1:121:746 length=33!
GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT!
+SRR001356.3 2023DAAXX:5:1:121:746 length=33!
IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII
FASTQ
RNAseq データ
解析の流れ1
ゲノム
1.tophat
(bowtie)
2.cufflinks
.fa
ゲノムに対する多重配列アラインメント
.gtf
ゲノムアノ
テーション
予測転写単位ごとの
(推定)発現量情報
.bam
遺伝子アノ
テーション
3.cummeRbund
47
統合TVに動画チュートリアルが
• CLC Genomics Workbench でショートリー
ドのマッピングを行う!
–http://togotv.dbcls.jp/20110628.html
48
RNA-seq by Avadis NGS
• http://togotv.dbcls.jp/20111124.html
49
ChIP-seq by Avadis NGS
• http://togotv.dbcls.jp/20120626.html
50
GeneSpring
• https://www.youtube.com/user/GeneSpringTV
51
Spotfireによるcuffdiff出力の可視化
% cuffdiff -p 8 Caenorhabditis_elegans.WBcel215.69.gtf
-L N2,UV -o cuffdiff SRR454084.bam SRR454085.bam
52