ゲノムワイド多型を利用した 遺伝解析の実際

ゲノムワイド多型を利用した
遺伝解析の実際
白澤 健太
かずさDNA研究所
なぜ、ゲノムワイド多型データが必要か?
MAS
• マーカー数:少
• 解像度:低
QTL
GWAS
GS
• マーカー数:多
• 解像度:高
ゲノムワイド多型データの集め方
• RFLP
– サザンブロット分析
• RAPD, AFLP
– PCR→電気泳動
• SSR (microsatellite)
– PCR→電気泳動
• SNP
–
–
–
–
PCR→電気泳動
qPCR
チップ
NGS
NGSを利用したゲノムワイド多型分析
• 全ゲノム解読
• トランスクリプトーム
• エキソンキャプチャ
• ターゲットアンプリコン
シークエンス
• Reduced-representationラ
イブラリ
– RAD-Seq
– GBS
– ddRAD-Seq
Davy et al. (2011) Nat Rev Genet 12, 499-510
RAD-Seq in Kazusa
Digestion
Adapter ligation
PCR amplification
Sequencing
RAD-Seq
WGS
100PE
250PE
RAD-Seqワークフロー
1日目
2日目
9:00
3日目
4日目
5日目
PCR・精製
シークエンス
シークエンス
情報処理
10:00
サイズ
セレクション
11:00
12:00
13:00
サンプリング
14:00
DNA抽出
精製・定量
シークエンス
15:00
16:00
17:00
制限酵素
処理
アダプター
付加
SNPリスト
DNA調整からSNPリストまで最短で5日
情報処理
Reference
ファイ
ル
ソフト
FastQ
BAM
CNV-seq
FASTXtoolkit
SAMtools
CNVs
Bowtie2
BCF
VCFtools
SAM
BCFtools
Filtering
手作業
結果
SAMtools
VCF
SNPs
Indels
RAD-Seqの成功のポイント
1. 制限酵素選び
2. ゲノム中のSNP密度
3. ゲノム中のSNP分布
トマトゲノム中の制限酵素サイト数
制限酵素断片数(300-900
bp)
500,000
80,000
450,000
70,000
Number of restriction fragments
Number of restriction sites
制限酵素サイト数
400,000
350,000
300,000
250,000
200,000
150,000
100,000
60,000
50,000
40,000
30,000
20,000
10,000
50,000
0
0
SalI - PstI
SalI
PstI
EcoRI HindIII
MspI
PstI EcoRI
EcoRI HindIII
PstI MspI
#RAD-SNPs
RAD-SNP数と制限酵素断片数との関係
20,000
18,000
16,000
14,000
12,000
10,000
8,000
6,000
4,000
2,000
0
EcoRI - HindIII
y = 0.281x - 2129.8
R² = 0.995
PstI - MspI
PstI - EcoRI
SalI - PstI
0
10,000 20,000 30,000 40,000 50,000 60,000 70,000 80,000
No. of fragments (300-900 bp)
RAD-SNPのゲノム中の位置
Intergenic SNPs
Genic SNPs
100%
80%
60%
40%
20%
0%
WGS
SalI - PstI
PstI - EcoRI
EcoRi - HindIII
PstI - MspI
SNPs / 10 kb
6品種における全ゲノムSNP数
18
16
14
12
10
8
6
4
2
0
RAD-SNP数と全ゲノムSNP数との関係
30,000
Regina
y = 0.0237x - 1849.3
R² = 0.7304
#RAD-SNPs
25,000
Micro-Tom
20,000
15,000
10,000
San Marzano
5,000 Ailsa Craig
M82
Moneymaker
0
0
200,000
400,000 600,000 800,000 1,000,000 1,200,000
#Genome-wide SNPs
F2集団からデータを取る
800
Number of eads (k)
700
600
ゲノムの0.6%を15xの厚みでカバーする
データが得られた。
500
400
300
200
100
0
F2 lines
解析の流れ
Regina
F2 lines
Seq. library
Index-REG
Index-MT
x
↓
F1
Micro-Tom
RMF2-01
RMF2-02
…
RMF2-96
Index-01
Index-02
…
Index-96
MiSeq
Sequencing
Seq. data
Fastq-REG
Fastq-MT
Fastq-01
Fastq-02
…
Fastq-96
Mapping
BAM-REG
BAM-MT
BAM-01
BAM-02
…
BAM-96
SNP calling
Filtering
P-VCF
F2-VCF
Filtered VCF
Filtered VCF
Imputing
Imputed VCF
Cleaning
Excluding identical loci
Applications
欠失データの補間
補間前
補間後
連鎖地図と物理地図の比較
1.2 M SNPs (WGS) vs 1.3 K SNPs (RAD-Seq)
まとめ
• RAD-Seqの成功のポイント
– 制限酵素選び
– ゲノム中のSNP密度
– ゲノム中のSNP分布
• RAD-Seq・GBSの次にあるもの
• 情報解析のことをよく知る(逆も然り)
–
–
–
–
自分でできなくて良い
できても良い
計算機でできること・できないことを知る
お互いの理解を深める