3エピジェネティックス

エピジェネティックス
Ⅲ
3
エピジェネティックス
全ゲノム Bisulfite メチル化解析
Reduced Representation Bisulfite Sequencing (RRBS)
MeDIP-seq 解析
ChIP-seq 解析
- 40 -
全ゲノム Bisulfite メチル化解析
製品概要
Bisulfite シーケンシングは、DNA メチル化を研究するための有力な手段として注目を集めています。次世代ハイスルー
プットシーケンサプラットフォームに基づいて、全ゲノム Bisulfite 処理とデータ解析技術を組み合わせ、低コスト・
高効率・高解像度な全ゲノム DNA メチル化地図を作成します。特定種の高精度なメチル化パターンの解析は、エピジェ
ネティクス研究で役に立つのみならず、細胞分化・組織発育などの基礎研究・動植物の育種・人類の健康と疾患研
究の土台を築きます。
技術特長
•
高精度:単一塩基解像度、各 C 塩基のメチル化の程度を精確に解析可能
高効率:次世代ハイスループットプラットフォームを用いて、全ゲノムの 5- メチルシトシン (5mC) 情報を効率
よくスキャニング
高コストパフォーマンス:PCR+Sanger シーケンシング法に比べ、低コスト
ワークフロー
ゲノム DNA
ライブラリー作製
(Bisulfite 処理)
• マッピング率 / ユニークマッピング率
シーケンシング
• カバー率 / シーケンスのリード深度統計
• リードの分布分析
• メチル化程度の計算
生データ
品質管理
• 全ゲノムメチル化マップの作成
クリーンデータ
可視化
• 全体メチル化趨勢の予測
可視化
アライメント
アノテーション
5mC 同定
生物学解析
異なる領域でメチル化の程度分析(DMR)
データ解析
1. 標準データ解析
•
•
•
•
データのフィルタリング:生データからアダプター
配列・コンタミネーション・低品質リードを除去
リファレンス配列とのアライメント
シーケンス深度とカバー率の解析
C 塩基メチル化レベルの評価
•
•
•
全ゲノムメチル化レベルの分布動向
全ゲノムメチル化プロファイリング
異なるメチル化領域(DMR)の同定
2. カスタマイズ
•
お客様のご要望に合わせ、データ解析をカスタマイ
ズします。
- 41 -
Ⅲ
エピジェネティックス
•
•
技術パラメーター
1. サンプル要件
DNA (明らかな分解がないこと。ゲル電気泳動検出図の提出が必要)
サンプル
データ量(clean data)
サンプル量
(データ量によって異なる) DNA量
≦ 40Gb
41-80Gb
81-120Gb
≧ 10µg
≧ 20µg
≧ 30µg
OD260/280=1.8~2.0
サンプル純度
※ライブラリー作製が困難と判断される場合がありますので、予備のサンプルの同梱を推奨しています。
※ QUBIT で DNA サンプルを測定、DNA の最終量は BGI の検出結果を参考にしてください。
2. シーケンス解析:91PE
3. 推奨ライブラリーサイズ:200 ~ 300bp
納品物
1. シーケンシング結果 (clean data) は FASTQ ファイルで納品
40
2. 納品データ例
CG
CHG
CHH
a
図1
b
c
d
e
f
標準的な DNA のメチル化プロファイル
30
20
10
Percentage of total mC
g
0
0.6
0.4
a upstream
b first exon
c first intron
d internal exon
e internal intron
f last exon
g downstream
0.2
Mean Mehtylation
0.8
TSS
0.0
エピジェネティックス
Ⅲ
10
20
30
40
50
60
70
80
90
100
Methylation level (%)
図2
CG・CHG・CHH のメチル化レベルの分布
納期
単一サンプル:約 55 営業日
Bisulfite プロジェクトのデータ量は種によって異なりますので、ライブラリー作製量に大きな違いがあります。
サンプル数が多い場合の納期は、別途お問い合わせください。
- 42 -
Reduced Representation Bisulfite Sequencing (RRBS)
製品概要
Reduced Representation Bisulfite Sequencing (RRBS) は酵素でカットしたプロモーターと CpG 島を集めて Bisulfite
シーケンシングを行い、DNA メチル化程度の高解像度検出とシーケンシングデータの高利用率を実現できる DNA
メチル化解析ソリューションです。
技術特長
高解像度:単一塩基レベルの解像度
高再現率:サンプル間 85%から 95%に至るまでのオーバーラップ
高網羅率:全ゲノムにわたる 500 万以上の CpG 部位を検出可能
Ⅲ
高コストパフォーマンス:CpG-rich 領域を中心に、少量のデータで良いシーケンス深度を取得可能
エピジェネティックス
•
•
•
•
ワークフロー
ゲノム DNA
ライブラリー作製
(Bisulfite 処理)
• マッピング率 / ユニークマッピング率
• カバー率 / シーケンスのリード深度統計
• リードの分布分析
シーケンシング
生データ
品質管理、データのフィルタリング • メチル化程度の計算
• メチル化分析
クリーンデータ
可視化
可視化
• DMRs の同定
アライメント
アノテーション
5mC 統計
異なる領域でメチル化の程度
(DMR)分析
生物学解析
関連分析
・WGBS と Small RNA データの組み合わせ解析
・WGBS と mRNA 発現データの組み合わせ解析
・WGBS・Small RNA と mRNA 発現データの組み合わせ解析
- 43 -
データ解析
納品物
標準データ解析
•
•
•
•
•
•
データのフィルタリング:生データからアダプター
配列・コンタミネーション・低品質リードを除去
産出データの統計
RRBS 配列とリファレンス配列のアライメント
1. シーケンシング結果 (clean data) は FASTQ ファイル
で納品
2. 納品データ例
表1
Chromosome
Numbers of DMR
Length of DMR region
chr1
247
79539
chr2
244
80743
chr3
145
49380
chr4
137
47258
chr5
185
62457
chr6
108
35249
chr7
193
64155
プロモーターと CGI(CpG アイランド)のカバー率
の分析
プロモーターと CGI のメチル化の程度の分析
異なるメチル化領域(DMR)の同定
技術パラメーター
CGI:
サンプル量
DNA (RNA、タンパク質汚染なし)
≧ 3μg
CG
CHG
CHH
C
80
サンプル
100
1. サンプル要件
※ライブラリー作製が困難と判断される場合がありますので、
60
2. シーケンス解析:50PE
20
3. 推奨ライブラリーサイズ:
0
予備のサンプルの同梱を推奨しています。
40
サンプル純度 OD260/280=1.8~2.0
Percentage
サンプル濃度 ≧ 50ng/μL
0
40~120bp・120~220bp
10
20
30
40
50
Depth
図1
納期
シトシンにおけるシーケンス深度の累積分布
約 45 営業日
10
20
30
40
mCG
mCHG
mCHH
0
Percentage of total mC
エピジェネティックス
Ⅲ
DMR 鑑定
10
20
30
40
50
60
70
80
90
100
Methylation level(%)
図2
- 44 -
CG・CHG・CHH のメチル化レベルの分布
MeDIP-seq 解析
製品概要
Methylated DNA immunoprecipitation (MeDIP) はメチル化 DNA を全ゲノムに渡って解析する技術です。5- メチルシ
トシン (5mC) という抗体でメチル化 DNA 断片を沈降させ、ハイスループットシーケンシングを行います。MeDIP シー
ケンシングは高メチル化や CpG が高密度にあるゲノム領域を検出することができます。
技術特長
•
•
全ゲノム領域でメチル化 DNA を検出可能
抗体でメチル DNA を濃縮させ、DMRs 解析することで低コストを実現
Ⅲ
エピジェネティックス
ワークフロー
ゲノム DNA
ライブラリー作製
(5mC 抗体の集まり)
シーケンシング
・マッピング率 / ユニークマッピング率
・カバー率 / シーケンスのリード深度統計
ピークのスキャニングの
生データ
・リードの分布分析
品質管理
品質管理、データのフィルタリング
• ゲノムのピーク分布
クリーンデータ
可視化
• ピークの長さの分布
可視化
アライメント
アノテーション
ピークのスキャニング
マルチサンプルの差異解析
関連分析
・MeDIP と smallRNA の組み合わせ解析
生物学解析
・MeDIP と mRNA 発現データの組み合わせ解析
・ピークに関する遺伝子の差異解析
・MeDIP と smallRNA と mRNA 発現データの組み合わせ解析
・GO 解析
・KEGG pathway 解析
- 45 -
データ解析
納品物
1. 標準データ解析
列・コンタミネーション・低品質リードを除去
リファレンス配列とのアライメント
表1
ピークのスキャニングとゲノム全体での分布情報
Sample
Total
Peaks
Peak
Mean
Length
Peak
Median
Length
Peak
Total
Length
Peak
Covered
Size In
Genome
Sample 1
138,508
1029.71
815
149,756,980
6.61%
Sample 2
152,689
1018.57
965
156,945,069
6.93%
複数サンプルの差異解析
MeDIP・smallRNA の統合解析
MeDIP・mRNA の統合解析
Differential Genes(A vs B)
7000
MeDIP・smallRNA・mRNA の統合解析
ns
tre
3’
am
UT
2k
R
n
ro
2k
re
st
OD260/280=1.8~2.0
(RNAのコンタミネーションなし)
※ライブラリー作製が困難と判断される場合がありますので、
R
UT
5’
w
do
サンプル純度
am
サンプル濃度 ≧ 50ng/μL
Int
≧ 5μg
S
DNA
0
サンプル
D
1. サンプル要件
C
技術パラメーター
5000
ズします。
4000
Number of Genes
お客様のご要望に合わせ、データ解析をカスタマイ
サンプル量
Down
Up
6000
3. カスタマイズ
•
ピーク領域の情報
up
エピジェネティックス
Ⅲ
2. 納品データ例
ユニークにマッピングされたリードの分布
2. オプションデータ解析
•
•
•
で納品
3000
•
•
•
•
データフィルタリング:生データからアダプター配
1000 2000
•
1. シーケンシング結果 (clean data) は FASTQ ファイル
図1
異なるコンポーネントにおける異なる遺伝子の分布
予備のサンプルの同梱を推奨しています。
2. シーケンス解析:50PE
3. 推奨ライブラリーサイズ:200~300bp
納期
約 50 営業日
sample 1
chr1
chr2
chr3
chr4
chr5
chr6
chr7
chr8
chr9
chr10
chr11
chr12
chr13
chr14
chr15
chr16
chr17
chr18
chr19
chr20
chr21
chr22
chrX
chrY
0
図2
5000
10000
15000
各染色体における MeDIP シーケン
シングのリードの分布
- 46 -
2000
25000
ChIP-seq 解析
製品概要
クロマチン免疫沈降法(ChIP)は生体内のタンパク質と DNA との相互作用を研究する手法であり、ヒストン修飾と
特異転写因子の遺伝子発現制御作用などの分野で広く使われます。次世代シーケンシング技術の発展に伴い、クロ
マチン免疫沈降法とハイスループットシーケンシング技術を組み合わせた ChIP シーケンシングにより、全ゲノム範
囲で DNA 結合タンパク質の結合部位を効率良く、且つ精確に同定できます。
ChIP-Seq 解析では、特異抗体を用いて目的タンパク質を免疫沈降した後、それと結合した DNA 断片を分離します。
ハイスループットシーケンシング技術とデータ解析で、全ゲノム範囲で目的タンパク質の DNA 結合部位を探し、複
数のサンプルを比較し、差異を研究します。
Ⅲ
•
•
•
エピジェネティックス
技術特長
広い検出範囲:全ゲノム範囲での免疫沈降とシーケンシング分析
高い費用対効果:抗体濃縮の標的領域に基づいて、データ量を効率的に減少
少量のサンプルで解析可能:免疫沈降した DNA サンプルの最小必要量は 10ng
ワークフロー
ChIPed DNA
ライブラリー作製
シーケンシング
生データ
・マッピング率 / ユニークマッピング率
・カバー率 / シーケンスのリード深度統計
・リードの分布分析
品質管理
ピークスキャニングの品質管理
・ピークの長さの分布
クリーンデータ
可視化
・ピークのゲノム全体での分布
可視化
SOAP アライメント
アノテーション
ピークスキャニング
生物学解析
・ピークに関連する遺伝子の検出
・ChIP と small RNA のシーケンシングデータ
・GO 解析
・ChIP と mRNA のシーケンシングデータ
・UCSC ゲノムブラウザ
・ChIP、mRNA と small RNA のシーケンシングデータ
・複数サンプルの差異解析
・Transcriptome start site (TSS) 付近の ChIP
シーケンシングリードの分布
- 47 -
データ解析
納品物
1. シーケンシング結果 (clean data) は FASTQ ファイル
1. 標準データ解析
•
•
•
•
•
•
•
生データからアダプター配列・コンタミネーション・
低品質リードを除去し、産出量を統計
リファレンスゲノム配列とアラインメント
表1
ピークのスキャニングと分布情報
ピーク関連遺伝子のスキャニングと GO 機能解析
Sample Peak
複数サンプルの差異分析
Sample
1726
1
Sample
604
2
Sample
1118
3
UCSC Genome Browser の使用説明
TSS 付近領域の ChIP シーケンシングリードの分布
ピークスキャニング
Peak
length(bp)
Average
Median
Percentage
peak
length(bp)
(%)
length(bp)
1147367
665
659
0.038
324771
538
495
0.011
253561
227
195
0.008
3. カスタマイズ
•
お客様のご要望に合わせ、データ解析をカスタマイ
ズします。
Number of peaks
技術パラメーター
1. サンプル要件
サンプル
サンプル量
DNA
≧ 10ng ChIPed DNA
サンプル濃度
≧ 1ng/μL
サンプル純度
OD260/280=1.8~2.0
Length of peaks (bp)
図1
ピークの長さの分布
DNA 断片サイズ:
100-500bp に分布(メインバンドは 250bp 前後)
sample 1
80-10
DNA 断片サイズが要件を満たすかどうかを判断するた
Normalized Counts
エピジェネティックス
Ⅲ
2. 納品データ例
全ゲノムにおける ChIP シーケンシングリードの分布
2. オプションデータ解析
•
で納品
めに、抽出した DNA の電気泳動の写真を提出してく
ださい。また、Sample Information Sheet と ChIP 後の
q-PCR 検出結果も提出してください。
BGI では以下の抗体の ChIP 濃縮実験も可能です。
標準抗体:H3K4Me3、H3K4Me2、H3K9Me3、H3K9Me2、
60-10
40-10
20-10
0
-1000
H3K27Me3、H3K27Me2
-5000
0
5000
10000
Position relative to Tss (bp)
2. シーケンス解析:50SE
3. 推奨ライブラリーサイズ:100~500bp
hlgh
low
silent
図 2 TSS 付近のリード分布
納期
・25 個以下の免疫沈降後の DNA:約 30 営業日
・12 個以下の株細胞:約 42 営業日
※ サンプル数と規模によって、納期は変わります。
- 48 -