DDBJ データ解析事例 「ChIP

2016. 07. 06
DDBJ データ解析チャレンジ
キックオフ講習会
DDBJ データ解析事例
「ChIP-Atlas データベース」の紹介
沖 真弥
九州大学大学院・医学研究院・発生再生医学分野
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
研究歴
マウスの初期発生
硫酸化多糖と左右軸
決定機構
Development 2007
左右軸が逆転する
メカニズムの解明
Development 2009
胚発生における硫酸化
多糖と FGF シグナル
Dev Dyn 2010
情報解析ツール
SraTailor: ChIP-seq データ解析の
ための簡易ソフトウェア
Genes Cells 2014
網羅的かつ統合的な
ChIP-seq データベース
In preparation
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
高血糖による左右軸
決定の異常
PNAS 2015 (2nd author)
ChIP-Atlas: 何がどこに結合するかが丸わかり。
MACS2 score
1
Low
500
1000
High
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
Topics
1. 背景
転写因子とは? ChIP-seq とは? 問題点。
2. ChIP-Atlas の紹介
作成過程、使い方
3. 応用例
組織特異性を司る転写因子
遺伝性疾患に関わる転写因子
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
転写因子とは
DNA に特異的に結合する一群のタンパク質。
ゲノム上の遺伝子発現制御領域に結合する。
→ 遺伝子発現を ON / OFF する。
転写因子
ON!
遺伝子
エンハンサー
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
転写因子と組織特異性
転写因子のポピュレーションにより、
組織の特異性が決められる。
心臓の
転写因子
ON!
OFF!
Heart genes
Heart genes
OFF!
Liver genes
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
肝臓の
転写因子
ON!
Liver genes
転写因子はどこに結合するか?
転写因子ごとに好きな配列がある。
しかし、例外が多い。
肝臓の
転写因子
ON!
Liver genes
FOXA2 の好きな配列
つまり、ゲノム配列からは予想できない。
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
ChIP-seq: 転写因子の結合部位を同定できる
ChIP-seq = Chromatin Immunoprecipitation with Sequencing
断片化
抗体で集める
DNA 配列を読む
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
次世代シーケンサ
数千万∼数億の DNA 断片の配列を、1日で読み取れる。
CTAACTTTAGAAGGACGGCT
TAGCCTGAGCGACACTAATA
ATTGGCAGACTATAGTCAAC
TGTAGATCGGGTTGTCAAAT
AGTTGGTTGCCCCGACTATC
Licensed under CC-BY 4.0
©Togo picture gallery by DBCLS
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
アライメント
DNA 配列をゲノム座標に変換
chr1
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
chr2
chr3…
ピークコール
統計学的に有意な領域を特定。
chr1
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
chr2
chr3…
ピークコール
統計学的に有意な領域を特定。
chr1
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
chr2
chr3…
ゲノムブラウザで閲覧
HNF4A 遺伝子
ピークコール
アライメント
(Human FOXA2 in Hep G2 cells)
ゲノムブラウザ
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
小まとめ
HNF4A 遺伝子
ピークコール
アライメント
ChIP-seq:
- ある転写因子の結合部位を同定できる。
→ どの遺伝子を制御しているかが推測できる。
しかし、
- 逆は不明。 ← ある遺伝子が何によって制御されているか?
- 情報解析技術が必要。
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
ChIP-Atlas
「なにがどこに?」がすべてわかる。
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
データソース
SRA として登録された ChIP-seq と DNase-seq
ChIP-seq
0
5000
10000
15000
20000
H. sapiens (hg19)
M. musculus (mm9)
D. melanogaster (dm3)
C. elegans (ce10)
S. cerevisiae (sacCer3)
DNase-seq
0
1000
2000
H. sapiens (hg19)
M. musculus (mm9)
D. melanogaster (dm3)
C. elegans (ce10)
S. cerevisiae (sacCer3)
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
ENCODE
RoadMap
Others
Processing
001010
010001
110110
1110
AAGAAT
TCAGTC
CGGACT
GAAT
SRA
(= Sequenced Read Archive)
アライメント (Bowtie2)
ピークコール (MACS2)
FastQ
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
アライメント (BigWig)
ピークコール(BED)
BigWig
BED
メタデータのアノテーション
BEFORE
ID
Original sample metadata
ERX200492
SRX1024932
SRX212431
SRX831872
SRX100477
SRX530184
SRX159094
SRX644410
ArrayExpress-Sex=male; ArrayExpress-CellType=B-Lymphocyte;
ArrayExpress-Immunoprecipitate=CTCF; ArrayExpress-Species=Homo
source_name=chronic myelogenous leukemia cell line; cell line=K562;
antibody=AGO2
source_name=CD4+CD25+CD45RA+ expanded naive regulatory T cells;
donor=S030b; cell type=CD4+CD25+CD45RA+ expanded naive regulatory
source_name=Pre-activated CD8+ T cells; tissue=Peripheral blood; cell
type=Pre-activated CD8+ T cells; chip antibody=STAT5B (Invitrogen,
source_name=HepG2; biomaterial_provider=ATCC; datatype=ChipSeq;
datatype description=Chromatin IP Sequencing; cell
source_name=primary human hepatocytes; tissue=Liver; chip
antibody=FXR (1:1 mixture of sc-1204x and sc-13063x, ChIP grade,
source_name=HuH7 cells, mitotic block and release; cell type=HuH7;
cycling state=mitotic; antibody=FoxA1; vendor/catalog/lot=Abcam
source_name=PANC1 Pancreatic cancer cell line; antibody=ETS1 (Santa
Cruz, sc-350, lot #F1312); cell line=PANC1
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
メタデータのアノテーション
AFTER
ID
Antigen
Cell type Class
Cell type
ERX200492
CTCF
Blood
B-Lymphocytes
SRX1024932
AGO2
Blood
K-562
SRX212431
STAT5A
Blood
CD4-Positive T-Lymphocytes
SRX831872
STAT5B
Blood
CD8-Positive T-Lymphocytes
SRX100477
FOXA1
Liver
Hep G2
SRX530184
NR1H4
Liver
Hepatocytes
SRX159094
FOXA1
Liver
HuH-7
SRX644410
ETS1
Pancreas
PANC-1
> 45,000 data + 毎月更新
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
ChIP-Atlas: Top Page
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
chip-atlas
4つの機能
① Peak Browser
何がどこに結合する?
?
?
② Target Genes
転写因子の標的遺伝子を探す。
?
TF
?
?
?
TF
?
TF
ChIP-Atlas
③ Colocalization
共局在する転写因子を探す。
?
?
?
TF ?
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
④ in slico ChIP
ユーザデータの Enrichment 解析
?
?
?
? ListA
vs
ListB
Peak Browser
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
Peak Browser
MACS2 score
1
Low 1
Low
500score
MACS2
500
1000
High
1000
High
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
in silico ChIP
① Peak Browser
何がどこに結合する?
?
?
② Target Genes
転写因子の標的遺伝子を探す。
?
TF
?
?
?
TF
?
TF
ChIP-Atlas
③ Colocalization
共局在する転写因子を探す。
?
?
?
TF ?
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
④ in slico ChIP
ユーザデータの Enrichment 解析
?
?
?
? ListA
vs
ListB
in silico ChIP
例:hepatocyte-specific enhancer に enrich する転写因子
Hepatocyte-specific
enhancers
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
Other
enhancers
FANTOM5: 組織特異的エンハンサーの同定
CAGE 技術を応用し、組織特異的 enhancer を同定
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
in silico ChIP で enrichment 解析
FANTOM5 enhancers
Hepatocyte-specific enhancers
基本転写因子
Hepatocyte 形成に関わる転写因子
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
in silico ChIP で enrichment 解析
例:hepatocyte-specific enhancer に enrich する転写因子
Hepatocyte-specific
enhancers
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
Other
enhancers
in silico ChIP で enrichment 解析
例:hepatocyte-specific enhancer に enrich する転写因子
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
神経系
血管系
TBP
SP1
JUND
YAP1
RXRA
HNF4G
TCF12
NR2F2
HNF4A
TAL1
NFIC
HEY1
RELA
MYBL2
HDAC2
MAX
MAX
FOXA2
JUN
FOXA1
EP300
CD14+ Monocytes
Macrophages
Hematopoietic stem cells
Dendritic cells
U-937
血管内皮
エンハンサー
血管系
STAT1
血球系
GATA2
血球系
SPI1
血球系
FOS
血球系
SMAD1
血球系
ETS1
Macrophage
エンハンサー
IRF1
Hep G2
BRD4
肝臓系
CEBPB
Hepatocyte
エンハンサー
CREB1
組織特異的エンハンサーに結合する転写因子
HUVEC
SK-N-SH
Primary endothelial cells
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
データ数
0
>5
その他のエンハンサー
CL: T cell
UBERON: Adipose tissue
CL: Acinar cell
UBERON: Blood
CL: Amniotic epithelial cell
UBERON: Blood vessel
CL: Astrocyte
UBERON: Brain
CL: Basophil
UBERON: Esophagus
CL: Blood vessel endothelial cell
UBERON: Eye
CL: Bronchial smooth muscle cell
UBERON: Female gonad
CL: Cardiac fibroblast
UBERON: Gallbladder
CL: Cardiac muscle cell
UBERON: Heart
CL: Cell of skeletal muscle
UBERON: Internal male genitalia
CL: Chondrocyte
UBERON: Kidney
CL: Ciliated epithelial cell
UBERON: Large intestine
CL: Corneal epithelial cell
UBERON: Liver
CL: Dendritic cell
UBERON: Lung
CL: Endothelial cell of hepatic sinusoid
UBERON: Lymph node
CL: Endothelial cell of lymphatic vessel
UBERON: Meninx
CL: Enteric smooth muscle cell
UBERON: Olfactory region
CL: Epithelial cell of Malassez
UBERON: Pancreas
CL: Epithelial cell of esophagus
UBERON: Parotid gland
CL: Epithelial cell of prostate
UBERON: Penis
CL: Fat cell
UBERON: Placenta
CL: Fibroblast of choroid plexus
UBERON: Prostate gland
CL: Fibroblast of gingiva
UBERON: Saliva-secreting gland
:
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
:
なにができるか?
in silico ChIP:
✔ 組織特異性を司る転写因子を探せる。
✔ 遺伝性疾患に関わる転写因子を探せる。
GWAS = Genome Wide Association Study
(患者特有の SNP を探すプロジェクト)
患者
A
非患者
G
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
遺伝性疾患に関わる転写因子の探索
疾患関連 SNPs
乳がん特異的 SNPs
遺伝性疾患全般に関わる転写因子
乳がんに関わる転写因子
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
in silico ChIP
例:乳がん SNPs にenrich する転写因子の探索
乳がん特異的
SNPs
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
その他の
SNPs
FOXA1
GATA3
STAT1
STAT5B
MYB
STAT1
TFAP2C
ESRRA
SPI1
EP300
TCF7L2
ESR1
SMAD1
EBF1
HIF1A
ARNTL
GATA3
乳がん
BRD4
疾患関連 SNPs に結合する転写因子
乳がん系 T-47D
乳がん系 MCF-7
乳がん系 BT-474
Unknown Tumour tissues
炎症性腸疾患
血球系
血球系
血球系
血球系
CD8+ T-cells
Macrophages
CD14+ Monocytes
U-937
Th2 cells
多発性硬化症
血球系
血球系
血球系
血球系
STAT5B
血球系
GM12878
CD14+ Monocytes
Jurkat
CD8+ T-cells
血球系
SUM 159PT
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
データ数
0
>5
自己免疫疾患 SNP には血球系転写因子が集積
多発性硬化症
disease 炎症性腸疾患
関節リウマチ
ematosus全身性エリテマトーデス
クローン病
川崎病
1型糖尿病
原発性胆汁性肝硬変
sis
セリアック病
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
Summary
① Peak Browser
何がどこに結合する?
?
?
② Target Genes
転写因子の標的遺伝子を探す。
?
TF
?
?
?
TF
?
TF
ChIP-Atlas
③ Colocalization
共局在する転写因子を探す。
?
?
?
TF ?
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
④ in slico ChIP
ユーザデータの Enrichment 解析
?
?
?
? ListA
vs
ListB
Summary
in silico ChIP & FANTOM5 enhancers:
✔ 組織特異性を司る転写因子を同定した。
→ Direct reprogramming 実験への応用
in silico ChIP & GWAS data:
✔ 遺伝性疾患に関わる転写因子を同定した。
→ 難病メカニズムの解明、治療への応用
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)
謝辞
Web UI の作製, 様々な提言
大田 達郎 (DBCLS)
構想, 提案
塩井 剛 (RIKEN)
CoLo の提供
仲木 竜 (東大)
計算機
NIG supercomputer
WABI の作製
小笠原 理
奥田 喜広 (DDBJ)
サーバ提供
畠中 秀樹 (NBDC)
統計解析
瀬々 潤 (産総研)
データ考察
目野 主税 (九大)
H27 年度 統合化推進プログラム
(統合データ解析トライアル)
(ShinyaOki)ChIP-Atlas(h4p://chip-atlas.org)