データベースとは何か ~データ共有のための仕組みづくり~

データベース講習会@つくば
2014/2/13(木)
ヒトゲノムバリエーションデータベース
独立行政法人 科学技術振興機構(JST)
バイオサイエンスデータベースセンター
(NBDC)
川嶋実苗
http://biosciencedbc.jp/
©2014 NBDC Licensed Under CC 表示2.1日本
内容
I.
バイオサイエンスデータベースセンター(NBDC)
の取組み
II. 統合化推進プロジェクトから誕生したDB
III. ヒトゲノムバリエーションデータベースの紹介
http://biosciencedbc.jp/
2
内容
I.
バイオサイエンスデータベースセンター(NBDC)
の取組み
II. 統合化推進プロジェクトから誕生したDB
III. ヒトゲノムバリエーションデータベースの紹介
http://biosciencedbc.jp/
3
NBDCの取り組み
4
①データベースの整備・統合化の戦略連携構
築など
②NBDCポータルサイトの構築と、その運用
③データベース統合化の実現に向けて基盤と
なる技術の開発
④分野ごとのデータベース統合化等を通じて、
ライフサイエンス分野データベースの統合
http://biosciencedbc.jp/
4
NBDC3大サービス!
nbdc
http://biosciencedbc.jp/
5
内容
I.
バイオサイエンスデータベースセンター(NBDC)
の取組み
II. 統合化推進プロジェクトから誕生したDB
III. ヒトゲノムバリエーションデータベースの紹介
http://biosciencedbc.jp/
6
http://biosciencedbc.jp/
7
統合TV (TOGO TV)
統合化推進の課題について、
詳細を知りたい
かたは・・・
☜コレ!
各課題のHands-on講
演を動画で配信中
http://biosciencedbc.jp/
8
内容
I.
バイオサイエンスデータベースセンター(NBDC)
の取組み
II. NBDCの3大サービス
III. 統合化推進プロジェクトから生まれたDB
IV. ヒトゲノムバリエーションデータベースの紹介
http://biosciencedbc.jp/
9
国内外での取り組み
1)アメリカ合衆国
NCBI(米国生物工学情報センター)
・GenBank 新規塩基配列情報データベース
・dbSNP SNPやin/delといった変異情報を蓄積
・dbVAR 構造多型のデータを蓄積
・dbGAP/SRA GWAS, 次世代シークエンサー結果
を含むgenotype-phenotype に関するデータを蓄積
2 )ヨーロッパ
EBI(欧州バイオインフォマティクス研究所)
・EMBL-bank 新規塩基配列情報データベース
・EGA/ERA GWAS, 次世代シークエンサー結果
を含むgenotype-phenotype に関するデータを蓄積
3 )日本
DDBJ(日本DNAデータバンク)
・新規塩基配列情報データベース
・JSNP SNPやin/delといった変異情報を蓄積
・JGA/DRA 次世代シークエンサー結果(genotype)と
phenotype に関するデータを蓄積
統合DB PJ GWASやコントロール集団の変異情報等
http://biosciencedbc.jp/
10
Human Genome Variation Database
GWAS DB
http://biosciencedbc.jp/
11
ヒトゲノムバリエーションデータベース
目的
疾患・変異・臨床情報の関係を整理・体系化し、得られた成
果・情報を公開・共有することにより、疾患機序の解明や個別化医
療の実現に貢献
構想
1)NGSおよび、その他の解析法(GWAS含)によって発見される
変異-疾患情報の受け入れ、半永続的な集約的データ保管
2)文献情報など過去に報告された疾患感受性、薬剤応答性、ウィルス耐性
などに関わる多型・変異データの収集とDB化
3)上記データを整理体系化したDBの構築、データの公開と共有
(疾患→多型・変異、多型・変異→疾患を横断的に探索可能)
4)健常者データについては、phasingやハプロタイプ推定、必要に応じて
1000 genome PJデータ, GWAS 健常者データも用いて遺伝子型推定
(imputation)を行い、日本人に特化したSNP, in/del, CNVなど各種多型・
変異のアリル頻度、ハプロタイプ頻度を計算・公開
 効率的な疾患遺伝子の探索に役立てる
12
http://biosciencedbc.jp/
Human Genome Variation Database
DB名
CNV control DB
概要
健常者の数十万から数百万のSNPチップデータか
ら検出したCNVを登録
URL
http://gwas.biosciencedbc.jp/
cgi-bin/cnvdb/cnv_top.cgi
健常者の数十万から数百万のSNPチップデータか
http://gwas.biosciencedbc.jp/
CNV association DB ら検出したCNVのケースコントロール解析の結果
cgi-bin/cccdb/ccc_top.cgi
を登録
GWAS-DB
数十万から数百万のSNPチップによる疾患関連解
析の頻度情報と遺伝統計解析の結果を登録
http://gwas.biosciencedbc.jp/
cgi-bin/gwasdb/gwas_top.cgi
HLA DB
次世代シークエンサーによって検出されたHLA領
域における健常者変異、疾患関連変異、及び、文
献に発表されている疾患関連変異を抽出・登録
http://gwas.biosciencedbc.jp/
cgi-bin/hladb/hla_top.cgi
Human Variation
DB
次世代シークエンサーによって検出された健常者
変異、疾患関連変異、及び、文献に発表されてい
る疾患関連変異を抽出・登録
日本人健常者の参照配列情報も閲覧可能に
http://gwas.biosciencedbc.jp/
cgi-bin/hvdb/hv_top.cgi
SNP-DB
数十万から数百万のSNPチップを用いて解析した
健常者のアリル・遺伝子型頻度の情報とハー
ディーワインバーグ平衡検定値を登録
http://gwas.biosciencedbc.jp/
snpdb/snp_top.php
http://biosciencedbc.jp/
13
開発データベースのトップ画面
https://gwas.lifesciencedb.jp/
Mutation database
http://biosciencedbc.jp/
Koike et al. J Hum Genet (2009); BMC Genet (2011)
14
Human Variation DB
✔ NGS, その他の実験による変異データの登録
✔ NGSは計算手法、閾値条件、変異検出精度実験をしている場
合は、その情報も登録
✔ 文献データも、実験の種類、case-control P-value, オッズ比、
臨床情報など登録
✔日本人のコントロールデータに関しては、study ごと、及び、
融合した形でreference genomeとして表示
遺伝子検索
疾患検索
領域検索等が可能
http://biosciencedbc.jp/
ある疾患の既知感受性遺伝子の
全ゲノム上での位置
15
Human Variation DB 遺伝子名検索結果例
1000 genome をはじめ、referenceは随時追加
変異のゲノム上の位置、
SNPの種類、アミノ酸置換情報、
case-control P値、オッズ比、
実験手法、臨床情報等
http://biosciencedbc.jp/
16
Human Variation DB annotation
複数の参照ゲノム
を同時に表示
Domain 情報
マイクロサテライト
Conservation scoreなど
http://biosciencedbc.jp/
17
NGSの詳細の表示
NGSマッピング
データもリンク
可能
文献データも
NGSデータも
同時表示
Referenceデータの詳細も表示
http://biosciencedbc.jp/
18
HLA DB
http://biosciencedbc.jp/
19
HLA DB
コンテンツ
✔ HLAのハプロタイプごとの変異の登録
✔ HLAの多型と疾患感受性、免疫応答性、
薬剤過敏症の関係を俯瞰可能に
HLA型間の塩基配列の違い
http://biosciencedbc.jp/
異なるHLA型間での相同性
20
NGSと文献登録データ
✔ NGS公開データ
健常者:1000ゲノムデータexome 98検体
✔ NGS内部登録データ
健常者: exome 21検体,
健常者: HLA 1検体
✔ NGS内部登録準備データ
健常者: exome 68検体
疾患遺伝子:4遺伝子変異(新規)+2遺伝子変異(既知)
✔文献公開データ
Common disease, 神経変性変異のデータを中心に、2500変異と付随
情報の登録
http://biosciencedbc.jp/
21
SNP control DB
http://biosciencedbc.jp/
22
SNP Control DB
✔標準 SNP-DB: 健常者のSNPデータ
(GWAS チップ用)のデータ
Affy500K 約500検体、Affy6.0 約600検体,
Axiom ASI, Illumina OMNI-2.5 約420検体
コンテンツ
•30-250万SNPの遺伝子型頻度、アレル頻度、
ハーディーワインバーグ平衡検定値、Call rate等
SNPのゲノム上の位置、SNPの種
類(同義/非同義など)
Genotype 頻度、アレル頻度、ハ
プロタイプ頻度、HWE検定値、
Call rateなど
•SNPのアノテーション (機能、染色体上位置、
同義/非同義など)
SNPの検索 (アクセッション番号、染色体上の
位置、機能、疾患との関連性などで検索可能)
http://biosciencedbc.jp/
対応する遺伝子の
アノテーション情報
検索結果例
23
GWAS DB
http://biosciencedbc.jp/
24
GWAS DB
疾患名称、study ID (略称)、SNP IDでの検索
疾患リストからの閲覧
http://biosciencedbc.jp/
25
SNP based GWAS DB
コンテンツ
✔ GWAS-DB: GWASデータ
19疾患/28スタディー(内部用DB登録)
17形質 (内部用DB登録)
11疾患/13スタディー (公開データ)
• 30-100万SNPの遺伝子型頻度、アレル頻度、
ハーディー・ワインベルク平衡検定値、Call rate
等
• P値(2df, 1df), Additive risk model, recessive
model, dominant model のP-value, OR, 95% CI,
AICなどの遺伝統計値
• ハプロタイプもしくはSNPの組み合わせに関す
る疾患関連性の統計値
• SNPのアノテーション
ゲノム全体のP-valueの分布
http://biosciencedbc.jp/
Koike et al. J Hum Genet (2009)
26
GWAS-DB 俯瞰図と領域図
フィルタの設定
統計モデルを変えて表示可能
ボックスをクリックすると
その領域の拡大表示や
表で表示
P-value
Odds ratio
エクソン
イントロン
遺伝子
CNV
連鎖不平衡
その他、permutationのP値、OMIM情報、マイクロ
サテライト情報などの情報も表示可能
http://biosciencedbc.jp/
SNP間相互作用も表示
27
CNV Control DB
http://biosciencedbc.jp/
28
CNV control DB の表示例
複数の計算データを
一度に閲覧
クリックすると領域の図
高さが頻度
色の濃さがCNV数
http://biosciencedbc.jp/
29
29
CNV検出の方法
・DNAcopy (Venkatraman and Olshen, Bioinfomatics, 2007)
-Segments DNA copy number data using circular binary segmentation to
detect regions with abnormal copy number
- the prediction performance is highly evaluated
・CGHseg (Picard, et al., BMC Bioinformatics, 2005)
-CGH profile is modeled by a random Gaussian process whose distribution
parameters are affected by abrupt changes at unknown coordinates
-adaptive criterion that detects previously mapped chromosomal aberrations are
used
・PennCNV (Wang et al, nature
-Hidden markov model based method
genetics, 2007)
・Birdsuite (Korn et al, nature genetics, 2009)
-Four stage analytical frame work 1) extracts CNP (common copy number
polymorphysm) , 2) genotype calls, 3) identifies rare CNVs via a Hidden Markov
Model, 4) summarizes these results.
http://biosciencedbc.jp/
30
CNV control DB の表示例
クラスタリングして
類似のCNVをマージ
表示オプションの変更
クラスタリングなし
http://biosciencedbc.jp/
SNP位置まで表示した詳細画面
31
CNV Case-Control DB
http://biosciencedbc.jp/
32
CNV-case control DB の表示例
CNV region
P-values
Database
Genomic
Variants
http://biosciencedbc.jp/
33
http://biosciencedbc.jp/
34
実際にGWAS DBを
使ってみよう!
http://biosciencedbc.jp/
35
実習
ナルコレプシーのGWASデータを見てみよう!
最終目標: SNP間の相互作用(epistasis)の図を表示する
1:まずはGWAS DBへ!
2:Case Control GWASタブを選択。
3:Search & BrowseのBrowse GWAS results from disease name listを選択。
4:Narcolepsyをぽちっっとな。
→一つ登録されていますね。では、そこへ入ってみましょう!
5:“narco”をクリック!
6:研究の規模はどのぐらいですか?研究内容をざっと見たら、
Go
!
7:Mapが出てきました。ゲノム全体のP-valueを見てみましょう。
Question1:色が色々ありますね。何を意味していますか?
http://biosciencedbc.jp/
36
実習
最終目標:SNP間の相互作用(epistasis)の図を表示する
8:このP-valueは何のモデルを使っていますか?他のモデルも見てみましょう。
→右上のSelect P-valueのPull downをいじって
Show Map を押すべし。
9:そろそろマンハッタンプロットを見てみましょう
→なんだか赤い点々が。そこの領域に行ってみよう!
Show Plot
11:リスト→その領域に登録されているSNP一覧。SNP情報や関連解析におけ
るMAFやP-valueなど閲覧できる。
グラフ→P-valueやORを表示できる。遺伝子の位置もありますね。
12:ここで、左側のチェックをいじって、色々表示させたり消したりちゃおう。
Question2:発現量に影響しそうなSNPはあるかな?
cSNP: coding SNP, sSNP: silent SNP, rSNP: regulatory SNP,
iSNP: intronic SNP, gSNP: genome SNP
Question3:カイ二乗検定以外にもPermutation testによるP-valueが!表示さ
せて違いを見てみよう。
Question4:ORも様々なモデルに対応しているぞ♪
http://biosciencedbc.jp/
37
実習
最終目標:SNP間の相互作用(epistasis)の図を表示する
Question5:この領域のLDブロック構造は?R-squareを表示させてみよう。
Question6: HapMap検体の遺伝子型によるLDブロックもあるよ。違いはある
かな?
Question7:他のマーカーは存在するかな?
13:そろそろ別のこともしてみよう。
押してみよう。
Question8:これはなんだろう?
Show Table
というボタンがあるよ。
14:左側のチェックをいじってみよう。
MAF・CR・HWEの閾値で表示するSNPを変えられるね。
15:Choose Itemsの一番下に“Epistasis”を発見したよ!最終目標が見えて来
たね。チェックを入れてupdateしちゃおう。
16:SNPの組み合わせリストが出て来たね。
17:Weightが一番低い組み合わせの
http://biosciencedbc.jp/
G
ゴールが近いぜよ~~
を押すと・・・?
38