公共データベースとは? - DDBJ

公共データベースを使い倒した
知のめぐりのよい生命科学研究
坊農 秀雅
情報・システム研究機構
ライフサイエンス統合データベース
センター(DBCLS)
[email protected]
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
公共データベースとは?
• 誰でも自由に使えるデータベース(DB)!
• 世界中の研究者が協力して維持!
• 日本では「統合データベースプロジェクト」!
– NBDC DBCLS DDBJ を中心に多くの大学
や研究機関が協力!
–安心してすぐに利用できるデータを提供!
–公共DBとして外に出す際にデータを綺麗に
2
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
DBCLS移転しました
• 2014年度から!
• 柏の葉キャンパス駅前のビル!
• 遺伝研DDBJ/CIBの隣のビル!
• 「統合」なのに分割移転w!
• 予算的、制度的な都合!
• 地理的に と統合
3
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
本日のトピック: 統合DBの
1. 現状
2. 活用法
3. 活用事例
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
3つの「センター」
• DDBJ: DNAデータアーカイブ!
http://dbcls.rois.ac.jp/about
• DBCLS: データベース統合基盤技術開発!
5
• NBDC: 戦略立案、funding
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
NBDC
• Since 2011 (4年目)!
• http://biosciencedbc.jp/
6
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
integbio.jp
7
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
http://integbio.jp/dbcatalog/
DBを探す(カタログ)
8
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
データを探す(横断検索)
http://biosciencedbc.jp/dbsearch/
9
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
データを使う(アーカイブ)
http://dbarchive.biosciencedbc.jp/
10
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
本日のトピック: 統合DBの
1. 現状
2. 活用法
3. 活用事例
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
2. 統合DBの活用法
• 使い方動画!
–統合TV!
• 文献!
–新着論文レビュー・
領域融合レビュー!
–PubMed+PMC!
• Allie/colil/inMexes!
–OMIM+gene!
• gendoo!
12
• DNA配列!
–GGRNA/GGGenome!
–DBCLS SRA!
• 遺伝子発現!
–発現目次!
–RefEx!
• RDF!
–togogenome!
–togotable
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
togotv(統合TV)
• 動画によるDBやツールのチュートリアル!
–各DBやツール名で検索! http://togotv.dbcls.jp/
• 統合データベース講演会AJACSの動画も!
• YouTubeにも!
http://youtube.com/togotv
!
!
• 約770の動画 (アップデート込)
クリエイティブ・コモンズ 表示 2.1 日本 © 2014 DBCLS Licensed under CC BY 2.1JAPAN
13
NGS
14
14
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
15
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
16
16
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
17
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
流行りのクラウド化!
18
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
謹告
クラウド化とはいうものの…
• 統合TV作り手を募集しています!
–生命科学のDBやウェブツールに興味のある方!
–Camtasia studioというソフトウェアで作成!
–作成プロトコール: 「統合TVの作り方」!
– http://togotv.dbcls.jp/20120220.html !
– http://togotv.dbcls.jp/20120221.html!
–国立遺伝学研究所(三島市)まで来れる方(応相談)
19
20
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
大人気のサービス
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
新着論文レビュー
http://first.lifesciencedb.jp/
21
クリエイティブ・コモンズ 表示 2.1 日本
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
http://leading.lifesciencedb.jp/
22
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
Pubmed & PMC
http://www.ncbi.nlm.nih.gov/gquery/?term=ALL%5Bfilter%5D
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
23
Allie
http://allie.dbcls.jp/
24
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
http://colil.dbcls.jp/
25
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
inMeXes http://docman.dbcls.jp/im/
26
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
gendoo
http://gendoo.dbcls.jp/
遺伝子、疾患について、関連する疾患、薬剤、臓器、生
命現象などの特徴をキーワードでリスト表示するツール
Nakazato T et al. Nucl.Acids Res. (2009) 37, W166-W169
27
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
28
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
塩基配列データベース
http://www.insdc.org/
Annotated sequences
INSDC!
NCBI!
DDBJ/(EMBL)/GenBank RefSeq
Next generation reads
nr/nt Title:Nucleotide collection (nt)
Description:The nucleotide collection consists of
GenBank+EMBL+DDBJ+PDB+RefSeq sequences,
but excludes EST, STS, GSS, WGS, TSA, patent
sequences as well as phase 0, 1, and 2 HTGS
sequences. The database is partially non-redundant.
Capillary reads
TraceArchive
Sequence
Read
Archive
(SRA)
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
29
RefSeq
• Reference Sequenceの略!
• NCBIが提供する配列解析に使うための文字通
り "reference"(リファレンス)となるべき配列
データベースのこと!
• その配列の多くは核酸配列データベースの
DDBJやEMBL、GenBank由来であり、それら
の中からもっとも代表としてふさわしい(参照
の基準となる)ものが、目で見て選ばれている
30
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
GGRNA http://ggrna.dbcls.jp/
あらゆるキーワードや 塩基配列・アミノ酸配列
から遺伝子(RefSeqの
mRNA+ncRNA)を
Google のように検索で
きるウェブサーバ
Naito Y and Bono H Nucl.Acids Res. (2012), 40, W592-W596
31
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
GooGle ライクな Genome 検索エンジン
http://GGGenome.dbcls.jp/
Genomeも検索できたらええなあ…
やりましょう!!
32
32
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
Probe Search http://probe.dbcls.jp/
プローブも検索できたらええなあ…
やりましょう!!
GGRNA
GGGenomeへ
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
33
SRA(Sequence Read Archive)
• NGSのデータベース(除くヒト個人のデータ)!
• NCBI/EBI/DDBJによって維持管理!
–DDBJではDRAとも呼称
NBDCヒトデータベース!
http://humandbs.biosciencedbc.jp/
Image generated by
http://sra.dbcls.jp/
34
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
http://sra.dbcls.jp/
35
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
http://sra.dbcls.jp/
36
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
http://sra.dbcls.jp/
37
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
http://sra.dbcls.jp/
38
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
39
遺伝子発現データベース
• GEO(NCBI)とArrayExpress(EBI)!
–http://www.ncbi.nlm.nih.gov/geo/ !
–http://www.ebi.ac.uk/arrayexpress/ !
• かつてはCIBEX(DDBJ)も!
• RNAseqデータはこちらにも登録がある!
–Transcriptome analysisとも!
• 必要なデータを見つけづらい
40
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
遺伝子発現目次
http://lifesciencedb.jp/geo/
41
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
42
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
http://RefEx.dbcls.jp
43
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
44
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
RDFによるDB統合
ゲノムの配列情報と多種多様なアノテーションデータを個別のオン
トロジー、データ変換プログラムを開発し RDF 形式にして統合
オントロジー
ゲノム配列
NCBO: BioPortal, OBO
(GO, SO ...)
DBCLS: MEO, GMO,
MCCV ...
NCBI: BioProject/RefSeq
-- 既存のリファレンス配列
DDBJ: Annotation
pipeline/GTPS -- 新規ゲノ
ム配列
アノテーション
実験・メタデータ
UniProt: Protein
functions and links
Formats: GFF3, GTF,
GVF, DAS, BED ...
Tools: Cufflinks, BLAST,
InterProt ...
INSDC, NCBI: SRA, GEO
DBCLS: RefEx, Kusarinoko
GOLD, GSC: 環境メタデータ
Bulk data: 文献, 画像 ...
Slide from トーゴーの日シンポジウム2013
「データベース統合の実現に向けて2」
by 岡本忍 (DBCLS)
45
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
http://togogenome.org/
Togogenome
• 生物種とゲノムに関連する多種多様な情報をセマ
ンティック・ウェブ技術により集約し、ゲノム情
報の統合的で新しい検索を実現したシステム
46
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
http://togotable.dbcls.jp/
TogoTable
• EXCELなどの表形式データに記載されているバイオ
データベースのID番号やアクセッション番号からア
ノテーション情報をネットワーク経由で取得し、元
の表形式データに追加するウェブアプリケーション
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
47
祝! PDB record数10万越え
• TogoTableによるDB紐付け→Togogenomeによ
るNGS readの可視化!?!
!
• 参考!
–塩基配列 171M records, 202G bases (DDBJ Rel.96)!
• http://www.ddbj.nig.ac.jp/breakdown_stats/dbgrowth-e.html!
–遺伝子発現 50k experiments, 1.4M samples
(Arrayexpress latest) http://www.ebi.ac.uk/arrayexpress/
48
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
本日のトピック: 統合DBの
1. 現状
2. 活用法
3. 活用事例
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
3. 統合DBの活用事例
A. ヒト疾患モデル化研究: パーキンソン
病様のカイコ!
B. ブタ成熟脂肪細胞の脱分化機構の網
羅的解析
50
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
パーキンソン病
• Parkinson’s disease(PD)!
• 神経変性疾患!
doi:10.1371/journal.pone.0069130.g001
• 症状の進行に伴って血液中の尿酸量が減少!
–その理由はこれまで不明!
• PDモデル生物種:尿酸代謝系に異常を持つ
変異体は未発見!
–PDの症状に似た特徴があり、なおかつ尿酸代謝
系に異常を持つカイコ変異体系統(op)
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
51
非モデル生物には!
遺伝子機能アノテーションがない
ないものは作ればいい → Kaiko functional annotation pipeline
「localBLASTで遺伝子対応表作成」http://bonohu.jp/blog/2013/07/25/
B.mori
Ka00003
0.1
0.5
CAAATAA.
Ka00005
0.2
-1.2
TAGCGA.
Ka00006
0.3
1.0
GGCTTC.
……
TBLASTX
Sequence
GOID
ENST00000373371 ATTGGCTGC..
ENST00000394878 ATGCCCAGG..
ENST00000277541
GCGCGTGT...
……
……
……
…… ……
Kaiko array
11,285 IDs in B.mori !
(5,854 H.sapiens transcript IDs)
Data source: ftp://ftp.ensembl.org/
pub/release-68/fasta/
B.mori
H.sapiens
E-value
Description
Ka00003
Ka00005
ENST00000373371
ENST00000394878
5e-16
2e-21
Ka00006
ENST00000277541
2e-12
solute carrier family 2
ribosomal protein,
large
notchP0
1
……
……
……
52
H.sapiens
WT op50 Sequence
Conversion table
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
ヒトのIDに変換すると…
• ヒトで使われているツールが利用可能!
–市販のパスウェイ解析ソフト KeyMolnet®を利用!
• KeyMolnet®はUniProtIDを入力として受け付けるの
で、対応するそのIDをBiomartで付与!
–参考:「BioMartを使ってさまざまなIDの変換対応表を作成す
る」 http://togotv.dbcls.jp/20110927.html
B.mori
Ensembl
Ka00003 ENST000003733
Ka00005 ENST000003948
Ka00006 ENST000002775
……
……
UniProt
Q9NY64
UniProt ID
GTR8_HUMAN
P46531
……
NOTC1_HUMAN
……
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
53
研究者によるmanual curation!
を経て…
Induced expression
Activation or direct binding
54
doi:10.1371/journal.pone.0069130.g002
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
qPCR in wild-type & op mutant
Relative Quantification (RQ)
Relative Quantification (RQ)
• 脂肪体(左)と精巣(右)
doi:10.1371/journal.pone.0069130.g002
Tabunoki H, Ono H, Ode H, Ishikawa K, Kawana N, Banno Y,
Shimada T, Nakamura Y, Yamamoto K, Satoh J, Bono H.
PLOS ONE 8(7): e69130. (2013)!
http://dx.plos.org/10.1371/journal.pone.0069130
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
55
3. 統合DBの活用事例
A. ヒト疾患モデル化研究: パーキンソン
病様のカイコ!
B. ブタ成熟脂肪細胞の脱分化機構の網
羅的解析
56
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
ブタ成熟脂肪細胞の脱分化機構の 網羅的解析
• 日大生物資源科学部 加野浩一郎教授との共同研究!
• 脱分化脂肪細胞(dedifferentiated fat cells: DFAT) vs
成熟脂肪細胞(mature adipocytes: MAs)
http://www.med.nihon-u.ac.jp/department/saisei/dfat.html より
57
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
DFAT cells vs MAs
Ono H, Oki Y, Bono H, Kano K. Biochem Biophys Res Commun. (2011) 407, 562-7.
doi: 10.1016/j.bbrc.2011.03.063.
58
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
ブタをヒトに対応づける
A!y HG
U133-PLUS-2
Ensembl
Transcript
Description
Ssc.26492.1.A1_at
1553137_s_at
ENST00000305883
Kruppel-like factor 11 [Source:HGNC Symbol;Acc:11811]
Ssc.27622.1.S1_at
1553137_s_at
ENST00000305883
Kruppel-like factor 11 [Source:HGNC Symbol;Acc:11811]
Ssc.9136.1.S1_at
1554283_at
ENST00000515616
Ssc.17478.1.A1_at
1558101_at
ENST00000403491
CCR4 carbon catabolite repression 4-like (S. cerevisiae)
[Source:HGNC Symbol;Acc:14254]
nuclear factor I/A [Source:HGNC Symbol;Acc:7784]
Ssc.22678.1.S1_at
1558101_at
ENST00000403491
nuclear factor I/A [Source:HGNC Symbol;Acc:7784]
Ssc.23810.3.A1_at
1558101_at
ENST00000403491
nuclear factor I/A [Source:HGNC Symbol;Acc:7784]
Ssc.9986.1.A1_at
1558101_at
ENST00000403491
nuclear factor I/A [Source:HGNC Symbol;Acc:7784]
Ssc.17286.1.A1_at
201236_s_at
ENST00000290551
BTG family, member 2 [Source:HGNC Symbol;Acc:1131]
Ssc.9707.1.A1_at
201236_s_at
ENST00000290551
BTG family, member 2 [Source:HGNC Symbol;Acc:1131]
Ssc.22550.1.A1_at
201465_s_at
ENST00000371222
jun proto-oncogene [Source:HGNC Symbol;Acc:6204]
Ssc.9075.1.A1_at
201465_s_at
ENST00000371222
jun proto-oncogene [Source:HGNC Symbol;Acc:6204]
Ssc.3411.1.A1_at
201531_at
ENST00000248673
Ssc.16460.1.S1_at
201693_s_at
ENST00000239938
zinc finger protein 36, C3H type, homolog (mouse)
[Source:HGNC Symbol;Acc:12862]
early growth response 1 [Source:HGNC Symbol;Acc:3238]
Ssc.19629.1.A1_at
201693_s_at
ENST00000239938
early growth response 1 [Source:HGNC Symbol;Acc:3238]
Ssc.19629.2.S1_s_at 201693_s_at
ENST00000239938
early growth response 1 [Source:HGNC Symbol;Acc:3238]
....
....
....
A!y Porcine
....
ブタのマイクロアレイデータをヒトに外挿!
ヒトのマイクロアレイ解析ツールが利用可能に!!
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
59
対応付けの詳細
• BLASTを自分でやる方法!
• biomartを使う方法!
–「BioMartを使って二つの生物種の対応するデー
タを取得する」 http://togotv.dbcls.jp/20120628.html !
–「BioMartを使ってさまざまなIDの変換対応表を
作成する」 http://togotv.dbcls.jp/20110927.html
60
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
During MA dedifferentiation
• 308 down-regulated genes!
• 368 up-regulated genes
Data analyzed with Ingenuity Pathways Analysis(IPA)
61
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
62
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
詳細な手順は統合TVに
• 「DAVIDを使ってマイクロアレイデータを解
析する」 http://togotv.dbcls.jp/20120927.html!
• 「DAVIDの使い方 実践編」 http://togotv.dbcls.jp/20130528.html
Affymetrix webinarにも…!
http://bit.ly/bonoaffywebinar
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
63
同じプラットフォームなら
別グループのデータも比較可能
• NCBI GEOの同じプラット
フォームで検索!
–GSE15472 “Induced
Pluripotent Stem Cells from
the Pig Somatic Cells”!
• 自分のデータと混ぜて正規
化+クラスタリング
• 統合TVの「発現制御解析」!
• http://togotv.dbcls.jp/ja/contents/category/expression
64
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
結論: それ、統合TVでできるよ
• Local BLASTの使い方!
–Windows http://togotv.dbcls.jp/20110119.html !
• 導入・準備編 !
• 検索実行・オプション編!
–MacOSX http://togotv.dbcls.jp/20110420.html !
• 導入・準備編!
• 検索実行・オプション編!
–AJACS名古屋 http://motdb.dbcls.jp/?AJACS32%2Fbono
© 2014 DBCLS Licensed under CC BY 2.1JAPAN
65
謹告
• 統合TV作り手!
募集
–三島エリアで一緒にコンテンツ作成してくれる人!
•インターン
‒公共DBを使い倒した大規模データ解析を一緒に
‒単なるデータ解析でなく、統合TVの新しいコンテ
ンツとなるような解析事例を「共同研究」で
‒大学院生や若手のポスドクを想定
‒「解析請負」ではなく、「解析技術教育請負」
‒2014年夏にDBCLSのスペースが出来てから…
66
© 2014 DBCLS Licensed under CC BY 2.1JAPAN