ヒト遺伝子統合データベース H

2014年2月13日
創薬研究におけるバイオデータベース講習会
@つくば
ヒト遺伝子統合データベース
H-InvDB
産業技術総合研究所
創薬分子プロファイリング研究センター
世良 実穂
1
完全長cDNA (FLcDNA)
• 全長の成熟mRNAからクローニングされる。
• FLcDNAsはイントロンを含まない。
• Open reading frames (ORFs)の予測が比
較的容易である。
• 選択的スプライシングバリアントに対応す
るFLcDNAが入手可能である。
2
H-Invitational プロジェクト
ミレニアム
ゲノム
プロジェクト
◆ Human FullFull-length cDNA Annotation Invitational (H(H-Invitational)
◆ 世界のヒト完全長cDNAクローン情報を収集し、包括的なアノテーション(注釈
付け)を行うことにより、トランスクリプトームの統合データベース構築を目標
とする。
◆ 生物情報解析研究センター(JBIC、産総研)およびDDBJ(遺伝研)が主催し、
世界の44研究機関からの120人以上の研究者が参加した。
H-Invジャンボリー風景
(2002年8月)
統合データベース: H-InvDB
3
2004年4月公開
Mammalian Gene
Collection, NIH, US
HUGE, Kazusa DNA Res. Crt.
German human cDNA project
H-Invitational
cDNA collection
FLcDNA project, IMS,
Univ Tokyo
HUNT, Helix Res. Inst.
4
Chinese Human Genome Center
トランスクリプトの由来となった組織
(H-InvDB_8.0 representative transcripts)
*Total 694 tissue_types for 27,819 transcripts.
5
H-InvDBにおける遺伝子構造の決定
ヒトタンパク質
(151,360 HIPs)
ヒト転写産物
(249,012 HITs)
Mapping transcript nucleotide sequence
onto human genome
Predict CDS
CDS
相同性検索(ProteinDB)
相同性検索
モチーフ予測(InterPro)
モチーフ予測
Genome
NCBI b36.2
予測されたタンパク質の
遺伝子機能推定
Determine gene locus for transcript with
>=1bp overlap in genome location
ヒト遺伝子座
(45,847 HIXs)
670 UM clusters
各種解析を実施し、多数の
アノテーション情報を付与
遺伝子座1
遺伝子座2
6
H-InvDB リリース 8.3 (2013年3
(2013 3月公開))
www.h-invitational.jp (hinv.jp)
ヒトの全遺伝子と転写産物を対象とした統合データベース。
ヒトの全遺伝子と転写産物
完全長cDNAとDDBJ/EMBL/GenBankに登録されたmRNAの情報を含む。
H-InvDBのアノテーション項目
InvDBのアノテーション項目
遺伝子構造
スプライシング変異体
機能性RNA
機能性RNA
タンパク質の機能
機能ドメイン
トップページ
細胞内局在
代謝パスウェイ
タンパク質立体構造
疾患との関連
遺伝的多型(SNPs
遺伝的多型(SNPs)
SNPs)
遺伝子発現パターン
分子進化学的特徴
データベース構成 タンパク質間相互作用
7
H-InvDB トップページ
www.h-invitational.jp (hinv.jp)
H-InvDB画面構成
InvDB画面構成
3種類のメイン・ビューアと6
種類のメイン・ビューアと6種類のサブ・データベースで構成
9
H-InvDBで使われる
InvDBで使われるID
で使われるID
•
HIT (H(H-Invitational transcript): ヒト転写産物ID
ヒト転写産物ID
形式:HIT + 9桁の数字 + version番号 例)HIT000000001.1 転写産物
(cDNA, mRNAなど)配列のアノテーション情報をデータベース化し、HInvitational transcripts(HIT)ナンバーというIDを付与しました。
•
HIX (H(H-Invitational cluster): ヒト遺伝子座ID
ヒト遺伝子座ID
形式:HIX + 7桁の数字 + version番号 例)HIX0000001.1
ヒトゲノム上の重複を除く遺伝子クラスター遺伝子クラスターをHInvitational cluster(HIX)と定義し各遺伝子座単位にIDを付与しました。
•
HIP (H(H-Invitational protein): ヒトタンパク質ID
ヒトタンパク質ID
形式:HIP + 9桁の数字 + version番号 例)HIP000000001.1
転写産物配列の予測CDSアノテーション情報をデータベース化し、ユ
ニークなアミノ酸配列に対しH-Invitational protein(HIP)ナンバーというID
を付与しました。
INSD (DDBJ/EMBL/GenBank)のID等にも対応
10
各画面のアイコン
遺伝子のアノテーション
転写産物のアノテーション
タンパク質アノテーション
ゲノムブラウザ
遺伝子発現
分子進化データ
疾患関連遺伝子
タンパク質間相互作用
遺伝子ファミリー
11
Locus view
遺伝子座(HIX)のアノテーションを提供
位置 / 代表転写産物 / 発現量 / スプライシングバリアント etc.
12
Transcript view
転写産物(HIT)のアノテーションを提供
塩基配列 / 翻訳領域 / タンパク質としての機能 / 進化的保存性 / SNP etc.
13
Protein view
タンパク質(HIP)のアノテーションを提供
由来する転写産物 / ドメイン構造 / 機能 / SNP etc.
14
H-InvDBのタンパク質分類(リリース8.3)
◆ 転写産物の総数 (HIT):249,012
◆ クラスターの総数 (HIX):45,847
機能アノテーション・カテゴリー
件数*
protein coding
37,481
I: Identical to known human protein
(experimentally validated)
16,139
II: Similar to known protein
5,880
III: InterPro domain-containing protein
1,450
IV: Conserved hypothetical protein
1,910
V: Hypothetical protein
5,719
VI: Hypothetical short protein (20-80 aa)
5,691
VII: Pseudogene candidate (transcribed)
692
non-protein-coding
8,366
*代表配列の件数
機能が精査された、Category
機能が精査された、Category I, II, III の23,469件は
23,469件は
信頼性の高いヒト遺伝子セットと考えられる
15
タンパク質分類の利点
機能アノテーション・カテゴリー
件数*
protein coding
37,481
I: Identical to known human protein
(experimentally validated)
16,139
II: Similar to known protein
5,880
III: InterPro domain-containing protein
1,450
IV: Conserved hypothetical protein
1,910
V: Hypothetical protein
5,719
VI: Hypothetical short protein (20-80 aa)
5,691
VII: Pseudogene candidate (transcribed)
692
non-protein-coding
現時点では機能が不明なグループ
↓
新発⾒の候補!
8,366
H-Inv6でCat IV〜VIの転写産物(35,294 HIT)
→ H-Inv8では25%がCat I〜IIIに昇格
(昇格した遺伝⼦と対応する疾患情報の例)
HIX0019738
Deafness, autosomal recessive 63
HIX0138060
Diabetes insipidus, neurohypophysea
16
ヒトの遺伝子の個数は?
ヒトゲノム配列解読から10年が経過しているが、正確な遺伝
子の個数はいまだに未解決である。遺伝子アノテーションの
方針によって、結果が大幅に変わっている。
Ensembl (Sanger Inst)
Entrez Gene (NCBI)
http://uswest.ensembl.org/Homo_sapiens/
http://www.ncbi.nlm.nih.gov/
Total
Total
53,893
Vega Genes (Sanger Inst)
http://vega.sanger.ac.uk/Homo_sapiens/
45,430
HGNC (HUGO Gene
Nomenclature Committee)
http://www.genenames.org/
Approved Symbols
protein-coding gene
31,517
19,340
GeneCards
http://www.genecards.org/
(2011年7月時点のデータ)
Total GeneCards genes
Protein-coding
67,217
21,097
RASVの定義
RASV = Representative Alternative Splicing Variants
RASVs form non-redundant sets of alternative splicing variants
選択的スプライシングのアノテーション
◆ 代表スプライシング・バリアントの定義(Representative alternative
splicing variants; RASV)
◆ 各RASVの構造と機能と種間比較
代表配列(Representative transcript)
代表スプライシング変異体(RASV)
タンパク質の機能に影響する選択的スプライシング
1.機能ドメインの変化
2.細胞内局在の変化
3.膜タンパク質の変化
Takeda J, Imanishi T, et al. (2006)
Nucleic Acids Res. 34:3917-3928.
ヒト遺伝子のエクソン上のSNPの分類
a: Representative transcripts in 23,717 genes.
53,754個の非同義SNPと、1,258
1,258のナンセンス
のナンセンスSNP
1,258
のナンセンスSNPを同定。
SNP
b: Representative
transcripts in 36,712 protein-coding
genes.
21
c: Densities of polymorphisms.
Yamaguchi-Kabata, et al. (2008)
d: SNPs causing changes between amino acids and stop codons.
H-InvDB詳細検索ツール(ナビ検索)
16種類の条件でH-InvDBに対する複合検索ができるツール
検索条件
実行画面
検索実行例
X染色体上にあり、筋肉系組織で強く発現し、ミトコンドリア
に局在するタンパク質 → 3個。
H-InvDBデータセットダウンロード
目的に応じて複数のデータセットを提供
23
実習1
実習1:H-InvDBの基本的な使い方
実習1
実習(1-1)
H-InvDBの詳細検索機能を使って、アルデヒ
ド分解酵素(ALDH)の遺伝子を探そう。
ヒント
•入口は http://hinv.jp/
•[検索ナビ] -> [新詳細検索] -> [遺伝子の機能情報から調
べる]
•画面左側の[キーワード/ID検索]にチェックを追加
•カテゴリー[ Identical to known human protein (Category
I)]にチェックし、キーワード「ALDH」で検索
25
実習1
26
実習1
実習(1-2)
アルデヒド分解酵素(ALDH)遺伝子の変異を
調べよう。
ヒント
•実習(1)で見つけた遺伝子座HIX0011002の画面からス
タート
•[Alternative splicing]タブでスプライシングバリアントを確認
する。 ※ [Related H-InvDB links]からさらにサブDBへ飛べる
•[Summary]タブへ戻り、[Representative H-Inv ID]欄から代
表転写産物のリンクをクリックする。
•Transcript viewで[Polymorphism]タブをクリックする。
27
実習1
28
実習2
実習2:H-InvDBからサブDBへの連携
実習2
サブDB
サブDBへの
DBへのアイコン
へのアイコン
ゲノムブラウザ
遺伝子発現
分子進化データ
疾患関連遺伝子
タンパク質間相互作用
H-DBAS
スプライシングバリアント
LEGENDA
疾患情報テキストマイニング
ここ
30
実習2
実習(2)
破骨細胞分化因子受容体(RANKタンパク質)
と相互作用するタンパク質を探してみよう。
ヒント
•入口は http://hinv.jp/
•画面右上のサーチウィンドウを使って「RANK」を検索する。
•検索結果内の アイコンをクリックし、PPI view画面を表示
する。
•RANKタンパク質の相互作用相手に、何か特徴はないだろう
か?
•余裕があれば、他のアイコンにもカーソルを当ててみよう。
(データがないアイコンはグレーでリンク先がない状態になっている)
31
実習2
クエリタンパク質(=RANK)
HIP000031527(TNFRSF11A)
相互作用相手
HIP000099976(TRAF6)
HIP000042088(---)
HIP000032053(TAB2)
HIP000030859(CBLB)
HIP000027661(CBL)
HIP000021734(TRAF2)
HIP000037393(TRAF5)
HIP000098079(GAB2)
HIP000050804(TRAF3)
HIP000034796(TRAF1)
HIP000103839(MAP3K7)
HIP000021733(TRAF2)
32
実習3
実習3:目的に応じたH-InvDBの利用
実習3
実習(3)
ヒト遺伝子の統合データベースH-InvDBを
使って、アルツハイマー病の創薬ターゲット
を探してみよう。
ヒント
•入口は http://hinv.jp/
(正解はありません。例として)
•脳で発現の高い膜タンパク質を絞り込む。
•「growth factor」や「apoptosis」をキーワードにする。
•詳細検索で疾患名=「alzheimer」を検索する。
34
ご不明な点はお気軽にお問い合わせください
[email protected]
35