2014年2月13日 創薬研究におけるバイオデータベース講習会 @つくば ヒト遺伝子統合データベース H-InvDB 産業技術総合研究所 創薬分子プロファイリング研究センター 世良 実穂 1 完全長cDNA (FLcDNA) • 全長の成熟mRNAからクローニングされる。 • FLcDNAsはイントロンを含まない。 • Open reading frames (ORFs)の予測が比 較的容易である。 • 選択的スプライシングバリアントに対応す るFLcDNAが入手可能である。 2 H-Invitational プロジェクト ミレニアム ゲノム プロジェクト ◆ Human FullFull-length cDNA Annotation Invitational (H(H-Invitational) ◆ 世界のヒト完全長cDNAクローン情報を収集し、包括的なアノテーション(注釈 付け)を行うことにより、トランスクリプトームの統合データベース構築を目標 とする。 ◆ 生物情報解析研究センター(JBIC、産総研)およびDDBJ(遺伝研)が主催し、 世界の44研究機関からの120人以上の研究者が参加した。 H-Invジャンボリー風景 (2002年8月) 統合データベース: H-InvDB 3 2004年4月公開 Mammalian Gene Collection, NIH, US HUGE, Kazusa DNA Res. Crt. German human cDNA project H-Invitational cDNA collection FLcDNA project, IMS, Univ Tokyo HUNT, Helix Res. Inst. 4 Chinese Human Genome Center トランスクリプトの由来となった組織 (H-InvDB_8.0 representative transcripts) *Total 694 tissue_types for 27,819 transcripts. 5 H-InvDBにおける遺伝子構造の決定 ヒトタンパク質 (151,360 HIPs) ヒト転写産物 (249,012 HITs) Mapping transcript nucleotide sequence onto human genome Predict CDS CDS 相同性検索(ProteinDB) 相同性検索 モチーフ予測(InterPro) モチーフ予測 Genome NCBI b36.2 予測されたタンパク質の 遺伝子機能推定 Determine gene locus for transcript with >=1bp overlap in genome location ヒト遺伝子座 (45,847 HIXs) 670 UM clusters 各種解析を実施し、多数の アノテーション情報を付与 遺伝子座1 遺伝子座2 6 H-InvDB リリース 8.3 (2013年3 (2013 3月公開)) www.h-invitational.jp (hinv.jp) ヒトの全遺伝子と転写産物を対象とした統合データベース。 ヒトの全遺伝子と転写産物 完全長cDNAとDDBJ/EMBL/GenBankに登録されたmRNAの情報を含む。 H-InvDBのアノテーション項目 InvDBのアノテーション項目 遺伝子構造 スプライシング変異体 機能性RNA 機能性RNA タンパク質の機能 機能ドメイン トップページ 細胞内局在 代謝パスウェイ タンパク質立体構造 疾患との関連 遺伝的多型(SNPs 遺伝的多型(SNPs) SNPs) 遺伝子発現パターン 分子進化学的特徴 データベース構成 タンパク質間相互作用 7 H-InvDB トップページ www.h-invitational.jp (hinv.jp) H-InvDB画面構成 InvDB画面構成 3種類のメイン・ビューアと6 種類のメイン・ビューアと6種類のサブ・データベースで構成 9 H-InvDBで使われる InvDBで使われるID で使われるID • HIT (H(H-Invitational transcript): ヒト転写産物ID ヒト転写産物ID 形式:HIT + 9桁の数字 + version番号 例)HIT000000001.1 転写産物 (cDNA, mRNAなど)配列のアノテーション情報をデータベース化し、HInvitational transcripts(HIT)ナンバーというIDを付与しました。 • HIX (H(H-Invitational cluster): ヒト遺伝子座ID ヒト遺伝子座ID 形式:HIX + 7桁の数字 + version番号 例)HIX0000001.1 ヒトゲノム上の重複を除く遺伝子クラスター遺伝子クラスターをHInvitational cluster(HIX)と定義し各遺伝子座単位にIDを付与しました。 • HIP (H(H-Invitational protein): ヒトタンパク質ID ヒトタンパク質ID 形式:HIP + 9桁の数字 + version番号 例)HIP000000001.1 転写産物配列の予測CDSアノテーション情報をデータベース化し、ユ ニークなアミノ酸配列に対しH-Invitational protein(HIP)ナンバーというID を付与しました。 INSD (DDBJ/EMBL/GenBank)のID等にも対応 10 各画面のアイコン 遺伝子のアノテーション 転写産物のアノテーション タンパク質アノテーション ゲノムブラウザ 遺伝子発現 分子進化データ 疾患関連遺伝子 タンパク質間相互作用 遺伝子ファミリー 11 Locus view 遺伝子座(HIX)のアノテーションを提供 位置 / 代表転写産物 / 発現量 / スプライシングバリアント etc. 12 Transcript view 転写産物(HIT)のアノテーションを提供 塩基配列 / 翻訳領域 / タンパク質としての機能 / 進化的保存性 / SNP etc. 13 Protein view タンパク質(HIP)のアノテーションを提供 由来する転写産物 / ドメイン構造 / 機能 / SNP etc. 14 H-InvDBのタンパク質分類(リリース8.3) ◆ 転写産物の総数 (HIT):249,012 ◆ クラスターの総数 (HIX):45,847 機能アノテーション・カテゴリー 件数* protein coding 37,481 I: Identical to known human protein (experimentally validated) 16,139 II: Similar to known protein 5,880 III: InterPro domain-containing protein 1,450 IV: Conserved hypothetical protein 1,910 V: Hypothetical protein 5,719 VI: Hypothetical short protein (20-80 aa) 5,691 VII: Pseudogene candidate (transcribed) 692 non-protein-coding 8,366 *代表配列の件数 機能が精査された、Category 機能が精査された、Category I, II, III の23,469件は 23,469件は 信頼性の高いヒト遺伝子セットと考えられる 15 タンパク質分類の利点 機能アノテーション・カテゴリー 件数* protein coding 37,481 I: Identical to known human protein (experimentally validated) 16,139 II: Similar to known protein 5,880 III: InterPro domain-containing protein 1,450 IV: Conserved hypothetical protein 1,910 V: Hypothetical protein 5,719 VI: Hypothetical short protein (20-80 aa) 5,691 VII: Pseudogene candidate (transcribed) 692 non-protein-coding 現時点では機能が不明なグループ ↓ 新発⾒の候補! 8,366 H-Inv6でCat IV〜VIの転写産物(35,294 HIT) → H-Inv8では25%がCat I〜IIIに昇格 (昇格した遺伝⼦と対応する疾患情報の例) HIX0019738 Deafness, autosomal recessive 63 HIX0138060 Diabetes insipidus, neurohypophysea 16 ヒトの遺伝子の個数は? ヒトゲノム配列解読から10年が経過しているが、正確な遺伝 子の個数はいまだに未解決である。遺伝子アノテーションの 方針によって、結果が大幅に変わっている。 Ensembl (Sanger Inst) Entrez Gene (NCBI) http://uswest.ensembl.org/Homo_sapiens/ http://www.ncbi.nlm.nih.gov/ Total Total 53,893 Vega Genes (Sanger Inst) http://vega.sanger.ac.uk/Homo_sapiens/ 45,430 HGNC (HUGO Gene Nomenclature Committee) http://www.genenames.org/ Approved Symbols protein-coding gene 31,517 19,340 GeneCards http://www.genecards.org/ (2011年7月時点のデータ) Total GeneCards genes Protein-coding 67,217 21,097 RASVの定義 RASV = Representative Alternative Splicing Variants RASVs form non-redundant sets of alternative splicing variants 選択的スプライシングのアノテーション ◆ 代表スプライシング・バリアントの定義(Representative alternative splicing variants; RASV) ◆ 各RASVの構造と機能と種間比較 代表配列(Representative transcript) 代表スプライシング変異体(RASV) タンパク質の機能に影響する選択的スプライシング 1.機能ドメインの変化 2.細胞内局在の変化 3.膜タンパク質の変化 Takeda J, Imanishi T, et al. (2006) Nucleic Acids Res. 34:3917-3928. ヒト遺伝子のエクソン上のSNPの分類 a: Representative transcripts in 23,717 genes. 53,754個の非同義SNPと、1,258 1,258のナンセンス のナンセンスSNP 1,258 のナンセンスSNPを同定。 SNP b: Representative transcripts in 36,712 protein-coding genes. 21 c: Densities of polymorphisms. Yamaguchi-Kabata, et al. (2008) d: SNPs causing changes between amino acids and stop codons. H-InvDB詳細検索ツール(ナビ検索) 16種類の条件でH-InvDBに対する複合検索ができるツール 検索条件 実行画面 検索実行例 X染色体上にあり、筋肉系組織で強く発現し、ミトコンドリア に局在するタンパク質 → 3個。 H-InvDBデータセットダウンロード 目的に応じて複数のデータセットを提供 23 実習1 実習1:H-InvDBの基本的な使い方 実習1 実習(1-1) H-InvDBの詳細検索機能を使って、アルデヒ ド分解酵素(ALDH)の遺伝子を探そう。 ヒント •入口は http://hinv.jp/ •[検索ナビ] -> [新詳細検索] -> [遺伝子の機能情報から調 べる] •画面左側の[キーワード/ID検索]にチェックを追加 •カテゴリー[ Identical to known human protein (Category I)]にチェックし、キーワード「ALDH」で検索 25 実習1 26 実習1 実習(1-2) アルデヒド分解酵素(ALDH)遺伝子の変異を 調べよう。 ヒント •実習(1)で見つけた遺伝子座HIX0011002の画面からス タート •[Alternative splicing]タブでスプライシングバリアントを確認 する。 ※ [Related H-InvDB links]からさらにサブDBへ飛べる •[Summary]タブへ戻り、[Representative H-Inv ID]欄から代 表転写産物のリンクをクリックする。 •Transcript viewで[Polymorphism]タブをクリックする。 27 実習1 28 実習2 実習2:H-InvDBからサブDBへの連携 実習2 サブDB サブDBへの DBへのアイコン へのアイコン ゲノムブラウザ 遺伝子発現 分子進化データ 疾患関連遺伝子 タンパク質間相互作用 H-DBAS スプライシングバリアント LEGENDA 疾患情報テキストマイニング ここ 30 実習2 実習(2) 破骨細胞分化因子受容体(RANKタンパク質) と相互作用するタンパク質を探してみよう。 ヒント •入口は http://hinv.jp/ •画面右上のサーチウィンドウを使って「RANK」を検索する。 •検索結果内の アイコンをクリックし、PPI view画面を表示 する。 •RANKタンパク質の相互作用相手に、何か特徴はないだろう か? •余裕があれば、他のアイコンにもカーソルを当ててみよう。 (データがないアイコンはグレーでリンク先がない状態になっている) 31 実習2 クエリタンパク質(=RANK) HIP000031527(TNFRSF11A) 相互作用相手 HIP000099976(TRAF6) HIP000042088(---) HIP000032053(TAB2) HIP000030859(CBLB) HIP000027661(CBL) HIP000021734(TRAF2) HIP000037393(TRAF5) HIP000098079(GAB2) HIP000050804(TRAF3) HIP000034796(TRAF1) HIP000103839(MAP3K7) HIP000021733(TRAF2) 32 実習3 実習3:目的に応じたH-InvDBの利用 実習3 実習(3) ヒト遺伝子の統合データベースH-InvDBを 使って、アルツハイマー病の創薬ターゲット を探してみよう。 ヒント •入口は http://hinv.jp/ (正解はありません。例として) •脳で発現の高い膜タンパク質を絞り込む。 •「growth factor」や「apoptosis」をキーワードにする。 •詳細検索で疾患名=「alzheimer」を検索する。 34 ご不明な点はお気軽にお問い合わせください [email protected] 35
© Copyright 2024 ExpyDoc