ナレッジデータベースを利用した 疾患関連変異の探索

ナレッジデータベースを利用した
疾患関連変異の探索
フィルジェン株式会社 バイオサイエンス部
([email protected])
1
疾患関連変異の探索
シークエンス
アライメント/マッピング
変異検出
Biomedical Genomics Workbench
二次解析
データの精査・解釈
Ingenuity®
Variant Analysis™
三次解析
2
製品ラインナップ
Biomedical Genomics Workbench
•
•
•
•
•
全ゲノム、全エクソームなどの解析パイプラインを標準搭載し、カスタマイズも可能。
がんサンプル、遺伝性疾患サンプル用の解析パイプラインも搭載。
データベース管理ツールを搭載し、各種ゲノムやアノテーションデータを容易に取得可能。
トリオ解析、CNV解析用のツールを搭載。
RNA-Seq、ChIP-Seqのデータ解析にも対応。
Ingenuity® Variant Analysis™
• 変異データのフィルタリングワークフローを標準搭載。膨大な変異データの中から、疾患関連
変異を簡単に抽出。
• MD/PhDレベルのキュレーターによってヒューマンキュレーションされた、高精度な変異データ
のデータベースが利用可能。
• 遺伝性疾患や癌関連変異のデータベースも利用可能。
• dbSNP, 1000 Genome, SIFT, Polyphen2などの公共データベースの情報でアノテー
ション付けが可能。
• クラウドコンピューティングを利用することで、計算時間や保存データのディスクスペースに関
する問題を解決。
• 変異の存在する遺伝子名から、関連するパスウェイを表示。
• Biomedical Genomics Workbenchと統合させて解析を実行することが可能。
3
Biomedical Genomics Workbench
直観的に操作できるインターフェイス
• フォルダ構造によるデータの管理
• アプリケーションごとに解析ワークフロー・ツールを分類
• 洗練されたゲノムブラウズ
解析ワークフローを標準搭載
• 複数からなる解析ステップをワークフローにより一括し、ストレートに結果を取得
• 全ゲノム、全エクソーム、ターゲットアンプリコン、全トランスクリプトーム解析用の
ワークフローを搭載
様々な解析ツール
• 標準の解析ワークフローに追加できる様々なツールを搭載
• トリオ解析・CNV解析用のツールも搭載
リファレンスデータを管理するマネジャーを搭載
• 解析に必要となる様々なリファレンス・アノテーションの取得・管理
Reference Data
Management
•
•
•
•
•
•
Ensembl
dbSNP
1000 Genomes Project
HapMap
ClinVar
Gene Ontology...etc.
4
解析ワークフロー/ツール
Ready-to-Use Workflows: ワークフロー
・
・
・
・
・
シークエンスデータのクオリティチェック用ワークフロー
全ゲノム解析(Whole Genome Sequencing: WGS)
全エクソーム解析(Whole Exome Sequencing: WES)
ターゲットアンプリコン解析(Targeted Amplicon Sequencing: TAS)
全トランスクリプトーム解析(Whole Transcriptome Sequencing: WTS)
Tools: ツール
・ ワークフローで取得した結果に対する、更なる解析に使用
・ 既存のワークフローに組み込み、独自のワークフローの作成に使用
・ 順々に使用することで、解析結果を取得することも可能
5
Ready-to-Use Workflows
WGS/ WES/ TAS ワークフロー:
・ ヒトのシークエンスデータを用いた変異解析用ワークフローを収録
・ 解析目的に合わせて3つのフォルダに分類:
General Workflow
• 検出した変異に対するアノテーション(遺伝子、アミノ酸置換等)
Somatic Cancer
• 1サンプルやペアサンプル(正常・病変)を用いた変異検出・アノテーション
Hereditary Disease
• トリオサンプルを用いた遺伝性の変異の検出・アノテーション
WTS ワークフロー:
・ ヒト/マウス/ラットのRNA-Seqデータを用いた、変異解析/発現
解析用のワークフローを収録
6
クオリティチェック用ワークフロー
Prepare Overlapping Raw Data:
• リードデータのクオリティチェックの実施と、クオリティの低い領域の除外(トリミング)、
さらにForward/Reverseリードのオーバーラップ領域のマージを行う。
Prepare Raw Data:
• リードデータのクオリティチェックの実施と、クオリティの低い領域の除外(トリミング)
を行う。
7
WGS/ WES/ TAS ワークフロー:General Workflows
Annotate Variants:
• 変異データへの、遺伝子名、アミノ酸置換情報、各種公共データベ
ースの変異データなどのアノテーションの追加を行う。
Identify Known Variants in One Sample:
• ユーザーの保有するカスタムデータベース中にある変異データの取得を
行う。
8
WGS/ WES/ TAS ワークフロー:Somatic Cancer
Filter Somatic Variants:
• 公共データベースの変異情報を利用して、変異データから体細胞
突然変異データを取得する。
Identify Somatic Variants from Tumor Normal Pair:
• 疾患・正常のペアサンプルから体細胞突然変異の検出を行う。
Identify Variants:
• 変異の検出を行う。
Identify and Annotate Variants:
• 変異の検出およびアノテーション付けを行う。
9
WGS/ WES/ TAS ワークフロー:Hereditary Disease
Filter Causal Variants:
• 公共データベースの変異情報を利用して、変異データから病因変
異データを取得する。
Identify Causal Inherited Variants in Family of Four:
• 4サンプル分の家族データから、病因変異の検出を行う。
Identify Causal Inherited Variants in Trio :
• 3サンプル分の家族データから、病因変異の検出を行う。
Identify Rare Disease Causing Mutations in Family
of Four:
• 4サンプル分の家族データから、de novo変異や複合ヘテロ接合
体変異の検出を行う。
Identify Rare Disease Causing Mutations in Trio:
• 3サンプル分の家族データから、de novo変異や複合ヘテロ接合
体変異の検出を行う。
Identify Variants:
• 変異の検出を行う。
Identify and Annotate Variants:
• 変異の検出およびアノテーション付けを行う。
10
WTS ワークフロー
Annotate Variants:
• 変異データへの、遺伝子名、アミノ酸置換情報、各種公共データベ
ースの変異データなどのアノテーションの追加を行う。
Compare Variants in DNA and RNA:
• DNAサンプルとRNAサンプル間における変異の比較データの取得
を行う。
Identify Candidate Variants and Genes from Tumor
Normal Pair:
• 疾患/正常のペアサンプルから体細胞突然変異と発現変動
遺伝子データの取得を行う。
Identify Variants and Add Expression Values:
• 変異データと遺伝子発現データの取得を行う。
Identify and Annotate Differentially Expressed
Genes and Pathways:
• テスト/コントロールサンプル間の遺伝子発現データに対して
統計検定を実施し、どのようなパスウェイが影響を受けている
かを検証を行う。
11
リシークエンス解析用個別ツール
Resequencing Analysis:
変異解析に基本的なツールを収録
マッピング、SNV/InDel検出、CNV検出など
Add Information to Variants:
変異にアノテーションを付加するツールを収録
遺伝子、アミノ酸置換、COSMIC、ClinVarなど
ヒトサンプルでのみ利用可能
Compare Samples:
複数サンプルの変異データ解析用ツールを収録
ケース・コントロール間の有意差検定、トリオ解析など
12
トランスクリプトーム/エピゲノム解析用個別ツール
RNA-Seq Analysis:
遺伝子発現解析用の基本ツール
Small RNA Analysis:
Small RNA発現解析用の基本ツール
Quality Control:
クオリティコントロール用のツールを収録
ボックスプロットや主成分分析など
Annotation Test:
GO解析やパスウェイ解析用のツールを収録
Epigenomics Analysis:
ChIP-Seq解析用の基本ツール
13
リファレンスデータ管理ツール
• Hg38 96GB: Ensembl v81
• QIAGEN Gene Reads Panels hg19 8MB: Ensembl v74
• Hg38 88GB: Ensembl v80
• Mouse 15GB: Ensembl v80
• Hg19 63GB: Ensembl v74
• Rat 5.5GB: Ensembl v79
14
バッチ処理機能
Batchにチェックを入れる
•
複数のサンプルをフォルダにまとめておくことで、一括して解析するバッチ処理を実行できる。
15
ワークフロー編集/作成
•
ワークフロー作成機能により、ユーザーは既存の解析ワークフローをカスタマイズしたり、
新規に構築することが可能。
作成したワークフローはToolboxに追加される。
16
解析データ例:変異データ



Type: 変異の種類(SNV, Insertion, Deletionなど)
Reference: リファレンスの塩基配列
Allele: 検出された塩基配列






Zygosity: 変異の接合性(HeteroかHomoか)
Count: マップされたリードのうち、変異を有するリードの数
Coverage: マップされたリード数
Frequency: 変異の頻度
Chromosome: 変異の検出された染色体番号
Region: 変異のポジション
17
解析データ例:変異データ
•
•
ワークフローを実行すると、自動で変異にアノテーションが付加される。
一部アノテーションが付加されないワークフローもあり、アノテーション付加用ワークフローや個別ツールを使用することで、
容易にアノテーションを付加することが可能。
• アノテーションデータ
•
•
アミノ酸置換情報や非同義置換情報、オーバーラップする遺伝子名などがアノテーションとして追加。
青字はデータベースにリンクしており、クリックすることで当該サイトを閲覧することが可能。
18
解析データ例:遺伝子発現データ
•
発現量は遺伝子レベル、転写物レベルの両方で計算される。
Gene-level Expression
Transcript-level Expression
19
解析データ例:遺伝子発現データ
•
遺伝子発現データを基に、テスト・コントロール間で有意差検定を実施することが可能。
有意差検定データ
20
解析データ例:遺伝子機能解析データ
•
グループ間で発現に有意差の認められた遺伝子データを基に、Gene Ontologyなどの
遺伝子機能解析を行うことが可能。
21
データのフィルタリング
•
フィルター機能を利用することで、ユーザーの指定した条件に一致したデータを抽出することが可能。
条件に一致したデータ数
22
ゲノムブラウザー
•
解析ワークフローでは、解析データと各種アノテーションをまとめたゲノムブラウザービューが作成される。
•
ゲノムブラウザービューは個別ツールでも作成することが可能。
ワークフロー解析データ






マッピングデータ
キャプチャー領域データ
キャプチャー領域の評価レポート
アミノ酸置換情報データ(表示用)
変異データ(各種アノテーション済)
Genome Browser View
Genome Browser Viewを開くと、変異
のテーブルデータも同時に表示される
23
ゲノムブラウザー
•
テーブル中で任意のデータをクリックすると、ブラウザー上の当該箇所が拡大表示される。
24
変異の検出後は?
•
•
エクソーム解析などでは、数万個レベルの変異のリストが出力される。
このリストの中から、疾患との関連など、生物学的に重要な変異を探し出す必要がある。
↓
•
論文情報や変異情報・遺伝子情報のデータベースを利用し、疾患と関連する変異を迅速
に見つけ出す。
25
Ingenuity® Variant Analysis™
 Ingenuity ナレッジベースはタンパク、遺伝子、複合体、細胞、組織、薬、疾患に関わる数百万にも及ぶ生物学的
機能、相互作用に関する情報が収集されたデータベース
Literature findings
Biomedical Ontology
MD/PhD level
curators
The Ingenuity
Knowledge Base
The Ingenuity Ontology
26
ソフトウェア画面
 クラウドへデータをアップロードし、Webベースのツールでデータ解析
 ワークフローに従い、変異データを自動フィルタリング
フィルタリングワークフロー
変異データテーブル
27
Biomedical Genomics Workbenchとの連携
 Biomedical Genomics Workbenchから、変異データをシームレスにアップロード可能。
 解析結果データも、自動的にダウンロードされる。
28
2種類の解析ツール
個人ゲノム、がん研究用ツール
がんの種類を選択
遺伝性疾患研究用ツール
遺伝病の種類を選択
29
アリル頻度情報解析用ツール
 アリル頻度情報のアノテーション付加、およびフィルタリング用ツールが使用可能となる。
30
充実したデータベース






Ingenuityナレッジベース
ヒューマンキュレーションによる表現型と関連する変異
ファーマコゲノミクスに関連する変異
HGMD(遺伝性疾患関連変異)
OMIM疾患モデル
癌関連データベース
• Somatic Variants from COSMIC / TCGA
 マウスノックアウトデータ
 Non-Coding関連(Observed + Predicted)
• miRNA結合部位(observed + TargetScan predicted)
• Transcription factor binding sites (observed + JASPAR
predicted + ENCODE TFBS)
• Enhancers integrated (observed + VISTA predicted)
 機能予測&保存部位
• SIFT, BSIFT & PolyPhen-2, Phylo-P
• Haploinsufficient gene information
• MaxEntScan Splice Site prediction
 リファレンスゲノム
•
•
•
•
dbSNP
1000 genomes project
Complete Genomics healthy reference
6500 NHLBI ESP
31
フィルタリングワークフロー
 変異のクオリティーやリード深度でフィルタリング。
32
フィルタリングワークフロー
 1000 Genomes Projectなどのコモンバリアントをフィルタリ
ングによって除去し、レアバリアントのみを残す。
33
フィルタリングワークフロー
 論文やアノテーション情報に基づき、生体に有害な変異のみ
を残す。
34
フィルタリングワークフロー
 Genotype Zygosityや、ケース/コントロールそれぞれのサン
プル内の変異をもつ頻度でフィルタリング。
35
フィルタリングワークフロー
 論文やデータベースなどに基づき、癌と関連のある変異のみを
残す。
36
フィルタリングワークフロー
 注目している遺伝子、または関連キーワードを持つ変異のみ
を残す。
37
解析データ例:変異データ
変異の詳細情報
 フィルタリングによって絞り込まれた変異データ、および各変異の詳細情報
が表示される。
38
解析データ例:パスウェイデータ
 変異をもつ遺伝子と関連するパスウェイも表示される。
39
ソフトウェアの詳細は、以下の弊社Webサイトをご覧ください。
Biomedical Genomics Workbench:
http://www.filgen.jp/Product/BioScience21-software/index11-cancer_research_workbench.htm
Ingenuity® Variant Analysis™:
http://www.filgen.jp/Product/BioScience21-software/index25-IVA.html
お問い合わせ先:フィルジェン株式会社
TEL 052-624-4388 (9:00~17:00)
FAX 052-624-4389
E-mail: [email protected]
40