SNP & Variation Suite 8 ~ GWAS解析編

SNP & Variation Suite 8
~ GWAS解析編 ~
フィルジェン株式会社 バイオサイエンス部
([email protected])
Golden Helix企業概要

アメリカのモンタナ州にて1998年に設立

遺伝子解析のリーダー的企業

遺伝子解析ソフトウェアおよび解析サービスを提供

世界中に数百の大学・政府研究機関などのクライアントを保有
戦略的パートナー
•
•
•
•
•
•
Harvard School of Public
Health
Affymetrix Gene Chip
Compatible
Illumina iConnect Charter
Partner
Agilent
Glaxo Smith Kline
GeneGo
SNP & Variation Suite (SVS)
SVS: マイクロアレイや次世代シークエンス(NGS)データから遺伝学的解析をするソフトウェア。
Core Features





パワフルなデータマネジメント
豊富なビジュアライゼーション機能
強力な統計解析機能
柔軟性
操作性
Applications






Genotype Analysis
DNA sequence analysis
CNV Analysis
RNA-seq differential expression
Family Based Association
GenomeBrowse
SNP & Variation Suite (SVS)
研究
医療

Human genome

Plant DNA
療オプションの決定におけ
「コンピューターサイエン

Animal DNA
る、ゲノム情報の利用
ス」知識の負担を軽減

疾患の診断や最適な治
教育

遺伝学的解析に要する、
SNP & Variation Suite使用例①

ベーチェット症候群に関連する遺伝子の統計解析にSVSが利用されている。
• Kirino, Y et al. (2013) Targeted resequencing implicates the familial Mediterranean fever gene MEFV and
the toll-like receptor 4 gene TLR4 in Behçet disease. PNAS, doi:10.1073/pnas.1306352110.
SNP & Variation Suite使用例②

Vitis vinifera L.における遺伝子関連解析にSVSが使用されている。
• Emanuelli, F et al. (2010) A candidate gene association study on muscat flavor in grapevine (Vitis
vinifera L.). BMC Plant Biology, 10:241, doi:10.1186/1471-2229-10-241.

SVSはこれまでに800件以上の論文で引用されている。
SNP & Variation Suite 8
- 基本機能-
SVS起動画面:
Welcome Screen
A) プロジェクトやチュートリアルへのリンク
D) Golden Helix社テクニカルサポートの連絡先
B) アノテーションやマーカーマップの管理、Helpメニューへのアクセス E) 使用しているライセンス情報
C) 最新のアップデートやバグなどのサポート情報
F) 利用できる機能情報
Project画面:
A
Project Navigator
B
C
A) Project Navigator Window: インポートデータや解析データが表示
B) Node Change Log: 実行した操作のログ情報
C) User Notes: プロジェクトやデータに関するメモを入力
データのインポート
各データフォーマットに最適化されたインポートウィザードを搭載

Affyetrix (CHP, CEL, CNT, CNCHP, CYCHP, etc)

Text

Illumina (DSF, Final Report, Matrix Text File, etc)

Third Party

Family Pedigree (FBAT Pedigree/ Phenotype, etc)

Public Data

Agilent Files

HapMap

NimbleGen Data Summary Files

Impute2 GWAS Files

Variant Call Format (VCF) Files

MACH Output

Complete Genomics Var Files

Golden Helix DSF

PED/TPED/BED
…and more
データ画面:
Spread Sheet

データはSpreadsheet形式で表示

Marker Map情報は緑色のタブで表示
Spread Sheetの編集
柔軟性のあるデータ編集機能

エクセル形式で編集可能

カテゴリーデータのバイナリデータへ
の変換

行・列の複製や追加、入れ替え、
数値や名前の編集

変更点は赤色で表示
その他データ編集機能例
複数のSpreadsheetを統合:

Joining or Merging Spreadsheets

Appending Spreadsheets
ゲノムアセンブリ/ リファレンス/ アノテーショントラック

各生物種のゲノムアセンブリ(ゲノミックビルド)の取得や管理をおこなう専用のツールを搭載。

リストから任意のデータを選択してダウンロード。
ゲノムアセンブリ/ リファレンス/ アノテーショントラック



各生物種のリファレンスデータやアノテーショントラックの取得や管理をおこなう専用のツールを搭載。
リストから任意のデータを選択してダウンロード。
Informationから生物種やデータタイプ、取得するリンク先などを確認できる。
ゲノムアセンブリ/ リファレンス/ アノテーショントラック
対応生物種一覧
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Anopheles gambiea PEST
Anopheles S Pimperena
Arabidopsis thaliana
Bos taurus
Brassica rapa
Caenorhabitis elegans
Canis familiaris
Capra hircus
Capsicum annuum
Carica papaya
Citrullus lanatus
Cricetulus griseus
Danio rerio
Drosophila melanogaster
Equus caballus
Eucalyptus grandis
Felis catus
Glycine max
Gossypium raimondii
Gullus gullus
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Heterocephalus glaber
Homo Sapiens
Leishmania infantum JPCMS
Macaca mulatta
Mus musculus
Mycobacterium tuberculosis H37Rv
Nomascus leucogenys
Oncorhynchus mykiss
Oryza sativa
Prunus persica
Rattus norvegicus
Setaria italica
Solanum lycopersicum
Solanum tuberosum
Sorghum bicolor
Staphylococcus aureus N315
Staphylococcus aureus USA 300 FPR3757
Sus scrofa
Vicugna pacos
Zea mays
※上記リスト以外にも、パブリックデータベースから取得した生物種のカスタムアノテーションを作成することも可能。
クオリティコントロール
クオリティコントロール
•
Call rateやMAF, Hardy Weinberg平衡(HWE)によるフィルタリング
•
Identity by Descent (IBD)の検証
•
Population StratificationやBatch effectの検証
•
Read Depth (DP)やGenotype Quality (GQ), Allelic Depth (AD)によるフィルタリング
•
多重検定の補正 (Bonferoni, FDR)
•
外れ値の検証
...など
解析アプリケーション: SNP関連解析
 複数の遺伝学モデル、統計検定法、多重比較法に対応し、PCA補正も可能。
 マンハッタンプロットを簡単に作成可能。
 インタラクティブなビジュアライゼーション機能により、多面的なデータ検証が可能。
解析アプリケーション: CNV解析
 サンプル間でのCNVの比較や統計解析が可能。
 CNV領域を高精度に検出するCNAM Optimal Segmentingを搭載。
解析アプリケーション: LD解析, Haplotype解析
 複数の連鎖不平衡解析ツールを搭載。
 ハプロタイプ頻度の推定や関連解析、ハプロタイプブロックの検出が可能。
 複数の検定法、多重比較法に対応。
解析アプリケーション: 遺伝子発現差解析(DESeq)
 RNA-seqなどのハイスループットシークエンスデータからの遺伝子発現解析が可能。
 遺伝子発現の統計解析にはDESeqを採用。
 Volcano plotなどのプロット作成。
解析アプリケーション:
Variantのアノテーション付・フィルタリング
Variantのアノテーション付・フィルタリング機能
•
遺伝子のexon内/外にあるバリアントのフィルタリング
•
パブリックデータベース (dbSNPなど)に登録されているバリアントのフィルタリング
•
SIFTやPolyphen2, Mutation tasterなどによるスコアリング・フィルタリング
•
PhastConsやPhlyop2などのスコアリング・フィルタリング
•
NS Functional Prediction (dbNSFP)によるアノテーション付・フィルタリング
•
パブリックデータベースに未登録のバリアントの検証、アノテーション付・フィルタリング
 マイクロアレイデータやNGSデータでは数十万~数百万単位の変異データが取得可能
 SVSは膨大な変異データにアノテーション付やフィルタリングを実行するツールを多数搭載
解析アプリケーション: Rare variant関連解析
 SVSのレアバリアント関連解析ではCombined Multivariate and Collapsing Method (CMC method)や
Kernel-Based Adaptive Collapsing Method (KBAC method)によるアプローチが可能。
 複数の検定法、多重比較法に対応。
解析アプリケーション一覧①
Genotype menu:




Genotype Statistics by Marker
Genotype Filtering by Marker
Genotype Statistics by Sample
Quality Assurance Menu:
•
•
•
•
•
•
•
•
•










Identity by Descent Estimation
Fixation Index Fst
Fixation Index Fst (by Marker)
GBLUP Genomic Relation Matrix
Filter Sample by Call Rates
LD Pruning
SNP Density
Mendelian Error Check
Inbreeding Coefficients
LD Reports Menu
Genotype Principal Component Analysis
PBAT Family-Based QA
PBAT Genotype Analysis
Genotype Association Tests
Haplotype Association Tests
Haplotype Block Detection
Runs of Homozygosity
Compute Genomic BLUP (GBLUP)
Mixed Linear Model Analysis
DNA-Seq menu:















Set Genotypes to No-Call based on
Additional Spreadsheets
Filter based on VCF Quality Metrics
Calculate Alt Read Ratio
Annotate and Filter Variants
Activate Variants by Sample Genotypes
Filter Variants in Reference Sample
Spreadsheet
Subset Informative Genotype by Category
Variant Binning by Frequency source
Variant Classification
Classify by Inheritance Pattern
Find de Novo Candidate Variants
Score Variants by Recessive Model
Score Compound Heterozygous Regions
Score Variants by dominant Model
Collapsing Methods:
•
•
•
•
•
Count Variants per Gene
CMC with Hotelling T Squared Tests
CMC with Regression
KBAC with Permutation Testing
KBAC with Regression
解析アプリケーション一覧②
Numeric menu:
RNA-Seq menu:

Numeric Principal Component Analysis

Activate Genes by Minimum Read Threshold

Numeric Association Tests

Normalization and Log Transformation

Numeric Regression Analysis

DESeq Analysis

CNV QA Menu:

Dendrograms and Heatmaps
•
Derivative Log Ratio Spread
•
Percentile Based Winsorizing
•
Wave Detection/ Correction

CNAM Optimal Segmenting
解析アプリケーション要約

CNAM Output Analysis

Genotype menu: SNPやハプロタイプの関連解析

Statistics (per Column)

DNA-Seq menu: バリアントの評価やレアバリアント解析
Statistics (per Row)

Numeric menu: CNV関連解析や回帰分析、主成分分


Multidimensional Outlier Detection

Fishers Exact Test for Binary Predictors
析など各種数値的統計解析

RNA-Seq menu: RNA-seqデータによる遺伝子発現変動
解析
ビジュアライゼーション
…and more

最新のSVSはGenomeBrowseを内蔵し、強力なビジュアライゼーションを実現。

SVSのプロットは各種パブリックデータベースとリンクし、詳細な情報を得ることが出来る。
プロット作成例

ハプロタイプブロックやボルケノプロット、ヒストグラム、スキャタープロット、ヒートマップなど
多数プロット可能。
Demonstration
- アレイデータを用いたSNP-GWAS解析 -
Genome Wide Association Study

ゲノム上のSNPsを網羅的に検証し、特定の形質と関連性のあるSNPを探索する。

これまでに盛んに研究がなされ、多数の疾患感受性遺伝子が同定されている。
図. GWAS論文件数の推移*
*The National Human Genome Research Institute, Published GWA Reportsより一部改編
Genome Wide Association Study
課題
データの前処理(クオリティコントロール)が多段階からなる:

数十万、数百万単位のマーカーを扱うことから、僅かなエラーでもバイアスとなり得る。
多重比較や集団の構造化の問題:

解析が多段階の検定からなるため、偽陽性が生じてしまう。

民族性などに相関する多型が、特定の形質と相関していると誤って解釈されてしまう。
SNP-GWAS解析例
使用するデータ (GEO*に登録されているAffymetrix 500K arrayデータ, 565例)

ADS(自閉症スペクトラム)患者: 282例

健常者: 283例

解析対象SNP数: 499,264
*GEO: Gene Expression Omnibus
マイクロアレイや次世代シークエンスデータなどによるゲノム情報を登録したパブリックデータベース
SVSによるシームレスな解析
1. クオリティコントロール
• SNP Call Rateの検証
• IBDの検証
• 集団階層化の検証
• SNPの検証 (Call rate, MAF, HWE)
2. SNP関連解析
• 遺伝学モデル
• 統計検定
• 多重検定の補正
• PCA補正
クオリティコントロール:
SNP call rateの検証
Genotype Statistics by Sample:

SNPのCall Rateが低いサンプルはDNAの品質および濃度に問題があると考えられる。

Genotype Statistics Sampleで各サンプルのSNP Call Rateを計算して検証する。
クオリティコントロール:





各サンプルのSNP call rate検証
Genotype Statistics SampleでCall Rateの他にもコールされたジェノタイプやHeterozygosity Rateなどを算出。
SNP Call Rateが93%~97%未満が一般的な指標として用いられ、未満だったサンプルは解析から除外される。
Activate by Thresholdにより閾値に基づくフィルタリングが可能: フィルタリングされたサンプルは灰色に表示される。
フィルタリングしたサンプルのサブセットを作成可能。
Heterozygosity Rateを基に、レポート上の性別情報と染色体情報から推定される性別情報の一致・不一致も検
証し、フィルタリングをおこなうことも可能。
クオリティコントロール:
IBDの検証
Identity by Descent Estimation:
 ジェノタイプ関連解析では各サンプルが独立であることが基本とされている(サンプル間に血縁関係などがあるとバイ
アスの原因となる可能性がある)。
 検証の指標としてIdentity by descent(IBD)が推定される。
 IBD推定値によりサンプル間のコンタミやサンプルのデュプリケーションも検証される。
クオリティコントロール:
IBDの検証
サンプル間のコンタミや血縁関係にあることが
疑われる

IBD推定値は0~1の数字で表される。

一般的に推定値が0.1875よりも大きい値
を示すペアのうち、一方が除外される。

図はIBD推定値をプロットしたグラフ(IBD
推定値が1に近い程、赤色に表示されるよう
に設定)。

同一サンプルの組合せは1になるが、それ以
外で1に近い値を示す場合、サンプル間のコ
ンタミや家族関係にあることが示唆される。
クオリティコントロール:
集団階層化の検証
Genotype Principal Component Analysis:
 集団間の相違に起因するSNPの有意差が, ある形質の有無との関連性に起因していると誤って解釈されることがある
(集団階層化の問題)
 集団の階層化の問題の検証に主成分分析(PCA)が利用される。
 計算する主成分数や標準化法などを設定可能。
クオリティコントロール:



集団階層化の検証
サンプル
アジア人
白人
アフリカ人
PCAで算出した固有値をプロットすることで、視覚的に集団の階層化を検証できる。
図ではリファレンスとしてHapMapデータ(白人、アジア人、アフリカ人)を含めたPCAをプロットしている。
サンプル集団は白人種やアジア系およびアフリカ系の3集団から構成されていることを示唆している。
クオリティコントロール:
SNPの検証(Call rate, MAF, HWE)
Genotype Filtering by Marker:
 ジェノタイピングの不十分もしくはエラーの疑われるSNPを検証する。
 標準的な操作として, Call Rate, MAF, HWEが評価され、Call RateやMAFの低いSNP, HWEから大きく逸脱する
SNPを除外する
 一般的には以下の閾値が設定される。
–
Call Rate < 0.95, MAF < 0.01 ~ 0.05, HWE < 0.001 ~ 5.7 x 10-7
SNP関連解析:
Full Data
集団間で有意差のあるSNPの同定
図 . 関 連 解 析 の 遺 伝 学 モ デ ル お よ び 検 定 手 法 例
(D: メジャーアレル, d: マイナーアレル, a~f: ジェノタイプ数)
遺伝学モデルにはAdditive, Dominant, Recessive Modelがある。
A d d it ive M o d e l で は D D, D d , d d を 分け て 取り 扱う の に 対し ,
DominantおよびRecessive ModelではDdをDDやddと一緒にし, 2グ
ループとして取り扱う。計算方法としてAdditive Modelでトレンドテスト,
DominantやRecessive Modelではカイ二乗検定が用いられる。
Additive Model
Dominant Model
Recessive Model
(Cochran- Armitage trend test)
((Pearson) Chi-Squared test))
((Pearson) Chi-Sqared test)

ジェノタイプ関連解析に用いられる遺伝学モデル・計算方法。
SNP関連解析:
Genotype Association Test
Genotype Association TestによりSNP関連解析を実行
 SVSでは各種遺伝学モデル・検定手法に対応

遺伝学モデル・テスト
•
Additive model
•
Dominant model
•
Recessive model
•
Basic allelic test
•
Genotypic test
検定手法
•
Correlation/ Trend test
•
Cochran-Armitage Trend test
•
(Pearson) Chi-Squared
…and more
P-P/ Q-Q plot用データの作成
PCAによる補正の設定
SNP関連解析:
Genotype Association Test結果
Genotype Association Test:

選択した遺伝学モデル・検定方法に基づいてp-valueが計算される。

P-P/ Q-Q plotオプションを設定しておくと、それらのプロットも作成可能。
SNP関連解析:



ビジュアライゼーション(GenomeBrowse)
Plot Variable in GenomeBrowseによりManhattan plotを作成できる。
図では6番染色体上に有意なSNPが多くみられる。
テーブルアイコン(図中赤丸)をクリックするとテーブルデータが表示される(図中緑枠)。
SNP関連解析:



ビジュアライゼーション(GenomeBrowse)
Plot中の任意の領域を拡大し、リファレンス遺伝子上のどの位置にSNPがあるかを確認できる。
任意のSNPを選択するとConsoleにその情報とパブリックデータベースとのリンクが表示される(図中青枠)。
テーブル中の任意のデータをクリックしてプロット上の当該箇所にジャンプすることも可能。
SVS機能拡張用アドオン: PBAT
PBAT: 家系データに基づく各種解析を可能にするアドオン
 各種家系データフォーマットのインポート (PED, TPED, BED, FBAT, Pedigree, and FBAT Phenotype files)
 Family-based association tests (FBAT)の実行
 Family-based SNP Association
 Family-based CNV Association
SVSは今回ご紹介した以外にも多数の機能を搭載しています。
ご興味のある方は以下のウェブサイトをご覧ください。
Filgen:
http://www.filgen.jp /Product /Bioscience4/goldenhelix /index.html
Golden Helix:
http://www.goldenhelix.com /index.html
SVSにはデモ版(14日間)があります。ご興味のある方は弊社までご連絡ください。

Email: [email protected]

TEL: 052-624-4388