SNP & Variation Suite 8 ~ GWAS解析編 ~ フィルジェン株式会社 バイオサイエンス部 ([email protected]) Golden Helix企業概要 アメリカのモンタナ州にて1998年に設立 遺伝子解析のリーダー的企業 遺伝子解析ソフトウェアおよび解析サービスを提供 世界中に数百の大学・政府研究機関などのクライアントを保有 戦略的パートナー • • • • • • Harvard School of Public Health Affymetrix Gene Chip Compatible Illumina iConnect Charter Partner Agilent Glaxo Smith Kline GeneGo SNP & Variation Suite (SVS) SVS: マイクロアレイや次世代シークエンス(NGS)データから遺伝学的解析をするソフトウェア。 Core Features パワフルなデータマネジメント 豊富なビジュアライゼーション機能 強力な統計解析機能 柔軟性 操作性 Applications Genotype Analysis DNA sequence analysis CNV Analysis RNA-seq differential expression Family Based Association GenomeBrowse SNP & Variation Suite (SVS) 研究 医療 Human genome Plant DNA 療オプションの決定におけ 「コンピューターサイエン Animal DNA る、ゲノム情報の利用 ス」知識の負担を軽減 疾患の診断や最適な治 教育 遺伝学的解析に要する、 SNP & Variation Suite使用例① ベーチェット症候群に関連する遺伝子の統計解析にSVSが利用されている。 • Kirino, Y et al. (2013) Targeted resequencing implicates the familial Mediterranean fever gene MEFV and the toll-like receptor 4 gene TLR4 in Behçet disease. PNAS, doi:10.1073/pnas.1306352110. SNP & Variation Suite使用例② Vitis vinifera L.における遺伝子関連解析にSVSが使用されている。 • Emanuelli, F et al. (2010) A candidate gene association study on muscat flavor in grapevine (Vitis vinifera L.). BMC Plant Biology, 10:241, doi:10.1186/1471-2229-10-241. SVSはこれまでに800件以上の論文で引用されている。 SNP & Variation Suite 8 - 基本機能- SVS起動画面: Welcome Screen A) プロジェクトやチュートリアルへのリンク D) Golden Helix社テクニカルサポートの連絡先 B) アノテーションやマーカーマップの管理、Helpメニューへのアクセス E) 使用しているライセンス情報 C) 最新のアップデートやバグなどのサポート情報 F) 利用できる機能情報 Project画面: A Project Navigator B C A) Project Navigator Window: インポートデータや解析データが表示 B) Node Change Log: 実行した操作のログ情報 C) User Notes: プロジェクトやデータに関するメモを入力 データのインポート 各データフォーマットに最適化されたインポートウィザードを搭載 Affyetrix (CHP, CEL, CNT, CNCHP, CYCHP, etc) Text Illumina (DSF, Final Report, Matrix Text File, etc) Third Party Family Pedigree (FBAT Pedigree/ Phenotype, etc) Public Data Agilent Files HapMap NimbleGen Data Summary Files Impute2 GWAS Files Variant Call Format (VCF) Files MACH Output Complete Genomics Var Files Golden Helix DSF PED/TPED/BED …and more データ画面: Spread Sheet データはSpreadsheet形式で表示 Marker Map情報は緑色のタブで表示 Spread Sheetの編集 柔軟性のあるデータ編集機能 エクセル形式で編集可能 カテゴリーデータのバイナリデータへ の変換 行・列の複製や追加、入れ替え、 数値や名前の編集 変更点は赤色で表示 その他データ編集機能例 複数のSpreadsheetを統合: Joining or Merging Spreadsheets Appending Spreadsheets ゲノムアセンブリ/ リファレンス/ アノテーショントラック 各生物種のゲノムアセンブリ(ゲノミックビルド)の取得や管理をおこなう専用のツールを搭載。 リストから任意のデータを選択してダウンロード。 ゲノムアセンブリ/ リファレンス/ アノテーショントラック 各生物種のリファレンスデータやアノテーショントラックの取得や管理をおこなう専用のツールを搭載。 リストから任意のデータを選択してダウンロード。 Informationから生物種やデータタイプ、取得するリンク先などを確認できる。 ゲノムアセンブリ/ リファレンス/ アノテーショントラック 対応生物種一覧 • • • • • • • • • • • • • • • • • • • • Anopheles gambiea PEST Anopheles S Pimperena Arabidopsis thaliana Bos taurus Brassica rapa Caenorhabitis elegans Canis familiaris Capra hircus Capsicum annuum Carica papaya Citrullus lanatus Cricetulus griseus Danio rerio Drosophila melanogaster Equus caballus Eucalyptus grandis Felis catus Glycine max Gossypium raimondii Gullus gullus • • • • • • • • • • • • • • • • • • • • Heterocephalus glaber Homo Sapiens Leishmania infantum JPCMS Macaca mulatta Mus musculus Mycobacterium tuberculosis H37Rv Nomascus leucogenys Oncorhynchus mykiss Oryza sativa Prunus persica Rattus norvegicus Setaria italica Solanum lycopersicum Solanum tuberosum Sorghum bicolor Staphylococcus aureus N315 Staphylococcus aureus USA 300 FPR3757 Sus scrofa Vicugna pacos Zea mays ※上記リスト以外にも、パブリックデータベースから取得した生物種のカスタムアノテーションを作成することも可能。 クオリティコントロール クオリティコントロール • Call rateやMAF, Hardy Weinberg平衡(HWE)によるフィルタリング • Identity by Descent (IBD)の検証 • Population StratificationやBatch effectの検証 • Read Depth (DP)やGenotype Quality (GQ), Allelic Depth (AD)によるフィルタリング • 多重検定の補正 (Bonferoni, FDR) • 外れ値の検証 ...など 解析アプリケーション: SNP関連解析 複数の遺伝学モデル、統計検定法、多重比較法に対応し、PCA補正も可能。 マンハッタンプロットを簡単に作成可能。 インタラクティブなビジュアライゼーション機能により、多面的なデータ検証が可能。 解析アプリケーション: CNV解析 サンプル間でのCNVの比較や統計解析が可能。 CNV領域を高精度に検出するCNAM Optimal Segmentingを搭載。 解析アプリケーション: LD解析, Haplotype解析 複数の連鎖不平衡解析ツールを搭載。 ハプロタイプ頻度の推定や関連解析、ハプロタイプブロックの検出が可能。 複数の検定法、多重比較法に対応。 解析アプリケーション: 遺伝子発現差解析(DESeq) RNA-seqなどのハイスループットシークエンスデータからの遺伝子発現解析が可能。 遺伝子発現の統計解析にはDESeqを採用。 Volcano plotなどのプロット作成。 解析アプリケーション: Variantのアノテーション付・フィルタリング Variantのアノテーション付・フィルタリング機能 • 遺伝子のexon内/外にあるバリアントのフィルタリング • パブリックデータベース (dbSNPなど)に登録されているバリアントのフィルタリング • SIFTやPolyphen2, Mutation tasterなどによるスコアリング・フィルタリング • PhastConsやPhlyop2などのスコアリング・フィルタリング • NS Functional Prediction (dbNSFP)によるアノテーション付・フィルタリング • パブリックデータベースに未登録のバリアントの検証、アノテーション付・フィルタリング マイクロアレイデータやNGSデータでは数十万~数百万単位の変異データが取得可能 SVSは膨大な変異データにアノテーション付やフィルタリングを実行するツールを多数搭載 解析アプリケーション: Rare variant関連解析 SVSのレアバリアント関連解析ではCombined Multivariate and Collapsing Method (CMC method)や Kernel-Based Adaptive Collapsing Method (KBAC method)によるアプローチが可能。 複数の検定法、多重比較法に対応。 解析アプリケーション一覧① Genotype menu: Genotype Statistics by Marker Genotype Filtering by Marker Genotype Statistics by Sample Quality Assurance Menu: • • • • • • • • • Identity by Descent Estimation Fixation Index Fst Fixation Index Fst (by Marker) GBLUP Genomic Relation Matrix Filter Sample by Call Rates LD Pruning SNP Density Mendelian Error Check Inbreeding Coefficients LD Reports Menu Genotype Principal Component Analysis PBAT Family-Based QA PBAT Genotype Analysis Genotype Association Tests Haplotype Association Tests Haplotype Block Detection Runs of Homozygosity Compute Genomic BLUP (GBLUP) Mixed Linear Model Analysis DNA-Seq menu: Set Genotypes to No-Call based on Additional Spreadsheets Filter based on VCF Quality Metrics Calculate Alt Read Ratio Annotate and Filter Variants Activate Variants by Sample Genotypes Filter Variants in Reference Sample Spreadsheet Subset Informative Genotype by Category Variant Binning by Frequency source Variant Classification Classify by Inheritance Pattern Find de Novo Candidate Variants Score Variants by Recessive Model Score Compound Heterozygous Regions Score Variants by dominant Model Collapsing Methods: • • • • • Count Variants per Gene CMC with Hotelling T Squared Tests CMC with Regression KBAC with Permutation Testing KBAC with Regression 解析アプリケーション一覧② Numeric menu: RNA-Seq menu: Numeric Principal Component Analysis Activate Genes by Minimum Read Threshold Numeric Association Tests Normalization and Log Transformation Numeric Regression Analysis DESeq Analysis CNV QA Menu: Dendrograms and Heatmaps • Derivative Log Ratio Spread • Percentile Based Winsorizing • Wave Detection/ Correction CNAM Optimal Segmenting 解析アプリケーション要約 CNAM Output Analysis Genotype menu: SNPやハプロタイプの関連解析 Statistics (per Column) DNA-Seq menu: バリアントの評価やレアバリアント解析 Statistics (per Row) Numeric menu: CNV関連解析や回帰分析、主成分分 Multidimensional Outlier Detection Fishers Exact Test for Binary Predictors 析など各種数値的統計解析 RNA-Seq menu: RNA-seqデータによる遺伝子発現変動 解析 ビジュアライゼーション …and more 最新のSVSはGenomeBrowseを内蔵し、強力なビジュアライゼーションを実現。 SVSのプロットは各種パブリックデータベースとリンクし、詳細な情報を得ることが出来る。 プロット作成例 ハプロタイプブロックやボルケノプロット、ヒストグラム、スキャタープロット、ヒートマップなど 多数プロット可能。 Demonstration - アレイデータを用いたSNP-GWAS解析 - Genome Wide Association Study ゲノム上のSNPsを網羅的に検証し、特定の形質と関連性のあるSNPを探索する。 これまでに盛んに研究がなされ、多数の疾患感受性遺伝子が同定されている。 図. GWAS論文件数の推移* *The National Human Genome Research Institute, Published GWA Reportsより一部改編 Genome Wide Association Study 課題 データの前処理(クオリティコントロール)が多段階からなる: 数十万、数百万単位のマーカーを扱うことから、僅かなエラーでもバイアスとなり得る。 多重比較や集団の構造化の問題: 解析が多段階の検定からなるため、偽陽性が生じてしまう。 民族性などに相関する多型が、特定の形質と相関していると誤って解釈されてしまう。 SNP-GWAS解析例 使用するデータ (GEO*に登録されているAffymetrix 500K arrayデータ, 565例) ADS(自閉症スペクトラム)患者: 282例 健常者: 283例 解析対象SNP数: 499,264 *GEO: Gene Expression Omnibus マイクロアレイや次世代シークエンスデータなどによるゲノム情報を登録したパブリックデータベース SVSによるシームレスな解析 1. クオリティコントロール • SNP Call Rateの検証 • IBDの検証 • 集団階層化の検証 • SNPの検証 (Call rate, MAF, HWE) 2. SNP関連解析 • 遺伝学モデル • 統計検定 • 多重検定の補正 • PCA補正 クオリティコントロール: SNP call rateの検証 Genotype Statistics by Sample: SNPのCall Rateが低いサンプルはDNAの品質および濃度に問題があると考えられる。 Genotype Statistics Sampleで各サンプルのSNP Call Rateを計算して検証する。 クオリティコントロール: 各サンプルのSNP call rate検証 Genotype Statistics SampleでCall Rateの他にもコールされたジェノタイプやHeterozygosity Rateなどを算出。 SNP Call Rateが93%~97%未満が一般的な指標として用いられ、未満だったサンプルは解析から除外される。 Activate by Thresholdにより閾値に基づくフィルタリングが可能: フィルタリングされたサンプルは灰色に表示される。 フィルタリングしたサンプルのサブセットを作成可能。 Heterozygosity Rateを基に、レポート上の性別情報と染色体情報から推定される性別情報の一致・不一致も検 証し、フィルタリングをおこなうことも可能。 クオリティコントロール: IBDの検証 Identity by Descent Estimation: ジェノタイプ関連解析では各サンプルが独立であることが基本とされている(サンプル間に血縁関係などがあるとバイ アスの原因となる可能性がある)。 検証の指標としてIdentity by descent(IBD)が推定される。 IBD推定値によりサンプル間のコンタミやサンプルのデュプリケーションも検証される。 クオリティコントロール: IBDの検証 サンプル間のコンタミや血縁関係にあることが 疑われる IBD推定値は0~1の数字で表される。 一般的に推定値が0.1875よりも大きい値 を示すペアのうち、一方が除外される。 図はIBD推定値をプロットしたグラフ(IBD 推定値が1に近い程、赤色に表示されるよう に設定)。 同一サンプルの組合せは1になるが、それ以 外で1に近い値を示す場合、サンプル間のコ ンタミや家族関係にあることが示唆される。 クオリティコントロール: 集団階層化の検証 Genotype Principal Component Analysis: 集団間の相違に起因するSNPの有意差が, ある形質の有無との関連性に起因していると誤って解釈されることがある (集団階層化の問題) 集団の階層化の問題の検証に主成分分析(PCA)が利用される。 計算する主成分数や標準化法などを設定可能。 クオリティコントロール: 集団階層化の検証 サンプル アジア人 白人 アフリカ人 PCAで算出した固有値をプロットすることで、視覚的に集団の階層化を検証できる。 図ではリファレンスとしてHapMapデータ(白人、アジア人、アフリカ人)を含めたPCAをプロットしている。 サンプル集団は白人種やアジア系およびアフリカ系の3集団から構成されていることを示唆している。 クオリティコントロール: SNPの検証(Call rate, MAF, HWE) Genotype Filtering by Marker: ジェノタイピングの不十分もしくはエラーの疑われるSNPを検証する。 標準的な操作として, Call Rate, MAF, HWEが評価され、Call RateやMAFの低いSNP, HWEから大きく逸脱する SNPを除外する 一般的には以下の閾値が設定される。 – Call Rate < 0.95, MAF < 0.01 ~ 0.05, HWE < 0.001 ~ 5.7 x 10-7 SNP関連解析: Full Data 集団間で有意差のあるSNPの同定 図 . 関 連 解 析 の 遺 伝 学 モ デ ル お よ び 検 定 手 法 例 (D: メジャーアレル, d: マイナーアレル, a~f: ジェノタイプ数) 遺伝学モデルにはAdditive, Dominant, Recessive Modelがある。 A d d it ive M o d e l で は D D, D d , d d を 分け て 取り 扱う の に 対し , DominantおよびRecessive ModelではDdをDDやddと一緒にし, 2グ ループとして取り扱う。計算方法としてAdditive Modelでトレンドテスト, DominantやRecessive Modelではカイ二乗検定が用いられる。 Additive Model Dominant Model Recessive Model (Cochran- Armitage trend test) ((Pearson) Chi-Squared test)) ((Pearson) Chi-Sqared test) ジェノタイプ関連解析に用いられる遺伝学モデル・計算方法。 SNP関連解析: Genotype Association Test Genotype Association TestによりSNP関連解析を実行 SVSでは各種遺伝学モデル・検定手法に対応 遺伝学モデル・テスト • Additive model • Dominant model • Recessive model • Basic allelic test • Genotypic test 検定手法 • Correlation/ Trend test • Cochran-Armitage Trend test • (Pearson) Chi-Squared …and more P-P/ Q-Q plot用データの作成 PCAによる補正の設定 SNP関連解析: Genotype Association Test結果 Genotype Association Test: 選択した遺伝学モデル・検定方法に基づいてp-valueが計算される。 P-P/ Q-Q plotオプションを設定しておくと、それらのプロットも作成可能。 SNP関連解析: ビジュアライゼーション(GenomeBrowse) Plot Variable in GenomeBrowseによりManhattan plotを作成できる。 図では6番染色体上に有意なSNPが多くみられる。 テーブルアイコン(図中赤丸)をクリックするとテーブルデータが表示される(図中緑枠)。 SNP関連解析: ビジュアライゼーション(GenomeBrowse) Plot中の任意の領域を拡大し、リファレンス遺伝子上のどの位置にSNPがあるかを確認できる。 任意のSNPを選択するとConsoleにその情報とパブリックデータベースとのリンクが表示される(図中青枠)。 テーブル中の任意のデータをクリックしてプロット上の当該箇所にジャンプすることも可能。 SVS機能拡張用アドオン: PBAT PBAT: 家系データに基づく各種解析を可能にするアドオン 各種家系データフォーマットのインポート (PED, TPED, BED, FBAT, Pedigree, and FBAT Phenotype files) Family-based association tests (FBAT)の実行 Family-based SNP Association Family-based CNV Association SVSは今回ご紹介した以外にも多数の機能を搭載しています。 ご興味のある方は以下のウェブサイトをご覧ください。 Filgen: http://www.filgen.jp /Product /Bioscience4/goldenhelix /index.html Golden Helix: http://www.goldenhelix.com /index.html SVSにはデモ版(14日間)があります。ご興味のある方は弊社までご連絡ください。 Email: [email protected] TEL: 052-624-4388
© Copyright 2024 ExpyDoc