第3回臨床遺伝情報検索講習会 ~遺伝子診療におけるウエブツールの活用~ エクソーム解析の理解と体験 2013年7月20日 第20回日本遺伝子診療学会大会 イルミナ株式会社 マーケティング部 鈴木 健介 © 2013 Illumina, Inc. All rights reserved. Illumina, IlluminaDx, BaseSpace, BeadArray, BeadXpress, cBot, CSPro, DASL, DesignStudio, Eco, GAIIx, Genetic Energy, Genome Analyzer, GenomeStudio, GoldenGate, HiScan, HiSeq, Infinium, iSelect, MiSeq, Nextera, NuPCR, SeqMonitor, Solexa, TruSeq, TruSight, VeraCode, the pumpkin orange color, and the Genetic Energy streaming bases design are trademarks or registered trademarks of Illumina, Inc. All other brands and names contained herein are the property of their respective owners. 本日の内容 エクソーム解析概要 具体的な作業とスケジュール データ解析 – ウェブツールを用いた解析 – 解析結果の解釈 エクソームデータ解析体験 2 エクソーム解析概要 3 シーケンスによる変異箇所の検出 Genome DNA 断片化 シーケンス 4 シーケンスによる変異箇所の検出 Q Q D D A A V V I I I I L L GGA GAA G E G G : G : E G G G G L L L L F F A A S S Y Y L L M M 参照配列 CAGGATGCTGTGATCATCCTGGGGGGAGGAGGACTTCTCTTCGCCTCCTACCTGATG CAGGATGCTGTGATCATCCTGGGGGGAGGAGGACTTCTCTTCGCCTCCTACCTGATG CAGGATGCTGTGATCATCCTGGGGGAAGGAGGACTTCTCTTCGCCTCCTACCTGATG CAGGATGCTGTGATCATCCTGGGGGGAGGAGGACTTCTCTTCGCCTCCTACCTGATG CAGGATGCTGTGATCATCCTGGGGGAAGGAGGACTTCTCTTCGCCTCCTACCTGATG CAGGATGCTGTGATCATCCTGGGGGAAGGAGGACTTCTCTTCGCCTCCTACCTGATG CAGGATGCTGTGATCATCCTGGGGGGAGGAGGACTTCTCTTCGCCTCCTACCTGATG CAGGATGCTGTGATCATCCTGGGGGGAGGAGGACTTCTCTTCGCCTCCTACCTGATG CAGGATGCTGTGATCATCCTGGGGGGAGGAGGACTTCTCTTCGCCTCCTACCTGATG CAGGATGCTGTGATCATCCTGGGGGAAGGAGGACTTCTCTTCGCCTCCTACCTGATG CAGGATGCTGTGATCATCCTGGGGGGAGGAGGACTTCTCTTCGCCTCCTACCTGATG CAGGATGCTGTGATCATCCTGGGGGAAGGAGGACTTCTCTTCGCCTCCTACCTGATG CAGGATGCTGTGATCATCCTGGGGGAAGGAGGACTTCTCTTCGCCTCCTACCTGATG CAGGATGCTGTGATCATCCTGGGGGAAGGAGGACTTCTCTTCGCCTCCTACCTGATG CAGGATGCTGTGATCATCCTGGGGGGAGGAGGACTTCTCTTCGCCTCCTACCTGATG CAGGATGCTGTGATCATCCTGGGGGAAGGAGGACTTCTCTTCGCCTCCTACCTGATG CAGGATGCTGTGATCATCCTGGGGGGAGGAGGACTTCTCTTCGCCTCCTACCTGATG 5 カバレッジの分布(1塩基を何回シーケンスするか) 6 サンガー法 イルミナシーケンサーワークフロー サンプル調製 イルミナ次世代 サンプル調製 7 DNA増幅 クラスター形成 シーケンス データ解析 イルミナシーケンサーを用いた変異解析 TP53における1塩基置換 (7,579,472 GC) HiSeq 2000 HiSeq 2000 HiSeq 2500 HiSeq 2500 8 イルミナシーケンサーを用いた変異解析 サンプル81630で、PIK3CA遺伝子上に1塩基変異を検出 (178,927,410 AAG) HiSeq 2000 HiSeq 2000 HiSeq 2500 HiSeq 2500 HiSeq 2000 HiSeq 2500 9 エクソーム解析サンプル調製フロー Nextera Rapid エクソームキッ ト (50 ng スタート) 3 1 4 2 クラスター形成 シーケンス * 2 successive rounds of enrichment 10 エクソーム解析結果 TP53遺伝子のカバレッジ(HiSeq 2000との比較) HiSeq 2000 HiSeq 2000 HiSeq 2500 11 検出した変異の絞り込み Kindreds 1-A Kindreds 1-B 変異の種類 Dominant Recessive Dominant Recessive アミノ酸置換 スプライスサイト 挿入欠損 4,067 2,863 4,687 2,859 dbSNP HapMap に無い変異 456 31 464 33 タンパク質に 影響の大きい変異 204 6 204 12 Ng SB, et al., Exome sequencing identifies the cause of a mendelian disorder. Nat Genet. 2010 Jan;42(1):30-5. Epub 2009 Nov 13. Table 1 のデータを改変 12 全エクソン解析のレビュー: Nature Reviews Genetics Exome解析で原因遺伝子を示した 29の文献を一覧表にまとめている ほとんどの解析が1〜4家系、1 〜4症例で行われている 遺伝性疾患の解析に威力を発揮 Bamshad MJ, et al., Exome sequencing as a tool for Mendelian disease gene discovery. Nat Rev Genet. 2011 Sep 27;12(11):745-55. 13 具体的な作業とスケジュール 14 具体的作業とスケジュール 1 日目 DNA抽出作業 血液 数百μl から 5 ug 程度のDNAを抽出 (市販の自動化装置あり) サンプル調製1 ライブラリ作製 ライブラリーを作製(DNA断片化とアダプ ターの付加) 2 日目 サンプル調製2 エクソン領域濃縮(2 回) サンプル調製3 精製、定量 2 時間 7 時間 DNAとエクソンキャプチャ用試薬を反応、 ハイブリダイゼーションによるエクソン領 域の濃縮、精製、再度エクソン領域の濃縮 濃縮作業後に、精製、増幅、精製、定量 4 時間 DNA増幅、シーケンス(イルミナ HiSeq2500) 21 時間 3 日目 DNA増幅とシーケン ス 4 日目 15 データ解析 変異解析結果までは24時間程度 24 時間〜 データ解析 16 データ解析フロー 画像データ ベースコール HCS シグナル強度 ベースコール 塩基配列、品質値 (バイナリ形式) 形式変換 塩基配列、品質値 (FASTQ形式) リシーケンス RNA-Seq ChIP-Seq CASAVA データ解析 変異解析 コピー、移動 閲覧可能データ 17 3rdパーティ ソフトウェア FASTQ ファイル 3rd party ソフトウェアでシーケンス結果を解析する際のフォーマット ヘッダー 塩基配列 @HWI-BRUNOP20X:994:B809UWABXX:1:1101:13501:2240 1:N:0:CTTGTA TGAAACCAGTGTTCTTAATTGGCATTTTACACACACACACACAGAATTTAAAAAAAAAATCAAAGGAAATCATTCTAAATGTACTATGATAGCATGTTAAA + =55>7;?::BDADDD@EE88DCD?DFFEFFECBE6666BB=B;<;<-34:;<CB51>=BBEE>EE?3D@??CB->:=:AA8DDDDDDBBE9;,=?:/89<E @HWI-BRUNOP20X:994:B809UWABXX:1:1101:13660:2247 1:N:0:CTTGTA CCAAACATTAAGTAACTCTTAAAATGGCACACAGGTTTTAAAGCTATTGGTTTTTCCTTCCTAACTCTCTGAATTTTTCCCCTGGCCTTTGTAGATCAACT 品質値(Qスコア) + FFEDFBGEGGGGDFGEFFFFGGDF=FBFFFGGGE7CEEDEFBFBFGEEGF@FCDDFDFFEGFEAGFGGGGD.;[email protected] @HWI-BRUNOP20X:994:B809UWABXX:1:1101:13966:2183 1:N:0:CTTGTA TTGGGTAACTTGAATATAACATGGCTCCCTTGCTGTAAGCAAATGTTTTAGAGCTGAATTTTTCCTTTTTTTTTTTTTTTTTTTAAGCCAAGAAGTTCACC + HHHHHEHHHHHHFHHHHHHHHHHHHHHHHHHHGGFHHHHHHHHHHFHHHFHEHHFHEHHHHFHHHFHHHEHEHHHHHHHHHHH@?################ @HWI-BRUNOP20X:994:B809UWABXX:1:1101:13806:2183 1:N:0:CTTGTA TGCACGCGCATCTCGCCCCCAGGGGCACTGCCTGGAAGATTCAGGAGCCTGGGCGGCCTTCGCTTACTCTCACCTGCTTCTGAGTTGCCCAGGAGGCCACT + GFEHHHGHFHGEHHEHHHHHGHGHFFG?GBGGGFFFHHHFHHHHEFFHFFHHDFB:DFHHFFFCE.BEAEDEADDHEHHHGHGFHGGFFHHHHHEGHHFHB @HWI-BRUNOP20X:994:B809UWABXX:1:1101:13885:2187 1:N:0:CTTGTA CCAATGCTTGCTTTGAGCCAGCCAACCAGATGGTGAAATGTGACCCTCGCCATGGTAAATACATGGCTTGCTGCCTGTTGTACCGTGGTGACGTGGTTCCC + HFHEGEGHHHGHGHGHHHHHHHHGHGHHHHHHFBEGGGFEFHHHHHHHDHHHEHHBHCDGECCDFEHHEHFEHHHEGHHEHGHGEFE@FGHHHHHF9GFGG @HWI-BRUNOP20X:994:B809UWABXX:1:1101:13806:2206 1:N:0:CTTGTA CGGCTTGCCGACTTCCCTTACCTACATTGTTCCAACATGCCCGAGGCTGTTCACCTTGGAGACCTGCTGCGGCTATGGGTACGGCCCGGCGCGAGGTTTAC + C5<?>DDDD=FFFFFAD6D-?@3@?3:>?7BE:3:87054@'59@DD6D8>81993;>8<A(.@>A7AA8-%%,*36<:,DCDC1?############### テキストファイル 4行で1リード ヘッダー、塩基配列、ヘッダー2、品質値情報 品質値情報は1文字でその塩基に対するQスコアを示す。アスキーコード表に従って表現。(文字化けで はない) 18 エクソームデータ解析の流れ: 変異解析詳細 QC 参照配列(ヒトゲノム) へのマッピング 多型の検出 (置換、挿入、欠損) アノテーション フィルタリング 検体の情報を 加味した解釈 19 • Linux用ソフトウェア • ウェブ上での解析サービス • Windows用のソフト • • • • • • 既知多型の除去 サイレントな多型の除去 多型のインパクトを配慮 進化上の保存性を配慮 家系情報を利用 表現系との関連を配慮 ウェブ解析ツールのご紹介 Cell Innovation のデータ解析サービス http://cell-innovation.nig.ac.jp/public/contents/service.html#section_service1 DDBJ annotation pipeline & DDBJ galaxy http://p.ddbj.nig.ac.jp/pipeline/ http://p-galaxy.ddbj.nig.ac.jp/ 20 エクソームデータ解析体験 21 本日の流れ 用いたデータについて ウェブサービスを用いたエクソームデータ解析 解析結果の解釈 22 データ解析のインプットは fastq ファイル 通常、次世代シーケンサーが出力した fastq ファイルを用いる 次世代シーケンサーのデータをお持ちで無い方は、公共データベースからデー タをダウンロードして試すことができる http://sra.dbcls.jp/ 23 用いたデータについて イルミナシーケンサーで解析した4検体のHapMapサンプルのデータ 擬似的にMiller症候群で検出された原因遺伝子の変異(参考文献参照)を追加 解析サービス(下記)で解析を実施 4症例の解析結果(独立した家系なので独立した変異と考えられる) 劣性ホモで発症 本日は、上記解析にて取得したエクセル閲覧可能データを配布して解析実習を 行なう 参考文献 Ng SB, et al., Exome sequencing identifies the cause of a mendelian disorder. Nat Genet. 2010 Jan;42(1):30-5. Epub 2009 Nov 13. 解析サービス 革新的細胞解析研究プログラム ( セルイノベーション) のデータ解析拠点である情報システム研 究機構、国立遺伝学研究所によって提供されているウェブベースのデータ解析サービス URL : https://cell-innovation.nig.ac.jp/ 問い合わせ先: 24 データ解析サービス https://cell-innovation.nig.ac.jp/ 25 ユーザー登録 今回は講習会用にアカウントを作成 (注意: 計算をかけないでく ださい) ユーザー名 : (講習会中にお伝えします) パスワード : (講習会中にお伝えします) 26 詳細な利用方法はマニュアルに記載 https://cell-innovation.nig.ac.jp/members/maser/maser_manual.pdf 27 https://cell-innovation.nig.ac.jp/members/maser3/top.do 28 プロジェクトの作成とデータのアップロード 29 プロジェクトの作成とデータのアップロード 30 プロジェクトの作成とデータのアップロード 100 MB 以上のサイズのファイルは sftp でアップロードします。 sftp用のユーザー名とパスワードは別途連絡されます。 sftp用クライアントは別途自分で用意します。 例えば windows なら WinSCP、Mac なら Cyberduck があります。 31 解析パイプラインを利用する http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php 4. Genome Resequencing 32 画面の一番下までスクロール 作成したプロジェクトとアップロードした Fastqファイルを選択 ラン 33 解析は一晩程度で完了: SnpEff の summary を確認 snpEff の summary を表示 34 変異解析結果のダウンロード SNPとINDELそれぞれの 結果が1つにまとめられ アノテーションがついた ファイルをダウンロード 35 変異解析結果のダウンロード この結果をUSBにてコピーしていただいております。 ファイル名: exome_demo_data_v3.tsv その他、USBの中には、本資料およびアノテーション後のファイルが含ま れます 本資料: エクソーム講習会_20130720.pdf エクセルファイル: demo_filter_and_annotated.xlsx 36 変異解析パイプラインの詳細と出力結果の利用方法 http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=P000001190 37 tsvファイルをオープン ファイル名: exome_demo_data_v3.tsv ダブルクリックで開くと、各セルの表示形式を 選択できないのでエクセルを立ち上げ「ファイ ル」の 「開く」 から tsv ファイルを開く 38 tsvファイルのオープン 39 tsvファイルのオープン 区切り文字が「タブ」だけにチェックが入っていることを確認 40 tsvファイルのオープン FORMAT 以降の行は各サンプルの結果を示す。 これは「文字列」フォーマットを指定する。 GeneSymbol列も「文字列」フォーマットを指定す これを行わなければ日付などで変な文字列に 変換されてしまう 41 取り込み完了 各列の内容 列の見出し 内容 内容例 #CHROM POS ID freq REF ALT 染色体番号 染色体上の位置 データベース内のSNP ID SNPの頻度 参照配列の塩基 今回の解析結果の塩基 1 69511 cs00000596F36474 36.474 A QUAL FILTER GeneSymbol GeneDescription Mutation 変異解析結果の品質(精度) フィルター結果 遺伝子名 遺伝子の説明 アミノ酸の変化 INFO FORMAT SRR791954_1 SRX033194 SRX033210 SRX033211 様々な解析結果 形式の説明(特に使用しない) sample1 の解析結果 sample2 の解析結果 sample3 の解析結果 sample4 の解析結果 42 G 8942.01 VQSRTrancheSNP99.90to100.00 OR4F5 olfactory receptor, family 4, subfamily F, member 5 T141A 今回は都合で削除 GT:AD:DP:GQ:PL 1/1 1/1 1/1 1/1 絞り込み1: 精度の低い変異をフィルターアウトする 30以上( 99.9 % 以上正しい)とする 43 絞り込み2: 1000人ゲノム登録データはフィルターアウト 0 とする 44 絞り込んだ変異に更に情報を付加する PROVEAN+SIFTを用いてアミノ酸への影響度を付加 G列を選択し、挿入を選択して 空白の列を追加する 45 絞り込んだ変異に更に情報を付加する PROVEAN+SIFTを用いてアミノ酸への影響度を付加 G列には 染色体,位置,元の塩基,今回の塩基 となるように計算式を記載する 今回であれば =A26&","&B26&","&E26&","&F26 この列全ての セルにコピー 46 絞り込んだ変異に更に情報を付加する PROVEAN+SIFTを用いてアミノ酸への影響度を付加 PROVEAN のサイト http://provean.jcvi.org/genome_submit.php PROVEAN のサイトに移動したら、G列をコピーペーストする 注意: 本日は実行しない。計算が重いため 実行した結果のエクセルファイルをお渡しする 47 絞り込んだ変異に更に情報を付加する PROVEAN+SIFTを用いてアミノ酸への影響度を付加 実行結果を付加したファイル: demo_filter_and_annotated.xlsx 見ていただきたい行は2つ PREDICTION (cutoff=-2.5) 列が PROVEANの結果で、ここが 「Neutral」でない変異は アミノ酸配列に影響度が大きい。(NAは挿入欠損あり) PREDICTION (cutoff=0.05) 列が SIFT の結果え、ここが「Tolerated」でない変異は アミノ酸配列への影響度が大きい。(NAは挿入欠損あり) どちらかの行が「Neutral」でないか「Tolerated」でない変異を絞り込む 48 検体ごとに結果を絞り込む 実行結果を付加したファイル: demo_filter_and_annotated.xlsx Sample 1 でののみ見つかった変異を絞り込むには 0/0 は変異無しなので、これ以外を選択する 1/1 はホモの変異 0/1 はヘテロの変異 0/2 はヘテロの変異で 0/1 の変異とは異なる変異 1/2 はヘテロの変異だが、双方参照配列と異なる変異 49 列 SRA accession N SRR791954_1 Sample1 O SRX033194 Sample2 P SRX033210 Sample3 Q SRX033211 Sample4 Sample 今回の原因遺伝子は ホモの変異か ヘテロの変異が同じ遺伝子 の2箇所に入っている そして、それらの変異が アミノ酸への影響度が高い まとめ 今回は極めて頻度の低い疾患であるため、1000人ゲノムで検出されていないこ とを想定して変異を絞り込んだ それぞれの検体で、1つの遺伝子にホモで1箇所またはヘテロで2箇所以上の変 異が検出され、かつ、その変異がアミノ酸への影響度の大きい変異である遺伝 子を抽出する 4検体において、それぞれ上記のように遺伝子を絞り込む これらが同一の遺伝子であった場合、この遺伝性疾患の原因遺伝子である可能 性が高いと考えられる 表現系の似た遺伝性疾患でも、原因遺伝子が複数存在する場合も多い 50 原因遺伝子の検証(その後、原因遺伝子を別の手法で確認) 過去の文献を調査する。同じ遺伝子による遺伝性疾患の報告はあるか 症例を増やす。他の症例に対しても、今回得られた原因遺伝子の候補に変異が 無いか追加解析を実施、サンガー法シーケンサーで調査する。検体数によって は、デスクトップ型の次世代シーケンサーで実施 実験で検証: ノックアウトマウスの作製、In vitro での変異遺伝子のアッセイ 立体構造予測からの推測 パスウェイ情報の配慮 その他、情報の収集 日本遺伝子診療学会ホームページ 臨床遺伝情報検索講習会 第1回、第2回 の資料より 多型(変異)のデータベース等の活用について 学ぶ http://www.congre.co.jp/gene/frame/f_workshop.html 51 例:Miller 症候群での検証例 原因候補遺伝子: DHODH 同様の症状を持つ11人の患者を6家系から集め、同遺伝子の変異を調べた結果、全 ての患者において、この遺伝子に変異が発見された。 Ng SB, et al., Exome sequencing identifies the cause of a mendelian disorder. Nat Genet. 2010 Jan;42(1):30-5. Epub 2009 Nov 13. 52 ご清聴ありがとうございました 不明点、ご意見は まで、ご連絡ください。 53
© Copyright 2025 ExpyDoc