1 - 株式会社コングレ

第3回臨床遺伝情報検索講習会
~遺伝子診療におけるウエブツールの活用~
エクソーム解析の理解と体験
2013年7月20日
第20回日本遺伝子診療学会大会
イルミナ株式会社
マーケティング部
鈴木 健介
© 2013 Illumina, Inc. All rights reserved.
Illumina, IlluminaDx, BaseSpace, BeadArray, BeadXpress, cBot, CSPro, DASL, DesignStudio, Eco, GAIIx, Genetic Energy, Genome Analyzer, GenomeStudio, GoldenGate, HiScan, HiSeq, Infinium,
iSelect, MiSeq, Nextera, NuPCR, SeqMonitor, Solexa, TruSeq, TruSight, VeraCode, the pumpkin orange color, and the Genetic Energy streaming bases design are trademarks or registered trademarks
of Illumina, Inc. All other brands and names contained herein are the property of their respective owners.
本日の内容
エクソーム解析概要
具体的な作業とスケジュール
データ解析
– ウェブツールを用いた解析
– 解析結果の解釈
エクソームデータ解析体験
2
エクソーム解析概要
3
シーケンスによる変異箇所の検出
Genome DNA
断片化
シーケンス
4
シーケンスによる変異箇所の検出
Q
Q
D
D
A
A
V
V
I
I
I
I
L
L
GGA
GAA
G E
G G
: G
: E
G G
G G
L
L
L
L
F
F
A
A
S
S
Y
Y
L
L
M
M
参照配列 CAGGATGCTGTGATCATCCTGGGGGGAGGAGGACTTCTCTTCGCCTCCTACCTGATG
CAGGATGCTGTGATCATCCTGGGGGGAGGAGGACTTCTCTTCGCCTCCTACCTGATG
CAGGATGCTGTGATCATCCTGGGGGAAGGAGGACTTCTCTTCGCCTCCTACCTGATG
CAGGATGCTGTGATCATCCTGGGGGGAGGAGGACTTCTCTTCGCCTCCTACCTGATG
CAGGATGCTGTGATCATCCTGGGGGAAGGAGGACTTCTCTTCGCCTCCTACCTGATG
CAGGATGCTGTGATCATCCTGGGGGAAGGAGGACTTCTCTTCGCCTCCTACCTGATG
CAGGATGCTGTGATCATCCTGGGGGGAGGAGGACTTCTCTTCGCCTCCTACCTGATG
CAGGATGCTGTGATCATCCTGGGGGGAGGAGGACTTCTCTTCGCCTCCTACCTGATG
CAGGATGCTGTGATCATCCTGGGGGGAGGAGGACTTCTCTTCGCCTCCTACCTGATG
CAGGATGCTGTGATCATCCTGGGGGAAGGAGGACTTCTCTTCGCCTCCTACCTGATG
CAGGATGCTGTGATCATCCTGGGGGGAGGAGGACTTCTCTTCGCCTCCTACCTGATG
CAGGATGCTGTGATCATCCTGGGGGAAGGAGGACTTCTCTTCGCCTCCTACCTGATG
CAGGATGCTGTGATCATCCTGGGGGAAGGAGGACTTCTCTTCGCCTCCTACCTGATG
CAGGATGCTGTGATCATCCTGGGGGAAGGAGGACTTCTCTTCGCCTCCTACCTGATG
CAGGATGCTGTGATCATCCTGGGGGGAGGAGGACTTCTCTTCGCCTCCTACCTGATG
CAGGATGCTGTGATCATCCTGGGGGAAGGAGGACTTCTCTTCGCCTCCTACCTGATG
CAGGATGCTGTGATCATCCTGGGGGGAGGAGGACTTCTCTTCGCCTCCTACCTGATG
5
カバレッジの分布(1塩基を何回シーケンスするか)
6
サンガー法
イルミナシーケンサーワークフロー
サンプル調製
イルミナ次世代
サンプル調製
7
DNA増幅
クラスター形成
シーケンス
データ解析
イルミナシーケンサーを用いた変異解析
TP53における1塩基置換 (7,579,472 GC)
HiSeq 2000
HiSeq 2000
HiSeq 2500
HiSeq 2500
8
イルミナシーケンサーを用いた変異解析
サンプル81630で、PIK3CA遺伝子上に1塩基変異を検出 (178,927,410 AAG)
HiSeq 2000
HiSeq 2000
HiSeq 2500
HiSeq 2500
HiSeq 2000
HiSeq 2500
9
エクソーム解析サンプル調製フロー
Nextera Rapid エクソームキッ
ト (50 ng スタート)
3
1
4
2
クラスター形成
シーケンス
* 2 successive rounds of enrichment
10
エクソーム解析結果
TP53遺伝子のカバレッジ(HiSeq 2000との比較)
HiSeq 2000
HiSeq 2000
HiSeq 2500
11
検出した変異の絞り込み
Kindreds 1-A
Kindreds 1-B
変異の種類
Dominant
Recessive
Dominant
Recessive
アミノ酸置換
スプライスサイト
挿入欠損
4,067
2,863
4,687
2,859
dbSNP
HapMap
に無い変異
456
31
464
33
タンパク質に
影響の大きい変異
204
6
204
12
Ng SB, et al., Exome sequencing identifies the cause of a mendelian disorder. Nat Genet. 2010 Jan;42(1):30-5. Epub 2009
Nov 13.
Table 1 のデータを改変
12
全エクソン解析のレビュー: Nature Reviews Genetics
Exome解析で原因遺伝子を示した
29の文献を一覧表にまとめている
ほとんどの解析が1〜4家系、1
〜4症例で行われている
遺伝性疾患の解析に威力を発揮
Bamshad MJ, et al., Exome sequencing as a tool for Mendelian disease gene discovery. Nat Rev Genet. 2011 Sep 27;12(11):745-55.
13
具体的な作業とスケジュール
14
具体的作業とスケジュール
1 日目
DNA抽出作業
血液 数百μl から 5 ug 程度のDNAを抽出
(市販の自動化装置あり)
サンプル調製1
ライブラリ作製
ライブラリーを作製(DNA断片化とアダプ
ターの付加)
2 日目
サンプル調製2
エクソン領域濃縮(2
回)
サンプル調製3
精製、定量
2 時間
7 時間
DNAとエクソンキャプチャ用試薬を反応、
ハイブリダイゼーションによるエクソン領
域の濃縮、精製、再度エクソン領域の濃縮
濃縮作業後に、精製、増幅、精製、定量
4 時間
DNA増幅、シーケンス(イルミナ
HiSeq2500)
21 時間
3 日目
DNA増幅とシーケン
ス
4 日目
15
データ解析
変異解析結果までは24時間程度
24 時間〜
データ解析
16
データ解析フロー
画像データ
ベースコール
HCS
シグナル強度
ベースコール
塩基配列、品質値
(バイナリ形式)
形式変換
塩基配列、品質値
(FASTQ形式)
リシーケンス
RNA-Seq
ChIP-Seq
CASAVA
データ解析
変異解析
コピー、移動
閲覧可能データ
17
3rdパーティ
ソフトウェア
FASTQ ファイル
3rd party ソフトウェアでシーケンス結果を解析する際のフォーマット
ヘッダー
塩基配列
@HWI-BRUNOP20X:994:B809UWABXX:1:1101:13501:2240 1:N:0:CTTGTA
TGAAACCAGTGTTCTTAATTGGCATTTTACACACACACACACAGAATTTAAAAAAAAAATCAAAGGAAATCATTCTAAATGTACTATGATAGCATGTTAAA
+
=55>7;?::BDADDD@EE88DCD?DFFEFFECBE6666BB=B;<;<-34:;<CB51>=BBEE>EE?3D@??CB->:=:AA8DDDDDDBBE9;,=?:/89<E
@HWI-BRUNOP20X:994:B809UWABXX:1:1101:13660:2247 1:N:0:CTTGTA
CCAAACATTAAGTAACTCTTAAAATGGCACACAGGTTTTAAAGCTATTGGTTTTTCCTTCCTAACTCTCTGAATTTTTCCCCTGGCCTTTGTAGATCAACT
品質値(Qスコア)
+
FFEDFBGEGGGGDFGEFFFFGGDF=FBFFFGGGE7CEEDEFBFBFGEEGF@FCDDFDFFEGFEAGFGGGGD.;[email protected]
@HWI-BRUNOP20X:994:B809UWABXX:1:1101:13966:2183 1:N:0:CTTGTA
TTGGGTAACTTGAATATAACATGGCTCCCTTGCTGTAAGCAAATGTTTTAGAGCTGAATTTTTCCTTTTTTTTTTTTTTTTTTTAAGCCAAGAAGTTCACC
+
HHHHHEHHHHHHFHHHHHHHHHHHHHHHHHHHGGFHHHHHHHHHHFHHHFHEHHFHEHHHHFHHHFHHHEHEHHHHHHHHHHH@?################
@HWI-BRUNOP20X:994:B809UWABXX:1:1101:13806:2183 1:N:0:CTTGTA
TGCACGCGCATCTCGCCCCCAGGGGCACTGCCTGGAAGATTCAGGAGCCTGGGCGGCCTTCGCTTACTCTCACCTGCTTCTGAGTTGCCCAGGAGGCCACT
+
GFEHHHGHFHGEHHEHHHHHGHGHFFG?GBGGGFFFHHHFHHHHEFFHFFHHDFB:DFHHFFFCE.BEAEDEADDHEHHHGHGFHGGFFHHHHHEGHHFHB
@HWI-BRUNOP20X:994:B809UWABXX:1:1101:13885:2187 1:N:0:CTTGTA
CCAATGCTTGCTTTGAGCCAGCCAACCAGATGGTGAAATGTGACCCTCGCCATGGTAAATACATGGCTTGCTGCCTGTTGTACCGTGGTGACGTGGTTCCC
+
HFHEGEGHHHGHGHGHHHHHHHHGHGHHHHHHFBEGGGFEFHHHHHHHDHHHEHHBHCDGECCDFEHHEHFEHHHEGHHEHGHGEFE@FGHHHHHF9GFGG
@HWI-BRUNOP20X:994:B809UWABXX:1:1101:13806:2206 1:N:0:CTTGTA
CGGCTTGCCGACTTCCCTTACCTACATTGTTCCAACATGCCCGAGGCTGTTCACCTTGGAGACCTGCTGCGGCTATGGGTACGGCCCGGCGCGAGGTTTAC
+
C5<?>DDDD=FFFFFAD6D-?@3@?3:>?7BE:3:87054@'59@DD6D8>81993;>8<A(.@>A7AA8-%%,*36<:,DCDC1?###############
テキストファイル
4行で1リード
ヘッダー、塩基配列、ヘッダー2、品質値情報
品質値情報は1文字でその塩基に対するQスコアを示す。アスキーコード表に従って表現。(文字化けで
はない)
18
エクソームデータ解析の流れ:
変異解析詳細
QC
参照配列(ヒトゲノム)
へのマッピング
多型の検出
(置換、挿入、欠損)
アノテーション
フィルタリング
検体の情報を
加味した解釈
19
• Linux用ソフトウェア
• ウェブ上での解析サービス
• Windows用のソフト
•
•
•
•
•
•
既知多型の除去
サイレントな多型の除去
多型のインパクトを配慮
進化上の保存性を配慮
家系情報を利用
表現系との関連を配慮
ウェブ解析ツールのご紹介
Cell Innovation のデータ解析サービス
http://cell-innovation.nig.ac.jp/public/contents/service.html#section_service1
DDBJ annotation pipeline & DDBJ galaxy
http://p.ddbj.nig.ac.jp/pipeline/
http://p-galaxy.ddbj.nig.ac.jp/
20
エクソームデータ解析体験
21
本日の流れ
用いたデータについて
ウェブサービスを用いたエクソームデータ解析
解析結果の解釈
22
データ解析のインプットは fastq ファイル
通常、次世代シーケンサーが出力した fastq ファイルを用いる
次世代シーケンサーのデータをお持ちで無い方は、公共データベースからデー
タをダウンロードして試すことができる
http://sra.dbcls.jp/
23
用いたデータについて
イルミナシーケンサーで解析した4検体のHapMapサンプルのデータ
擬似的にMiller症候群で検出された原因遺伝子の変異(参考文献参照)を追加
解析サービス(下記)で解析を実施
4症例の解析結果(独立した家系なので独立した変異と考えられる)
劣性ホモで発症
本日は、上記解析にて取得したエクセル閲覧可能データを配布して解析実習を
行なう
参考文献
Ng SB, et al., Exome sequencing identifies the cause of a mendelian disorder. Nat Genet.
2010 Jan;42(1):30-5. Epub 2009 Nov 13.
解析サービス
革新的細胞解析研究プログラム ( セルイノベーション) のデータ解析拠点である情報システム研
究機構、国立遺伝学研究所によって提供されているウェブベースのデータ解析サービス
URL : https://cell-innovation.nig.ac.jp/
問い合わせ先:
24
データ解析サービス
https://cell-innovation.nig.ac.jp/
25
ユーザー登録
今回は講習会用にアカウントを作成 (注意: 計算をかけないでく
ださい)
ユーザー名 : (講習会中にお伝えします)
パスワード : (講習会中にお伝えします)
26
詳細な利用方法はマニュアルに記載
https://cell-innovation.nig.ac.jp/members/maser/maser_manual.pdf
27
https://cell-innovation.nig.ac.jp/members/maser3/top.do
28
プロジェクトの作成とデータのアップロード
29
プロジェクトの作成とデータのアップロード
30
プロジェクトの作成とデータのアップロード
100 MB 以上のサイズのファイルは sftp でアップロードします。
sftp用のユーザー名とパスワードは別途連絡されます。
sftp用クライアントは別途自分で用意します。
例えば windows なら WinSCP、Mac なら Cyberduck があります。
31
解析パイプラインを利用する
http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php
4. Genome Resequencing
32
画面の一番下までスクロール
作成したプロジェクトとアップロードした
Fastqファイルを選択
ラン
33
解析は一晩程度で完了: SnpEff の summary を確認
snpEff の summary を表示
34
変異解析結果のダウンロード
SNPとINDELそれぞれの
結果が1つにまとめられ
アノテーションがついた
ファイルをダウンロード
35
変異解析結果のダウンロード
この結果をUSBにてコピーしていただいております。
ファイル名: exome_demo_data_v3.tsv
その他、USBの中には、本資料およびアノテーション後のファイルが含ま
れます
本資料: エクソーム講習会_20130720.pdf
エクセルファイル: demo_filter_and_annotated.xlsx
36
変異解析パイプラインの詳細と出力結果の利用方法
http://cell-innovation.nig.ac.jp/wiki2/tiki-index.php?page=P000001190
37
tsvファイルをオープン
ファイル名: exome_demo_data_v3.tsv
ダブルクリックで開くと、各セルの表示形式を
選択できないのでエクセルを立ち上げ「ファイ
ル」の
「開く」 から tsv ファイルを開く
38
tsvファイルのオープン
39
tsvファイルのオープン
区切り文字が「タブ」だけにチェックが入っていることを確認
40
tsvファイルのオープン
FORMAT 以降の行は各サンプルの結果を示す。
これは「文字列」フォーマットを指定する。
GeneSymbol列も「文字列」フォーマットを指定す
これを行わなければ日付などで変な文字列に
変換されてしまう
41
取り込み完了
各列の内容
列の見出し
内容
内容例
#CHROM
POS
ID
freq
REF
ALT
染色体番号
染色体上の位置
データベース内のSNP ID
SNPの頻度
参照配列の塩基
今回の解析結果の塩基
1
69511
cs00000596F36474
36.474
A
QUAL
FILTER
GeneSymbol
GeneDescription
Mutation
変異解析結果の品質(精度)
フィルター結果
遺伝子名
遺伝子の説明
アミノ酸の変化
INFO
FORMAT
SRR791954_1
SRX033194
SRX033210
SRX033211
様々な解析結果
形式の説明(特に使用しない)
sample1 の解析結果
sample2 の解析結果
sample3 の解析結果
sample4 の解析結果
42
G
8942.01
VQSRTrancheSNP99.90to100.00
OR4F5
olfactory receptor, family 4, subfamily F, member 5
T141A
今回は都合で削除
GT:AD:DP:GQ:PL
1/1
1/1
1/1
1/1
絞り込み1: 精度の低い変異をフィルターアウトする
30以上( 99.9 % 以上正しい)とする
43
絞り込み2: 1000人ゲノム登録データはフィルターアウト
0 とする
44
絞り込んだ変異に更に情報を付加する
PROVEAN+SIFTを用いてアミノ酸への影響度を付加
G列を選択し、挿入を選択して
空白の列を追加する
45
絞り込んだ変異に更に情報を付加する
PROVEAN+SIFTを用いてアミノ酸への影響度を付加
G列には
染色体,位置,元の塩基,今回の塩基
となるように計算式を記載する
今回であれば
=A26&","&B26&","&E26&","&F26
この列全ての
セルにコピー
46
絞り込んだ変異に更に情報を付加する
PROVEAN+SIFTを用いてアミノ酸への影響度を付加
PROVEAN のサイト
http://provean.jcvi.org/genome_submit.php
PROVEAN のサイトに移動したら、G列をコピーペーストする
注意: 本日は実行しない。計算が重いため
実行した結果のエクセルファイルをお渡しする
47
絞り込んだ変異に更に情報を付加する
PROVEAN+SIFTを用いてアミノ酸への影響度を付加
実行結果を付加したファイル: demo_filter_and_annotated.xlsx
見ていただきたい行は2つ
PREDICTION (cutoff=-2.5) 列が PROVEANの結果で、ここが 「Neutral」でない変異は
アミノ酸配列に影響度が大きい。(NAは挿入欠損あり)
PREDICTION (cutoff=0.05) 列が SIFT の結果え、ここが「Tolerated」でない変異は
アミノ酸配列への影響度が大きい。(NAは挿入欠損あり)
どちらかの行が「Neutral」でないか「Tolerated」でない変異を絞り込む
48
検体ごとに結果を絞り込む
実行結果を付加したファイル: demo_filter_and_annotated.xlsx
Sample 1 でののみ見つかった変異を絞り込むには
0/0 は変異無しなので、これ以外を選択する
1/1 はホモの変異
0/1 はヘテロの変異
0/2 はヘテロの変異で 0/1 の変異とは異なる変異
1/2 はヘテロの変異だが、双方参照配列と異なる変異
49
列
SRA
accession
N
SRR791954_1 Sample1
O
SRX033194
Sample2
P
SRX033210
Sample3
Q
SRX033211
Sample4
Sample
今回の原因遺伝子は
ホモの変異か
ヘテロの変異が同じ遺伝子
の2箇所に入っている
そして、それらの変異が
アミノ酸への影響度が高い
まとめ
今回は極めて頻度の低い疾患であるため、1000人ゲノムで検出されていないこ
とを想定して変異を絞り込んだ
それぞれの検体で、1つの遺伝子にホモで1箇所またはヘテロで2箇所以上の変
異が検出され、かつ、その変異がアミノ酸への影響度の大きい変異である遺伝
子を抽出する
4検体において、それぞれ上記のように遺伝子を絞り込む
これらが同一の遺伝子であった場合、この遺伝性疾患の原因遺伝子である可能
性が高いと考えられる
表現系の似た遺伝性疾患でも、原因遺伝子が複数存在する場合も多い
50
原因遺伝子の検証(その後、原因遺伝子を別の手法で確認)
過去の文献を調査する。同じ遺伝子による遺伝性疾患の報告はあるか
症例を増やす。他の症例に対しても、今回得られた原因遺伝子の候補に変異が
無いか追加解析を実施、サンガー法シーケンサーで調査する。検体数によって
は、デスクトップ型の次世代シーケンサーで実施
実験で検証: ノックアウトマウスの作製、In vitro での変異遺伝子のアッセイ
立体構造予測からの推測
パスウェイ情報の配慮
その他、情報の収集
日本遺伝子診療学会ホームページ
臨床遺伝情報検索講習会
第1回、第2回 の資料より 多型(変異)のデータベース等の活用について
学ぶ
http://www.congre.co.jp/gene/frame/f_workshop.html
51
例:Miller 症候群での検証例
原因候補遺伝子:
DHODH
同様の症状を持つ11人の患者を6家系から集め、同遺伝子の変異を調べた結果、全
ての患者において、この遺伝子に変異が発見された。
Ng SB, et al., Exome sequencing identifies the cause of a mendelian disorder. Nat Genet. 2010 Jan;42(1):30-5. Epub 2009
Nov 13.
52
ご清聴ありがとうございました
不明点、ご意見は
まで、ご連絡ください。
53