02 - 農学部 大学院生物資源環境科学府 大学院農学研究院

1. 配列決定法の紹介
高速シークエンサーと生命科学研究の方向性
1.最近のシークエンサーの発展、応用
2.微生物配列決定の例 IonPGMを使ってみて
全ゲノム解析
メタゲノム解析
4.マグロの配列決定の例
5.植物(シロイズナズナ)のRNAseq解析の例
1
全ゲノム配列が解読された生物種のリスト(一部)
生物種 (学名)
インフルエンザ菌
ゲノムサイズ(Mb) 遺伝子数
(Haemophilus influenza)
発表年
1.83
1,765
1995
マイコプラズマ (Mycoplasma genitalium)
0.58
467
1995
メタン細菌 (Methanococcus jannaschii)
1.66
1,715
1996
ラン藻 (Synechocystis sp. PCC6803)
3.57
3,169
1996
マイコプラズマ (Mycoplasma pneumoniae)
0.82
677
1996
出芽酵母 (Saccharomyces cerevisiae)
12.07
6,215
1997
大腸菌 (Escherichia coli)
4.64
4,289
1997
枯草菌 (Bacillus subtillis)
4.21
4,100
1997
97
19,099
1998
2.81
2,594
2001
3Gbp
30,000
2001
線虫 (Caenorhabditis elegans)
ウェルシュ菌 (Clostridium perfringens)
ヒト (Homosapiens)
ARTICLE
30億円
1000Genomes Project
doi:10.1038/nature09534
A map of human genome variation from
population-scale sequencing
The 1000 Genomes Project Consortium*
The 1000 Genomes Project aims to provide a deep characterization of human genome sequence variation as a foundation
for investigating the relationship between genotype and phenotype. Here we present results of the pilot phase of the
project, designed to develop and compare different strategies for genome-wide sequencing with high-throughput
platforms. We undertook three projects: low-coverage whole-genome sequencing of 179 individuals from four
populations; high-coverage sequencing of two mother–father–child trios; and exon-targeted sequencing of 697
individuals from seven populations. We describe the location, allele frequency and local haplotype structure of
approximately 15 million single nucleotide polymorphisms, 1 million short insertions and deletions, and 20,000
structural variants, most of which were previously undescribed. We show that, because we have catalogued the vast
majority of common variation, over 95% of the currently accessible variants found in any individual are present in this
data set. On average, each person is found to carry approximately 250 to 300 loss-of-function variants in annotated
28OCT OB ER 2010|VOL467|
NATU R E|1061
原核生物(4000種)、真核生物(400種)の全ゲノム配列が決定されている
DNAシークエンサーの変遷(1)
1977 サンガー法開発
1998 ABI3700発売
1983 PCR法開発
2000 ABI3730発売
1986 蛍光DNA
自動シークエンサー開発
2005 454社、GSII発売
1993 キャピラリー
シークエンサー開発
2007 SOLEXA, SOLiD発売
2011 Ion PGM、PacBio発売
1995 全ゲノム
ショットガン法開発
1975
1980
1985
1990
1995
一分子DNA解析??
2000
2005
2010
2003年 1000ドルゲノムプロジェクトを発表
2008年 10万ドルでヒトゲノム解析を目標
2013年 1000ドル以下でヒトゲノム解析を達成
DNA配列解読のコストダウンは、ヒトゲノム
プロゼクト終了(2003年)から数年間はムー
アの法則にそうレベルで進んでいたが、
2007年頃には、それを超える速度で急落
Nature ダイジェスト Vol. 11 No. 6 | doi : 10.1038/ndigest.2014.140611
次世代シークエンサーの種類と性能
Platforms
Read length
(bp)
Read
Throughput
number/run capability(GB/run)
Regent
Run time
cost/run
ABI3730xL
600
96
0.00009
100円
3h
Roche 454
titanium
400-700
1M
0.7
120万円
10h
illumina GAIIx
36-200
320M
70
200万円
9.5days
ABI SOLiD
75
120M
10
80万円
10days
Illumina
Hi-Seq
2000 / 2500
36-300
3000M
600
360万円
10days
Ion PGM
200-400
5M
1
10万円
4.5h
Pac Bio
2000
Ion Proton
200-400
150M
60
10万円
この表には大量シーケンス用の機器が多い
シークエンサーは「高速」「大量」「低コスト」へ向かっている。
4
キャピラリーシーケンサと次世代シーケンサの違い
キャピラリーシーケンサ
DNAの特定領域をプライマー設定位置から600bp解読
(電気泳動する)
例: 3730システム
1ランで約60Kbpを解読 (96キャピラリ x600bp=57.6kbp)
gDNA
PCR
DNAの全体または一部をアットランダムに同時に解読
1ランで10M bp以上を解読
次世代シーケンサ
(電気泳動しない)
5
gDNA
断片化
ショットガン法(ランダム的戦略)(2)
ゲノムDNA
シークエンスされた配列
ショットガンクローン
(ランダムな断片)
フラグメント配列
(約200bpの配列の集合)
総当りでオーバーラップ
比較配列
を調べる
データベースの作成
オーバーラップには4種類
のタイプが存在する。
ショットガン法(ランダム的戦略)
フラグメント配列
コンティグ配列
プライマー
コンティグを繋ぐ配列をPCRによ
りシークエンスを行う
コンティグの結合
全ゲノム配列
ショットガン法により全ゲノム配列をシークエ
ンスするためには、通常、推定されるゲノムの
長さの4~10倍の量を必要とする。
コンピュータプログラムが
必要
計算機資源の必要性
久原研
サーバー名
CPU
cores
memory[GB]
nodes
xeon15
Intel® Xeon® CPU X5365 @ 3.00GHz
4x2
24
xeon16
Intel® Xeon® CPU X5365 @ 3.00GHz
4x2
32
小規模アセンブル&アノテーション
xeon17
Intel® Xeon® CPU X5365 @ 3.00GHz
4x2
32
小規模アセンブル&アノテーション
lms01
Intel® Xeon® CPU X7542 @ 2.67GHz
6x1
32
小規模アセンブル
FLX06090541
Intel® Xeon® CPU X5140 @ 2.33GHz
2x2
4
vnode
Intel® Xeon® CPU X5140 @ 2.33GHz
2x2
16
shinichi
Intel® Xeon® CPU X7460 @ 2.66GHz
6x4
256
kenichi
Intel® Xeon® CPU X5570 @ 2.93GHz
4x2
12
用途
FLXシーケンサー制御&画像処理
4 FLXシーケンサーベースコール
アセンブル計算サーバー
最低512GB〜
2TBが必要
(真核生物の
場合)
ファイルサーバー (HDD: 12TB)
情報基盤研究開
発センター
サーバー名
CPU
cores
memory[GB]
nodes
hakozaki
IBM POWER6 @ 4.70GHz
2x16
128
41 高性能アプリケーションサーバ
tatara A
Intel Itanium2 @ 1.60GHz
2x32
128
4 スーパーコンピュータシステム
tatara B
Intel Xeon @ 3.00 GHz
2x2
8
192x2 スーパーコンピュータシステム
sugoka
Intel® Xeon® CPU X5670 @ 2.93GHz
6x2
48
用途
392 高性能演算サーバ
大型のシークエンサーについては計算機等の解析機器が必要
一般の計算機センター等の資源は使いにくい、専用の解析サーバー必要
8
スパコン(Supercomputer)
東京大学医科学研究所
国立遺伝学研究所
最近のシークエンサーの発展(パーソナルシークエンサー)
Ion PGM
Miseq
454 GS Jr
製品
メンテナンスコスト
カメラや光源を使用していないので、 光源やカメラのメンテナンスが必要
非常に安価
で高価
光源やカメラのメンテナンスが必要
で高価
センシング
半導体チップで
各ウェルが独立
カメラ
(クロストークの可能性あり)
カメラ
(クロストークの可能性あり)
Emulsion PCR
Bridge PCR
Emulsion PCR
DNAクラスタリング
ビーズ調製とシーケンスステップ が
分離しており、
DNAクラスタ(ビーズ)の
シークエンス前の
QCチェック
QCチェックが可能
↓
ランの失敗を未然に
防ぐことができる。
DNAクラスタ作製とシークエンスが
連続ステップのためQCが不可能
↓
ランの失敗は未然に防ぐこ とがで
きない。
ビーズ調製とシーケンスステップ が
分離しており、
DNAクラスタ(ビーズ)の
QCチェックが可能
↓
QCの方法は不明
(付属のQubitシステム利用)
10
3. 微生物ゲノム解析の例
(Ion PGMの利用)
石垣島から採取された耐熱性サイレージ乳酸菌
高温多湿環境下でのサイレージ調整用のスターターとして用いることが期待されている
沖縄県のサイレージで分離され
た
Pediococcus lolii NGRI 0510QT
の電子顕微鏡写真。
バーは1µmを示す。
この菌のゲノム解析を
IonPGM(318chip)で行った
参考文献
K.Doi etal.(2009)Pediococcus lolii sp.nov.,isolatedfromryegrasssilage,Int.J.Syst.Evol.
11
Microbiol.,59,1007-1010.
解析のパイプライン
リードの取
得
アセンブル
遺伝子予測
機能解析
アセンブルに使用したリード
12
SampleSummery006-0510Hist
Summarydenovoreport
レード
565,364
コンティグの最大長 367Kb
コンティグ数
118
推定ゲノムサイズ
2M
カバレージ
60
他のシークエンサーの場合と
同等の性能
13
遺伝子予測とBLASTの結果
ヒットした遺伝子はPediococcusに属する菌の遺伝子が多く、
配列決定、遺伝子予測は十分正確
14
WholeGenomeSequencing
ofthePacificBluefinTuna
Thunnus orientalis
Kazuki Mori1,Kosuke Tashiro1,SatoruKuhara1,Masahira Hattori2,
TakumaSugaya3,Yoji Nakamura3,KenjiSaitoh3
MolecularGeneTechnology,FacultyofAgriculture,KyushuUniversity,6-10-1Hakozaki,Higashi-ku,
Fukuoka-shi 812-8581,Japan
2 GraduateSchoolofFrontierSciences,UniversityofTokyo,Kashiwa,Chiba277-8561,Japan
3 AquaticGenomicsResearchCenter,NationalResearchInstituteofFisheriesScience,
15
FisheriesResearchAgency,2-12-4Fukuura,KanazawaKu,Yokohama236-8648,Japan
1
日本人になじみの深いクロマグロ
クロマグロ消費量は世界一
16
減り続ける漁獲量
80
大西洋クロマグロ
太平洋クロマグロ
合計
70
漁獲量(千トン)
60
50
40
30
20
10
0
1995
1997
1999
2001
年
2003
2005
2007
(FAO資料に基づき作図)17
生産量
養殖の広がり
養殖クロマグロ生産量の推移(国内)
(資料:生産者への聞き取り調査. 鳥居享司(2008)養殖マグロの生産量の推移と
大手資本の動向、養殖、No.569,緑書房、東京.pp.25-27から引用)
2000年代以降、国内の養殖(畜養)
生産量が急増している
18
クロマグロ養成施設
(水産総合研究センター奄美栽培漁業センター)
19
養魚生け簀内を遊泳するクロマグロ
(水産総合研究センター奄美栽培漁業センター)
20
クロマグロ (Thunnus orientalis)
持続速度13km/h、突進速度60km/h
数万km/年 の長距離を回遊
温血動物(恒温動物?)
chromosome: 24 pairs
genome size: ~800Mb
本研究室では、野生捕獲した太平洋クロマグロ(Thunnus orientalis)のオスの2倍体ゲノム
を配列決定している。
21
クロマグロの運動能力は偉大
南マグロの回遊
大型個体の遊泳速度は70-90km/hに達すると
言われる。
潜水深度も 1000m位に及ぶものもいます
なぜこんなに遊泳能力が高いのか?
22
研究体制
水研セ
奄美栽培漁業センター
水研セ中央水研水産遺伝子
解析センター
東京大学大学院
ゲノムDNAの分析
親魚・人工種苗の飼育
水産遺伝子解析センター
九州大学大学院
ドラフトシーケンスの
完成
大規模データの
コンピューター解析
23
イルミナPEリードによる
スキャフォルドの橋渡し.2
約1万2千本のスーパースキャフォルドを構築
平均長約43kbp、最大長は約1Mbpに達した。
24
遺伝子予測
マグロ遺伝子モデル
他のゲノム決定済み魚類と同程度25
マグロゲノムの構造
ノンコーディング領域
約75%
コーディング領域
約5%
反復配列領域
26
Figure 3.Synteny of green (upper panel), blue and red (lower panel)
visual pigment genes oftuna in comparison with fiveteleosts. Colors
indicate different genefamilies(e.g., green forgreen pigment genes,
blue forblue pigments, red forred pigments). Asterisks indicate tuna
lineage-specific paralogs. Green pigment genesin lightgreenof two
pufferfishes arepseudogene 14. Visualpigment genesother than
green and red (UVand rhodopsin) have common synteny structure and
copy numbers amongthe tuna and fiveteleosts.
27
2. 遺伝子予測法
Atctttttcggctttttttagtatccacagaggttatcgacaacattttcacattaccaacc
Atctttttcggctttttttagtatccacagaggttatcgacaacattttcacattaccaacc
cctgtggacaaggttttttcaacaggttgtccgctttgtggataagattgtgacaaccAttg
cctgtggacaaggttttttcaacaggttgtccgctttgtggataagattgtgacaaccAttg
caagctctcgtttattttggtattatatttgtgttttaactcttgattactaatcctacctt
caagctctcgtttattttggtattatatttgtgttttaactcttgattactaatcctacctt
tcctctttatccacaaagtgtggataagttgtggattgatttcacacagcttgtgtagaagg
tcctctttatccacaaagtgtggataagttgtggattgatttcacacagcttgtgtagaagg
ttgtccacaagttgtgaaatttgtcgaaaagctatttatctactatattatatgttttcaac
ttgtccacaagttgtgaaatttgtcgaaaagctatttatctactatattatatgttttcaac
atttaatgtgtacgaatggtaagcgccatttgctctttttttgtgttctataacagagaaag
atttaatgtgtacgaatggtaagcgccatttgctctttttttgtgttctataacagagaaag
acgccattttctaagaaaaggagggacgtgccggaagatgaaatatattagacctgtggaac
acgccattttctaagaaaaggagggacgtgccggaagatgaaatatattagacctgtggaac
caagcccttgctcaaatcgaaaaaaagttgagcaaaccgagttttgagacttggatgaagtc
caagcccttgctcaaatcgaaaaaaagttgagcaaaccgagttttgagacttggatgaagtc
aaccaaagcccactcactgcaaggcgatacattaacaatcacggctcccaatgaatttgcca
aaccaaagcccactcactgcaaggcgatacattaacaatcacggctcccaatgaatttgcca
gagactggctggagtccagatacttgcatctgattgcagatactatatatgaattaaccggg
gagactggctggagtccagatacttgcatctgattgcagatactatatatgaattaaccggg
gaagaattgagcattaagtttgtcattcctcaaaatcaagatgttgaggactttatgccgaa
gaagaattgagcattaagtttgtcattcctcaaaatcaagatgttgaggactttatgccgaa
accgcaagtcaaaaaagcggtcaaagaagatacatctgattttcctcaaaatatgctcaatc
accgcaagtcaaaaaagcggtcaaagaagatacatctgattttcctcaaaatatgctcaatc
caaaatatacttttgatacttttgtcatcggatctggaaaccgatttgcacatgctgcttcc
caaaatatacttttgatacttttgtcatcggatctggaaaccgatttgcacatgctgcttcc
ctcgcagtagcggaagcgcccgcgaaagcttacaaccctttatttatctatgggggcgtcgg
ctcgcagtagcggaagcgcccgcgaaagcttacaaccctttatttatctatgggggcgtcgg
cttagggaaaacacacttaatgcatgcgatcggccattatgtaatagatcataatccttctg
cttagggaaaacacacttaatgcatgcgatcggccattatgtaatagatcataatccttctg
ccaaagtggtttatctgtcttctgagaaatttacaaacgaattcatcaactctatccgagat
ccaaagtggtttatctgtcttctgagaaatttacaaacgaattcatcaactctatccgagat
aataaagccgtcgacttccgcaatcgctatcgtagtgttgatgtgcttttgatagatgatat
aataaagccgtcgacttccgcaatcgctatcgtagtgttgatgtgcttttgatagatgatat
tcaatttttagcggggaaagaacaaacccaggaagaatttttccatacatttaacacattac
tcaatttttagcggggaaagaacaaacccaggaagaatttttccatacatttaacacattac
acgaagaaagcaaacaaatcgtcatttcaagtgaccggccgccaaaggaaattccttaactt
acgaagaaagcaaacaaatcgtcatttcaagtgaccggccgccaaaggaaattccttaactt
gaagacagattgcgctcacgttttgaatggggacttattacagatatcacaccgcctgatct
gaagacagattgcgctcacgttttgaatggggacttattacagatatcacaccgcctgatct
agaaacgagaattgcaattttaagaaaaaaggccaaagcagagggcctcgatattccgaacg
agaaacgagaattgcaattttaagaaaaaaggccaaagcagagggcctcgatattccgaacg
aggttatgctttacatcgcgaatcaaatcgacagcaatattcgggaactcgaaggagcatta
aggttatgctttacatcgcgaatcaaatcgacagcaatattcgggaactcgaaggagcatta
atcagagttgtcgcttattcatctttaattaataaagatattaatgctgatctggccgctga
atcagagttgtcgcttattcatctttaattaataaagatattaatgctgatctggccgctga
ggcgttgaaagatattattccttcctcaaaaccgaaagtcattacgataaaagaaattcaga
ggcgttgaaagatattattccttcctcaaaaccgaaagtcattacgataaaagaaattcaga
gggtagtaggccagcaatttaatattaaactcgaggatttcaaagcaaaaaaacggacaaag
gggtagtaggccagcaatttaatattaaactcgaggatttcaaagcaaaaaaacggacaaag
tcagtagcttttccgcgtcaaatcgccatgtacttatcaagggaaatgactgattcctctct
tcagtagcttttccgcgtcaaatcgccatgtacttatcaagggaaatgactgattcctctct
tcctaaaatcggtgaagagtttggaggacgtgatcatacgaccgttattcatgcgcatgaaa
tcctaaaatcggtgaagagtttggaggacgtgatcatacgaccgttattcatgcgcatgaaa
aaatTtcaaaactgctggcagatgatgaacagcttcagcagcatgtaaaagaaattaaagaa
aaatTtcaaaactgctggcagatgatgaacagcttcagcagcatgtaaaagaaattaaagaa
cagcttaaacaggacatgggatcaatcggggaaagtgtgaataacttttcggaagtcataca
cagcttaaacaggacatgggatcaatcggggaaagtgtgaataacttttcggaagtcataca
cagtctgtccacatgtggataggctgtgtttcctgtctttttcacaacttatccacaaatcc
cagtctgtccacatgtggataggctgtgtttcctgtctttttcacaacttatccacaaatcc
acaggccctactattacttctactattttttataaatatatatattaatacattatccgtta
acaggccctactattacttctactattttttataaatatatatattaatacattatccgtta
遺伝子はどこにあるの
ggaggataaaaatgaaattcacgattcaaaaagatcgtcttgttgaaagtgtccaagatgta
ggaggataaaaatgaaattcacgattcaaaaagatcgtcttgttgaaagtgtccaagatgta
ttaaaagcagtttcatccagaaccacgattcccattctgactggtattaaaattgttgcatc
ttaaaagcagtttcatccagaaccacgattcccattctgactggtattaaaattgttgcatc
agatgatggagtatcctttacagggagtgactcagatatttctattgaaaaattcacgattc
agatgatggagtatcctttacagggagtgactcagatatttctattgaaaaattcacgattc
aaaaagatcgtcttgttgaaagtgtccaagatgtattaaaagcagtttcatccagaaccacg
aaaaagatcgtcttgttgaaagtgtccaagatgtattaaaagcagtttcatccagaaccacg
attcccattctgactggtattaaaattgttgcatcagatgatggagtatcctttacagggag
attcccattctgactggtattaaaattgttgcatcagatgatggagtatcctttacagggag
tgactcagatatttctattgaaactggtattaaaattgttgcatcagatgatggagtatcct
tgactcagatatttctattgaaactggtattaaaattgttgcatcagatgatggagtatcct
ゲノム配列
1
61
121
181
241
301
361
421
481
541
601
661
721
781
841
901
961
CGTATCACCGAGAGAAATAGAGGATATTATCGAATGAAAATTCGGTAGTATCCTTTTTtA
GTGTAATCGCCCACAAACATTTATGAGCAGACGTCAGCAAAATCATAAATTGGTATATAT
GCTATATTGAGCATTGGTATACAAAGATAAATGATCACAAGCTTAATAATACCAGCTCGT
GGGAGATATAATCTAATAATATCCTCTTGTGGTATATATAAAAATATAGTATGCTGTACT
GGTAAATATAAATTACTTGGGAGTGGAAAAAATGAAAAAAGTATTGTTGATTTGTGAAAA
CGGCATTTCTAGTCATTACCTGGTTAAAGCAGCACAACCTTTTATTGAATTGTATGATGC
TCACATTCAGTTAAATGCAACTGACATTGATCATGCAGCTTCCTATTCAGATAAAGATGT
TGAACTGGTACTCGTGGCACCACAAGCTACGTATCACGATGAGGAGCTTCATTTGTTCGA
CGAGGACACGCCTGTTGAAACGATTCCTGACGAAATTTATGGTTGGGGAAATGGAGAGAA
ACTTGTTAAATTAATCATGGAAAAATTGAGTCCTGTTGAGGCAGCTTAATGACAGATGAT
CAACTTAATCAGATTTCCATGCAAATGCTGACATGCTCAGGGAATGCGAAGAAGATCTTG
TCTGAGGTAATGAATGATATGAATTCAGGAGAAGGGGAAAACAATCTTGACTCAAAAATG
GTTGTGGCCCATCAGTGGCTGGTTAAAGCACATAAATATCAAAATAAAGTGATCGCTGAA
GCTGAAAGTATTCACTATTCCGTACTATTTACACACGCTCAAGATACACTCATGAACACT
GAGACAATCGAATTTATTATTAAAAaGTTT ATCCCATTATTGAGAAACGCAAAATGAACG
GATATCAGCGTCTTTCCCATGCGATTAACAGCATTCGCAATTGTTGATATCTGGCTGAAT
TCTTACTGTATATAAGTTTTCCGAGTCTCACCTATGTTGAATTAAAATTCAATCTATCAT
せっかく塩基配列を解読したのに、どこに何の機能があるのかわからない!
遺伝子コード領域の例
1
61
121
181
241
301
361
421
481
541
601
661
721
781
841
901
961
CGTATCACCGAGAGAAATAGAGGATATTATCGAATGAAAATTCGGTAGTATCCTTTTTtA
GTGTAATCGCCCACAAACATTTATGAGCAGACGTCAGCAAAATCATAAATTGGTATATAT
GCTATATTGAGCATTGGTATACAAAGATAAATGATCACAAGCTTAATAATACCAGCTCGT
GGGAGATATAATCTAATAATATCCTCTTGTGGTATATATAAAAATATAGTATGCTGTACT
GGTAAATATAAATTACTTGGGAGTGGAAAAAATGAAAAAAGTATTGTTGATTTGTGAAAA
CGGCATTTCTAGTCATTACCTGGTTAAAGCAGCACAACCTTTTATTGAATTGTATGATGC
TCACATTCAGTTAAATGCAACTGACATTGATCATGCAGCTTCCTATTCAGATAAAGATGT
TGAACTGGTACTCGTGGCACCACAAGCTACGTATCACGATGAGGAGCTTCATTTGTTCGA
CGAGGACACGCCTGTTGAAACGATTCCTGACGAAATTTATGGTTGGGGAAATGGAGAGAA
ACTTGTTAAATTAATCATGGAAAAATTGAGTCCTGTTGAGGCAGCTTAATGACAGATGAT
CAACTTAATCAGATTTCCATGCAAATGCTGACATGCTCAGGGAATGCGAAGAAGATCTTG
TCTGAGGTAATGAATGATATGAATTCAGGAGAAGGGGAAAACAATCTTGACTCAAAAATG
GTTGTGGCCCATCAGTGGCTGGTTAAAGCACATAAATATCAAAATAAAGTGATCGCTGAA
GCTGAAAGTATTCACTATTCCGTACTATTTACACACGCTCAAGATACACTCATGAACACT
GAGACAATCGAATTTATTATTAAAAaGTTT ATCCCATTATTGAGAAACGCAAAATGAACG
GATATCAGCGTCTTTCCCATGCGATTAACAGCATTCGCAATTGTTGATATCTGGCTGAAT
TCTTACTGTATATAAGTTTTCCGAGTCTCACCTATGTTGAATTAAAATTCAATCTATCAT
開始コドン:ATG (CTG,GTG,TTG)
終始コドン:TAA,TAG,TGA
遺伝子の予測は目視では不可能に近い
遺伝子予測
原核生物
・ 遺伝子の密度が高く、遺伝子はイントロン部分をもたない
・ 予測は比較的容易
真核生物
・ 遺伝子の密度が低く、遺伝子はイントロン部分をもち、複雑な構造をしている
・ 予測は困難
(原核生物の場合)
1. 6フレーム翻訳による予測
開始コドンから終止コドンまでを読み枠(ORF)として定義。
2. 統計的手法を用いた遺伝子の予測
遺伝子領域にはある程度の塩基配列の規則性が存在する。
音声認識の分野で用いられている隠れマルコフモデルの適用。
遺伝子予測.1
3通りのフレームで翻訳して、途中に終始コドンを含まないできるだけ長いORFを探す。
(本当は逆方向も含めて6フレームの翻訳が必要)
----+----9----+----200--+----1----+----2----+----3----+----4----+----5----+----6----+----7----+----8----+----9----+----300
GGGAGATATAATCTAATAATATCCTCTTGTGGTATATATAAAAATATAGTATGCTGTACTGGTAAATATAAATTACTTGGGAGTGGAAAAAATGAAAAAAGTATTGTTGATTTGTGAAAA
GRYNLIISSCGIYKNIVCCTGKYKLLGSGKNEKSIVDL* K
GDII** YPLVVYIKI* YAVL VNINYLGVEKM KKVLLICEN
EI* SNNILLWYI* KYSMLYW* I* ITWEWKK* KKYC* FVKT
----+----1----+----2----+----3----+----4----+----5----+----6----+----7----+----8----+----9----+----400--+----1----+----2
CGGCATTTCTAGTCATTACCTGGTTAAAGCAGCACAACCTTTTATTGAATTGTATGATGCTCACATTCAGTTAAATGCAACTGACATTGATCATGCAGCTTCCTATTCAGATAAAGATGT
RHF* SLPG* SSTTFY* IV* CSHSVKCN* H* SCSFLFR* RC
GISSHYLVKAAQPFIELYDAHIQLNATDIDHAASYSDKDV
AFLVITWLKQHNLLLNCMMLTFS* MQLTLIMQLPIQIKML
----+----3----+----4----+----5----+----6----+----7----+----8----+----9----+----500--+----1----+----2----+----3----+----4
TGAACTGGTACTCGTGGCACCACAAGCTACGTATCACGATGAGGAGCTTCATTTGTTCGACGAGGACACGCCTGTTGAAACGATTCCTGACGAAATTTATGGTTGGGGAAATGGAGAGAA
* TGTRGTTSYVSR* GASFVRRGHAC* NDS* RNLWLGKWRE
ELVLVAPQATYHDEELHLFDEDTPVETIPDEIYGWGNGEK
NWYSWHHKLRITMRSFICSTRTRLLKRFLTKFMVGEMERN
----+----5----+----6----+----7----+----8----+----9----+----600
ACTTGTTAAATTAATCATGGAAAAATTGAGTCCTGTTGAGGCAGCTTAATGACAGATGAT
TC* INHGKIESC* GSLMTDD
LVKLIMEKLSPVEAA** QM
LLN* SWKN* VLLRQLNDR*
同じ領域に遺伝子の候補が複数出てきてしまうことがある。
開始コドンが不確定(ATGが複数現れたり、CTGやTTGが使われることもある)。
6フレーム翻訳による予測
原核生物の場合
GGA
TGG
開始コドン ATG
二本鎖DNAは6種類の読み枠をもつ
順鎖
TAG
TAA
TGA
終止コドン
5’-AAGATGGAAAATATATTAGACCTGTGGAACCAAGCCCTTGCTCAACATTTTAG-3’
3’-TTCTACCTTTTATATAATCTGGACACCTTGGTTCGGGAACGAGTTGTAAAATC-5’
GTA 開始コドン
AGT
逆鎖
TGT
(相補鎖)
終止コドン AAT
TTG
GAT
開始コドンから終止コドンまでをORFとして予測
ORFを探したときに得られる典型的な予測結果
遺伝子の候補とする
遺伝子としては
みなさない
より確からしい開始コドンの位置の推定
正確な開始コドンの3~10bp上流にはAとGに富むSD(Shine-Dalgarno)
配列が存在し、リボソームタンパク質が結合し、アミノ酸配列に翻訳される。
GCGGTGCTTATTGAAAGCTGATGTTAC
ATTAGGAGGTGTGAUAATGTTTTAGGT
TAGTCTACTTTACGATCTTGAGGTGTA
どちらが正しい開始コドンか?
SD配列を調べる
GCGGTGCTTATTGAAAGCTGATGTTAC
ATTAGGAGGTGTGAUAATGTTTTAGGT
TAGTCTACTTTACGATCTTGAGGTGTA
正確な開始コドン
SD配列
遺伝子の数が膨大なため、自動化を行いたい。
遺伝子予測.2
より正確な遺伝子予測のために
Glimmer3(JohnsHopkinsUniversity)
http://ccb.jhu.edu/software/glimmer/index.shtml
http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi
原核生物用遺伝子予測ソフトウェアのひとつ。
モデル生物のゲノムから99%の遺伝子を予測できると言われている。
NCBIやTIGR等の国際データベースでゲノムのアノテーションに使われている。
・longORF
・隠れマルコフモデルやコドン使用頻度によるORFの妥当性評価
・リボソーム結合部位の予測
・新規生物種に対しても、仮予測結果を学習して精度改善が可能
NCBIのWeb版Glimmerに、3ページ前のゲノム配列を貼り付けてみよう。
(先頭に >sequence等の”>”で始まる適当な配列名を書く必要がある。
配列内のスペースは消さなくてもよい)
統計的手法を用いた遺伝子予測
遺伝子領域にはある程度の塩基配列の規則性が存在する。
・ コドンの使用頻度
・ 連続したコドンの組み合わせ
・ 終止コドンの1つ前で多用されるコドンの傾向
遺伝子領域を統計的手法により予測することが可能
隠れマルコフモデルの適用
微生物ゲノム解析プログラム(GenomeGambler)
予測した遺伝子
6フレーム翻訳により予測された遺伝子
統計的手法により予測された遺伝子
遺伝子予測(真核生物)
遺伝子
エキソン イントロン エキソン
AG↓GTAAGT
スプライス部位を予測する必要がある。
原核生物よりも予測は困難。
PyPyPyPyPyPyNCAG↓
エキソンとイントロンの境界における特定の配列が存在するが、エキソンやイントロンの
中にも存在するため、正確な境界を特定することが困難。
統計的手法による遺伝子の予測
真核生物では、選択的スプライシング(alternative splicing)により、
異なるタンパク質が生成されることがある。
遺伝子予測(真核生物)
(提案されている方法の一部)
Genscan :
HMMgene
GrailII
GeneParser
隠れマルコフモデル
: 隠れマルコフモデル
: ニューラルネットワーク
: ニューラルネットワーク
・ 未知の遺伝子を予測する場合、予測精度は、60%程度。
・ 複数のプログラムを用いて共通に予測される遺伝子は信頼度が高い。