1. 配列決定法の紹介 高速シークエンサーと生命科学研究の方向性 1.最近のシークエンサーの発展、応用 2.微生物配列決定の例 IonPGMを使ってみて 全ゲノム解析 メタゲノム解析 4.マグロの配列決定の例 5.植物(シロイズナズナ)のRNAseq解析の例 1 全ゲノム配列が解読された生物種のリスト(一部) 生物種 (学名) インフルエンザ菌 ゲノムサイズ(Mb) 遺伝子数 (Haemophilus influenza) 発表年 1.83 1,765 1995 マイコプラズマ (Mycoplasma genitalium) 0.58 467 1995 メタン細菌 (Methanococcus jannaschii) 1.66 1,715 1996 ラン藻 (Synechocystis sp. PCC6803) 3.57 3,169 1996 マイコプラズマ (Mycoplasma pneumoniae) 0.82 677 1996 出芽酵母 (Saccharomyces cerevisiae) 12.07 6,215 1997 大腸菌 (Escherichia coli) 4.64 4,289 1997 枯草菌 (Bacillus subtillis) 4.21 4,100 1997 97 19,099 1998 2.81 2,594 2001 3Gbp 30,000 2001 線虫 (Caenorhabditis elegans) ウェルシュ菌 (Clostridium perfringens) ヒト (Homosapiens) ARTICLE 30億円 1000Genomes Project doi:10.1038/nature09534 A map of human genome variation from population-scale sequencing The 1000 Genomes Project Consortium* The 1000 Genomes Project aims to provide a deep characterization of human genome sequence variation as a foundation for investigating the relationship between genotype and phenotype. Here we present results of the pilot phase of the project, designed to develop and compare different strategies for genome-wide sequencing with high-throughput platforms. We undertook three projects: low-coverage whole-genome sequencing of 179 individuals from four populations; high-coverage sequencing of two mother–father–child trios; and exon-targeted sequencing of 697 individuals from seven populations. We describe the location, allele frequency and local haplotype structure of approximately 15 million single nucleotide polymorphisms, 1 million short insertions and deletions, and 20,000 structural variants, most of which were previously undescribed. We show that, because we have catalogued the vast majority of common variation, over 95% of the currently accessible variants found in any individual are present in this data set. On average, each person is found to carry approximately 250 to 300 loss-of-function variants in annotated 28OCT OB ER 2010|VOL467| NATU R E|1061 原核生物(4000種)、真核生物(400種)の全ゲノム配列が決定されている DNAシークエンサーの変遷(1) 1977 サンガー法開発 1998 ABI3700発売 1983 PCR法開発 2000 ABI3730発売 1986 蛍光DNA 自動シークエンサー開発 2005 454社、GSII発売 1993 キャピラリー シークエンサー開発 2007 SOLEXA, SOLiD発売 2011 Ion PGM、PacBio発売 1995 全ゲノム ショットガン法開発 1975 1980 1985 1990 1995 一分子DNA解析?? 2000 2005 2010 2003年 1000ドルゲノムプロジェクトを発表 2008年 10万ドルでヒトゲノム解析を目標 2013年 1000ドル以下でヒトゲノム解析を達成 DNA配列解読のコストダウンは、ヒトゲノム プロゼクト終了(2003年)から数年間はムー アの法則にそうレベルで進んでいたが、 2007年頃には、それを超える速度で急落 Nature ダイジェスト Vol. 11 No. 6 | doi : 10.1038/ndigest.2014.140611 次世代シークエンサーの種類と性能 Platforms Read length (bp) Read Throughput number/run capability(GB/run) Regent Run time cost/run ABI3730xL 600 96 0.00009 100円 3h Roche 454 titanium 400-700 1M 0.7 120万円 10h illumina GAIIx 36-200 320M 70 200万円 9.5days ABI SOLiD 75 120M 10 80万円 10days Illumina Hi-Seq 2000 / 2500 36-300 3000M 600 360万円 10days Ion PGM 200-400 5M 1 10万円 4.5h Pac Bio 2000 Ion Proton 200-400 150M 60 10万円 この表には大量シーケンス用の機器が多い シークエンサーは「高速」「大量」「低コスト」へ向かっている。 4 キャピラリーシーケンサと次世代シーケンサの違い キャピラリーシーケンサ DNAの特定領域をプライマー設定位置から600bp解読 (電気泳動する) 例: 3730システム 1ランで約60Kbpを解読 (96キャピラリ x600bp=57.6kbp) gDNA PCR DNAの全体または一部をアットランダムに同時に解読 1ランで10M bp以上を解読 次世代シーケンサ (電気泳動しない) 5 gDNA 断片化 ショットガン法(ランダム的戦略)(2) ゲノムDNA シークエンスされた配列 ショットガンクローン (ランダムな断片) フラグメント配列 (約200bpの配列の集合) 総当りでオーバーラップ 比較配列 を調べる データベースの作成 オーバーラップには4種類 のタイプが存在する。 ショットガン法(ランダム的戦略) フラグメント配列 コンティグ配列 プライマー コンティグを繋ぐ配列をPCRによ りシークエンスを行う コンティグの結合 全ゲノム配列 ショットガン法により全ゲノム配列をシークエ ンスするためには、通常、推定されるゲノムの 長さの4~10倍の量を必要とする。 コンピュータプログラムが 必要 計算機資源の必要性 久原研 サーバー名 CPU cores memory[GB] nodes xeon15 Intel® Xeon® CPU X5365 @ 3.00GHz 4x2 24 xeon16 Intel® Xeon® CPU X5365 @ 3.00GHz 4x2 32 小規模アセンブル&アノテーション xeon17 Intel® Xeon® CPU X5365 @ 3.00GHz 4x2 32 小規模アセンブル&アノテーション lms01 Intel® Xeon® CPU X7542 @ 2.67GHz 6x1 32 小規模アセンブル FLX06090541 Intel® Xeon® CPU X5140 @ 2.33GHz 2x2 4 vnode Intel® Xeon® CPU X5140 @ 2.33GHz 2x2 16 shinichi Intel® Xeon® CPU X7460 @ 2.66GHz 6x4 256 kenichi Intel® Xeon® CPU X5570 @ 2.93GHz 4x2 12 用途 FLXシーケンサー制御&画像処理 4 FLXシーケンサーベースコール アセンブル計算サーバー 最低512GB〜 2TBが必要 (真核生物の 場合) ファイルサーバー (HDD: 12TB) 情報基盤研究開 発センター サーバー名 CPU cores memory[GB] nodes hakozaki IBM POWER6 @ 4.70GHz 2x16 128 41 高性能アプリケーションサーバ tatara A Intel Itanium2 @ 1.60GHz 2x32 128 4 スーパーコンピュータシステム tatara B Intel Xeon @ 3.00 GHz 2x2 8 192x2 スーパーコンピュータシステム sugoka Intel® Xeon® CPU X5670 @ 2.93GHz 6x2 48 用途 392 高性能演算サーバ 大型のシークエンサーについては計算機等の解析機器が必要 一般の計算機センター等の資源は使いにくい、専用の解析サーバー必要 8 スパコン(Supercomputer) 東京大学医科学研究所 国立遺伝学研究所 最近のシークエンサーの発展(パーソナルシークエンサー) Ion PGM Miseq 454 GS Jr 製品 メンテナンスコスト カメラや光源を使用していないので、 光源やカメラのメンテナンスが必要 非常に安価 で高価 光源やカメラのメンテナンスが必要 で高価 センシング 半導体チップで 各ウェルが独立 カメラ (クロストークの可能性あり) カメラ (クロストークの可能性あり) Emulsion PCR Bridge PCR Emulsion PCR DNAクラスタリング ビーズ調製とシーケンスステップ が 分離しており、 DNAクラスタ(ビーズ)の シークエンス前の QCチェック QCチェックが可能 ↓ ランの失敗を未然に 防ぐことができる。 DNAクラスタ作製とシークエンスが 連続ステップのためQCが不可能 ↓ ランの失敗は未然に防ぐこ とがで きない。 ビーズ調製とシーケンスステップ が 分離しており、 DNAクラスタ(ビーズ)の QCチェックが可能 ↓ QCの方法は不明 (付属のQubitシステム利用) 10 3. 微生物ゲノム解析の例 (Ion PGMの利用) 石垣島から採取された耐熱性サイレージ乳酸菌 高温多湿環境下でのサイレージ調整用のスターターとして用いることが期待されている 沖縄県のサイレージで分離され た Pediococcus lolii NGRI 0510QT の電子顕微鏡写真。 バーは1µmを示す。 この菌のゲノム解析を IonPGM(318chip)で行った 参考文献 K.Doi etal.(2009)Pediococcus lolii sp.nov.,isolatedfromryegrasssilage,Int.J.Syst.Evol. 11 Microbiol.,59,1007-1010. 解析のパイプライン リードの取 得 アセンブル 遺伝子予測 機能解析 アセンブルに使用したリード 12 SampleSummery006-0510Hist Summarydenovoreport レード 565,364 コンティグの最大長 367Kb コンティグ数 118 推定ゲノムサイズ 2M カバレージ 60 他のシークエンサーの場合と 同等の性能 13 遺伝子予測とBLASTの結果 ヒットした遺伝子はPediococcusに属する菌の遺伝子が多く、 配列決定、遺伝子予測は十分正確 14 WholeGenomeSequencing ofthePacificBluefinTuna Thunnus orientalis Kazuki Mori1,Kosuke Tashiro1,SatoruKuhara1,Masahira Hattori2, TakumaSugaya3,Yoji Nakamura3,KenjiSaitoh3 MolecularGeneTechnology,FacultyofAgriculture,KyushuUniversity,6-10-1Hakozaki,Higashi-ku, Fukuoka-shi 812-8581,Japan 2 GraduateSchoolofFrontierSciences,UniversityofTokyo,Kashiwa,Chiba277-8561,Japan 3 AquaticGenomicsResearchCenter,NationalResearchInstituteofFisheriesScience, 15 FisheriesResearchAgency,2-12-4Fukuura,KanazawaKu,Yokohama236-8648,Japan 1 日本人になじみの深いクロマグロ クロマグロ消費量は世界一 16 減り続ける漁獲量 80 大西洋クロマグロ 太平洋クロマグロ 合計 70 漁獲量(千トン) 60 50 40 30 20 10 0 1995 1997 1999 2001 年 2003 2005 2007 (FAO資料に基づき作図)17 生産量 養殖の広がり 養殖クロマグロ生産量の推移(国内) (資料:生産者への聞き取り調査. 鳥居享司(2008)養殖マグロの生産量の推移と 大手資本の動向、養殖、No.569,緑書房、東京.pp.25-27から引用) 2000年代以降、国内の養殖(畜養) 生産量が急増している 18 クロマグロ養成施設 (水産総合研究センター奄美栽培漁業センター) 19 養魚生け簀内を遊泳するクロマグロ (水産総合研究センター奄美栽培漁業センター) 20 クロマグロ (Thunnus orientalis) 持続速度13km/h、突進速度60km/h 数万km/年 の長距離を回遊 温血動物(恒温動物?) chromosome: 24 pairs genome size: ~800Mb 本研究室では、野生捕獲した太平洋クロマグロ(Thunnus orientalis)のオスの2倍体ゲノム を配列決定している。 21 クロマグロの運動能力は偉大 南マグロの回遊 大型個体の遊泳速度は70-90km/hに達すると 言われる。 潜水深度も 1000m位に及ぶものもいます なぜこんなに遊泳能力が高いのか? 22 研究体制 水研セ 奄美栽培漁業センター 水研セ中央水研水産遺伝子 解析センター 東京大学大学院 ゲノムDNAの分析 親魚・人工種苗の飼育 水産遺伝子解析センター 九州大学大学院 ドラフトシーケンスの 完成 大規模データの コンピューター解析 23 イルミナPEリードによる スキャフォルドの橋渡し.2 約1万2千本のスーパースキャフォルドを構築 平均長約43kbp、最大長は約1Mbpに達した。 24 遺伝子予測 マグロ遺伝子モデル 他のゲノム決定済み魚類と同程度25 マグロゲノムの構造 ノンコーディング領域 約75% コーディング領域 約5% 反復配列領域 26 Figure 3.Synteny of green (upper panel), blue and red (lower panel) visual pigment genes oftuna in comparison with fiveteleosts. Colors indicate different genefamilies(e.g., green forgreen pigment genes, blue forblue pigments, red forred pigments). Asterisks indicate tuna lineage-specific paralogs. Green pigment genesin lightgreenof two pufferfishes arepseudogene 14. Visualpigment genesother than green and red (UVand rhodopsin) have common synteny structure and copy numbers amongthe tuna and fiveteleosts. 27 2. 遺伝子予測法 Atctttttcggctttttttagtatccacagaggttatcgacaacattttcacattaccaacc Atctttttcggctttttttagtatccacagaggttatcgacaacattttcacattaccaacc cctgtggacaaggttttttcaacaggttgtccgctttgtggataagattgtgacaaccAttg cctgtggacaaggttttttcaacaggttgtccgctttgtggataagattgtgacaaccAttg caagctctcgtttattttggtattatatttgtgttttaactcttgattactaatcctacctt caagctctcgtttattttggtattatatttgtgttttaactcttgattactaatcctacctt tcctctttatccacaaagtgtggataagttgtggattgatttcacacagcttgtgtagaagg tcctctttatccacaaagtgtggataagttgtggattgatttcacacagcttgtgtagaagg ttgtccacaagttgtgaaatttgtcgaaaagctatttatctactatattatatgttttcaac ttgtccacaagttgtgaaatttgtcgaaaagctatttatctactatattatatgttttcaac atttaatgtgtacgaatggtaagcgccatttgctctttttttgtgttctataacagagaaag atttaatgtgtacgaatggtaagcgccatttgctctttttttgtgttctataacagagaaag acgccattttctaagaaaaggagggacgtgccggaagatgaaatatattagacctgtggaac acgccattttctaagaaaaggagggacgtgccggaagatgaaatatattagacctgtggaac caagcccttgctcaaatcgaaaaaaagttgagcaaaccgagttttgagacttggatgaagtc caagcccttgctcaaatcgaaaaaaagttgagcaaaccgagttttgagacttggatgaagtc aaccaaagcccactcactgcaaggcgatacattaacaatcacggctcccaatgaatttgcca aaccaaagcccactcactgcaaggcgatacattaacaatcacggctcccaatgaatttgcca gagactggctggagtccagatacttgcatctgattgcagatactatatatgaattaaccggg gagactggctggagtccagatacttgcatctgattgcagatactatatatgaattaaccggg gaagaattgagcattaagtttgtcattcctcaaaatcaagatgttgaggactttatgccgaa gaagaattgagcattaagtttgtcattcctcaaaatcaagatgttgaggactttatgccgaa accgcaagtcaaaaaagcggtcaaagaagatacatctgattttcctcaaaatatgctcaatc accgcaagtcaaaaaagcggtcaaagaagatacatctgattttcctcaaaatatgctcaatc caaaatatacttttgatacttttgtcatcggatctggaaaccgatttgcacatgctgcttcc caaaatatacttttgatacttttgtcatcggatctggaaaccgatttgcacatgctgcttcc ctcgcagtagcggaagcgcccgcgaaagcttacaaccctttatttatctatgggggcgtcgg ctcgcagtagcggaagcgcccgcgaaagcttacaaccctttatttatctatgggggcgtcgg cttagggaaaacacacttaatgcatgcgatcggccattatgtaatagatcataatccttctg cttagggaaaacacacttaatgcatgcgatcggccattatgtaatagatcataatccttctg ccaaagtggtttatctgtcttctgagaaatttacaaacgaattcatcaactctatccgagat ccaaagtggtttatctgtcttctgagaaatttacaaacgaattcatcaactctatccgagat aataaagccgtcgacttccgcaatcgctatcgtagtgttgatgtgcttttgatagatgatat aataaagccgtcgacttccgcaatcgctatcgtagtgttgatgtgcttttgatagatgatat tcaatttttagcggggaaagaacaaacccaggaagaatttttccatacatttaacacattac tcaatttttagcggggaaagaacaaacccaggaagaatttttccatacatttaacacattac acgaagaaagcaaacaaatcgtcatttcaagtgaccggccgccaaaggaaattccttaactt acgaagaaagcaaacaaatcgtcatttcaagtgaccggccgccaaaggaaattccttaactt gaagacagattgcgctcacgttttgaatggggacttattacagatatcacaccgcctgatct gaagacagattgcgctcacgttttgaatggggacttattacagatatcacaccgcctgatct agaaacgagaattgcaattttaagaaaaaaggccaaagcagagggcctcgatattccgaacg agaaacgagaattgcaattttaagaaaaaaggccaaagcagagggcctcgatattccgaacg aggttatgctttacatcgcgaatcaaatcgacagcaatattcgggaactcgaaggagcatta aggttatgctttacatcgcgaatcaaatcgacagcaatattcgggaactcgaaggagcatta atcagagttgtcgcttattcatctttaattaataaagatattaatgctgatctggccgctga atcagagttgtcgcttattcatctttaattaataaagatattaatgctgatctggccgctga ggcgttgaaagatattattccttcctcaaaaccgaaagtcattacgataaaagaaattcaga ggcgttgaaagatattattccttcctcaaaaccgaaagtcattacgataaaagaaattcaga gggtagtaggccagcaatttaatattaaactcgaggatttcaaagcaaaaaaacggacaaag gggtagtaggccagcaatttaatattaaactcgaggatttcaaagcaaaaaaacggacaaag tcagtagcttttccgcgtcaaatcgccatgtacttatcaagggaaatgactgattcctctct tcagtagcttttccgcgtcaaatcgccatgtacttatcaagggaaatgactgattcctctct tcctaaaatcggtgaagagtttggaggacgtgatcatacgaccgttattcatgcgcatgaaa tcctaaaatcggtgaagagtttggaggacgtgatcatacgaccgttattcatgcgcatgaaa aaatTtcaaaactgctggcagatgatgaacagcttcagcagcatgtaaaagaaattaaagaa aaatTtcaaaactgctggcagatgatgaacagcttcagcagcatgtaaaagaaattaaagaa cagcttaaacaggacatgggatcaatcggggaaagtgtgaataacttttcggaagtcataca cagcttaaacaggacatgggatcaatcggggaaagtgtgaataacttttcggaagtcataca cagtctgtccacatgtggataggctgtgtttcctgtctttttcacaacttatccacaaatcc cagtctgtccacatgtggataggctgtgtttcctgtctttttcacaacttatccacaaatcc acaggccctactattacttctactattttttataaatatatatattaatacattatccgtta acaggccctactattacttctactattttttataaatatatatattaatacattatccgtta 遺伝子はどこにあるの ggaggataaaaatgaaattcacgattcaaaaagatcgtcttgttgaaagtgtccaagatgta ggaggataaaaatgaaattcacgattcaaaaagatcgtcttgttgaaagtgtccaagatgta ttaaaagcagtttcatccagaaccacgattcccattctgactggtattaaaattgttgcatc ttaaaagcagtttcatccagaaccacgattcccattctgactggtattaaaattgttgcatc agatgatggagtatcctttacagggagtgactcagatatttctattgaaaaattcacgattc agatgatggagtatcctttacagggagtgactcagatatttctattgaaaaattcacgattc aaaaagatcgtcttgttgaaagtgtccaagatgtattaaaagcagtttcatccagaaccacg aaaaagatcgtcttgttgaaagtgtccaagatgtattaaaagcagtttcatccagaaccacg attcccattctgactggtattaaaattgttgcatcagatgatggagtatcctttacagggag attcccattctgactggtattaaaattgttgcatcagatgatggagtatcctttacagggag tgactcagatatttctattgaaactggtattaaaattgttgcatcagatgatggagtatcct tgactcagatatttctattgaaactggtattaaaattgttgcatcagatgatggagtatcct ゲノム配列 1 61 121 181 241 301 361 421 481 541 601 661 721 781 841 901 961 CGTATCACCGAGAGAAATAGAGGATATTATCGAATGAAAATTCGGTAGTATCCTTTTTtA GTGTAATCGCCCACAAACATTTATGAGCAGACGTCAGCAAAATCATAAATTGGTATATAT GCTATATTGAGCATTGGTATACAAAGATAAATGATCACAAGCTTAATAATACCAGCTCGT GGGAGATATAATCTAATAATATCCTCTTGTGGTATATATAAAAATATAGTATGCTGTACT GGTAAATATAAATTACTTGGGAGTGGAAAAAATGAAAAAAGTATTGTTGATTTGTGAAAA CGGCATTTCTAGTCATTACCTGGTTAAAGCAGCACAACCTTTTATTGAATTGTATGATGC TCACATTCAGTTAAATGCAACTGACATTGATCATGCAGCTTCCTATTCAGATAAAGATGT TGAACTGGTACTCGTGGCACCACAAGCTACGTATCACGATGAGGAGCTTCATTTGTTCGA CGAGGACACGCCTGTTGAAACGATTCCTGACGAAATTTATGGTTGGGGAAATGGAGAGAA ACTTGTTAAATTAATCATGGAAAAATTGAGTCCTGTTGAGGCAGCTTAATGACAGATGAT CAACTTAATCAGATTTCCATGCAAATGCTGACATGCTCAGGGAATGCGAAGAAGATCTTG TCTGAGGTAATGAATGATATGAATTCAGGAGAAGGGGAAAACAATCTTGACTCAAAAATG GTTGTGGCCCATCAGTGGCTGGTTAAAGCACATAAATATCAAAATAAAGTGATCGCTGAA GCTGAAAGTATTCACTATTCCGTACTATTTACACACGCTCAAGATACACTCATGAACACT GAGACAATCGAATTTATTATTAAAAaGTTT ATCCCATTATTGAGAAACGCAAAATGAACG GATATCAGCGTCTTTCCCATGCGATTAACAGCATTCGCAATTGTTGATATCTGGCTGAAT TCTTACTGTATATAAGTTTTCCGAGTCTCACCTATGTTGAATTAAAATTCAATCTATCAT せっかく塩基配列を解読したのに、どこに何の機能があるのかわからない! 遺伝子コード領域の例 1 61 121 181 241 301 361 421 481 541 601 661 721 781 841 901 961 CGTATCACCGAGAGAAATAGAGGATATTATCGAATGAAAATTCGGTAGTATCCTTTTTtA GTGTAATCGCCCACAAACATTTATGAGCAGACGTCAGCAAAATCATAAATTGGTATATAT GCTATATTGAGCATTGGTATACAAAGATAAATGATCACAAGCTTAATAATACCAGCTCGT GGGAGATATAATCTAATAATATCCTCTTGTGGTATATATAAAAATATAGTATGCTGTACT GGTAAATATAAATTACTTGGGAGTGGAAAAAATGAAAAAAGTATTGTTGATTTGTGAAAA CGGCATTTCTAGTCATTACCTGGTTAAAGCAGCACAACCTTTTATTGAATTGTATGATGC TCACATTCAGTTAAATGCAACTGACATTGATCATGCAGCTTCCTATTCAGATAAAGATGT TGAACTGGTACTCGTGGCACCACAAGCTACGTATCACGATGAGGAGCTTCATTTGTTCGA CGAGGACACGCCTGTTGAAACGATTCCTGACGAAATTTATGGTTGGGGAAATGGAGAGAA ACTTGTTAAATTAATCATGGAAAAATTGAGTCCTGTTGAGGCAGCTTAATGACAGATGAT CAACTTAATCAGATTTCCATGCAAATGCTGACATGCTCAGGGAATGCGAAGAAGATCTTG TCTGAGGTAATGAATGATATGAATTCAGGAGAAGGGGAAAACAATCTTGACTCAAAAATG GTTGTGGCCCATCAGTGGCTGGTTAAAGCACATAAATATCAAAATAAAGTGATCGCTGAA GCTGAAAGTATTCACTATTCCGTACTATTTACACACGCTCAAGATACACTCATGAACACT GAGACAATCGAATTTATTATTAAAAaGTTT ATCCCATTATTGAGAAACGCAAAATGAACG GATATCAGCGTCTTTCCCATGCGATTAACAGCATTCGCAATTGTTGATATCTGGCTGAAT TCTTACTGTATATAAGTTTTCCGAGTCTCACCTATGTTGAATTAAAATTCAATCTATCAT 開始コドン:ATG (CTG,GTG,TTG) 終始コドン:TAA,TAG,TGA 遺伝子の予測は目視では不可能に近い 遺伝子予測 原核生物 ・ 遺伝子の密度が高く、遺伝子はイントロン部分をもたない ・ 予測は比較的容易 真核生物 ・ 遺伝子の密度が低く、遺伝子はイントロン部分をもち、複雑な構造をしている ・ 予測は困難 (原核生物の場合) 1. 6フレーム翻訳による予測 開始コドンから終止コドンまでを読み枠(ORF)として定義。 2. 統計的手法を用いた遺伝子の予測 遺伝子領域にはある程度の塩基配列の規則性が存在する。 音声認識の分野で用いられている隠れマルコフモデルの適用。 遺伝子予測.1 3通りのフレームで翻訳して、途中に終始コドンを含まないできるだけ長いORFを探す。 (本当は逆方向も含めて6フレームの翻訳が必要) ----+----9----+----200--+----1----+----2----+----3----+----4----+----5----+----6----+----7----+----8----+----9----+----300 GGGAGATATAATCTAATAATATCCTCTTGTGGTATATATAAAAATATAGTATGCTGTACTGGTAAATATAAATTACTTGGGAGTGGAAAAAATGAAAAAAGTATTGTTGATTTGTGAAAA GRYNLIISSCGIYKNIVCCTGKYKLLGSGKNEKSIVDL* K GDII** YPLVVYIKI* YAVL VNINYLGVEKM KKVLLICEN EI* SNNILLWYI* KYSMLYW* I* ITWEWKK* KKYC* FVKT ----+----1----+----2----+----3----+----4----+----5----+----6----+----7----+----8----+----9----+----400--+----1----+----2 CGGCATTTCTAGTCATTACCTGGTTAAAGCAGCACAACCTTTTATTGAATTGTATGATGCTCACATTCAGTTAAATGCAACTGACATTGATCATGCAGCTTCCTATTCAGATAAAGATGT RHF* SLPG* SSTTFY* IV* CSHSVKCN* H* SCSFLFR* RC GISSHYLVKAAQPFIELYDAHIQLNATDIDHAASYSDKDV AFLVITWLKQHNLLLNCMMLTFS* MQLTLIMQLPIQIKML ----+----3----+----4----+----5----+----6----+----7----+----8----+----9----+----500--+----1----+----2----+----3----+----4 TGAACTGGTACTCGTGGCACCACAAGCTACGTATCACGATGAGGAGCTTCATTTGTTCGACGAGGACACGCCTGTTGAAACGATTCCTGACGAAATTTATGGTTGGGGAAATGGAGAGAA * TGTRGTTSYVSR* GASFVRRGHAC* NDS* RNLWLGKWRE ELVLVAPQATYHDEELHLFDEDTPVETIPDEIYGWGNGEK NWYSWHHKLRITMRSFICSTRTRLLKRFLTKFMVGEMERN ----+----5----+----6----+----7----+----8----+----9----+----600 ACTTGTTAAATTAATCATGGAAAAATTGAGTCCTGTTGAGGCAGCTTAATGACAGATGAT TC* INHGKIESC* GSLMTDD LVKLIMEKLSPVEAA** QM LLN* SWKN* VLLRQLNDR* 同じ領域に遺伝子の候補が複数出てきてしまうことがある。 開始コドンが不確定(ATGが複数現れたり、CTGやTTGが使われることもある)。 6フレーム翻訳による予測 原核生物の場合 GGA TGG 開始コドン ATG 二本鎖DNAは6種類の読み枠をもつ 順鎖 TAG TAA TGA 終止コドン 5’-AAGATGGAAAATATATTAGACCTGTGGAACCAAGCCCTTGCTCAACATTTTAG-3’ 3’-TTCTACCTTTTATATAATCTGGACACCTTGGTTCGGGAACGAGTTGTAAAATC-5’ GTA 開始コドン AGT 逆鎖 TGT (相補鎖) 終止コドン AAT TTG GAT 開始コドンから終止コドンまでをORFとして予測 ORFを探したときに得られる典型的な予測結果 遺伝子の候補とする 遺伝子としては みなさない より確からしい開始コドンの位置の推定 正確な開始コドンの3~10bp上流にはAとGに富むSD(Shine-Dalgarno) 配列が存在し、リボソームタンパク質が結合し、アミノ酸配列に翻訳される。 GCGGTGCTTATTGAAAGCTGATGTTAC ATTAGGAGGTGTGAUAATGTTTTAGGT TAGTCTACTTTACGATCTTGAGGTGTA どちらが正しい開始コドンか? SD配列を調べる GCGGTGCTTATTGAAAGCTGATGTTAC ATTAGGAGGTGTGAUAATGTTTTAGGT TAGTCTACTTTACGATCTTGAGGTGTA 正確な開始コドン SD配列 遺伝子の数が膨大なため、自動化を行いたい。 遺伝子予測.2 より正確な遺伝子予測のために Glimmer3(JohnsHopkinsUniversity) http://ccb.jhu.edu/software/glimmer/index.shtml http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi 原核生物用遺伝子予測ソフトウェアのひとつ。 モデル生物のゲノムから99%の遺伝子を予測できると言われている。 NCBIやTIGR等の国際データベースでゲノムのアノテーションに使われている。 ・longORF ・隠れマルコフモデルやコドン使用頻度によるORFの妥当性評価 ・リボソーム結合部位の予測 ・新規生物種に対しても、仮予測結果を学習して精度改善が可能 NCBIのWeb版Glimmerに、3ページ前のゲノム配列を貼り付けてみよう。 (先頭に >sequence等の”>”で始まる適当な配列名を書く必要がある。 配列内のスペースは消さなくてもよい) 統計的手法を用いた遺伝子予測 遺伝子領域にはある程度の塩基配列の規則性が存在する。 ・ コドンの使用頻度 ・ 連続したコドンの組み合わせ ・ 終止コドンの1つ前で多用されるコドンの傾向 遺伝子領域を統計的手法により予測することが可能 隠れマルコフモデルの適用 微生物ゲノム解析プログラム(GenomeGambler) 予測した遺伝子 6フレーム翻訳により予測された遺伝子 統計的手法により予測された遺伝子 遺伝子予測(真核生物) 遺伝子 エキソン イントロン エキソン AG↓GTAAGT スプライス部位を予測する必要がある。 原核生物よりも予測は困難。 PyPyPyPyPyPyNCAG↓ エキソンとイントロンの境界における特定の配列が存在するが、エキソンやイントロンの 中にも存在するため、正確な境界を特定することが困難。 統計的手法による遺伝子の予測 真核生物では、選択的スプライシング(alternative splicing)により、 異なるタンパク質が生成されることがある。 遺伝子予測(真核生物) (提案されている方法の一部) Genscan : HMMgene GrailII GeneParser 隠れマルコフモデル : 隠れマルコフモデル : ニューラルネットワーク : ニューラルネットワーク ・ 未知の遺伝子を予測する場合、予測精度は、60%程度。 ・ 複数のプログラムを用いて共通に予測される遺伝子は信頼度が高い。
© Copyright 2025 ExpyDoc