生命情報解析 第2回 シグナル配列の統計解析 慶應義塾大学先端生命科学研究所 今日の話は… • 一本だけの配列では何も分からないけど… catgagctgatgctagtcgatgtgctag • 複数の配列があれば何か見えてくる! catgagctgatgctagtcgatgtgctag tagctagtgatagtcagtagctatacga agcatgtgaatgctgtgatgctatgtcg catcgatcgtgaagtcagtcgtagtata 核酸配列やアミノ酸配列中には 様々なシグナルが存在する • 開始コドン、終止コドン • 翻訳開始シグナル(SD, Kozak) • プロモータ配列 • タンパクのモチーフ シグナル配列を見つけるに は? 共通の生命現象に関わる配列を並べれば、シグナルが見えてくる!? 生体分子 塩基配列 アミノ酸配列 コンセンサス配列 … 共通配列、保存された配列 遺伝子発現のプロセス DNA ATG 転写 mRNA AUG 翻訳 タンパク質 境界領域に現れる塩基配列シグナル DNAに結合するタンパク質 RNAポリメラーゼ TATA プロモーター 遺伝子 遺伝子の発現を制御する配列 リボソーム 5‘ 開始コドン AUG P P P Shine-Dalgarno配列 3‘ リボソーム Methionine fMet-tRNAf 16S rRNA AUUCCUCC mRNA AUG 開始コドン Shine-Dalgarno sequence AGGAGG 16S rRNAの3‘末端はShine-Dalgarno配列と 対合する 大腸菌開始コドン周辺の配列 同一の反応に関わる配列を並べれば、シグナルが見えてくる!? 上流配列 開始コドン コード領域 ttacagagtacacaacatcc aaggtaacgaggtaacaacc atggaagttaggagtctgac cacgagtactggaaaactaa aatgataaaaggagtaacct atttcctgcaaggactggat gtttaaagagaaatactatc atg atg atg atg gtg atg atg aaacgcatta cgagtgttga gttaaagttt aaactctaca aaaaagatgc ctgattctta acggacaaat 機能注釈 [thr operon leader peptide:thrL] [aspartokinase I] [homoserine kinase:thrB] [threonine synthase:thrC] [hypothetical protein:b0005] [hypothetical protein:yaaA] [transaldolase B:talB] シグナル配列パターンが曖昧 へリックス・ループ・へリック スの例 YNP2_CAEEL_6-57 Q9W7E6_51-103 O55208_60-112 ASH3_MOUSE_94-145 O76488_77-138 AST5_DROME_27-91 AST4_DROME_102-163 1 AKR..NARER KREMVNAKER RRRVANAKER IRK.RNERER ARR..NARER IRR..NARER QRR..NARER YNP2_CAEEL_6-57 Q9W7E6_51-103 O55208_60-112 ASH3_MOUSE_94-145 O76488_77-138 AST5_DROME_27-91 AST4_DROME_102-163 51 .......... .......... .......... .......... .......... .......... .......... TRVHTVNQAF LRIRNLNTMF ERIKNLNRGF QRVKCVNEGY NRVKQVNDGF NRVKQVNNGF NRVKQVNNSF .........Q .......... .......... .......... ....GGARRG ..GRRGIGPG ....KGGGRG .LVLKQHLPS .SRLKRMLPL .AKLKALVPF .ARLRRHLPE .NALRRHLPA .SQLRQHIPA .ARLRQHIPQ FTKR.VSKLR PDKK.PSKVD QSRK.PSKVD YLEKRLSKVE SGKK.LSKVD ANKK.LSKVS PHKK.ISKVD これも曖昧 .LR....... MQ........ LP........ .D........ .SVVAALS.. .AVIADLSN. .SIITDLT.. 50 .......... .......... .......... .......... .......... .......... .......... ILNAAITYID TLKAATEYIR ILKGATEYIQ TLRAAIKYIS TLRMVVEYIR TLKMAVEYIR TLRIAVEYIR 93 TLL LLL ILG YLQ YLQ RLQ RLQ シグナル配列の解析 • シグナル配列をどのように表現するか? • シグナル配列の強さ(保存性)をどのように 測るか? • シグナル配列の有意性をどのように測るか? • シグナル配列をどのように発見するか? 大腸菌の開始コドン周辺の塩基の分布(%) -27 -26 -25 -24 -23 -22 -21 -20 -19 -18 -17 -16 A 27.6 28.9 28.4 27.2 28.5 30.4 27.9 31.0 31.4 29.0 32.3 33.3 T 28.3 26.7 29.8 29.4 27.1 28.7 32.3 27.5 30.0 30.8 27.6 28.9 C 22.9 23.0 22.8 23.7 23.2 22.2 21.9 21.2 21.6 21.5 20.1 20.5 G 21.2 21.5 18.9 19.7 21.2 18.7 18.0 20.3 17.0 18.7 19.9 17.3 -15 -14 -13 -12 -11 -10 -9 -8 -7 -6 -5 -4 A 32.4 34.1 35.5 33.0 36.1 34.0 27.7 34.8 36.6 31.5 33.7 35.5 T 28.6 24.0 24.2 21.9 13.5 14.8 14.5 14.6 20.4 26.2 25.1 24.9 C 19.6 19.2 18.4 16.0 14.7 10.5 9.8 11.5 13.3 16.7 19.0 21.6 G 19.4 22.8 21.9 29.1 35.7 40.7 48.0 39.1 29.7 25.6 22.1 18.0 -3 -2 -1 0 1 2 3 4 5 6 7 8 A 38.4 26.6 29.3 83.0 0.0 0.0 46.4 34.1 30.2 40.4 38.5 29.4 T 19.4 30.8 29.6 3.1 100.0 0.0 14.4 21.6 31.0 16.5 27.1 28.0 C 18.5 25.6 25.0 0.0 0.0 0.0 18.0 27.3 19.2 20.2 19.9 19.9 G 23.8 17.0 16.1 13.9 0.0 100.0 21.2 16.9 19.6 22.9 14.4 22.7 塩基の偏りの程度は どのように測ればよいか? • ある位置にはAしか出現しない … 1種類 の塩基 • ある位置にはA,Cしか出現しない … 2種 類の塩基 • ある位置にはA,C,G,Tが出現する … 4種 類の塩基 種類数が偏りを表す指標になる? 情報の種類数が同じでも… • ある位置にAが10個、Gが10個 – 2種類 • ある位置にAが15個、Gが5個 – 2種類 両方とも同じでいいのか? 情報理論による種類数の定式化 • 種類数を情報量で表す • 種類数という概念の拡張が容易 • 情報理論的な解析・考察が可能 • 単位はビット ビット(Bit)とは? http://en.wikipedia.org/wiki/Bit • ほとんどのデジタルコンピュータが扱 うデータの最小単位。英語の binary digit (2進数字)の略であり、2進数の1 桁のこと。 • 1ビットを用いて2通りの状態を表現で きる。これらの2状態は一般に“0”、“1” と表記される。 • 1 Byte = 8 Bits 種類数と情報量の関係 • 1ビットで2種類の情報を表せる (ex. 0 = ‘A’, 1 = ‘C’) • 2ビットで4種類の情報を表せる (ex. 00 = ‘A’, 01 = ‘C’, 10 = ‘G’, 11 = ‘T’) • nビットで2nの情報を表すことができる • n種類の情報を表すのに必要なビット数は log2n • 1Mバイトの画像とは… – 1M Byte = 1024 × 1024 × 8 Bits = 8,388,608 Bits – 28388608 = 4.26×102525222通りの可能な表現方法のう ちの1つ 塩基の偏りの程度を情報量で表す • • • • 2種類の塩基を表すには、1ビット必要 4種類の塩基を表すには、2ビット必要 塩基が1種類だけなら、ビットは不要 n種類の塩基を表すにはlog2nビット必要 各々の塩基の頻度が均等にP存在するなら、P=1/nより -log2P ビット 必要となる 情報の種類数が同じでも…(2) • ある位置にAが10個、Gが10個 – 2種類 – 1 ビット • ある位置にAが15個、Gが5個 – 2種類 – 1ビット 両方とも同じでいいのか? 新たな情報量の概念の導入 • 情報量が多いと感じられるのはどっ ち? – 北海道に大雪 – 沖縄に大雪 • 対象となる事象が起こる確率Pが低いほ ど、起こったときに得られる情報量は 大きい 情報量の定義 ハートレイの情報量 生起確率Pの事象が起こったという通報があったとき、 得られる情報量は log 2 P ゲノム上のある領域ではA,C,G,Tが均等に観測されることが 期待されるとき、その領域でAが観測されたときに得られる情報量は -log21/4 = 2 ビット 情報量の加法的性質 タンパク質上のアミノ酸が観測される確率は 20アミノ酸について同率だと仮定する。 • Argだと判明したときに得られる情報量は、 -log 1/20 … (1) • 塩基性(Lys,Arg or His)だと判明したときに得られる情 報量は、 -log 3/20 … (2) • 上の情報を持っている状態でさらにArgだと判明した ときに得られる情報量は、 -log 1/3 … (3) • (1) = (2) + (3)が成立する。 期待値 • 確率変数の値とその生起確率の掛け算の総和 を期待値という • サイコロの目の期待値は、 1 1 1 1 1 1 1 2 3 4 5 6 3.5 6 6 6 6 6 6 • 1枚200円の宝くじ、1000,000人に一人の割 合で一千万円 999999 1 0 10000000 10 1000000 1000000 999999 1 200 10000000 189 .99 1000000 1000000 情報量の期待値ーエントロピー 4つの事象の生起確率が P1,P2,P3,P4 なら、その情報量の期待値は、 -P1log2P1 –P2log2P2 –P3log2P3 –P4log2P4 =-ΣPi log Pi 但しP1+P2+P3+P4=1 塩基の偏りの程度を エントロピーで測る エントロピー H P log i a,c,g, t i 2 Pi 但しPiは塩基iの頻度(0≦ Pi≦1), 0log0 = 0と定義 •0≦H≦2 • 塩基の偏りが強い → Hが0に近づく • 塩基の偏りが弱い → Hが2に近づく A,C,G,Tが1/4ずつなら A,Cが1/2, C,Gが0なら 全てAなら H=2 H=1 H=0 演習問題 Aが50%、C、Gが25%、Tが0%のときの エントロピーを求めよ。 大腸菌開始コドン周辺の 塩基のエントロピー 2.5 エントロピー 2 1.5 1 0.5 0 -100 -50 0 開始コドンからの相対位置 50 100 シグナル配列が見られるところで、値が 下がるというのは感覚に合わない? • Schneider T et al. 1986はRseqを導入した Rseq = エントロピーの最大値 – 対象位置のエントロピー • 塩基の偏りが強い → Rseqが2に近づく • 塩基の偏りが弱い → Rseqが0に近づく • 不確定性の減少の度合い 最大エントロピーから 対象位置のエントロピーを引く と… 2.5 2 R seq 1.5 1 0.5 0 -100 0 開始コドンからの相対位置 100 配列ロゴ http://www.lecb.ncifcrf.gov/~toms/gallery/ribo.logo.gif 配列ロゴの作成方法 • 合計の高さ = Rseq • 各塩基iの高さ = Pi・Rseq • どの塩基が保存されているのかを観察 できる
© Copyright 2025 ExpyDoc