PowerPoint プレゼンテーション - SFC Bio | Systems

生命情報解析 第2回
シグナル配列の統計解析
慶應義塾大学先端生命科学研究所
今日の話は…
• 一本だけの配列では何も分からないけど…
catgagctgatgctagtcgatgtgctag
• 複数の配列があれば何か見えてくる!
catgagctgatgctagtcgatgtgctag
tagctagtgatagtcagtagctatacga
agcatgtgaatgctgtgatgctatgtcg
catcgatcgtgaagtcagtcgtagtata
核酸配列やアミノ酸配列中には
様々なシグナルが存在する
• 開始コドン、終止コドン
• 翻訳開始シグナル(SD, Kozak)
• プロモータ配列
• タンパクのモチーフ
シグナル配列を見つけるに
は?
共通の生命現象に関わる配列を並べれば、シグナルが見えてくる!?
生体分子
塩基配列
アミノ酸配列
コンセンサス配列 … 共通配列、保存された配列
遺伝子発現のプロセス
DNA
ATG
転写
mRNA
AUG
翻訳
タンパク質
境界領域に現れる塩基配列シグナル
DNAに結合するタンパク質
RNAポリメラーゼ
TATA
プロモーター
遺伝子
遺伝子の発現を制御する配列
リボソーム
5‘
開始コドン
AUG
P P P
Shine-Dalgarno配列
3‘
リボソーム
Methionine
fMet-tRNAf
16S rRNA
AUUCCUCC
mRNA
AUG
開始コドン
Shine-Dalgarno
sequence
AGGAGG
16S rRNAの3‘末端はShine-Dalgarno配列と
対合する
大腸菌開始コドン周辺の配列
同一の反応に関わる配列を並べれば、シグナルが見えてくる!?
上流配列
開始コドン コード領域
ttacagagtacacaacatcc
aaggtaacgaggtaacaacc
atggaagttaggagtctgac
cacgagtactggaaaactaa
aatgataaaaggagtaacct
atttcctgcaaggactggat
gtttaaagagaaatactatc
atg
atg
atg
atg
gtg
atg
atg
aaacgcatta
cgagtgttga
gttaaagttt
aaactctaca
aaaaagatgc
ctgattctta
acggacaaat
機能注釈
[thr operon leader peptide:thrL]
[aspartokinase I]
[homoserine kinase:thrB]
[threonine synthase:thrC]
[hypothetical protein:b0005]
[hypothetical protein:yaaA]
[transaldolase B:talB]
シグナル配列パターンが曖昧
へリックス・ループ・へリック
スの例
YNP2_CAEEL_6-57
Q9W7E6_51-103
O55208_60-112
ASH3_MOUSE_94-145
O76488_77-138
AST5_DROME_27-91
AST4_DROME_102-163
1
AKR..NARER
KREMVNAKER
RRRVANAKER
IRK.RNERER
ARR..NARER
IRR..NARER
QRR..NARER
YNP2_CAEEL_6-57
Q9W7E6_51-103
O55208_60-112
ASH3_MOUSE_94-145
O76488_77-138
AST5_DROME_27-91
AST4_DROME_102-163
51
..........
..........
..........
..........
..........
..........
..........
TRVHTVNQAF
LRIRNLNTMF
ERIKNLNRGF
QRVKCVNEGY
NRVKQVNDGF
NRVKQVNNGF
NRVKQVNNSF
.........Q
..........
..........
..........
....GGARRG
..GRRGIGPG
....KGGGRG
.LVLKQHLPS
.SRLKRMLPL
.AKLKALVPF
.ARLRRHLPE
.NALRRHLPA
.SQLRQHIPA
.ARLRQHIPQ
FTKR.VSKLR
PDKK.PSKVD
QSRK.PSKVD
YLEKRLSKVE
SGKK.LSKVD
ANKK.LSKVS
PHKK.ISKVD
これも曖昧
.LR.......
MQ........
LP........
.D........
.SVVAALS..
.AVIADLSN.
.SIITDLT..
50
..........
..........
..........
..........
..........
..........
..........
ILNAAITYID
TLKAATEYIR
ILKGATEYIQ
TLRAAIKYIS
TLRMVVEYIR
TLKMAVEYIR
TLRIAVEYIR
93
TLL
LLL
ILG
YLQ
YLQ
RLQ
RLQ
シグナル配列の解析
• シグナル配列をどのように表現するか?
• シグナル配列の強さ(保存性)をどのように
測るか?
• シグナル配列の有意性をどのように測るか?
• シグナル配列をどのように発見するか?
大腸菌の開始コドン周辺の塩基の分布(%)
-27
-26
-25
-24
-23
-22
-21
-20
-19
-18
-17
-16
A
27.6
28.9
28.4
27.2
28.5
30.4
27.9
31.0
31.4
29.0
32.3
33.3
T
28.3
26.7
29.8
29.4
27.1
28.7
32.3
27.5
30.0
30.8
27.6
28.9
C
22.9
23.0
22.8
23.7
23.2
22.2
21.9
21.2
21.6
21.5
20.1
20.5
G
21.2
21.5
18.9
19.7
21.2
18.7
18.0
20.3
17.0
18.7
19.9
17.3
-15
-14
-13
-12
-11
-10
-9
-8
-7
-6
-5
-4
A
32.4
34.1
35.5
33.0
36.1
34.0
27.7
34.8
36.6
31.5
33.7
35.5
T
28.6
24.0
24.2
21.9
13.5
14.8
14.5
14.6
20.4
26.2
25.1
24.9
C
19.6
19.2
18.4
16.0
14.7
10.5
9.8
11.5
13.3
16.7
19.0
21.6
G
19.4
22.8
21.9
29.1
35.7
40.7
48.0
39.1
29.7
25.6
22.1
18.0
-3
-2
-1
0
1
2
3
4
5
6
7
8
A
38.4
26.6
29.3
83.0
0.0
0.0
46.4
34.1
30.2
40.4
38.5
29.4
T
19.4
30.8
29.6
3.1
100.0
0.0
14.4
21.6
31.0
16.5
27.1
28.0
C
18.5
25.6
25.0
0.0
0.0
0.0
18.0
27.3
19.2
20.2
19.9
19.9
G
23.8
17.0
16.1
13.9
0.0
100.0
21.2
16.9
19.6
22.9
14.4
22.7
塩基の偏りの程度は
どのように測ればよいか?
• ある位置にはAしか出現しない … 1種類
の塩基
• ある位置にはA,Cしか出現しない … 2種
類の塩基
• ある位置にはA,C,G,Tが出現する … 4種
類の塩基
種類数が偏りを表す指標になる?
情報の種類数が同じでも…
• ある位置にAが10個、Gが10個
– 2種類
• ある位置にAが15個、Gが5個
– 2種類
両方とも同じでいいのか?
情報理論による種類数の定式化
• 種類数を情報量で表す
• 種類数という概念の拡張が容易
• 情報理論的な解析・考察が可能
• 単位はビット
ビット(Bit)とは?
http://en.wikipedia.org/wiki/Bit
• ほとんどのデジタルコンピュータが扱
うデータの最小単位。英語の binary
digit (2進数字)の略であり、2進数の1
桁のこと。
• 1ビットを用いて2通りの状態を表現で
きる。これらの2状態は一般に“0”、“1”
と表記される。
• 1 Byte = 8 Bits
種類数と情報量の関係
• 1ビットで2種類の情報を表せる (ex. 0 = ‘A’, 1
= ‘C’)
• 2ビットで4種類の情報を表せる (ex. 00 = ‘A’,
01 = ‘C’, 10 = ‘G’, 11 = ‘T’)
• nビットで2nの情報を表すことができる
• n種類の情報を表すのに必要なビット数は
log2n
• 1Mバイトの画像とは…
– 1M Byte = 1024 × 1024 × 8 Bits = 8,388,608 Bits
– 28388608 = 4.26×102525222通りの可能な表現方法のう
ちの1つ
塩基の偏りの程度を情報量で表す
•
•
•
•
2種類の塩基を表すには、1ビット必要
4種類の塩基を表すには、2ビット必要
塩基が1種類だけなら、ビットは不要
n種類の塩基を表すにはlog2nビット必要
各々の塩基の頻度が均等にP存在するなら、P=1/nより
-log2P ビット
必要となる
情報の種類数が同じでも…(2)
• ある位置にAが10個、Gが10個
– 2種類
– 1 ビット
• ある位置にAが15個、Gが5個
– 2種類
– 1ビット
両方とも同じでいいのか?
新たな情報量の概念の導入
• 情報量が多いと感じられるのはどっ
ち?
– 北海道に大雪
– 沖縄に大雪
• 対象となる事象が起こる確率Pが低いほ
ど、起こったときに得られる情報量は
大きい
情報量の定義
ハートレイの情報量
生起確率Pの事象が起こったという通報があったとき、
得られる情報量は
log 2 P
ゲノム上のある領域ではA,C,G,Tが均等に観測されることが
期待されるとき、その領域でAが観測されたときに得られる情報量は

-log21/4 = 2 ビット
情報量の加法的性質
タンパク質上のアミノ酸が観測される確率は
20アミノ酸について同率だと仮定する。
• Argだと判明したときに得られる情報量は、
-log 1/20 … (1)
• 塩基性(Lys,Arg or His)だと判明したときに得られる情
報量は、
-log 3/20 … (2)
• 上の情報を持っている状態でさらにArgだと判明した
ときに得られる情報量は、
-log 1/3 … (3)
• (1) = (2) + (3)が成立する。
期待値
• 確率変数の値とその生起確率の掛け算の総和
を期待値という
• サイコロの目の期待値は、
1
1
1
1
1
1
1  2   3   4   5   6   3.5
6
6
6
6
6
6
• 1枚200円の宝くじ、1000,000人に一人の割
合で一千万円
999999
1
0
 10000000 
 10
1000000
1000000
999999
1
 200 
 10000000 
 189 .99
1000000
1000000
情報量の期待値ーエントロピー
4つの事象の生起確率が
P1,P2,P3,P4
なら、その情報量の期待値は、
-P1log2P1 –P2log2P2 –P3log2P3 –P4log2P4
=-ΣPi log Pi
但しP1+P2+P3+P4=1
塩基の偏りの程度を
エントロピーで測る
エントロピー H  
 P log
i a,c,g, t
i
2
Pi
但しPiは塩基iの頻度(0≦ Pi≦1), 0log0 = 0と定義
•0≦H≦2
• 塩基の偏りが強い → Hが0に近づく
• 塩基の偏りが弱い → Hが2に近づく
A,C,G,Tが1/4ずつなら
A,Cが1/2, C,Gが0なら
全てAなら
H=2
H=1
H=0
演習問題
Aが50%、C、Gが25%、Tが0%のときの
エントロピーを求めよ。
大腸菌開始コドン周辺の
塩基のエントロピー
2.5
エントロピー
2
1.5
1
0.5
0
-100
-50
0
開始コドンからの相対位置
50
100
シグナル配列が見られるところで、値が
下がるというのは感覚に合わない?
• Schneider T et al. 1986はRseqを導入した
Rseq = エントロピーの最大値 – 対象位置のエントロピー
• 塩基の偏りが強い → Rseqが2に近づく
• 塩基の偏りが弱い → Rseqが0に近づく
• 不確定性の減少の度合い
最大エントロピーから
対象位置のエントロピーを引く
と…
2.5
2
R seq
1.5
1
0.5
0
-100
0
開始コドンからの相対位置
100
配列ロゴ
http://www.lecb.ncifcrf.gov/~toms/gallery/ribo.logo.gif
配列ロゴの作成方法
• 合計の高さ = Rseq
• 各塩基iの高さ = Pi・Rseq
• どの塩基が保存されているのかを観察
できる