CHARITÉ / HUMBOLDT UNIVERSITÄT ZU BERLIN

C HARITÉ / H UMBOLDT U NIVERSITÄT ZU B ERLIN
I NSTITUTE FOR T HEORETICAL B IOLOGY
www.sys-bio.net/teaching
Prof. Hanspeter Herzel
Prof. Nils Blüthgen
Dr. Ralf Steuer
Christoph Schmal, Manuela Benary
Institute for Theoretical Biology
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
B IOINFORMATIK SS 2015
Gib deine Lösung bitte am 27.04. in der Vorlesung ab. Alternativ kannst du die Lösung auch
per E-Mail an [email protected] schicken.
1. Sequenzstatistik III
Wie groß ist die Wahrscheinlichkeit das Motiv ANRCTGSC in einer Bernoulli-Sequenz (p i = 1/4
für i ∈ {A,C,G,T}) zu finden? Wie viele dieser Motive können wir in 100 kb erwarten? Wie groß
ist die Standardabweichung?
Hinweis: Benutzt die IUPAC Nukleinsäure-Nomenklatur
2. Positional weight matrix
Transkriptionsfaktorbindestellen für einen Transkriptionsfaktor sind normalerweise leicht variabel in der Sequenz. Mögliche Bindestellen werden aligned, was die Berechnung einer Position Weight Matrix (PWM) erlaubt. Mit PWMs kann unter anderem das Auftreten von neuen
Bindestellen und deren Bindungsenergie für den Transkriptionsfaktor vorhergesagt werden.
Hier ein Beispiel für ein Bindestellen-Alignment:
site
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
alignment position
1 2 3 4 5 6 7
T
C
G
G
G
G
C
G
G
G
T
G
G
T
A
T
T
C
T
T
C
T
T
A
G
T
T
C
A
G
C
A
G
G
G
G
G
G
C
C
G
G
A
G
G
T
T
G
A
G
T
G
T
C
A
A
A
T
A
C
T
A
A
A
A
G
A
A
A
A
T
A
T
T
A
C
A
G
T
C
C
G
A
A
A
C
T
G
G
T
T
C
T
C
T
T
T
T
T
T
A
A
T
T
A
Die Tabelle kann auch als Text-Datei heruntergeladen werden unter:
https://itb.biologie.hu-berlin.de/~schmal/teaching/alignment_table.txt
C HARITÉ / H UMBOLDT U NIVERSITÄT ZU B ERLIN
I NSTITUTE FOR T HEORETICAL B IOLOGY
1. Berechne aus dem Alignment die Position Count Matrix (PCM).
2. Berechne mit Hilfe der PCM die Position Weight Matrix (PWM) mit den Einträgen Wi j
bei einem G+C-Gehalt von 40 %.
Hinweis: Vor der Berechnung, addiere bitte eine Eins (pseudo-count) auf jede Position der PCM und aktualisiere N dementsprechend. Warum muss dies gemacht werden
(Stichwort log2 0)?
3. Was bedeutet ein positiver Matrix-Eintrag Wi j für einen Buchstaben i an der Position
j ? Wie könnte demnach das Gewicht einer neuen Bindestelle biologisch interpretiert
werden?
4. Wie könnte eine mögliche Konsensussequenz aussehen.
5. Berechne die Gewichte folgender mutmaßlicher Bindestellen:
(a) GTGGATT
(b) AATGAGG
(c) AGTGGAG
Welchen cut-off-Wert würdest du vorschlagen und warum? Welche der drei Sequenzen
könnte(n) demzufolge als mögliche Bindestelle(n) gelten?
6. Schlage eine hypothetische Bindestelle mit einem hohen Score vor.
7. Erzeuge ein Sequenz-Logo für die PWM. Benutze dabei WebLogo:
http://weblogo.threeplusone.com/
3. Einführung in R
1. Eine kurze Einführung zu R findet ihr unter anderem unter:
http://www.nature.com/news/programming-tools-adventures-with-r-1.16609
2. Ladet euch R sowie die Entwicklungsumgebung RStudio herunter:
http://cran.rstudio.com/
http://www.rstudio.com/products/rstudio/download/
3. Erste Schritte in R lassen sich hervorragend über Online-Kurse erlernen, z.B. unter:
https://www.datacamp.com/courses/free-introduction-to-r/
https://www.coursera.org/course/rprog/
4. Führe folgende Operationen in der R-Konsole aus:
(a) 1 + 1
(d) sqrt(9)
(b) 1 + ’1’
(e) sqrt(-9)
(c) c(1, ’1’)
(f) sqrt(-9+0i)
In welchen Fällen kommt es zu einer Fehlermeldung und warum?