C HARITÉ / H UMBOLDT U NIVERSITÄT ZU B ERLIN I NSTITUTE FOR T HEORETICAL B IOLOGY www.sys-bio.net/teaching Prof. Hanspeter Herzel Prof. Nils Blüthgen Dr. Ralf Steuer Christoph Schmal, Manuela Benary Institute for Theoretical Biology [email protected] [email protected] [email protected] [email protected] [email protected] B IOINFORMATIK SS 2015 Gib deine Lösung bitte am 27.04. in der Vorlesung ab. Alternativ kannst du die Lösung auch per E-Mail an [email protected] schicken. 1. Sequenzstatistik III Wie groß ist die Wahrscheinlichkeit das Motiv ANRCTGSC in einer Bernoulli-Sequenz (p i = 1/4 für i ∈ {A,C,G,T}) zu finden? Wie viele dieser Motive können wir in 100 kb erwarten? Wie groß ist die Standardabweichung? Hinweis: Benutzt die IUPAC Nukleinsäure-Nomenklatur 2. Positional weight matrix Transkriptionsfaktorbindestellen für einen Transkriptionsfaktor sind normalerweise leicht variabel in der Sequenz. Mögliche Bindestellen werden aligned, was die Berechnung einer Position Weight Matrix (PWM) erlaubt. Mit PWMs kann unter anderem das Auftreten von neuen Bindestellen und deren Bindungsenergie für den Transkriptionsfaktor vorhergesagt werden. Hier ein Beispiel für ein Bindestellen-Alignment: site 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 alignment position 1 2 3 4 5 6 7 T C G G G G C G G G T G G T A T T C T T C T T A G T T C A G C A G G G G G G C C G G A G G T T G A G T G T C A A A T A C T A A A A G A A A A T A T T A C A G T C C G A A A C T G G T T C T C T T T T T T A A T T A Die Tabelle kann auch als Text-Datei heruntergeladen werden unter: https://itb.biologie.hu-berlin.de/~schmal/teaching/alignment_table.txt C HARITÉ / H UMBOLDT U NIVERSITÄT ZU B ERLIN I NSTITUTE FOR T HEORETICAL B IOLOGY 1. Berechne aus dem Alignment die Position Count Matrix (PCM). 2. Berechne mit Hilfe der PCM die Position Weight Matrix (PWM) mit den Einträgen Wi j bei einem G+C-Gehalt von 40 %. Hinweis: Vor der Berechnung, addiere bitte eine Eins (pseudo-count) auf jede Position der PCM und aktualisiere N dementsprechend. Warum muss dies gemacht werden (Stichwort log2 0)? 3. Was bedeutet ein positiver Matrix-Eintrag Wi j für einen Buchstaben i an der Position j ? Wie könnte demnach das Gewicht einer neuen Bindestelle biologisch interpretiert werden? 4. Wie könnte eine mögliche Konsensussequenz aussehen. 5. Berechne die Gewichte folgender mutmaßlicher Bindestellen: (a) GTGGATT (b) AATGAGG (c) AGTGGAG Welchen cut-off-Wert würdest du vorschlagen und warum? Welche der drei Sequenzen könnte(n) demzufolge als mögliche Bindestelle(n) gelten? 6. Schlage eine hypothetische Bindestelle mit einem hohen Score vor. 7. Erzeuge ein Sequenz-Logo für die PWM. Benutze dabei WebLogo: http://weblogo.threeplusone.com/ 3. Einführung in R 1. Eine kurze Einführung zu R findet ihr unter anderem unter: http://www.nature.com/news/programming-tools-adventures-with-r-1.16609 2. Ladet euch R sowie die Entwicklungsumgebung RStudio herunter: http://cran.rstudio.com/ http://www.rstudio.com/products/rstudio/download/ 3. Erste Schritte in R lassen sich hervorragend über Online-Kurse erlernen, z.B. unter: https://www.datacamp.com/courses/free-introduction-to-r/ https://www.coursera.org/course/rprog/ 4. Führe folgende Operationen in der R-Konsole aus: (a) 1 + 1 (d) sqrt(9) (b) 1 + ’1’ (e) sqrt(-9) (c) c(1, ’1’) (f) sqrt(-9+0i) In welchen Fällen kommt es zu einer Fehlermeldung und warum?
© Copyright 2024 ExpyDoc