Medical Bioinformatics

VL Algorithmen und Datenstrukturen für Bioinformatik
WS2015/2016
Woche 1
(19400001)
Tim Conrad
AG Medical Bioinformatics
Institut für Mathematik & Informatik, Freie Universität Berlin
Einige Inhalte basieren auf Folien von Jones&Haake (RIT), Batzoglou (Stanford)
Die Themen heute
Verwaltung
1.
2.
3.
4.
5.
Team
Tutorien
Praktikum
Prüfungsleistungen
Vorlesung
Introduction
Tim Conrad, VL AlDaBi, WS2015/16
2
Das Team
• Tim Conrad
–
BSc/MSc Bioinformatik 2000-2005
–
Professor für Medizinische Bioinformatik (seit 12/2014)
–
Email: [email protected]
–
Sprechstunde Mo 15-16h, Arnimallee 6, Raum 137
• Thimo Wellner & Kathleen Gallo (VL)
–
Emails: [email protected], [email protected]
• Hannes Hauswedell, Johannes Röhr,
Jongkyu Kim (Praktikum)
−
Emails: { hannes.hauswedell | johannes.roehr | j.kim } @fu-berlin.de
Tim Conrad, VL AlDaBi, WS2015/16
3
Tutorien
• Termine
– Ü1: Di 08:00 (c.t.)
– Ü2: Di 12:00 (c.t.)
– Ü3: Do 08:00 (c.t.)
– Ort: Seminarraum 053 (Takustr. 9)
– Beginnt am 20.10.15
• Einteilung
− Bitte JETZT in die Listen eintragen.
Tim Conrad, VL AlDaBi, WS2015/16
4
Währenddessen…
Bitte auf den Kärtchen eintragen:
(1) Welche Aminosäuren sind hier abgebildet?
(2) Auf welche 2-3 Themen würden Sie in der
VL gerne einen Schwerpunkt legen?
Ü1: Di 08:00
Ü2: Di 12:00
Ü3: Di 16:00-18:00
Tim Conrad, VL AlDaBi, WS2015/16
5
Auflösung
Tim Conrad, VL AlDaBi, WS2015/16
6
Tutorien
• Nachbesprechung des VL-Inhaltes
• Wöchentliche Kurztests/Reviews
– Statt Übungszetteln
– 15 Minuten am Anfang des Tutoriums –
wer zu spät kommt, kann nicht mehr teilnehmen!
– Egal in welchem Tutorium teilgenommen wird
– 3 A-Fragen
– Verständnisfragen
– Müssen schriftlich beantwortet und abgegeben werden
– 3 B-Fragen
– „Für zu Hause“
– Besprechung im nächsten Tutorium
Tim Conrad, VL AlDaBi, WS2015/16
7
Tutorien
• Bewertung
− Die Fragen werden mit „+“/“0“/“-“ bewertet
− „+“ steht dabei für die perfekte Antwort , die der Musterlösung ähnlich ist
− Insgesamt 50% der A-Fragen müssen ausreichend korrekt („+“ oder „0“)
beantwortet werden
• Achtung: BONUS!
− Wird eine Antwort mit „+“ bewertet, zählt das einen Bonus-Punkt für die
Klausur
− Das heißt: in 14 Wochen Tutorium (15. wird „Review“) können bereits 42
Bonus-Punkte für die Klausur erreicht werden
− In der Klausur müssen 90 von 150 Punkten erreicht werden
Tim Conrad, VL AlDaBi, WS2015/16
8
Praktikum
• Findet VL-begleitend statt
–
Montags, 12-14h
–
Wöchentlich abwechselnd praktische und theoretische Veranstaltungen
–
Siehe: www.mi.fu-berlin.de/w/ABI/AlDaBiWS15Praktikum
• Aufgaben angelehnt an die „VL Blöcke“
–
Praktische Programmier-Aufgaben
–
6 Projekte (+1 freiwilliges)
• 2er Gruppen
–
Festzulegen vor der 1. Veranstaltung (per Wiki, s.o.)
–
Können danach nicht mehr geändert werden
Tim Conrad, VL AlDaBi, WS2015/16
9
Praktikum
• Ausgabe jeweils zu den praktischen
Veranstaltungen
• Abgabe nach zwei Wochen
–
Abzugeben (per SVN) ist der jeweilige Sourcecode
–
Ein Projekt ist bestanden, wenn 75% der automatisierten Tests
funktionieren
–
Achtung: Code muss auf einem Pool-Rechner compilieren
–
Hinweise zu Dateinamen und Ein- / Ausgabeformat beachten!
Tim Conrad, VL AlDaBi, WS2015/16
10
Praktikum
• Die eingereichten Programm werden zwar
automatisch getestet und dadurch bewertet,
• ABER jedeR TeilnehmerIn kann bei der
wöchentlichen „Lotterie“ gezogen werden und muss
dann in der Lage sein, die Lösung zu erklären und
Fragen zum Quelltext zu beantworten.
• Personen können mehrfach dran kommen.
• Personen die nie gezogen wurden, können zum
Ende des Praktikums "manuell gezogen" werden.
Tim Conrad, VL AlDaBi, WS2015/16
11
Prüfungsleistungen – wie bestehe ich?
• Wöchentliche Kurztests
– 50% der A-Fragen mit „+“ oder „0“ beantwortet
• Klausur
– 90 von 150 Punkten erreicht (inkl. max. 42 Bonuspunkte)
– Ähnliche Fragen wie A und B Fragen aus Tutorium
– Vermutlich in der letzten Semesterwoche
– Nachklausur vermutlich 2 Wochen später
• Praktikum
– Fristgerechte Abgabe und korrekte Lösung von 75% der Projekte
– Bestandene Lotterie-Interviews
• Teilnahme an VL wird empfohlen
Tim Conrad, VL AlDaBi, WS2015/16
12
Vorlesung
• Vorlesung wird auf deutsch gehalten
• Folien sind fast ausschließlich in englisch
• Folien werden zeitnah online verfügbar gemacht.
Eine Mitschrift des Folieninhaltes ist nicht nötig.
• Die Folien sind KEIN Skript. Hinzu kommen
Erklärungen, Tafelanschrieb, Beispiele, Hinweise,
Anekdoten, Overheadfolien, …
 Gehen Sie in die Vorlesung und
machen Sie sich Notizen.
VL Homepage:
• http://www.medicalbioinformatics.de/teaching
Tim Conrad, VL AlDaBi, WS2015/16
13
Feedback
• Antworten auf konkrete Fragen (z.B. Themen, Quiz)
• Hinweise zur Vorlesung (z.B. Fehler auf einer Folie)
•
Konkrete Fragen, die sie über diesen Termin im
Kurztest oder der Klausur stellen würden
• Gerne anonym
Tim Conrad, VL AlDaBi, WS2015/16
14
Soweit zum Administrativen
Fragen zur „Verwaltung“?
Tim Conrad, VL AlDaBi, WS2015/16
15
Introduction
Before we start…
Tim Conrad, VL AlDaBi, WS2015/16
16
The Context of Bioalgorithms
• It is important to keep in mind that a
mathematically perfect solution to an
ideally posed problem may not be the
most biologically relevant
• We need a flexibility, a willingness to
rephrase the question, to rethink the
process, to adapt and re-adapt
Tim Conrad, VL AlDaBi, WS2015/16
17
Expectations – Computing Background
• There are skills you should possess in
part already, but which will be
significantly enhanced by being
exercised in this course:
• identifying and clearly phrasing a computational problem
from a general biological question
• locating existing tools
• understanding the capabilities and limitations of such tools
• rapidly developing, testing and analyzing tools for the
solution of such problems if necessary
Tim Conrad, VL AlDaBi, WS2015/16
18
Computing Background – Specific skills
• Programming in a language such as Lisp, Perl,
Scheme, Java, C/C++, Python, etc.
• Static and dynamic data structures – arrays, lists,
trees, etc.
• Programming paradigms, especially recursion
• Rapid prototyping, careful version control
• Understanding of mathematics for:
• analysis
• proof
• modeling
Tim Conrad, VL AlDaBi, WS2015/16
19
Introduction
Why are we doing this?
Tim Conrad, VL AlDaBi, WS2015/16
20
Biological Motivation
• The fundamental building blocks of
life are proteins and nucleic acids
• 100,000 or so different proteins in a
human
•
Enzymes, structural proteins, transport molecules, antibodies
• Their properties and interactions are
what make us what we are
Tim Conrad, VL AlDaBi, WS2015/16
21
Biological Motivation
• Nucleic Acids
•
DNA and RNA
• Encode the information necessary to
build proteins
• Pass this information on from
generation to generation
Tim Conrad, VL AlDaBi, WS2015/16
22
Biological Motivation
• What are proteins?
• Polymers of amino acids (20 different)
• Sequence of these amino acids (primary structure)
determines the protein’s shape (secondary and tertiary
structures)
• Protein shape and chemical composition of it’s amino acids
determine protein function
Tim Conrad, VL AlDaBi, WS2015/16
23
So…in theory, we can infer protein
function if we know the protein sequence
Figure from W. Gilbert, Ph.D New Hampshire Biotech. Center
Tim Conrad, VL AlDaBi, WS2015/16
24
Text comparison?
Tim Conrad, VL AlDaBi, WS2015/16
25
Biological Motivation
• How do we find out protein sequence
so that we can understand structure,
function, and ultimately systems
biology?
• State-of-the-art
• Can sequence proteins directly
• this has been technically difficult but is getting better
• More often we determine protein sequence from the
nucleic acid sequences that encode them
Tim Conrad, VL AlDaBi, WS2015/16
26
The Central Dogma
• Hereditary information for a complete
individual stored in the DNA, which is selfreplicating, and is organized into units of
expression (genes)
• A gene is expressed in 2 steps:
•
•
DNA is transcribed into RNA
RNA is translated into protein
Tim Conrad, VL AlDaBi, WS2015/16
27
Using DNA Sequence to Discover Protein
Information
• Why do it?
• Availability of DNA sequence
information
• Rapid development of DNA sequencing technology
• Genomes of many different species have now been
sequenced
• Difficulties?
• Data sets are large
• Cellular pathway from DNA to RNA to protein can be
complicated
Tim Conrad, VL AlDaBi, WS2015/16
28
Some Genomes
• E. coli
•
4.6 x 106 bases
Approx. 4,000 genes
• Yeast 15 x 106 bases
•
Approx. 6,000 genes
• Smallest human chromosome 50 x
106 bases
• Human 3 x 109 bases
•
Approx. 30,000 genes ?
Tim Conrad, VL AlDaBi, WS2015/16
29
The Computational Approach
• The nucleotide sequence of a genome
contains all information necessary to
produce a functional organism
• Therefore, we should, in theory, be
able to duplicate this decoding using
computers
•
what do you think about this?
Tim Conrad, VL AlDaBi, WS2015/16
30
Why Use Computational Techniques?
• The datasets are too large to analyze
by hand
• Efficient algorithms are the only way
to perform the analyses that we need
to answer the biological questions
Tim Conrad, VL AlDaBi, WS2015/16
31
The Biologists View to Sequence Analysis
• Many common biological problems
can be answered through comparison
of DNA sequences
Tim Conrad, VL AlDaBi, WS2015/16
32
Some Biological Questions Answered
Through Sequence Analysis
• Determine if an interesting DNA sequence has
been seen by anyone else
• Find all the protein coding regions in a genome
• Infer the function of a new gene from a known
one by matching two amino acid sequences
• Measure the evolutionary distance between
species
• Predict local secondary structure of a peptide
sequence, predict protein conformation, predict
function
• Study protein families
Tim Conrad, VL AlDaBi, WS2015/16
33
The Computer Scientists’ View
• (Many) Problems on biological sequences are
string matching problems
• Operations on strings are standard in the CS
algorithm toolbox
• DNA is a string of A’s, T’s, G’s, C’s
Tim Conrad, VL AlDaBi, WS2015/16
34
Computer Scientists vs Biologists
Tim Conrad, VL AlDaBi, WS2015/16
Biologists vs computer scientists
• (almost) Everything is true or false in
computer science
• (almost) Nothing is ever true or false
in Biology
Tim Conrad, VL AlDaBi, WS2015/16
36
Biologists vs computer scientists
• Biologists seek to understand the
complicated, messy natural world
• Computer scientists strive to build
their own clean and organized virtual
world
Tim Conrad, VL AlDaBi, WS2015/16
37
Biologists vs computer scientists
• Computer scientists are obsessed with
being the first to invent or prove
something
• Biologists are obsessed with being the
first to discover something
Tim Conrad, VL AlDaBi, WS2015/16
38
But:
both disciplines “need” each other
… bioinformatics?
Tim Conrad, VL AlDaBi, WS2015/16
What is bioinformatics?
National Center for Biotechnology
Information (NCBI):
[Bioinformatics is] the field of science in which biology,
computer science, and information technology merge to
form a single discipline. The ultimate goal of the field is to
enable the discovery of new biological insights as
well as to create a global perspective from which unifying
principles in biology can be discerned.
Tim Conrad, VL AlDaBi, WS2015/16
40
Biology
Molecular Biology
Chemistry
Medicine
Bioinformatics
Mathematics
Statistics
Physics
Computer Science
Informatics
Tim Conrad, VL AlDaBi, WS2015/16
41
Mehr Informationen im Internet unter
medicalbioinformatics.de/teaching
Tim Conrad
AG Medical Bioinformatics
www.medicalbioinformatics.de
Weitere
Fragen