Lösung Übung 6

Grundlagen der Bioinformatik
Assignment 6:
Microarray Analysis
Ulf Leser, Yvonne Lichtblau
Aufgabe 1 - Lösung
Theorie zu k-Means Clustering (2P)
1.
Das Ergebnis des k-Means Clusterings hängt häufig von der
Initialisierung der Clustermittelpunkte ab. Entwerfe ein
Beispiel in welchem k-Means unterschiedliche Ergebnisse
abhängig von der Initialisierung der Clustermittelpunkte liefert.
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
2
Aufgabe 1 - Lösung
Theorie zu k-Means Clustering (2P)
1.
Das Ergebnis des k-Means Clusterings hängt häufig von der
Initialisierung der Clustermittelpunkte ab. Entwerfe ein
Beispiel in welchem k-Means unterschiedliche Ergebnisse
abhängig von der Initialisierung der Clustermittelpunkte liefert.
Mögliche Gründe für unterschiedliche Ergebisse abhängig
von der Initialisierung der Clustermittelpunkte:
* Schlechte Wahl von k
* Mehrere Cluster zentrieren sich in einem Cluster
* Es gibt keine klaren Cluster in den Daten
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
3
Aufgabe 1 - Lösung
Theorie zu k-Means Clustering (2P)
2.
Oft ist die richtige Anzahl der Cluster in biologischen
Szenarien unbekannt. Wie könnte man die optimale
Clusteranzahl (vielleicht graphisch) für einen gegebenen
Datensatz schätzen?
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
4
Aufgabe 1 - Lösung
Theorie zu k-Means Clustering (2P)
2.
Oft ist die richtige Anzahl der Cluster in biologischen
Szenarien unbekannt. Wie könnte man die optimale
Clusteranzahl (vielleicht graphisch) für einen gegebenen
Datensatz schätzen?
Möglichkeiten die Anzahl der Cluster in einen gegebenen
Datensatz zu schätzen:
* Visualisierung der Daten und anhand der Datenpunkte
Anzahl schätzen
* Hierarchichal Clustering als ersten Eindruck der
Clusteranzahl
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
5
Aufgabe 2.1 - Lösung
Einladen von Microarrays (2P)
Unter
http://www.ncbi.nlm.nih.gov/geo/qu
ery/acc.cgi?acc=GSE3678
werden Affymetrix Microarray Daten
(CEL-Files) zur Verfügung gestellt,
welche im Rahmen dieser Übung
analysiert werden. In diesem
Versuch wird ein Subtyp von
Schilddrüsenkrebs mit gesundem
Schilddrüsengewebe verglichen. Für
beide Samples wurden je 7 Chips
hybridisert.
Download Datasets
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
6
Übung 5 – Aufgabe 2.1
Einladen von Microarrays (2P)
Zu Beginn müssen die Daten in R geladen werden. Hierfür wird die Bibliothek
affy benötigt. Bibliotheken können mit dem Befehl library("name") geladen
werden. Zum Laden der Daten soll der Befehl ReadAffy verwendet werden (1P).
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
7
Übung 5 – Aufgabe 2.1
Einladen von Microarrays (2P)
Erzeuge einen Boxplot der Expressionswerte nachdem die
Expressionswerte log2-transformiert wurden (1P).
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
8
Übung 5 – Aufgabe 2.1
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
9
Wiederholung: Boxplots
•
Detect arrays with poor quality (outliers)
Identify arrays behaving different than others
Boxplot
Estimate the homogeneity of data
https://genevestigator.com
•
Array 14: overall higher signal intensity
Ulf Leser: Bioinformatics, Summer Semester 2013
10
Aufgabe 2.2 - Lösung
Normalisieren der Microarrays (3P)
Um die Vergleichbarkeit der Microarrays für weitere Analysen zu
gewährleisten, müssen die Microarrays erst normalisiert werden.
Eine für Affymetrix Daten häufig verwendete Methode nennt sich rma.
Diese baut auf der vorgestellten quantil-Normalisierung auf.
Suche die benötigte Funktion und führe eine rma Normalisierung auf den
Arrays durch (1.5P).
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
11
Indexes
Value
s
Wiederholung: Quantile normalization
+ differences between the separate values are retained
+ identical distribution for each array
- some data can be lost, especially in the lower signals
•
quantiles of each array are equal
→ Distribution of expression values on each microarray is made identical
Ulf Leser: Bioinformatics, Summer Semester 2013
12
Aufgabe 2.2 - Lösung
Normalisieren der Microarrays (3P)
Erzeuge nun einen weiteren Boxplot der normalisierten Daten.
Wichtig: Die log2 Transformation wird von rma selbst durchgeführt (1.5P).
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
13
Aufgabe 2.3 - Lösung
Suche nach differentiell exprimierten Genen (5P)
Bestimme für jedes Probeset den p-value (two-sided t test) und den
Foldchange. Lösen mittels apply oder for-Schleife (3P).
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
14
Wiederholung: Log2 FoldChange
Definition Fold Change (FC):
FC=log 2(
mean(T )
)=log 2 (mean(T ))−log 2 (mean( N ))
mean(N )
Significance of result is determined by threshold fc:
|fc| < 1 not interesting
1 < |fc| < 2 interesting
|fc| > 2 very interesting
Why log2 ?
mean(tumor)
mean(normal)
mean(t) /
mean(n)
FC
gene a
16
1
16
4
gene b
gene c
gene d
0.0625
10
200
1
10
1
0.0625
1
200
-4
0
7.65
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
15
Wiederholung: Log2 FoldChange
+ intuitive measure
- independent of scatter
Exp
Exp
S
- independent of absolut values
Exp
Exp
2 - f o ld
2 - f o ld
→ score based only on the mean of the groups not optimal, include variance!
Bioinformatics,Summer Semester 2015
16
Hypothesis Testing – Comparing Two Samples
Gene expression matrix:
Gene
N1
N2
N3
N4
N5
N6
N7
T1
T2
T3
T4
T5
T6
T7
FC
A
5.06
5.22
8.3
8.03
6.95
6.43
7.39
10.1
9.89
11.7
11.6
11.4
9.58
12.1
-4.14
B
3.58
4.14
3.49
3.37
5.29
5.06
3.6
3.7
10.9
10.3
3.57
10.5
8.18
3.27
-3.13
High abs(FC) for Gene A and Gene B
But: variance very high in the
tumor samples of GeneB
Is the difference between
the expression values in
the tumor samples and the
normal samples significant ?
Bioinformatics,Summer Semester 2015
17
Hypothesis Testing – Comparing Two Samples
●
●
Group 1 and Group 2 have the same
mean in each distribution
→ values have different
levels of variability
Group 1
Group 2
Use a second value to describe the
distribution: standard deviation sd
√
sd = (
1
N
N
∑ ( x i−u)2)
x =1
→ Measures how much the values vary
in relation to the mean
●
Assumption (for t-Test):
Samples are normally distributed
●
Symmetrical about the mean
●
68% lies within 1 sd of the mean
●
(log2) gene expression intensities
are normally distributed
Bioinformatics,Summer Semester 2015
http://slideplayer.com/slide/2394201/
18
Hypothesis Testing – t-Test (Welch Test)
•
•
•
t-Test (unpaired two-sample t-test, Welch Test):
compares the mean of two unpaired samples
Assumption: The values are normally distributed
(note that for the normal t-test equal variances are assumed)
Hypothesis:
H0 (Null hypothesis): 1 = 2
(means of the two samples are equal, we want to reject H0)
H1 (Alternative hypothesis): 1 != 2 (means are not equal)
•
Test statistic: Function of the sample that summarizes the data set into
one value that can be used for hypothesis testing
t=
mean ( T ) −mean( N )
√
sd (T )2 sd ( N )2
+
m
n
Bioinformatics,Summer Semester 2015
The greater | t |, the greater the
difference between the means
Ways to get a larger t:
•
Bigger difference in means
•
Smaller standard deviation
•
More samples
19
Hypothesis Testing – t-Test (Welch Test)
•
•
•
From t-statistic to p-value:
t-value,  and number of samples determine the p-value (look-up tables)
P-value:
•
Probability of observing your data under the assumption that H0 is true
•
Probability that you will be in error if rejecting H0
Significance level (): Probability of a false positive outcome of the test,
the error of rejecting H0 when it is actually true
t-distribution
 = 0.05, 16 samples
If |t| > |T| we reject H0
/2
/2
-T
T
critical values (look-up table)
Bioinformatics,Summer Semester 2015
→ p-value is
significant
(p-value < )
20
Example
Bioinformatics,Summer Semester 2015
21
Example (Welch-test)
Example for Gene B from slide 11
N = {3.58, 4.14, 3.49, 3.37,
5.29, 5.06, 3.6}
Hypothesis
T = {3.7, 10.9, 10.3, 3.57,
10.5, 8.18, 3.27}
H0: mN – mT = 0
 = 0.05
Significance level
Test statistic
p-Value
H1: mN – mT != 0
t=
mean ( T ) −mean( N )
√
sd (T )2 sd ( N )2
+
m
n
p-value = 0.06
Bioinformatics,Summer Semester 2015
=−2.27
(Critical value |T| = 2.45)
We cannot reject H0, gene B ist
not significantly differentially expressed!
22
Aufgabe 2.3 - Lösung
Suche nach differentiell exprimierten Genen (5P)
•
Wie viele Probesets sind differentiell exprimiert (α < 0.01)? (0.5P)
•
Wie viele Probesets haben einen |Foldchange| > 1? (0.5P)
•
Wie viele Probesets sind differentiell exprimiert und
haben |Foldchange| > 1? (1P)
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
23
Aufgabe 2.4 - Lösung
Multiple testing correction (3P)
Führe eine p-value Korrektur nach Benjamini Hochberg durch (1.5P).
Wie viele Probesets sind jetzt noch differentiell exprimiert? (0.5P)
Wie viele Probesets sind differentiell exprimiert und haben |Foldchange| > 1?
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
24
Aufgabe 2.5 - Lösung
Volcano Plot (3P)
Zeichne einen Volcano Plot für die eben ermittelten p-values und
Foldchanges.
Hebe Punkte mit einem nach Benjamini Hochberg signifkanten p-value und
einem |Foldchange| > 1 farbig hervor
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
25
Aufgabe 2.5 - Lösung
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
26
Aufgabe 2.6 - Lösung
Heatmap (optional)
Zeichne eine Heatmap für die 50 Probesets mit dem kleinsten p-value.
Erzeuge eine weitere Heatmap für 50 zufällig gezogene Probesets.
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
27
Übung 5 – Next Steps
•
•
•
•
•
•
Erhalte Gen Namen zu den Probeset-Ids
Finde funktionelle Annotationen für die Gene
(z.B. GO Terme und Pathways)
Finde überrepräsentierte Terme für die hoch- und runterregulierten Gene
Formuliere eine Hypothese welchen Effekt die Hoch-/Runterregulierung
dieser Gene auf die Zell-Funktion hat
Durchführung von Experimenten um die Hoch-/Runterregulierung zu
verifizieren
Durchführung von Experimenten um die Hypothese zu testen
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
28
Übung 5 – Next Steps
Upregulated overrepresented terms.
Hypothesis
Downregulated overrepresented terms.
Upregulation of many blood vessel related pathways to
increase blood supply to tumor cells.
Downregulation of original functions.
Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016
29