Grundlagen der Bioinformatik Assignment 6: Microarray Analysis Ulf Leser, Yvonne Lichtblau Aufgabe 1 - Lösung Theorie zu k-Means Clustering (2P) 1. Das Ergebnis des k-Means Clusterings hängt häufig von der Initialisierung der Clustermittelpunkte ab. Entwerfe ein Beispiel in welchem k-Means unterschiedliche Ergebnisse abhängig von der Initialisierung der Clustermittelpunkte liefert. Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 2 Aufgabe 1 - Lösung Theorie zu k-Means Clustering (2P) 1. Das Ergebnis des k-Means Clusterings hängt häufig von der Initialisierung der Clustermittelpunkte ab. Entwerfe ein Beispiel in welchem k-Means unterschiedliche Ergebnisse abhängig von der Initialisierung der Clustermittelpunkte liefert. Mögliche Gründe für unterschiedliche Ergebisse abhängig von der Initialisierung der Clustermittelpunkte: * Schlechte Wahl von k * Mehrere Cluster zentrieren sich in einem Cluster * Es gibt keine klaren Cluster in den Daten Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 3 Aufgabe 1 - Lösung Theorie zu k-Means Clustering (2P) 2. Oft ist die richtige Anzahl der Cluster in biologischen Szenarien unbekannt. Wie könnte man die optimale Clusteranzahl (vielleicht graphisch) für einen gegebenen Datensatz schätzen? Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 4 Aufgabe 1 - Lösung Theorie zu k-Means Clustering (2P) 2. Oft ist die richtige Anzahl der Cluster in biologischen Szenarien unbekannt. Wie könnte man die optimale Clusteranzahl (vielleicht graphisch) für einen gegebenen Datensatz schätzen? Möglichkeiten die Anzahl der Cluster in einen gegebenen Datensatz zu schätzen: * Visualisierung der Daten und anhand der Datenpunkte Anzahl schätzen * Hierarchichal Clustering als ersten Eindruck der Clusteranzahl Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 5 Aufgabe 2.1 - Lösung Einladen von Microarrays (2P) Unter http://www.ncbi.nlm.nih.gov/geo/qu ery/acc.cgi?acc=GSE3678 werden Affymetrix Microarray Daten (CEL-Files) zur Verfügung gestellt, welche im Rahmen dieser Übung analysiert werden. In diesem Versuch wird ein Subtyp von Schilddrüsenkrebs mit gesundem Schilddrüsengewebe verglichen. Für beide Samples wurden je 7 Chips hybridisert. Download Datasets Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 6 Übung 5 – Aufgabe 2.1 Einladen von Microarrays (2P) Zu Beginn müssen die Daten in R geladen werden. Hierfür wird die Bibliothek affy benötigt. Bibliotheken können mit dem Befehl library("name") geladen werden. Zum Laden der Daten soll der Befehl ReadAffy verwendet werden (1P). Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 7 Übung 5 – Aufgabe 2.1 Einladen von Microarrays (2P) Erzeuge einen Boxplot der Expressionswerte nachdem die Expressionswerte log2-transformiert wurden (1P). Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 8 Übung 5 – Aufgabe 2.1 Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 9 Wiederholung: Boxplots • Detect arrays with poor quality (outliers) Identify arrays behaving different than others Boxplot Estimate the homogeneity of data https://genevestigator.com • Array 14: overall higher signal intensity Ulf Leser: Bioinformatics, Summer Semester 2013 10 Aufgabe 2.2 - Lösung Normalisieren der Microarrays (3P) Um die Vergleichbarkeit der Microarrays für weitere Analysen zu gewährleisten, müssen die Microarrays erst normalisiert werden. Eine für Affymetrix Daten häufig verwendete Methode nennt sich rma. Diese baut auf der vorgestellten quantil-Normalisierung auf. Suche die benötigte Funktion und führe eine rma Normalisierung auf den Arrays durch (1.5P). Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 11 Indexes Value s Wiederholung: Quantile normalization + differences between the separate values are retained + identical distribution for each array - some data can be lost, especially in the lower signals • quantiles of each array are equal → Distribution of expression values on each microarray is made identical Ulf Leser: Bioinformatics, Summer Semester 2013 12 Aufgabe 2.2 - Lösung Normalisieren der Microarrays (3P) Erzeuge nun einen weiteren Boxplot der normalisierten Daten. Wichtig: Die log2 Transformation wird von rma selbst durchgeführt (1.5P). Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 13 Aufgabe 2.3 - Lösung Suche nach differentiell exprimierten Genen (5P) Bestimme für jedes Probeset den p-value (two-sided t test) und den Foldchange. Lösen mittels apply oder for-Schleife (3P). Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 14 Wiederholung: Log2 FoldChange Definition Fold Change (FC): FC=log 2( mean(T ) )=log 2 (mean(T ))−log 2 (mean( N )) mean(N ) Significance of result is determined by threshold fc: |fc| < 1 not interesting 1 < |fc| < 2 interesting |fc| > 2 very interesting Why log2 ? mean(tumor) mean(normal) mean(t) / mean(n) FC gene a 16 1 16 4 gene b gene c gene d 0.0625 10 200 1 10 1 0.0625 1 200 -4 0 7.65 Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 15 Wiederholung: Log2 FoldChange + intuitive measure - independent of scatter Exp Exp S - independent of absolut values Exp Exp 2 - f o ld 2 - f o ld → score based only on the mean of the groups not optimal, include variance! Bioinformatics,Summer Semester 2015 16 Hypothesis Testing – Comparing Two Samples Gene expression matrix: Gene N1 N2 N3 N4 N5 N6 N7 T1 T2 T3 T4 T5 T6 T7 FC A 5.06 5.22 8.3 8.03 6.95 6.43 7.39 10.1 9.89 11.7 11.6 11.4 9.58 12.1 -4.14 B 3.58 4.14 3.49 3.37 5.29 5.06 3.6 3.7 10.9 10.3 3.57 10.5 8.18 3.27 -3.13 High abs(FC) for Gene A and Gene B But: variance very high in the tumor samples of GeneB Is the difference between the expression values in the tumor samples and the normal samples significant ? Bioinformatics,Summer Semester 2015 17 Hypothesis Testing – Comparing Two Samples ● ● Group 1 and Group 2 have the same mean in each distribution → values have different levels of variability Group 1 Group 2 Use a second value to describe the distribution: standard deviation sd √ sd = ( 1 N N ∑ ( x i−u)2) x =1 → Measures how much the values vary in relation to the mean ● Assumption (for t-Test): Samples are normally distributed ● Symmetrical about the mean ● 68% lies within 1 sd of the mean ● (log2) gene expression intensities are normally distributed Bioinformatics,Summer Semester 2015 http://slideplayer.com/slide/2394201/ 18 Hypothesis Testing – t-Test (Welch Test) • • • t-Test (unpaired two-sample t-test, Welch Test): compares the mean of two unpaired samples Assumption: The values are normally distributed (note that for the normal t-test equal variances are assumed) Hypothesis: H0 (Null hypothesis): 1 = 2 (means of the two samples are equal, we want to reject H0) H1 (Alternative hypothesis): 1 != 2 (means are not equal) • Test statistic: Function of the sample that summarizes the data set into one value that can be used for hypothesis testing t= mean ( T ) −mean( N ) √ sd (T )2 sd ( N )2 + m n Bioinformatics,Summer Semester 2015 The greater | t |, the greater the difference between the means Ways to get a larger t: • Bigger difference in means • Smaller standard deviation • More samples 19 Hypothesis Testing – t-Test (Welch Test) • • • From t-statistic to p-value: t-value, and number of samples determine the p-value (look-up tables) P-value: • Probability of observing your data under the assumption that H0 is true • Probability that you will be in error if rejecting H0 Significance level (): Probability of a false positive outcome of the test, the error of rejecting H0 when it is actually true t-distribution = 0.05, 16 samples If |t| > |T| we reject H0 /2 /2 -T T critical values (look-up table) Bioinformatics,Summer Semester 2015 → p-value is significant (p-value < ) 20 Example Bioinformatics,Summer Semester 2015 21 Example (Welch-test) Example for Gene B from slide 11 N = {3.58, 4.14, 3.49, 3.37, 5.29, 5.06, 3.6} Hypothesis T = {3.7, 10.9, 10.3, 3.57, 10.5, 8.18, 3.27} H0: mN – mT = 0 = 0.05 Significance level Test statistic p-Value H1: mN – mT != 0 t= mean ( T ) −mean( N ) √ sd (T )2 sd ( N )2 + m n p-value = 0.06 Bioinformatics,Summer Semester 2015 =−2.27 (Critical value |T| = 2.45) We cannot reject H0, gene B ist not significantly differentially expressed! 22 Aufgabe 2.3 - Lösung Suche nach differentiell exprimierten Genen (5P) • Wie viele Probesets sind differentiell exprimiert (α < 0.01)? (0.5P) • Wie viele Probesets haben einen |Foldchange| > 1? (0.5P) • Wie viele Probesets sind differentiell exprimiert und haben |Foldchange| > 1? (1P) Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 23 Aufgabe 2.4 - Lösung Multiple testing correction (3P) Führe eine p-value Korrektur nach Benjamini Hochberg durch (1.5P). Wie viele Probesets sind jetzt noch differentiell exprimiert? (0.5P) Wie viele Probesets sind differentiell exprimiert und haben |Foldchange| > 1? Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 24 Aufgabe 2.5 - Lösung Volcano Plot (3P) Zeichne einen Volcano Plot für die eben ermittelten p-values und Foldchanges. Hebe Punkte mit einem nach Benjamini Hochberg signifkanten p-value und einem |Foldchange| > 1 farbig hervor Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 25 Aufgabe 2.5 - Lösung Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 26 Aufgabe 2.6 - Lösung Heatmap (optional) Zeichne eine Heatmap für die 50 Probesets mit dem kleinsten p-value. Erzeuge eine weitere Heatmap für 50 zufällig gezogene Probesets. Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 27 Übung 5 – Next Steps • • • • • • Erhalte Gen Namen zu den Probeset-Ids Finde funktionelle Annotationen für die Gene (z.B. GO Terme und Pathways) Finde überrepräsentierte Terme für die hoch- und runterregulierten Gene Formuliere eine Hypothese welchen Effekt die Hoch-/Runterregulierung dieser Gene auf die Zell-Funktion hat Durchführung von Experimenten um die Hoch-/Runterregulierung zu verifizieren Durchführung von Experimenten um die Hypothese zu testen Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 28 Übung 5 – Next Steps Upregulated overrepresented terms. Hypothesis Downregulated overrepresented terms. Upregulation of many blood vessel related pathways to increase blood supply to tumor cells. Downregulation of original functions. Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 29
© Copyright 2024 ExpyDoc