DISS. ETH NO. 23776 STATISTICAL INFERENCE IN HIGH-DIMENSIONAL MODELS A thesis submitted to attain the degree of DOCTOR OF SCIENCES of ETH ZURICH (Dr. sc. ETH Zurich) presented by RUBEN MICHAËL L DEZEURE MSc ETH CSE, ETH Zurich born on 13.01.1990 citizen of Belgium accepted on the recommendation of Prof. Dr. Peter Bühlmann, examiner Prof. Dr. Nicolai Meinshausen, co-examiner Dr. Lukas Meier, co-examiner 2016 Abstract Quantifying uncertainty is one of the most valuable competencies of statistics. Especially in exploratory studies, where one looks to establish new links between observed quantities, is it rather crucial to find out if a correlation is not just a statistical fluctuation. Even in everyday life, people usually care about the uncertainty of statements, for example about their health. If your doctor predicts you have 20 years left to live with an uncertainty of ± 20 years, you will probably not be very satisfied with that statement. Part of the methodology for uncertainty quantification was not yet fully developed for the particular class of high-dimensional models. These are models characterized by a number of parameters which exceeds the number of replicates in the sample. Exactly these mathematical models have gained importance recently in fields like experimental biology, where the ability to gather a large amount of genetic and proteomic information have asked for a paradigm shift. In this cumulative doctoral thesis we focus on frequentist statistical inference for high-dimensional models in the form of hypothesis testing and confidence intervals. We start off by investigating a previously proposed method in more detail and from a different point of view. Then, we compare it to competing alternatives in broad simulation study. In the process, we make sure to investigate ways to deal with the prominent multiple testing problem. We conclude by improving the originally proposed method using resampling-based techniques. Zusammenfassung Die Quantifizierung von Unsicherheit ist eine von den wertvollsten Kompetenzen der Statistik. Insbesondere in explorativen Studien, wo man versucht, neue Zusammenhänge zwischen Daten zu finden, ist es ziemlich essentiell herauszufinden, ob die beobachteten Korrelationen nicht nur statistische Fluktuationen sind. Sogar im Alltag sind wir oft an der Unsicherheit von Aussagen interessiert, zum Beispiel bei Aussagen über die eigene Gesundheit. Wenn ein Arzt einem eine Lebenserwartung von 20 Jahren verspricht, dies allerdings mit einer Unsicherheit von ± 20 Jahren, wären nur wenige mit dieser Aussage zufrieden. Die Methodologie der Unsicherheitsquantifizierung war unausgereift für hochdimensionale Probleme. Dies sind Probleme, die gekennzeichnet sind durch eine Anzahl Parameter, die die Stichprobengrösse überschreitet. Genau diese Modelle gewinnen in der letzten Zeit aber an Bedeutung in Bereichen wie experimenteller Biologie, wo die Masse an Daten in Genomik und Proteomik zu einem Paradigmenwechsel führt. In dieser kumulativen Dissertation arbeiten wir im Bereich der frequentistischen Statistik mit Hypothesentests und Konfidenzintervallen. Wir schauen uns eine vorher vorgeschlagene Methode ausführlicher und aus einer anderen Perspektive an. Nachher vergleichen wir diese mit der Konkurrenz in einer breit angelegten Studie. Dabei schenken wir dem Problem des multiplen Testens besondere Aufmerksamkeit. Wir schliessen ab mit einer Verbesserung der vorgeschlagenen Methodologie mittels ResamplingVerfahren.
© Copyright 2024 ExpyDoc