statistical inference in high-dimensional models - ETH E

DISS. ETH NO. 23776
STATISTICAL INFERENCE IN
HIGH-DIMENSIONAL
MODELS
A thesis submitted to attain the degree of
DOCTOR OF SCIENCES of ETH ZURICH
(Dr. sc. ETH Zurich)
presented by
RUBEN MICHAËL L DEZEURE
MSc ETH CSE, ETH Zurich
born on 13.01.1990
citizen of Belgium
accepted on the recommendation of
Prof. Dr. Peter Bühlmann, examiner
Prof. Dr. Nicolai Meinshausen, co-examiner
Dr. Lukas Meier, co-examiner
2016
Abstract
Quantifying uncertainty is one of the most valuable competencies of statistics. Especially in exploratory studies, where one looks to establish new
links between observed quantities, is it rather crucial to find out if a correlation is not just a statistical fluctuation. Even in everyday life, people
usually care about the uncertainty of statements, for example about their
health. If your doctor predicts you have 20 years left to live with an uncertainty of ± 20 years, you will probably not be very satisfied with that
statement.
Part of the methodology for uncertainty quantification was not yet fully
developed for the particular class of high-dimensional models. These are
models characterized by a number of parameters which exceeds the number of replicates in the sample. Exactly these mathematical models have
gained importance recently in fields like experimental biology, where the
ability to gather a large amount of genetic and proteomic information have
asked for a paradigm shift.
In this cumulative doctoral thesis we focus on frequentist statistical inference for high-dimensional models in the form of hypothesis testing and
confidence intervals. We start off by investigating a previously proposed
method in more detail and from a different point of view. Then, we compare it to competing alternatives in broad simulation study. In the process,
we make sure to investigate ways to deal with the prominent multiple testing problem. We conclude by improving the originally proposed method
using resampling-based techniques.
Zusammenfassung
Die Quantifizierung von Unsicherheit ist eine von den wertvollsten Kompetenzen der Statistik. Insbesondere in explorativen Studien, wo man versucht, neue Zusammenhänge zwischen Daten zu finden, ist es ziemlich
essentiell herauszufinden, ob die beobachteten Korrelationen nicht nur statistische Fluktuationen sind. Sogar im Alltag sind wir oft an der Unsicherheit von Aussagen interessiert, zum Beispiel bei Aussagen über die eigene
Gesundheit. Wenn ein Arzt einem eine Lebenserwartung von 20 Jahren
verspricht, dies allerdings mit einer Unsicherheit von ± 20 Jahren, wären
nur wenige mit dieser Aussage zufrieden.
Die Methodologie der Unsicherheitsquantifizierung war unausgereift für
hochdimensionale Probleme. Dies sind Probleme, die gekennzeichnet sind
durch eine Anzahl Parameter, die die Stichprobengrösse überschreitet. Genau diese Modelle gewinnen in der letzten Zeit aber an Bedeutung in Bereichen wie experimenteller Biologie, wo die Masse an Daten in Genomik
und Proteomik zu einem Paradigmenwechsel führt.
In dieser kumulativen Dissertation arbeiten wir im Bereich der frequentistischen Statistik mit Hypothesentests und Konfidenzintervallen. Wir schauen uns eine vorher vorgeschlagene Methode ausführlicher und aus einer
anderen Perspektive an. Nachher vergleichen wir diese mit der Konkurrenz in einer breit angelegten Studie. Dabei schenken wir dem Problem
des multiplen Testens besondere Aufmerksamkeit. Wir schliessen ab mit
einer Verbesserung der vorgeschlagenen Methodologie mittels ResamplingVerfahren.