Statistische Versuchsplanung – Design of Experiments (DOX) Markus Pauly Institute of Statistics University of Ulm Sommersemester 2015 Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Regularien Vorlesung: Di 14:00–16:00 Uhr in Hörsaal H12 Übung: Mi 14:00–16:00 in Hörsaal H12 (Start: Morgen) Homepage mit Materialien: uni-ulm.de/mawi/statistics/courseslehre/ summer-semester-2015/ statistische-versuchsplanung.html Übungsaufgaben: – Abgabe jeweils am Mittwoch vor Beginn der Übung nach upload eine Woche zuvor – Korrigierte Rückgabe eine Woche später – Zulassung zur Prüfung: 40% der Punkte – Tipp: Arbeiten in Kleingruppen von 2-3 Personen – Gemeinsame Abgaben (maximal 3 Personen) erlaubt und empfohlen Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Regularien Prüfung: I Prüfung: 14.7. 2015 – Klausur oder mündliche Prüfung? – Hilfsmittel bei Klausur: Ein selbstbeschriebenes DIN A4 Blatt (Vorund Rückseite) sowie ein Taschenrechner Prüfungsvorbereitung: – Teilnahme und rege Beteiligung in der Übungsstunde (Vorrechnen bringt Bonuspunkte) – Regelmässige Bearbeitung und Abgabe der Übungsblätter – Diskutieren der Übungsaufgaben in Kleingruppen Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Ankündigung Am Mittwoch, 1.7, 14-16 trägt Tina Müller (Schering, Berlin) in HE20 zum (vorläufigen) Thema Applied Statistics in the Pharmaceutical Industry vor. Zuhörer sind herzlich eingeladen! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Literatur Bandemer und Bellmann: Statistische Versuchsplanung, Teubner, 1994. Brunner: Statistische Modellierung. Vorlesungskript, Universität Heidelberg, 2009. Montgomery: Design and Analysis of Experiments, Wiley, 2013. Oehlert: A First Course in Design and Analysis of Experiments, New York: WH Freeman, 2000. Müller: Grundlagen der Versuchsplanung. Vorlesungsskript, Universität Dortmund, 2014. Siebertz: Statistische Versuchsplanung – Desgin of Experiments, Springer, 2010. TUD: http://elearning.tu-dresden.de/versuchsplanung/ Ünlü: Grundlagen der Versuchsplanung. Vorlesungsskript, Universität Dortmund, 2011. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Ziele der Vorlesung Vorstellung der grundlegenden Verfahren und Modelle für die Planung von Experimenten Vermeidung typischer Fehler, die hierbei auftreten können, um systematischen Verzerrungen entgegen zu wirken, Statistische Analysemethoden nach Durchführung der Experimente für die wichtigsten Modelle einführen Entwicklung von Guidelines zur Planung von Experimenten und Sensibilisierung gegenüber PARC1 (Planning After the Research is Complete; J. Stuart Hunter) 1 Bitte 1x rückwärts lesen! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Kapitel 1: Ein paar einleitende Worte zur Statistik Eine Auswahl von Statistikprogrammen R freie Software(GNU GPL), Programmiersprache, kann mittels eines Editors komfortabel verwendet werden, erhältlich unter http://www.r-project.org, Editoren/graphische Oberfläche unter http://www.sciviews.org/rgui/ häufige Verwendung an Hochschulen. SPSS kommerzielles Programm, (meist) Menü-basierte Steuerung, weit verbreitet, z.B. in der Medizin, Psychologie und in den Sozialwissenschaften, Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Eine Auswahl von Statistikprogrammen SAS kommerzielles Programm eigene Programmiersprache Menü-basierte Steuerung möglich (Enterprise Guide), weit verbreitet, z.B. in der Medizin, Biometrie, erfüllt industrielle Standards, Alle Statistikprogramme verfügen über umfangreiche Bibliotheken. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Ablauf einer statistischen Untersuchung 1 Datenerhebung: (Zufalls-)Experiment (Daten werden z.B. durch Beobachten oder Befragung erhoben) 2 Deskriptive Statistik: Datenaufbereitung und -darstellung (z.B. durch Tabellen und Grafiken) sowie Datenauswertung (z.B. durch Berechnung von Maßzahlen wie etwa Häufigkeiten, Mittelwerten und Streuungen) 3 Induktive oder schließende Statistik: Statistische Analyse (z.B. durch Schätzen, Testen oder Entscheidungen unter Unsicherheit) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Zufallsexperiment Ein Zufallsexperiment ist ein realer Vorgang, – der verschiedene Ergebnisse haben kann, von denen genau eines eintritt, – dessen Ausgang vor Ablauf ungewiss ist, – der (prinzipiell) unter den gleichen Bedingungen beliebig oft wiederholt werden kann. Beispiele: Münzwurf, Würfeln, Zahlenlotto (Modellexperimente mit festen Regeln) Aber z.B. in der Pharma-Industrie auch: Qualitätskontrolle, Analyseergebnisse etc. =⇒ Zulassung von Medikamenten Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistik In einem Gedankenexperiment werden im Vorfeld, (optimalerweise!!!) vor der Datenerhebung, alle möglichen Szenarien eines Zufallsexperiments durchgespielt, bewertet und wahrscheinlichkeitstheoretisch modelliert. Das Studium dieser Theorie und deren Gesetzmäßigkeiten liefern die Basis für die Analyse der Ergebnisse von Zufallsexperimenten. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Studie in der Pharma-Industrie (stark vereinfacht) Vermutung (Hypothesengenerierung): Medikament A wirkt besser als Medikament B. Durchführung einer Studie (Zufallsexperiment): Patienten mit der Krankheit werden (zufällig) in zwei Gruppen eingeteilt: Eine erhält Medikament A, die andere Medikament B. Vergleich Theorie vs. Wirklichkeit: Ist Medikament A wirklich besser als Medikament B? Induktive Statistik: Vergleich der Verbesserung des Gesundheitszustands der Patienten. ⇒ Die Wahl des Auswertungsverfahrens hängt dabei von der Beziehung aller beteiligten Größen ab. Diese Struktur heißt Versuchsplan. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Kapitel 2: Motivation und Grundbegriffe der Versuchsplanung Historisches vorweg Ursprung: Agrarwissenschaften (1908 - 1940) W.S. Gossett und der t-test (1908) R. A. Fisher und Co-Autoren (Faktorielles Prinzip) ⇒ Starken Einfluß auf die Agrarwissenschaften I ANOVA, Factorial designs etc. I I Die erste industrielle Ära (1951 - 1970) I Box and Wilson: Response surface Methode (RSM) ⇒ Anwendung in der chemischen und anderen Prozessindustrien Die zweite industrielle Ära (1970 - 1990) Taguchi: Robuste Designs (insbes. fraktionelle faktorielle Designs), Prozessrobustheit ⇒ Qualitätsverbesserung in vielen Firmen I Seit 1990: Die moderne Ära Schwerpunkt der VL eher auf biometrischen Anwendungen Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Allgemeines Die statistische Versuchsplanung ist eine natürliche Erweiterung des naturwissenschaftlichen Vorgehens zum Erkenntnisgewinn über reale Prozesse. Wesentlichen Schritte dabei: Planen, Experimentieren, Beobachten und Auswerten. Nur durch Experimentieren unter kontrollierten Bedingungen können gesicherte Erkenntnisse über reale Prozesse gewonnen werden. Mögliche Probleme I I Nicht alle für das Ergebnis wesentlichen Faktoren werden in relevanten Bereichen variiert und die Ergebnisse einzelner Versuche können widersprüchlich sein. Wesentliche Effekte können sich überlagern und damit nicht unterscheidbar sein bzw. sich abschwächen/aufheben oder verstärken (Antagonismen, Confounding, Synergien). Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Zufallsexperiment Experiment = Frage an die Natur im weitesten Sinne? I I Ist das neue Medikament A besser als ein etabliertes? Ist Fernsehen für Kinder schädlich? Die Frage sollte so genau wie möglich und eindeutig formuliert werden, damit eine Lösung in einer für andere nachvollziehbaren Weise möglich ist. I I Unter welchen gesundheitlichen, physischen und sozialen Voraussetzungen liefert das neue Medikament eine höhere Heilwahrscheinlichkeit als das etablierte? Fünfjährige Kinder aus Ulm, die pro Woche mehr als fünf Actionfilme sehen, zeigen im Kindergarten mehr aggressive Verhaltensweisen als gleichaltrige Kinder aus Ulm, die überhaupt nicht fernsehen. Problem: Es ist (i.d.R.) unmöglich alle Bedingungen für einen Versuch im Vorfeld festzulegen! I Beispiele... Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Zufallsexperiment Problem: Es ist (i.d.R.) unmöglich alle Bedingungen für einen Versuch im Vorfeld festzulegen! Naturgegebene Schwankungen ⇒ Z.B. sind Schädigungen von Nadelbäumen in einem Wald auch für Bäume gleichen Alters und gleicher Wachstumsbedingungen unterschiedlich. Ähnliche Beobachtungen gibt es auch für unterschiedliche Krankheiten bei eineiigen Zwillingen I Aufwand zu groß ⇒ Auch bei einfachen Messungen (Gewicht o. Länge) haben Umweltbedingungen (Temperatur, Luftfeuchtigkeit etc.) einen Einfluss auf die Messung. I ⇒ (Fast) alle Experimente sind Zufallsexperimente! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Ziel- und Einflussgrößen Definition 2.1 (Ziel- und Einflussgrößen): 1 Die in einem Versuch beobachteten Zufallsvariablen, über die man bestimmte Aussagen treffen möchte, heißen in der Versuchsplanung Zielgrößen, -variablen oder auch abhängige Variablen bzw. Endpunkt. 2 Diejenigen Größen, welche den Wert einer Zielgröße beeinflussen, nennt man Einflussgrößen oder unabhängige Variablen. Hierbei unterscheidet man nochmals: 3 Einflussgrößen, die im Versuch mit erfasst, beobachtet oder auch gezielt variiert werden können heißen Faktoren. 4 Die übrigen Einflussgrößen, welche man wegen ihrer Vielzahl oder aus technischen Gründen nicht im Versuch beobachten, variieren oder mit erfassen kann oder möchte, werden zum sogenannten Versuchsfehler zusammengefasst. Dieser wird durch eine Zufallsvariable beschrieben. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiele für Ziel- und Einflussgrößen Einfluss der Behandlungsform einer Krankheit (EG) auf die Rückfallquoten (ZG), Auswirkung der Änderung der “Prozesstemperatur” (F) auf die “Festigkeit” (ZG), Schizophrenie (ZG) als Reaktion auf Umweltfaktoren (EG), Einfluss von Alkoholkonsum (F) auf die Reaktionszeit (ZG). Vorsicht: Man kann einer Variablen i.a. nicht ansehen, ob sie eine EG oder ZG ist. Erst durch Kenntnis der Versuchsanordnung, kann man darüber Auskunft geben. ⇒ BSP: Die obige Variable Alkoholkonsum könnte in einer anderen Untersuchung auch ZG sein, wenn z.B. die Auswirkung von Reizentzug (EG) auf das Ausmaß des Alkoholkonsums geprüft werden soll. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beobachtungs- vs. experimentelle Studien Definition 2.2 (Beobachtungsstudien und experimentelle Studien): 1 In einer Beobachtungsstudie (Feldexperimente) werden die Werte von Einfluss- und Zielgrößen beobachtet, ohne die Einflussgrößen zu kontrollieren. 2 Bei experimentellen Studien (Laborexperimente) werden die Faktporen kontrolliert und die zugehörigen Werte der Zielgrößen beobachtet. ⇒ Auswertungen von Beobachtungsstudien leiden typischerweise unter den anfangs angedeuteten Problemen. ⇒ Experimentelle Studien mit statistischer Versuchsplanung vermeiden diese i.a. durch die systematische Auswahl von Versuchen, so dass alle interessierenden Effekte unabhängig voneinander geschätzt werden können, wobei zusätzlich die zur Verfügung stehenden Mittel optimal genutzt werden. Ziel: Sinnvolle, maximale Interpretierbarkeit der Ergebnisse mit minimalem Aufwand. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Störfaktoren und Stufen Definition 2.3 (Störfaktoren und Stufen): 1 Die Faktoren, deren Einfluss im Versuch nicht interessiert und die nur unter Versuchskontrolle gebracht wurden, um die Versuchsfehlerstreuung gering zu halten, nennt man Störfaktoren. 2 Im Gegensatz dazu bezeichnet man deshalb die interessierenden Faktoren auch manchmal als Einflussfaktoren 3 Die verschiedenen Ausprägungen eines Faktors heißen Stufen. Diese Ausprägungen können qualitativ oder quantitativ (metrisch skaliert) sein. Die Faktorstufen selber sind in der Versuchsplanung i.d.R. qualitativ. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Mögliche Störfaktoren Umwelteinflüsse (Temperatur, Druck etc.) Zeiteinflüsse (Messungen zu verschiedenen Zeitpunkten) und in dem Zshg auch: Reifung der Versuchseinheit (Lern- und Alterungseffekte) Veränderung der Messinstrumente (Verschleiß etc.) Versuchsleitereffekte (Steigung von Sensititvität aber auch Müdigkeit im Verlauf; Wechsel des Versuchsleiters) Auswahlverzerrung (selection bias; Unterscheidung von Versuchsgruppen bereits vor Manipulation der Einflussfaktoren) Testeffekte: I BSP: Erhöht autogenes Training die Intelligenz? Versuch: Testpersonen machen IQ-Test vor Versuchsbeginn und nach Absolvierung von fünf Trainingsstunden. Ergebnis: Anstieg des durchschnittlichen IQs von 104 auf 112 Punkte (über die Testpersonen hinweg gemittelt). Aus diesem Ergebnis zu folgern, dass autogenes Training die Intelligenz erhöht, ist keineswegs zwingend. Es ist natürlich zu erwarten, dass man in Intelligenztests besser abschneidet, wenn man diese Tests schon einmal durchgeführt/geübt hat. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Qualitative und quantitative Faktoren Beispiele: FAKTOR Geschlecht Dosis eines Medikamentes Medikament Tag einer Beobachtung Markus Pauly (University of Ulm) S TUFEN männlich weiblich 100 mg/Tag 200 mg/Tag 500 mg/Tag Placebo altes Medikament neues Medikament 1 2 3 Versuchplanung FAKTORAUSPRÄGUNG qualitativ quantitativ qualitativ ordinal Sommersemester 2015 Erinnerung: Skalenniveaus und Ausprägung Variablen nehmen unterschiedliche Ausprägungen an, die sich im Hinblick auf ihre Messung und erlaubten Operationen unterschieden. Definition 2.4 (Skalenniveaus): 1 Nominalskalenniveau: Keine Anordnung auf einer Dimension möglich. Erlaubte mathematische Operationen: =, 6= Beispiele: Geschlecht, Staatsangehörigkeit, Konfession 2 Ordinalskalenniveau: Rangreihung (Ordnung) auf einer Dimension nach größer - kleiner, besser - schlechter etc. möglich; über Abstände zwischen diesen benachbarten Urteilsklassen ist jedoch nichts ausgesagt Erlaubte mathematische Operationen: =, 6=, <, > Beispiele: Schulnoten, Rangplätze beim Sport 3 Intervallskalenniveau: Ordnung auf einer Dimension möglich; die Abstände zwischen den Skalenpunkten sind gleich. Erlaubte mathematische Operationen: =, 6=, <, >, +, − 4 Verhältnisskalenniveau: Intervallskala mit einem festen, nicht willkürlichen Nullpunkt. Verhältnisse (halb oder doppelt so viel etc.) sind sinnvoll. Erlaubte mathematische Operationen: =, 6=, <, >, +, −, ∗, \ Beispiele: Zeitskala (Datum), Temperaturskalen (Celsius, Fahrenheit), IQ-Werte Beispiele: Reaktionszeit, Lebensalter (0–150 Jahre), Fläche, Volumen Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Erinnerung: Skalenniveaus und Ausprägung Häufig werden die beiden letzten Skalenniveaus (Intervall- und Verhältnisskala) zum Kardinalskalenniveau zusammengefasst. Eine verwandte Einteilung erfolgt hinsichtlich einer qualitativ/quantitativen Merkmalsausprägung. Definition 2.5 (Ausprägungen): 1 Eine Variable heißt qualitativ, wenn sie eine (höchstens ordinalskalierte) Eigenschaft der Untersuchungseinheit bezeichnet. 2 Eine Variable heißt quantitativ oder metrisch, wenn ihre (mindestens intervallskalierten) Ausprägungen “echt” gemessen oder gezählt wurden. Die Merkmalsausprägungen werden i.d.R. als Zahlenwerte plus Einheit angegeben. 3 Diskrete (quantitative) Variable haben höchstens abzählbar unendlich viele Ausprägungen. 4 Stetige (quantitative) Variable können prinzipiell überabzählbar viele Werte annehmen, z.B. jede reelle Zahl in einem Intervall. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Variation und Co Bemerkung 2.1 (Abhängige und unabhängige Variable): Die Zielgrößen sind abhängige Zufallsvariablen (abhängig von den Faktoren und Versuchsfehlern) Die interessierenden Faktoren sollten durch den Versuchsleiter kontrolliert geändert werden können und sollten unabhängig sein. Definition 2.6 (Variation der Zielgröße): Primärvariation: Systematische Variation der Zielgröße hervorgerufen nur aufgrund der interessierenden Faktoren Sekundärvariation: Systematische Variation der Zielvariable hervorgerufen durch die Störfaktoren (nicht durch die interessierenden Faktoren) Fehlervariation: Unsystematische Variation der Zielvariable, die weder auf den Einfluss von (identifizierbaren) Stör- noch auf die Manipulation der interessierenden Einflussfaktoren zurückzuführen ist Die Trennung in Sekundär- und Fehlervariation ist in der Praxis i.d.R. nicht notwendig und eher konzeptueller Natur. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Kontrolle von Sekundär- und Fehlervariation Eliminierung (z.B. Lärm) Konstanthaltung (z.B. Licht) Verblindung. Beispiel: Doppelblindstudien, bei denen sowohl der behandelnde Arzt als auch der Patient nicht wissen, welches Medikament der Patient bekommen hat Umwandlung der Störfaktoren in Einflussfaktoren → zwei- oder mehrfaktorielle Pläne Blockbildung/Parallelisierung, Zuordnung zu Blöcken mittels Rangfolgenbildung (blocking) Randomisierung/zufällige Reihenfolge (randomization) Wiederholungsmessungen (repetition, repeated measurements) ... Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Feste und zufällige Faktoren Zur Interpretation eines Versuchs und zur Verallgemeinerung der Versuchsergebnisse ist es nötig, zwei Arten von Faktoren zu unterscheiden: feste Faktoren und zufällige Faktoren. Definition 2.7 (Feste und zufällige Faktoren): (a) Ein Faktor heißt fest (fixed factor), wenn seine Stufen eindeutig definierte, wiederholbare Ausprägungen (des Faktors) sind. W IEDERHOLUNGSREGEL : Ein fester Faktor ist dadurch charakterisiert, dass bei einer eventuellen Versuchswiederholung dieselben Faktorstufen verwendet werden würden wie im vorangegangenen Versuch. V ERALLGEMEINERUNGSREGEL : Die Aussagen, die auf Grund eines Versuchs mit festen Faktorstufen gemacht werden, gelten nur für die im Versuch verwendeten festen Faktorstufen. Beispiele: Geschlecht, Behandlung, Wochentag Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Feste und zufällige Faktoren (b) Ein Faktor heißt zufällig (random factor), wenn seine Stufen eine zufällige Auswahl aus der Grundgesamtheit aller möglichen Stufen dieses Faktors darstellen (Realisationen des zufälligen Faktors). Die Stufen dieses Faktors sind nicht beobachtbare Zufallsvariable (unobservable random variables). W IEDERHOLUNGSREGEL : Ein zufälliger Faktor ist dadurch charakterisiert, dass bei einer Versuchswiederholung erneut zufällig ausgewählte Stufen des Faktors verwendet werden. V ERALLGEMEINERUNGSREGEL : Die Aussagen, die auf Grund eines Versuchs mit zufälligen Faktorstufen gemacht werden, beziehen sich auf die Grundgesamtheit, aus der die im Versuch verwendeten Faktorstufen zufällig ausgewählt wurden. Beispiele: Patient, Labortier, Interviewer ⇒ Mehr hierzu: Später; insbes. im Abschnitt über Randomisierung und bei den auftretenden Random Effects Modellen! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Faktorenerfassung Für eine gute Versuchsplanung ist es wichtig alle möglichen Einflußgrößen der Zielvariablen zu erfassen Neben Expertenwissen (Befragung und Diskussion) können hierfür auch sog. Cause-Effect- bzw. Fishbone-Diagramme hilfreich sein. Weitere typische Hilfsmittel sind screening Pläne wie 2k -Pläne (kommen später) für erste Versuche. Im nächsten Schritt sind diese nach interessierenden und Störfaktoren sowie Versuchsfehlern zu ordnen Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Cause-Effect- bzw. Fishbone-Diagramme (Quelle: http://tipqc.org/qi/jit/tools/cause-and-effect-diagram/) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Kontrolle der Einflüsse In einem aussagefähigen Versuch sollten alle Einflussgrößen unter Kontrolle sein 1 Faktoren: Unter Versuchskontrolle → mit erfassen, 2 Versuchsfehler: Unter statistischer Kontrolle → randomisieren, zufällig im gesamten Versuch verteilen. Ist der Versuchsfehler nicht unter statistischer Kontrolle, dann ist der Versuch verzerrt, das Versuchsergebnis ist nicht reproduzierbar und daher ist ein solcher Versuch in den meisten Fällen nicht zu interpretieren. Deshalb versucht man bei einer Versuchsplanung die Faktoren vor der ersten Ergebnisregistrierung derart zu definieren, anzuordnen, zu kombinieren oder zu erfassen, dass die Streuung des Versuchsfehlers möglichst klein wird. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiele zu schlechter Versuchs- bzw. Studienplanung Beispiel 2.1 (Studie zu Kopf-Hals-Tumoren): In einer Studie zu Kopf-Hals-Tumoren2 sollte untersucht werden, ob bestimmte genetische (und klinische) Faktoren einen Einfluss auf das Krebsrisiko im Kopf-Hals-Bereich haben. Dabei wurde angenommen, dass dieses Risiko mit dem Alter steigt und Männer (im Alter) stärker betrifft als Frauen. So waren die meisten Patienten in dieser Studie Männer über 40. Um nun Risikofaktoren zu identifizieren, werden in solchen Fall-Kontroll-Studien neben den Daten von Patienten (Fälle) auch dieselben Daten an Personen, die die Krankheit nicht zeigen Kontrollen), erhoben, und die beiden Gruppen miteinander verglichen. 2 berichtet von einem mir bekannten Statistiker Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiele zu schlechter Versuchs- bzw. Studienplanung Da Alter und Geschlecht bekannte Risikofaktoren sind, sollten diese in dieser Studie neben den genetischen Faktoren mit in das statistische Modell aufgenommen werden. Die statistische Analyse dieser Daten führte zu einem Modell, das ziemlich gut zwischen Fällen und Kontrollen trennt (viel besser als man es in solchen Studien erwarten würde). Grund: Da es schwer (und kostspielig) ist, Kontrollen zu rekrutieren, wurde das Krankenhauspersonal als Kontrollen verwenden – also hauptsächlich Frauen unter 30 (Krankenschwestern). Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiele zu schlechter Versuchs- bzw. Studienplanung Beispiel 2.2 (Aushärten von Aluminiumlegierung): Ein metallurgischer Ingenieur möchte den Effekt von zwei verschiedenen Aushärtungstechniken für eine Aluminiumlegierung überpüfen: (1) Abschrecken mit Öl bzw. (2) Abschrecken mit Salzwasser Dazu wählt er Proben aus zwei verschiedenen Öfen, schreckt die Proben aus Ofen i mit Methode (i) ab, i = 1, 2, und misst im Anschluss die Härtegrade der Legierungen Gute Idee? Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiele zu schlechter Versuchs- bzw. Studienplanung Problem: Beim Vergleich der Mittelwerte aus beiden Gruppen kann der Ingenieur hier nicht mehr schließen, ob Unterschiede aufgrund der unterschiedlichen Aushärtungstechnik oder aufgrund der unterschiedlichen Öfen (u.u. mit verschiedenen Temperaturen) auftreten ⇒ Man sagt: Er hat die Faktoren “Aushärtungstechnik” und “Ofen” confounded, d.h. Effekte dieser Faktoren können nicht mehr getrennt werden! Außerdem sollten selbst bei einem so einfachen Experiment viele Fragen vorher beantwortet werden: Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiele zu schlechter Versuchs- bzw. Studienplanung Beispielfragen Sind obige Aushärtungstechniken die einzigen von Interesse? Welche anderen Faktoren (Temperatur des Mediums etc.) können den Härtegrad beeinflussen? Sollten diese im Experiment als Faktoren mit aufgenommen oder wenigstens kontrolliert (gleich gehalten) werden? Bei Mitaufnahme: Wie sollen die Faktoren angeordnet werden? Wie viele Proben sollen getestet werden (Fallzahlplanung) und wie sollen diese auf die verschiedenen Techniken aufgeteilt werden ? (Wahl des Designs; balanciert hat oft Vorteile; aber: Kosten, Aufwand...) Welcher Unterschied zwischen den Härtegraden gilt als relevant Mit welchem statistischen Verfahren sollten die Daten analysiert werden? Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beliebte (schlechte) Studienplanungsstrategien Auffinden guter Faktorstufenkombinationen Best-Guess approach: Der Wissenschaftler (im letzten Beispiel Ingenieur) wählt aus Erfahrung die wichtigen Faktoren in einer bestimmten Kombinationsstufe aus (best-guess), um einen erwarten/erhofften Effekt auf die Zielgröße zu bekommen und führt damit das Experiment (mehrfach) durch. ⇒ Aufgrund seiner Erfahrung kann dies ganz gut funktionieren, aber: I Bleibt das erhoffte Resultat aus, muss er nochmals eine Faktorstufenkombi wählen etc. Dies kann sehr viel Zeit in Anspruch nehmen. I Ist das Ergebnis zufriedenstellend, so wird u.U. sofort gestoppt. I.d.R. gibt es aber noch andere Kombinationen, die zu besseren Ergebnissen/Effekten führen. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beliebte (schlechte) Studienplanungsstrategien One-factor-at-a-time approach (OFAT): Für jeden Faktor wird eine Stufenbaseline festgelegt und dann jeder Faktor sukzessive, bei fest halten der anderen Faktoren auf der baseline, in Experimenten variiert. ⇒ Größtes Problem hierbei: I I Mögliche Interaktionen zwischen den einzelnen Faktoren werden komplett missachtet! Häufig sehr ineffizient (im Bezug auf Stichprobengröße) Besser: Statistische Versuchsplanung! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Kapitel 3: Grundprinzipien der Versuchsplanung Vorbemerkungen Ein Experiment / Versuch wird typischerweise charakterisiert durch die betrachteten Versuchseinheiten und Behandlungen sowie deren Zuordnung und den gemessenen Größen. Beispiele Behandlung Versuchseinheit Schlafmittel Proband Futtermittel Kuh Tumorart Labormaus Weizensorte Feld Markus Pauly (University of Ulm) Versuchplanung Zielgröße Schlafdauer Milchertrag Überlebenszeit Ernteertrag Sommersemester 2015 Variationen Erinnerung: Primärvariation: Systematische Variation der Zielgröße hervorgerufen nur aufgrund der interessierenden Faktoren Sekundärvariation: Systematische Variation der Zielvariable hervorgerufen durch die Störfaktoren (nicht durch die interessierenden Faktoren) Fehlervariation: Unsystematische Variation der Zielvariable, die weder auf den Einfluss von (identifizierbaren) Stör- noch auf die Manipulation der interessierenden Einflussfaktoren zurückzuführen ist. Was Primär- und Sekundärvariation ist wird im Vorfeld durch Festlegung der interessierenden Faktoren/Einflussgrößen bestimmt! Wir fassen die letzten beiden meistens zur Fehlervariation (im weitesten Sinne) zusammen. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Primärvariation Bemerkung 3.1 (Zur Primärvariation ): Das Auftreten eines Effekts stellt man fest, indem man prüft, ob durch die Veränderung der Einflussgröße tatsächlich eine Veränderung der Zielgröße eingetreten ist Beispiel: Verringert sich die Leistung beim Basketball (Veränderung ZG) durch Verabreichung einer höheren Dosis Alkohol (Veränderung EG) Diese Unterschiede in den Messwerten der Zielgröße, nach denen wir eigentlich suchen, stellen idealerweise die Primärvariation dar. Leider kann nun aber die Variation der Einflussgröße auch durch Störfaktoren oder Versuchsfehler zu Stande gekommen sein. Diese ungewollte Variation (Fehlervariation) muss man kennen, um sie der eigentlich interessierenden Variation (Primärvariation) gegenüberstellen zu können. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Grundprinzipien der Versuchsplanung Das Hauptprinzip einer guten Versuchsplanung heißt i.d.R. auch Max-Kon-Min-Prinzip: I I I Maximiere die Primärvariation! Kontrolliere die Sekundärvariation! Minimiere die Fehlervariation! Für die letzten beiden Regeln verwendet man dabei typischerweise eine der folgenden DoX Grundprinzipien: Randomisierung Wiederholungen Blocking Faktorielles Prinzip Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Bermerkungen zu Max-Kon-Min Veranschaulichung von Max-Kon-Min-Prinzip: Sie sitzen in einer Bar und nehmen ein tolles Lied aus der Musikanlage war. Um dieses besser zu hören, können Sie entweder die anderen Gäste bitten, leiser zu sein (Reduzierung der Fehlervariation), oder die Anlage lauter aufdrehen (Erhöhung der Primärvariation). Die unerwünschte Fehlervariation (auch “Rauschen”) sollte möglichst gering gehalten werden, damit die zu erwartende Primärvariation (auch “Signal”) das Rauschen deutlich überwiegt. Falls die Fehlervariation jedoch nicht weiter verringert werden kann, und die Gefahr besteht, dass die Manipulation der Einflussfaktoren im Vergleich zu Störfaktoren und Versuchsfehler einen zu geringen Einfluss haben könnte, müssen Maßnahmen ergriffen werden, um den Einfluss der interessierenden Faktoren zu erhöhen (Erhöhung der Primärvariation). Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Maximierung der Primärvariation Auswahl von extremen Werten: Damit die Primärvariation möglichst groß wird, sollten möglichst unterschiedliche Werte der interessierenden Faktoren verwenden werden. Grund: Effekt der Änderung sollte das Rauschen überwiegen. Beispiele: Behandlungsdauer (kurz, lang), Temperatur eines Prozesses (tief, hoch) Diese Methode ist nur sinnvoll, wenn eine einfache monotone Beziehung zwischen ZG und EFen zu erwarten ist. Wahl möglichst “optimaler” Stufen der Einflussfaktoren. In der Praxis ist dies aber i.d.R. vorab nicht möglich. Deshalb: Auswahl möglichst vieler Stufen der Einflussfaktoren, denn: Je mehr Stufen wir untersuchen, um so genauer können wir die Beziehung zwischen Zielgröße und Einflussfaktoren (Quelle für die Primärvariation) beschreiben. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Kontrolle der Fehlervariation (im weitesten Sinne) Eliminierung (z.B. Lärm) Konstanthaltung (z.B. Licht) Verblindung. Beispiel: Doppelblindstudien, bei denen sowohl der behandelnde Arzt als auch der Patient nicht weiß, welches Medikament der Patient bekommen hat Randomisierung/zufällige Reihenfolge (randomization) Blockbildung/Parallelisierung, Zuordnung zu Blöcken mittels Rangfolgenbildung (blocking) Wiederholungsmessungen (repetition, repeated measurements) Umwandlung der Störfaktoren in Einflussfaktoren → zwei- oder mehrfaktorielle Pläne BEM: In der Regel werden Kombinationen obiger Techniken (abhängig von der Fragestellung) verwendet. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Eliminierung und Verblindung Untersuchungen werden oft in Laboratorien und nicht in der alltäglichen Umgebung durchgeführt, da sich dort Störfaktoren besser eliminieren lassen. Eine vollständige Eliminierung aller Störfaktoren ist jedoch i.a. nicht möglich. Beispiel 3.1 (Der Störfaktor Versuchsleitereffekt und Möglichkeiten der Eliminierung): Untersuchung von Rosenthal und Fode (1961): Studentischen “Versuchsleitern” wurde die Aufgabe gegeben, einer Gruppe von Versuchspersonen jeweils 10 Portraitfotos vorzulegen und anhand einer 20stufigen Skala (plus dem Wert 0 als Mitte) einschätzen zu lassen, wie erfolgreich die portraitierten Personen wären (+10 = extrem erfolgreich, -10 = extrem erfolglos). In einem Vorversuch mit anderen Versuchspersonen (und den 10 Fotos) war der Mittelwert der Einschätzungen exakt 0 gewesen. In der Hauptuntersuchung wurde eine Gruppe der Versuchsleiter dahingehend instruiert, dass der Mittelwert im Vorversuch -5 gewesen sei. Der anderen Versuchsleitergruppe wurde der Wert +5 als Vorinformation gegeben. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Eliminierung und Verblindung ⇒ Ergebnis: Wie erwartet erzielten die Versuchsleiter jeweils Ergebnisse, die deutlich vom Wert 0 abwichen und dabei jeweils in der Richtung der Vorinformation lagen ⇒ Eliminierung z.B. durch Verblindung! Bei einem sog. “Doppelblindversuch” weiss weder die Versuchsperson noch der eingesetzte Versuchsleiter, welche experimentelle Behandlung gerade abläuft. Übliches Vorgehen in der Biometrie. Erweiterung hiervon → Trippelblindversuch in der Biometrie: Auch das sog. monitoring committee (u.a. Auswertungsinstanz) bekommt nur die Daten ohne weitere Kenntnisse I I Vorteil: Obkektivität Möglicher Nachteil: Bei ethischen Verpflichtungen ggü Patienten in Arzneimittelstudien! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Konstanthaltung Manche Variablen, die sich z.B. in unkontrollierter Weise auf die Fehlervariation auswirken können, kann man nicht eliminieren. Beispiele: I I I I das Alter die Nationalität die bisherige Erfahrung von Personen die Beleuchtungsart und -stärke, wenn es darum geht, etwas zu sehen Anstelle der Eliminierung, versucht man hier die Größen (prinzipiell) konstant zu halten, indem man z.B. I I Personen ein und desselben Alters untersucht oder darauf achtet, dass immer dieselbe Beleuchtung vorhanden ist. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Konstanthaltung Beispiel 3.2 (Konstanthaltung): In einer Studie von Mayo (1950) wurde untersucht, ob eine Verbesserung der Arbeitsplatzbeleuchtung (Einflussgröße) zu einer Steigerung der Produktion (Zielgröße) in einem Industriebetrieb führt. Vorgehen: Vor Versuchsbeginn wurden die Produktionsleistungen an einer Kontrollgruppe unter “normalen” Beleuchtungsbedingungen erhobenen und anschliessend I mit denen einer Experimentalgruppe verglichen, die besonders gut beleuchtete Arbeitsplätze erhalten hatte. I Erstaunliches Ergebnis: Die Experimentalgruppe zeigte sowohl während des Experiments als auch nach dessen Abschluss (d.h. wieder unter “normaler” Beleuchtung) höhere Produktionsleistungen als die Kontrollgruppe! ⇒ Wahrscheinlicher Grund: Das Wissen um die Teilnahme an dem Versuch hat in der Experimentalgruppe zu (störenden) Motivationseffekten geführt! I ⇒ Dieser Effekt hätte vermieden werden können, wenn man auch die Kontrollgruppe mit in den Versuch aufgenommen, d.h. das Wissen um das “Gemessenwerden” konstant gehalten hätte. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Randomisierung Ein Experiment heißt randomisiert, wenn die Zuordnung der Versuchseinheit zur Behandlung einem bekannten (festen) Zufallsmechanismus unterliegt. Dieser Zufallsmechanismus heißt Randomisierung. Gründe: I I Durch die zufällige Zuteilung verhalten sich die Versuchseinheiten innerhalb einer Behandlung gleich (rechtfertigt die beliebte i.i.d. Annahme) Schutz vor Confounding (Mehr dazu gleich) ⇒ Randomisierung ist eines der wichtigsten Grundprinzipien einer guten Versuchsplanung Ein nicht-randomisierter Versuch heißt manchmal auch Quasi-Experiment. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel Beispiel 3.3 (Zur Randomisierung): Ordne 4 verschiedene Behandlungen3 (I)-(IV) 16 VUen zu 1 2 3 4 Verwende 16 verschiedene Blätter Papier; markiere 4 mit (I), 4 mit (II) etc., mische diese 16 Blätter und ziehe für jede VU zufällig ein Papier ohne Zurücklegen. “Markiere” die VUen von 1, . . . 16 und nehme die Einteilung nach der Realisierung einer multinomial-Mult4 (16, 14 , . . . , 14 )-verteilten Zufallszahl vor. Die ersten 4 VUen bekommen Behandlung (I), die nächsten 4 Behandlung (II) etc. Der Versuchsleiter entscheidet über die Zuteilung (ohne zusätzlichen Mechanismus) Was ist randomisiert? Erkennen Sie Unterschiede zwischen den Randomisierungen? 3 Faktor “Behandlung” hat 4 Stufen Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel Die letzten 2 Methoden sind nicht-randomisiert! Die Zuordnung hängt hier von einer (nicht-zufälligen) Reihenfolge der VUen oder dem (nicht-zufälligen) Bauchgefühl des Versuchsleiters ab! ⇒ Ich kann die zugehörigen Experimente nicht adäquat wiederholen, weil ich die VUen anders ordne oder ein anderes Bauchgefühl als der Versuchsleiter habe Die anderen beiden Methoden verwenden ein klar definiertes probabilistisches Modell und sind somit randomisiert. ⇒ Ich kann die zugehörigen Experimente statistisch äquivalent durch Verwendung derselben Randomiserungstechnik wiederholen. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Fragen und Bemerkungen zum Beispiel Bemerkung 3.2 (zum Beispiel): Unterschied zwischen Methode 1 und 2: I I I Bei der ersten Methode ist die Anzahl der VUen in den Gruppen jeweils 4 (fest) bei der zweiten Methode ist diese zufällig! Verschiedene Randomisierungen ⇒ Verschiedenen Designs! Übungsaufgabe: Wie erzeugen Sie die Realisierung einer Multinomial-Mult k (n, p1 , . . . , pk )-Verteilung, Pk , n ∈ N, k ≤ n, P pi ≥ 0, ki=1 pi = 1? Erinnerung: (xi ≥ 0, i xi = n) Multk (n, p1 , . . . , pk )(x1 , . . . , xk ) = n! k Y pxi i i=1 xi ! (3.1) Diskussion: Ist es nicht pervers dem Experiment durch Randomisierung noch mehr Zufall einzuimpfen? Wir wollen den Versuchsfehler doch eigentlich klein halten! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Randomisierung und Lottozahlen 1 8 15 22 29 36 43 2 9 16 23 30 37 44 3 10 17 24 31 38 45 4 11 18 25 32 39 46 5 12 19 26 33 40 47 6 13 20 27 34 41 48 7 14 21 28 35 42 49 In der ersten Stunde sollten Sie zufällig Lottozettel ankreuzen. Wir haben insgesamt 106 Lottotipps erhalten, die wir (vereinfacht) als unabhängige Tipps ansehen wollen. Frage von Interesse: Haben Sie die Zahlen wirklich zufällig generiert? Falls ja, so sollte die Anzahl der Kreuze auf dem äußeren Ring einer hypergeometrischen-h(24, 25, 6)-Verteilung folgen. ⇒ Da Sarah und ich dies im Vorfeld bereits angezweifelt haben, testen wir nun H0 : {P = h(24, 25, 6)}, wobei P “Ihre” Verteilung bezeichnet. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Randomisierung und Lottozahlen Histogram of Zähldichte Frequency 0 0.00 0.05 5 0.10 0.15 15 10 Frequency 0.20 20 0.25 25 0.30 30 Histogram of Data 0 1 2 3 4 5 6 7 Data Markus Pauly (University of Ulm) 0 1 2 3 4 5 6 7 Zähldichte Versuchplanung Sommersemester 2015 Randomisierung und Lottozahlen 0.25 25 0.30 30 Auszählung Zähldichte 20 In Gegenüberstellung ⇒ Randomisierung geht nicht so einfach “aus der Hand heraus”! 0.00 0 0.05 5 0.1010 Häufigkeit 0.15 15 0.20 Ergebnisse des χ2 -Anpassungstests: p-value=2.2 · 101−16 ! 0 1 2 3 4 5 6 7 Kreuze auf dem Rand Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Randomisierung schützt vor Confounding Erinnerung: Confounding = Der Effekt eines Faktors auf die Zielgröße kann nicht mehr von dem Effekt eines anderen Faktors unterschieden werden. Beispiel 3.4 (Koronare Herzkrankheit (KHK)4 ): Man möchte ein neues Medikament für KHK mit der kostspieligeren, invasiven Bypass-Operation vergleichen. I Zielgröße: Überlebenszeit (nach 5 Jahren; z.B.) I 100 Probanden haben ihr Einverständins zur Teilnahme gegeben. I Was kann passieren, wenn wir nicht randomisieren? I Der Gesundheitszustand der Patienten ist i.d.R. nicht homogen. ⇒ Durchführende Ärzte sind verleitet den “schwächeren” Patienten das Medikament zu geben und die “stärkeren” zu operieren. ⇒ Die Faktoren Behandlung und Gesundheitszustand werden confounded! I Wahrscheinliches Ergebnis: Schlechtere Überlebensrate in der Medikamentgruppe I 4 Sehr Vereinfacht nach Oehlert (2000) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Mehr zur Randomisierung Oben: Vereinfachte Sicht des Experiments als Zuordnung von VUen zu Behandlungen und Messung von Zielgrößen. Dies versteckt eine Vielzahl an zu beachtenden Punkten und Entscheidungen. Beispiele: I I I Werden die VUen innerhalb der Behandlungen nicht gleichzeitig verwendet, so kann man jeweils auch deren Verwendungsreihenfolge randomisieren Werden verschiedene Messinstrumente zur Bestimmung der Zielgröße verwendet, so kann man zusätzlich die Zuordnung zu den Messinstrumenten randomisieren. Werden die VUen an verschiedenen Orten verwendet, so kann man auch diese randomisieren! ⇒ Kann z.T. unübersichtlich werden! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Mehr zur Randomisierung Andere Möglichkeit: Wird vermutet, dass einer dieser Punkte die Zielgröße beeinflusst, so kann dies auch im Design des Versuchs berücksichtigt werden! Beispiel hierfür später: Blocking! ⇒ Typisches Vorgehen: Designe das Experiment im Hinblick auf bekannte Probleme und randomisiere den Rest. “Randomization generally costs little in time and trouble, but it can save us from disaster.” Gary W. Oehlert Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Durchführung einer Randomisierung Frage: Wie führt man die Randomisierung durch? Physisch? I I I Münz- oder Würfelwurf (Manipulierte Größen?!) Ziehen von durchgemischten Blättern/Karten (Gut durchmischt?) “Ziehen” von VUen (Ganz schlecht wegen Inhomogenität der VUen) Numerisch? I I Mit (Pseudo)-Zufallszahlengeneratoren (deterministisch!) Die heutzutage verwendeten (in SAS oder R) besitzen aber eine sehr lange Periodizität und sind (aus statistischer Sicht) unkritisch! Später: In Kombination mit Blockbildung führen verschiedene Randomisierungen zu unterschiedlich “guten” Designs Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Blockbildung Manchmal ist es schwierig, den Einfluss von Störfaktoren zu eliminieren oder konstant zu halten. Man kann dann durch Blockbildung versuchen, die Gleichheit von Versuchsbedingungen bezüglich eines Störfaktors herzustellen. ⇒ Typisches Vorgehen: I I Zuweisung der Versuchseinheiten zu “homogenen” Blöcken, so dass die Variation der Einheiten bzgl. eines Störfaktors innerhalb jedes Blocks kleiner ist als die jeweilige Variation zwischen den Blöcken. Innerhalb jedes Blocks werden die Stufen der Einflussfaktoren per Zufall auf die experimentellen Einheiten verteilt Beispiele zur Blockbildung: I I I Parallelisierung (Matching) oder Repeated Measurements oder sogar eineiige Zwillinge (oder auch Drillinge, Vierlinge etc.) als Blöcke (da genetisch homogen) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Parallelisierung (Matching) Zunächst werden die Personen einer Stichprobe aufgrund von Messwerten eines als relevant erachteten Störfaktors in eine Reihenfolge (Rangreihe) gebracht. Danach werden aus je 2 Personen mit “benachbarten” Rangplätzen parallele Blöcke gebildet und die Behandlung innerhalb des Blocks zufällig bestimmt. Beispiel 3.5 (zur Parallelisierung5 ): Eine Psychologiestudentin möchte untersuchen, wie sich die Konzentration auf die prospektiven Gedächtnisleistungen auswirkt. Die Probanden werden durch Ablenkung oder keine Ablenkung (zweifach gestufter EF) in einen unkonzentrierten oder konzentrierten Zustand versetzt. Da das Alter einen zentralen Einfluss auf Gedächtnisleitungen hat, bringt sie die Probanden dem Alter nach in eine Rangreihe und bildet daraufhin Paare. Man sagt, dass das Alter eine blockbildende Variable bildet. Die Personen aus den Paaren werden dann jeweils zufällig einer der beiden Bedingungen (abgelenkt vs. nicht abgelenkt) zugeordnet. ⇒ Damit verteilt sich der Einfluss des Störfaktors “Alter” gleichmäßig auf die beiden Bedingungen und führt nicht zu systematischer Verzerrung der Messwerte der Zielgröße. 5 Quelle: TUD E-Learning Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Parallelisierung (Matching) VP Walter Jaqueline Sarah Dennis Edgar Markus Alter 64 23 25 26 71 35 Rang 2 6 5 4 1 3 Bedingung a Rang 1 Rang 4 Rang 6 Bedingung na Rang 2 Rang 3 Rang 5 Block B1 B2 B3 Die Zuweisung der Bedingung innerhalb jedes Blocks (Paars) geschieht dabei zufällig Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Repeated Measurements Hierbei werden an jeder Versuchseinheit (jedem Individuum) wiederholte Messungen (Repeated Measures) unter allen Bedingungen durchgeführt. Jede VE ist also ein eigener Block! BSP: Messung einer Konzentration im Blut zu verschiedenen Zeitpunkten bei Behandlung und nicht Behandlung Vorteile: I I I Einfluss von Störfaktoren gleich für alle Versuchseinheiten Kein Vortest zur Parallelisierung der Gruppe nötig Häufig: Relativ geringe interindividuelle Variation zwischen den Gruppen ⇒ Weniger Versuchseinheiten zur Feststellung eines Effekts nötig Nachteil: I Es können ungewünschte Übertragungseffekte (carry-over effects) auftreten; z.B. durch Lernen der VE oder Zerstörung eines Versuchsobjektes, die den eigentlichen Effekt von Interesse überlagen. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Wiederholungen Neben Randomisierung und Blocking zählt auch die Anzahl der unabhängigen Wiederholungen eines Versuchs mit den gleichen Faktorkombinationen zu den wichtigsten Grundprinzipien von DoX Gründe: I I Schätzungen (Effekte, Fehlervarianz etc.) werden genauer mit wachsender Fallzahl n (LLN) Bei Tests: Güte hängt von n ab (Fallzahlplanung) Zu unterscheiden von Repeated Measurements (Blockbildung durch Wiederholungsmessungen) ⇒ Obige Unabhängigkeitsforderung verletzt Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Faktorielles Prinzip Beispiel 3.6 (Basketball): Ich spiele gerne Basketball und liebe Statistiken Nehmen wir an, ich würde in jedem Training 100 Würfe (je 50 FWe und 3er) nehmen und meine erzielten Punkte (score) notieren Frage: Welche Faktoren haben “wirklich” Einfluss auf meinen score? Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Faktorielles Prinzip Beispiel 3.6 (Basketball) Ich spiele gerne Basketball und liebe Statistiken Nehmen wir an, ich würde in jedem Training 100 Würfe (je 50 FWe und 3er) nehmen und meine erzielten Punkte (score) notieren Frage: Welche Faktoren haben “wirklich” Einfluss auf meinen score? (A) Schuhe: Basketballschuhe vs. Laufschuhe (B) Ball: Profiball (Naturledergemisch) vs. Streetball (Gummigemisch) (C) Getränk: Wasser vs. Bier I Untergrund, Wind, Temperatur, Der Einfachheit halber betrachten wir nur die ersten 2 Faktoren A und B (mit je 2 Stufen) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Faktorielles Prinzip Angenommen ich habe noch keine Ahnung von DoX und wähle die OFAT-Strategie: Wähle baseline: Laufschuhe (=A ˆ + ) und Streetball (=B ˆ +) Aus Zeitgründen wollen wir nur 4 Beobachtungen je Faktorkombination wählen 12 Beobachtungen Faktorkombi A+ B + (baseline) A+ B − A− B + Scores 93, 90, 92, 93 92, 94, 91, 91 95, 92, 93, 91 Schätzung des Effekts von A durch A− B + − A+ B + ; hier: 95 + 92 + 93 + 91 93 + 90 + 92 + 93 − = 0.75 4 4 Schätzung des Effekts von B durch A+ B − − A+ B + ; hier: 0 Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Faktorielles Prinzip Angenommen ich hätte vorher doch ein Buch über DoX gelesen ⇒ Die Kombination A− B − ist auch zu schätzen Aus Zeitgründen wähle ich hier sogar “nur” 2 Beobachtungen je Faktorkombination 8 Beobachtungen in diesem faktoriellen 22 -Design (StufenFaktoren ): Faktorkombi A+ B + (baselie) A+ B − A− B + A− B − Scores 93, 90 92, 91 95, 92 100, 97 Schätzung des Effekts von A durch A− B ± − A+ B ± ; hier: 95 + 92 + 100 + 97 93 + 90 + 92 + 91 − = 4.5 4 4 Schätzung des Effekts von B durch A± B − − A± B + ; hier: 2.5 Schätzung der Wechselwirkung von AB: A+ B + − A+ B − − A− B + + A− B − ; hier 2.5. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Faktorielles Prinzip Fazit: Die Berücksichtigung aller Faktorkombinationen kann sehr wichtig sein! Insbesondere können Wechselwirkungen geschätzt (und später auch getestet) werden Bemerke: Die Effekte von A und B werden sowohl bei OFAT als auch beim faktoriellen Ansatz jeweils aufgrund von 8 Beobachtungen geschätzt ⇒ OFAT benötigt aber insgesamt 12 Beobachtungen anstelle von 8 bei obigen 22 -Design zur Schätzung beider Effekte! Faktorieller Ansatz viel effizienter! Man sagt auch: Die relative Effizienz von OFAT im Vergleich zum faktoriellen Ansatz ist 12/8 = 1.5 Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Regression to the mean Zu guter Letzt gehen wir noch auf einen weiteren Effekt ein, der die Gültigkeit von Untersuchungen beeinflussen kann. Mit Regression to the mean muss man immer dann rechnen, wenn man Untersuchungen an so genannten Extremgruppen durchführt. Häufige Versuchsanordnung dabei: 1 2 3 Bildung der zu untersuchenden Extremgruppe auf Grund einer Vorhermessung (Vortest) gebildet. Danach erhält diese Extremgruppe die experimentelle Bedingung (Behandlung). Im Anschluss daran wird ein Nachtest der Extremgruppe (vom ähnlichen Typ wie der Vortest) durchgeführt. Hierbei nimmt man an, dass der Vortest den Nachtest nicht beeinflusst, d.h. dass kein Testeffekt vorliegt. Wir verdeutlichen dies an einem Beispiel 3.7 (Cambell und Stanley (1963)): ... Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel zu Regression to the mean Ein Sportpsychologe vermutet, dass schlechte Leistungen im Hochsprung hauptsächlich durch die Angst vor dem Absprung bedingt sind. Zu diesem Zweck entwickelt er eine Methode zur Reduktion dieser Angst. Um seine Hypothese und die Effektivität seiner Angstreduktionsmethode zu überprüfen, geht er in eine Schule und führt dort zunächst eine Vorhermessung durch, indem er im Sportunterricht bei insgesamt 58 Schülern des gleichen Jahrgangs die Hochsprungleistung ermittelt: Höhe in cm 120 130 140 150 160 170 180 Anzahl Schüler 4 6 12 14 12 6 4 Es sind also vier Schüler 1,20 m hoch gesprungen, sechs Schüler 1,30 m hoch etc. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel zu Regression to the mean Nun wählt der Sportpsychologe die vier6 schlechtesten Hochspringer (Extremgruppe) aus (1.) und führt mit ihnen sein Verfahren zu Angstreduktion durch (2.). Im Anschluss daran lässt er diese vier Schüler wieder hochspringen (Nachhermessung) (3.) und findet dabei folgende Ergebnisse: I I I I Ein Schüler bleibt bei seiner Höhe von 1,20 m, einer verbessert sich auf 1,30 m, einer spring 1,40 m und ein ander springt jetzt sogar 1,50 m hoch. Die durchschnittliche Leistung dieser Gruppe verbessert sich also von 1,20 m auf 1,35 m. 6 sowieso schon viel zu kleine Fallzahl Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel zu Regression to the mean Wie kann man sich diese Leistungssteigerung erklären, wenn man davon ausgeht, dass (a) der Vortest keinen bedeutsamen Einfluss auf den Nachhtest ausgeübt hat und (b) die Variation des Einflussfaktors Angstreduktionsmethode, in Wahrheit keinen Effekt gehabt hat? ⇒ Bekanntlich sind Leistungen im Sport (aber nicht nur dort) Schwankungen unterworfen. Mögliche Erklärung also: Die schlechten Hochspringer hatten in obigem Beispiel einfach nur einen (unverhältnismäßig) schlechten Tag beim Vortest erwischt. Das Ergebnis beim Nachtest hätte natürlich auch noch schlechter werden können; die Wahrscheinlichkeit hierfür ist jedoch geringer, da wir annehmen, I I dass die Wahrscheinlichkeitsverteilung der gesprungenen Höhen gleich ist bei Vor- und Nachtestung, dass sich also an der Verteilung durch die (Angst-) Behandlung nichts verändert hat ((b) oben). Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel zu Regression to the mean Dies wird noch klarer, wenn man sich folgende hypothetischen Ergebnisse der anderen Schüler anschaut: Also: Die vier “Schlechtesten” aus dem Vortest verbessern ihre Leistung auf durschnittliche 1,35 m, die sechs “1,30 m–Springer” verbessern sich im Durchschnitt auf 1,40 m (im Nachtest);... die vier “Besten“ dagegen verschlechtern ihre Durchschnittsleistung auf 1,65 m (im Nachtest). Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel zu Regression to the mean Dieser Regressionseffekt zum Mittelwert ist typischerweise desto größer, je extremer die Gruppen im Vortest waren, denn: Nimmt man vereinfacht an, dass die Ergebnisse aller Schüler i.i.d. sind, so vergleicht man die Verteilung extremer Orderstatistiken (Vortest) mit der der Grundgesamtheit (Nachtest). Fazit fürs Beispiel: I I I I I Unser Sportpsychologe kann uns also nicht von der Effektivität seiner Angstreduktionsmethode überzeugen. Es lag hier wahrscheinlich nur ein Regressionseffekt vor: Die vier schlechten Hochspringer haben vermutlich beim ersten Mal überdurchschnittlich viel Pech gehabt. Dass sie dieses Pech beim zweiten Mal noch einmal haben würden, war ziemlich unwahrscheinlich (Schwankungen). Für die guten Hochspringer beim Vortest gilt das Umgekehrte (Schwankungen in die andere Richtung). Der Sportpsychologe hätte besser daran getan, entweder sämtliche 58 Schüler oder aber eine repräsentative Stichprobe dieser Schüler zu behandeln und dann nochmals zu untersuchen. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Modellierung Bemerkung 3.3 (zur statistischen Modellierung): Vor Versuchsdurchführung und -auswertung (hierzu später mehr) sollte man sich auch Gedanken über ein geeignetes Modell machen. Bei einer Fragebogenerhebung zum Stress im Studium mit jeweils 4 Antwortmöglichkeiten7 (2 = stimme vollständig zu, 1 = stimme eher zu, -1= lehne eher ab, -2= lehne vollständig ab) ist die Annahme normalverteilter Antworten (oder Summen) eher schlecht. Hier würde u.U. eine diskrete oder ganz nichtparametrisch, ordinale Annahmen mehr Sinn machen. Typische Modellannahmen: Lineare Modelle, GLMs, Regressionsmodelle etc. mit I I I parametrischer semiparametrischer oder nichtparametrischer Verteilungsannahmen. 7 sog. Forced Choice da gerade Anzahl; oft ist aber eine weitere, neutrale Antwortmöglichkeit wie ”weder noch“ gegeben Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Modellierung Beispiel 3.8 (zu Modellen): Beispiele für ein parametrisches Modell: Y = µ + , normalverteilt. ein semiparametrisches Modell: Y = g(x) + , g ∈ G Funktionenklasse, normalverteilt ein nichtparametrisches Modell: Y ∼ F, F unbekannte Verteilung Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Bemerkung zur statistischen Modellierung Auch bei idealer Studienplanung ist das Anpassen eines statistischen Modells nur eine Approximation an die Realität, die sehr (viel zu) komplex ist. Wir wissen dabei nie mit Sicherheit, was das korrekte Modell ist. Wir können nur unser Bestes geben, dass das gefundene Modell eine angemessene Repräsentation der Realität ist. “All models are wrong, but some are useful.” George Box Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Kapitel 4: Erste Versuchspläne und statistische Auswertung Definition – Versuchsplan Ein Versuchsplan gibt Auskunft über I Anzahl und Stufen der Einflussfaktoren (kurz: Faktoren) I die Häufigkeit der Messungen der Zielgröße und I die vor Versuchsbeginn erfolgte Verteilung der Versuchseinheiten auf die unterschiedlichen Versuchsbedingungen (Versuchsgruppen). Definition 4.1 (Versuchsplan): Ein Versuchsplan gibt an, an wie vielen Gruppen von Versuchseinheiten wie oft die Darbietung der Stufen der Faktoren (und deren Anzahl) vorgenommen und die Einflussgröße gemessen werden muss und welche Kontrolltechnik(en) verwendet werden sollen. Versuchseinheiten können z.B. Menschen, Probanden, Tiere, Pflanzen, Zellkulturen, Felder, Materialproben jeglicher Art (Flüssigkeiten, Pulver, Einzelteile einer Massenproduktion etc.) sein. Sie können entweder nur einfach aber auch mehrfach (unter derselben oder unter verschiedenen Stufenkombinationen) beobachtet werden. Der Versuchsplan dient als Grundlage für die spätere Auswertung, da je nach eingesetztem Plan andere statistische Methoden zu verwenden sind. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Versuchsplan – Bemerkungen Im Folgenden: Beispiele für erste einfache Versuchspläne Terminologie: I I I I I → → → → → Faktoren: A, B, C usw. Stufen dieser Faktoren: i = 1, . . . , a, j = 1, . . . , b, k = 1, . . . , c, etc. Versuchseinheiten: Vs , s = 1, . . . , n (oder auch mehrfach indiziert) Zugehörige Messwerte: Ys , s = 1, . . . , n (auch mehrfach indiziert) Art der Zuweisung der V ’s zu Faktoren-Stufen-Kombinationen; z.B. O: Die Versuchseinheiten werden ohne bestimmte Kontrolltechnik (z.B. direkt durch den Versuchsleiter) zugeteilt R: Die Versuchseinheiten werden zufällig mittels Randomisierung verteilt B: Die Versuchseinheiten werden mittels Blocking verteilt. RB: Randomized-Block-Design . . . später mehr. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Einfacher 1-Gruppenplan Ein Faktor A mit einer Stufe und 1x-iger Messung pro (unabhängiger) Versuchseinheit. Faktor A Stufe 1 Versuchseinheit 1 V1 .. .. . . Versuchseinheit n Vn Zuweisung hier typischerweise O, da die Gruppe so untersucht wurde wie sie in der Natur vorkommt. Obiges Vorgehen entspricht typischerweise dem Erkenntnisgewinn im alltäglichen Leben8 .... 8 es darf auch n = 1 gelten :) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Einfacher 1-Gruppenplan Beispiel 4.1 (Einfache 1-Gruppenpläne): Familie Müller benutzt seit Jahren die Zahncreme Exonal und der Zahnarzt hat seitdem nicht mehr gebohrt ⇒ Erklärung im Alltag typischerweise: Die gute Zahncreme (EF) erklärt die erfahrene Zahnbehandlungen (ZG). ⇒ Eine andere plausible Erklärung: Bessere bzw. besonders gesunde Ernährung (Störfaktor) seit Jahren. Der Fußballverein SSV hat seit seinem Aufstieg in die Bundesliga immer noch denselben Trainer und jetzt die Meisterschaft errungen. ⇒ Eine Alltagserklärung: Der Trainer (EF) hat die Meisterschaft (ZG) gewonnen. ⇒ Hier könnten aber auch andere Gründe (SF) wichtiger für den Erfolg gewesen sein; z.B. der Torwart oder ein besonderer Spieler oder... Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Einfacher 1-Gruppenplan Probleme dieses Versuchsplans: I I Fehlen einer Vergleichsmöglichkeit: Man kann quasi nur mit der (nicht genau gemessenen) Erinnerung vergleichen und damit Effekte nicht wirklich bestimmen Da weder Kontrollen (d.h. Kontrolltechniken) noch Vergleiche (d.h. Vergleichsgruppen) vorhanden sind, kann man z.B. nicht prüfen, ob eine Gruppe ohne Behandlung vielleicht genau dieselben Messwerte ergeben hätte. ⇒ Das “Ergebnis” (welches eigentlich keines ist) kann nicht auf andere Situationen übertragen (generalisiert) werden. Da man hierbei den Effekt nicht bestimmen kann, ist dieser Versuchsplan der einmaligen Untersuchung einer Gruppe (egal wie genau gemessen wird) für wissenschaftliche Untersuchungen i.d.R. ungeeignet und wertlos. Ausnahme: Man interessiert sich nur für das Schätzen (von Funktionen) der Wahrscheinlichkeit p für das Auftreten eines bestimmten Ereignisses ⇒ Tafel! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Paariger 1-Gruppenplan Ein Faktor A mit 2x-iger Messung pro (unabhängiger) Versuchseinheit. Typisch: Messung vor und nach Behandlung bei je n Patienten. Faktor A Stufe 1 2 Block 1 = Versuchseinheit 1 V1 V1 .. .. .. . . . Block n = Versuchseinheit n Vn Vn Zuweisung hier in der Praxis leider häufig auch O, da nur eine Gruppe vorliegt. Es gibt aber Möglichkeiten: Zwillingsforschung: Hier stellt ein Zwillingspaar als Block eine VE dar. Die Behandlung könnte dann nur an einem zufällig ausgewählten Zwilling randomisiert durchgeführt werden; analog bei Körperhälften: z.B. rechtes Auge vs. linkes Auge Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Paariger 1-Gruppenplan Faktor A Faktor Versuchseinheit 1 2 1 V1 V1 .. .. .. . . . n Vn Vn Möchte man (wie häufig) Aussagen über die Grundgesamtheit aller Versuchseinheiten (Patienten) machen, so ist der obige paarige 1-Gruppenplan genau genommen ein sog. Mischplan, bei dem neben dem festen Faktors A mit 2 Stufen ein zufälliger Faktor (Patient) mit n Stufen vorliegt. Dabei sind die Stufen der beiden Faktoren jeweils komplett gekreuzt, d.h. die Stufen bilden ein kartesisches Produkt, bei dem jede Stufe des einen Faktors mit jeder Stufe des anderen Faktors kombiniert ist. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Paariger 1-Gruppenplan Vorteile dieses Versuchsplans: I I I Vergleichsmöglichkeit vorhanden: Es liegt ein echter (und kein „fiktiver“) Vergleich von zwei Messwerten, auf den sich unsere weiteren Überlegungen stützen können, vor. Typische Effektmessgröße: Differenz 1.Messung - 2.Messung Bei Zwillingen: Anwendung von Kontrolltechniken möglich. Mögliche Nachteile des Versuchsplans (bei O): Aufgrund fehlender Kontrolltechniken können sich auch rivalisierende Erklärungsmöglichkeiten für etwaige Effekte auszeichenen. → Mögliche Vermischung mit Störvariablen wie I F F F F I Zeiteinflüsse Testeffekte (auch Reihenfolge) Veränderungen der Messinstrumente etc. Beispiel:... Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Paariger 1-Gruppenplan Beispiel 4.2 (Paariger 1-Gruppenplan): Einführung neuer Mathematik-Bücher für die Oberstufe. Im ersten Halbjahr wird der LK von Lehrer Müller nach dem alten Buch und im 2. nach dem neuen Buch unterrichtet. Im Anschluss stellt man fest, dass sich die Schüler im 2. Halbjahr im Durchschnitt verbessert haben ⇒ Gewünschte Erklärung: Der Effekt ist auf das Lehrbuch zurückzuführen. Mögliche Probleme mit dieser Erklärung: Zeiteinflüsse: Noten können mit den Jahreszeiten schwanken (Versetzung!); der Stoff des 1. Halbjahres könnte schwerer sein als der des 2. I Testeffekte: Motivation zu besserem Lernen durch schlechte Noten im ersten Halbjahr. I Versuchsleitereffekt: Lehrer hat durch den auch für ihn neuen Input mehr Spaß am Lernen und motiviert dadurch die Schüler besser als zuvor oder... I benotet dadurch besser (Veränderungen der Messinstrumente) ⇒ Beheben z.B. durch Unterrichten von 2 verschiedenen (1x nach altem und 1x nach neuem Buch) unabhängigen Kursen gleichzeitig (mit zufällig zugewiesenen Schülern) I Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Einfacher 2-Gruppenplan Ein Faktor A mit zwei Stufen und 1x-iger Messung pro Versuchseinheit. Der Faktor A beschreibt hierbei i.d.R. die Gruppenzugehörigkeit und es werden zusätzlich noch die Stichprobenumfänge mit angegeben. Typisches Beispiel: Vergleich mit einer Kontrollgruppe Faktor A Stufe (Gruppe) 1 2 Stichprobenumfang n1 n2 V11 V21 .. .. Versuchseinheiten . . V1n1 V2n2 BEM: Vij steht für VE j = 1, . . . , ni in Gruppe i = 1, 2. Die Güte dieses Versuchsplans hängt auch wieder von der Zuweisung der VE ab! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Einfacher 2-Gruppenplan – vorgegebene Gruppen Nehmen wir zunächst an, dass es sich um vorgegebene, d.h. nicht zufällig zusammengesetzte Versuchsgruppen handelt. Beispiel 4.3 (Einfache 2-Gruppenpläne): I Forscher der Universität möchten den Effekt bestimmter indischer Rechentechniken auf das Lösen von Rechenaufgaben bei Schülern der 4. Klasse untersuchen. Dafür werden 10 Schüler einer privaten Grundschule ausgewählt und über 4 Wochen nach der indischen Methode unterrichtet. Als Kontrollgruppe werden 10 Schüler einer städtischen Grundschule herangezogen. Im Anschluss an die Intervention werden in beiden Gruppen identische Mathematikests geschrieben und bewertet. Schneidet die Interventionsgruppe besser ab als die Kontrollgruppe, so möchten die Forscher im Anschluss eine umfangreiche bundesweite Studie durchführen. I Matheson et al. (1978):9 Es soll der Effekt der Gefangenschaft auf das Verhalten einer Antilopenart untersucht werden. Hierzu wird die Herde einer wild lebende Antilopenart (Versuchsgruppe) mit einer bereits längere Zeit im Zoo lebenden Gruppe (Kontrollgruppe) verglichen. (Messung über ein Score-System). 9 Experimental psychology: Research design and analysis. 3rd edition. New York: Holt, Rinehart & Winston Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Einfacher 2-Gruppenplan – vorgegebene Gruppen Das zweite Beispiel hat dabei die zusätzliche Besonderheit, dass der Einflussfaktor nicht vom Versuchsleiter selbst manipuliert werden kann! Zwischenfragen: Was sind im Beispiel Ziel- und Einflussfaktor und wie sind diese skaliert? ZF: Lösen von Rechenaufgaben (ordinal: Schulnote nach Mathetest); EF: Unterrichtsmethode (nominal: indisch oder klassisch) ZF: Verhalten (ordinal: Score-System zum Verhalten); EF: Gefangenschaft (nominal: ja oder nein) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Einfacher 2-Gruppenplan – vorgegebene Gruppen Das zweite Beispiel hat dabei die zusätzliche Besonderheit, dass der Einflussfaktor nicht vom Versuchsleiter selbst manipuliert werden kann! Genauer: Hier wird im Anschluss (ex post) an die – in Form eines Naturereignisses (Wildbahn) – auftretende bzw. bereits vorliegende faktenschaffende Behandlung (facto) gemessen. Anordnungen, in denen nur noch die Wirkung einer bereits zuvor stattgefundenen (nicht selbst herbeigeführte) Behandlung gemessen werden kann, heißen deshalb auch Ex-post-facto-Anordnungen. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Einfacher 2-Gruppenplan – vorgegebene Gruppen Vorteile dieses Versuchsplans: Vergleichsmöglichkeit vorhanden: Es liegt ein echter (und kein „fiktiver“) Vergleich von zwei Messwerten, auf den sich unsere weiteren Überlegungen stützen können, vor. Typische Effektmessgröße: Differenz Gruppe 1 - Gruppe 2 Im Vergleich zum Paariger 1-Gruppenplan (Vorher-Nachher-Messung): I Die Störvariablen F F F Testeffekte, Veränderung der Messinstrumente und Regression to the mean treten hier typischerweise nicht auf. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Einfacher 2-Gruppenplan – vorgegebene Gruppen Mögliche Nachteile des Versuchsplans (bei O): Aufgrund fehlender Kontrolltechniken können sich auch rivalisierende Erklärungsmöglichkeiten für etwaige Effekte auszeichenen. Auswahlverzerrungen: Unähnlichkeit der beiden vorgegebenen Versuchsgruppen bereits vor Durchführung des Experiments → Im ersten Beispiel könnten die Schüler der privaten Schulen vielleicht aufgrund der dort besseren Betreuungssituation schon zu Beginn über bessere Rechenkenntnisse verfügen. Confounding: Wallin et al. (1985) haben die Verbesserung der Dehnfähigkeit der rückseitigen Oberschenkelmuskulatur durch verschiedene Dehnübungen (dynamisch vs. statisch) überprüft. Die dynamisch Gruppe dehnte durch Rumpfbeugen; die statische durch auflegen des zu dehnenden Beines im Stehen auf einen Tisch. Ergebnis: Statisches Dehnen ist effektiver. Allerdings so nicht haltbar, da hier zwei Faktoren confounded worden: Stretchingtechnik (statisch vs. dynamisch) und Ausführungsformen (Rumpfbeuge vs. Fuß auf dem Tisch). Man hätte identische Ausführungen wählen müssen! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Einfacher 2-Gruppenplan – vorgegebene Gruppen Mögliche Nachteile des Versuchsplans (bei O): Aufgrund fehlender Kontrolltechniken können sich auch rivalisierende Erklärungsmöglichkeiten für etwaige Effekte auszeichenen. Experimentelle Einbußen: Die Gruppen könnten zwar vor Beginn des Experiments ähnlich sein, sich während der Durchführung aber in ungleicher Weise dezimieren, so dass sie nicht mehr wirklich vergleichbar sind. → Im vorherigen Beispiel könnten sich die “unsportlichen” Teilnehmer beim Dehnen je nach Technik in einer Gruppe häufiger verletzt haben, so dass in dieser nur Ergebnisse der sportlicheren Versuchspersonen vorliegen ⇒ Die obigen Probleme lassen sich i.d.R. durch geeignete Kontrolltechniken (insbes. randomisierte Zuweisung zu den Gruppen) und ausreichende Fallzahlplanung (kommt jetzt gleich) beheben. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Auswertung von verbundenen und unverbundenen 2-SPenproblemen Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Das verbundene 2SPenproblem Nomenklatur I Beobachtungen F Yk = (Y1k , Y2k )0 k = 1, . . . , N unabhängige Wiederholungen Statistisches Modell I I I Yk = µ + k µ = (µ1 , µ2 )0 = E(Y1 ) Erwartungswertvektor Klassische Annahme: i.i.d. i ∼ N(0, Σ) 1 ≤ k ≤ N (4.1) mit unbekannter, positiv definiter Kovarianzmatrix Σ (i.Z. Σ > 0) Test für H0 : {µ1 ≤ µ2 } (oder {µ1 = µ2 }, {µ1 ≥ µ2 }) ? Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Der verbundene 2SPen-t-Test Einseitiges Testproblem: H0 : {µ1 ≤ µ2 } vs. H1 : {µ1 > µ2 } I I Setze Dk = Y1k − Y2k Teststatistik T pair = F F DN √ Spair / N (4.2) P mit D N = N −1 Nk=1 Dk P 2 Spair = (N − 1)−1 Nk=1 (Dk − D N )2 I = ˆ Statistik des 1-SPen-t-Tests in den Differenzen. Paariger t-Test für H0 : ϕN = 1{T pair > tν,α }, ν = N − 1, tν,α = (1 − α)-Quantil der tν -Verteilung I Begründung und Eigenschaften? Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Der verbundene 2SPen-t-Test Analog: Einseitiges Testproblem: H0 : {µ1 ≥ µ2 } vs. H1 : {µ1 < µ2 } I Unterer paariger t-Test: ϕN = 1{T pair < −tν,α } Zweiseitiges Testproblem: H0 : {µ1 = µ2 } vs. H1 : {µ1 6= µ2 } I Zweiseitiger paariger t-Test: ϕN = 1{|T pair | > tν,α/2 } Konfidenzintervalle für δ = µ1 − µ2 (Übung!) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Allgemeinerer Fall – Nicht-Normalverteilte Fehler Neues Modell stu k ∼ F , F unbekannte 2-dim Verteilung mit Σ = Σ(F ) > 0. (4.3) Satz 4.0 (Asymptotik): Der paarige t-Test bleibt im Modell (4.3) asymptotisch korrekt, d.h. Eµ (ϕN ) → α1{µ1 = µ2 } + 1{µ1 > µ2 }. (Beweis an der Tafel) Allerdings: Finit nur Approximation; z.T. schlecht bei schiefen Verteilungen Mögliche Verbesserung: Randomisierung → Randomisations-t-Test I Vertausche für jede Beobachtung (Yk )k die Koordinaten zufällig → (Yksign )k (randomisierter Vektor) I (Bedingte) Quantile von T ((Y sign )i,k ) als kritische Werte k I EIG: Auch asymptotisch korrekt und sogar finit exakt bei 0-Symmetrie von D1 ! I Details: Vorlesung “Asymptotische Statistik” Andere Lösung (z.T. für ordinale Daten): (Wilcoxon-)Vorzeichen-Test oder paariger Brunner-Munzel (besser) Bei nominalen Daten: McNemar Test oder χ2 -Test Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Der verbundene 2SPen-t-Test – Fallzahlplanung Ziel (Fallzahplanung): Wähle bei gegebenen Fehler 1.Art (i.d.R. α = 0.05 oder 0.01) die Stichprobe N so groß, dass ein klinischer relevanter Effekt ∆ mind. mit WS 1 − β erkannt wird (typisch β = 0.1 oder 0.2). Bem: Dies hängt stets vom Modell und Testverfahren ab! Hier betr. wir nur ϕN im Modell (4.3). Messung des Effektes durch µd = µ1 − µ2 Gründe für Fallzahlplanung: I I Ethischer Natur (unnötige Belastung von Probanden verhindern) Ökonomischer Natur (je größer die Fallzahl desto teurer die Studie) Fallzahlplanung immer vor der Durchführung der Studie (mit ins Protokoll aufnehmen) Intuitiv klar: Je kleiner der zu erkennende Effekt ∆, desto größer muß N gewählt werden. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Weiter an der Tafel. . . Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Der verbundene 2SPen-t-Test – Fallzahlplanung σ̂ = Vorschätzung der Varianz (z.B. aus Literaturstudium); wird typischerweise bei der Berechnung noch variiert (±) Approximative Lösung im Modell (4.3) für einseitigen Test ϕN : N≈ (zα + zβ )2 σ̂ 2 . ∆2 (4.4) Für den zweiseitigen Test 1{|T pair | > tν,α/2 } erhält man analog: N≈ Markus Pauly (University of Ulm) (zα/2 + zβ )2 σ̂ 2 . ∆2 Versuchplanung (4.5) Sommersemester 2015 Inferenz für 2-SPenprobleme Der verbundene 2SPen-t-Test – Fallzahlplanung Beispiel 4.4 (Vorbeugung von Osteoporose): Zur Vorbeugung von Osteoporose bei postmenopausalen Frauen wird empfohlen mit Interventionen bei Vorliegen von Osteopenie (Vorstufe) zu beginnen. Wir nehmen an, dass die erwartete Knochendichte vor Behandlung bei -2 PBM (peak bone mass) liegt. Als klinisch relevant wird eine Verbesserung auf mind. -1.5 PBM angesehen. Für α = 0.05, β = 0.2 und eine Vorschätzung σ̂ 2 erhält man: N≈ (z0.05 + z0.2 )2 σ̂ 2 (1.645 + 0.842)2 2 ≈ σ̂ ≈ 24, 74σ̂ 2 0.52 0.52 Für eine Vorschätzung von σ̂ 2 = 1 würde man also N = 25 wählen. Häufig würde man aber konservativer planen... Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Der verbundene 2SPen-t-Test – Fallzahlplanung Entstammt die Vorschätzung σ̂ 2 aus einer vorangegangenen Studie an 2 , so ist m Patienten als zugehörige empirische Varianz sm # 2 (m − 1)sm 0, 2 χm−1,0.95 mit χ2m−1,α = (1 − α)− Quantil der χ2m -Verteilung, ein (approximatives) einseitiges 95% Konfidenzintervall für die wahre Varianz σ 2 (Zur Übung). Waren in der vorangegeangenen Studie also beispielsweise m = 50 Patienten und sm = 1, so könnte im Beispiel zur konservativeren Fallzahlberechnung auch der rechte Endpunkt als Vorschätzung σ̂ 2 = 49/χ249,0.95 ≈ 1.44 gewählt werden. Dies würde auf N ≈ d24, 74 ∗ 1.44e = 36 führen. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Exkurs: Wilcoxon-Vorzeichentest Modellannahmen und Nomenklatur I die Messwert-Paare Xi = (Xi1 , Xi2 ), i = 1, . . . , n, sind unabhängig Idee I I I Quantifizierung von besser bzw. schlechter lineares Modell Xij = µj + ij ij : i.i.d. mit E(ij ) = 0, 0 < Var (ij ) < ∞ Es reicht aus: Differenzen i2 − i1 sind 0-symmetrisch Effekt I µd = µ2 − µ1 Hypothese I H0 : µ d = µ 2 − µ 1 = 0 Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Exkurs: Wilcoxon-Vorzeichentest Idee und Berechnung der Statistik I I I I I I I I I Differenzen Di = Xi2 − Xi1 bilden (Vorsicht bei ordinalen Daten!!!) Null-Differenzen Di = 0 weglassen n∗ : Anzahl der Null-Differenzen Di = 0 n0 = n − n∗ Anzahl der Differenzen Di 6= 0 die Absolutbeträge der Differenzen |Di | = |Xi2 − Xi1 | rangieren d.h. den |Di | Ränge zuweisen → Ri+ bei Bindungen → Mittelränge R + : Summe der Ri+ , die zu Di > 0 gehören R − : Summe der Ri+ , die zu Di < 0 gehören R + + R − = n(n + 1)/2 die Differenz R + − R − beschreibt den Unterschied von µd zu 0. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Exkurs: Wilcoxon-Vorzeichentest Ablaufschema Indiv. Nr. 1 .. . Zeitpunkt 1 2 X11 X12 .. .. . . i .. . Xi1 .. . Xi2 .. . n Xn1 Xn2 Summen: R+ = Differenz VorAbsolutRänge Xi2 − Xi1 zeichen Betrag Ri+ X12 − X11 |X12 − X11 | R1+ .. .. .. .. . . . . Xi2 − Xi1 |Xi2 − Xi1 | Ri+ .. .. .. .. . . . . Xn2 − Xn1 |Xn2 − Xn1 | Rn+ X Ri+ , i:Xi2 −Xi1 >0 Markus Pauly (University of Ulm) Versuchplanung R− = X Ri+ i:Xi2 −Xi1 <0 Sommersemester 2015 Inferenz für 2-SPenprobleme Exkurs: Wilcoxon-Vorzeichentest Statistik / große Stichproben, n0 ≥ 15 R+ − R− . Wn+ = qP ∼ . N(0, 1) unter H0 (n0 → ∞) 2 n0 + i=1 Ri keine Bindungen ⇒ I n0 X Ri+ 2 = i=1 Wn+ = = n0 (n0 + 1)(2n0 + 1) 6 R+ − R− p n0 (n0 + 1)(2n0 + 1)/6 R + − n0 (n0 + 1)/4 . p ∼ . N(0, 1) unter H0 (n0 → ∞) n0 (n0 + 1)(2n0 + 1)/24 kleine Stichproben / n0 < 15 I Permutationsverfahren Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Exkurs: Wilcoxon-Vorzeichentest Voraussetzungen für die Anwendung des Tests I Stichproben * verbunden * Messwertpaare unabhängig I Daten * genau genommen metrisch! * lineares Modell (für eine gute Interpretation) * zu 0 symmetrische Verteilung der Fehler-Differenzen, Anmerkung I I I Test ist empfindlich auf die Annahme, dass die Fehler-Differenzen symmetrisch zu 0 verteilt sind schwierig überprüfbare Voraussetzung Wird oft falsch angewendet! Besser für ordinale Daten: F F P Vorzeichentest mit Prüfgröße ni=1 1{Xi1 < Xi2 } − 1{Xi1 > Xi2 } oder paariger Brunner-Munzel-Test (wirft weniger “Info” weg) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Das unverbundene 2SPenproblem Nomenklatur I Beobachtungen F F F Yik Zwei Gruppen: i = 1, 2 (= ˆ Ein Faktor A mit 2 festen Stufen) k = 1, . . . , ni unabhängige Wiederholungen N = n1 + n2 Beobachtungen Statistisches Modell I I I Yik = µi + ik µi = E(Yik ) Erwartungswert in Gruppe i Klassische Annahme: Versuchsfehler i.i.d. ik ∼ N(0, σ 2 ) i = 1, 2, 1 ≤ k ≤ ni (4.6) mit unbekannter aber gleicher Varianz σ 2 ∈ (0, ∞) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Der unverbundene 2SPen-t-Test Einseitiges Testproblem: H0 : {µ1 ≤ µ2 } vs. H1 : {µ1 > µ2 } I Teststatistik: T = F F F Y 1· − Y 2· q SN n11 + n12 (4.7) Pn mit Y i· = ni−1 k i=1 Yik P SN2 = (N − 2)−1 2i=1 (ni − 1)b σi2 gepoolter Varianzschätzer P ni 2 −1 2 σ bi = (ni − 1) k =1 (Yik − Y i· ) Varianzschätzer für Gruppe i I Einseitiger (oberer) t-Test: ϕN = 1{T > tν,α }, ν = N − 2. I Begründung und Eigenschaften? Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Der unverbundene 2SPen-t-Test Analog: Einseitiges Testproblem: H0 : {µ1 ≥ µ2 } vs. H1 : {µ1 < µ2 } I Einseitiger (unterer) t-Test: ϕN = 1{T < −tν,α } Zweiseitiges Testproblem: H0 : {µ1 = µ2 } vs. H1 : {µ1 6= µ2 } I Zweiseitiger t-Test: ϕN = 1{|T | > tν,α/2 } Konfidenzintervalle für δ = µ1 − µ2 (Übung!) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Allgemeinere Fälle – Heteroskedastizität stu ik ∼ N(0, σi2 ) I Var (11 ) = σ12 6= Var (21 ) = σ22 (Behrens-Fisher) ⇒ t-Test nicht mehr valide → Verwende Welch-Test10 mit I Teststatistik Y 1· − Y 2· T Welch = s σ b12 σ b2 + 2 n1 n2 I (4.8) geschätztem Freiheitsgrad σ b2 ν̂ = σ b22 2 n2 ) (b σ12 /n1 )2 (b σ22 /n2 )2 n1 −1 + n2 −1 ( n11 + (4.9) Eigenschaften: Asymptotisch korrekt; finit nur eine Approximation! 10 z.B. ϕWelch = 1{T Welch > tν̂,α } im 1-seitigen-oberen Fall N Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Allgemeinere Fälle – Nicht-Normalverteilte Fehler stu ik ∼ Fi , Fi unbekannte Verteilungsfunktion I Var (11 ) = σ 2 6= Var (21 ) = σ 2 ; beide in (0, ∞) 1 2 SATZ: Welch-Test bleibt asymptotisch korrekt11 (Begründung?) I Funktioniert bei symmetrischen Verteilungen und leichter Heteroskedastizität gut bei ni > 10 oder 20 I Finit nur Approximation; z.T. schlecht bei schiefen Verteilungen und negative Pairing Mögliche Lösung: Randomisierung → Welch-Permutationstest I Permutiere die gepoolten Beobachtungen (Yik )i,k zufällig → (Yikπ )i,k (permutierter Vektor) I (Bedingte) Quantile von T Welch ((Y π )i,k ) als kritische Werte ik I EIG: Auch asymptotisch korrekt und sogar finit exakt für F1 = F2 ! I VORSICHT: Funktioniert i.a. nicht mit T (oft falsch in Literatur) I Details: Vorlesung “Asymptotische Statistik” Andere Lösung (insbesondere für ordinale Daten): Wilcoxon-Test oder Brunner-Munzel-Neubert Bei nominalen Daten: Exakter Test von Fisher oder χ2 -Test 11 d.h. im oberen 1-seitigen Fall: ϕWelch → α1{µ1 = µ2 } + 1{µ1 > µ2 } N Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Exkurs: Odds-Ratio Bezogen auf den letzten Punkt betrachten wir in diesem Exkurs speziell folgende Kontingenztafeln von 2 binären Variablen: Anzahl mit Risiko ohne Risiko Y=1 Y=0 krank n11 n10 X=1 n11 n10 gesund n01 n00 X=0 n01 n00 Neben einer Analyse mit Fisher’s exaktem Test wird insbesondere in der Epidemiologie und Medizin bei Fall-Kontroll-Studien das sog. Odds-Ratio zur Rate gezogen. Dieses wird aus der gemeinsamen Verteilung Y=1 Y=0 X=1 p11 p10 mit Hilfe der sog. Odds bestimmt: X=0 p01 p00 Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Exkurs: Odds-Ratio Das Odds-Ratio wird aus der gemeinsamen Verteilung P(Y = i, X = j) X=1 X=0 Y=1 p11 p01 Y=0 p10 p00 als Qoutient sog. Odds für Y (gegeben X ), d.h. P(Y = ·|X = x), bestimmt, die man folgender Tabelle entnehmen kann P(Y = i|X = j) X=1 X=0 Y=1 p11 /(p11 + p10 ) p01 /(p01 + p00 ) Y=0 p10 /(p11 + p10 ) p00 /(p01 + p00 ) Das Odds-Ratio (oder cross-product ratio) erhält man schließlich als OR = p11 /(p11 + p10 ) p01 /(p01 + p00 ) p11 p00 / = . p10 /(p11 + p10 ) p00 /(p01 + p00 ) p10 p01 Man erhält dieselbe Größe offenbar auch, wenn man die Odds für X (gegeben Y ) zugrunde legt. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Exkurs: Odds-Ratio OR = p11 /(p11 + p10 ) p01 /(p01 + p00 ) p11 p00 . / = p10 /(p11 + p10 ) p00 /(p01 + p00 ) p10 p01 Ein natürlicher Schätzer hierfür ist gegeben durch d = n11 n00 . OR n10 n01 und asymptotische (1 − α)-Konfidenzintervalle erhält man z.B. mittels δ-Methode (Übung) als sog. logit-Intervall !# " r 1 1 1 1 d exp log(OR) ± zα/2 + + + n11 n10 n01 n00 Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Exkurs: Odds-Ratio Wir betrachten folgendes Beispiel einer Fall-Kontroll-Studie von Doll und Hill (1950), welches als erste Lungenkrebs mit Rauchen in Verbindung brachte: Anzahl Patienten die geraucht haben die noch nie geraucht haben mit Lungenkrebs 688 21 ohne Lungenkrebs (Kontrolle) 650 59 d ≈ 2.973, d.h. die “Chance” (bzw. das Chancenverhältnis) an Lungenkrebs ⇒ OR zu erkranken ist unter Rauchern ungefähr 3x höher als unter Nichtrauchern. Als asymptotisches 95%-KI erhält man hiermit [1.78, 4.95]. In der Praxis wird das (geschätzte) OR häufig mit dem (geschätzten) relativen Risiko verwechselt! Im oberen Fall ist dieses aber z.B. durch d= RR b P(Ereignis unter Rauchern) b P(Ereignis unter Nichrauchern) = 688 21 / ≈ 1.959 1338 80 gegeben. Obwohl RR etwas intuitiver ist, ist OR aufgrund des Auftretens in der logistischen Regression geläufiger. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Der unverbundene 2SPen-t-Test – Fallzahlplanung Back 2 Business: Fallzahlplanung im unverbnundenen Fall: Ziel (Fallzahplanung): Wähle bei gegebenen Fehler 1.Art (i.d.R. α = 0.05 oder 0.01) die Stichprobe (N = n1 + n2 ) so groß, dass ein klinischer relevanter Effekt ∆ mind. mit WS 1 − β erkannt wird (typisch β = 0.1 oder 0.2). Dies hängt wieder von Modell und Testverfahren ab! Hier betr. wir nur den t-Test unter Homoskedastitzität. Messung des Effektes wieder durch µd = µ1 − µ2 Zusätzliche Schwierigkeit im Vergleich zum paarigen Fall: κ := n1 /n2 ist i.a. nicht 1. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Der unverbundene 2SPen-t-Test – Fallzahlplanung Überlegungen wie zuvor mit vorgeschätzter Varianz σ̂ 2 führen auf Lösen von ∆ ! Φ q − zα = 1 − β. 1 1 σ̂ n1 + n2 Umformen wie zuvor und Einsetzen von n1 = κn2 (4.10) (für vorgegebenes κ) führt auf n2 ≈ (zα + zβ )2 σ̂ 2 (1 + 1/κ) . ∆2 (4.11) “Effizienteste” Wahl: Balanciertes Design mit κ = 1, denn... Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme ...die Güte des Tests wird bestimmt durch (und ist wachsend in) µd σ̂ q 1 n1 + 1 n2 . mit µd > ∆ > 0. Seien nun N, µd und σ̂ fest. Dann wird die Güte (in Abhängigkeit von n1 = λN, n2 = (1 − λ)N, λ ∈ (0, 1)) maximiert durch maximieren von 1 −1 n1 n2 1 = = λ(1 − λ)N. + n1 n2 N Differenzieren nach λ und Gleichsetzen mit 0 ergibt das Maximum (da die 2. Ableitung negativ ist) λ = 1/2, d.h. κ = 1. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Der unverbundene 2SPen-t-Test – Fallzahlplanung Bei balancierte Planung erhält man somit n1 = n2 ≈ 2 ∗ (zα + zβ )2 σ̂ 2 . ∆2 ⇒ Analoge Formel für den 2-seitigen Test zur Übung selbst herleiten Bemerkung: Aus verschiedenen I I ökonomischen (teure Behandlung) oder ethischen (Placebo für kranke Patienten) Gründen kann aber auch ein unbalanciertes Design erwünscht sein! Bemerkung: Bei randomiserten VPs kann dies durch die Art der Randomisierung gesteuert werden Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Beispiel 4.5 (Vergleich zweier blutdrucksenkender Mittel12 ): Zwei blutdrucksenkende Mittel A und B sollen in einer klinischen Studie an Hypertonikern hinsichtlich (mittlerer) Senkung des Blutdrucks nach vier Wochen untersucht werden. Dazu sollen durch Randomiseriung der Probanden zwei gleichgroße, unabhängige Therapiegruppen gebildet. Aus Literaturstudien sei bekannt, dass das Medikament A den Blutdruck von Hypertonikern im Mittel um etwa 10 mm Hg senkt. Aufgrund von Voruntersuchungen wird bei B mit einer stärkeren Senkung gerechnet. Als klinisch relevant wird eine Verbesserung um mind. 15 mm Hg angesehen. Aufgrund medizinischer Einschätzung kann eine Standardabweichung von 5 mm Hg für beide Medikamente bei der Blutdrucksenkung sowie eine Normalverteilung der Senkung bei Hypertoniker angenommen werden. Es sei α = 0.025 und β = 0.2. Ziel: Bestimmung von N! ⇒ Einseitiger oberer t-Test anwendbar; ∆ = 5: n1 = n2 ≈ 2 ∗ (z0.025 + z0.2 )2 52 ≈ 2 ∗ (1.96 + 0.84)2 ≈ 16. 52 ⇒ Obige Fallzahlplanung ergibt N = 32. 12 Quelle: Röhrig et al. (2010), Deutsches Ärzteblatt 107, 552-556 Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Bemerkung zu den beiden 2Spenproblemem Bemerkung 4.1 (paarig vs. unpaarig): Das paarige Desing beim verbundenen 2SPen-t-Test ist Spezialfall eines randomisierten Block Designs I I I I Block = ˆ “Relativ” homogene Versuchseinheit Hier: Ein Paar (Y1k , Y2k )0 = ˆ einem Block Beachte: Blocking hat u.U. Effekt auf Randomisierung! Mehr zu Block-Designs später Vorteile ggü dem unverbundenen Design + Automatisch balanciert (hat Designvorteile) + Eliminiert mögliche Blockeffekte! Genauer: Betrachte allgemeineres Modell mit stu Yk = µ + βk 12 + k , I 12 = (1, 1)0 , 1 ≤ k ≤ N (4.12) βk = ˆ Effekt von Block k , βk ∈ R bei festem Blockfaktor oder sonst βk i.i.d. mit E(β1 ) = 0, Var (β1 ) = σβ2 < ∞ und unabhängig von den k . Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Bemerkung zu den beiden 2Spenproblemem Blockeffekt in Yk = µ + βk 12 + k I I I I ändert die Verteilung der Differenzen Dk = Y1k − Y2k nicht und ändert die Verteilung der Statistik T pair nicht 2 schätzt die Varianz von Dk immer noch korrekt Grund: Spair Ganz anders bei der unverbundenen Statistik T (...Tafel?!) - Nachteil ggü dem unverbundenen Design Kleinerer Freiheitsgrad (ν = 2N − 2 beim unverbundenen) → Sind keine Blockeffekte vorhanden und die Daten unabhängig: ⇒ Schlechtere Power im Vergleich zum unverbundenen t-Test ⇒ Größere Konfidenzintervalle im Vergleich zu unverbundenen t-Intervallen I Bemerkung 4.2 (Blockeffekt): Der Fall stochastischer Blockeffekte wird bei der Modellierung des zufälligen Faktors Versuchseinheit verwendet. Das zugehörige Modell Yk = µ + βk 12 + k heißt dann auch gemischtes 2-Stichprobenmodell. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Beispiel mit möglichem Blockeffekt Beispiel 4.6 (CFU-Studie (1)): Bei 26 Patientinnen, die wegen eines Karzinoms in Behandlung sind wurden aus dem peripheren Blut sogenanntes Stammzell-Konzentrat gewonnen und eingefroren Dies ist ein typisches Vorgehen bei Chemotherapie zur Regeneration des hämatologischen Systems nach Behandlung Um zu messen, ob durch das Einfrieren wesentliche Eigenschaften der Stammzellen verlorengehen, wurde vor und nach dem Auftauen die Anzahl der CFU-GM13 (colony forming units) gemessen. Ergebnisse für Patientinnen mit hoher Vorbelastung... 13 wesenlticher Indikator Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Beispiel mit möglichem Blockeffekt Ergebnisse: Nr. Patient CFU-GM vor CFU-GM nach Nr. Patient CFU-GM vor CFU-GM nach Nr. Patient CFU-GM vor CFU-GM nach 1 1.6431 0.0001 11 0.4843 0.5776 21 2.3906 0.4021 2 2.5143 0.6760 12 0.3092 0.3048 22 0.5707 0.0001 3 3.2593 0.3797 13 0.0688 0.0087 23 2.5430 0.3114 4 0.8671 0.1769 14 0.0666 0.0142 24 1.4143 0.0152 5 0.2489 0.7623 15 0.6747 0.0001 25 1.5365 0.3466 6 1.0408 0.2102 16 1.1980 0.3697 26 0.5133 0.1915 7 0.2229 0.2947 17 0.7455 0.2418 8 0.4363 0.3503 18 8.7576 0.7576 9 0.5056 0.0089 19 4.4324 0.4564 10 0.0167 0.089 20 4.2018 0.8875 Für PARC passt Modell (4.12) mit “beliebigen’ Fehlern u.U. besser Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Inferenz für 2-SPenprobleme Und ein weiteres Beispiel Beispiel 4.7 (γ-GT-Studie (1)): Bei 24 Patientinnen, denen wegen einer Gallenstein-Erkrankung (ohne Verschluss des Gallengangs) die Gallenblase entfernt wurde, hat man die Konzentration des γ-GT-Enzyms im Blut14 jeweils am Tag vor der Operation und eine Woche nach der Operation bestimmt. Nr. Patient γ-GT(Tag -1) γ-GT(Tag 7) 1 5 8 2 8 61 3 30 42 4 20 23 5 17 18 6 17 36 7 114 6 8 7 10 9 275 59 10 8 12 11 15 43 12 5 11 Nr. Patient γ-GT(Tag -1) γ-GT(Tag 7) 13 14 18 14 11 22 15 27 26 16 11 59 17 18 30 18 14 22 19 19 53 20 75 47 21 11 12 22 8 30 23 26 29 24 11 43 Für PARC passt Modell (4.12) hier auch nicht mehr so gut (außer zufälliger Faktor mit großer Streuung, da viel ±) Weiter Möglichkeiten: Entweder id. Struktur anpassen, robuste Methode wählen oder... 14 Diskussion über andere Faktoren! Ein hoher GGT-Blutwert weist auf eine Gallen- oder Lebererkrankung hin Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Kapitel 5: Randomisierte 1-faktorielle Designs Hier behandeln wir zunächst einfache Versuchspläne mit nur einem variierenden Faktor A mit a ≥ 2 verschiedenen Stufen. Der Fall a = 2 führt auf den 2-Gruppenplan aus dem vorherigen Kapitel. Um die dortigen Nachteile bei vorgegebenen Gruppen zu umgehen, wird hier Randomisieung als (zunächst15 ) einzige Kontrolltechnik verwendet. Erinnerung: Randomisierung soll I I I 15 die Versuchseinheiten zufällig den verschiedenen Stufen (Versuchsbedingungen) zuweisen, um so mit großer WS zu garantieren, dass sich Einflüsse von Störvariablen zufällig verteilen, um schwerwiegende Fehlinterpretationen bei der anschließenden statistischen Inferenz zu verhindern. Später: Andere Techniken + Kombinationen bei komplexeren Anlagen Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Der einfaktorielle Plan (CR1F bzw. CRF-a) Die Abkürzung CR1F steht für ’Completely Randomized 1-Factorial Design’. Die N Versuchseinheiten werden zufällig den a Faktorstufen zugeteilt (randomoisiert): Faktor A Stufe (Gruppe) 1 ··· a Stichprobenumfang n1 · · · na V11 Va1 .. .. Versuchseinheiten . ··· . V1n1 Klassische Anwendung z.B. (Diskussion!) Behandlung Schlafmittel Futtermittel Tumorart Weizensorte Markus Pauly (University of Ulm) Versuchseinheit Proband Kuh Labormaus Feld Versuchplanung Vana Effekt Schlafdauer Milchertrag Überlebenszeit Ernteertrag Sommersemester 2015 Beispiele Beispiel 5.1 (Anzahl der Corpora Lutea16 ): In einer Fertilitätsstudie an 92 weiblichen Wistar-Ratten sollten unerwünschte Wirkungen einer Substanz (Verum) auf die Fertilität untersucht werden. Das Verum wurde in vier Dosisstufen gegeben und mit einem Placebo verglichen. Nach der Sektion der Tiere wurde unter anderem die Anzahl der Corpora Lutea bestimmt. Die Ergebnisse für die n1 = 22 Tiere der Placebo-Gruppe und die n2 = 17, n3 = 20, n4 = 16 und n5 = 17 Tiere der vier Verum-Gruppen entnehmen Sie der unteren Tabelle: Substanz Placebo Verum Dosis 1 Verum Dosis 2 Verum Dosis 3 Verum Dosis 4 16 Anzahl der Corpora Lutea 9, 11, 11, 11, 12, 12, 12, 12, 12, 12, 13 13, 13, 13, 13, 13, 14, 14, 14, 14, 15, 16 9, 10, 11, 11, 11, 11, 11, 12, 12, 12, 13 13, 14, 14, 14, 15, 15 9, 11, 12, 12, 13, 13, 13, 13, 13, 14, 14 14, 14, 14, 15, 15, 15, 15, 17, 17 6, 10, 11, 12, 12, 12, 13, 13, 13, 13, 14 14, 14, 15, 15, 16 9, 10, 11, 11, 11, 13, 13, 13, 13, 13, 14 14, 14, 14, 14, 15, 15 vgl. Brunner (2009) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiele Beispiel 5.2 (Dunkle Schokolade): In einer Studie von Serafini et al. (2003, Nature 424, 1013) wurde u.a. der Effekt von Schokolade auf die Gesundheit des Herz-Kreislauf-Systems gemessen. Hierzu wurde der Gehalt an herzschützenden Antioxidantien der Versuchsperson eine Stunde nach Verzehr von (I) 100g dunkler Schokolade, (II) 100g dunkler Schokolade und 200ml Vollmilch oder (III) 200g Milchschokolade gemessen. Wir nehmen vereinfacht an, dass die Studie aus 36 Teilnehmer bestand, die zufällig (aber balanciert) in eine der drei Verzehrgruppen randomisert wurden und das folgende Ergebnisse beobachtet wurden: Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Boxplot Schokolade Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiele Fragen von Interesse in beiden Beispielen (u.a.): Unterschieden sich die Gruppen signifikant? Und wenn ja, zwischen welchen Gruppen (Paarvergleiche)? Unterschiede zwischen den Beispielen: Im ersten Beispiel treten Bindungen auf und die Ausprägungen sind diskreter Natur. Dies ist im Schokoladenbeispiel jeweils nicht der Fall; hier könnte man die Annahme normalverteilter Daten rechtfertigen; im ersten auf keinen Fall ⇒ Man benötigt wieder unterschiedliche Auswertungsverfahren, auf die wir im Folgenden näher eingehen Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Erinnerung: Wahl des Auswertungsverfahrens Die Wahl der statistischen Inferenzmethode wird i.d.R. im Vorfeld durch Beantwortung der folgenden Fragen festgelegt: 1 Wie viele Faktoren enthält die Untersuchung? (hier: nur einen) 2 Wie viele Stufen hat (haben) der (die) Faktor(en)? 3 Welches Skalenniveau hat (haben) der (die) Faktor(en)? 4 Wie viele Zielgrößen sollen untersucht werden? (haüfig: nur eine) 5 Welches Skalenniveau hat (haben) die Zielgröße(n)? 6 Welche Kontrolltechnik soll im Versuch verwendet werden (Anordnung der Versuchseinheiten zu den einzelnen Stufen der Faktoren)? 7 Welche Fragestellung(en) soll(en) beantwortet werden? Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren One-Way ANOVA-Modell Beobachtungen I I Yik i = 1, 2, . . . , a (= ˆ Ein Faktor A mit a festen Stufen)P k = 1, . . . , ni unabhängige Wiederholungen, N = ai=1 ni Beobachtungen Statistisches Modell I (Additives) Fixed Effects Modell: Yik = µ + αi + ik I I (5.1) µ = Globaleffekt; αi = Effekt von Stufe i; ik zentrierte Zufallsfehler Klassische Annahme: Versuchsfehler i.i.d. ik ∼ N(0, σ 2 ) i = 1, . . . , a, 1 ≤ k ≤ ni (5.2) mit unbekannter aber gleicher Varianz σ 2 ∈ (0, ∞) ⇒ einfaches lineares Modell mit Normalverteilungsannahme Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren One-Way ANOVA-Fragestellung Statistisches Modell in Matrixschreibweise!(µ = (µ1 , . . . , µa )0 ): a M Y = (Y01 , . . . , Y0a )0 = (Yik )0i,k = 1ni µ + =: X µ + i=1 Wie der Name suggeriert, nehmen wir hier an, dass µ, αi ∈ R feste Effekte sind. Dann kann man folgende Hypothese testen H0 : {µ1 = · · · = µa } vs. H1 : {µi 6= µj für mind. ein Paar (i, j), i 6= j}. (5.3) Kann H0 signifikant abgelehnt werden, so würde man zusätzlich noch alle Paarvergleich durchführen, d.h. Testen von (i,j) H0 : {µi = µj } vs. (i,j) H1 : {µi 6= µj }, 1 ≤ i < j ≤ a. (5.4) Diskussion: Wie würden Sie (5.3) und dann (5.4) testen? Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren One-Way ANOVA Globaltest ist der ANOVA-F-test in der Statistik 1 Pa 2 „Variance between” i=1 ni (Y i· − Y ·· ) a−1 F = 1 Pa Pni ≈ 2 „Variance within” i=1 k =1 (Yik − Y i· ) (N−a) Diese besitzt im Fixed Effect Modell unter der Annahme i.i.d. ik ∼ N(0, σ 2 ) eine F (a − 1, N − a)-Verteilung unter der Nullhypohtese. ⇒ F-Test ist ϕN = 1{F > Fα (a − 1, N − a)}, wobei Fα (a − 1, N − a) das zugehörige (1 − α)−Quantil ist. ANOVA = Analysis of Variance. Ergebnis beim Schokoladenbeispiel: F = 67.75 und p − value = 2.07e − 12, d.h.? Heuristische Herleitung im Rahmen von linearen Modellen: gleich Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Bemerkung 5.1 (One-Way ANOVA): 1 Besitzt der Faktor sehr viel Stufen von Interesse, so würde man häufig nur eine Zufallsstichprobe der Größe a hieraus ziehen, um darauf basierend Schlüsse über alle Stufen zu ziehen. In diesem Fall würde man die Größen αi in (5.1) als zufällig modellieren (Random Effects Modell) und andere Nullhypothesen über deren Variabilität testen! → hierzu (wahrscheinlich) später mehr! 2 Zum Testen von (5.4) haben wir bereits verschiedene Inferenzverfahren kennengelernt. Das Problem hier ist jedoch die Multiplizität (Addition des Fehler’s 1. Art). 3 Der Name ANOVA kommt von der folgenden Aufteilung der empirischen Gesamtvarianz (sum of squares): ni a X X ±Y (Yik − Y ·· )2 =i· |i=1 k =1 {z SStotal Markus Pauly (University of Ulm) } a X |i=1 ni (Y i· − Y ·· )2 + {z SStreat Versuchplanung } ni a X X (Yik − Y i· )2 . |i=1 k =1 {z SSerror } Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Exkurs: Herleitung der One-Way-ANOVA Ausführlicher: In Stochastik 3! Interpretation der Effekte: µ = µ· I µi = µ· + αi , µ· = 1 a a X µi = 1 0 a 1a µ i=1 I I I P αi = µi − µ· (Abweichungen vom Globaleffekt), i αi = 0 α = (α1 , . . . , αa )0 = Ia − a1 Ja µ = Pa µ, Pa = Ia − a−1 Ja : zentrierende Matrix αi Effekt der Stufe i von A = Abweichung vom Mittelwert µ· Äquivalente Formulierung der Hypothese H0 : I I αi = 0, i = 1, . . . , a (kein Effekt des Faktors A) Matrizenschreibweise: α = 0 oder Pa µ = 0 Erinnerung: Das Statistische Modell als Lineares Modell: ! a M 0 0 0 0 Y = (Y1 , . . . , Ya ) = (Yik )i,k = 1ni µ + =: X µ + i=1 Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Exkurs: Das Lineare Modell Lineares Modell mit NVA Y = Xb + , I I I ∼ N(0, σ 2 IN ) (5.5) Y Vektor der N Beobachtungen b ∈ Rd Parametervektor X ∈ RN×d Designmatrix Beispiele: I I Modell der One-Way-ANOVA mit b = µ Vektor der Erwartungswerte Regressionsmodelle (X enthält die Regressoren) F Einfache lineare Regression: Yi = β0 + β1 xi + i , i = 1, . . . , N als lineares Modell: Y = Xb + , ∼ N(0, σ 2 IN ) 1 x1 β0 →b= und X = ... ... , r (X) = 2 β1 1 xN Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Exkurs: Schätzer für die Parameter im LM Unbekannte Parameter I I I b = (β0 , β1 , . . . , βd )0 - Regressionsmodell b = µ = (µ1 , . . . , µd )0 - Faktorielles Modell (d = a) σ 2 = Var (ik ), i = 1, . . . , d; k = 1, . . . , n b für b Schätzer b I I I b so schätzen, dass Y b = Xb b b Abstand haben PN und Ybminimalen 0 b b D = (Y − Y) (Y − Y) = i=1 (Yi − Yi )2 wird minimal Prinzip: kleinste Summe der Quadrate (least squares) D I I ∂ D bi ∂b = b 0 (Y − Xb) b = Y0 Y − 2b b0 X0 Y + b b0 (X0 X)b b (Y − Xb) = b=0 −2X0 Y + 2(X0 X)b d i=1 b = X0 Y Normalgleichungen: (X0 X)b b = (X0 X)−1 X0 Y Lösung (falls X0 X invertierbar ist): b Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren b Exkurs: Eigenschaften des Parameterschätzers b Satz von Gauß-Markov I Falls X0 X invertierbar ist, dann gilt b = b (erwartungstreuer Schätzer für b) 1. E(b) b minimale 2. Unter allen erwartungstreuen Schätzern für b hat b b Varianz (genauer: haben alle Komponenten von b minimale Varianz). b Verteilung von b I Falls Y ∼ N(µ, σ 2 IN ), mit µ = (µ1 , . . . , µd )0 , dann gilt b ∼ N(b, Σ), mit Σ = σ 2 (X0 X)−1 1. b b ∼ N(Hb, V), mit V = HΣH0 = σ 2 H(X0 X)−1 H0 2. Hb Spezialfall: Faktorielles Modell b = µ = (µ1 , . . . , µd )0 I I I b = (b b µ1P ,...,µ bd )0 n 1 µ bi = n k =1 Yik = Y i· b = (Y 1· , . . . , Y d· )0 b Markus Pauly (University of Ulm) (arithmetischer Mittelwert) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Exkurs: Varianzschätzer für σ 2 im LM Modell: Satz I Y = Xb + , E() = 0, Cov () = σ 2 IN Der Schätzer 1 Y0 [IN − X(X0 X)−1 X0 ]Y N − rg(X) ist erwartungstreu für σ 2 Falls ∼ N(0, σ 2 IN ) ist, dann gilt für die quadratische Form 1 0 N − rg(X) 2 Y [IN − X(X0 X)−1 X0 ]Y = σ b ∼ χ2N−rg(x) (0) Q = 2 σ σ2 σ b2 = I I Weiter gilt: b sind stochastisch unabhängig σ b2 und b b = (Y 1· , . . . , Y d· )0 Spezialfall: Faktorielles Modell: b I σ b2 = d n 1 XX (Yik − Y i· )2 N −d i=1 k =1 Markus Pauly (University of Ulm) Versuchplanung und N − rg(X) 2 σ b ∼ χ2N−d (0) σ2 Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Exkurs: Hypothesen Hb = 0 im LM testen Gedanken zur Herleitung eines Tests für H0 (H) : Hb = 0, H geeignete Hypothesenmatrix (z.B. Pd ) I I I I I I I I I I Formulierung der Hypothese Hb = 0 ist multivariat b schätzt Hb ; ist aber auch multivariat Hb → nicht als Testgröße geeignet äquivalente Formulierung: (Hb)0 (Hb) = b0 H0 Hb = 0 ⇐⇒ Hb = 0 die quadratische Form b0 H0 Hb ist eindimensional b 0 H0 Hb b untersuche die Verteilung von Q = b 0 2 b Hb ∼ N(Hb, V), mit V = HΣH = σ H(X0 X)−1 H0 wähle eine symmetrische Matrix A so, dass AV idempotent ist, so b0 H0 AHb b ∼ χ2 folgt (zur Übung∗ ) QH = b λ = b0 H0 AHb sp(AV) (λ), 0 unter H0 (H) : λ = 0 A0 = 0 wähle A = V+ = σ12 [H(X0 X)−1 H0 ]+ , [·]+ : Moore-Penrose Inverse b0 H0 [H(X0 X)−1 H0 ]+ Hb b ∼ χ2 (0) unter H0 (H) : Hb = 0 QH = σ12 b rg(H) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Exkurs: Der F -Test für Hb = 0 Modell: Y = Xb + , ∼ N(0, σ 2 IN ) Satz vom F -Test (für das feste Modell) I I I I I I b0 H0 [H(X0 X)−1 H0 ]+ Hb b ∼ χ2 (λ), λ = QH = σ12 b rg(H) Unter H0 (H) : Hb = 0 folgt QH ∼ χ2rg(H) (0) Q = σ12 Y0 [IN − X(X0 X)−1 X0 ]Y ∼ χ2N−rg(x) (0) QH und Q sind stochastisch unabhängig 1 QH /r (H) 2 QH /r (H) 5. FH = 1 σ = ist Q /[N − r (X)] Q /[N − r (X)] σ2 F (rg(H), N − r (X) | λ)− verteilt 6. Unter H0 (H) folgt FH ∼ F (rg(H), N − rg(X)) 1. 2. 3. 4. Markus Pauly (University of Ulm) Versuchplanung 1 0 0 + b H V Hb σ2 Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Exkurs: Der F -Test für Hb = 0 Spezialfall: Balanciertes faktorielles Modell: b = (Y 1· , . . . , Y d· )0 b n Pd 2 H0 (Pd ) i=1 (Y i· − Y ·· ) d−1 ∼ F (d − 1, N − d) FH = P P d n 1 2 i=1 k =1 (Yik − Y i· ) d(n−1) Man kann zeigen: Der unter der Alternative auftretende Zentralitätsparameter λ = σ12 b0 H0 V+ Hb hängt nicht von der speziellen Wahl der Hypothesenmatrix H ab! ⇒ Für festes N hängt die Güte “nur” von der Design Matrix X ab! Hierfür kann man zeigen: Der F -Test hat bei balancierter Aufteilung von N die größte Power! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Varianzanalysetabelle bei der One-Way-ANOVA Die auftretenden quadratischen Formen, Hypothesenmatrizen und Nichtzentralitätsparameter (hier im CRF-a Modell: Yik = µ + αi + ik ) stellt man häufig in sog. Varianzanalyse-Tabellen zusammen (wieder d = a): Faktor Matrix Quadratform Pa A a X ni Y i· − Y ·· Rang r E(Q/r ) 2 a−1 σ 2 + n · σα2 N −a σ2 i=1 a X n X Yij − Y i· 2 i=1 j=1 a Dabei gilt σα2 1 X 2 = αi mit σα2 = 0 unter H0 , d.h. die beiden a−1 i=1 Quadratformen schätzen in diesem Fall die gleiche Varianz σ 2 . Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Der ANOVA-F -Test – Fallzahlplanung Diskussion: Was ist ein praktisch relevanter Effekt? Man behilft sich z.B. der Approximation (SLLN) unter Alternative17 1 Pd 2 i=1 n(Y i· − Y ·· ) d−1 FH ≈ ∼ χ2d−1 (λ) σ2 P P für λ = nσ −2 di=1 (µi − µ)2 = nσ −2 di=1 αi2 P ind. Erinnerung: Xi ∼ N(ai , σ 2 ) ⇒ σ −2 di=1 Xi2 ∼ χ2d (λ) für P λ = σ −2 di=1 µ2i . P ⇒ Beschreibe relevanten Effekt durch ∆ = σ −2 di=1 (µi − µ)2 und ⇒ löse folgende approximative18 Gleichung nach n auf: P(χ2d−1 (n∆) > χ2α,d−1 ) = 1 − β. 17 18 Wir betrachten hier zur Vereinfachung nur den balancierten Fall Approximation auch für den kritischen Wert verwendet Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Der ANOVA-F -Test – Fallzahlplanung Wird in der Praxis doch häufig nicht so gemacht! Effekt ∆ = σ −2 d d X X (µi − µ)2 = σ −2 αi2 i=1 i=1 ist nicht so schön aus Anwendern herauszukitzeln: I I Kleiner Effekt von allen Gruppen oder großer Effekt von nur einer Gruppe führen bspsw. zum selben Effekt. Z.T. beobachtetes Vorgehen in der Praxis: I I Nur der Effekt für “den” relevanten 2-Gruppenvergleich wird angegeben und hiernach die Fallzahl berechnet. F -Test läuft quasi nur mit. Setze eine “konservative” minimale Differenz zwischen allen möglichen Paaren von Erwartungswerten µi in der Gleichung an. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Grenzen der One-Way-ANOVA Die One-Way-ANOVA beruht auf den sehr restriktiven Annahmen, dass I I die Varianzen innerhalb der Stufengruppen identisch sind, und dass normalverteilte Beobachtungen vorliegen. Bei der Auswertung des Schokoladenbeispiels sind wir vereinfacht davon ausgegangen. Schaut man sich die geschätzten Standardabweichungen an, erhält man dort jedoch (b σ1 , σ b2 , σ b3 ) = (3.53, 3.34, 4, 24), d.h. eine heteroskedastische Tendenz, die auch signifikant nachgewiesen werden kann19 Genauso kann die Nullhypothese normalverteilter Daten signifikant verworfen werden20 Noch deutlicher im anderen Beispiel des Kapitels. 19 Barlett’s Test verwirft die Nullhypothese gleicher Gruppenvarianzen zum Niveau 2.2e − 16 20 Der Shapiro-Wilk Test liefert einen p-Wert von 0.004129 Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Grenzen der One-Way-ANOVA Die One-Way-ANOVA beruht auf den sehr restriktiven Annahmen, dass I die Varianzen innerhalb der Stufengruppen identisch sind. Dies verursacht typischerweise die folgenden Probleme: I I I Bei positive Pairing21 ⇒ Der F -Test wird konservativer ⇒ Verlust an Güte Bei negative Pairing ⇒ Der F -Test wird liberal In balancierten Designs treten obige Probleme indes in abgeschwächter Form auf! Überprüfung in der Praxis I Schätzung der gruppenspezifischen Streuungen der Residuen b ik = Yik − Y i· . I Testen der Nullhypothese gleicher Gruppenvarianzen {σ12 = · · · = σa2 } mittels F Bartlett’s Test bei normalverteilten Daten F modifizierten Levene-Test bei nicht-normalverteilten Daten. 21 große Varianzen gehen einher mit großen Stichprobenumfängen und kleine mit kleinen Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Grenzen der One-Way-ANOVA Die One-Way-ANOVA beruht auf den sehr restriktiven Annahmen, dass I normalverteilte Beobachtungen vorliegen. Dies verursacht insbesondere bei stärkeren tails und (z.T. auch bei) schiefen Verteilungen größere Probleme, die durch das Auftreten von Varianzheterogenität nur noch verstärkt werden! Überprüfung in der Praxis I Graphisch durch Histogramm, QQ- oder PP-Plots der Beobachtungen, Residuen oder standardisierten Residuen Yik − Y i· . σ b I Testen der Nullhypothese normalverteilter Daten; z.B. mit dem Shapiro-Wilks Test Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Exkurs: Überprüfung der Normalität ⇒ Quantil-Quantil-Plot: Beim Quantil-Quantil-Plot (QQ-Plot) plottet man die geordneten beobachteten Werte x1:n ≤ x2:n ≤ . . . ≤ xn:n (bzw. genauer: der geordneten standardisierten Residuen) gegen die zugehörigen theoretischen Quantile der N(0, 1)-Verteilung, d.h. gegen Φ−1 (i/n). Weichen die Punkte in einem QQ-Plot (stark) von einer Geraden ab, dann spricht dies gegen die Normalverteilungsannahme. Nicht Normalverteilt 3 Normalverteilt ● ● ● 6 ● ● ● −2 ● ● 4 Sample Quantiles ● ● ●● ● ● ● ●● ● ●● ●● 2 0 1 ● ●●●● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●●● ●● ● ● ●●● −1 Sample Quantiles 2 ● ●● ●● ● ● 0 ● −3 −2 −1 0 1 2 ● ● 3 Theoretical Quantiles Markus Pauly (University of Ulm) ●●● ●●●● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ●●●●●● ●●●●● ● ● ● ● ●●●●●●●● −2 −1 0 1 2 Theoretical Quantiles Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Exkurs: Überprüfung der Normalität ⇒ σ-Regeln: Für X ∼ N µ, σ 2 gilt P |X − µ| ≤ σ ≈ 0.6827 P |X − µ| ≤ 2σ ≈ 0.9545 P |X − µ| ≤ 3σ ≈ 0.9973. D.h. man könnte zur Überprüfung, ob Xi , i = 1, . . . , n, normalverteilt sind, schauen, ob etwa 68%, 95% bzw. 99% der beobachteten Werte n dem σ-, 2σ- bzw. 3σ-Intervallen liegen. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Exkurs: Überprüfung der Normalität Alternativ kann man sich auch ein Histogramm der Residuen ansehen und überprüfen, ob das Histogramm ungefähr normalverteilt aussieht. Falls mehrere Gruppen betrachtet werden, deren Varianzen sich nicht unterscheiden, dann können die Residuen beider Gruppen gemeinsam betrachtet werden. Ansonsten sollten nach Gruppen getrennte Grafiken generiert werden. Man kann auch die geschätzte Schiefe E (Xk − µk )3 /σk3 = 0 oder Kurtosis E (Xk − µk )4 /σk4 der Daten betrachten. Falls diese normalverteilt sind, ist die geschätzte Schiefe ungefähr 0 und die Kurtosis ungefähr 3. Es existieren auch Tests wie z.B. der Kolmogorow-Smirnow-Test oder Shapiro-Wilk-Test zur Überprüfung der Normalität der Daten, wobei wir nochmal kurz auf Letzteren eingehen. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Shapiro-Wilk-Test Seien x1:n ≤ . . . ≤ xn:n die geordneten beobachteten Werte und 0 0 q = q1 , . . . , qn = E(Y1:n ), . . . , E(Yn:n ) für Yi i.i.d. N(0, 1). Dann ist die Statistik des Shapiro-Wilk-Tests zum Testen der Nullhypothese H0 : Die Daten sind normalverteilt. gegeben durch Pn SW = Pn i=1 ai xi:n i=1 (xik 2 − x̄k )2 . Hierbei ist −0.5 a = (a1 , . . . , an )0 = q0 V−1 V−1 q q0 V−1 . 0 Dabei bezeichnet V die n × n Kovarianzmatrix von Y1:n , . . . , Yn:n . Zur Berechnung des p-Werts wird typischerweise entweder eine Monte-Carlo- (bei kleinem n) oder eine N(0, 1)-Approximation (bei großem n) verwendet. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Grenzen der One-Way-ANOVA Problem der obigen Verfahren: Genauigkeit bzw. Power nur gut bei großem n. Die Normailitätsannahme ist jedoch nur bei kleinerem n problematisch! Typischer Ansatz bei Anzeichen nicht-normalverteilter und heteroskedastischer Beobachtungen: (Varianzstabilisierende) Transformation der Daten! I I I Z.B. durch Vorwissen aus vorangegangenen Untersuchungen oder durch die üblichen Verdächtigen wie einer log-Transformation beim “Hinweis” auf lognormalverteilte Beobachtungen oder eine Box-Cox-Transformation. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Logarithmische Transformation Zum Beispiel verwendet man bei Volumenmessungen (in den Agrarwissenschaften) häufig logarithmische Transformationen der Daten. Hier 1x biespielhaft für das Volumen von 31 schwarzen Kirschbäumen (Datensatz “trees” aus R-Paket “datasets“) 8 6 0 2 4 Häufigkeit 6 4 0 2 Häufigkeit 8 10 Histogramm nach Trafo 10 Histogramm Originaldaten 10 30 50 70 2.0 Volumen Markus Pauly (University of Ulm) 2.5 3.0 3.5 4.0 4.5 log(Volumen) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Box-Cox-Transformation Falls die üblichen Transformationen nicht weiterhelfen, können die Box-Cox-Transformationen ( x γ −1 i für γ 6= 0 γ zi = ln(xi ) für γ = 0 betrachtet werden. Dabei kann γ mittels Maximierung der Likelihood ! n n 2 X n 1 X `(γ) = − ln zi − z̄n + γ+1 ln xi 2 n i=1 i=1 spezifiziert werden. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Grenzen der One-Way-ANOVA Bei Transformationen der Daten muss man viele Punkte beachten: Das transformierte Modell muss dann ein Fixed Effects Modell sein und I mögliche Schlüsse gelten auch nur hierfür (Addititvität geht i.d.R. bei Rücktransformation verloren) ⇒ Wird in der Praxis manchmal vergessen oder sogar missbraucht (Transformieren bis zur Signifikanz) I Deshalb lieber... Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Alternativen zur One-Way-ANOVA Andere Methoden, die im Fixed Effects Modell ohne Varianzhomogenität und/oder Normalverteilungen auskommen sind beispielsweise die Tests von I Welch-James, I Brunner, Dette und Munk (beides Approximationen) oder I Permutationstests vom Wald-Typ Hiermit lässt sich die Nullhypothese H0 auch in heteroskedastischen Fixed Effects Modellen (z.T. ohne NVA) testen. Eine weitere Alternative (insbesondere im ordinalen Fall) stellen rangbasierte Methoden zum Testen von Gleichheit der Verteilungsfunktionen H0F : {F1 = · · · = Fa } dar. Am bekanntesten ist dabei der Kruskal-Wallis-Test, der als Hauptannahme jedoch ein sog. Shift-Modell annimmt, das wiederum Homoskedastizität impliziert. Deshalb existieren auch hierfür Erweiterungen (z.B. auch von Brunner, Dette und Munk22 ). Diskussion?! Für nominale Daten gibt es wieder einen χ2 -Test. 22 vgl. BDM.test im R-Paket asbio; ergibt p-Wert von 2.008027e − 07 Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Back to business: Multiple Vergleiche Im Schokoladenbeispiel konnten wir mittels ANOVA-F -Test die Globalhypothese µ1 = µ2 = µ3 signifikant zu α = 5% verwerfen. Frage: Sind die einzelnen Gruppen auch paarweise signifikant voneinander verschieden?23 Teste also I I I (1,2) H0 : µ1 = µ2 (1,3) H0 : µ1 = µ3 (2,3) H0 : µ2 = µ3 Problem: Multiplizität! Man möchte die Wahrscheinlichkeit irgendeiner falschen Ablehnungen (FWER) zum Niveau α kontrollieren! Beim einfachen Durchführen der Einzeltests (hier z.B. t-Tests) können sich die Fehler aber addieren. 23 oder verwandt dazu: Many-to-one bei Vergleich mit einer Kontrolle Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Multiple Vergleiche allgemeine Methoden Ziel: Teste H0 (1), . . . , H0 (m) zum multiplen Level α, d.h. FWER≤ α Multiple Vergleiche von m Hypothesen über p-Werte p1 , . . . , pm p: Erste Lösung Bonferroni I I I I (`) Lehne H0 , falls p` < α/m Kontrolliert die FWER zum Niveau α Aber: α/m ist sehr strikt Resultiert in sehr konservativem Verfahren (geringe Güte) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Verbesserung Ordne die p-Werte der Größe nach: p(1) ≤ . . . ≤ p(m) Bonferroni - Holm - Methode I Start: p(1) ≤ α/m? I Ja: Lehne H0 ab! Nein: Stop und lehne keine Hypothese ab p(2) ≤ α/(m − 1)? I I I I I (1) (2) Ja: Lehne H0 ab! Nein: Stop und lehne keine Hypothese ab p(`) ≤ α/(m − ` + 1)? (`) Ja: Lehne H0 ab! Nein: Stop und lehne keine Hypothese ab Man kann zeigen: Dies kontrolliert die FWER und hat mehr Güte als Bonferroni Weitere Verbesserungen, Methoden und Beweise in der Vorlesung Multiple Hypothesentests Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Auswertung – ANOVA für feste Faktoren Anwendung Berechne die p-Werte der Einzeltests p1 , . . . , pm Die R-Funktion p.adjust(...) berechnet hieraus sog. adjustierte p-Werte piad , die pi so erhöhen, dass man sie direkt mit α vergleichen kann (und die FWER erhalten bleibt). I I p.adjust(c(p1 , . . . , pm ),”bonferroni”) 24 p.adjust(c(p1 , . . . , pm ),”holm”) Im Schokoladenbeispiel erhält man (Gruppe 1 = dunkle Schokolade) mittels 2-seitiger t-Tests p-Werte I I I p12 = 1.899e − 10 p13 = 4.607e − 09 p23 = 0.8391, die auch nach Bonferroni-Adjustierung die gleichen Signifikanzen liefern (Die Dunkle Schokoladengruppe unterscheidet sich jeweils signifikant von den anderen beiden Gruppen; analoge Ergebnisse für einseitige Tests und rangbasierte Versionen) 24 = (max(1, mp1 ), . . . , max(1, mpm )) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Kapitel 6: Einfaktorielle Experimente mit geblockten Störfaktoren Vorwort Wir haben Blocking beispielhaft in den Kapiteln 3-4 kennengelernt. Dabei insbesondere beim paarigen 1-Gruppenplan bzw. paarigen 2-Stichprobenproblem. Allgemein ist Blocking eine Technik zur Kontrolle von Störfaktoren Erinnerung: Störfaktoren sind Faktoren, deren Einfluss im Versuch nicht interessiert. Da sie jedoch Einfluss auf die Zielgröße nehmen können, soll ihre Variabilität möglichst gering gehalten/ kontrolliert werden Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Vorwort Wir haben Blocking beispielhaft in den Kapiteln 3-4 kennengelernt. Hier insbesondere beim paarigen 1-Gruppenplan bzw. 2-Stichprobenproblem. Allgemein ist Blocking eine Technik zur Kontrolle von Störfaktoren Bisher haben wir hauptsächlich Randomisierung als Kontrolltechnik aufgrund ihrer einfachen und breiten Anwendungsmöglichkeit verwendet. Hiermit kann i.d.R. auch der Einfluss von nicht veränderbaren oder gar unbekannten Störfaktoren auf die Zielgröße ausbalanciert werden. Ist der Störfaktor allerdings bekannt und kann vom Versuchsleiter bewußt verändert werden, so bietet sich stattdessen zunächst Blocking an. Grundidee bei der Blockbildung: Bilde homogene Blöcke/Gruppen, für die die Variabilität des bekannten Störfaktors innerhalb eines Blocks sehr gering ist. Die Variabilität zwischen den Blöcken kann dabei groß sein. Typisch: Block = Spezielle Stufe des Störfaktors George Box: “Block what you can, randomize what you cannot” Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Complete Randomized Block Design Wir betrachten zunächst ein sog. komplett randomisiertes Block-Design (RCBD) mit einem festen Faktor A mit a Stufen. Dabei wird das Experiment in jedem Block komplett durchgeführt, d.h. jede Stufe des Faktors kommt genau 1x vor. Blocking schränkt dabei das Randomisieren ein: Es wird jeweils nur die Stufenzuweisung innerhalb eines Blocks randomisiert. Faktor A Stufe 1 ··· a Block 1 V11 · · · V1a .. .. .. .. . . . . Block n Vn1 · Vna Wie beim paarigen 1-Gruppenplan ist der Faktor Block typischerweise zufällig. Es gibt aber auch Ausnahmen: I In der Landwirtschaft: Wenn man nur Aussagen über das Verhalten von Getreidesorten (Faktor A) auf vorliegende Felder (= Blöcke) treffen möchte I Bei multizentrischen Studien mit verschiedenen Kliniken sollen die Kliniken als feste Blöcke angesehen werden. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel: Wasserdichtheitsprüfung Beispiel 6.1 (Wasserdichtheitsprüfung): Um den Einfluß von 4 verschiedenen Imprägniersprays auf die Wasserdichtheit von Textilien zu messen, wurde folgendes Experiment durchgeführt: Von verschiedenen Textilien wurde zufällig ein Materialstreifen ausgewählt und in vier gleich große Stoffstücke geteilt. Die Behandlungen mit den 4 verschiedenen Sprays wurden anschließend zu jedem Stück zufällig randomisiert. Abschließend wurde in einem Experiment die Dichheit in mm Wassersäulen (mmWS) nacheinander mit dem selben Messinstrument gemessen. Obiges Experiment wurde insgesamt 4x wiederholt⇒ Verschiedene Textilien bilden die Blöcke Die Zuweisungen und Beobachtungen entnehmen wir den folgenden Tabellen: Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel: Wasserdichtheitsprüfung Zuweisung Block 1 Block 2 Block 3 Block 4 Block 1 Block 2 Block 3 Block 4 Markus Pauly (University of Ulm) 3 3 2 1 Spray 1 4 4 2 1 3 4 2 2 1 4 3 Beobachtungen 892 895 908 896 874 880 870 876 939 903 912 947 789 801 793 799 Versuchplanung Sommersemester 2015 Beispiel: Proteinstudie Beispiel 6.2 (Proteinstudie): Um den Einfluss von fünf verschiedenen extensiven Eiweißdiäten auf die Entwicklung der Gewichtszunahme zu untersuchen wurde eine Studie mit 15 Wistar-Ratten durchgeführt. Diese wurden vorher bereits nach verschiedenen, hier nicht interessierenden Kriterien (wie z.B. Größe, Gewicht, Aktivität, Appetit etc.) in drei verschiedene homogene Blöcke vorsortiert. Die Diätbehandlungen wurden innerhalb der Blöcke randomisiert zugewiesen und nach 4 Wochen Behandlung wurde die Gewichtszu-bzw. abnahme (in Gramm) gemessen. Die Zuweisungen und Beobachtungen entnehmen wir den folgenden Tabellen: Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel: Proteinstudie Zuweisung Behandlung Block 1 5 3 2 1 4 Block 2 4 1 2 5 3 Block 3 1 3 5 4 2 Beobachtungen Block 1 112 95 88 99 107 Block 2 101 98 79 109 107 Block 3 102 96 108 95 85 Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Modellierung des RCBD Klassisches Modell mit festem Blockfaktor: Yik = µ + αi + βk + ik I I I I I I (6.1) Beobachtungen Yik sind unabhängig µ - Globaleffekt αi ∈ R i = 1, . . . , a - fester Behandlungseffekt (von Faktor A) βk ∈ R, k = 1, . . . , n - fester Blockeffekt i.i.d. ik ∼ N(0,P σ 2 ), Versuchsfehler P Annahme: i αi = k βk = 0 Mittlerer Behandlungseffekt von Stufe i: I µi = n−1 Pn k =1 E(Yik ) = µ + αi Hypothese von Interesse: H0 : {µ1 = · · · = µa } = {α1 = · · · = αa = 0} ⇒ Wie zu testen? I Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 ANOVA im RCBD In den Übungen zeigen Sie die folgende Aufteilung der empirischen Gesamtvarianz n a X X (Yik − Y ·· )2 = n Pa i=1 (Y i· − Y ·· )2 + a Pn k =1 (Y ·k − Y ·· )2 i=1 k =1 + Pa i=1 Pn k =1 (Yik − Y i· − Y ·k + Y ·· )2 bzw. symbolisch SStotal = SStreat + SSblocks + SSerror . Man kann zeigen (Stochastik 3), dass die 3 Summen auf der rechten Seite dividiert durch σ 2 jeweils stu. χ2 - verteilt sind mit Freiheitsgraden (a − 1), (n − 1) bzw. (a − 1)(n − 1). Genauer folgt dies aus nachfolgendem Satz (Exkurs)... Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Satz 6.3 (Cochran’s Theorem): Es gelte Y ∼ Nd (0, Σ), A, Ak , k = 1, 2, . . . , m seien Matrizen mit A = Pn k =1 Ak , so dass AΣ idempotent ist. Ist dann auch Ak Σ idempotent für alle k und gilt Ak ΣAk 0 = 0 für alle k 6= k 0 , so folgt: 1 Y0 Ak Y ∼ χ2tr (Ak Σ) für alle k 2 Y0 Ak Y und Y0 Ak 0 Y sind unabhängig für k 6= k 0 . 3 Y0 AY ∼ χ2tr (AΣ) für alle k Ohne Beweis Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 ANOVA im RCBD Berechnung von den Erwartungswerten der Varianzanteile zeigt P n ai=1 αi2 2 E(SStreat /(a − 1)) = σ + a−1 Pn 2 a k =1 βk E(SSblocks /(n − 1)) = σ 2 + n−1 2 E(SSerror /[(a − 1)(n − 1)]) = σ , so dass zum Testen von H0 : {αi = 0 ∀i} wieder eine F -Statistik F = SStreat /(a − 1) H0 ∼ F (a − 1, (a − 1)(n − 1)) SSerror /[(a − 1)(n − 1)] (6.2) verwendet werden kann. Der zugehörige F -Test lehnt H0 ab, falls F > Fα (a − 1, (a − 1)(n − 1)) gilt. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Grenzen der ANOVA Die Annahmen sind auch hier wieder sehr restriktiv, was mitunter zu ähnlichen Problemen führen kann wie beim CRF-a. Deskriptiv kann dies z.B. wieder über Studium der Residuen b ik = Yik − Y i· − Y ·k + Y ·· geschehen. Diese können auch einen Hinweis auf mögliche Interaktionen geben: I Ist b ik negativ für kleine und große Beobachtungen, aber positiv für mittlere, deutet dies u.U. auf Block-Faktor-Interaktionen hin! ⇒ Gleich mehr zu Interaktionen... Ansonsten existieren auch hier wieder verschiedene nichtparametrische Verfahren im ordinalen oder nominalen Fall. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistische Modellierung des RCBD – Teil II Gemischtes Modell mit zufälligem Blockfaktor: Yik = µ + αi + βk + ik I I I I I Yk = (Y1k , . . . , Yak )0 , k = 1, . . . , n - unabhängige Beobachtungsvektoren P αi ∈ R, s = 1, . . . , a - fester Stufeneffekt von A ( i αi = 0) i.i.d. βk ∼ N(0, σβ2 ), k = 1, . . . , n i.i.d. - zufälliger Blockffekt 2 ks ∼ N(0, σ ), Versuchsfehler die zufälligen Komponenten βk und ks sind unabhängig Konsequenz I I I I I E(Yik ) = µi = µ + αi wie zuvor Var (Y1k ) = · · · = Var (Yak ) = σβ2 + σ 2 sind gleich Cov (Yik , Yi 0 k ) = σβ2 für alle Paare (i, i 0 ), i 6= i 0 = 1, . . . , a innerhalb eines festen Blocks Cov (Ysk , Ys0 k 0 ) = 0 für Beobachtungen aus verschiedenen Blöcken k 6= k 0 = 1, . . . , n die Kovarianzstruktur der Yk heißt Compound Symmetry Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 ANOVA im RCBD – Teil II Analog zum Modell mit festen Blockeffekten rechnet man hiermit direkt nach P n ai=1 αi2 2 E(SStreat /(a − 1)) = σ + a−1 E(SSblocks /(n − 1)) = σ 2 + aσβ2 E(SSerror /[(a − 1)(n − 1)]) = σ 2 , so dass zum Testen von H0 : {αi = 0 ∀i} wieder die gleiche F -Statistik25 F = SStreat /(a − 1) H0 ∼ F (a − 1, (a − 1)(n − 1)) SSerror /[(a − 1)(n − 1)] (6.3) verwendet werden kann. Der zugehörige F -Test lehnt H0 ab, falls F > Fα (a − 1, (a − 1)(n − 1)) gilt. 25 Verteilung mit Cochran’s Theorem Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Zufällige vs. feste Blöcke Möchte man Interaktionen zwischen dem festen Faktor A und den Blöcken mitmodellieren, so gelangt man zu einem gemischten Modell mit Interaktion: Yik = µ + αi + βk + γik + ik I I Im P Fall fester P Blöcke wären γik ∈ R die Interaktionseffekte (mit γ = ik i k γik = 0) und bei zufälligen Blöcken würde man zufällige Interaktionen i.i.d. γik ∼ N(0, σγ2 ), die unabhängig von den β’s und ’s sind, modellieren. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Zufällige vs. feste Blöcke Konsequenzen: I Im Fall zufälliger Blöcke erhält man hierfür E(SStreat /(a − 1)) I 2 = σ + σγ2 + E(SSblocks /(n − 1)) = σ 2 + aσβ2 E(SSerror /[(a − 1)(n − 1)]) = σ 2 + σγ2 , n Pa αi2 a−1 i=1 d.h. die F -Statistik (6.2) kann auch hier zum Testen von H0 verwendet werden. Bei festen Blöcken kürzt sich der Interaktionseffekt in SStreat ; in SSerror aber nicht, d.h. der F -Test wäre nicht anwendbar. In der Praxis sind zufällige Blöcke die Regel, da man die Ergebnisse meistens auf die Grundgesamtheit verallgemeinern möchte. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Mehr zu RCBD Multiple Vergleiche: I I Mit ähnlichen Techniken wie beim 1-faktoriellen Modell. Hier allerdings die Paarvergleiche zum Testen von (i,j) H0 : {αi = αj } mittels paarigem t-Test. Weitere Anwendungen: I Repeated Measurements: F F F I a = t verschiedene Behandlungen Jede Behandlung wird bei allen n Patienten genau 1x durchgeführt Behandlungsreihenfolge muss dabei für RCBM randomisiert sein. Erweiterungen: F In manchen Versuchen werden die Stufen des festen Faktors nicht nur genau 1x sondern häufiger pro Block zugewiesen, um eine größere Gesamtstichprobe zu erreichen. Kommen die Stufen dabei in allen Blöcken gleich oft vor und werden zufällig zugewiesen, so spricht man auch von einem RCBD (im weitesten Sinne). Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 RCBD (im weitesten Sinne) Beispiel zu Letzterem: 2 Behandlungen werden in 2 Blöcken der Länge 4 jeweils gleichhäufig und zufällig zugeteilt: Zuweisung Block 1 Block 2 Behandlung 1 2 2 1 1 2 1 2 Mögliches Problem an den bisherigen RCBDs mit vorgegebener Blocklänge: I Kennt das Studienpersonal die Blocklänge (hier: 4) und die ersten drei Behandlungen, so können Sie direkt schließen, welche Behandlung/Stufe die letzte Person im Block bekommt! ⇒ Ein Teil der Randomisierung kann vorhergesagt werden ⇒ Es kann zu selection bias kommen! Mögliche Lösung (wenn durchführbar): I Verblindung des Studienpersonals (!) oder auch I Verwendung von variablen (zufällig zugeteilten) Blocklängen ⇒ Für jeden Block werden nacheinander die Blocklängen zufällig zugeteilt (im Beispiel könnte man z.B. zwischen 2, 4 und 8 wählen) ⇒ Dies führt aber zu unbalancierten Designs und mitunter zu (leicht) anderen Fallzahlen. ⇒ Wenn möglich immer doppelt Entblinden! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Weitere Blockpläne Das obige RCBD behandelt den Fall eines vollständigen Blockplans mit genau einem (interessierenden) Faktor und einem Blockfaktor. Der Fall mehrerer Faktoren wird sehr ausführlich in den nächsten Kapiteln behandelt. Im Folgenden behandeln wir zunächst noch weitere Block-Designs mit einem Faktor, bei denen entweder 2 oder mehrere Blockfaktoren auftreten oder die Zuteilung nicht vollständig ist. Die genauen Vor- und Nachteile sowie deren Auswertung werden dabei aus Zeitgründen jedoch nicht genau diskutiert. Außerdem wird nur der Fall fester Blocklängen behandelt. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Latin-Square Design Beispiel 6.4.: In einer Studie zur Bioäquivalenzprüfung zwischen zwei Generika und dem Originator (Faktor mit 3 Stufen) soll jedem der drei (zur Vereinfachung!) Probanden (nach einer ausreichenden “Washout”-Periode) jedes Medikament an drei verschiedenen Zeitpunkten verabreicht werden. Um hierbei etwaige Störfaktoren zu blockieren, beschließt der Versuchsleiter neben dem “Probanden” auch den “Zeitpunkt” als Blockfaktor zu verwenden und verwendet ein spezielles 3 × 3 Latin Square Design, bei dem die Stufen des interessierenden Faktors in jedem der Blöcke genau 1x vorkommen (d.h. hier also in jeder Zeile und Spalte): Patient 1 Patient 2 Patient 3 Markus Pauly (University of Ulm) 1 Orig Gen 2 Gen 1 Zeitpunkt 2 3 Gen 1 Gen 2 Orig Gen 1 Gen 2 Orig Versuchplanung Sommersemester 2015 Latin-Square Design (Lateinische Quadrate) Allgemein bezeichnet ein p × p Latin-Square Design einen Versuchsplan mit einem interessierenden Faktor und 2 Blockfaktoren, die alle jeweilse p Stufen besitzen und bei dem in jeder Zeile und Spalte (d.h. in jedem Block) jede Stufe des Einflussfaktors genau 1x vorkommt. ⇒ Dadurch, dass wir hierbei in zwei Richtungen “blocken”, haben wir automatisch noch mehr Restriktionen an das randomisierte zuteilen der Faktorstufen. Bemerkung: Bis heute ist keine einfache Formel für die Berechnung der Anzahl verschiedener Lateinischen Quadrate der 2 Ordnung p bekannt. Die Anzahl ist jedoch größer als (p!)2p /pp Für kleine p erhält man beispielsweise 2(p = 2), 12(p = 3), 576(p = 4) bzw. 161280(p = 5) Kombinationsmöglichkeiten, aus denen man beim Randomisieren “zufällig” das Design ziehen würde. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Latin-Square Design Der Name “Lateinische Quadrate” geht zurück auf Euler, der lateinische Buchstaben für die verschiedenen Symbole (hier: Stufen des Faktors) verwendet hat. 3×3 A B C B C A C A B A B D C 4×4 B C C D A B D A D A C B A C E D B D E B A C 5×5 C A D B E B D C E A E B A C D Im obigen Beispiel würde man durch A = Orig, B = Gen 1 und C = Gen 2 ein anderes LQ erhalten. Wir folgen dieser Schreibweise jedoch i.d.R. nicht, da wir die Faktoren bereits mit Großbuchstaben bezeichnen. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Latin-Square Design Statistisches Modell im einfachen p × p Latin-Square Design: Yijk = µ + αi + τj + βk + ijk 1 ≤ i, j, k ≤ p, beschreibt den Eintrag in Zeile i und Spalte k unter Faktorstufe j (kurzzeitige Notationsänderung für die Faktoreffekte), wobei I I I I αi = i-ter Zeileneffekt (des Zeilenblocks) τj = j-ter Behandlungs- bzw. Stufeneffekt (des Faktors) βk = k -ter Spalteneffekt (des Spaltenblocks) ijk = Zufallsfehler (typisch: i.i.d. N(0, σ 2 )) Wie beim RCBD erhält man F-Tests zum Testen von Hypothesen über feste Effekte; allerdings sind die Freiheitsgrade dabei wegen N = p2 Beobachtungen häufig sehr klein... Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Latin-Square Design Deshalb werden die Experimente mit Latin-Square-Designs häufig n Mal wiederholt. Statistisches Modell im n-fach wiederholten p × p Latin-Square Design: Yijk ` = µ + αi + τj + βk + ijk ` 1 ≤ i, j, k ≤ p, ` = 1, . . . , n, beschreibt den Eintrag in Zeile i und Spalte k unter Faktorstufe j bei Wiederholung ` Wie oben erhält man wieder F-Tests zum Testen von Hypothesen über feste Effekte; wobei die Freiheitsgrade aufgrund von N = p2 n Beobachtungen nun größer sind. Erweiterungen mit Interaktionen sind natürlich auch wieder möglich. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Crossover Designs Ist speziell p = 2 so spricht man bei einem 2 × 2 Latin-Square Design mit n-facher Wiederholung auch von einem sog. (standard) Crossover-Design. Dieses wird standardmäßig bei Pharmakokinetischen Studien (PK-studies) oder auch Bioäquivalenz-Überprüfungen eingesetzt Beispiel: In einer pharmakokinetischen Studie soll die Aufnahme von Hydrocortison in den Körper bei Gabe vor (V) bzw. nach (N) dem Essen untersucht werden. Dazu wurden die 10 Probanden zufällig in 2 Gruppen randomisiert. Die Probanden in der ersten Gruppe erhielten dabei die Behandlungsreihenfolge VN, die in der zweiten Gruppe die Reihenfolge NV, d.h. in Gruppe 1 wurde zum ersten Zeitpunkt nach Einnahme nach dem Essen gemessen und in ausreichenden Abstand beim zweiten Zeitpunkt nach dem Essen bei Einnahme vor dem Essen gemessen. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Crossover Designs Versuchsplan für das Beispiel mit n = 10: Gruppe 1 Gruppe 2 Proband 2 3 6 7 9 1 4 5 8 10 Zeitpunkt 1 V V V V V N N N N N ↓ ↓ ↓ ↓ Washout ↓ ↓ ↓ ↓ Zeitpunkt 2 N N N N N V V V V V Die Probanden wurden dabei zufällig den beiden Gruppen zugeteilt Eine ausreichende Washout-Länge ist dabei wichtig, um mögliche Übertragung- bzw. Residualeffekte auszuschließen. Zur Auswertung (sowohl mittels F -Test als auch mit Hilfe von nichtparametrischen Methoden) in R können Sie hierbei das Paket bear verwenden, welches auch Designs mit mehr als 3 oder 4 Zeitpunkten zulässt. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Graeco-Latin-Square Design Der zuvor behandelte Versuchsplan der Lateinischen Quadrate erlaubt die Kontrolle von 2 verschiedenen Störfaktoren bzw. das Blocken in 2 verschiedene Richtungen. Möchte man nun sogar in 3 Richtungen blocken, so wird typischerweise wie folgt vorgegangen: I I Man überlagert zwei p × p Latin-Square Designs derart, dass jede Stufe des einen Lateinischen Quadrats genau einmal mit jeder Stufe des anderen kombiniert auftritt (man sagt: die LQs liegen orthogonal zueinander) Man kann zeigen: Solch ein Versuchsplan existiert für alle p ≥ 3, p 6= 6. Der Name wird klar, wenn man die Stufen im ersten LQ mit lateinischen und im zweiten LQ mit griechischen Buchstaben bezeichnet: Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Graeco-Latin-Square Design Beispiel für ein 4 × 4 Graeco-Latin-Square Design: Blockfaktor 1 1 2 3 4 1 aβ dα cδ bγ 2 dγ aδ bα cβ Blockfaktor 2 3 cα bγ aγ dδ 4 bδ cγ dβ aα Als einfaches Statistisches Modell ohne Wechselwirkung (und 1-facher Wiederholung) erhält man Yijk ` = µ + αi + τj + βk + ω` + ijk ` 1 ≤ i, j, k , ` ≤ p, wobei τ und ω die Effekte der “lateinischen” bzw. “griechischen” Behandlung angeben. Bem: Die vier Einzeleffekte können dann jeweils aufgrund von p Beobachtungen geschätzt werden! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Balanced incomplete Block Design Zum Abschluss des Kapitels behandeln wir noch den Fall eines einzelnen Blockfaktors, bei dem die Blöcke (aus Kosten-, physikalischen oder Zeitgründen) zu klein sind, um alle Stufen des interessierenden Faktors “aufzunehmen”, d.h. nicht jede Stufe kommt in jedem Block vor. Sind alle Stufen gleich wichtig, sollte man die Stufenzuweisung zu den Blöcken ausbalancieren. Dies führt zu sog. Balanced incomplete Block Designs (BIBD), bei dem alle Paare von Stufenkombinationen (d.h. 2 verschiedenen Stufen) in gleich vielen Blöcken vorkommen. Block 1 Block 2 Block 3 Block 4 Markus Pauly (University of Ulm) Faktorstufen 1 2 3 4 x x − x − x x x x x x − x − x x Versuchplanung Sommersemester 2015 Balanced incomplete Block Design Im Folgenden bezeichnen wir die Anzahl der Blöcke mit p und die Anzahl der Stufen des Faktors mit a. Im Fall a = p spricht man von einem symmetrischen BIBD. Nehmen wir an, dass jeder Block genau k < a Stufen enthält und jede Stufe insgesamt r ≤ b26 Mal zugewiesen wird (d.h. in r verschiedenen Blöcken vorkommt), so enthält der Versuchsplan genau N = ar = pk Beobachtungen. Außerdem kommen alle Behandlungspaare in genau27 λ = r (k − 1)/(a − 1) Blöcken vor (Im obigen Beispiel ist λ = 2). Das Modell für die i−te Beobachtung in Block k ist analog zum RCBD (6.1) gegeben durch Yik = µ + αi + βk + ik , wobei hier nicht alle Kombinationen von i und k vorkommen. Beim zugehörigen F -Test muss man dann für die Unvollständigkeit geeignet adjustieren (vgl. Montgomery (Kapitel 4.4.1). 26 27 Dies ist notwengig für die Existenz des BIBD Kleine Kombinatorikübung Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Block Designs aus kombinatorischer Sicht Um für Block-Designs und im Speziellen für BIBD für vorgegebene Werte von a, p, r und k randomisiert Zuweisen zu können ist es wichtig Informationen über Existenz und Anzahl der möglichen Versuchspläne zu besitzen. Dies kann im Rahmen von fortgeschrittenen Kombinatorikaufgabe gelöst werden. Beispielsweise gibt das Bruck-Ryser-Chowla Theorem (hier ohne Beweis) notwendige Bedingungen für die Existenz eines symmetrischen BIBD mit Parametern (a, r , k , λ): I I Ist a gerade, so ist k − λ Quadrat einer natürlichen Zahl Ist a ungerade, so existieren nicht-triviale Lösungen der Diophantine Gleichung28 x 2 − (k − λ)y 2 − (−1)(a−1)/2 λz 2 = 0 Und unter der zusätzlichen Bedingung k = r erhält man Zusammenhänge mit endlichen projektiven Ebenen. 28 d.h. es interessieren nur ganzzahlige Lösungen Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Block Designs aus kombinatorischer Sicht In dem Zusammenhang findet man auch das Schulmädchen Problem von Kirkman29 : “Fifteen young ladies in a school walk out three abreast for seven days in succession: it is required to arrange them daily so that no two shall walk twice abreast” welches sich mit Hilfe von BIBD lösen lässt. Viel Spaß beim Tüfteln! Details zu Kombinatorik und Designs findet man z.B. in Hughes and Piper: Design Theory (1985). 29 Quelle: Graham et al. (1995): Handbook of Combinatorics. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Kapitel 7: Zwei- und Mehrfaktorielle Experimente Mehrfaktorielle Designs In den bisherigen Kapiteln haben wir (im Prinzip) nur Situationen und Versuchspläne mit einem interessierenden Faktor untersucht Dies wird sich jetzt ändern, d.h. wir studieren Versuchspläne, mit denen man die Wirkung von zwei oder mehreren Faktoren gleichzeitig auf die Zielgröße untersuchen kann. Diese mehrfaktoriellen Versuchspläne sollte man von sog. multivariaten Versuchsplänen unterschieden können (die zunächst nicht thematisiert werden), bei denen mehrere Zielgrößen auftreten (die allerdings auch wieder 1-2- oder mehrfaktoriell sein können). Neben der Analyse der zugehörigen Haupteffekte der Faktoren ist hier insbesondere die wechselseitige Interaktion von Interesse. Bevor wir dies systematisch angehen, geben wir zunächst einige Beispiele für Fragestellungen, bei denen mehr als ein Faktor interessiert. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel 7.1 (Studien von Schachter (1959)): In einer viel zitierten Arbeit von Schachter (1959) sollte (vereinfacht dargestellt) die Wirkung von Angst- und Hungergefühlen auf das Geselligkeitsbedürfnis untersucht werden. Dazu führte er 2 getrennte Versuche durch: (a) Hungerstudie. Hierbei wurde der Faktor Hungergefühl in drei Stufen untersucht starker Hunger (ca. 20 Stunden ohne Mahlzeit) mittlerer Hunger (ca. 6 Stunden ohne Mahlzeit) kein Hunger (Mahlzeit unmittelbar vor dem Versuch) und die Zielgröße Geselligkeitsbedürfnis erfasste er durch Abfragen, ob man nun lieber “alleine” oder “zusammen mit anderen” wäre. Die Aufteilung in die drei Gruppen erfolgte dabei durch Randomisieren. Ergebnis: Die Vermutung, dass steigender Hunger das Geselligkeitsbedürfnis fördert, wurde bestätigt. (b) Angststudie. Hierbei wurde der Faktor Angst (im Bezug auf angedachte Elektroschocks) in 5 Stufen angegeben: “Mir gefällt es gar nicht, geschockt zu werden” bis “Ich freue mich darauf, geschockt zu werden” und auch die Zielgröße wurde genauer gemessen: Ich möchte die Elektroschocks - viel lieber allein, - lieber allein, - egal, - lieber mit anderen zusammen, - viel lieber mit anderen zusammen, bekommen. Ergebnis: Die Vermutung, dass steigende Angst das Geselligkeitsbedürfnis fördert, wurde bestätigt. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Fragen: I I I Um was für ein Design handelt es sich bei den Experimenten? Wie sind Zielgröße und Faktoren skaliert? Welchen Test würden Sie zur Auswertung verwenden? Im Zusammenhang mit den Studien von Schachter fallen uns direkt weitere Fragen ein: I I I I Besteht das größte Bedürfnis nach Geselligkeit, wenn man gleichzeitig hungrig und ängstlich ist? oder Kann man überhaupt einen systematischen Einfluss auf das Geselligkeitsbedürfnis feststellen, wenn Hunger und Angst gleichzeitig auftreten? oder Geht das Bedürfnis nach Geselligkeit bei extrem hohen Belastungen von Angst und Hunger wieder zurück? oder Wollen wenig hungrige, aber sehr ängstliche Personen eher mit anderen Personen zusammen sein als wenig ängstliche, aber sehr hungrige? ⇒ Diese lassen sich aus den Schachter-Experimenten nicht beantworten! Die Faktoren müssten in neuen Versuchen gemeinsam untersucht werden (⇒ 2-faktorieller Versuchsplan) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Weiteres Beispiel Beispiel 7.2 (Toxizitätsstudie30 ): Es wurde die Toxizität einer Substanz in 5 Dosis-Stufen bei männlichen und weiblichen Wistar-Ratten untersucht. Die Zielgröße wurde dabei durch Messung der relativen Nierengewichte (Nierengewicht/Körpergewicht) bestimmt. Wir werden später sehen, dass sich der optische Eindruck (Dosis- und Geschlechtereffekt; aber keine Interaktion) auch bei einer statistischen Auswertung bestätigt. 30 Quelle: Brunner und Munzel (2013) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Und noch ein Beispiel Beispiel 7.3 (Stressstudie): Eine Psychologiestudentin möchte den Einfluss von Studienfach und Geschlecht auf den Stress während der Examensarbeit in den Naturwissenschaften untersuchen. Dazu stellt sie zufällig ausgewählten Probanden, die gerade an ihrer Bachelor-Arbeit schreiben, sog. Stressverarbeitungsfragebogen. Neben der Frage nach Einzel- bzw. Haupteffekten der beiden Faktoren Geschlecht (M/W) und Studienfach (Biologie/Chemie/Mathematik/Physik) ist dabei auch von Interesse, ob Interaktionen vorliegen. Im Zusammenhang mit mehreren Faktoren spielt auch deren Anordnung eine große Rolle. Hierauf gehen wir zunächst kurz ein. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Anordnung der Faktoren Definition 7.1 (Faktorenanordnungen und erste Designs): (a) Zwei Faktoren heißen gekreuzt (Kreuzklassifikation), wenn ihre Stufen ein kartesisches Produkt bilden. (b) Wird jede Stufe eines Faktors mit jeder Stufe aller anderen Faktoren kombiniert, dann heißt der Versuch vollständig, andernfalls heißt er unvollständig. Definition 7.2 (Interaktion/Wechselwirkung): Eine Interaktion bzw. Wechselwirkung zwischen Faktoren liegt vor, wenn der Effekt eines Faktors davon abhängt, welche Stufe auf einem anderen Faktor vorliegt. Deshalb gehen wir noch kurz auf Effektmessungen ein... Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Effekte Haupteffekt I Effekte auf die Zielgröße, die auf das alleinige Wirken eines Faktors zurückzuführen sind, nennt man Haupteffekte. Wechselwirkung I I I Faktoren A und B gekreuzt → Einflüsse nicht notwendig getrennt voneinander zu beurteilen Stufe von B kann den Einfluss von A auf die Zielgröße verändern analog fur mehrere gekreuzte Faktoren einfacher Faktoreffekt I I Einfluss eines Faktors innerhalb der Faktorstufen eines anderen Faktors von Bedeutung, falls eine Wechselwirkung vorhanden ist Interpretation I Haupteffekt eines Faktors lässt sich nur sinnvoll interpretieren, wenn keine Wechselwirkungen mit anderen Faktoren vorliegen Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Bemerkungen vorweg Einfaktorielle Versuchspläne können nur einen Haupteffekt aufzeigen! In mehrfaktoriellen Plänen können dagegen Haupteffekte und Wechselwirkungen effizient geschätzt und getestet werden! Allerdings: Je mehr Faktoren man aufnimmt, desto schwieriger sind Ergebnisse interpretierbar! Beispielsweise gibt es bei mehr als 2 Faktoren nicht nur Interaktionen 1. Ordnung (AB) sondern auch Wechselwirkungen höherer Ordnung (ABC, ABCD etc.). Hier hängt eine gute Interpretierbarkeit häufig auch vom Problem ab. Zudem werden die Pläne natürlich auch immer unübersichtlicher. Wir starten zunächst mit einem 2-faktoriellen Plan... Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Der zweifaktorielle gekreuzte Plan (CR2F bzw. CRF-ab) Die Abkürzung CR2F steht für ’Completely Randomized 2-Factorial Design’. Die Stufen Pder beiden Faktoren A und B sind dabei vollständig gekreuzt, wobei die N = i,j nij Versuchseinheiten zufällig den ab Faktorstufen zugeteilt/randomoisiert werden: Faktor B Faktor A 1 .. . a Markus Pauly (University of Ulm) 1 ··· V111 .. . V11n11 .. . Va11 .. . Va1na1 Versuchplanung .. . .. . .. . b V1b1 .. . V1bn1b .. . Vab1 .. . Vabnab Sommersemester 2015 Allgemeines Two-Way Modell Beobachtungen I I I I Yijk i = 1, 2, . . . , a (= ˆ Faktor A mit a Stufen) j = 1, 2, . . . , b (= ˆ Faktor B mit b Stufen) k = 1, . . . , n ij unabhängige Wiederholungen pro Stufenkombination, P N = i,j nij Beobachtungen Zur Vereinfachung im Folgenden: nij ≡ n Statistisches Modell I (Additives) Fixed Effects Modell: Yijk = µij + ijk = µ + αi + βj + γij + ijk I I αi βj γij ijk (7.1) ˆ Haupteffekt A, = µi· − µ·· = = µ·j − µ·· = ˆ Haupteffekt B, = µij − µi· − µ·j + µ·· = ˆ Interaktionseffekt AB u.i.v. für festes (i, j) mit E(ijk ) = 0, Var (ijk ) = σij2 > 0. u.i.v . Klassische ANOVA-Annahme: ijk ∼ N(0, σ 2 ). Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Hypothesen im CRF-ab Hypothesen von Interesse im CR2F sind H0 (A) : {αi = 0 für alle i = 1, . . . , a} H0 (B) : {βj = 0 für alle j = 1, . . . , b} H0 (AB) : {γij = 0 für alle i = 1, . . . , a, j = 1, . . . , b}. Diese lassen sich mit µ = (µ11 , . . . , µ1b , . . . , µab )0 wiederum mittels geeigneter Kontrastmatrizen31 umformulieren32 : H0 (A) : {CA · µ = 0} = {Pa ⊗ b1 10b · µ = 0} H0 (B) : {CB · µ = 0} = { a1 10a ⊗ Pb · µ = 0} H0 (AB) : {CAB · µ = 0} = {Pa ⊗ Pb · µ = 0}. Frage: Wie würden Sie diese Nullhypothesen testen? 31 32 d.h. also hier C1ab = 0. Zur Übung! Z.B. gilt Pa ⊗ b1 10b · µ = (αi )i Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 F-Test für die Two-Way ANOVA u.i.v . Im klassischen ANOVA-Modell mit ijk ∼ N(0, σ 2 ) schreibt man (7.1) wieder als Lineares Modell wie bei der One-Way-ANOVA mit b = (Y 11· , . . . , Y ab· )0 KQS µ und erhält nach dem Satz vom F -Test ein Testverfahren in der Statistik FC = 1 Q /r (C) σ2 C 1 Q /[N σ2 − r (C)] = QC /r (C) , Q /[N − r (C)] wobei C die Quadratform in der Kontrastmatrix C bezeichnet. Unter Cµ = 0 gilt im balancierten Fall FC ∼ F (r (C), N − r (C)) Die jeweiligen Freiheitsgrade sowie Quadratformen im Zähler (ersten drei Zeilen) bzw. Nenner (letzte Zeile mit ) entnimmt man folgender Tabelle Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Varianzanalyse-Tabelle für den CRF-ab Faktor A Matrix Pa ⊗ b1 10b Quadratform a 2 X nb Y i·· − Y ··· Rang r E(Q/r ) a−1 2 σ 2 + nb · σα b−1 σ 2 + na · σβ2 (a − 1)(b − 1) σ 2 + n · σγ2 ab(n − 1) σ2 i=1 B AB 1 0 1 a a ⊗ Pb Pa ⊗ Pb na b X Y ·j· − Y ··· j=1 a X b X Y ij· − Y i·· − Y ·j· + Y ··· i=1 j=1 a X b X n X 2 Yijk − Y ij· 2 2 i=1 j=1 k =1 Dabei gilt 2 σα = a 1 X 2 αi , a−1 σβ2 = i=1 σγ2 = b 1 X 2 βj b−1 und j=1 a X b X 1 γij2 (a − 1)(b − 1) i=1 j=1 Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Bemerkungen Unter den Hypothesen H0 (A) : Pa ⊗ b1 10b µ = 0 ist σα2 = 0 , H0 (B) : a1 10a ⊗ Pb µ = 0 ist σβ2 = 0 , 2 H0 (AB) : Pa ⊗ Pb µ = 0 ist σαβ =0 und die Quadratform in der jeweiligen Zeile der Tabelle schätzt dann die gleiche Varianz σ 2 wie die Quadratform in der letzten Zeile der Tabelle. Die entsprechenden F -Tests kann man auch symbolisch aufschreiben: Quadratform(Faktor)/r (Matrix) Quadratform( ) / (ab(n − 1)) Markus Pauly (University of Ulm) H0 (Matrix) Versuchplanung ∼ F (r (Matrix), ab(n − 1) ) Sommersemester 2015 Alternativen zur Two-Way-ANOVA Auch die Two-Way-ANOVA beruht auf den sehr restriktiven Annahmen, dass I I I die Varianzen innerhalb aller Stufenkombinationen identisch sind, und dass normalverteilte Beobachtungen vorliegen. gleiche Stichprobenumfänge vorliegen (ungleiche müssen anders behandelt werden) Andere Methoden, die ohne Varianzhomogenität und/oder Normalverteilungen auskommen sind auch hier die Tests von I Welch-James, I Brunner, Dette und Munk (beides Approximationen) oder I Permutationstests vom Wald-Typ Hiermit lassen sich alle Nullhypothesen H0 auch in heteroskedastischen Modellen (z.T. ohne NVA) testen. Als weitere Alternative existieren auch hier rangbasierte Methoden wie z.B. der Brunner, Dette und Munk Test für faktorielle Designs. Bei der Hypothesenformulierung ersetzt man einfach die Erwartungswerte µij durch die unbekannten Verteilungsfunktion Fij . Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Auswertung der Toxizitätsstudie Wir betrachten nochmal die Situation aus der Toxizitätsstudie, wo die Boxplots auf ungleiche Streuungen und möglicherweise nicht normalverteilte Beobachtungen hinweisen: P W M 8 8 Fallzahlen D1 D2 D3 9 7 Markus Pauly (University of Ulm) 10 8 7 7 D4 P Varianzen D1 D2 D3 11 11 0.65 0.52 0.54 0.60 Versuchplanung 0.68 0.68 0.68 0.44 D4 0.43 0.53 Sommersemester 2015 Auswertung der Toxizitätsstudie Da die Haupteffekte stark ausgeprägt sind, erhält man hier mit den betrachteten Tests vergleichbare Ergebnisse: Hypothese H0 (A) H0 (B) H0 (AB) Test BDM F -Test Wald-Perm BDM F -Test Wald-Perm BDM F -Test Wald-Perm p-Wert < 0.0001 < 0.0001 < 0.0001 < 0.0001 < 0.0001 < 0.0001 0.6078 0.6509 0.6453 Dabei sollte klar sein: Die Anwendung von verschiedenen Tests war hier nur zur Illustration! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Gekreuzte höherfaktorielle Versuchspläne Das obige Vorgehen lässt sich kanonisch auf mehr als 2 Faktoren erweitern. Hätte man im letzten Datensatz beispielsweise noch nach dem Faktor C Altersklassen unterschieden, so würde ein 3-faktorielles Modell vorliegen. Hierfür erhält man durch erneutes Aufsplitten der Indizes einen komplexeren Versuchsplan, in dem weitere Hypothesen von Interesse sind (mit ähnlicher Formulierung wie zuvor). Für Anwendungen wird dabei klassischerweise empfohlen, dass jede Zelle des Versuchsplans mit mindestens 5 Versuchseinheiten besetzt ist. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Der gekreuzte dreifaktorielle Versuchsplan Den vollständig gekreuzten 3-faktoriellen CR3F bzw. CRF-abc Plan mit Faktoren P A, B und C sowie vollständig randomisierter Zuweisung der N = i,j,r nijr Versuchseinheiten zu den abc Faktorstufen erhält man als: Faktor B Faktor A i=1 .. . i=a j=1 Faktor C r =1 V1111 .. . V111n111 .. . Va111 .. . Va11na11 Markus Pauly (University of Ulm) ··· .. . .. . .. . j=b Faktor C ... ... r =c ... r =1 V11c1 .. . V11cn11c .. . Va1c1 .. . Va1cna1c ... V1b11 .. . V1b1n1b1 .. . Vab11 .. . Vab1nab1 ... ... ... ... ... ... Versuchplanung ··· .. . .. . .. . r =c V1bc1 .. . V1bcn1bc .. . Vabc1 .. . Vacbnabc Sommersemester 2015 Allgemeines Three-Way Modell Statistisches Modell I I (Additives) Fixed Effects Modell: Yijrk = µijr + ijrk 1 ≤ i ≤ a, 1 ≤ j ≤ b, 1 ≤ r ≤ c, 1 ≤ k ≤ nijr . ijrk u.i.v. für festes (i, j, r ) mit E(ijrk ) = 0, Var (ijrk ) < ∞. Hypothesen hierfür (mit µ = (µ111 , . . . , µabc )0 ): I für die Haupteffekte F F F I Interaktionen 1. Ordnung F F F I H0 (A) : {(Pa ⊗ b1 10b ⊗ 1c 10c ) · µ = 0} H0 (B) : {( a1 10a ⊗ Pb ⊗ 1c 10c ) · µ = 0} H0 (C) : {( a1 10a ⊗ b1 10b ⊗ Pc ) · µ = 0} H0 (AB) : {(Pa ⊗ Pb ⊗ 1c 10c ) · µ = 0} H0 (AC) : {(Pa ⊗ b1 10b ⊗ Pc ) · µ = 0} H0 (BC) : {( a1 10a ⊗ Pb ⊗ Pc ) · µ = 0} Interaktionen 2. Ordnung F H0 (ABC) : {(Pa ⊗ Pb ⊗ Pc ) · µ = 0} Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Abschlussbemerkungen Wie man sieht, wird der Versuchsplan mit mehr Faktoren immer komplizierter. Außerdem tritt ein genereller Nachteil von komplett randomisierten Versuchsplänen auf: Man benötigt relativ viele Versuchseinheiten, da hier mindestens vier Gruppen gebildet werden müssen. Außerdem sollte man bei Randomisierung als einzige Kontrolltechnik auch auf homogene Versuchseinheiten achten, um keine zu große Versuchsfehlerstreuung im Versuch zu haben Später werden wir auch mehrfaktorielle Blockpläne kennenlernen, bei denen analog zum RCBD mit einem Faktor, Blocking als weitere Technik eingesetzt wird. Zunächst betrachten wir aber einge Spezialfälle des mehrfaktoriellen Modells von Interesse. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Kapitel 8: Faktorielle 2k Designs und verwandte Pläne 2k Experimente Die allgemeinen mehrfaktoriellen Experimente des letzten Kapitels beinhalten viele interessante Spezialfälle Einer der Wichtigsten ist dabei das sogenannte 2k Design mit k Faktoren, die alle nur 2 Stufen besitzen Diese Stufen können I I quantitativ (zwei Dosen eines Wirkstoff, Temperaturwerte oder Zeitpunkte) oder qualitativ sein (Fall und Kontrolle, “hoch” und “niedrig”, zwei Maschinen). Man kodiert diese dann häufig mittels “+/−”, “0/1” oder “+1/ − 1“. In jedem Fall benötigt eine einfache Durchführung dieses Designs N = 2k Beobachtungen Häufigste Anwendung: In frühen Versuchsstadien, um (die) relevante(sten) Faktoren zu finden! Die Auswertung geschieht dabei analog zum mehrfaktoriellen Fall. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel 8.1 (Chemieherstellung): Ein chemisches Produkt wird in einem Druckbehälter hergestellt. In einer Pilotanlage soll der Effekt der Faktoren Temperatur (A), Druck (B) und Rührgeschwindigkeit (C) (alle jeweils auf 2 Stufen) auf die Filtrationsrate (diese soll maximiert werden) durch Kombination aller möglichen Stufen untersucht werden. Aus Kostengründen wird dabei jeweils nur eine Messung pro Stufenkombination durchgeführt. ⇒ Es handelt sich also um einen einfachen 23 -Versuchsplan! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel 8.2 (Organisation und Lernen): Aus Ünlü (2011): Wenn man eine Reihe von Wörtern, die man vorher gehört hat, wiedergeben soll, so neigt man dazu, die Begriffe, die in einem sinnvollen Zusammenhang stehen, nacheinander zu reproduzieren. Die Begriffe werden dabei geordneter wiedergegeben als sie dargeboten wurden. Man bildet sogenannte Wörter - Cluster, die zu einem Oberbegriff gehören. Im Rahmen des “experimentalpsychologischen Praktikums” der Universität Frankfurt ging man von folgenden Überlegung aus: Gibt man die Lernreihe geordnet an, müsste die Behaltensleistung der Probanden größer sein als bei einer ungeordneten Lernreihe. (Faktor A mit 2 Stufen) Gibt man zusätzlich noch an, dass sich die Wörter bestimmten Oberbegriffen zuordnen lassen, müssten auch mehr Wörter behalten werden als wenn dieser Hinweis nicht gegeben wird. (Faktor B mit 2 Stufen) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Fortsetzung des Beispiels Die Lernreihe bestand dabei aus 60 zweisilbigen Wörtern. Die Wörter wurden auf einem Tonband mit einem Abstand von ca. drei Sekunden nacheinander abgespielt. Dabei ließen sich je 15 Wörter einer von vier Kategorien (Tiere, Vornamen, Nahrungsmittel, Werkzeuge) zuordnen. Die Wörter wurden einmal zufällig ungeordnet und einmal in geordneter Reihenfolge (Faktor A) abgespielt. Als weitere Versuchsbedingung wurde vor Darbietung der Wörter ein Hinweis auf die Kategorien gegeben, unter der anderen Bedingung nicht (Faktor B). Das vorliegende Experiment wurde insgesamt 5x wiederholt, so dass der Stichprobenumfang insgesamt N = 20 betrug (22 = 4 Versuchspersonen (eine Person für eine Bedingung) pro Durchführung). Die Probanden wurden dabei zufällig den verschiedenen Bedingungskombinationen zugeteilt. ⇒ Es handelt sich also um einen wiederholten 22 -Versuchsplan! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel 8.3 (Kreditkartenmarketing): Im International Journal of Research in Marketing erschien 2006 ein Artikel von Bell et al., der ein Experiment zur Steigerung der Kreditkartenabschlüsse einer Firma aus dem Finanzsektor beschreibt. Das Experiment lässt sich schematisch vereinfacht wie folgt darstellen: Faktor A: Jahresbeitrag B: Beantragungsgebühr C: Zinssatz in den ersten 6 Monaten D: Zinssatz danach Kontrolle (-) Aktueller Satz Nein Aktueller Satz Aktueller Satz Neue Idee (+) Niedriger Ja Niedriger Höher Das Marketing-Team der Firma hat aus obigen Stufenkombinationen somit 24 = 16 verschiedene Angebote erstellt. Diese wurden an mehr als 7000 Kunden gemailt. ⇒ Es handelt sich also um einen wiederholten 24 -Versuchsplan! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Effektschätzung im 22 Design Wir betrachten das Beispiel Organisation und Lernen mit den hypothetischen Versuchsergebnissen Faktor Durchgang A B I II III IV V Summe - 25 27 22 30 26 130 + - 29 38 29 30 34 160 - + 31 26 27 34 32 150 + + 31 39 33 32 35 170 Wie schätzt man nun die Effekte der Faktoren und Wechselwirkungen? ⇒ Wie beim Basketballbeispiel! Mögliches Modell: Yijk = µ + αxi + βxj + γxi xj + ijk , 1 ≤ i, j ≤ 2, 1 ≤ k ≤ n = 5 i.i.d. für ijk ∼ N(0, σ 2 ) und xi = (−1)i . Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Effektschätzung im 22 Design Faktor A B + + + + I 25 29 31 31 Durchgang II III IV 27 22 30 38 29 30 26 27 34 39 33 32 V 26 34 32 35 Summe 130 160 150 170 Haupteffekt33 A: α b= (A+ B + − A− B + ) + (A+ B − − A− B − ) 170 − 150 + 160 − 130 = =5 2n 10 Haupteffekt B: (A+ B + − A+ B − ) + (A− B + − A− B − ) 170 − 160 + 150 − 130 βb = = =3 2n 10 Wechselwirkung AB: γ b= 33 A+ B + − A+ B − − A− B + + A− B − 170 − 160 − 150 + 130 = = −1 2n 10 n=Anzahl der Wiederholungen und 1/2 wegen Mittelung der beiden Effektanteile Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Bemerkung Man kann die obigen Effektschätzer im Rahmen eines Linearen Modells als Kontraste der Stufenkombis A± B ± angeben: Stufenkombinationen Effekte A− B − (= 1) A+ B − (= a) A− B + (= b) A+ B + (= ab) A -1 +1 -1 +1 B -1 -1 +1 +1 AB +1 -1 -1 +1 Die Kontrastvektoren (in den Zeilen) sind orthogonal zueinander! ⇒ Dies führt dazu, dass die zugehörigen Effekte unabhängig voneinander geschätzt werden können (Beweis an Tafel?!)! In Klammern haben wir zusätzlich eine Kodierung verwendet, die anzeigt, welche Faktoren im Zustand “+” sind. Diese wird bei mehreren Faktoren hilfreich. Außerdem sieht man im Rahmen der Theorie über Lineare Modell leicht ein, dass die Effektschätzer KQS im obigen Modell sind, d.h. sie minimieren die Fehlerquadratesumme 2 X n X (Yijk − µ − αxi − βxj − γxi xj )2 . i,j=1 k =1 Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Effektschätzung im 2k Design Da die Kontraste zur Effektschätzung bei mehren Faktoren schnell unübersichtlich werden, haben wir in auf der letzten Folie die obige Kurzschreibweise eingefügt (Vorsicht: Hier werden die Kleinbuchstaben ausnahmsweise nicht für die Stufenanzahl verwendet!). Allgemein lässt sich im 2k Design der Effekt von ABC . . . K schätzen durch Entwicklung von 2 (a ± 1)(b ± 1) · · · (k ± 1) n2k schätzen. In einem 23 Design erhält man beispielsweise für die Wechselwirkung AC: 2 abc + 1c + b + 1 − ab − bc − a − c (a − 1)(b + 1)(c − 1) = n23 n22 Die zugehörigen Kontrastvektoren erhält man dann wie oben. Diese sind auch im allgemeinen Fall wieder orthogonal (leichte Übung). Wir halten fest: 2k Designs sind I sog. orthogonale Pläne, bei denen I jeder Haupteffekt und jede Wechselwirkung einzeln und unabhängig voneinander geschätzt werden kann Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Effektschätzung im 23 Design Im 23 -Design erhält man z.B. die folgenden Kontraste als Spaltenvektoren: Stufenkombinationen 1 a b ab c ac bc abc I +1 +1 +1 +1 +1 +1 +1 +1 A -1 +1 -1 +1 -1 +1 -1 +1 B -1 -1 +1 +1 -1 -1 +1 +1 Effekte AB C +1 -1 -1 -1 -1 -1 +1 -1 +1 +1 -1 +1 -1 +1 +1 +1 AC +1 -1 +1 -1 -1 +1 -1 +1 BC +1 +1 -1 -1 -1 -1 +1 +1 ABC -1 +1 +1 -1 +1 -1 -1 +1 Man sieht direkt, dass je 2 Spalten orthogonal zueinander sind. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Geometrische Veranschaulichung im 23 Design Quelle: Montgomery (2013). Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Optimalität von 2k Designs Man kann zeigen: 2k Designs erfüllen gewisse Optimalitätskriterien wie I I I D-optimality G-optimality I-optimality im einfachen Fixed Effects Modell mit Interaktionen. ⇒ Exkurs an der Tafel.... Zuvor aber: Erinnerung an den F-Test Exkurs (Folie 147ff) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Optimalität von 2k Designs 2k Pläne erfüllen also gewisse Optimalitätskriterien. Der Stichprobenumfang für einen Durchgang kann für großes k allerdings sehr groß werden; z.B. benötigt die einfache Durchführung eines Plans mit 10 Faktoren bereits 1024 Beobachtungen. Lösung: Häufig ist man in der Screening-Phase nur an den Haupteffekten (k Stück) und gar nicht an den Wechselwirkungen interessiert. In diesem Fall können andere (unvollständige) Pläne gewählt werden, die mit einem geringeren Stichprobenumfang auskommen. Dies führt auf I I Placket-Burman- und fraktioniert faktorielle 2k −p -Designs Man muss hierbei allerdings beachten, dass vorhandene Wechselwirkungen in den Haupteffekten confounded werden. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Screening-Pläne – Schätzung ohne Wechselwirkungen Diese Problemstellung zielt darauf ab alle Haupteffekte im linearen Fixed Effects Modell mit k Faktoren ohne Wechselwirkungen und je 2 Stufen mit möglichst wenigen Stufenkombinationen zu schätzen, d.h. der Erwartungswertvektor des LM besteht (bei einem Durchgang) aus den folgenden Einträgen: β0 + β1 x1 + · · · + βk xk , xi ∈ {−1, +1} für i = 1, . . . , k . Ein zugehöriger Versuchsplan mit ortogonalen Kontrasten heißt dann auch Screening-Plan. Wir betrachten zunächst den Placket-Burman-Plan; bei dem man (leider) voraussetzen muss, dass k + 1 ein Vielfaches von 4 ist. Die Anzahl der Stufenkombinationen (pro Versuchsdurchgang) ist dann auch ein Vielfaches der 4. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Placket-Burman-Designs Placket-Burman-Designs lassen sich wie folgt konstruieren: 1 Man wählt einen Zeilenvektor der Länge k + 1, der (k + 1)/2 mal die +1 und (k − 1)/2 mal die −1 enthält 2 Weitere Zeilenvektoren erhält man durch zyklisches Permutieren, d.h. man schiebt die vorherige Zeile um eine Position nach rechts und fügt den “verloren gegangenen” Wert an der ersten Stelle hinzu. 3 Zum Abschluss wird dann noch ein Zeilenvektor mit den Einträgen -1 hinzugefügt. Der Versuchsplan ergibt sich dann aus den Zeilen in obiger -1/+1-Kodierung, wobei die Spalten wiederum die Kontraste zum Schätzen der Haupteffekte widerspiegeln. Je zwei Spalten dieser Planungsmatrix sind dabei wieder orthogonal. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Placket-Burman-Designs – Beispiele Beispiele für k = 3 und k = 7 Faktoren Zeilennr. 1 2 3 4 Faktoren A B C −1 +1 +1 +1 +1 −1 +1 −1 +1 −1 −1 −1 Markus Pauly (University of Ulm) Zeilennr. 1 2 3 4 5 6 7 8 A −1 −1 +1 −1 +1 +1 +1 −1 Versuchplanung B −1 +1 −1 +1 +1 +1 −1 −1 Faktoren C D E +1 −1 +1 −1 +1 +1 +1 +1 +1 +1 +1 −1 +1 −1 −1 −1 −1 +1 −1 +1 −1 −1 −1 −1 F +1 +1 −1 −1 +1 −1 +1 −1 G +1 −1 −1 +1 −1 +1 +1 −1 Sommersemester 2015 Fraktioniert faktorielle 2k −p -Designs Sog. fraktioniert faktorielle 2k −p -Designs sind unvollständige Versuchspläne mit insgesamt 2k −p verschiedenen Versuchen (Stufenkombinationen/Beobachtungen). Man erhält diese durch Entfernen verschiedener Kontraste/Stufenkombinationen aus dem zugehörigen vollständigen 2k -Design Im Fall I I p = 1 spricht man von einem One-Half-Fraction eines 2k -Designs p = 2 spricht man von einem One-Quarter-Fraction eines 2k -Designs Hierbei können für p < k − 1 nicht nur die Haupteffekte sondern auch bestimmte Wechselwirkungen mit untersucht werden. Mehr Details und Theorie u.U. in späteren Teilen der Vorlesung. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Fraktioniert faktorielle 2k −p -Designs – Beispiel Beispiel für k = 3 und p = 1. Es werden die roten Kontraste des 2k Designs entfernt, Stufenkombinationen 1 a b ab c ac bc abc I +1 +1 +1 +1 +1 +1 +1 +1 A -1 +1 -1 +1 -1 +1 -1 +1 B -1 -1 +1 +1 -1 -1 +1 +1 Effekte AB C +1 -1 -1 -1 -1 -1 +1 -1 +1 +1 -1 +1 -1 +1 +1 +1 AC +1 -1 +1 -1 -1 +1 -1 +1 BC +1 +1 -1 -1 -1 -1 +1 +1 ABC -1 +1 +1 -1 +1 -1 -1 +1 d.h. man verwendet nur die Kontraste a,b,c und abc (d.h. die mit einer “+1” in der ABC-Spalte) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Fraktioniert faktorielle 2k −p -Designs – Beispiel Im obigen Beispiel schätzt man also den Effekt von A durch a − b − c + abc . 2 Dies ist für die vorliegenden vier Stufenkombinationen auch gleichzeitig ein Schätzer für die Wechselwirkung BC (Spaltenvergleich!) Man schätzt hier also eigentlich den (confounded) Effekt A + BC! Bemerkung: Führt man 2 verschiedene Hälften eines 2k −1 -Designs hintereinander durch, so kann man diese zum Schätzen aller Effekte wie im 2k -Design zusammenlegen. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 3k und q k Designs q k Designs sind Versuchspläne mit k Faktoren, die alle genau q Stufen besitzen. Als wichtiger Spezialfall ist hierbei q = 3 geläufig, bei dem man zusätzlich zu zwei extremen Stufen (“hoch” und “niedrig”) noch eine mittlere Stufe verwendet. Da man hierfür bei einem vollständigen Plan für eine einfache Durchführung dieses Designs N = q k Beobachtungen benötigt, sind auch hier wieder fraktionierte q k −p Pläne geläufig. Ist q eine Primzahl, so lassen sich diese auch sehr leicht aus den vollständigen q k -Pläne wie im Fall q = 2 erzeugen. ⇒ Verwendung bei Modellen mit quadratischen (q = 3) Termen oder noch höheren Potenzen. Die Auswertung geschieht dabei wieder analog zum mehrfaktoriellen Fall. Mehr Details u.U. in späteren Teilen der Vorlesung. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Kapitel 9: Mehrfaktorielle Experimente mit geblockten Störfaktoren Vorwort Allgemein ist Blocking eine Technik zur Kontrolle von Störfaktoren Blocking in einfaktoriellen Experimenten hatten wir in Kapitel 6 besprochen. Dabei haben wir verschiedene Pläne kennengelernt, die im Hinblick auf einen oder mehrere Störfaktoren blocken können Erinnerung aus Kapitel 6: I Störfaktoren sind Faktoren, deren Einfluss im Versuch nicht interessiert. Da sie jedoch Einfluss auf die Zielgröße nehmen können, soll ihre Variabilität möglichst gering gehalten/ kontrolliert werden I Grundidee bei der Blockbildung: Bilde homogene Blöcke/Gruppen, für die die Variabilität des bekannten Störfaktors innerhalb eines Blocks sehr gering ist. Die Variabilität zwischen den Blöcken kann dabei groß sein Blocking erfolgt dabei z.B. nach Zeit oder physikalischen Gründen In diesem Abschnitt betrachten wir nun analog Blockpläne bei zwei und mehr Faktoren von Interesse, wobei wir nur von einem Blockfaktor ausgehen. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel 9.1 (Organisation und Lernen): Aus Ünlü (2011): Wir greifen nochmal Beispiel 8.2. eines wiederholten 22 -Versuchsplans auf, bei dem man eine Reihe von Wörtern, die man vorher gehört hat, wiedergeben soll. Die Lernreihe bestand dabei aus 60 zweisilbigen Wörtern. Die Wörter wurden auf einem Tonband mit einem Abstand von ca. drei Sekunden nacheinander abgespielt. Dabei ließen sich je 15 Wörter einer von vier Kategorien (Tiere, Vornamen, Nahrungsmittel, Werkzeuge) zuordnen. Die Wörter wurden einmal zufällig ungeordnet und einmal in geordneter Reihenfolge (Faktor A) abgespielt. Als weitere Versuchsbedingung wurde vor Darbietung der Wörter ein Hinweis auf die Kategorien gegeben, unter der anderen Bedingung nicht (Faktor B). Das vorliegende Experiment wurde insgesamt 5x wiederholt, so dass der Stichprobenumfang insgesamt N = 20 betrug (22 = 4 Versuchspersonen (eine Person für eine Bedingung) pro Durchführung). Die Probanden wurden dabei zufällig den verschiedenen Bedingungskombinationen zugeteilt. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Fortsetzung des Beispiels Bei dieser kleinen Stichprobengröße (5 Versuchspersonen pro Faktorkombination) kann es natürlich passieren, dass in einer Gruppe (5 Personen mit der gleichen Faktorkombination) durch Zufall vier der fünf Personen ein überdurchschnittlich gutes Gedächtnis hatten, in einer anderen dagegen genau umgekehrt. Diese interindividuellen Unterschiede (Störfaktor) können natürlich die Ergebnisse verfälschen. Als Lösung könnte man entweder die Stichprobengröße erhöhen, oder aber (effizienter) eine Blocktechnik verwenden, die die Vergleichbarkeit (Homogenität) der Versuchsgruppen vergrößert. Wir diskutieren dies im Folgenden am vorliegenden Beispiel... Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Fortsetzung des Beispiels – Parallelisierung Eine einfache Möglichkeit bestünde darin, in Vortests die Gedächtnisleistung aller 20 Teilnehmer zu überprüfen. Vorsicht: Dieser Vortest sollte sich sehr deutlich vom Hauptversuch unterscheiden, damit mögliche Testeffekte (als neuer Störfaktor) vernachlässigbar sind! Basierend auf den Vortest Ergebnissen könnte man dann eine Reihenfolge (Ränge/Platzierungen) der 20 Versuchspersonen festlegen und aus je 4 benachbarten Rängen die 5 Blöcke bilden. Die Faktorkombination würde man innerhalb jedes Blocks randomisiert zuweisen. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Fortsetzung des Beispiels – Wiederholungsmessung Wir hatten auch Wiederholungsmessung (an den Personen) als Form der Blockbildung kennengelernt. Wäre das im vorliegenden Beispiel sinnvoll? Eher nicht, denn dies würde genau genommen bedeuten, dass alle Versuchspersonen alle vier Faktorkombinationen “ausprobiert” hätten; und zwar jedes Mal mit der gleichen Wortreihe! ⇒ Hier treten enorme Übertragungseffekte (carry-over effects) bzw. Lerneffekte auf, die sich sicherlich auch nicht durch Variation der Reihenfolge o.ä. ausschalten ließen. Nichtsdestotrotz stellen Wiederholungsmessungen eine sinnvolle Technik bei mehrfaktoriellen Versuchsanlagen (mit anderer Fragestellung) dar; insbesondere aufgrund der relativ geringen Anzahl an benötigten Versuchspersonen im Vergleich zum Versuch ohne Blockbildung. Dieser Vorteil verstärkt sich noch mit der Anzahl an Stufen und Faktoren. In dem Fall kann Parallelisierung eher zu umständlich sein. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Fortsetzung des Beispiels – Versuchsplan Der Versuchsplan des Beispiels mit den fünf Blöcken a vier Versuchseinheiten ließe sich nun so darstellen: Block 1 .. . 5 Faktor A 1 2 .. . 1 2 Faktor B 1 2 V111 V121 V211 V221 .. .. . . V115 V125 V215 V225 Dabei wird die Zuweisung zu den Faktorstufenkombinationen innerhalb jedes Blocks randomisiert. Für den Fall der Parallelisierung gehören die Einträge innerhalb eines Blocks zu einer jeweils anderen Versuchseinheit; in einem Plan mit Wiederholungsmessungen würden die Einträge zu derselben Versuchseinheit gehören. Analog ergibt sich der Versuchsplan für 2 Faktoren A und B mit a bzw. b Stufen und n homogenen Blöcken als... Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Versuchsplan im 2-faktoriellen Blockdesign Block 1 .. . .. . n Faktor A 1 .. . a .. . .. . 1 .. . a Faktor B 1 ··· b V111 · · · V1b1 .. .. .. . . . Va11 · · · Vab1 .. .. .. . . . .. .. .. . . . V11n · · · V1bn .. .. .. . . . Va1n · · · Vabn Der letzte Index der VE gibt dabei die Blockzugehörigkeit an; die anderen beiden die Stufe der Faktoren A bzw. B. Die Zuweisung innerhalb der Blöcke erfolgt wiederum randomisiert ⇒ Completely Randomized 2-Factorial Block Design (RCBD-ab). Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Modellierung im 2-faktoriellen Blockdesign Wir betrachten zunächst das Modell eines balancierten randomisierten 2-faktoriellen Designs mit unabhängigen Beobachtungen: Yijk = µ + αi + βj + γij + ijk 1 ≤ i ≤ a, 1 ≤ j ≤ b, 1 ≤ k ≤ n. Beispiel: Wir wollen an einem bestimmten Materialblock jeweils n Experimente mit allen Faktorkombinationen durchführen. Leider stellen wir fest, dass nicht genügend Blöcke aus derselben Charge vorhanden sind, um alle abn Versuche durchzuführen; allerdings können an einem Block ab Versuche durchgeführt werden. Aus diesem Grund ordern wir jeweils einen Materialblock von n verschiedenen Chargen und führen an jedem Block die ab Faktorkombinationen durch. Dies führt auf ein RCBD-ab mit zugehörigem statistischen Modell Yijk = µ + αi + βj + γij + δk + ijk 1 ≤ i ≤ a, 1 ≤ j ≤ b, 1 ≤ k ≤ n, in dem δk ∼ N(0, σδ2 ) den Effekt des k -ten Blocks beschreibt und wir implizit angenommen haben, dass keine Blockinteraktionen vorliegen. Der Blockeffekt wird typischerweise zufällig und unabhängig von den ijk ∼ N(0, σ 2 ) modelliert. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Hypothesen im RCBD-ab Hypothesen von Interesse sind genau dieselben wie im CR2F: H0 (A) : {αi = 0 für alle i = 1, . . . , a} H0 (B) : {βj = 0 für alle j = 1, . . . , b} H0 (AB) : {γij = 0 für alle i = 1, . . . , a, j = 1, . . . , b}. Diese testet man wiederum mittels entsprechender F -Tests, wobei sich die Freiheitsgrade durch den Blockfaktor leicht ändern wie die folgende Varianzanalyse-Tabelle für den RCBD-ab zeigt 34 ... 34 Eine ganz kurze Herleitung erfolgt später im Rahmen der gemischten Modelle Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Varianzanalyse-Tabelle für den RCBD-ab Faktor Block Quadratform n 2 X ab Y ··k − Y ··· Rang r E(Q/r ) n−1 σ 2 + ab · σδ2 A a 2 X nb Y i·· − Y ··· a−1 2 σ 2 + nb · σα b−1 σ 2 + na · σβ2 (a − 1)(b − 1) σ 2 + n · σγ2 (ab − 1)(n − 1) σ2 1 Pa 1 Pb 2 2 2 i=1 αi , σβ = b−1 j=1 βj a−1 P P a b 1 2 i=1 j=1 γij . (a−1)(b−1) und k =1 B AB na i=1 b X Y ·j· − Y ··· j=1 a X b X 2 Y ij· − Y i·· − Y ·j· + Y ··· 2 i=1 j=1 a X b X n X Yijk − Y ij· 2 i=1 j=1 k =1 Dabei gilt wieder σα2 = σγ2 Markus Pauly (University of Ulm) = Versuchplanung Sommersemester 2015 Bemerkungen Unter den Hypothesen H0 (A), H0 (B) bzw. H0 (AB) schätzen die Quadratformen für die Faktoren A, B bzw. AB wieder dieselbe Varianz σ 2 wie die Quadratform der Residuen in der letzten Zeile der Tabelle. Die entsprechenden F -Tests zum Testen von H0 (C), C ∈ {A, B, AB} kann man wiederum symbolisch aufschreiben: Quadratform(C)/r (C) Quadratform( ) / (ab(n − 1)) H0 (C) ∼ F (r (C), (ab − 1)(n − 1) ) Die einzige Änderungen bei der Auswertung im Vergleich zum CRF-ab liegt also im zweiten Freiheitsgrad. Voraussetzung hierbei war stets, dass die Faktoreffekte fest sind; der Blockeffekt zufällig; und dass keine Blockinteraktionen vorliegen. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Auf analoge Art und Weise erhält man Versuchspläne mit einem Blockfaktor und deren Auswertung auch für höherfaktorielle Blockdesigns. Ein Beispiel für den RCBD-abc gibt es zum Abschluss auf der nächsten Folie Möchte man wie bei Lateinischen Quadraten oder Graeco Lateinischen Quadraten in mehr als eine Richtung blocken, Blockinteraktionen und zufällige Faktoreffekte zulassen, so erhält man weitere Versuchspläne, auf die wir aber hier nicht mehr näher eingehen. Zum Teil werden diese später im Rahmen von Linearen Modellen mit gemischten und zufälligen Faktoren (Mixed and Random Effects Models) abgedeckt. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Versuchsplan im 3-faktoriellen Blockdesign Block Faktor A 1 1 . . . a . . . . . . 1 n . . . a Markus Pauly (University of Ulm) Faktor B 1 . . . b . . . 1 . . . b 1 V1111 . . . V11b1 . . . V1a11 . . . V1ab1 . . . 1 . . . b . . . 1 . . . b . . . Vn111 . . . V11b1 . . . Vna11 . . . Vnab1 Versuchplanung Faktor C ··· ··· . . . ··· . . . ··· . . . ··· . . . ··· . . . ··· . . . ··· . . . ··· c V111c . . . V11bc . . . V1a1c . . . V1abc . . . Vn11c . . . V11bc . . . Vna1c . . . Vnabc Sommersemester 2015 Kapitel 10: Hierarchische und Split-Plot Designs In diesem Abschnitt lernen wir zwei weitere, fortgeschrittenere Versuchspläne kennen, die häufig angewendet werden I I Hierarchische bzw. verschachtelte bzw. nested Designs und Split-Plot Designs Vorwort: In den meisten, der bisher betrachteten Versuchsplänen, waren die Stufen der interessierenden Faktoren untereinander (vollständig35 ) gekreuzt. In vielen Fällen ist dies aber gar nicht möglich. Möchte man beispielsweise die Länder (Faktor A) Deutschland und Österreich miteinander vergleichen, so sollte man als weiteren Faktor wenigstens auf die zugehörigen Bundesländer (Faktor B) schauen, um genauere lokale Unterschiede zu berücksichtigen In diesem Fall können nicht alle 25 (=16+9) Stufen des Faktors B mit den Stufen des Faktors Land kombiniert werden. Man sagt B ist unter A verschachtelt. 35 Ausnahme hierbei war z.B. das Incomplete Block Design. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Anordnung der Faktoren Definition 10.1 (Faktorenanordnungen und erste Designs): (a) Die spezielle unvollständige Anordnung, die als ’Kronecker-Summe’ der Kombinationen der Faktorstufen darstellbar ist, heißt hierarchische Anordnung oder auch Schachtel-Modell (hierarchische Klassifikation). Hierbei heißt ein Faktor verschachtelt unter einem anderen Faktor, wenn jede seiner Stufen genau einer Stufe des anderen Faktors zugeordnet ist (b) Versuchsanlagen, bei denen zwei (oder mehrere) Faktoren untereinander gekreuzt sind und ein weiterer Faktor (oder auch mehrere) mit einem Teil dieser Faktoren ebenfalls gekreuzt, unter den anderen Faktoren aber verschachtelt ist, heißen partiell hierarchisch. Wir betrachten zuerst Teil (a) und greifen (b) im Rahmen der Split-Plot-Designs wieder auf. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Übersicht: Gekreuzt und verschachtelte Faktoren Anordnung der Faktoren gekreuzte Faktoren (Kreuzklassifikation) I I I I I Kombination der Stufen bildet kartesisches Produkt vollständig gekreuzt = alle Kombinationen kommen vor unvollständig = sonst männliche und weibliche Patienten erhalten Verum und Placebo in jedem Zentrum (Schicht) Standardtherapie und neue Therapie verschachtelte Faktoren (hierarchische Klassifikation) I I I I jede Stufe des verschachtelten Faktors kann genau einer Stufe des anderen Faktors zugeordnet werden Landkreis ist unter Bundesland verschachtelt Versuchstiere sind unter der Behandlung verschachtelt Doppelmessungen sind unter den Patienten verschachtelt Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel: Knochenschrauben Beispiel 10.1 (Knochenschrauben-Studie): Ein Unternehmen besitzt fünf verschiedene Langdrehautomaten (Faktor A) zur Herstellung von Knochenschrauben aus Titan. Jede dieser Maschinen wird von zwei verschiedenen Mechanikern 36 (Faktor B) betrieben. Die folgende Tabelle erhält die Durchmesser von jeweils einer erstellten Schraube (Norm: 12mm) Maschine 1 2 3 4 5 36 Mechaniker 1 2 3 4 5 6 7 8 9 10 Beobachtung in mm 12.5 12.6 11.8 12.1 12.0 11.9 12.8 12.7 12.5 12.6 1x Tag- und 1x Nachtschicht Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel: Oberflächen-Volumen-Verhältnis Beispiel 10.2 (OVV-Studie): Zur Untersuchung des protektiven Effektes der Bretschneiderschen HTK-Lösung37 wurden bei 10 Hunden die AV-Knoten des Herzens untersucht. Fünf Herzen wurden unter reiner Ischämie (Kontrolle) untersucht, die fünf anderen Herzen wurden mit der HKT-Lösung perfundiert; bei randomisierter Zuordnung Ein wichtiger Parameter bei diesem Experiment ist das Oberflächen-Volumen-Verhältnis (SV R) der Mitochondrien im AV-Knoten des Herzens. Zur genaueren Bestimmung dieses Verhältnisses wurden bei jedem Knoten drei Schnitte im Abstand von 50µm angefertigt und SV R nach der Methode von Weibel bestimmt. Die Ergebnisse entnehmen wir der folgenden Tabellen: 37 Kardioplegischer Lösung, die u.a. bei Organtransplanatationen und zur künstlichen Herbeiführtung eines Herzstillstand bei bestimmten Operationen verwendet wird Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel: Oberflächen-Volumen-Verhältnis Oberflächen-Volumen-Verhältnis (SV R) [µm2 /µm3 ] Reine Ischämie HTK-Lösung Hund Schnitt SV R Hund Schnitt SV R 1 8.19 1 9.06 1 2 8.23 6 2 9.38 3 7.91 3 9.27 1 7.47 1 9.13 2 2 8.20 7 2 9.39 3 7.93 3 9.22 1 7.46 1 9.24 3 2 7.89 8 2 9.18 3 7.86 3 9.84 1 8.71 1 9.64 4 2 7.90 9 2 9.36 3 8.49 3 9.69 1 7.65 1 9.90 5 2 7.98 10 2 9.86 3 8.03 3 9.77 Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Bemerkungen Dies sind beides hierarchische Designs mit 2 Faktoren (B ist unter A verschachtelt) bzw. zweifaktorielle hierarchische Pläne (CRHF-b(a)). Im ersten Beispiel sind die Mechaniker unter den Maschinen verschachtelt! Bemerke: Wenn uns der Effekt der Schicht interessieren würde, hätten wir ein gekreuztes 2-faktorielles Design! Im zweiten Beispiel ist der Hund unter der Behandlung verschachtelt. Diskussion: Welche Faktoren sind fest, welche zufällig? Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Der zweifaktorielle hierarchische Plan (CRHF-b(a)) Die Abkürzung CRH2F steht für ’Completely Randomized Hierarchical 2-Factorial Design’. Wir sehen die Versuchseinheiten als Stufen des Faktors B an. Da man in der Regel die Aussagen des Versuchs nicht nur für die im Versuch verwendeten Versuchseinheiten (Mechaniker/Hunde) treffen möchte sondern auf die Grundgesamtheit der Versuchseinheiten verallgemeinern möchte, wird man den Faktor ‘Versuchseinheit’ häufig als zufällig ansehen. In diesem Fall werden von den ab möglichen Versuchseinheiten beim CRHF-b(a) zufällig b ausgewählt und den a Stufen des Faktors A (zufällig) zugeteilt. Dies führt auf den folgenden balancierten Versuchsplan Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Der zweifaktorielle hierarchische Plan (CRHF-b(a)) Faktor B Faktor 1 ··· A 1 V11 · · · 2 .. . b b + 1 ··· 2b ··· V2b ··· (a − 1)b + 1 · · · ab ··· Vab V1b V21 .. a . Va1 Der Faktor B ist unter dem Faktor A verschachtelt. Analog erhält man unbalancierte CRHF-b(a) Pläne, bei denen unter Stufe i von Faktor A u.U. verschieden viele Stufen bi des Faktors B verschachtelt sind. Im obigen Plan gilt bi ≡ b. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Modell für den zweifaktoriellen hierarchischen Plan (feste Faktoren) CRHF-b(a) im balancierten Fall bei zwei festen Faktoren: Yijk = µij + ijk i = 1, . . . , a; j = 1, . . . , b; k = 1, . . . , n = µ + αi + βj(i) + ijk . i.i.d Wie üblich nehmen wir dabei an, dass ijk ∼ N(0, σ 2 ) sowie P a i=1 αi = 0. Für den Effekt βj(i) gilt in diesem Fall I Pb j=1 βj(i) = 0 , i = 1, . . . , a (da B fester Faktor). Bemerke: Da B unter A verschachtelt ist, treten hierbei keine Interaktionen zwischen den Faktoren auf! Im unbalancierten Fall läuft der Index j(i) = 1, . . . , bi in Abhängigkeit von i und man erhält das Modell... Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Der CRHF-b(a) unbalanciert Statistisches Modell Yijk I I I I I = µij + ijk = µ + αi + βj(i) + ijk i.i.d mit µij = E(Yijk ), ijk ∼ N(0, σ 2 ) Faktor A: i = 1, . . . , a Stufen Faktor B: j = 1, . . . , bi Stufen in Stufe i des Faktors A Versuchsfehler: k = 1, . . . , nij unabhängige Wiederholungen Pa Pbi N = i=1 j=1 nij gesamte Anzahl der Versuchseinheiten Matrizenschreibweise I bi a M M Y = 1nij µ + = X µ + i=1 j=1 Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Der zweifaktorielle hierarchische Plan (CRHF-b(a)) Interpretation I Komponentenschreibweise µij = µ·· + αi + βj(i) , αi βj(i) = µi· − µ·· , = µij − µi· i = 1, . . . , a, j = 1, . . . , bi i = 1, . . . , a j = 1, . . . , bi und i = 1, . . . , a Hypothesen (bei zwei festen Faktoren) I kein Kategorie-Effekt38 H0 (A) : {αi = 0, i = 1, . . . , a} = {Pa diag(b1−1 10b1 , . . . , ba−1 10ba )µ = 0} I kein Subkategorie-Effekt H0 (B(A)) : {βj(i) = 0, ∀1 ≤ i ≤ a, 1 ≤ j ≤ bi } = {diag(Pb1 , . . . , Pba )µ = 0} Anmerkung I I 38 es gibt keinen Haupteffekt des Faktors B es gibt keine Wechselwirkung zwischen A und B mit µ = (µ11 , . . . , µ1b1 . . . , µa1 , . . . µaba )0 Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Varianzanalyse-Tabelle für den CRHF-b(a) Varianztabelle für den balancierten39 CRHF-b(a) (feste Faktoren) Faktor A Matrix Quadratform Pa ⊗ b1 Jb ⊗ n1 Jn nb a X Y i·· − Y ··· 2 Rang E(Q/r ) a−1 σ 2 + nb · σ 2α a(b − 1) 2 σ 2 + n · σβ(α) i=1 B(A) Ia ⊗ Pb ⊗ n1 Jn n a X b X Y ij· − Y i·· 2 i=1 j=1 a X b X n X Ia ⊗ Ib ⊗ Pn Yijk − Y ij· 2 ab(n − 1) σ 2 i=1 j=1 k =1 Dabei gilt a σ 2α = 1 X 2 αi a−1 a 2 und σβ(α) = i=1 39 b XX 1 2 βi(j) a(b − 1) i=1 j=1 ähnliche Größen im unbalancierten mit obigen Matrizen zur Übung Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Modell für den zweifaktoriellen hierarchischen Plan (mixed model) CRHF-b(a) im balancierten Fall bei festem Faktor A und zufälligem Faktor B Yijk = µ + αi + βj(i) + ijk , 1 ≤ i ≤ a; 1 ≤ j ≤ b; 1 ≤ k ≤ n. Annahmen: I Pa I die Zufallsvartiablen βj(i) und ijk sind unabhängig i=1 αi = 0, µi = µ + αi = E(Yijk ), i = 1, . . . , a i.i.d 2 I β j(i) ∼ N(0, σβ ) zufälliger Faktor i.i.d 2 I ijk ∼ N(0, σ ) unabhängige Versuchsfehler - fester Effekt Spezialfall Repeated Measures oder auch Clusterdaten: I I mehrere Messungen an derselben Versuchseinheit hier: unter gleichen Bedingungen / Behandlungen i = 1, . . . , a (um z.B. genauere Messungen zu erhalten) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Hierarchisches Versuchsschema bei Repeated Measures Faktor A fest, Faktor B zufällig - B unter A verschachtelt: B(A) Beispiel I Zwei unverbundene Stichproben (balanciert) mit je 3 Messwiederholungen: 1 V11 V12 .. . V1n Markus Pauly (University of Ulm) 2 x x x x x x .. . x x x V21 V22 .. . V2n Versuchplanung x x x x x x .. . x x x Sommersemester 2015 Varianzanalyse-Tabelle für den CRHF-b(a) Varianztabelle für den balancierten CRHF-b(a) (mixed model) Faktor Quadratform A nb a X Y i·· − Y ··· 2 Rang E(Q/r ) a−1 σ 2 + nb · σ 2α + n · σβ2 a(b − 1) σ 2 + n · σβ2 i=1 B(A) n a X b X Y ij· − Y i·· 2 i=1 j=1 a X b X n X Yijk − Y ij· 2 ab(n − 1) σ 2 i=1 j=1 k =1 1 Pa 2 und Var (β 2 Dabei gilt wieder σ 2α = a−1 j(i) ) = σβ . i=1 αi Bem: Zum Testen von H0 (A) : {αi = 0, i = 1, . . . , a} kann hier der Quotient von Q(A) und Q(B(A)) verwendet werden! Details und H0 (B(A)) im mixed model im nächsten Kapitel. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Varianzanalyse-Tabelle für den CRHF-b(a) Für Situationen, in denen der Faktor A auch noch zufällig ist, i.i.d. modelliert man diesen als αi ∼ N(0, σα2 ) und erhält eine Varianztabelle für den balancierten CRHF-b(a) (random model) Faktor A Quadratform nb a X Y i·· − Y ··· 2 Rang E(Q/r ) a−1 σ 2 + nb · σα2 + n · σβ2 a(b − 1) σ 2 + n · σβ2 i=1 B(A) n a X b X Y ij· − Y i·· i=1 j=1 a X b X n X 2 Yijk − Y ij· 2 ab(n − 1) σ 2 i=1 j=1 k =1 In diesem Fall testet man typischerweise Nullhypothesen über die Varianzen der Faktoren; Details im nächsten Kapitel. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Der Split-Plot Plan (SP-a.b) Dies ist ein partiell hierarchischer Plan. Die Faktoren A und C sind mit dem Faktor B gekreuzt, der Faktor C ist unter dem Faktor A verschachtelt. Jede Versuchseinheit ist eine Stufe des Faktors C ⇒ C ist hier typischerweise zufällig (Probanden etc.) P Die zugehörigen N = ai=1 ni Versuchseinheiten werden zufällig den a Stufen von A zugeteilt Einsatz in der Biometrie (u.a.): Man untersucht die Zeitverläufe von 1 ≤ i ≤ a unabhängigen Stichproben mit jeweils k = 1, . . . , ni unabhängigen Individuen mit je 1 ≤ j ≤ b Repeated Measures Versuchsplan... Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Der Split-Plot Plan (SP-a.b) Anschaulich mit ni ≡ n Faktor B Faktor A 1 Faktor C 1 .. . .. . n .. . a (a − 1)n + 1 .. . an Markus Pauly (University of Ulm) Versuchplanung 1 ··· V11 · · · .. .. . . V1n · · · .. .. . . Va1 · · · .. .. . . Van · · · b V11 .. . V1n .. . Va1 .. . Van Sommersemester 2015 Bemerkungen Die Bezeichnung Split-Plot-Design hat ihren Ursprung in den Agrarwissenschaften. Hier treten in den Experimenten häufig Faktoren auf (wie bspsw. Bewässerungsmethode), die in der Regel nur für große Teile der Ländereien (Böden), genannt whole plot, angewendet werden. Der zugehörige Faktor heißt deshalb auch whole plot factor (oder main treatment). Innerhalb eines whole plots wird dann ein weiterer Faktor (wie Getreidesorte) auf verschiedene, kleinere Teile des Landes aufgeteilt, indem man die whole plots in kleinere Teile; sog. subplots (oder split-plots) aufteilt (englisch: splitted). Der hierzugehörige Faktor heißt dann subplot factor Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel Zur Überprüfung der Atmungsaktivität von Leukozyten wurde an insgesamt 44 Laborratten folgender Versuch durchgeführt: I 22 Ratten wurden mit einem Placebo und 22 mit einer Substanz zur Stärkung der Abwehrkräfte behandelt. (whole-plot Faktor “Behandlung”) I In weiteren (hier nicht detailliert erklärten) Schritten wurden von jedem Tier ein leukozythaltiger Versuchsansatz entnommen und I einer Hälfte des Ansatzes inaktivierte Staphylokokken zugesetzt; die andere Hälfte blieb unbehandelt (sub-plot Faktor “Staphylokokken”) I Im Anschluss wurde der O2 -Verbrauch von Leukozyten nach 6, 12 und 18 Minuten gemessen. Die gemittelten Werte entnehmen wir folgender Tabelle Placebo Verum Markus Pauly (University of Ulm) Mittlerer O2 -Verbrauch [µ`] Staphylokokken mit ohne Zeit [in Min] Zeit [in Min] 6 12 18 6 12 18 1.618 2.434 3.527 1.322 2.430 3.425 1.656 2.799 4.029 1.394 2.57 3.677 Versuchplanung Sommersemester 2015 Split-Plot Plan – Klassisches Statistisches Modell Faktoren A und B fest, C zufällig - A × B, C × B, C(A) Statistisches Modell: Yijk = µij + βk (i) + ijk I I I I I Yik = (Yik 1 , . . . , Yikb )0 , - k = 1, . . . , n unabhängige ZVektoren µij = E(Yijk ), i = 1, . . . , a; j = 1, . . . , b - feste Effekte i.i.d βk (i) ∼ N(0, σβ2 ), k = 1, . . . , an i.i.d - zufälliger Effekt 2 ijk ∼ N(0, σ ), i, j, k Versuchsfehler Die Zufallsvariablen βk (i) und ijk sind unabhängig Konsequenz I I I I I Var (Yijk ) = σβ2 + σ 2 für alle i, j, k Behandlungen und VE gleich Cov (Yijk , Yij 0 k ) = σβ2 für alle Paare (j, j 0 ), j 6= j 0 = 1, . . . , b Cov (Yijk , Yij 0 k 0 ) = 0 für verschiedene Versuchseinheiten k 6= k 0 diese Kovarianzstruktur heißt Compound Symmetry und tauchte auch schon beim RCBD auf Diese Kovarianzstruktur ist plausibel, wenn man die Versuchseinheiten physikalisch aufteilen kann; für Verlaufsdaten jedoch eher unangemessen. Deshalb... Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Split-Plot Plan – Allgemeineres Statistisches Modell Faktoren A und B fest, C zufällig - A × B, C × B, C(A) Statistisches Modell: Yik = (Yik 1 , . . . , Yikb )0 ∼ Nb (µi , Vi ), I I I 1 ≤ i ≤ a, 1 ≤ k ≤ n unabhängige ZVektoren mit Erwartungswertvektor µi und unstrukturierter Kovarianzmatrix Vi in Gruppe i. Beispiele für Kovarianzstrukturen für Vi I I I I I V = σ 2 Ib b M V= σi2 unabhängige homoskedastische Beobachtungen, unabhängige heteroskedastische Beobachtungen, i=1 σ 2 Ib V= + ρJb Compound Symmetry / CS ⇒ Klassisches Modell als Spezialfall mit ρ = σβ2 V = (cij )i,j=1,...,d , cii = σ 2 , cij = σ 2 ρ|i−j| Autoregressive Struktur ... Sinnhaftigkeit von Strukturannahmen hängen vom Problem ab! Deshalb bevorzuge ich das Arbeiten ohne spezifische Annahmen. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Bemerkungen zu Repeated Measures (RM) Generelle Gesichtspunkte I man unterscheidet F F I Messwiederholungen unter der gleichen Bedingung (hierarchisches Design; linker Versuchsplan) Messwiederholungen unter verschiedenen Bedingungen (Block-Design, Verlaufskurven; rechter Versuchsplan)) beides wird in der Literatur als Clusterdaten bezeichnet 1 V11 V12 .. . V1n1 2 x x x x x x .. . x x x V21 V22 .. . V2n2 Markus Pauly (University of Ulm) x x x x x x .. . x x x VE V1 .. . Vn Versuchplanung Behandlung 1 2 ··· a x x ··· x x x ··· x x x ··· x .. .. .. .. . . . . x x x x x x ··· ··· ··· x x x Sommersemester 2015 Allgemeineres Statistisches Modell – Sonderfälle Unabhängigkeit / Unkorreliertheit Kovarianzmatrix 2 σ1 0 · · · 0 σ2 · · · 2 V = . .. .. . 0 0 ··· 0 0 .. . σb2 Beispiel I I I Für a = 1: unabhängige strukturierte Beobachtungen verschiedene Varianzen in den b unabhängigen Versuchsgruppen zugelassen Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Allgemeineres Statistisches Modell – Sonderfälle Compound Symmetry (CS) - Struktur Kovarianzmatrix 2 σ +ρ % ··· σ2 + ρ · · · % V = . .. .. . % % ··· % % 2 .. = σ Ib + ρJb . σ2 + ρ Beispiel: Klassisches Modell mit additivem Blockeffekt ⇒ Ist praktisch nicht für Zeitverläufe/longitudinalen Daten geeignet, da zeitlich benachbarte Beobachtungen höhere Korrelationen aufweisen als weiter auseinanderliegende. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Allgemeineres Statistisches Modell – Sonderfälle Autoregressive (AR) Kovarianz-Struktur Kovarianzmatrix 1 % %2 % 1 % 2 2 V = σ % % 1 .. .. .. . . . %a−1 %a−2 %a−3 I I Varianz: σ 2 Kovarianz: %i,i+s = σ 2 %s , ··· ··· ··· ··· %a−1 %a−2 %a−3 .. . 1 ρ<1 ist eine sog. Toeplitz-Matrix Beispiel I Messungen zu äquidistanten Zeitpunkten bei Zeitverläufen Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Varianzanalyse-Tabelle SP-a.b – klassisches Modell Erinnerung: A und B sind feste Faktoren und C (Versuchseinheiten) ein zufälliger Faktor. Dann liegt im klassischen Modell für die Beobachtungsvektoren Yik = (Yik 1 , . . . , Yikb )0 eine compound symmetry Struktur vor. Zum Testen von Nullhypothesen über die Faktoren A und B (die Effekte sind wieder in µij versteckt), behilft man sich dann meistens asymptotischer Verfahren. Hierzu müssen die unbekannten Varianzen σ 2 und σβ2 konsistent geschätzt werden: Für Yi· = (Y i·1 , . . . , Y i·b )0 definiert man Kovarianzmatrixschätzer n a 1Xb 1 X 0 b b Vi = (Yik − Yi· )(Yik − Yi· ) , i = 1, . . . , a, V = Vi n−1 a k =1 i=1 und erhält konsistente40 Schätzer für die unbekannten Varianzen: 1 1 b b ), σ Sp(Pb V b2 + b · σ bB2 = 10b V σ b2 = 1b . b−1 b 40 ohne Beweis Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Varianzanalyse-Tabelle SP-a.b – klassisches Modell Insgesamt erhält man im klassischen Modell eine “asymptotische” Varianztabelle für den balancierten SP-a.b (compound symmetry) Faktor HypothesenMatrix H A Pa ⊗ b1 10b B 1 0 1 a a Quadratform QH Grenzverteilung unter H0 : Hµ = 0 a AB ⊗ Pb Pa ⊗ Pb bn X (Y i·· − Y ··· )2 σ b2 + σ bB2 i=1 b an X (Y ··s − Y ··· )2 2 σ b χ2a−1 n σ b2 χ2(a−1)(b−1) s=1 a X b X (Y i·s − Y i·· − Y ··s + Y ··· )2 χ2b−1 i=1 s=1 Hierbei ist µ = (µ11 , . . . , µab ) und man testet H0 : Hµ = 0 durch Vergleich von QH mit (1 − α)-Quantilen der jeweiligen Grenzverteilung Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Varianzanalyse-Tabelle SP-a.b – allgemeineres Modell In diesem Fall mit unbekannten und unstrukturierten Kovarianzmatrizen behilft man sich auch mit asymptotischen Methoden. b i (als Schätzer für Neben den empirischen Kovarianzmatrizen V Vi = Cov (Yik )) von oben definiert man hier zudem b = Σ a M N i=1 ni bi V √ L als konsistenten Schätzer von41 Cov ( N Y· ) = ri=1 nNi Vi und verwendet zum Testen von H0 : Hµ = 0 eine Statistik vom Wald-Typ 0 b 0 ]+ HY· QH = N · Y· H0 [HΣH Man kann zeigen, dass diese unter H0 asymptotisch χ2r (H) verteilt ist und erhält so... 41 0 0 Y· = (Y1· , . . . , Ya· ) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Varianzanalyse-Tabelle SP-a.b – allgemeineres Modell Varianztabelle für den balancierten SP-a.b (allgemeineres Modell) Faktor HypothesenMatrix H Quadratform QH A B AB Pa ⊗ b1 10b 1 0 1 ⊗ Pb a a Pa ⊗ Pb 0 b 0 ]+ HY· N · Y· H0 [HΣH 0 0 b 0 ]+ HY· N · Y· H [HΣH 0 0 b 0 ]+ HY· N · Y· H [HΣH Grenzverteilung unter H0 : Hµ = 0 χ2a−1 χ2b−1 χ2(a−1)(b−1) Hierbei ist wieder µ = (µ11 , . . . , µab ) und man testet H0 : Hµ = 0 durch Vergleich von QH mit (1 − α)-Quantilen der jeweiligen Grenzverteilung Allerdings benötigt man große Stichprobenumfänge, damit der Test nicht zu liberal wird Besseres Verfahren: Sarahs Permutationstest :) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Erweiterungen Erweiterungen von Split-Plot Designs sind Split-Plot Designs mit mehr als zwei Faktoren: Dies tritt z.B. dann auf, wenn der whole plot und/oder sub-plot Faktor selber noch eine faktorielle Struktur besitzen. Beispiel: Tageszeiten bei Messungen über verschiedenen Tage hinweg. Split-Split-Plot Designs: Hier treten neben whole plot und sub-plot noch sog. sub-sub-plot Faktoren auf Strip-Split-Plot Designs: Hier tritt ein Faktor in sog. orthogonalen Strips auf Die genaue Definition und Behandlung ist aber nicht Teil dieser Vorlesung :) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Kapitel 11: Random Effects und Mixed Models Vorwort Wir haben bei den bisherigen statistischen Modellen zwar immer zwischen den folgenden Designs I I I mit ausschließlich festen Faktoren (Fixed Effects Model) mit festen und zufälligen Faktoren (Mixed (Effects) Model) mit ausschließlich zufälligen Faktoren (Random Effects Model) unterschieden; allerdings dann auch immer nur Tests für (Nullhypothesen in) feste(n) Faktoren diskutiert. Zufällige Faktoren traten z.B. in natürlicher Weise bei RCBD, RCBD-ab, CRHF-b(a) und SP-a.b auf. In diesem Kapitel gehen wir zum einen etwas genauer auf die zugehörigen Modelle ein und diskutieren hierin zum anderen Möglichkeiten zum Testen von Hypothesen über zufällige Faktoren. Wir starten mit einer einfachen Wiederholung Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Feste und zufällige Faktoren Ein Faktor heißt fest (fixed factor), wenn seine Stufen eindeutig definierte, wiederholbare Ausprägungen (des Faktors) sind. W IEDERHOLUNGSREGEL : Ein fester Faktor ist dadurch charakterisiert, dass bei einer eventuellen Versuchswiederholung dieselben Faktorstufen verwendet werden würden wie im vorangegangenen Versuch. V ERALLGEMEINERUNGSREGEL : Die Aussagen, die auf Grund eines Versuchs mit festen Faktorstufen gemacht werden, gelten nur für die im Versuch verwendeten festen Faktorstufen. Beispiele: Geschlecht, Behandlung, Wochentag Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Feste und zufällige Faktoren Ein Faktor heißt zufällig (random factor), wenn seine Stufen eine zufällige Auswahl aus der Grundgesamtheit aller möglichen Stufen dieses Faktors darstellen (Realisationen des zufälligen Faktors). Die Stufen dieses Faktors sind nicht beobachtbare Zufallsvariable (unobservable random variables). W IEDERHOLUNGSREGEL : Ein zufälliger Faktor ist dadurch charakterisiert, dass bei einer Versuchswiederholung erneut zufällig ausgewählte Stufen des Faktors verwendet werden. V ERALLGEMEINERUNGSREGEL : Die Aussagen, die auf Grund eines Versuchs mit zufälligen Faktorstufen gemacht werden, beziehen sich auf die Grundgesamtheit, aus der die im Versuch verwendeten Faktorstufen zufällig ausgewählt wurden. Beispiele: Patient, Labortier, Interviewer Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Random Effects Modelle – One Way Case Wir betrachten zunächst die Random Effects Modelle und starten mit dem einfaktoriellen Spezialfall, bei dem zufällig a Stufen des interessierenden Faktors A (mit möglicherweise unendlich vielen Stufen) ausgewählt werden. Dies führt auf das (klassische, additive) statistische Modell Yik = µ + αi + ik , I I I I 1 ≤ i ≤ a, 1 ≤ k ≤ n (11.1) µ = Globaleffekt i.i.d. ik ∼ N(0, σ 2 )= Versuchsfehler und davon unabhängig i.i.d. αi ∼ N(0, σα2 ) = Zufälliger Effekt von Stufe i; mit unbekannten Varianzkomponenten σ 2 , σα2 ∈ (0, ∞) ⇒ Var (Yik ) = σ 2 + σα2 für alle Wahlen von i und k ⇒ Cov (Yik , Yik 0 ) = σα2 für all k 6= k 0 und Cov (Yik , Yi 0 k 0 ) = 0 sonst. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Random Effects Modelle – One Way Case Das Vorhandensein eines Faktoreffekts wird nun einfach durch das Testproblem H0 : {σα2 = 0} versus H1 : {σα2 > 0} (11.2) beschrieben. Wie bei der One-Way ANOVA im Fixed Effects Model lässt sich die Gesamtfehlersumme aufschreiben als SStotal = SStreat + SSerror = n a a X n X X (Y i· − Y ·· )2 + (Yik − Y i· )2 . i=1 i=1 k =1 Unter H0 gilt αi = 0 f.s. und man erhält vollkommen analog zum Modell mit festem Faktor als Teststatistik (N = an): F = 1 a−1 SStreat 1 (N−a) SSerror Markus Pauly (University of Ulm) =: MStreat H0 ∼ F (a − 1, N − a). MSerror Versuchplanung Sommersemester 2015 Random Effects Modelle – One Way Case Begründung für das Letzte: Die Verteilungen der Beobachtungen unter den jeweiligen Nullhypothesen sind identisch! Man kann also denselben F -Test wie bei der One-Way ANOVA mit festen Faktoren verwenden! Wir zeigen noch kurz auf, wie sich die unbekannten Varianzkomponenten erwartungstreu schätzen lassen. Sei dazu o.E. µ = 0, so gilt aufgrund der Zentriertheit aller Zufallsvariablen: " a n # a X n X 1 1X X 1 αi + ik )2 E(MStreat ) = E ( αi + ik )2 − ( a−1 n N i=1 k =1 = i=1 k =1 1 [Nσα2 + aσ 2 − nσα2 − σ 2 ] = σ 2 + nσα2 . a−1 Analog erhält man E(MSerror ) = σ 2 . Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Random Effects Modelle – One Way Case Somit lassen sich die unbekannten Varianzkomponenten durch σ b2 = MSerror , MStreat − MSerror σ bα2 = n erwartungstreu schätzen. (N − a)b σ 2 /σ 2 ist χ2N−a -verteilt, so dass man 95%-KIs für σ 2 wieder mittels ( ) (N − a)MS (N − a)MS error error ≤ σ2 ≤ σ2 : χ2N−a;.025 χ2N−a;.975 erhält. σ bα2 lässt sich jedoch “nur” als eine Linearkombination zweier χ2 -verteilter Zufallsvariable schreiben, für die es keine geschlossene Darstellung gibt. Zugehörige KI erhält man allerdings über Asymptotik Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Beispiel (Aus Montgomery) In einer Textilfabrik wird ein bestimmter Stoff auf einer großen Anzahl von Webmaschinen hergestellt. Damit der Stoff immer ungefähr die gleiche Stärke hat, sollten sich die Webmaschinen homogen verhalten. Zur Überprüfung wurden deshalb zufällig vier Maschinen ausgewählt und an jeweils vier, von diesen Maschinen hergestellten Stoffproben, die Stärke (in Gramm pro Quadratmeter) gemessen. Die Ergebnisse entnehmen wir der folgenden Tabelle i=1 98 97 99 96 y1· = 97.5 Markus Pauly (University of Ulm) Webmaschine i=2 i=3 91 96 90 95 93 97 92 95 y2· = 91.5 y3· = 95.75 Versuchplanung i=4 95 96 99 98 y4· = 97 Sommersemester 2015 Beispiel– Ergebnisse Nimmt man Modell(11.1) an, so erhalten wir als Schätzwerte σ b2 = 1.9 sowie σ bα2 = 6.96, d.h. die Gesamtstreuung Var (Yik ) = 8.86 im Experiment wird hauptsächlich durch die verschiedenen Webmaschinen getrieben und ist vermutlich nicht auf natürliche Schwankungen zurückzuführen. Diese Beobachtung wird durch die Teststatistik des F -Test auch signifikant bestätigt: F = 15.68 > 3.490295 = F3,12;.05 Als 95%-KI für σ 2 erhält man hier [0.977, 5.1775] und ein 95%-KI für den Globaleffekt lässt sich (zur Übung) auch leicht angeben mittels " # r MStreat y ·· ∓ tn−1;.025 = [92.78, 98.1]. an Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Nachteile der Random One-Way ANOVA Schätzen und Testen der Varianzkomponente σα2 ist problematisch, da der Schätzer σ bα2 = MStreat − MSerror n auch negative Werte annehmen kann! Wähle z.B. Y11 = 1, Y12 = 5, Y21 = 4, Y22 = 2, so folgt σ bα2 = −2.5 Wie beim Fixed Effects Modell werden auch hier keine ungleichen Varianzen zugelassen und die Verteilungsannahmen der Statistiken beruhen alle auf einer Normalverteilungsannahme! Verbesserungen erhält man teilweise durch ML- und REML- (= restricted maximum likelihood) Schätzer. Obige Nachteile bleiben bei höherfaktoriellen Random Effects Modellen gültig! Wir gehen kurz auf den zweifaktoriellen Fall ein Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Random Two-Way Modell Statistisches Modell I (Additives) Random Effects Modell: Yijk = µ + αi + βj + γij + ijk (11.3) u.i.v . I αi = ˆ Zufälliger Haupteffekt von A, αi ∼ N(0, σα2 ), 1 ≤ i ≤ a, I βj = ˆ Zufälliger Haupteffekt B, βj ∼ N(0, σβ2 ), 1 ≤ j ≤ b, I γij = ˆ Zufälliger Interaktionseffekt AB, γij ∼ N(0, σγ2 ), I ijk ∼ N(0, σ 2 ) Versuchsfehler, 1 ≤ k ≤ n. u.i.v . u.i.v . u.i.v . Alle Zufallsvariablen sind unabhängig Nullhypothesen von Interesse werden wieder über die Varianzen der Komponenten aufgestellt. Wie oben berechnet man die Erwartungswerte der Quadratformen aus der Two-Way-ANOVA mit festen Effekten und erhält folgende Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Varianzanalyse-Tabelle für die Random Two-Way ANOVA Faktor 1 10 a a B AB Matrix Pa ⊗ b1 10b A ⊗ Pb Pa ⊗ Pb Quadratform Q(Faktor ) a 2 X nb Y i·· − Y ··· na i=1 b X Y ·j· − Y ··· 2 j=1 a X b X Y ij· − Y i·· − Y ·j· + Y ··· i=1 j=1 a X b X n X Yijk − Y ij· 2 2 Rang r E(Q/r ) a−1 2 2 σ 2 + nb · σα + n · σγ b−1 2 2 σ 2 + na · σβ + n · σγ (a − 1)(b − 1) 2 σ 2 + n · σγ ab(n − 1) σ2 i=1 j=1 k =1 Teststatistiken wählt man anhand der letzten Spalte aus, indem man schaut, welche Quadratformen unter der Nullhypothese die gleiche Varianz schätzen42 : I Für H0 (A) : {σ 2 = 0}: FA = α I Für H0 (B) : {σ 2 = 0}: FB = β Q(A)/(a − 1) Q(AB)/[(a − 1)(b − 1)] Q(B)/(b − 1) Q(AB)/[(a − 1)(b − 1)] I Für H0 (AB) : {σ 2 = 0}: FAB = γ 42 H0 (A) ∼ H0 (B) ∼ F (a − 1, (a − 1)(b − 1)). F (b − 1, (a − 1)(b − 1)). Q(AB)/[(a − 1)(b − 1)] H0 (AB) ∼ F ((a − 1)(b − 1), ab(n − 1)). Q()/[ab(n − 1)] Verteilung ohne Beweis Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Random Effects Modelle – Bemerkungen Für andere Designs mit ausschließlich zufälligen Faktoren kann man häufig analog vorgehen. Beispielsweise funktioniert dieser Ansatz auch beim CRHF-b(a) mit zwei zufälligen Faktoren. Die zugehörige Varianzanalysetabelle findet sich in Kapitel 9. Für höherfaktorielle Designs kann es jedoch vorkommen, dass man keine zwei Quadratformen findet, die unter der Nullhypothese die gleiche Varianz schätzen. Dies ist bspsw. bei einer Random Three-Way-ANOVA für die Nullhypothese H0 (A) der Fall. In solchen Fällen verwendet man sog. Quasi-F -Tests, bei denen die Quadratformen geeignet kombiniert werden. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Mixed Two-Way Modell Wir hatten gemischte Modelle im Rahmen von hierarchischen Modellen mit einem festen Faktor A und einem darunter verschachtelten, zufälligen Faktor B kennengelernt. Das zugehörige Modell im balancierten Fall ist gegeben durch Yijk = µ + αi + βj(i) + ijk , 1 ≤ i ≤ a; 1 ≤ j ≤ b; 1 ≤ k ≤ n, wobei I Pa I die Zufallsvariablen βj(i) und ijk sind unabhängig i=1 αi = 0, µi = µ + αi = E(Yijk ), i = 1, . . . , a i.i.d 2 I β j(i) ∼ N(0, σβ ) zufälliger Faktor i.i.d 2 I ijk ∼ N(0, σ ) unabhängige Versuchsfehler - fester Effekt Nullhypothesen von Interesse sind dann I I H0 (A) : {αi = 0 für alle 1 ≤ i ≤ a} und H0 (B(A)) : {σβ2 = 0} Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Zum Testen geht man genauso vor wie zuvor und berechnet die Erwartungswerte der Quadratformen aus dem festen Modell wie folgt (zur Übung) Varianztabelle für den balancierten CRHF-b(a) (mixed model) Faktor Quadratform Q(Faktor ) Rang A nb a X Y i·· − Y ··· 2 E(Q/r ) a−1 σ 2 + nb · σ 2α + n · σβ2 a(b − 1) σ 2 + n · σβ2 i=1 B(A) n a X b X Y ij· − Y i·· 2 i=1 j=1 a X b X n X Yijk − Y ij· 2 ab(n − 1) σ 2 i=1 j=1 k =1 Dabei gilt wieder σ 2α = Markus Pauly (University of Ulm) 1 a−1 Pa 2 i=1 αi Versuchplanung und Var (βj(i) ) = σβ2 . Sommersemester 2015 Tests im CRHF-b(a) (mixed model) Durch Abgleich der letzten Spalte erhält man folgende Teststatistiken (Verteilung ohne Beweis) für H0 (A) : {αi = 0 für alle 1 ≤ i ≤ a}: b FA = a X Y i·· − Y ··· 2 /(a − 1) H0 (A) i=1 a X b X ∼ F (a − 1, a(b − 1)). Y ij· − Y i·· 2 /[a(b − 1)] i=1 j=1 H0 (B(A)) : {σβ2 = 0}: n FB(A) = a X b X Y ij· − Y i·· 2 /[a(b − 1)] H0 (B(A)) i=1 j=1 a X b X n X Yijk − Y ij· ∼ 2 F (a(b − 1), ab(n − 1)). /[ab(n − 1)] i=1 j=1 k =1 Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Mixed Two-Way Model Geläufig sind auch gemischte zweifaktorielle, vollständig gekreuzte Modelle der Form Yijk = µ + αi + βj + γij + ijk P αi = ˆ Fester Haupteffekt von A, i αi = 0, 1 ≤ i ≤ a, I βj = ˆ Zufälliger Haupteffekt B, βj ∼ N(0, σβ2 ), 1 ≤ j ≤ b, I γij = ˆ Zufälliger Interaktionseffekt AB, γij ∼ N(0, σγ2 ), I ijk ∼ N(0, σ 2 ) Versuchsfehler, 1 ≤ k ≤ n. Hier gibt es jedoch diverse kontroverse Diskussionen über verschiedene Annahmen und Verfahren Bspsw. nimmt das sog. restriktive Modell an, dass σγ2 von a abhängt, und dass P γ = 0 gilt, so dass die Zufallsvariablen γij nicht mehr unabhängig sind. Die i ij βj und ijk werden aber unabhängig modelliert. Dagegen nimmt das sog. uneingeschränkte Modell nur an, dass alle Variablen unkorreliert (bzw. unabhängig) sind. Diese führen zu verschiedenen Tests. In SAS z.B. ist das zweite Modell voreingestellt, das sich auch im folgenden Rahmen herleiten lässt... I Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Theorie - Exkurs (Mixed Models) Zum Abschluss dieses Kapitels gehen wir noch ganz kurz auf die theoretische Herleitung ein Ähnlich wie bei den festen Faktoren betrachtet man das folgende statistische Modell Y = X1 b + X2 Z + . I I Y = (Y01 , . . . , Y0n )0 Yk = (Yk 1 , . . . , Ykd )0 , k = 1, . . . , n, unabhängig I I I I I I b: X1 : Z: X2 : : (feste) Parameter, z.B. Erwartungswerte; feste Effekte Strukturmatrix für die festen Effekte zufällige Effekte (meist nicht beobachtbar) Strukturmatrix für die zufälligen Effekte Vektor der Versuchsfehlerterme Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Theorie - Exkurs (Mixed Models) Idee: Schreibe die Zufallsfaktoren zu den Fehlertermen und erhalte wieder ein Lineares Modell: I I Y = X1 b + X2 Z + = X1 b + η | {z } η η ∼ N(0, S), S = σ 2 I + X2 Cov (Z)X02 Nun kann man den Parametervektor b schätzen wie zuvor: I I I I b = X1 b! b Minimiere den Abstand von Y zu Y Allerdings: Abstand im gemischten Modell muss bezüglich der Kovarianzstruktur adjustiert werden b 0 S−1 (Y − Y) b verwende den Mahalanobis-Abstand D = (Y − Y) minimiere D analog zur Vorgehensweise in Kapitel 5. Lösung: I I I Normalgleichungen: X01 S−1 X1 Y = X01 S−1 Y falls X01 S−1 X1 invertierbar ist, gilt b = (X0 S−1 X1 )−1 X0 S−1 Y b 1 1 b heißt Verallgemeinerter kleinste Quadrate Schätzer - GLSE b Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Theorie - Exkurs (Mixed Models) b Eigenschaften von b: I I I b =b erwartungstreu: E(b) b haben minimale Varianz die Komponenten von b (unter allen erwartungstreuen linearen Schätzern) b ist BLUE = best linear unbiased estimator b b Zur Anwendung brauchen wir noch die Kovarianzmatrix von b I I I b = (X0 S−1 X1 )−1 Cov (b) 1 Die Inverse enthält Linearkombinationen der auftretenden Varianzen σ 2 , σα2 , σβ2 , . . . der zufälligen Komponenten und des Fehlerterms Zum Beispiel σ 2 + nσα2 Die Quadratformen dividiert durch die zugehörigen Varianzen (z.B. σ 2 + nσα2 anstelle von nur σ 2 bei festen Faktoren) sind dann wieder χ2 -verteilt. Zum Testen von Hb = 0 sucht man deshalb zwei unabhängige (!) quadratische Formen, die unter der Nullhypothese die gleiche Varianz besitzen. Dies führt zu den oben angegebenen F -Tests Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Bemerkungen Auf ähnliche Art und Weise geht man auch bei den Random Effects Modellen vor. Allerdings sollte man nicht vergessen, dass die oben genannten Probleme (Varianzhomogenität; u.U. negative Varianzschätzer) beim Testen der zufälligen Komponenten auftreten können. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Kapitel 12: Spezielle Modelle und deren Auswertung In diesem Kapitel betrachten wir einige spezielle Methoden, die bisher eher stiefmütterlich behandelt wurden. Hierzu zählen u.a. Binäre Zielgrößen I logistische Regression Mehr als eine Zielgröße I I MANOVA und Klassifikationsanalyse Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Motivierendes Beispiel: Challenger-Unglück Am 28.1.1986 explodierte das Space Shuttle Challenger kurz nach dem Start. Als Ursache wurde das Versagen der Dichtungsringe (O-Ringe), die zur Versiegelung der Verankerung der Feststoff-Booster dienen, ermittelt. (Quelle: http://upload.wikimedia.org/wikipedia/commons/ e/e0/Challenger_STS_51_L_launch.JPG) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Motivierendes Beispiel: Challenger-Unglück Bereits vor dem Start wurden in einer Telefonkonferenz starke Zweifel an der Zuverlässigkeit der Dichtungsringe bei niedrigen Temperaturen geäußert, und davor gewarnt, dass es beim Start zu Problemen mit den Dichtungsringen kommen könnte, da für diesen Tag eine Temperatur von 31 Grad Fahrenheit (−0.5◦ C) vorhergesagt wurde. Ja ● ● ● ● Mind. ein O−Ring hat versagt ● Nein ● ● ● ● ● 30 40 50 60 70 ● ● ● ● ● ● ● 80 Temperatur (in Fahrenheit) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Statistisches Modell Hier passt kein klassisches lineares Modell! Beliebte Wahl wäre sonst ja ein (multiples) lineares Regressionsmodell der Form Y = β0 + β1 X1 + β2 X2 + . . . + βp Xp + ε, bei dem Parameter βj ∈ R die j-te Einflussvariable Xj , j = 1, . . . , p gewichtet. Begründung? Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Binäre Zielvariable Häufig ist die interessierende Zielvariable binär. Z.B. I Person hat eine Krankheit vs. Person zeigt nicht diese Krankheit, I Kredit wird zurückgezahlt: ja vs. nein. I Ausfall eines Dichtungsrings: ja vs. nein. Dabei werden die beiden Ausprägungen der Zielvariable Y durch 0 und 1 kodiert. In solchen Fällen interessiert man sich üblicherweise für die Wahrscheinlichkeit, dass das interessierende Ereignis (z.B. krank oder Kredit wird zurückgezahlt) eintritt. Y nimmt also Werte zwischen 0 und 1 an. β0 + β1 X1 + . . . + βp Xp + ε kann i.d.R. aber Werte in (−∞, ∞) annehmen. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Logistische Regression Um ein ähnlich einfaches Modell wie das lineare Modell verwenden zu können, benötigen wir also eine Transformation von R auf [0, 1]. mit 0.4 exp(η) 1 + exp(η) 0.2 h(η) = h(η) 0.6 0.8 1.0 Hierzu verwendet man üblicherweise die logistische Funktion 0.0 η = β0 + β1 X1 + . . . + βp Xp = β0 + β 0 X (X = (X1 , . . . , Xp )0 ) −10 −5 0 5 10 η Deshalb wird dieses Modell logistisches Regressionsmodell genannt. Es ist ein Spezialfall der GLMs für binäre Zielvariablen. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Logistische Regression Dies führt auf das einfache Modell P(Y = 0|X = x) = P(Y = 1|X = x) = 1 1 + exp(β0 + β 0 x) exp(β0 + β 0 x) 1 + exp(β0 + β 0 x) Der Quotient der beiden WSen wird mit Odds(Y1/0 ) bezeichnet, so dass das Modell wegen Logit(Y1/0 ) = log(Odds(Y1/0 )) = β0 + β 0 x auch häufig als (binäres) Logit-Modell bezeichnet wird. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Zurück zum Beispiel: Challenger-Unglück Am 28.1.1986 explodierte das Space Shuttle Challenger kurz nach dem Start. Als Ursache wurde das Versagen der Dichtungsringe (O-Ringe), die zur Versiegelung der Verankerung der Feststoff-Booster dienen, ermittelt. (Quelle: http://upload.wikimedia.org/wikipedia/commons/ e/e0/Challenger_STS_51_L_launch.JPG) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Challenger-Unglück Vor dem Start: Mehrstündige Telefonkonferenz zwischen Experten des Triebwerkherstellers, der NASA und des Raumflughafens. Da hier nur die Ausfalldaten (rote Punkte) betrachtet wurden, kam man zu dem Schluss, dass die Historie keinen Temperatureffekt belegen konnte. Ja ● ● ● ● Mind. ein O−Ring hat versagt ● Nein ● ● ● ● ● 30 40 50 60 70 ● ● ● ● ● ● ● 80 Temperatur (in Fahrenheit) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Challenger-Unglück – Modell Wir wählen nun das einfache Logit-Modell mit ( 1 Versagen mind. eines O-Rings Y = 0 Ordnungsgemäße Funktion aller O-Ringe X = Außentemperatur in Grad Fahrenheit P(Y = 0|X = x) = 1 1 + exp(β0 + β1 x) P(Y = 1|X = x) = exp(β0 + β1 x) 1 + exp(β0 + β1 x) Gesucht: Schätzer für β = (β0 , β1 ). Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Challenger-Unglück – MLE Idee: Wähle das β, das den Beobachtungen y1 , . . . , yn die höchste WS zuordnet. Betr. dazu: l(x, β) = log n Y P(Yi = yi |X = xi ) i=1 = n X (β0 + β1 xi )yi − log(1 + exp(β0 + β1 xi )) i=1 Einsetzen der Beobachtungen zeigt eine negativ definite Hesse-Matrix und Lösen von ! ∇l(x, β) = ( ∂β∂ 0 l(x, β), ∂β∂ 1 l(x, β))0 = 0 liefert den MLE βb = (βb0 , βb1 ) = (15.0429, −0.2322) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Challenger-Unglück – WSen Wahrscheinlichkeit, dass mind. ein O−Ring versagt Basierend auf diesem Modell erhält man, dass die WS, dass bei 31 Grad Fahrenheit mind. einer der Dichtungsringe versagt, bei ca. 99.9996% liegt! 1.0 ● ● ● ● ● 0.8 0.6 0.4 0.2 0.0 ● ● ● ● ● 31 40 50 60 70 ● ● ● ● ● ● ● 80 Temperatur (in Fahrenheit) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Challenger-Unglück – Erweitert Der Ausfall eines Dichtungsrings bedeutet noch nicht, dass es zu einem Unglück kommt. Zu jedem primären gehört nämlich auch ein sekundärer Dichtungsring. D.h. man interessiert sich für die WS, dass mind. eine Dichtungsringkombination versagt! Außerdem Dichtungsringe können aus verschiedenen Gründen ausfallen (in den Daten: Erosion oder Blow-by43 ) Diese sollten getrennt voneinander modelliert werden Zusätzlich könnte man noch weitere erklärende Variablen wie bspsw. Luftdruck mit aufnehmen und untersuchen, ob das Modell “vernünftig” fitted. 43 durch zu hohe Temperaturen oder vorbeiströmende Gasen Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Challenger-Unglück – Erweitert Dies wurde von Dalal et al. (1989, JASA, 84, 945-957) unter Verwendung komplexerer logistischer Regressionsmodelle durchgeführt. Ergebnis: Bei einer Temperatur von 31 Grad Fahrenheit und 200 psi Luftdruck ist die WS, dass mind. eine Dichtungsringkombination versagt im angepassten Modell ≈ 13%. Bei einer Verschiebung auf 60 Grad Fahrenheit und gleichem Luftdruck beträgt die WS dafür ≈ 1.9%. ⇒ Dies hätte im Vorfeld berechnet werden können! Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Prognosen Allerdings sind üblicherweise Prognosen (weit) außerhalb des Bereichs der bisher beobachteten Werte (äußerst) problematisch und sollten (wenn überhaupt, dann) nur mit großer Vorsicht betrachtet werden. Theoretisch könnte z.B. auch folgendes Verhalten der Werte vorliegen: Ja ● ●● ● ● ● ● ● ● ● ● Mind. ein Versagen ● Nein ● ● ●● ● 30 ● ● 40 ● ● ● ● ● 50 60 70 ● ● ● ● ● ● ● 80 Temperatur (in Fahrenheit) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Lustige verwandte Beispiele– Liegende Kühe Nehmen wir an, wir möchten herausfinden, ob die Wahrscheinlichkeit, dass sich eine Kuh hinlegt, mit der Zeit, die sie schon steht, steigt. Zur Analyse dieser Frage beobachten wir eine Reihe von Kühen und erheben deren Liege- sowie Stehzeiten. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 standing time on Plie were estimated using linear regression. Only probabilities based on at least 100 observations were included in the regression analyses to avoid effects of data points based on few observations only. Results A total of 10,814 lying episodes were recorded. Analyses of the (cumulative) frequency distributions of (logtransformed) lying episode lengths suggested that standing bouts were interrupted by an excessive number of short lying episodes (i.e. < 4 min). Comparison of IceTag™ records with video recordings showed that lying episodes > 4 min did correspond with lying behaviour, but episodes < 4 min did not (these tended to occur e.g. when a cow was displaced at a feeder). In contrast, short standing episodes recorded by the sensors did correspond to actual standing behaviour. Lying and standing bouts were, therefore, calculated by ignoring all lying episodes < 4 min. This decreased the number of episodes by Aretotal cowsdaily more likely to(-lie3%). down the longer they stand? 88%, but it had only minor effects on estimated lying time The mean individual daily number of lying B J Tolkamp, M J Haskell, C A Morgan, S P Turner bouts ranged from 7.9 to 15.4 (mean 10.0, SE Scottish 0.7). Individual mean daily lying time varied from 10.2 to 13.0 h (mean 11.6, Agricultural College, Edinburgh, United Kingdom SE 0.33 h). The probability of cows Introduction Information on (changes in) standing and lying behaviour can be used for oestrus standing up increased linearly with lying time (Fig. 1a), as hypothesized. The probability of cows lying down was, however, entirely unaffected by standing time (Fig. 1b), which contradicted our hypothesis. Disaggregation of the data in subsets showed that the absence of any effect of standing time on Plie was not caused by the pooling of data obtained during the day and the night or across individuals with different behavioural strategies. Lustige verwandte Beispiele– Liegende Kühe Die Analyse dieser Daten führte zu der Erkenntnis, dass je länger eine Kuh liegt, desto eher steht sie wieder auf. Wenn sie dann aber wieder aufgestanden ist, ist es nicht möglich vorherzusagen, wann sie sich wieder hinlegen Figure 1 Thewird. probability of cows standing up (Pstand) within 15 min in relation to time lying (a) and the probability of cows lying down (Plie) within 15 min in relation to time standing (b). Regression lines were fitted to the data indicated by the solid symbols. The regression line in graph (a) was highly significant (R2 = 0.98, P < 0.001, RSD = 0.021). The regression line in graph (b), however, was not (R2 = 0.003, P = 0.83, RSD = 0.033). Sensors can give relevant information on cows’ standing and lying behaviour but the type of sensor used here Für diese wichtigeConclusions Erkenntnis erhielten Tolkamp et al. 2013 den recorded an excessive number of short lying episodes which must be adjusted for. Determination of a bout criterion that distinguishes between actual lying bouts and sensor settings suggesting short lying episodes but caused by other factors, alternativen Nobelpreis Wahrscheinlichkeitstheorie. such as sudden für leg movements, then allows a meaningful interpretation of the data. The increase in the probability of cows standing up with lying time was as expected. Cows were, however, not more likely to lie down the longer they were standing, thereby refuting our second hypothesis. This suggests that the increase in motivation to lie down that has been observed after lying deprivation (Metz 1985; Munksgaard et al., 2005) may have limited relevance for cows that are not deliberately lying-deprived. “Cows can be really boring.” Acknowledgements SAC receives support from Scottish Government, Rural and Environment Research and Analysis Directorate. References Metz, J.H.M. 1985. Applied Animal Behaviour Science 13, 301-307. Munksgaard, L. Jensen, M.B., Pedersen, L.W, Hansen, S.J., Mathews, L. 2005. Applied Animal Behaviour Science 92, 3-14. Bert Tolkamp Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Mehr als eine Zielgröße In vielen Fällen wird nicht nur eine Zielgröße von Interesse gemessen! Es liegen dann multivariate Daten vor, die mit Methoden der Multivariaten Analysis ausgewertet werden müssen. Verfahren, die in diesen Bereich fallen sind beispielsweise I I I I I I Hotelling’sT 2 -Test Wilk’s MANOVA PCA Korrelationsanalysen Klasssifikation und Diskriminanzanalysen etc. Wir betrachten zur Veranschaulichung ein schönes Beispiel Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Entdeckung einer neuen Unterart des Possums Ross Cunningham Markus Pauly (University of Ulm) Trichosurus cunninghamii Versuchplanung Sommersemester 2015 Entdeckung einer neuen Unterart des Possums Zoologen wollten die Hundskusus (Possums) in Australien genauer untersuchen. Für die Erhebung der Daten führte ein Statistiker (Ross Cunningham) die Studienplanung durch. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Entdeckung einer neuen Unterart des Possums Bei der explorativen Analyse der Daten fiel Ross Cunningham auf, dass bei manchen gemessenen Größen zwei Gruppen zu sehen waren. ● ●● ● ● ●●● ●● ●● ●● ● ●● ● ●●● ●● ●● ● ●●●●● ●●● ●● ●●● ● ●●● ● ● ● ● ●● ● ● ● ● ● ● ● ●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ●●●● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ●● ● ● ●●● ● ● ● ●● ●●●● ●● ● ● ● ● ● ● ●● ●●●● ●● ●● ● ● ●● ● ● ●●● ● ● ●● ● ● ●● ●●● ●● ● ●● ● ● ●●●● ●● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ●● ●● ●● ●● ● ● ● ● ●●● ● ● ● ●●●● ●● ● ●●● ● ●● ●●●● ● ● ● ●● ● ● ●●● ●●●●●●● ●●● ●●●● ● ●● ●● ● ●●●●●●● ●● ●● ●●● ●●● ● ●●● ●● ●● ●●●● ● ●● ● ●● ●● ● ●●●● ●● ●● ● ●● ● ● ●● ● ● ● ●● ● ● ●●● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●●● ● ● ● ●● ●● ● ●●● ● ●●●●● ●● ●● ● ●● ● ● ●● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● ●●●●● ● ●● ●● ● ●● ● ● ● ● ● ●●●● ● ● ● ●● ●●●● ● ●● ● ●●● ●● ● ● ● ●●● ● ●● ● ●● ● ●● ● ●●●● ●●●●● ● ● ●●● ●● ●● ● ● ● ● ●● ●●●● ●● ●●● ● ●● ●●● ●●● ●●● ● ●● ●●● ●●● ●● ●●● ● ●●●● ●●● ●●●● ●● ● ●● ●● ●●● ●●●●● ●● ● ● ●● ● ●● ●●● ● ●● ● ●● ● ● ● ●● ● ● ● ●● ●● ●●● ● ● ● ● ●●● ●● ● ●● ● ●● ● ● ●●●●● ● ●● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ●● ● ● ● ● ● ●●● ●●●● ●●●● ●●● ● ● ●●●●●● ● ●● ● ● ●●● ●●● ●● ●●● ●● ● ●●● ●● ●●● ●● ● ●● ● ●●● ● ● ●● Körper− größe ● ● ● ●● ●● ● ● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ●● ● ●● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●●● ● ● ● ● ● ●● ● ● ●● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ●●●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●●●● ● ● ● ●● ●● ● ● ●● ● ●●● ● ● ● ●●● ●● ● ●●● ●●●● ● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ●●●● ● ● ●● ●● ● ● ● Schwanz− länge ● ●●● ● ●● ● ● ● ●● ●● ● ●● ●● ●●●● ● ● ● ● ● ● ● ● ● ●●● ● ●●● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ●● ● ● ●● ● ●● ● ● ●●●●● ● ● ● ● ● ●● ●●● ●● ●● ● ●● ●●● ●● ● ●● ●●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ● ●●● ● ● ●● ● ●●● ●● ● ● ●● ● ●● ● ●●●● ●● ● ●● ● ● ● ●● ●● ●●● ●● ● ●●● ●● ●● ●● ●● ● ● ●● ●● ●● ● ●●● ●● ● ●● ●●●●● ● ● ● ●●● ● ● ● ● ● ●● ● ●● ● ● ●● ● ●● ● ● ● ●● ● ● ● ● ●●● ● ● ●● ● ● ●● ● ●●● ● ● ●●● ● ●●● ●●● ● ●●● ● ●● ●● ● ●● ● ● ●●●● ●● ●●●●● ● ●● ● ●●●● ●● ● ●● ●● ● ● ●● ●●●● ● ●● ●●● ●● ●● ● ● ●● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ●●● ● ●● ● ● ● ● ●● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●●● ●● ●● ●● ● ●●●●●● ● ● ●● ● ● ●●● ● ● ● ● ● ● ● ●● ● ● ●● ●● ● ● ● ● ● ●● ● ● ●● ● ●● ●● ●● ● ●● ●● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●●●● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ●●● ●● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●●● ● ●●● ●● ● ● ●●●● ●● ● ●● ●● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ●●● ●● ● ●● ● ●● ●● ● ● ●●●● ●● ●●● ● ●● ● ● ●● ● ●● ●● ●●● ●●● ●● ● ●● ●●● ● ● ●● ● ● ●●● ● ●●● ●●●● ●●● ●●● ●● ● ● ● ● ●● ● ●● ● ●● Pfoten− länge ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●●● ● ● ●● ● ● ●●● ●●● ●●● ● ● ● ● ● ●●● ● ●● ● ●● ● ●● ● ●● ● ●● ● ●● ● ● ●● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ●● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ●●● ●●● ●● ●●● ●● ●●● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ●●●● ●● ●● ● ● ● ●● ● ● ● ● ● ●●● ●●● ●●●●●●●● ●●● ● ●● ● ● ●● ● ● ●● ● ● ● ● ●● ●● ●● ● ● ●● ● ●● ● ●● ●●●● ●●●● ●●●● ●●● ● ●●●●●● ●● ● ●●● ●●●● ●● ●● ● ●●● ●●●●●● ● ● ● ● ● ● ● ● ● ●●● ● ●● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ●●● ●● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ●● ● ●● ●● ● ●● ● ● ●● ● ● ● ●●● ●● ● ● ● ● ● ●●● ● ● ● ● ●● ● ● ● ● ● ●●●●● ●●● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ●● ● ●●●●● ●●● ●● ● ●● ● ● ●● ●● ●● ● ●● ●●●●● ●● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ●● ● ●●●● ●● ● ● ●●● ● ●● ● ●● ● ● ●● ● ● ● ● ●● ●● ● ● ● ● ●● ●● ● ●● ● ●● ● ● ●● ●●●● ● ●● ●●● ●● ● ●● ●● ●●● ●● ● ● ● ●● ●●●●● ● ● ●● ● ●● ● ● ●●● ●● ●●●● ● ●●●●● ● ●●● ●●● ●● ● ●●●● ●● ●● ● ● ● ●● ● ●● ● ●● ● ● ● ●● ●●● ●●●● ● ● ●● ●● ●● ● ●● ● ●● ●● ●● ● ●● ●● ●● ●● ● ● ● ● ● ● ● ●●● ●● ● ●● ●●● ● ● ● ●●● ● ●● ● ●● ● ●● ● ●● ● ●● ● ●● ● ● ●● ●● ● ● ● ● ●●●●● ● ● ● ● ●● ● ●● ● ●● ● ● ● ●● ●● ●● ● ● ● Ohr− länge ● ● ●● ● ● ●● ●●●● ●● ●●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ●● ●●● ● ● ● ● ●● ●● ● ●●● ●● ● ●● ●● ● ● ● ● ● ● ●●● ● ● ● ● ●● ●● ●● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ●● ●●●● ● ● ● ●● ●● ●● ●● ●● ● ● ●●● ●●●● ● ● ●●● ● ● ● ●●● ● ● ●● ● ● ●● ● ●●● ● ● ● ● ● ● ●●● ● ● ● ●●● ● ● ● ● ● ●●● ● ●●●● ●●● ● ● ●● ●●●● ● ●● ●● ● ● ● ●● ● ● ●●● ● ● ●● ●●●●● ● ● ●● ●●● ●●●● ●● ●● ●●●●●●● ●● ●●● ●●●●● ●● ●●●●● ●●● ●●●● ●● ● ● ● ● ●●● ●● ● ●●●●● ●● ● ●●●●●● ● ● ●●● ●● ● ●● ● ● ●● ● ●● ● ● ●● ● ● ●● ● ● ●● ●● ●●● ● ●● ● ● ●●● ●●●● ● ● ● ●● ●●● ●●●● ● ●● ●●● ● ● ● ● ● ● ●●●● ● ● ● ●●●● ● ●● ● ● ●●●●● ● ● ●●● ● ● ● ● ● ●● ● ● ●●●● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ● ●●● ● ● ●●● ● ● ● ● ●●● ● ● ●● ●● ● ● ● ● Augen− größe ●● ● ● ● ●●●●● ● ● ●● ●●●● ● ●●●● ● ● ● ●● ●●●● ● ● ●●● ●● ●●● ●● ●●●●● ●●● ● ●● ● ● ●● ● ●●●●● ●● ●● ●●● ● ●●● ● ● ● ● ● ● ●● ● ● ● ●● ●● ●● ●● ● ●●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ●● ●● ●● ● ● ●●● ●● ● ●●● ● ● ● ● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ● ●● ● ●● ● ●●● ● ●● ●● ●● ● ● ● ● ● ●●●● ● ●● ● ● ●● ●● ● ●● ●● ● ● ●● ●● ●●● ●● ● ●● ●● ● ● ●● ● ● ●●● ● ● ●● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ● ●● ● ● ●●● ● ●●● ● ●● ● ● ● ● ●●● ●● ● ●●● ●● ●● ● ● ●●● ●● ● ● ● ● ● ● ●● ● ●●● ● ●● ● ●●● ● ● ●● ●● ●●● ●●● ●● ●● ●● ●●● ●●●●● ● ● ●●●● ●●● ● ● ● ●● ● ●●●● ●●● ●● ● ●● ● ●●● ● ●●● ● ● ●● ●● ●● ● ●● ●● ●● ●● ● ● ● ● ● ●● ●● ●● ● ●● ● ● ● ● ●● ● ●●● ● ●● ● ● ●● ● ●● ●● ● ●● ● ●●● ● ● ● ● ●● ●●● ●●● ● ● ● ● ● ●● ● ● ●● ● ●●● ● ● ● ● ● ●● ● ● ● ● ●●● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ●●● ●● ●● ● ●● ● ●● ●● ● ●●●● ● ● ●● ●● ● ● ● ● ● ●● ●●● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ●● ● ● ●● ●● ●●● ● ● ●● ● ● ●● ● ● ● ●●●● ●● ●●● ● ● ● ● ● ●● ● ●●● ●● ● ● ●● ●● ● ● ●●● ●● ●●● ● ●●● ●● ●●●●● ● ● ●● ●● ●●●● ● ● ●● ● ●●●● ● ● Brust− umfang 85 95 ● ● ● ●●● ● ● ● ● ●●●● ● ● ●●● ● ●● ● ● ●●● 75 85 95 ● ● ● ●● ● ● 60 ● ●● ●● ● ● ● ● ● ●● ● ●● ● ● ●● ●● ● ● ●●●● ●● ● ●●●● ● ● ●● ●● ●● ● ● ● ● 70 Versuchplanung ● ● ● ● ● ● ● ● ●●●● ● ● ●●● ● ● ●● ● ●● ● ● ● ●●● ●●● ● ●●●● ● ● ●●● ● ● ● ●●● ● ●● ● ● ● 95 ●● ●●● ● ●● ● ● ●● ● ●●● ●● ● ●● ●● ●● ● ●●●● ● ● ●●●●● ● ●●● ● ●● ●●● ●● ● ● ●● ●●● ● ●● ●● ●● ● ●●●● ●● ●● ● ● ●●●● ● ● ● 85 ●●● ● ● ● ● ● ● ●● ●●● ●●● ● ●●● ●● ●●●● ● ●● ●●● ●● ●● ● ●●● ●● ●●●● ● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ● ●●● ● ● ●● ● ● ●● ● ● 95 ● ● ●● ● ● 85 60 50 38 32 50 40 ● 22 26 30 ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ●● ●●● ●● ●● ● ● ●●●● ● ● ●●● ● ● ●● ●● ●● ●● ● ●●● ● ● ● ● ●● ● ● ●●●●● ● ●● ● ●● ● ●● ●● ●●●● ● ●● ● ●● ●●● ● ● ● ●● ● ● ●● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ●●● ● ● ●● ● ● ● ● ●● ●● ●● ● ● ● ● ●●● ●●● ●●●● ● ● ● ● ● 22 26 30 ●● ● ● ● ●● ● ● ● ● ● ● ●●●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ●● ● ● ● ●●● ● ● ●●● ● ● ●● ● ● ●●● ●● ● ●● ● 50 ● ● ● ● ●●● ●● ● ● ●●● ● ●● ● ●●● ●●● ●● ● ●● ●● ● ● ● ●● ●● ● ● ● ●● ●● ●●● ● ● ●● ●●● ● ● ● ●● ● ● ● ●● ● ●●●● ●● ●●● ●● ● ● ●●●●● ● ● ●● ●● ●●● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●●●● ●● ● ● ● ● ● ● ● ●● ●● ● ●●● ● ● ●● ● ● ● ● ●● ● ●● ●● ●● ●● ●● ● ● ● ● ● ● ● ●●● ●● ● ● ● ● Markus Pauly (University of Ulm) ● ● Schädel− breite 40 ●● ● ● ● ●●● ● ● ● ●● ● ●● ●● ● ● ●●● ● ●● ● ● ● ● ●●● ●● ● ●●● ● ● ● ●● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ●●● ● ● ● ●●● ●● ●● ●● ● ●● ●●●● ● ● ●● ● ●● ● 75 ●●● ●● ● ● ● ● ● ●●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ●● ●● ●● ● 38 ● ● ● ●● ●● ● ● ●● ●●●● ● ● ●● ● ●●● ●●●●● ●● ●●● ●● ● ●● ●●● ●● ● ●●●●● ● ● ●● ●●● ●●● ● ●● ●● ● ●● ●●● ● ● ● ● ● ●● ● 70 32 ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ●● ●●●●● ●●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ●● ● ●● ● ● ● ●●● 60 60 ● ● ● ● ●● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●●● ● ●● ●● ● ●● ●● ● ●● ●●● ● ●●● ● ● ●●●● ●●●●●●● ●● ● ●● ● ● ● ●● ●● ● ● ● ●●● ● ● ● ●●● ● ●●● ●● ●●●● ●● ●●●● ●●● ● ●●●● ● ● ●●● ●●● ●● ● ● ● ● 13 15 17 50 Kopf− länge 13 15 17 Sommersemester 2015 Entdeckung einer neuen Unterart des Possums Bei genauerer Betrachtung stellte sich heraus, dass Possums im Süden / in Victoria (rot) größere Ohren, längere Pfoten und kürzere Schwänze als an anderen Standorten (blau) haben. ●● ● ● ● ●●● ●● ●● ●● ● ●● ● ●●● ●● ●● ● ●●●●● ●●● ●● ●●● ● ●●● ● ● ● ● ●● ● ● ● ● ● ● ● ●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ●●●● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ●● ● ● ●● ●● ● ●●● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ●● ●●●● ●● ●● ● ● ●● ● ● ●●● ● ● ●● ● ● ●● ●●● ●● ● ●● ● ● ●●●● ●● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ●● ●● ●● ●● ● ● ● ● ●●● ● ● ● ●●●● ●● ● ●●● ● ●● ●●●● ● ● ●●● ●●●●●●● ●●● ●●●● ● ●● ●● ● ●●●●●●● ●● ●● ●●● ●●● ● ●●● ●● ●● ●●●● ● ●● ● ●● ●● ● ●●●● ●● ●● ● ●● ● ● ●● ● ● ● ●● ● ● ●●● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●●● ● ● ● ●● ●● ● ●●● ● ●●●●● ●● ●● ● ●● ● ● ●● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● ●●●●● ● ●● ●● ● ●● ● ● ● ● ● ●●●● ● ● ● ●● ●●●● ● ●● ● ●●● ●● ● ● ● ●●● ● ●● ● ●● ● ●● ● ●●●● ●●●●● ● ● ●●● ●● ●● ● ● ● ● ●● ●●●● ●● ●●● ● ●● ●●● ●●● ●●● ● ●● ●●● ●●● ●● ●●● ● ●●●● ●●● ●●●● ●● ● ●● ●● ●●● ●●●●● ●● ● ● ●● ● ●● ●●● ● ●● ● ●● ● ● ● ●● ● ● ● ●● ●● ●●● ● ● ● ● ●●● ●● ● ●● ● ●● ● ● ●●●●● ● ●● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ●● ● ●● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●●● ● ● ● ● ● ●● ● ● ●● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ●●●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●●●● ● ● ● ●● ●● ● ● ●● ● ●●● ● ● ● ●●● ●● ● ●●● ●●●● ● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ●●●● ● ● ●● ●● ● ● ● Schwanz− länge ● ●●● ● ●● ● ● ● ●● ●● ● ●● ●● ●●●● ● ● ● ● ● ● ● ● ● ●●● ● ●●● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ●● ● ● ●● ● ●● ● ● ●●●●● ● ● ● ● ● ●● ●●● ●● ●● ● ●● ●●● ●● ● ●● ●●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ● ●●● ● ● ●● ● ●●● ●● ● ● ●● ● ●● ● ●●●● ●● ● ● ● ● ●● ●● ●● ●●● ●● ● ●●● ●● ●● ●● ●● ● ● ●● ●● ●● ● ●●● ●● ● ●● ●●●●● ● ● ● ●●● ● ● ● ● ● ●● ● ●● ● ● ●● ● ●● ● ● ● ●● ● ● ● ● ●●● ● ● ●● ● ● ●● ● ●●● ● ● ●●● ● ●●● ●●● ● ●●● ● ●● ●● ● ●● ● ● ●●●● ●● ●●●●● ● ●● ● ●●●● ●● ● ●● ●● ● ● ●● ●●●● ● ●● ●●● ●● ●● ● ● ●● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ●●● ● ●● ● ● ● ● ●● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ●● ●● ●● ● ●●●●●● ● ● ●● ● ● ●●● ● ● ● ● ● ● ● ●● ● ● ●● ●● ● ● ● ● ● ●● ● ● ●● ● ●● ●●● ●● ● ●● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ●●● ● ●●●● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ●●● ●● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●●● ● ●●● ●● ● ● ●●●● ●● ● ●● ●● ●● ● ● ●● ● ● ● ●●●● ● ● ● ● ●● ●● ● ●● ● ●● ●● ● ● ●●● ●● ●● ●● ●● ●●● ● ●● ● ●● ●● ●●● ●●●● ● ● ● ●● ● ●●●● ● ●●●● ● ●●● ●●●● ●●● ●●● ●● ● ● ●● ●● ●●● ● ●● Pfoten− länge ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●●● ● ● ●● ● ● ●●● ●●● ●●● ● ● ● ● ● ●●● ● ●● ● ●● ● ●● ● ●● ● ●● ● ●● ● ● ●● ● ● ● ●●● ● ● ● ● ● ● ● ●●● ● ●● ● ●●● ● ● ●● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ●●● ●●● ●● ●● ●●● ●● ●●● ● ● ● ● ● ●●● ● ● ●● ●● ● ● ●● ● ● ● ● ●● ●● ● ● ● ● ● ●●● ●●● ●●●●●●●● ●●● ● ●● ● ● ●● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ●● ●●● ●●●●● ● ●●●● ● ●●●● ●●● ● ●●●●● ●● ●● ● ●●● ●●●● ● ●● ● ●●● ●●●●●● ● ● ●●● ●●● ● ●● ● ● ●● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ●●● ●● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ●● ● ●● ●● ● ●● ● ● ●● ● ● ● ●●● ●● ● ● ● ● ● ●●● ● ● ● ● ●● ● ● ● ● ● ●●●●● ●●● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ●● ● ●●●●● ●●● ●● ● ●● ● ● ●● ●● ●● ● ●● ●●●●● ●● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ●● ● ●●●● ●● ● ● ●●● ● ●● ● ●● ● ● ●● ● ● ● ● ●● ●● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ●● ●●●● ● ●● ●●● ●● ● ●● ●● ●●● ●● ● ● ● ●● ●●●●● ● ● ●● ● ●● ● ● ●●● ●● ●●●● ● ●●●●● ● ●●● ●●● ●● ● ●●●● ●● ●● ● ● ● ●● ● ● ● ● ●● ● ●● ● ●● ●●● ●●●● ● ● ●● ●● ●● ● ●● ● ●● ●● ●● ● ●● ●● ●● ●● ● ● ● ● ● ● ● ●●● ●● ● ●● ●●● ● ● ● ●●● ● ●● ● ●● ● ●● ● ●● ● ●● ● ● ●● ● ●● ●● ● ● ● ● ●●●●● ● ● ● ● ●● ● ●● ● ●● ● ● ● ●● ●● ●● ● ● ● Ohr− länge ● ● ●● ● ● ●● ●●●● ●● ●●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ●● ●●● ● ● ● ● ●● ●● ● ●●● ●● ● ●● ●● ● ● ● ● ● ● ●●● ● ● ● ● ●● ●● ●● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ●● ●●●● ● ● ● ●● ●● ●● ●● ●● ● ● ●●● ●●●● ● ● ●●● ● ● ● ●●● ● ● ●● ● ● ●● ● ●●● ● ● ● ● ● ● ●●● ● ● ● ●●● ● ● ● ● ● ●●● ● ●●●● ●●● ● ● ●● ●●●● ● ●● ●● ● ● ● ●● ● ● ●●● ● ● ●● ●●●●● ● ● ●● ●●● ●●●● ●● ●● ●●●●●●● ●● ●●● ●●●●● ●● ●●●●● ●●● ●●●● ●● ● ● ● ● ●●● ●● ● ●●●●● ●● ● ●●●●●● ● ● ●●● ●● ● ●● ● ● ●● ● ●● ● ● ●● ● ● ●● ● ● ●● ●● ●●● ● ●● ● ● ●●● ●●●● ● ● ● ●● ●●● ●●●● ● ●● ●●● ● ● ● ● ● ● ●●●● ● ● ● ●●●● ● ●● ● ● ●●●●● ● ● ●●● ● ● ● ● ● ●● ● ● ●●●● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ● ●●● ● ● ●●● ● ● ● ● ●●● ● ● ●● ●● ● ● ● ● Augen− größe ●● ● ● ● ●●●●● ● ● ●● ●●●● ● ●●●● ● ● ●● ● ●● ●●●● ●●● ●● ●●● ●● ●●●●● ●●● ● ●● ● ● ●● ● ●●●●● ●● ●● ●●● ● ●●● ● ● ● ● ● ● ●● ● ● ● ●● ●● ●● ●● ● ●●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ●● ●● ●● ● ● ●●● ●● ● ●●● ● ● ● ● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ● ●● ●●●● ● ●●● ● ●● ●● ●● ● ● ● ● ●●●● ● ●● ● ● ●● ●● ● ●● ●● ● ● ●● ●● ●●● ●● ● ●● ●● ● ● ●● ● ● ●●● ● ● ●● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ● ●● ● ● ●●● ● ●●● ● ●● ● ● ● ● ●●● ●● ● ●●● ●● ●● ● ● ●●● ●● ● ● ● ● ● ● ●● ● ●●● ● ●● ● ●●● ●●● ● ●●● ●●● ●●●● ●●●●● ●●●●● ●●● ●● ● ● ● ●●● ● ● ● ●● ● ●●●● ●●● ● ●● ●● ● ●●● ● ●●● ● ● ●● ●● ●● ● ●● ●● ●● ●● ● ● ● ● ● ●● ●● ●● ● ●● ● ● ● ● ●● ● ●●● ● ●● ● ● ●● ● ●● ●● ● ●● ● ●●● ● ● ● ● ●● ●●● ●●● ● ● ● ● ● ●● ● ● ●● ● ●●● ● ● ● ● ● ●● ● ● ● ● ●●● ● ●● ●● ● ●● ● ●● ● ●●● ● ● ● ● ● ●● ●● ● ●●● ●● ● ●● ● ●● ● ●● ● ●●●● ● ● ●● ●● ● ● ● ● ● ●● ●●● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ●● ● ● ●● ●● ●●● ● ● ●● ●● ● ● ● ● ● ●●●● ●● ●●● ● ● ● ● ● ●● ● ●●● ●● ● ● ●● ●● ● ● ●●● ●● ●●● ● ●●● ●● ●●●●● ● ● ●● ●● ●●●● ● ● ●● ● ●●●● ● ● Brust− umfang 85 95 ● ● ●●● ● ● ● ● ●●●● ● ● ●●● ● ●● ● ● ●●● 75 85 95 ● ● ● ●● ● ● 60 ● ●● ●● ● ● ● ● ● ●● ● ●● ● ● ●● ●● ● ● ●●●● ●● ● ●●●● ● ● ●● ●● ●● ● ● ● ● 70 Versuchplanung ● ● ● ● ● ● ● ● ●●●● ● ● ●●● ● ● ●● ● ●● ● ● ● ●●● ●●● ● ●●●● ● ● ●●● ● ● ● ●●● ● ●● ● ● ● 95 ● ●● ● ● ● ● ● ●●● ●●●● ●● ● ●●● ● ● ●●●● ●● ●● ●●● ● ●●● ●● ●●●●● ●●● ● ●●● ●● ●● ●● ● ●● ●● ● ●● ●●● ● Körper− größe ● 85 ●● ● ●●● ● ●● ● ● ●● ● ●●● ●● ● ●● ●● ● ●●● ●●●● ● ● ● ● ● ●● ●●● ●●● ●●● ●● ●● ● ●●● ● ● ●●●●● ●●● ●● ●●● ● ●● ●●●● ●● ● ● 95 ● ● ● ● ● ● ● ●● ●●● ●●● ● ●●● ●● ●●●● ● ●● ●●● ●● ●● ● ●●● ●● ●●●● ●● ●● ●● ●● ●●● ●● ● ●● ●●●● ●●● ●● ● ●●● ● ●● ●● ● ●● ● 85 60 50 38 32 50 40 ● 22 26 30 ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ●● ●●● ●● ●● ● ● ● ● ● ●● ●●● ● ●●● ● ●● ●● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ●●●●● ● ●● ● ● ●● ●●●● ● ●● ●● ● ●● ●●● ● ● ● ●● ● ● ●● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ●●● ● ● ●● ● ● ● ● ●● ●● ●● ● ● ● ● ●●● ●●● ●●●● ● ● ● ● ● 22 26 30 ●● ● ● ● ●● ● ● ● ● ● ● ●●●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ●●● ● ● ●●● ● ● ●● ● ● ●●●● ●● ● ● ● 50 ● ● ● ● ●●● ●● ● ● ●●● ● ●● ● ●●● ●●● ●● ● ●● ●● ● ● ●● ● ● ● ●● ●● ● ●●● ● ● ● ●● ●●● ● ● ● ●●● ● ● ● ●● ● ●●●● ●● ●●● ●● ● ● ●●●●● ● ● ●● ● ●●● ● ● ●● ●● ●●● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●●●● ●● ● ● ● ● ● ● ● ●● ●● ● ●●● ● ● ●● ● ● ● ● ●● ● ●● ●● ●● ●● ●● ● ● ● ● ● ● ● ●●● ●● ● ● ● ● Markus Pauly (University of Ulm) ● ● Schädel− breite 40 ●● ● ● ● ●●● ● ● ● ●● ● ●● ●● ● ● ●●● ● ●● ● ● ● ● ●●● ●● ● ●●● ● ● ● ●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ●● ● ●● ● ● ●●● ●● ●● ●● ● ●● ●●●● ● ● ●● ● ●● ● 75 ●●● ●● ● ● ● ● ● ●●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ●● ●● ●● ● 38 ● ● ● ●● ●● ● ● ●● ●●●● ● ● ●● ● ●●● ●●●●● ●● ●●● ●● ●● ●●● ●● ● ●●●●● ● ●●● ●● ●● ●●● ● ●● ●● ● ●● ●●● ● ● ● ● ● ●● ● 70 32 ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ●● ●●●●● ●●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ●● ● ●● ● ● ● ●●● 60 60 ● ● ● ● ●● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●●● ● ●● ●● ● ●● ●● ● ●● ●●● ● ●●● ● ● ●●●● ●●●●●●● ●● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ●● ● ●●●● ●● ●●●● ●● ● ●● ● ●●●● ●●● ●●● ● ● ●●● ●●● ●● ●● ● ● 13 15 17 50 Kopf− länge 13 15 17 Sommersemester 2015 Entdeckung einer neuen Unterart des Possums Sein Klassifikationsmodell: T = 24 − 0.571 × Ohrlänge − 0.149 × Pfotenlänge + 0.341 × Schwanzlänge Falls T < 0 gilt, so kommt das Possum aus Victoria; ansonsten von einem der anderen Standorte. Genetische Untersuchungen bestätigten später diese Entdeckung einer neuen Unterart. Quelle: P. Hall (2003). A Possum’s Tale – How Statistics T. caninus T. cunninghamii Revealed a New Mammal Species. Chance, 16, 8-13. Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015 Mehr Details zu multivariaten Fragestellungen – an der Tafel :) Markus Pauly (University of Ulm) Versuchplanung Sommersemester 2015
© Copyright 2025 ExpyDoc