Statistische Versuchsplanung – Design of Experiments (DOX)

Statistische Versuchsplanung –
Design of Experiments (DOX)
Markus Pauly
Institute of Statistics
University of Ulm
Sommersemester 2015
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Regularien
Vorlesung: Di 14:00–16:00 Uhr in Hörsaal H12
Übung: Mi 14:00–16:00 in Hörsaal H12 (Start: Morgen)
Homepage mit Materialien:
uni-ulm.de/mawi/statistics/courseslehre/
summer-semester-2015/
statistische-versuchsplanung.html
Übungsaufgaben:
– Abgabe jeweils am Mittwoch vor Beginn der Übung nach upload
eine Woche zuvor
– Korrigierte Rückgabe eine Woche später
– Zulassung zur Prüfung: 40% der Punkte
– Tipp: Arbeiten in Kleingruppen von 2-3 Personen
– Gemeinsame Abgaben (maximal 3 Personen) erlaubt und
empfohlen
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Regularien
Prüfung:
I
Prüfung: 14.7. 2015
– Klausur oder mündliche Prüfung?
– Hilfsmittel bei Klausur: Ein selbstbeschriebenes DIN A4 Blatt (Vorund Rückseite) sowie ein Taschenrechner
Prüfungsvorbereitung:
– Teilnahme und rege Beteiligung in der Übungsstunde (Vorrechnen
bringt Bonuspunkte)
– Regelmässige Bearbeitung und Abgabe der Übungsblätter
– Diskutieren der Übungsaufgaben in Kleingruppen
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Ankündigung
Am Mittwoch, 1.7, 14-16 trägt
Tina Müller (Schering, Berlin)
in HE20 zum (vorläufigen) Thema
Applied Statistics in the Pharmaceutical Industry
vor.
Zuhörer sind herzlich eingeladen!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Literatur
Bandemer und Bellmann: Statistische Versuchsplanung, Teubner,
1994.
Brunner: Statistische Modellierung. Vorlesungskript, Universität
Heidelberg, 2009.
Montgomery: Design and Analysis of Experiments, Wiley, 2013.
Oehlert: A First Course in Design and Analysis of Experiments,
New York: WH Freeman, 2000.
Müller: Grundlagen der Versuchsplanung. Vorlesungsskript,
Universität Dortmund, 2014.
Siebertz: Statistische Versuchsplanung – Desgin of Experiments,
Springer, 2010.
TUD: http://elearning.tu-dresden.de/versuchsplanung/
Ünlü: Grundlagen der Versuchsplanung. Vorlesungsskript,
Universität Dortmund, 2011.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Ziele der Vorlesung
Vorstellung der grundlegenden Verfahren und Modelle für die
Planung von Experimenten
Vermeidung typischer Fehler, die hierbei auftreten können, um
systematischen Verzerrungen entgegen zu wirken,
Statistische Analysemethoden nach Durchführung der
Experimente für die wichtigsten Modelle einführen
Entwicklung von Guidelines zur Planung von Experimenten und
Sensibilisierung gegenüber PARC1
(Planning After the Research is Complete; J. Stuart Hunter)
1
Bitte 1x rückwärts lesen!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Kapitel 1:
Ein paar einleitende Worte zur Statistik
Eine Auswahl von Statistikprogrammen
R
freie Software(GNU GPL),
Programmiersprache, kann mittels eines Editors komfortabel verwendet werden,
erhältlich unter http://www.r-project.org,
Editoren/graphische Oberfläche unter http://www.sciviews.org/rgui/
häufige Verwendung an Hochschulen.
SPSS
kommerzielles Programm,
(meist) Menü-basierte Steuerung,
weit verbreitet, z.B. in der Medizin, Psychologie und in den
Sozialwissenschaften,
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Eine Auswahl von Statistikprogrammen
SAS
kommerzielles Programm
eigene Programmiersprache
Menü-basierte Steuerung möglich (Enterprise Guide),
weit verbreitet, z.B. in der Medizin, Biometrie, erfüllt industrielle
Standards,
Alle Statistikprogramme verfügen über umfangreiche Bibliotheken.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Ablauf einer statistischen Untersuchung
1
Datenerhebung: (Zufalls-)Experiment (Daten werden z.B. durch
Beobachten oder Befragung erhoben)
2
Deskriptive Statistik: Datenaufbereitung und -darstellung (z.B.
durch Tabellen und Grafiken) sowie Datenauswertung (z.B. durch
Berechnung von Maßzahlen wie etwa Häufigkeiten, Mittelwerten
und Streuungen)
3
Induktive oder schließende Statistik: Statistische Analyse (z.B.
durch Schätzen, Testen oder Entscheidungen unter Unsicherheit)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Zufallsexperiment
Ein Zufallsexperiment ist ein realer Vorgang,
– der verschiedene Ergebnisse haben kann, von denen genau
eines eintritt,
– dessen Ausgang vor Ablauf ungewiss ist,
– der (prinzipiell) unter den gleichen Bedingungen beliebig oft
wiederholt werden kann.
Beispiele:
Münzwurf, Würfeln, Zahlenlotto (Modellexperimente mit festen
Regeln)
Aber z.B. in der Pharma-Industrie auch: Qualitätskontrolle,
Analyseergebnisse etc.
=⇒ Zulassung von Medikamenten
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistik
In einem Gedankenexperiment werden im Vorfeld,
(optimalerweise!!!) vor der Datenerhebung, alle möglichen
Szenarien eines Zufallsexperiments durchgespielt,
bewertet und wahrscheinlichkeitstheoretisch modelliert.
Das Studium dieser Theorie und deren Gesetzmäßigkeiten liefern
die Basis für die Analyse der Ergebnisse von Zufallsexperimenten.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Studie in der Pharma-Industrie (stark vereinfacht)
Vermutung (Hypothesengenerierung): Medikament A wirkt
besser als Medikament B.
Durchführung einer Studie (Zufallsexperiment): Patienten mit
der Krankheit werden (zufällig) in zwei Gruppen eingeteilt: Eine
erhält Medikament A, die andere Medikament B.
Vergleich Theorie vs. Wirklichkeit: Ist Medikament A wirklich
besser als Medikament B?
Induktive Statistik: Vergleich der Verbesserung des
Gesundheitszustands der Patienten.
⇒ Die Wahl des Auswertungsverfahrens hängt dabei von der
Beziehung aller beteiligten Größen ab. Diese Struktur heißt
Versuchsplan.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Kapitel 2:
Motivation und Grundbegriffe der
Versuchsplanung
Historisches vorweg
Ursprung: Agrarwissenschaften (1908 - 1940)
W.S. Gossett und der t-test (1908)
R. A. Fisher und Co-Autoren (Faktorielles Prinzip)
⇒ Starken Einfluß auf die Agrarwissenschaften
I ANOVA, Factorial designs etc.
I
I
Die erste industrielle Ära (1951 - 1970)
I Box and Wilson: Response surface Methode (RSM)
⇒ Anwendung in der chemischen und anderen Prozessindustrien
Die zweite industrielle Ära (1970 - 1990)
Taguchi: Robuste Designs (insbes. fraktionelle faktorielle Designs),
Prozessrobustheit
⇒ Qualitätsverbesserung in vielen Firmen
I
Seit 1990: Die moderne Ära
Schwerpunkt der VL eher auf biometrischen Anwendungen
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Allgemeines
Die statistische Versuchsplanung ist eine natürliche Erweiterung
des naturwissenschaftlichen Vorgehens zum Erkenntnisgewinn
über reale Prozesse.
Wesentlichen Schritte dabei: Planen, Experimentieren,
Beobachten und Auswerten.
Nur durch Experimentieren unter kontrollierten Bedingungen
können gesicherte Erkenntnisse über reale Prozesse gewonnen
werden.
Mögliche Probleme
I
I
Nicht alle für das Ergebnis wesentlichen Faktoren werden in
relevanten Bereichen variiert und die Ergebnisse einzelner
Versuche können widersprüchlich sein.
Wesentliche Effekte können sich überlagern und damit nicht
unterscheidbar sein bzw. sich abschwächen/aufheben oder
verstärken (Antagonismen, Confounding, Synergien).
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Zufallsexperiment
Experiment = Frage an die Natur im weitesten Sinne?
I
I
Ist das neue Medikament A besser als ein etabliertes?
Ist Fernsehen für Kinder schädlich?
Die Frage sollte so genau wie möglich und eindeutig formuliert
werden, damit eine Lösung in einer für andere nachvollziehbaren
Weise möglich ist.
I
I
Unter welchen gesundheitlichen, physischen und sozialen
Voraussetzungen liefert das neue Medikament eine höhere
Heilwahrscheinlichkeit als das etablierte?
Fünfjährige Kinder aus Ulm, die pro Woche mehr als fünf
Actionfilme sehen, zeigen im Kindergarten mehr aggressive
Verhaltensweisen als gleichaltrige Kinder aus Ulm, die überhaupt
nicht fernsehen.
Problem: Es ist (i.d.R.) unmöglich alle Bedingungen für einen
Versuch im Vorfeld festzulegen!
I
Beispiele...
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Zufallsexperiment
Problem: Es ist (i.d.R.) unmöglich alle Bedingungen für einen
Versuch im Vorfeld festzulegen!
Naturgegebene Schwankungen
⇒ Z.B. sind Schädigungen von Nadelbäumen in einem Wald auch für
Bäume gleichen Alters und gleicher Wachstumsbedingungen
unterschiedlich. Ähnliche Beobachtungen gibt es auch für
unterschiedliche Krankheiten bei eineiigen Zwillingen
I Aufwand zu groß
⇒ Auch bei einfachen Messungen (Gewicht o. Länge) haben
Umweltbedingungen (Temperatur, Luftfeuchtigkeit etc.) einen
Einfluss auf die Messung.
I
⇒ (Fast) alle Experimente sind Zufallsexperimente!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Ziel- und Einflussgrößen
Definition 2.1 (Ziel- und Einflussgrößen):
1
Die in einem Versuch beobachteten Zufallsvariablen, über die man bestimmte
Aussagen treffen möchte, heißen in der Versuchsplanung Zielgrößen,
-variablen oder auch abhängige Variablen bzw. Endpunkt.
2
Diejenigen Größen, welche den Wert einer Zielgröße beeinflussen, nennt man
Einflussgrößen oder unabhängige Variablen. Hierbei unterscheidet man
nochmals:
3
Einflussgrößen, die im Versuch mit erfasst, beobachtet oder auch gezielt variiert
werden können heißen Faktoren.
4
Die übrigen Einflussgrößen, welche man wegen ihrer Vielzahl oder aus
technischen Gründen nicht im Versuch beobachten, variieren oder mit erfassen
kann oder möchte, werden zum sogenannten Versuchsfehler
zusammengefasst. Dieser wird durch eine Zufallsvariable beschrieben.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiele für Ziel- und Einflussgrößen
Einfluss der Behandlungsform einer Krankheit (EG) auf die Rückfallquoten (ZG),
Auswirkung der Änderung der “Prozesstemperatur” (F) auf die “Festigkeit” (ZG),
Schizophrenie (ZG) als Reaktion auf Umweltfaktoren (EG),
Einfluss von Alkoholkonsum (F) auf die Reaktionszeit (ZG).
Vorsicht: Man kann einer Variablen i.a. nicht ansehen, ob sie eine EG oder ZG
ist. Erst durch Kenntnis der Versuchsanordnung, kann man darüber Auskunft
geben.
⇒ BSP: Die obige Variable Alkoholkonsum könnte in einer anderen Untersuchung
auch ZG sein, wenn z.B. die Auswirkung von Reizentzug (EG) auf das Ausmaß
des Alkoholkonsums geprüft werden soll.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beobachtungs- vs. experimentelle Studien
Definition 2.2 (Beobachtungsstudien und experimentelle Studien):
1
In einer Beobachtungsstudie (Feldexperimente) werden die Werte von
Einfluss- und Zielgrößen beobachtet, ohne die Einflussgrößen zu kontrollieren.
2
Bei experimentellen Studien (Laborexperimente) werden die Faktporen
kontrolliert und die zugehörigen Werte der Zielgrößen beobachtet.
⇒ Auswertungen von Beobachtungsstudien leiden typischerweise unter den
anfangs angedeuteten Problemen.
⇒ Experimentelle Studien mit statistischer Versuchsplanung vermeiden diese i.a.
durch die systematische Auswahl von Versuchen, so dass alle interessierenden
Effekte unabhängig voneinander geschätzt werden können, wobei zusätzlich die
zur Verfügung stehenden Mittel optimal genutzt werden.
Ziel: Sinnvolle, maximale Interpretierbarkeit der Ergebnisse mit minimalem
Aufwand.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Störfaktoren und Stufen
Definition 2.3 (Störfaktoren und Stufen):
1
Die Faktoren, deren Einfluss im Versuch nicht interessiert und die
nur unter Versuchskontrolle gebracht wurden, um die
Versuchsfehlerstreuung gering zu halten, nennt man
Störfaktoren.
2
Im Gegensatz dazu bezeichnet man deshalb die interessierenden
Faktoren auch manchmal als Einflussfaktoren
3
Die verschiedenen Ausprägungen eines Faktors heißen Stufen.
Diese Ausprägungen können qualitativ oder quantitativ (metrisch
skaliert) sein.
Die Faktorstufen selber sind in der Versuchsplanung i.d.R. qualitativ.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Mögliche Störfaktoren
Umwelteinflüsse (Temperatur, Druck etc.)
Zeiteinflüsse (Messungen zu verschiedenen Zeitpunkten) und in dem Zshg auch:
Reifung der Versuchseinheit (Lern- und Alterungseffekte)
Veränderung der Messinstrumente (Verschleiß etc.)
Versuchsleitereffekte (Steigung von Sensititvität aber auch Müdigkeit im Verlauf;
Wechsel des Versuchsleiters)
Auswahlverzerrung (selection bias; Unterscheidung von Versuchsgruppen
bereits vor Manipulation der Einflussfaktoren)
Testeffekte:
I BSP: Erhöht autogenes Training die Intelligenz?
Versuch: Testpersonen machen IQ-Test vor Versuchsbeginn und nach
Absolvierung von fünf Trainingsstunden. Ergebnis: Anstieg des
durchschnittlichen IQs von 104 auf 112 Punkte (über die Testpersonen
hinweg gemittelt).
Aus diesem Ergebnis zu folgern, dass autogenes Training die Intelligenz
erhöht, ist keineswegs zwingend. Es ist natürlich zu erwarten, dass man in
Intelligenztests besser abschneidet, wenn man diese Tests schon einmal
durchgeführt/geübt hat.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Qualitative und quantitative Faktoren
Beispiele:
FAKTOR
Geschlecht
Dosis eines
Medikamentes
Medikament
Tag
einer
Beobachtung
Markus Pauly (University of Ulm)
S TUFEN
männlich
weiblich
100 mg/Tag
200 mg/Tag
500 mg/Tag
Placebo
altes Medikament
neues Medikament
1
2
3
Versuchplanung
FAKTORAUSPRÄGUNG
qualitativ
quantitativ
qualitativ
ordinal
Sommersemester 2015
Erinnerung: Skalenniveaus und Ausprägung
Variablen nehmen unterschiedliche Ausprägungen an, die sich im Hinblick auf ihre
Messung und erlaubten Operationen unterschieden.
Definition 2.4 (Skalenniveaus):
1 Nominalskalenniveau: Keine Anordnung auf einer Dimension möglich.
Erlaubte mathematische Operationen: =, 6=
Beispiele: Geschlecht, Staatsangehörigkeit, Konfession
2
Ordinalskalenniveau: Rangreihung (Ordnung) auf einer Dimension nach
größer - kleiner, besser - schlechter etc. möglich; über Abstände zwischen
diesen benachbarten Urteilsklassen ist jedoch nichts ausgesagt
Erlaubte mathematische Operationen: =, 6=, <, >
Beispiele: Schulnoten, Rangplätze beim Sport
3
Intervallskalenniveau: Ordnung auf einer Dimension möglich; die Abstände
zwischen den Skalenpunkten sind gleich.
Erlaubte mathematische Operationen: =, 6=, <, >, +, −
4
Verhältnisskalenniveau: Intervallskala mit einem festen, nicht willkürlichen
Nullpunkt. Verhältnisse (halb oder doppelt so viel etc.) sind sinnvoll.
Erlaubte mathematische Operationen: =, 6=, <, >, +, −, ∗, \
Beispiele: Zeitskala (Datum), Temperaturskalen (Celsius, Fahrenheit), IQ-Werte
Beispiele: Reaktionszeit, Lebensalter (0–150 Jahre), Fläche, Volumen
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Erinnerung: Skalenniveaus und Ausprägung
Häufig werden die beiden letzten Skalenniveaus (Intervall- und Verhältnisskala) zum
Kardinalskalenniveau zusammengefasst.
Eine verwandte Einteilung erfolgt hinsichtlich einer qualitativ/quantitativen
Merkmalsausprägung.
Definition 2.5 (Ausprägungen):
1
Eine Variable heißt qualitativ, wenn sie eine (höchstens ordinalskalierte)
Eigenschaft der Untersuchungseinheit bezeichnet.
2
Eine Variable heißt quantitativ oder metrisch, wenn ihre (mindestens
intervallskalierten) Ausprägungen “echt” gemessen oder gezählt wurden. Die
Merkmalsausprägungen werden i.d.R. als Zahlenwerte plus Einheit angegeben.
3
Diskrete (quantitative) Variable haben höchstens abzählbar unendlich viele
Ausprägungen.
4
Stetige (quantitative) Variable können prinzipiell überabzählbar viele Werte
annehmen, z.B. jede reelle Zahl in einem Intervall.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Variation und Co
Bemerkung 2.1 (Abhängige und unabhängige Variable):
Die Zielgrößen sind abhängige Zufallsvariablen (abhängig von den Faktoren und
Versuchsfehlern)
Die interessierenden Faktoren sollten durch den Versuchsleiter kontrolliert
geändert werden können und sollten unabhängig sein.
Definition 2.6 (Variation der Zielgröße):
Primärvariation: Systematische Variation der Zielgröße hervorgerufen nur
aufgrund der interessierenden Faktoren
Sekundärvariation: Systematische Variation der Zielvariable hervorgerufen
durch die Störfaktoren (nicht durch die interessierenden Faktoren)
Fehlervariation: Unsystematische Variation der Zielvariable, die weder auf den
Einfluss von (identifizierbaren) Stör- noch auf die Manipulation der
interessierenden Einflussfaktoren zurückzuführen ist
Die Trennung in Sekundär- und Fehlervariation ist in der Praxis i.d.R. nicht
notwendig und eher konzeptueller Natur.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Kontrolle von Sekundär- und Fehlervariation
Eliminierung (z.B. Lärm)
Konstanthaltung (z.B. Licht)
Verblindung. Beispiel: Doppelblindstudien, bei denen sowohl der
behandelnde Arzt als auch der Patient nicht wissen, welches
Medikament der Patient bekommen hat
Umwandlung der Störfaktoren in Einflussfaktoren → zwei- oder
mehrfaktorielle Pläne
Blockbildung/Parallelisierung, Zuordnung zu Blöcken mittels
Rangfolgenbildung (blocking)
Randomisierung/zufällige Reihenfolge (randomization)
Wiederholungsmessungen (repetition, repeated measurements)
...
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Feste und zufällige Faktoren
Zur Interpretation eines Versuchs und zur Verallgemeinerung der
Versuchsergebnisse ist es nötig, zwei Arten von Faktoren zu
unterscheiden: feste Faktoren und zufällige Faktoren.
Definition 2.7 (Feste und zufällige Faktoren):
(a) Ein Faktor heißt fest (fixed factor), wenn seine Stufen eindeutig
definierte, wiederholbare Ausprägungen (des Faktors) sind.
W IEDERHOLUNGSREGEL : Ein fester Faktor ist dadurch
charakterisiert, dass bei einer eventuellen Versuchswiederholung
dieselben Faktorstufen verwendet werden würden wie im
vorangegangenen Versuch.
V ERALLGEMEINERUNGSREGEL : Die Aussagen, die auf Grund
eines Versuchs mit festen Faktorstufen gemacht werden, gelten
nur für die im Versuch verwendeten festen Faktorstufen.
Beispiele: Geschlecht, Behandlung, Wochentag
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Feste und zufällige Faktoren
(b) Ein Faktor heißt zufällig (random factor), wenn seine Stufen eine
zufällige Auswahl aus der Grundgesamtheit aller möglichen Stufen
dieses Faktors darstellen (Realisationen des zufälligen Faktors). Die
Stufen dieses Faktors sind nicht beobachtbare Zufallsvariable
(unobservable random variables).
W IEDERHOLUNGSREGEL : Ein zufälliger Faktor ist dadurch
charakterisiert, dass bei einer Versuchswiederholung erneut
zufällig ausgewählte Stufen des Faktors verwendet werden.
V ERALLGEMEINERUNGSREGEL : Die Aussagen, die auf Grund
eines Versuchs mit zufälligen Faktorstufen gemacht werden,
beziehen sich auf die Grundgesamtheit, aus der die im Versuch
verwendeten Faktorstufen zufällig ausgewählt wurden.
Beispiele: Patient, Labortier, Interviewer
⇒ Mehr hierzu: Später; insbes. im Abschnitt über Randomisierung
und bei den auftretenden Random Effects Modellen!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Faktorenerfassung
Für eine gute Versuchsplanung ist es wichtig alle möglichen
Einflußgrößen der Zielvariablen zu erfassen
Neben Expertenwissen (Befragung und Diskussion) können
hierfür
auch sog. Cause-Effect- bzw. Fishbone-Diagramme hilfreich
sein.
Weitere typische Hilfsmittel sind screening Pläne wie 2k -Pläne
(kommen später) für erste Versuche.
Im nächsten Schritt sind diese nach interessierenden und
Störfaktoren sowie Versuchsfehlern zu ordnen
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Cause-Effect- bzw. Fishbone-Diagramme
(Quelle: http://tipqc.org/qi/jit/tools/cause-and-effect-diagram/)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Kontrolle der Einflüsse
In einem aussagefähigen Versuch sollten alle Einflussgrößen
unter Kontrolle sein
1
Faktoren: Unter Versuchskontrolle → mit erfassen,
2
Versuchsfehler: Unter statistischer Kontrolle → randomisieren,
zufällig im gesamten Versuch verteilen.
Ist der Versuchsfehler nicht unter statistischer Kontrolle, dann ist
der Versuch verzerrt, das Versuchsergebnis ist nicht
reproduzierbar und daher ist ein solcher Versuch in den meisten
Fällen nicht zu interpretieren.
Deshalb versucht man bei einer Versuchsplanung die Faktoren
vor der ersten Ergebnisregistrierung derart zu definieren,
anzuordnen, zu kombinieren oder zu erfassen, dass die Streuung
des Versuchsfehlers möglichst klein wird.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiele zu schlechter Versuchs- bzw.
Studienplanung
Beispiel 2.1 (Studie zu Kopf-Hals-Tumoren):
In einer Studie zu Kopf-Hals-Tumoren2 sollte untersucht werden,
ob bestimmte genetische (und klinische) Faktoren einen Einfluss
auf das Krebsrisiko im Kopf-Hals-Bereich haben.
Dabei wurde angenommen, dass dieses Risiko mit dem Alter
steigt und Männer (im Alter) stärker betrifft als Frauen.
So waren die meisten Patienten in dieser Studie Männer über 40.
Um nun Risikofaktoren zu identifizieren, werden in solchen
Fall-Kontroll-Studien neben den Daten von Patienten (Fälle) auch
dieselben Daten an Personen, die die Krankheit nicht zeigen
Kontrollen), erhoben, und die beiden Gruppen miteinander
verglichen.
2
berichtet von einem mir bekannten Statistiker
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiele zu schlechter Versuchs- bzw.
Studienplanung
Da Alter und Geschlecht bekannte Risikofaktoren sind, sollten
diese in dieser Studie neben den genetischen Faktoren mit in das
statistische Modell aufgenommen werden.
Die statistische Analyse dieser Daten führte zu einem Modell, das
ziemlich gut zwischen Fällen und Kontrollen trennt (viel besser als
man es in solchen Studien erwarten würde).
Grund: Da es schwer (und kostspielig) ist, Kontrollen zu
rekrutieren, wurde das Krankenhauspersonal als Kontrollen
verwenden – also hauptsächlich Frauen unter 30
(Krankenschwestern).
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiele zu schlechter Versuchs- bzw.
Studienplanung
Beispiel 2.2 (Aushärten von Aluminiumlegierung):
Ein metallurgischer Ingenieur möchte den Effekt von zwei
verschiedenen Aushärtungstechniken für eine
Aluminiumlegierung überpüfen: (1) Abschrecken mit Öl bzw. (2)
Abschrecken mit Salzwasser
Dazu wählt er Proben aus zwei verschiedenen Öfen, schreckt die
Proben aus Ofen i mit Methode (i) ab, i = 1, 2, und misst im
Anschluss die Härtegrade der Legierungen
Gute Idee?
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiele zu schlechter Versuchs- bzw.
Studienplanung
Problem: Beim Vergleich der Mittelwerte aus beiden Gruppen
kann der Ingenieur hier nicht mehr schließen, ob Unterschiede
aufgrund der unterschiedlichen Aushärtungstechnik oder aufgrund
der unterschiedlichen Öfen (u.u. mit verschiedenen
Temperaturen) auftreten
⇒ Man sagt: Er hat die Faktoren “Aushärtungstechnik” und “Ofen”
confounded, d.h. Effekte dieser Faktoren können nicht mehr
getrennt werden!
Außerdem sollten selbst bei einem so einfachen Experiment viele
Fragen vorher beantwortet werden:
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiele zu schlechter Versuchs- bzw.
Studienplanung
Beispielfragen
Sind obige Aushärtungstechniken die einzigen von Interesse?
Welche anderen Faktoren (Temperatur des Mediums etc.) können
den Härtegrad beeinflussen?
Sollten diese im Experiment als Faktoren mit aufgenommen oder
wenigstens kontrolliert (gleich gehalten) werden?
Bei Mitaufnahme: Wie sollen die Faktoren angeordnet werden?
Wie viele Proben sollen getestet werden (Fallzahlplanung) und
wie sollen diese auf die verschiedenen Techniken aufgeteilt
werden ? (Wahl des Designs; balanciert hat oft Vorteile; aber:
Kosten, Aufwand...)
Welcher Unterschied zwischen den Härtegraden gilt als relevant
Mit welchem statistischen Verfahren sollten die Daten analysiert
werden?
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beliebte (schlechte) Studienplanungsstrategien
Auffinden guter Faktorstufenkombinationen
Best-Guess approach: Der Wissenschaftler (im letzten Beispiel
Ingenieur) wählt aus Erfahrung die wichtigen Faktoren in einer
bestimmten Kombinationsstufe aus (best-guess), um einen
erwarten/erhofften Effekt auf die Zielgröße zu bekommen und
führt damit das Experiment (mehrfach) durch.
⇒ Aufgrund seiner Erfahrung kann dies ganz gut funktionieren, aber:
I
Bleibt das erhoffte Resultat aus, muss er nochmals eine
Faktorstufenkombi wählen etc.
Dies kann sehr viel Zeit in Anspruch nehmen.
I
Ist das Ergebnis zufriedenstellend, so wird u.U. sofort gestoppt.
I.d.R. gibt es aber noch andere Kombinationen, die zu besseren
Ergebnissen/Effekten führen.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beliebte (schlechte) Studienplanungsstrategien
One-factor-at-a-time approach (OFAT):
Für jeden Faktor wird eine Stufenbaseline festgelegt und dann
jeder Faktor sukzessive, bei fest halten der anderen Faktoren auf
der baseline, in Experimenten variiert.
⇒ Größtes Problem hierbei:
I
I
Mögliche Interaktionen zwischen den einzelnen Faktoren werden
komplett missachtet!
Häufig sehr ineffizient (im Bezug auf Stichprobengröße)
Besser: Statistische Versuchsplanung!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Kapitel 3:
Grundprinzipien der Versuchsplanung
Vorbemerkungen
Ein Experiment / Versuch wird typischerweise charakterisiert
durch die betrachteten
Versuchseinheiten und
Behandlungen sowie
deren Zuordnung und
den gemessenen Größen. Beispiele
Behandlung Versuchseinheit
Schlafmittel Proband
Futtermittel Kuh
Tumorart
Labormaus
Weizensorte Feld
Markus Pauly (University of Ulm)
Versuchplanung
Zielgröße
Schlafdauer
Milchertrag
Überlebenszeit
Ernteertrag
Sommersemester 2015
Variationen
Erinnerung:
Primärvariation: Systematische Variation der Zielgröße hervorgerufen nur
aufgrund der interessierenden Faktoren
Sekundärvariation: Systematische Variation der Zielvariable hervorgerufen
durch die Störfaktoren (nicht durch die interessierenden Faktoren)
Fehlervariation: Unsystematische Variation der Zielvariable, die weder auf den
Einfluss von (identifizierbaren) Stör- noch auf die Manipulation der
interessierenden Einflussfaktoren zurückzuführen ist.
Was Primär- und Sekundärvariation ist wird im Vorfeld durch Festlegung der
interessierenden Faktoren/Einflussgrößen bestimmt!
Wir fassen die letzten beiden meistens zur Fehlervariation (im weitesten Sinne)
zusammen.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Primärvariation
Bemerkung 3.1 (Zur Primärvariation ):
Das Auftreten eines Effekts stellt man fest, indem man prüft, ob
durch die Veränderung der Einflussgröße tatsächlich eine
Veränderung der Zielgröße eingetreten ist
Beispiel: Verringert sich die Leistung beim Basketball (Veränderung ZG) durch
Verabreichung einer höheren Dosis Alkohol (Veränderung EG)
Diese Unterschiede in den Messwerten der Zielgröße, nach denen
wir eigentlich suchen, stellen idealerweise die Primärvariation dar.
Leider kann nun aber die Variation der Einflussgröße auch durch
Störfaktoren oder Versuchsfehler zu Stande gekommen sein.
Diese ungewollte Variation (Fehlervariation) muss man kennen,
um sie der eigentlich interessierenden Variation (Primärvariation)
gegenüberstellen zu können.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Grundprinzipien der Versuchsplanung
Das Hauptprinzip einer guten Versuchsplanung heißt i.d.R. auch
Max-Kon-Min-Prinzip:
I
I
I
Maximiere die Primärvariation!
Kontrolliere die Sekundärvariation!
Minimiere die Fehlervariation!
Für die letzten beiden Regeln verwendet man dabei
typischerweise eine der folgenden DoX Grundprinzipien:
Randomisierung
Wiederholungen
Blocking
Faktorielles Prinzip
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Bermerkungen zu Max-Kon-Min
Veranschaulichung von Max-Kon-Min-Prinzip: Sie sitzen in einer
Bar und nehmen ein tolles Lied aus der Musikanlage war. Um
dieses besser zu hören, können Sie entweder die anderen Gäste
bitten, leiser zu sein (Reduzierung der Fehlervariation), oder die
Anlage lauter aufdrehen (Erhöhung der Primärvariation).
Die unerwünschte Fehlervariation (auch “Rauschen”) sollte
möglichst gering gehalten werden, damit die zu erwartende
Primärvariation (auch “Signal”) das Rauschen deutlich überwiegt.
Falls die Fehlervariation jedoch nicht weiter verringert werden
kann, und die Gefahr besteht, dass die Manipulation der
Einflussfaktoren im Vergleich zu Störfaktoren und Versuchsfehler
einen zu geringen Einfluss haben könnte, müssen Maßnahmen
ergriffen werden, um den Einfluss der interessierenden Faktoren
zu erhöhen (Erhöhung der Primärvariation).
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Maximierung der Primärvariation
Auswahl von extremen Werten: Damit die Primärvariation
möglichst groß wird, sollten möglichst unterschiedliche Werte der
interessierenden Faktoren verwenden werden.
Grund: Effekt der Änderung sollte das Rauschen überwiegen.
Beispiele: Behandlungsdauer (kurz, lang), Temperatur eines Prozesses (tief,
hoch)
Diese Methode ist nur sinnvoll, wenn eine einfache monotone
Beziehung zwischen ZG und EFen zu erwarten ist.
Wahl möglichst “optimaler” Stufen der Einflussfaktoren. In der
Praxis ist dies aber i.d.R. vorab nicht möglich. Deshalb:
Auswahl möglichst vieler Stufen der Einflussfaktoren, denn: Je
mehr Stufen wir untersuchen, um so genauer können wir die
Beziehung zwischen Zielgröße und Einflussfaktoren (Quelle für
die Primärvariation) beschreiben.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Kontrolle der Fehlervariation (im weitesten Sinne)
Eliminierung (z.B. Lärm)
Konstanthaltung (z.B. Licht)
Verblindung. Beispiel: Doppelblindstudien, bei denen sowohl der
behandelnde Arzt als auch der Patient nicht weiß, welches
Medikament der Patient bekommen hat
Randomisierung/zufällige Reihenfolge (randomization)
Blockbildung/Parallelisierung, Zuordnung zu Blöcken mittels
Rangfolgenbildung (blocking)
Wiederholungsmessungen (repetition, repeated measurements)
Umwandlung der Störfaktoren in Einflussfaktoren → zwei- oder
mehrfaktorielle Pläne
BEM: In der Regel werden Kombinationen obiger Techniken (abhängig
von der Fragestellung) verwendet.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Eliminierung und Verblindung
Untersuchungen werden oft in Laboratorien und nicht in der alltäglichen
Umgebung durchgeführt, da sich dort Störfaktoren besser eliminieren lassen.
Eine vollständige Eliminierung aller Störfaktoren ist jedoch i.a. nicht möglich.
Beispiel 3.1 (Der Störfaktor Versuchsleitereffekt und Möglichkeiten der
Eliminierung): Untersuchung von Rosenthal und Fode (1961): Studentischen
“Versuchsleitern” wurde die Aufgabe gegeben, einer Gruppe von
Versuchspersonen jeweils 10 Portraitfotos vorzulegen und anhand einer
20stufigen Skala (plus dem Wert 0 als Mitte) einschätzen zu lassen, wie
erfolgreich die portraitierten Personen wären (+10 = extrem erfolgreich, -10 =
extrem erfolglos). In einem Vorversuch mit anderen Versuchspersonen (und den
10 Fotos) war der Mittelwert der Einschätzungen exakt 0 gewesen. In der
Hauptuntersuchung wurde eine Gruppe der Versuchsleiter dahingehend
instruiert, dass der Mittelwert im Vorversuch -5 gewesen sei. Der anderen
Versuchsleitergruppe wurde der Wert +5 als Vorinformation gegeben.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Eliminierung und Verblindung
⇒ Ergebnis: Wie erwartet erzielten die Versuchsleiter jeweils
Ergebnisse, die deutlich vom Wert 0 abwichen und dabei jeweils
in der Richtung der Vorinformation lagen
⇒ Eliminierung z.B. durch Verblindung!
Bei einem sog. “Doppelblindversuch” weiss weder die
Versuchsperson noch der eingesetzte Versuchsleiter, welche
experimentelle Behandlung gerade abläuft. Übliches Vorgehen in
der Biometrie.
Erweiterung hiervon → Trippelblindversuch in der Biometrie:
Auch das sog. monitoring committee (u.a. Auswertungsinstanz)
bekommt nur die Daten ohne weitere Kenntnisse
I
I
Vorteil: Obkektivität
Möglicher Nachteil: Bei ethischen Verpflichtungen ggü Patienten in
Arzneimittelstudien!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Konstanthaltung
Manche Variablen, die sich z.B. in unkontrollierter Weise auf die
Fehlervariation auswirken können, kann man nicht eliminieren.
Beispiele:
I
I
I
I
das Alter
die Nationalität
die bisherige Erfahrung von Personen
die Beleuchtungsart und -stärke, wenn es darum geht, etwas zu
sehen
Anstelle der Eliminierung, versucht man hier die Größen
(prinzipiell) konstant zu halten, indem man z.B.
I
I
Personen ein und desselben Alters untersucht oder
darauf achtet, dass immer dieselbe Beleuchtung vorhanden ist.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Konstanthaltung
Beispiel 3.2 (Konstanthaltung): In einer Studie von Mayo (1950) wurde
untersucht, ob eine Verbesserung der Arbeitsplatzbeleuchtung (Einflussgröße)
zu einer Steigerung der Produktion (Zielgröße) in einem Industriebetrieb führt.
Vorgehen:
Vor Versuchsbeginn wurden die Produktionsleistungen an einer
Kontrollgruppe unter “normalen” Beleuchtungsbedingungen erhobenen
und anschliessend
I mit denen einer Experimentalgruppe verglichen, die besonders gut
beleuchtete Arbeitsplätze erhalten hatte.
I Erstaunliches Ergebnis: Die Experimentalgruppe zeigte sowohl während
des Experiments als auch nach dessen Abschluss (d.h. wieder unter
“normaler” Beleuchtung) höhere Produktionsleistungen als die
Kontrollgruppe!
⇒ Wahrscheinlicher Grund: Das Wissen um die Teilnahme an dem Versuch
hat in der Experimentalgruppe zu (störenden) Motivationseffekten geführt!
I
⇒ Dieser Effekt hätte vermieden werden können, wenn man auch die
Kontrollgruppe mit in den Versuch aufgenommen, d.h. das Wissen um das
“Gemessenwerden” konstant gehalten hätte.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Randomisierung
Ein Experiment heißt randomisiert, wenn die Zuordnung der
Versuchseinheit zur Behandlung einem bekannten (festen)
Zufallsmechanismus unterliegt.
Dieser Zufallsmechanismus heißt Randomisierung.
Gründe:
I
I
Durch die zufällige Zuteilung verhalten sich die Versuchseinheiten
innerhalb einer Behandlung gleich
(rechtfertigt die beliebte i.i.d. Annahme)
Schutz vor Confounding (Mehr dazu gleich)
⇒ Randomisierung ist eines der wichtigsten Grundprinzipien einer
guten Versuchsplanung
Ein nicht-randomisierter Versuch heißt manchmal auch
Quasi-Experiment.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel
Beispiel 3.3 (Zur Randomisierung):
Ordne 4 verschiedene Behandlungen3 (I)-(IV) 16 VUen zu
1
2
3
4
Verwende 16 verschiedene Blätter Papier; markiere 4 mit (I), 4 mit
(II) etc., mische diese 16 Blätter und ziehe für jede VU zufällig ein
Papier ohne Zurücklegen.
“Markiere” die VUen von 1, . . . 16 und nehme die Einteilung nach
der Realisierung einer multinomial-Mult4 (16, 14 , . . . , 14 )-verteilten
Zufallszahl vor.
Die ersten 4 VUen bekommen Behandlung (I), die nächsten 4
Behandlung (II) etc.
Der Versuchsleiter entscheidet über die Zuteilung (ohne
zusätzlichen Mechanismus)
Was ist randomisiert?
Erkennen Sie Unterschiede zwischen den Randomisierungen?
3
Faktor “Behandlung” hat 4 Stufen
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel
Die letzten 2 Methoden sind nicht-randomisiert! Die Zuordnung
hängt hier von einer (nicht-zufälligen) Reihenfolge der VUen oder
dem (nicht-zufälligen) Bauchgefühl des Versuchsleiters ab!
⇒ Ich kann die zugehörigen Experimente nicht adäquat wiederholen,
weil ich die VUen anders ordne oder ein anderes Bauchgefühl als
der Versuchsleiter habe
Die anderen beiden Methoden verwenden ein klar definiertes
probabilistisches Modell und sind somit randomisiert.
⇒ Ich kann die zugehörigen Experimente statistisch äquivalent durch
Verwendung derselben Randomiserungstechnik wiederholen.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Fragen und Bemerkungen zum Beispiel
Bemerkung 3.2 (zum Beispiel): Unterschied zwischen Methode
1 und 2:
I
I
I
Bei der ersten Methode ist die Anzahl der VUen in den Gruppen
jeweils 4 (fest)
bei der zweiten Methode ist diese zufällig!
Verschiedene Randomisierungen ⇒ Verschiedenen Designs!
Übungsaufgabe: Wie erzeugen Sie die Realisierung einer
Multinomial-Mult
k (n, p1 , . . . , pk )-Verteilung,
Pk , n ∈ N, k ≤ n,
P
pi ≥ 0, ki=1 pi = 1? Erinnerung: (xi ≥ 0, i xi = n)
Multk (n, p1 , . . . , pk )(x1 , . . . , xk ) = n!
k
Y
pxi
i
i=1
xi !
(3.1)
Diskussion: Ist es nicht pervers dem Experiment durch
Randomisierung noch mehr Zufall einzuimpfen? Wir wollen den
Versuchsfehler doch eigentlich klein halten!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Randomisierung und Lottozahlen
1
8
15
22
29
36
43
2
9
16
23
30
37
44
3
10
17
24
31
38
45
4
11
18
25
32
39
46
5
12
19
26
33
40
47
6
13
20
27
34
41
48
7
14
21
28
35
42
49
In der ersten Stunde
sollten Sie zufällig
Lottozettel ankreuzen.
Wir haben insgesamt
106 Lottotipps erhalten,
die wir (vereinfacht) als
unabhängige Tipps
ansehen wollen.
Frage von Interesse: Haben Sie die Zahlen wirklich zufällig
generiert?
Falls ja, so sollte die Anzahl der Kreuze auf dem äußeren Ring
einer hypergeometrischen-h(24, 25, 6)-Verteilung folgen.
⇒ Da Sarah und ich dies im Vorfeld bereits angezweifelt haben,
testen wir nun H0 : {P = h(24, 25, 6)}, wobei P “Ihre” Verteilung
bezeichnet.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Randomisierung und Lottozahlen
Histogram of Zähldichte
Frequency
0
0.00
0.05
5
0.10
0.15
15
10
Frequency
0.20
20
0.25
25
0.30
30
Histogram of Data
0
1
2
3
4
5
6
7
Data
Markus Pauly (University of Ulm)
0
1
2
3
4
5
6
7
Zähldichte
Versuchplanung
Sommersemester 2015
Randomisierung und Lottozahlen
0.25
25
0.30
30
Auszählung
Zähldichte
20
In Gegenüberstellung
⇒ Randomisierung geht
nicht so einfach “aus
der Hand heraus”!
0.00
0
0.05
5
0.1010
Häufigkeit
0.15 15
0.20
Ergebnisse des
χ2 -Anpassungstests:
p-value=2.2 · 101−16 !
0
1
2
3
4
5
6
7
Kreuze auf dem Rand
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Randomisierung schützt vor Confounding
Erinnerung: Confounding = Der Effekt eines Faktors auf die
Zielgröße kann nicht mehr von dem Effekt eines anderen Faktors
unterschieden werden.
Beispiel 3.4 (Koronare Herzkrankheit (KHK)4 ):
Man möchte ein neues Medikament für KHK mit der
kostspieligeren, invasiven Bypass-Operation vergleichen.
I Zielgröße: Überlebenszeit (nach 5 Jahren; z.B.)
I 100 Probanden haben ihr Einverständins zur Teilnahme gegeben.
I Was kann passieren, wenn wir nicht randomisieren?
I Der Gesundheitszustand der Patienten ist i.d.R. nicht homogen.
⇒ Durchführende Ärzte sind verleitet den “schwächeren” Patienten
das Medikament zu geben und die “stärkeren” zu operieren.
⇒ Die Faktoren Behandlung und Gesundheitszustand werden
confounded!
I Wahrscheinliches Ergebnis: Schlechtere Überlebensrate in der
Medikamentgruppe
I
4
Sehr Vereinfacht nach Oehlert (2000)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Mehr zur Randomisierung
Oben: Vereinfachte Sicht des Experiments als Zuordnung von
VUen zu Behandlungen und Messung von Zielgrößen.
Dies versteckt eine Vielzahl an zu beachtenden Punkten und
Entscheidungen. Beispiele:
I
I
I
Werden die VUen innerhalb der Behandlungen nicht gleichzeitig
verwendet, so kann man jeweils auch deren
Verwendungsreihenfolge randomisieren
Werden verschiedene Messinstrumente zur Bestimmung der
Zielgröße verwendet, so kann man zusätzlich die Zuordnung zu
den Messinstrumenten randomisieren.
Werden die VUen an verschiedenen Orten verwendet, so kann
man auch diese randomisieren!
⇒ Kann z.T. unübersichtlich werden!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Mehr zur Randomisierung
Andere Möglichkeit: Wird vermutet, dass einer dieser Punkte die
Zielgröße beeinflusst, so kann dies auch im Design des Versuchs
berücksichtigt werden! Beispiel hierfür später: Blocking!
⇒ Typisches Vorgehen: Designe das Experiment im Hinblick auf
bekannte Probleme und randomisiere den Rest.
“Randomization generally costs little in time and trouble, but it can
save us from disaster.”
Gary W. Oehlert
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Durchführung einer Randomisierung
Frage: Wie führt man die Randomisierung durch?
Physisch?
I
I
I
Münz- oder Würfelwurf (Manipulierte Größen?!)
Ziehen von durchgemischten Blättern/Karten (Gut durchmischt?)
“Ziehen” von VUen (Ganz schlecht wegen Inhomogenität der VUen)
Numerisch?
I
I
Mit (Pseudo)-Zufallszahlengeneratoren (deterministisch!)
Die heutzutage verwendeten (in SAS oder R) besitzen aber eine
sehr lange Periodizität und sind (aus statistischer Sicht) unkritisch!
Später: In Kombination mit Blockbildung führen verschiedene
Randomisierungen zu unterschiedlich “guten” Designs
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Blockbildung
Manchmal ist es schwierig, den Einfluss von Störfaktoren zu
eliminieren oder konstant zu halten.
Man kann dann durch Blockbildung versuchen, die Gleichheit von
Versuchsbedingungen bezüglich eines Störfaktors herzustellen.
⇒ Typisches Vorgehen:
I
I
Zuweisung der Versuchseinheiten zu “homogenen” Blöcken, so
dass die Variation der Einheiten bzgl. eines Störfaktors innerhalb
jedes Blocks kleiner ist als die jeweilige Variation zwischen den
Blöcken.
Innerhalb jedes Blocks werden die Stufen der Einflussfaktoren per
Zufall auf die experimentellen Einheiten verteilt
Beispiele zur Blockbildung:
I
I
I
Parallelisierung (Matching) oder
Repeated Measurements oder sogar
eineiige Zwillinge (oder auch Drillinge, Vierlinge etc.) als Blöcke (da
genetisch homogen)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Parallelisierung (Matching)
Zunächst werden die Personen einer Stichprobe aufgrund von Messwerten eines
als relevant erachteten Störfaktors in eine Reihenfolge (Rangreihe) gebracht.
Danach werden aus je 2 Personen mit “benachbarten” Rangplätzen parallele
Blöcke gebildet und die Behandlung innerhalb des Blocks zufällig bestimmt.
Beispiel 3.5 (zur Parallelisierung5 ): Eine Psychologiestudentin möchte
untersuchen, wie sich die Konzentration auf die prospektiven
Gedächtnisleistungen auswirkt.
Die Probanden werden durch Ablenkung oder keine Ablenkung (zweifach
gestufter EF) in einen unkonzentrierten oder konzentrierten Zustand versetzt.
Da das Alter einen zentralen Einfluss auf Gedächtnisleitungen hat, bringt sie die
Probanden dem Alter nach in eine Rangreihe und bildet daraufhin Paare. Man
sagt, dass das Alter eine blockbildende Variable bildet. Die Personen aus den
Paaren werden dann jeweils zufällig einer der beiden Bedingungen (abgelenkt
vs. nicht abgelenkt) zugeordnet.
⇒ Damit verteilt sich der Einfluss des Störfaktors “Alter” gleichmäßig auf die
beiden Bedingungen und führt nicht zu systematischer Verzerrung der
Messwerte der Zielgröße.
5
Quelle: TUD E-Learning
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Parallelisierung (Matching)
VP
Walter
Jaqueline
Sarah
Dennis
Edgar
Markus
Alter
64
23
25
26
71
35
Rang
2
6
5
4
1
3
Bedingung a
Rang 1
Rang 4
Rang 6
Bedingung na
Rang 2
Rang 3
Rang 5
Block
B1
B2
B3
Die Zuweisung der Bedingung innerhalb jedes Blocks (Paars)
geschieht dabei zufällig
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Repeated Measurements
Hierbei werden an jeder Versuchseinheit (jedem Individuum) wiederholte
Messungen (Repeated Measures) unter allen Bedingungen durchgeführt. Jede
VE ist also ein eigener Block!
BSP: Messung einer Konzentration im Blut zu verschiedenen Zeitpunkten bei
Behandlung und nicht Behandlung
Vorteile:
I
I
I
Einfluss von Störfaktoren gleich für alle Versuchseinheiten
Kein Vortest zur Parallelisierung der Gruppe nötig
Häufig: Relativ geringe interindividuelle Variation zwischen den
Gruppen
⇒ Weniger Versuchseinheiten zur Feststellung eines Effekts nötig
Nachteil:
I
Es können ungewünschte Übertragungseffekte (carry-over
effects) auftreten; z.B. durch Lernen der VE oder Zerstörung eines
Versuchsobjektes, die den eigentlichen Effekt von Interesse
überlagen.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Wiederholungen
Neben Randomisierung und Blocking zählt auch die Anzahl der
unabhängigen Wiederholungen eines Versuchs mit den gleichen
Faktorkombinationen zu den wichtigsten Grundprinzipien von DoX
Gründe:
I
I
Schätzungen (Effekte, Fehlervarianz etc.) werden genauer mit
wachsender Fallzahl n (LLN)
Bei Tests: Güte hängt von n ab (Fallzahlplanung)
Zu unterscheiden von Repeated Measurements (Blockbildung
durch Wiederholungsmessungen)
⇒ Obige Unabhängigkeitsforderung verletzt
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Faktorielles Prinzip
Beispiel 3.6 (Basketball):
Ich spiele gerne Basketball und liebe Statistiken
Nehmen wir an, ich würde in jedem Training 100 Würfe (je 50 FWe
und 3er) nehmen und meine erzielten Punkte (score) notieren
Frage: Welche Faktoren haben “wirklich” Einfluss auf meinen
score?
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Faktorielles Prinzip
Beispiel 3.6 (Basketball)
Ich spiele gerne Basketball und liebe Statistiken
Nehmen wir an, ich würde in jedem Training 100 Würfe (je 50 FWe
und 3er) nehmen und meine erzielten Punkte (score) notieren
Frage: Welche Faktoren haben “wirklich” Einfluss auf meinen
score?
(A) Schuhe: Basketballschuhe vs. Laufschuhe
(B) Ball: Profiball (Naturledergemisch) vs. Streetball (Gummigemisch)
(C) Getränk: Wasser vs. Bier
I Untergrund, Wind, Temperatur,
Der Einfachheit halber betrachten wir nur die ersten 2 Faktoren A
und B (mit je 2 Stufen)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Faktorielles Prinzip
Angenommen ich habe noch keine Ahnung von DoX und wähle die
OFAT-Strategie:
Wähle baseline: Laufschuhe (=A
ˆ + ) und Streetball (=B
ˆ +)
Aus Zeitgründen wollen wir nur 4 Beobachtungen je
Faktorkombination wählen
12 Beobachtungen
Faktorkombi A+ B + (baseline) A+ B −
A− B +
Scores
93, 90, 92, 93
92, 94, 91, 91 95, 92, 93, 91
Schätzung des Effekts von A durch A− B + − A+ B + ; hier:
95 + 92 + 93 + 91 93 + 90 + 92 + 93
−
= 0.75
4
4
Schätzung des Effekts von B durch A+ B − − A+ B + ; hier: 0
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Faktorielles Prinzip
Angenommen ich hätte vorher doch ein Buch über DoX gelesen
⇒ Die Kombination A− B − ist auch zu schätzen
Aus Zeitgründen wähle ich hier sogar “nur” 2 Beobachtungen je
Faktorkombination
8 Beobachtungen in diesem faktoriellen 22 -Design (StufenFaktoren ):
Faktorkombi A+ B + (baselie) A+ B − A− B + A− B −
Scores
93, 90
92, 91 95, 92 100, 97
Schätzung des Effekts von A durch A− B ± − A+ B ± ; hier:
95 + 92 + 100 + 97 93 + 90 + 92 + 91
−
= 4.5
4
4
Schätzung des Effekts von B durch A± B − − A± B + ; hier: 2.5
Schätzung der Wechselwirkung von AB:
A+ B + − A+ B − − A− B + + A− B − ; hier 2.5.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Faktorielles Prinzip
Fazit:
Die Berücksichtigung aller Faktorkombinationen kann sehr wichtig
sein!
Insbesondere können Wechselwirkungen geschätzt (und später
auch getestet) werden
Bemerke: Die Effekte von A und B werden sowohl bei OFAT als
auch beim faktoriellen Ansatz jeweils aufgrund von 8
Beobachtungen geschätzt
⇒ OFAT benötigt aber insgesamt 12 Beobachtungen anstelle von 8
bei obigen 22 -Design zur Schätzung beider Effekte!
Faktorieller Ansatz viel effizienter!
Man sagt auch: Die relative Effizienz von OFAT im Vergleich zum
faktoriellen Ansatz ist 12/8 = 1.5
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Regression to the mean
Zu guter Letzt gehen wir noch auf einen weiteren Effekt ein, der die
Gültigkeit von Untersuchungen beeinflussen kann.
Mit Regression to the mean muss man immer dann rechnen,
wenn man Untersuchungen an so genannten Extremgruppen
durchführt. Häufige Versuchsanordnung dabei:
1
2
3
Bildung der zu untersuchenden Extremgruppe auf Grund einer
Vorhermessung (Vortest) gebildet.
Danach erhält diese Extremgruppe die experimentelle Bedingung
(Behandlung).
Im Anschluss daran wird ein Nachtest der Extremgruppe (vom
ähnlichen Typ wie der Vortest) durchgeführt. Hierbei nimmt man
an, dass der Vortest den Nachtest nicht beeinflusst, d.h. dass kein
Testeffekt vorliegt.
Wir verdeutlichen dies an einem
Beispiel 3.7 (Cambell und Stanley (1963)): ...
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel zu Regression to the mean
Ein Sportpsychologe vermutet, dass schlechte Leistungen im
Hochsprung hauptsächlich durch die Angst vor dem Absprung
bedingt sind. Zu diesem Zweck entwickelt er eine Methode zur
Reduktion dieser Angst.
Um seine Hypothese und die Effektivität seiner
Angstreduktionsmethode zu überprüfen, geht er in eine Schule
und führt dort zunächst eine Vorhermessung durch, indem er im
Sportunterricht bei insgesamt 58 Schülern des gleichen
Jahrgangs die Hochsprungleistung ermittelt:
Höhe in cm
120 130 140 150 160 170 180
Anzahl Schüler 4
6
12 14 12
6
4
Es sind also vier Schüler 1,20 m hoch gesprungen,
sechs Schüler 1,30 m hoch etc.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel zu Regression to the mean
Nun wählt der Sportpsychologe die vier6 schlechtesten
Hochspringer (Extremgruppe) aus (1.) und
führt mit ihnen sein Verfahren zu Angstreduktion durch (2.).
Im Anschluss daran lässt er diese vier Schüler wieder
hochspringen (Nachhermessung) (3.) und findet dabei folgende
Ergebnisse:
I
I
I
I
Ein Schüler bleibt bei seiner Höhe von 1,20 m,
einer verbessert sich auf 1,30 m,
einer spring 1,40 m und
ein ander springt jetzt sogar 1,50 m hoch.
Die durchschnittliche Leistung dieser Gruppe verbessert sich also
von 1,20 m auf 1,35 m.
6
sowieso schon viel zu kleine Fallzahl
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel zu Regression to the mean
Wie kann man sich diese Leistungssteigerung erklären, wenn man davon
ausgeht, dass
(a) der Vortest keinen bedeutsamen Einfluss auf den Nachhtest ausgeübt hat
und
(b) die Variation des Einflussfaktors Angstreduktionsmethode, in Wahrheit
keinen Effekt gehabt hat?
⇒ Bekanntlich sind Leistungen im Sport (aber nicht nur dort) Schwankungen
unterworfen.
Mögliche Erklärung also: Die schlechten Hochspringer hatten in obigem Beispiel
einfach nur einen (unverhältnismäßig) schlechten Tag beim Vortest erwischt.
Das Ergebnis beim Nachtest hätte natürlich auch noch schlechter werden
können; die Wahrscheinlichkeit hierfür ist jedoch geringer, da wir annehmen,
I
I
dass die Wahrscheinlichkeitsverteilung der gesprungenen Höhen gleich ist
bei Vor- und Nachtestung,
dass sich also an der Verteilung durch die (Angst-) Behandlung nichts
verändert hat ((b) oben).
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel zu Regression to the mean
Dies wird noch klarer, wenn man sich folgende hypothetischen Ergebnisse der
anderen Schüler anschaut:
Also: Die vier “Schlechtesten” aus dem Vortest verbessern ihre Leistung auf
durschnittliche 1,35 m,
die sechs “1,30 m–Springer” verbessern sich im Durchschnitt auf 1,40 m (im
Nachtest);...
die vier “Besten“ dagegen verschlechtern ihre Durchschnittsleistung auf 1,65 m
(im Nachtest).
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel zu Regression to the mean
Dieser Regressionseffekt zum Mittelwert ist typischerweise desto größer, je
extremer die Gruppen im Vortest waren, denn:
Nimmt man vereinfacht an, dass die Ergebnisse aller Schüler i.i.d. sind, so
vergleicht man die Verteilung extremer Orderstatistiken (Vortest) mit der der
Grundgesamtheit (Nachtest).
Fazit fürs Beispiel:
I
I
I
I
I
Unser Sportpsychologe kann uns also nicht von der Effektivität seiner
Angstreduktionsmethode überzeugen.
Es lag hier wahrscheinlich nur ein Regressionseffekt vor:
Die vier schlechten Hochspringer haben vermutlich beim ersten Mal
überdurchschnittlich viel Pech gehabt. Dass sie dieses Pech beim zweiten
Mal noch einmal haben würden, war ziemlich unwahrscheinlich
(Schwankungen).
Für die guten Hochspringer beim Vortest gilt das Umgekehrte
(Schwankungen in die andere Richtung).
Der Sportpsychologe hätte besser daran getan, entweder sämtliche 58
Schüler oder aber eine repräsentative Stichprobe dieser Schüler zu
behandeln und dann nochmals zu untersuchen.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Modellierung
Bemerkung 3.3 (zur statistischen Modellierung):
Vor Versuchsdurchführung und -auswertung (hierzu später mehr) sollte man sich
auch Gedanken über ein geeignetes Modell machen.
Bei einer Fragebogenerhebung zum Stress im Studium mit jeweils 4
Antwortmöglichkeiten7 (2 = stimme vollständig zu, 1 = stimme eher zu, -1= lehne
eher ab, -2= lehne vollständig ab) ist die Annahme normalverteilter Antworten
(oder Summen) eher schlecht. Hier würde u.U. eine diskrete oder ganz
nichtparametrisch, ordinale Annahmen mehr Sinn machen.
Typische Modellannahmen: Lineare Modelle, GLMs, Regressionsmodelle etc.
mit
I
I
I
parametrischer
semiparametrischer oder
nichtparametrischer
Verteilungsannahmen.
7
sog. Forced Choice da gerade Anzahl; oft ist aber eine weitere, neutrale
Antwortmöglichkeit wie ”weder noch“ gegeben
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Modellierung
Beispiel 3.8 (zu Modellen): Beispiele für
ein parametrisches Modell:
Y = µ + ,
normalverteilt.
ein semiparametrisches Modell:
Y = g(x) + ,
g ∈ G Funktionenklasse, normalverteilt
ein nichtparametrisches Modell:
Y ∼ F,
F unbekannte Verteilung
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Bemerkung zur statistischen Modellierung
Auch bei idealer Studienplanung ist das Anpassen eines
statistischen Modells nur eine Approximation an die Realität, die
sehr (viel zu) komplex ist.
Wir wissen dabei nie mit Sicherheit, was das korrekte Modell ist.
Wir können nur unser Bestes geben, dass das gefundene Modell
eine angemessene Repräsentation der Realität ist.
“All models are wrong, but some are useful.”
George Box
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Kapitel 4:
Erste Versuchspläne und statistische
Auswertung
Definition – Versuchsplan
Ein Versuchsplan gibt Auskunft über
I Anzahl und Stufen der Einflussfaktoren (kurz: Faktoren)
I die Häufigkeit der Messungen der Zielgröße und
I die vor Versuchsbeginn erfolgte Verteilung der Versuchseinheiten auf die
unterschiedlichen Versuchsbedingungen (Versuchsgruppen).
Definition 4.1 (Versuchsplan): Ein Versuchsplan gibt an, an wie vielen
Gruppen von Versuchseinheiten wie oft die Darbietung der Stufen der Faktoren
(und deren Anzahl) vorgenommen und die Einflussgröße gemessen werden
muss und welche Kontrolltechnik(en) verwendet werden sollen.
Versuchseinheiten können z.B. Menschen, Probanden, Tiere, Pflanzen,
Zellkulturen, Felder, Materialproben jeglicher Art (Flüssigkeiten, Pulver,
Einzelteile einer Massenproduktion etc.) sein.
Sie können entweder nur einfach aber auch mehrfach (unter derselben oder
unter verschiedenen Stufenkombinationen) beobachtet werden.
Der Versuchsplan dient als Grundlage für die spätere Auswertung, da je nach
eingesetztem Plan andere statistische Methoden zu verwenden sind.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Versuchsplan – Bemerkungen
Im Folgenden: Beispiele für erste einfache Versuchspläne
Terminologie:
I
I
I
I
I
→
→
→
→
→
Faktoren: A, B, C usw.
Stufen dieser Faktoren: i = 1, . . . , a, j = 1, . . . , b, k = 1, . . . , c, etc.
Versuchseinheiten: Vs , s = 1, . . . , n (oder auch mehrfach indiziert)
Zugehörige Messwerte: Ys , s = 1, . . . , n (auch mehrfach indiziert)
Art der Zuweisung der V ’s zu Faktoren-Stufen-Kombinationen; z.B.
O: Die Versuchseinheiten werden ohne bestimmte Kontrolltechnik
(z.B. direkt durch den Versuchsleiter) zugeteilt
R: Die Versuchseinheiten werden zufällig mittels Randomisierung
verteilt
B: Die Versuchseinheiten werden mittels Blocking verteilt.
RB: Randomized-Block-Design
. . . später mehr.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Einfacher 1-Gruppenplan
Ein Faktor A mit einer Stufe und 1x-iger Messung pro
(unabhängiger) Versuchseinheit.
Faktor
A
Stufe
1
Versuchseinheit 1 V1
..
..
.
.
Versuchseinheit n Vn
Zuweisung hier typischerweise O, da die Gruppe so untersucht
wurde wie sie in der Natur vorkommt.
Obiges Vorgehen entspricht typischerweise dem
Erkenntnisgewinn im alltäglichen Leben8 ....
8
es darf auch n = 1 gelten :)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Einfacher 1-Gruppenplan
Beispiel 4.1 (Einfache 1-Gruppenpläne):
Familie Müller benutzt seit Jahren die Zahncreme Exonal und der
Zahnarzt hat seitdem nicht mehr gebohrt
⇒ Erklärung im Alltag typischerweise: Die gute Zahncreme (EF)
erklärt die erfahrene Zahnbehandlungen (ZG).
⇒ Eine andere plausible Erklärung: Bessere bzw. besonders gesunde
Ernährung (Störfaktor) seit Jahren.
Der Fußballverein SSV hat seit seinem Aufstieg in die Bundesliga
immer noch denselben Trainer und jetzt die Meisterschaft
errungen.
⇒ Eine Alltagserklärung: Der Trainer (EF) hat die Meisterschaft (ZG)
gewonnen.
⇒ Hier könnten aber auch andere Gründe (SF) wichtiger für den
Erfolg gewesen sein; z.B. der Torwart oder ein besonderer Spieler
oder...
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Einfacher 1-Gruppenplan
Probleme dieses Versuchsplans:
I
I
Fehlen einer Vergleichsmöglichkeit: Man kann quasi nur mit der
(nicht genau gemessenen) Erinnerung vergleichen und damit
Effekte nicht wirklich bestimmen
Da weder Kontrollen (d.h. Kontrolltechniken) noch Vergleiche (d.h.
Vergleichsgruppen) vorhanden sind, kann man z.B. nicht prüfen, ob
eine Gruppe ohne Behandlung vielleicht genau dieselben
Messwerte ergeben hätte.
⇒ Das “Ergebnis” (welches eigentlich keines ist) kann nicht auf
andere Situationen übertragen (generalisiert) werden.
Da man hierbei den Effekt nicht bestimmen kann, ist dieser
Versuchsplan der einmaligen Untersuchung einer Gruppe (egal
wie genau gemessen wird) für wissenschaftliche Untersuchungen
i.d.R. ungeeignet und wertlos.
Ausnahme: Man interessiert sich nur für das Schätzen (von
Funktionen) der Wahrscheinlichkeit p für das Auftreten eines
bestimmten Ereignisses ⇒ Tafel!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Paariger 1-Gruppenplan
Ein Faktor A mit 2x-iger Messung pro (unabhängiger)
Versuchseinheit. Typisch: Messung vor und nach Behandlung bei
je n Patienten.
Faktor
A
Stufe
1 2
Block 1 = Versuchseinheit 1 V1 V1
..
..
..
.
.
.
Block n = Versuchseinheit n Vn Vn
Zuweisung hier in der Praxis leider häufig auch O, da nur eine
Gruppe vorliegt. Es gibt aber Möglichkeiten:
Zwillingsforschung: Hier stellt ein Zwillingspaar als Block eine VE
dar. Die Behandlung könnte dann nur an einem zufällig
ausgewählten Zwilling randomisiert durchgeführt werden;
analog bei Körperhälften: z.B. rechtes Auge vs. linkes Auge
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Paariger 1-Gruppenplan
Faktor A
Faktor Versuchseinheit 1
2
1
V1 V1
..
..
..
.
.
.
n
Vn Vn
Möchte man (wie häufig) Aussagen über die Grundgesamtheit
aller Versuchseinheiten (Patienten) machen, so ist der obige
paarige 1-Gruppenplan genau genommen ein sog. Mischplan, bei
dem neben dem festen Faktors A mit 2 Stufen ein zufälliger Faktor
(Patient) mit n Stufen vorliegt.
Dabei sind die Stufen der beiden Faktoren jeweils komplett
gekreuzt, d.h. die Stufen bilden ein kartesisches Produkt, bei dem
jede Stufe des einen Faktors mit jeder Stufe des anderen Faktors
kombiniert ist.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Paariger 1-Gruppenplan
Vorteile dieses Versuchsplans:
I
I
I
Vergleichsmöglichkeit vorhanden: Es liegt ein echter (und kein
„fiktiver“) Vergleich von zwei Messwerten, auf den sich unsere
weiteren Überlegungen stützen können, vor.
Typische Effektmessgröße: Differenz 1.Messung - 2.Messung
Bei Zwillingen: Anwendung von Kontrolltechniken möglich.
Mögliche Nachteile des Versuchsplans (bei O):
Aufgrund fehlender Kontrolltechniken können sich auch
rivalisierende Erklärungsmöglichkeiten für etwaige Effekte
auszeichenen.
→ Mögliche Vermischung mit Störvariablen wie
I
F
F
F
F
I
Zeiteinflüsse
Testeffekte (auch Reihenfolge)
Veränderungen der Messinstrumente
etc.
Beispiel:...
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Paariger 1-Gruppenplan
Beispiel 4.2 (Paariger 1-Gruppenplan): Einführung neuer Mathematik-Bücher für
die Oberstufe.
Im ersten Halbjahr wird der LK von Lehrer Müller nach dem alten Buch und im 2. nach
dem neuen Buch unterrichtet. Im Anschluss stellt man fest, dass sich die Schüler im
2. Halbjahr im Durchschnitt verbessert haben
⇒ Gewünschte Erklärung: Der Effekt ist auf das Lehrbuch zurückzuführen.
Mögliche Probleme mit dieser Erklärung:
Zeiteinflüsse: Noten können mit den Jahreszeiten schwanken
(Versetzung!);
der Stoff des 1. Halbjahres könnte schwerer sein als der des 2.
I Testeffekte: Motivation zu besserem Lernen durch schlechte Noten im
ersten Halbjahr.
I Versuchsleitereffekt: Lehrer hat durch den auch für ihn neuen Input mehr
Spaß am Lernen und motiviert dadurch die Schüler besser als zuvor oder...
I benotet dadurch besser (Veränderungen der Messinstrumente)
⇒ Beheben z.B. durch Unterrichten von 2 verschiedenen (1x nach altem und
1x nach neuem Buch) unabhängigen Kursen gleichzeitig (mit zufällig
zugewiesenen Schülern)
I
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Einfacher 2-Gruppenplan
Ein Faktor A mit zwei Stufen und 1x-iger Messung pro
Versuchseinheit. Der Faktor A beschreibt hierbei i.d.R. die
Gruppenzugehörigkeit und es werden zusätzlich noch die
Stichprobenumfänge mit angegeben.
Typisches Beispiel: Vergleich mit einer Kontrollgruppe
Faktor
A
Stufe (Gruppe)
1
2
Stichprobenumfang n1
n2
V11 V21
..
..
Versuchseinheiten
.
.
V1n1
V2n2
BEM: Vij steht für VE j = 1, . . . , ni in Gruppe i = 1, 2.
Die Güte dieses Versuchsplans hängt auch wieder von der
Zuweisung der VE ab!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Einfacher 2-Gruppenplan – vorgegebene Gruppen
Nehmen wir zunächst an, dass es sich um vorgegebene, d.h. nicht zufällig
zusammengesetzte Versuchsgruppen handelt.
Beispiel 4.3 (Einfache 2-Gruppenpläne):
I Forscher der Universität möchten den Effekt bestimmter indischer
Rechentechniken auf das Lösen von Rechenaufgaben bei Schülern der 4.
Klasse untersuchen. Dafür werden 10 Schüler einer privaten Grundschule
ausgewählt und über 4 Wochen nach der indischen Methode unterrichtet.
Als Kontrollgruppe werden 10 Schüler einer städtischen Grundschule
herangezogen. Im Anschluss an die Intervention werden in beiden
Gruppen identische Mathematikests geschrieben und bewertet. Schneidet
die Interventionsgruppe besser ab als die Kontrollgruppe, so möchten die
Forscher im Anschluss eine umfangreiche bundesweite Studie
durchführen.
I Matheson et al. (1978):9 Es soll der Effekt der Gefangenschaft auf das
Verhalten einer Antilopenart untersucht werden. Hierzu wird die Herde
einer wild lebende Antilopenart (Versuchsgruppe) mit einer bereits längere
Zeit im Zoo lebenden Gruppe (Kontrollgruppe) verglichen. (Messung über
ein Score-System).
9
Experimental psychology: Research design and analysis. 3rd edition. New York: Holt, Rinehart & Winston
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Einfacher 2-Gruppenplan – vorgegebene Gruppen
Das zweite Beispiel hat dabei die zusätzliche Besonderheit, dass
der Einflussfaktor nicht vom Versuchsleiter selbst manipuliert
werden kann!
Zwischenfragen: Was sind im Beispiel Ziel- und Einflussfaktor und
wie sind diese skaliert?
ZF: Lösen von Rechenaufgaben (ordinal: Schulnote nach
Mathetest); EF: Unterrichtsmethode (nominal: indisch oder
klassisch)
ZF: Verhalten (ordinal: Score-System zum Verhalten);
EF: Gefangenschaft (nominal: ja oder nein)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Einfacher 2-Gruppenplan – vorgegebene Gruppen
Das zweite Beispiel hat dabei die zusätzliche Besonderheit, dass
der Einflussfaktor nicht vom Versuchsleiter selbst manipuliert
werden kann!
Genauer: Hier wird im Anschluss (ex post) an die – in Form eines
Naturereignisses (Wildbahn) – auftretende bzw. bereits
vorliegende faktenschaffende Behandlung (facto) gemessen.
Anordnungen, in denen nur noch die Wirkung einer bereits zuvor
stattgefundenen (nicht selbst herbeigeführte) Behandlung
gemessen werden kann, heißen deshalb auch
Ex-post-facto-Anordnungen.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Einfacher 2-Gruppenplan – vorgegebene Gruppen
Vorteile dieses Versuchsplans:
Vergleichsmöglichkeit vorhanden: Es liegt ein echter (und kein
„fiktiver“) Vergleich von zwei Messwerten, auf den sich unsere
weiteren Überlegungen stützen können, vor.
Typische Effektmessgröße: Differenz Gruppe 1 - Gruppe 2
Im Vergleich zum Paariger 1-Gruppenplan
(Vorher-Nachher-Messung):
I
Die Störvariablen
F
F
F
Testeffekte,
Veränderung der Messinstrumente und
Regression to the mean
treten hier typischerweise nicht auf.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Einfacher 2-Gruppenplan – vorgegebene Gruppen
Mögliche Nachteile des Versuchsplans (bei O):
Aufgrund fehlender Kontrolltechniken können sich auch rivalisierende
Erklärungsmöglichkeiten für etwaige Effekte auszeichenen.
Auswahlverzerrungen: Unähnlichkeit der beiden vorgegebenen
Versuchsgruppen bereits vor Durchführung des Experiments
→ Im ersten Beispiel könnten die Schüler der privaten Schulen vielleicht
aufgrund der dort besseren Betreuungssituation schon zu Beginn über
bessere Rechenkenntnisse verfügen.
Confounding: Wallin et al. (1985) haben die Verbesserung der Dehnfähigkeit der
rückseitigen Oberschenkelmuskulatur durch verschiedene Dehnübungen
(dynamisch vs. statisch) überprüft. Die dynamisch Gruppe dehnte durch
Rumpfbeugen; die statische durch auflegen des zu dehnenden Beines im
Stehen auf einen Tisch. Ergebnis: Statisches Dehnen ist effektiver. Allerdings so
nicht haltbar, da hier zwei Faktoren confounded worden: Stretchingtechnik
(statisch vs. dynamisch) und Ausführungsformen (Rumpfbeuge vs. Fuß auf dem
Tisch). Man hätte identische Ausführungen wählen müssen!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Einfacher 2-Gruppenplan – vorgegebene Gruppen
Mögliche Nachteile des Versuchsplans (bei O):
Aufgrund fehlender Kontrolltechniken können sich auch rivalisierende
Erklärungsmöglichkeiten für etwaige Effekte auszeichenen.
Experimentelle Einbußen: Die Gruppen könnten zwar vor Beginn des
Experiments ähnlich sein, sich während der Durchführung aber in ungleicher
Weise dezimieren, so dass sie nicht mehr wirklich vergleichbar sind.
→ Im vorherigen Beispiel könnten sich die “unsportlichen” Teilnehmer beim
Dehnen je nach Technik in einer Gruppe häufiger verletzt haben, so dass
in dieser nur Ergebnisse der sportlicheren Versuchspersonen vorliegen
⇒ Die obigen Probleme lassen sich i.d.R. durch geeignete Kontrolltechniken
(insbes. randomisierte Zuweisung zu den Gruppen) und ausreichende
Fallzahlplanung (kommt jetzt gleich) beheben.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Auswertung von verbundenen und
unverbundenen 2-SPenproblemen
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Das verbundene 2SPenproblem
Nomenklatur
I
Beobachtungen
F
Yk = (Y1k , Y2k )0
k = 1, . . . , N unabhängige Wiederholungen
Statistisches Modell
I
I
I
Yk = µ + k
µ = (µ1 , µ2 )0 = E(Y1 ) Erwartungswertvektor
Klassische Annahme:
i.i.d.
i ∼ N(0, Σ) 1 ≤ k ≤ N
(4.1)
mit unbekannter, positiv definiter Kovarianzmatrix Σ (i.Z. Σ > 0)
Test für H0 : {µ1 ≤ µ2 } (oder {µ1 = µ2 }, {µ1 ≥ µ2 }) ?
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Der verbundene 2SPen-t-Test
Einseitiges Testproblem: H0 : {µ1 ≤ µ2 } vs. H1 : {µ1 > µ2 }
I
I
Setze Dk = Y1k − Y2k
Teststatistik
T pair =
F
F
DN
√
Spair / N
(4.2)
P
mit D N = N −1 Nk=1 Dk
P
2
Spair
= (N − 1)−1 Nk=1 (Dk − D N )2
I
=
ˆ Statistik des 1-SPen-t-Tests in den Differenzen.
Paariger t-Test für H0 : ϕN = 1{T pair > tν,α }, ν = N − 1,
tν,α = (1 − α)-Quantil der tν -Verteilung
I
Begründung und Eigenschaften?
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Der verbundene 2SPen-t-Test
Analog:
Einseitiges Testproblem: H0 : {µ1 ≥ µ2 } vs. H1 : {µ1 < µ2 }
I
Unterer paariger t-Test: ϕN = 1{T pair < −tν,α }
Zweiseitiges Testproblem: H0 : {µ1 = µ2 } vs. H1 : {µ1 6= µ2 }
I
Zweiseitiger paariger t-Test: ϕN = 1{|T pair | > tν,α/2 }
Konfidenzintervalle für δ = µ1 − µ2 (Übung!)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Allgemeinerer Fall – Nicht-Normalverteilte Fehler
Neues Modell
stu
k ∼ F , F unbekannte 2-dim Verteilung mit Σ = Σ(F ) > 0.
(4.3)
Satz 4.0 (Asymptotik): Der paarige t-Test bleibt im Modell (4.3) asymptotisch
korrekt, d.h. Eµ (ϕN ) → α1{µ1 = µ2 } + 1{µ1 > µ2 }.
(Beweis an der Tafel)
Allerdings: Finit nur Approximation; z.T. schlecht bei schiefen Verteilungen
Mögliche Verbesserung: Randomisierung → Randomisations-t-Test
I Vertausche für jede Beobachtung (Yk )k die Koordinaten zufällig
→ (Yksign )k (randomisierter Vektor)
I (Bedingte) Quantile von T ((Y sign )i,k ) als kritische Werte
k
I EIG: Auch asymptotisch korrekt und sogar finit exakt bei 0-Symmetrie von
D1 !
I Details: Vorlesung “Asymptotische Statistik”
Andere Lösung (z.T. für ordinale Daten): (Wilcoxon-)Vorzeichen-Test oder
paariger Brunner-Munzel (besser)
Bei nominalen Daten: McNemar Test oder χ2 -Test
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Der verbundene 2SPen-t-Test – Fallzahlplanung
Ziel (Fallzahplanung): Wähle bei gegebenen Fehler 1.Art (i.d.R.
α = 0.05 oder 0.01) die Stichprobe N so groß, dass ein klinischer
relevanter Effekt ∆ mind. mit WS 1 − β erkannt wird (typisch
β = 0.1 oder 0.2).
Bem: Dies hängt stets vom Modell und Testverfahren ab!
Hier betr. wir nur ϕN im Modell (4.3).
Messung des Effektes durch µd = µ1 − µ2
Gründe für Fallzahlplanung:
I
I
Ethischer Natur (unnötige Belastung von Probanden verhindern)
Ökonomischer Natur (je größer die Fallzahl desto teurer die Studie)
Fallzahlplanung immer vor der Durchführung der Studie
(mit ins Protokoll aufnehmen)
Intuitiv klar: Je kleiner der zu erkennende Effekt ∆, desto größer
muß N gewählt werden.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Weiter an der Tafel. . .
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Der verbundene 2SPen-t-Test – Fallzahlplanung
σ̂ = Vorschätzung der Varianz (z.B. aus Literaturstudium); wird
typischerweise bei der Berechnung noch variiert (±)
Approximative Lösung im Modell (4.3) für einseitigen Test ϕN :
N≈
(zα + zβ )2 σ̂ 2
.
∆2
(4.4)
Für den zweiseitigen Test 1{|T pair | > tν,α/2 } erhält man analog:
N≈
Markus Pauly (University of Ulm)
(zα/2 + zβ )2 σ̂ 2
.
∆2
Versuchplanung
(4.5)
Sommersemester 2015
Inferenz für 2-SPenprobleme
Der verbundene 2SPen-t-Test – Fallzahlplanung
Beispiel 4.4 (Vorbeugung von Osteoporose): Zur Vorbeugung von
Osteoporose bei postmenopausalen Frauen wird empfohlen mit
Interventionen bei Vorliegen von Osteopenie (Vorstufe) zu beginnen.
Wir nehmen an, dass die erwartete Knochendichte vor Behandlung bei
-2 PBM (peak bone mass) liegt. Als klinisch relevant wird eine
Verbesserung auf mind. -1.5 PBM angesehen. Für α = 0.05, β = 0.2
und eine Vorschätzung σ̂ 2 erhält man:
N≈
(z0.05 + z0.2 )2 σ̂ 2
(1.645 + 0.842)2 2
≈
σ̂ ≈ 24, 74σ̂ 2
0.52
0.52
Für eine Vorschätzung von σ̂ 2 = 1 würde man also N = 25 wählen.
Häufig würde man aber konservativer planen...
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Der verbundene 2SPen-t-Test – Fallzahlplanung
Entstammt die Vorschätzung σ̂ 2 aus einer vorangegangenen Studie an
2 , so ist
m Patienten als zugehörige empirische Varianz sm
#
2
(m − 1)sm
0, 2
χm−1,0.95
mit χ2m−1,α = (1 − α)− Quantil der χ2m -Verteilung, ein (approximatives)
einseitiges 95% Konfidenzintervall für die wahre Varianz σ 2 (Zur
Übung). Waren in der vorangegeangenen Studie also beispielsweise
m = 50 Patienten und sm = 1, so könnte im Beispiel zur
konservativeren Fallzahlberechnung auch der rechte Endpunkt als
Vorschätzung σ̂ 2 = 49/χ249,0.95 ≈ 1.44 gewählt werden. Dies würde auf
N ≈ d24, 74 ∗ 1.44e = 36
führen.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Exkurs: Wilcoxon-Vorzeichentest
Modellannahmen und Nomenklatur
I
die Messwert-Paare Xi = (Xi1 , Xi2 ), i = 1, . . . , n, sind unabhängig
Idee
I
I
I
Quantifizierung von besser bzw. schlechter
lineares Modell
Xij = µj + ij
ij : i.i.d. mit E(ij ) = 0, 0 < Var (ij ) < ∞
Es reicht aus: Differenzen i2 − i1 sind 0-symmetrisch
Effekt
I
µd = µ2 − µ1
Hypothese
I
H0 : µ d = µ 2 − µ 1 = 0
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Exkurs: Wilcoxon-Vorzeichentest
Idee und Berechnung der Statistik
I
I
I
I
I
I
I
I
I
Differenzen Di = Xi2 − Xi1 bilden
(Vorsicht bei ordinalen Daten!!!)
Null-Differenzen Di = 0 weglassen
n∗ : Anzahl der Null-Differenzen Di = 0
n0 = n − n∗ Anzahl der Differenzen Di 6= 0
die Absolutbeträge der Differenzen |Di | = |Xi2 − Xi1 | rangieren
d.h. den |Di | Ränge zuweisen → Ri+
bei Bindungen → Mittelränge
R + : Summe der Ri+ , die zu Di > 0 gehören
R − : Summe der Ri+ , die zu Di < 0 gehören
R + + R − = n(n + 1)/2
die Differenz R + − R − beschreibt den Unterschied von µd zu 0.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Exkurs: Wilcoxon-Vorzeichentest
Ablaufschema
Indiv.
Nr.
1
..
.
Zeitpunkt
1
2
X11
X12
..
..
.
.
i
..
.
Xi1
..
.
Xi2
..
.
n
Xn1
Xn2
Summen:
R+ =
Differenz
VorAbsolutRänge
Xi2 − Xi1 zeichen
Betrag
Ri+
X12 − X11
|X12 − X11 |
R1+
..
..
..
..
.
.
.
.
Xi2 − Xi1
|Xi2 − Xi1 |
Ri+
..
..
..
..
.
.
.
.
Xn2 − Xn1
|Xn2 − Xn1 |
Rn+
X
Ri+ ,
i:Xi2 −Xi1 >0
Markus Pauly (University of Ulm)
Versuchplanung
R− =
X
Ri+
i:Xi2 −Xi1 <0
Sommersemester 2015
Inferenz für 2-SPenprobleme
Exkurs: Wilcoxon-Vorzeichentest
Statistik / große Stichproben, n0 ≥ 15
R+ − R−
.
Wn+ = qP
∼
. N(0, 1) unter H0 (n0 → ∞)
2
n0
+
i=1 Ri
keine Bindungen ⇒
I
n0
X
Ri+
2
=
i=1
Wn+ =
=
n0 (n0 + 1)(2n0 + 1)
6
R+ − R−
p
n0 (n0 + 1)(2n0 + 1)/6
R + − n0 (n0 + 1)/4
.
p
∼
. N(0, 1) unter H0 (n0 → ∞)
n0 (n0 + 1)(2n0 + 1)/24
kleine Stichproben / n0 < 15
I
Permutationsverfahren
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Exkurs: Wilcoxon-Vorzeichentest
Voraussetzungen für die Anwendung des Tests
I
Stichproben
* verbunden
* Messwertpaare unabhängig
I
Daten
* genau genommen metrisch!
* lineares Modell (für eine gute Interpretation)
* zu 0 symmetrische Verteilung der Fehler-Differenzen,
Anmerkung
I
I
I
Test ist empfindlich auf die Annahme, dass die Fehler-Differenzen
symmetrisch zu 0 verteilt sind
schwierig überprüfbare Voraussetzung
Wird oft falsch angewendet! Besser für ordinale Daten:
F
F
P
Vorzeichentest mit Prüfgröße ni=1 1{Xi1 < Xi2 } − 1{Xi1 > Xi2 }
oder paariger Brunner-Munzel-Test (wirft weniger “Info” weg)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Das unverbundene 2SPenproblem
Nomenklatur
I
Beobachtungen
F
F
F
Yik
Zwei Gruppen: i = 1, 2 (=
ˆ Ein Faktor A mit 2 festen Stufen)
k = 1, . . . , ni unabhängige Wiederholungen
N = n1 + n2 Beobachtungen
Statistisches Modell
I
I
I
Yik = µi + ik
µi = E(Yik ) Erwartungswert in Gruppe i
Klassische Annahme: Versuchsfehler
i.i.d.
ik ∼ N(0, σ 2 ) i = 1, 2, 1 ≤ k ≤ ni
(4.6)
mit unbekannter aber gleicher Varianz σ 2 ∈ (0, ∞)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Der unverbundene 2SPen-t-Test
Einseitiges Testproblem: H0 : {µ1 ≤ µ2 } vs. H1 : {µ1 > µ2 }
I
Teststatistik:
T =
F
F
F
Y 1· − Y 2·
q
SN n11 + n12
(4.7)
Pn
mit Y i· = ni−1 k i=1 Yik
P
SN2 = (N − 2)−1 2i=1 (ni − 1)b
σi2 gepoolter Varianzschätzer
P
ni
2
−1
2
σ
bi = (ni − 1)
k =1 (Yik − Y i· ) Varianzschätzer für Gruppe i
I
Einseitiger (oberer) t-Test: ϕN = 1{T > tν,α }, ν = N − 2.
I
Begründung und Eigenschaften?
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Der unverbundene 2SPen-t-Test
Analog:
Einseitiges Testproblem: H0 : {µ1 ≥ µ2 } vs. H1 : {µ1 < µ2 }
I
Einseitiger (unterer) t-Test: ϕN = 1{T < −tν,α }
Zweiseitiges Testproblem: H0 : {µ1 = µ2 } vs. H1 : {µ1 6= µ2 }
I
Zweiseitiger t-Test: ϕN = 1{|T | > tν,α/2 }
Konfidenzintervalle für δ = µ1 − µ2 (Übung!)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Allgemeinere Fälle – Heteroskedastizität
stu
ik ∼ N(0, σi2 )
I
Var (11 ) = σ12 6= Var (21 ) = σ22
(Behrens-Fisher)
⇒ t-Test nicht mehr valide
→ Verwende Welch-Test10 mit
I
Teststatistik
Y 1· − Y 2·
T Welch = s
σ
b12
σ
b2
+ 2
n1
n2
I
(4.8)
geschätztem Freiheitsgrad
σ
b2
ν̂ =
σ
b22 2
n2 )
(b
σ12 /n1 )2
(b
σ22 /n2 )2
n1 −1 + n2 −1
( n11 +
(4.9)
Eigenschaften: Asymptotisch korrekt; finit nur eine Approximation!
10
z.B. ϕWelch
= 1{T Welch > tν̂,α } im 1-seitigen-oberen Fall
N
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Allgemeinere Fälle – Nicht-Normalverteilte Fehler
stu
ik ∼ Fi , Fi unbekannte Verteilungsfunktion
I Var (11 ) = σ 2 6= Var (21 ) = σ 2 ; beide in (0, ∞)
1
2
SATZ: Welch-Test bleibt asymptotisch korrekt11 (Begründung?)
I Funktioniert bei symmetrischen Verteilungen und leichter
Heteroskedastizität gut bei ni > 10 oder 20
I Finit nur Approximation; z.T. schlecht bei schiefen Verteilungen und
negative Pairing
Mögliche Lösung: Randomisierung → Welch-Permutationstest
I Permutiere die gepoolten Beobachtungen (Yik )i,k zufällig
→ (Yikπ )i,k (permutierter Vektor)
I (Bedingte) Quantile von T Welch ((Y π )i,k ) als kritische Werte
ik
I EIG: Auch asymptotisch korrekt und sogar finit exakt für F1 = F2 !
I VORSICHT: Funktioniert i.a. nicht mit T (oft falsch in Literatur)
I Details: Vorlesung “Asymptotische Statistik”
Andere Lösung (insbesondere für ordinale Daten): Wilcoxon-Test oder
Brunner-Munzel-Neubert
Bei nominalen Daten: Exakter Test von Fisher oder χ2 -Test
11
d.h. im oberen 1-seitigen Fall: ϕWelch
→ α1{µ1 = µ2 } + 1{µ1 > µ2 }
N
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Exkurs: Odds-Ratio
Bezogen auf den letzten Punkt betrachten wir in diesem Exkurs
speziell folgende Kontingenztafeln von 2 binären Variablen:
Anzahl mit Risiko ohne Risiko
Y=1 Y=0
krank
n11
n10
X=1 n11 n10
gesund
n01
n00
X=0 n01 n00
Neben einer Analyse mit Fisher’s exaktem Test wird insbesondere
in der Epidemiologie und Medizin bei Fall-Kontroll-Studien das
sog. Odds-Ratio zur Rate gezogen.
Dieses wird aus der gemeinsamen Verteilung
Y=1 Y=0
X=1 p11 p10 mit Hilfe der sog. Odds bestimmt:
X=0 p01 p00
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Exkurs: Odds-Ratio
Das Odds-Ratio wird aus der gemeinsamen Verteilung
P(Y = i, X = j)
X=1
X=0
Y=1
p11
p01
Y=0
p10
p00
als Qoutient sog. Odds für Y (gegeben X ), d.h. P(Y = ·|X = x), bestimmt, die
man folgender Tabelle entnehmen kann
P(Y = i|X = j)
X=1
X=0
Y=1
p11 /(p11 + p10 )
p01 /(p01 + p00 )
Y=0
p10 /(p11 + p10 )
p00 /(p01 + p00 )
Das Odds-Ratio (oder cross-product ratio) erhält man schließlich als
OR =
p11 /(p11 + p10 ) p01 /(p01 + p00 )
p11 p00
/
=
.
p10 /(p11 + p10 ) p00 /(p01 + p00 )
p10 p01
Man erhält dieselbe Größe offenbar auch, wenn man die Odds für X (gegeben
Y ) zugrunde legt.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Exkurs: Odds-Ratio
OR =
p11 /(p11 + p10 ) p01 /(p01 + p00 )
p11 p00
.
/
=
p10 /(p11 + p10 ) p00 /(p01 + p00 )
p10 p01
Ein natürlicher Schätzer hierfür ist gegeben durch
d = n11 n00 .
OR
n10 n01
und asymptotische (1 − α)-Konfidenzintervalle erhält man z.B. mittels
δ-Methode (Übung) als sog. logit-Intervall
!#
"
r
1
1
1
1
d
exp log(OR) ± zα/2
+
+
+
n11
n10
n01
n00
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Exkurs: Odds-Ratio
Wir betrachten folgendes Beispiel einer Fall-Kontroll-Studie von Doll und Hill
(1950), welches als erste Lungenkrebs mit Rauchen in Verbindung brachte:
Anzahl Patienten
die geraucht haben
die noch nie geraucht haben
mit Lungenkrebs
688
21
ohne Lungenkrebs (Kontrolle)
650
59
d ≈ 2.973, d.h. die “Chance” (bzw. das Chancenverhältnis) an Lungenkrebs
⇒ OR
zu erkranken ist unter Rauchern ungefähr 3x höher als unter Nichtrauchern. Als
asymptotisches 95%-KI erhält man hiermit [1.78, 4.95].
In der Praxis wird das (geschätzte) OR häufig mit dem (geschätzten) relativen
Risiko verwechselt! Im oberen Fall ist dieses aber z.B. durch
d=
RR
b
P(Ereignis
unter Rauchern)
b
P(Ereignis
unter Nichrauchern)
=
688 21
/
≈ 1.959
1338 80
gegeben. Obwohl RR etwas intuitiver ist, ist OR aufgrund des Auftretens in der
logistischen Regression geläufiger.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Der unverbundene 2SPen-t-Test – Fallzahlplanung
Back 2 Business: Fallzahlplanung im unverbnundenen Fall:
Ziel (Fallzahplanung): Wähle bei gegebenen Fehler 1.Art (i.d.R.
α = 0.05 oder 0.01) die Stichprobe (N = n1 + n2 ) so groß, dass
ein klinischer relevanter Effekt ∆ mind. mit WS 1 − β erkannt wird
(typisch β = 0.1 oder 0.2).
Dies hängt wieder von Modell und Testverfahren ab!
Hier betr. wir nur den t-Test unter Homoskedastitzität.
Messung des Effektes wieder durch µd = µ1 − µ2
Zusätzliche Schwierigkeit im Vergleich zum paarigen Fall:
κ := n1 /n2 ist i.a. nicht 1.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Der unverbundene 2SPen-t-Test – Fallzahlplanung
Überlegungen wie zuvor mit vorgeschätzter Varianz σ̂ 2 führen auf
Lösen von


∆
!
Φ q
− zα  = 1 − β.
1
1
σ̂ n1 + n2
Umformen wie zuvor und Einsetzen von
n1 = κn2
(4.10)
(für vorgegebenes κ) führt auf
n2 ≈
(zα + zβ )2 σ̂ 2 (1 + 1/κ)
.
∆2
(4.11)
“Effizienteste” Wahl: Balanciertes Design mit κ = 1, denn...
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
...die Güte des Tests wird bestimmt durch (und ist wachsend in)
µd
σ̂
q
1
n1
+
1
n2
.
mit µd > ∆ > 0. Seien nun N, µd und σ̂ fest. Dann wird die Güte
(in Abhängigkeit von n1 = λN, n2 = (1 − λ)N, λ ∈ (0, 1)) maximiert
durch maximieren von
1 −1 n1 n2
1
=
= λ(1 − λ)N.
+
n1 n2
N
Differenzieren nach λ und Gleichsetzen mit 0 ergibt das Maximum (da
die 2. Ableitung negativ ist) λ = 1/2, d.h. κ = 1.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Der unverbundene 2SPen-t-Test – Fallzahlplanung
Bei balancierte Planung erhält man somit
n1 = n2 ≈
2 ∗ (zα + zβ )2 σ̂ 2
.
∆2
⇒ Analoge Formel für den 2-seitigen Test zur Übung selbst herleiten
Bemerkung: Aus verschiedenen
I
I
ökonomischen (teure Behandlung) oder
ethischen (Placebo für kranke Patienten) Gründen
kann aber auch ein unbalanciertes Design erwünscht sein!
Bemerkung: Bei randomiserten VPs kann dies durch die Art der
Randomisierung gesteuert werden
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Beispiel 4.5 (Vergleich zweier blutdrucksenkender Mittel12 ): Zwei
blutdrucksenkende Mittel A und B sollen in einer klinischen Studie an Hypertonikern
hinsichtlich (mittlerer) Senkung des Blutdrucks nach vier Wochen untersucht werden.
Dazu sollen durch Randomiseriung der Probanden zwei gleichgroße, unabhängige
Therapiegruppen gebildet. Aus Literaturstudien sei bekannt, dass das Medikament A
den Blutdruck von Hypertonikern im Mittel um etwa 10 mm Hg senkt. Aufgrund von
Voruntersuchungen wird bei B mit einer stärkeren Senkung gerechnet. Als klinisch
relevant wird eine Verbesserung um mind. 15 mm Hg angesehen. Aufgrund
medizinischer Einschätzung kann eine Standardabweichung von 5 mm Hg für beide
Medikamente bei der Blutdrucksenkung sowie eine Normalverteilung der Senkung bei
Hypertoniker angenommen werden. Es sei α = 0.025 und β = 0.2.
Ziel: Bestimmung von N!
⇒ Einseitiger oberer t-Test anwendbar; ∆ = 5:
n1 = n2 ≈
2 ∗ (z0.025 + z0.2 )2 52
≈ 2 ∗ (1.96 + 0.84)2 ≈ 16.
52
⇒ Obige Fallzahlplanung ergibt N = 32.
12
Quelle: Röhrig et al. (2010), Deutsches Ärzteblatt 107, 552-556
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Bemerkung zu den beiden 2Spenproblemem
Bemerkung 4.1 (paarig vs. unpaarig):
Das paarige Desing beim verbundenen 2SPen-t-Test ist
Spezialfall eines randomisierten Block Designs
I
I
I
I
Block =
ˆ “Relativ” homogene Versuchseinheit
Hier: Ein Paar (Y1k , Y2k )0 =
ˆ einem Block
Beachte: Blocking hat u.U. Effekt auf Randomisierung!
Mehr zu Block-Designs später
Vorteile ggü dem unverbundenen Design
+ Automatisch balanciert (hat Designvorteile)
+ Eliminiert mögliche Blockeffekte! Genauer:
Betrachte allgemeineres Modell mit stu
Yk = µ + βk 12 + k ,
I
12 = (1, 1)0 , 1 ≤ k ≤ N
(4.12)
βk =
ˆ Effekt von Block k , βk ∈ R bei festem Blockfaktor oder sonst βk
i.i.d. mit E(β1 ) = 0, Var (β1 ) = σβ2 < ∞ und unabhängig von den k .
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Bemerkung zu den beiden 2Spenproblemem
Blockeffekt in Yk = µ + βk 12 + k
I
I
I
I
ändert die Verteilung der Differenzen Dk = Y1k − Y2k nicht und
ändert die Verteilung der Statistik T pair nicht
2
schätzt die Varianz von Dk immer noch korrekt
Grund: Spair
Ganz anders bei der unverbundenen Statistik T (...Tafel?!)
- Nachteil ggü dem unverbundenen Design
Kleinerer Freiheitsgrad (ν = 2N − 2 beim unverbundenen)
→ Sind keine Blockeffekte vorhanden und die Daten unabhängig:
⇒ Schlechtere Power im Vergleich zum unverbundenen t-Test
⇒ Größere Konfidenzintervalle im Vergleich zu unverbundenen
t-Intervallen
I
Bemerkung 4.2 (Blockeffekt): Der Fall stochastischer Blockeffekte
wird bei der Modellierung des zufälligen Faktors Versuchseinheit
verwendet. Das zugehörige Modell Yk = µ + βk 12 + k heißt dann
auch gemischtes 2-Stichprobenmodell.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Beispiel mit möglichem Blockeffekt
Beispiel 4.6 (CFU-Studie (1)):
Bei 26 Patientinnen, die wegen eines Karzinoms in Behandlung
sind wurden aus dem peripheren Blut sogenanntes
Stammzell-Konzentrat gewonnen und eingefroren
Dies ist ein typisches Vorgehen bei Chemotherapie zur
Regeneration des hämatologischen Systems nach Behandlung
Um zu messen, ob durch das Einfrieren wesentliche
Eigenschaften der Stammzellen verlorengehen, wurde vor und
nach dem Auftauen die Anzahl der CFU-GM13 (colony forming
units) gemessen.
Ergebnisse für Patientinnen mit hoher Vorbelastung...
13
wesenlticher Indikator
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Beispiel mit möglichem Blockeffekt
Ergebnisse:
Nr. Patient
CFU-GM vor
CFU-GM nach
Nr. Patient
CFU-GM vor
CFU-GM nach
Nr. Patient
CFU-GM vor
CFU-GM nach
1
1.6431
0.0001
11
0.4843
0.5776
21
2.3906
0.4021
2
2.5143
0.6760
12
0.3092
0.3048
22
0.5707
0.0001
3
3.2593
0.3797
13
0.0688
0.0087
23
2.5430
0.3114
4
0.8671
0.1769
14
0.0666
0.0142
24
1.4143
0.0152
5
0.2489
0.7623
15
0.6747
0.0001
25
1.5365
0.3466
6
1.0408
0.2102
16
1.1980
0.3697
26
0.5133
0.1915
7
0.2229
0.2947
17
0.7455
0.2418
8
0.4363
0.3503
18
8.7576
0.7576
9
0.5056
0.0089
19
4.4324
0.4564
10
0.0167
0.089
20
4.2018
0.8875
Für PARC passt Modell (4.12) mit “beliebigen’ Fehlern u.U. besser
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Inferenz für 2-SPenprobleme
Und ein weiteres Beispiel
Beispiel 4.7 (γ-GT-Studie (1)):
Bei 24 Patientinnen, denen wegen einer Gallenstein-Erkrankung (ohne
Verschluss des Gallengangs) die Gallenblase entfernt wurde, hat man die
Konzentration des γ-GT-Enzyms im Blut14 jeweils am Tag vor der Operation und
eine Woche nach der Operation bestimmt.
Nr. Patient
γ-GT(Tag -1)
γ-GT(Tag 7)
1
5
8
2
8
61
3
30
42
4
20
23
5
17
18
6
17
36
7
114
6
8
7
10
9
275
59
10
8
12
11
15
43
12
5
11
Nr. Patient
γ-GT(Tag -1)
γ-GT(Tag 7)
13
14
18
14
11
22
15
27
26
16
11
59
17
18
30
18
14
22
19
19
53
20
75
47
21
11
12
22
8
30
23
26
29
24
11
43
Für PARC passt Modell (4.12) hier auch nicht mehr so gut (außer zufälliger
Faktor mit großer Streuung, da viel ±)
Weiter Möglichkeiten: Entweder id. Struktur anpassen, robuste Methode wählen
oder...
14
Diskussion über andere Faktoren!
Ein hoher GGT-Blutwert weist auf eine Gallen- oder Lebererkrankung hin
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Kapitel 5:
Randomisierte 1-faktorielle Designs
Hier behandeln wir zunächst einfache Versuchspläne mit nur
einem variierenden Faktor A mit a ≥ 2 verschiedenen Stufen.
Der Fall a = 2 führt auf den 2-Gruppenplan aus dem vorherigen
Kapitel. Um die dortigen Nachteile bei vorgegebenen Gruppen zu
umgehen, wird hier Randomisieung als (zunächst15 ) einzige
Kontrolltechnik verwendet.
Erinnerung: Randomisierung soll
I
I
I
15
die Versuchseinheiten zufällig den verschiedenen Stufen
(Versuchsbedingungen) zuweisen, um so
mit großer WS zu garantieren, dass sich Einflüsse von
Störvariablen zufällig verteilen, um
schwerwiegende Fehlinterpretationen bei der anschließenden
statistischen Inferenz zu verhindern.
Später: Andere Techniken + Kombinationen bei komplexeren Anlagen
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Der einfaktorielle Plan (CR1F bzw. CRF-a)
Die Abkürzung CR1F steht für ’Completely Randomized
1-Factorial Design’. Die N Versuchseinheiten werden zufällig den
a Faktorstufen zugeteilt (randomoisiert):
Faktor
A
Stufe (Gruppe)
1
···
a
Stichprobenumfang n1 · · ·
na
V11
Va1
..
..
Versuchseinheiten
.
···
.
V1n1
Klassische Anwendung z.B. (Diskussion!)
Behandlung
Schlafmittel
Futtermittel
Tumorart
Weizensorte
Markus Pauly (University of Ulm)
Versuchseinheit
Proband
Kuh
Labormaus
Feld
Versuchplanung
Vana
Effekt
Schlafdauer
Milchertrag
Überlebenszeit
Ernteertrag
Sommersemester 2015
Beispiele
Beispiel 5.1 (Anzahl der Corpora Lutea16 ): In einer Fertilitätsstudie an 92
weiblichen Wistar-Ratten sollten unerwünschte Wirkungen einer Substanz (Verum)
auf die Fertilität untersucht werden. Das Verum wurde in vier Dosisstufen gegeben
und mit einem Placebo verglichen. Nach der Sektion der Tiere wurde unter anderem
die Anzahl der Corpora Lutea bestimmt. Die Ergebnisse für die n1 = 22 Tiere der
Placebo-Gruppe und die n2 = 17, n3 = 20, n4 = 16 und n5 = 17 Tiere der vier
Verum-Gruppen entnehmen Sie der unteren Tabelle:
Substanz
Placebo
Verum
Dosis 1
Verum
Dosis 2
Verum
Dosis 3
Verum
Dosis 4
16
Anzahl der Corpora Lutea
9, 11, 11, 11, 12, 12, 12, 12, 12, 12, 13
13, 13, 13, 13, 13, 14, 14, 14, 14, 15, 16
9, 10, 11, 11, 11, 11, 11, 12, 12, 12, 13
13, 14, 14, 14, 15, 15
9, 11, 12, 12, 13, 13, 13, 13, 13, 14, 14
14, 14, 14, 15, 15, 15, 15, 17, 17
6, 10, 11, 12, 12, 12, 13, 13, 13, 13, 14
14, 14, 15, 15, 16
9, 10, 11, 11, 11, 13, 13, 13, 13, 13, 14
14, 14, 14, 14, 15, 15
vgl. Brunner (2009)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiele
Beispiel 5.2 (Dunkle Schokolade): In einer Studie von Serafini et al.
(2003, Nature 424, 1013) wurde u.a. der Effekt von Schokolade auf die
Gesundheit des Herz-Kreislauf-Systems gemessen. Hierzu wurde der
Gehalt an herzschützenden Antioxidantien der Versuchsperson eine
Stunde nach Verzehr von
(I) 100g dunkler Schokolade,
(II) 100g dunkler Schokolade und 200ml Vollmilch oder
(III) 200g Milchschokolade
gemessen. Wir nehmen vereinfacht an, dass die Studie aus 36
Teilnehmer bestand, die zufällig (aber balanciert) in eine der drei
Verzehrgruppen randomisert wurden und das folgende Ergebnisse
beobachtet wurden:
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Boxplot Schokolade
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiele
Fragen von Interesse in beiden Beispielen (u.a.):
Unterschieden sich die Gruppen signifikant?
Und wenn ja, zwischen welchen Gruppen (Paarvergleiche)?
Unterschiede zwischen den Beispielen:
Im ersten Beispiel treten Bindungen auf und
die Ausprägungen sind diskreter Natur.
Dies ist im Schokoladenbeispiel jeweils nicht der Fall;
hier könnte man die Annahme normalverteilter Daten
rechtfertigen; im ersten auf keinen Fall
⇒ Man benötigt wieder unterschiedliche Auswertungsverfahren, auf
die wir im Folgenden näher eingehen
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Erinnerung: Wahl des Auswertungsverfahrens
Die Wahl der statistischen Inferenzmethode wird i.d.R. im Vorfeld
durch Beantwortung der folgenden Fragen festgelegt:
1
Wie viele Faktoren enthält die Untersuchung? (hier: nur einen)
2
Wie viele Stufen hat (haben) der (die) Faktor(en)?
3
Welches Skalenniveau hat (haben) der (die) Faktor(en)?
4
Wie viele Zielgrößen sollen untersucht werden? (haüfig: nur eine)
5
Welches Skalenniveau hat (haben) die Zielgröße(n)?
6
Welche Kontrolltechnik soll im Versuch verwendet werden
(Anordnung der Versuchseinheiten zu den einzelnen Stufen der
Faktoren)?
7
Welche Fragestellung(en) soll(en) beantwortet werden?
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
One-Way ANOVA-Modell
Beobachtungen
I
I
Yik
i = 1, 2, . . . , a (=
ˆ Ein Faktor A mit a festen Stufen)P
k = 1, . . . , ni unabhängige Wiederholungen, N = ai=1 ni Beobachtungen
Statistisches Modell
I
(Additives) Fixed Effects Modell:
Yik = µ + αi + ik
I
I
(5.1)
µ = Globaleffekt; αi = Effekt von Stufe i; ik zentrierte Zufallsfehler
Klassische Annahme: Versuchsfehler
i.i.d.
ik ∼ N(0, σ 2 ) i = 1, . . . , a, 1 ≤ k ≤ ni
(5.2)
mit unbekannter aber gleicher Varianz σ 2 ∈ (0, ∞)
⇒ einfaches lineares Modell mit Normalverteilungsannahme
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
One-Way ANOVA-Fragestellung
Statistisches Modell in Matrixschreibweise!(µ = (µ1 , . . . , µa )0 ):
a
M
Y = (Y01 , . . . , Y0a )0 = (Yik )0i,k =
1ni µ + =: X µ + i=1
Wie der Name suggeriert, nehmen wir hier an, dass µ, αi ∈ R feste Effekte sind.
Dann kann man folgende Hypothese testen
H0 : {µ1 = · · · = µa } vs.
H1 : {µi 6= µj für mind. ein Paar (i, j), i 6= j}.
(5.3)
Kann H0 signifikant abgelehnt werden, so würde man zusätzlich noch alle
Paarvergleich durchführen, d.h. Testen von
(i,j)
H0
: {µi = µj } vs.
(i,j)
H1
: {µi 6= µj },
1 ≤ i < j ≤ a.
(5.4)
Diskussion: Wie würden Sie (5.3) und dann (5.4) testen?
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
One-Way ANOVA
Globaltest ist der ANOVA-F-test in der Statistik
1 Pa
2
„Variance between”
i=1 ni (Y i· − Y ·· )
a−1
F = 1 Pa Pni
≈
2
„Variance within”
i=1
k =1 (Yik − Y i· )
(N−a)
Diese besitzt im Fixed Effect Modell unter der Annahme
i.i.d.
ik ∼ N(0, σ 2 ) eine F (a − 1, N − a)-Verteilung unter der
Nullhypohtese.
⇒ F-Test ist ϕN = 1{F > Fα (a − 1, N − a)}, wobei Fα (a − 1, N − a)
das zugehörige (1 − α)−Quantil ist.
ANOVA = Analysis of Variance.
Ergebnis beim Schokoladenbeispiel: F = 67.75 und
p − value = 2.07e − 12, d.h.?
Heuristische Herleitung im Rahmen von linearen Modellen: gleich
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Bemerkung 5.1 (One-Way ANOVA):
1
Besitzt der Faktor sehr viel Stufen von Interesse, so würde man
häufig nur eine Zufallsstichprobe der Größe a hieraus ziehen, um
darauf basierend Schlüsse über alle Stufen zu ziehen. In diesem
Fall würde man die Größen αi in (5.1) als zufällig modellieren
(Random Effects Modell) und andere Nullhypothesen über deren
Variabilität testen! → hierzu (wahrscheinlich) später mehr!
2
Zum Testen von (5.4) haben wir bereits verschiedene
Inferenzverfahren kennengelernt. Das Problem hier ist jedoch die
Multiplizität (Addition des Fehler’s 1. Art).
3
Der Name ANOVA kommt von der folgenden Aufteilung der
empirischen Gesamtvarianz (sum of squares):
ni
a X
X
±Y
(Yik − Y ·· )2 =i·
|i=1 k =1 {z
SStotal
Markus Pauly (University of Ulm)
}
a
X
|i=1
ni (Y i· − Y ·· )2 +
{z
SStreat
Versuchplanung
}
ni
a X
X
(Yik − Y i· )2 .
|i=1 k =1 {z
SSerror
}
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Exkurs: Herleitung der One-Way-ANOVA
Ausführlicher: In Stochastik 3!
Interpretation der Effekte: µ = µ·
I
µi = µ· + αi ,
µ· =
1
a
a
X
µi =
1 0
a 1a
µ
i=1
I
I
I
P
αi = µi − µ· (Abweichungen vom
Globaleffekt),
i αi = 0
α = (α1 , . . . , αa )0 = Ia − a1 Ja µ = Pa µ, Pa = Ia − a−1 Ja :
zentrierende Matrix
αi Effekt der Stufe i von A = Abweichung vom Mittelwert µ·
Äquivalente Formulierung der Hypothese H0 :
I
I
αi = 0, i = 1, . . . , a (kein Effekt des Faktors A)
Matrizenschreibweise: α = 0 oder Pa µ = 0
Erinnerung: Das Statistische Modell als Lineares
Modell:
!
a
M
0
0 0
0
Y = (Y1 , . . . , Ya ) = (Yik )i,k =
1ni µ + =: X µ + i=1
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Exkurs: Das Lineare Modell
Lineares Modell mit NVA
Y = Xb + ,
I
I
I
∼ N(0, σ 2 IN )
(5.5)
Y Vektor der N Beobachtungen
b ∈ Rd Parametervektor
X ∈ RN×d Designmatrix
Beispiele:
I
I
Modell der One-Way-ANOVA mit b = µ Vektor der Erwartungswerte
Regressionsmodelle (X enthält die Regressoren)
F
Einfache lineare Regression: Yi = β0 + β1 xi + i , i = 1, . . . , N als
lineares Modell: Y = Xb + , ∼ N(0, σ 2 IN )


1 x1
β0


→b=
und X =  ... ... , r (X) = 2
β1
1 xN
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Exkurs: Schätzer für die Parameter im LM
Unbekannte Parameter
I
I
I
b = (β0 , β1 , . . . , βd )0 - Regressionsmodell
b = µ = (µ1 , . . . , µd )0 - Faktorielles Modell (d = a)
σ 2 = Var (ik ), i = 1, . . . , d; k = 1, . . . , n
b für b
Schätzer b
I
I
I
b so schätzen, dass Y
b = Xb
b
b
Abstand haben
PN und Ybminimalen
0
b
b
D = (Y − Y) (Y − Y) = i=1 (Yi − Yi )2 wird minimal
Prinzip: kleinste Summe der Quadrate (least squares)
D
I
I
∂
D
bi
∂b
=
b 0 (Y − Xb)
b = Y0 Y − 2b
b0 X0 Y + b
b0 (X0 X)b
b
(Y − Xb)
=
b=0
−2X0 Y + 2(X0 X)b
d
i=1
b = X0 Y
Normalgleichungen: (X0 X)b
b = (X0 X)−1 X0 Y
Lösung (falls X0 X invertierbar ist): b
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
b
Exkurs: Eigenschaften des Parameterschätzers b
Satz von Gauß-Markov
I
Falls X0 X invertierbar ist, dann gilt
b = b (erwartungstreuer Schätzer für b)
1. E(b)
b minimale
2. Unter allen erwartungstreuen Schätzern für b hat b
b
Varianz (genauer: haben alle Komponenten von b minimale
Varianz).
b
Verteilung von b
I
Falls Y ∼ N(µ, σ 2 IN ), mit µ = (µ1 , . . . , µd )0 , dann gilt
b ∼ N(b, Σ), mit Σ = σ 2 (X0 X)−1
1. b
b ∼ N(Hb, V), mit V = HΣH0 = σ 2 H(X0 X)−1 H0
2. Hb
Spezialfall: Faktorielles Modell b = µ = (µ1 , . . . , µd )0
I
I
I
b = (b
b
µ1P
,...,µ
bd )0
n
1
µ
bi = n k =1 Yik = Y i·
b = (Y 1· , . . . , Y d· )0
b
Markus Pauly (University of Ulm)
(arithmetischer Mittelwert)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Exkurs: Varianzschätzer für σ 2 im LM
Modell:
Satz
I
Y = Xb + , E() = 0, Cov () = σ 2 IN
Der Schätzer
1
Y0 [IN − X(X0 X)−1 X0 ]Y
N − rg(X)
ist erwartungstreu für σ 2
Falls ∼ N(0, σ 2 IN ) ist, dann gilt für die quadratische Form
1 0
N − rg(X) 2
Y [IN − X(X0 X)−1 X0 ]Y =
σ
b ∼ χ2N−rg(x) (0)
Q =
2
σ
σ2
σ
b2 =
I
I
Weiter gilt:
b sind stochastisch unabhängig
σ
b2 und b
b = (Y 1· , . . . , Y d· )0
Spezialfall: Faktorielles Modell: b
I
σ
b2 =
d
n
1 XX
(Yik − Y i· )2
N −d
i=1 k =1
Markus Pauly (University of Ulm)
Versuchplanung
und
N − rg(X) 2
σ
b ∼ χ2N−d (0)
σ2
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Exkurs: Hypothesen Hb = 0 im LM testen
Gedanken zur Herleitung eines Tests für H0 (H) : Hb = 0, H
geeignete Hypothesenmatrix (z.B. Pd )
I
I
I
I
I
I
I
I
I
I
Formulierung der Hypothese Hb = 0 ist multivariat
b schätzt Hb ; ist aber auch multivariat
Hb
→ nicht als Testgröße geeignet
äquivalente Formulierung: (Hb)0 (Hb) = b0 H0 Hb = 0 ⇐⇒ Hb = 0
die quadratische Form b0 H0 Hb ist eindimensional
b 0 H0 Hb
b
untersuche die Verteilung von Q = b
0
2
b
Hb ∼ N(Hb, V), mit V = HΣH = σ H(X0 X)−1 H0
wähle eine symmetrische Matrix A so, dass AV idempotent ist, so
b0 H0 AHb
b ∼ χ2
folgt (zur Übung∗ ) QH = b
λ = b0 H0 AHb
sp(AV) (λ),
0
unter H0 (H) : λ = 0 A0 = 0
wähle A = V+ = σ12 [H(X0 X)−1 H0 ]+ , [·]+ : Moore-Penrose Inverse
b0 H0 [H(X0 X)−1 H0 ]+ Hb
b ∼ χ2 (0) unter H0 (H) : Hb = 0
QH = σ12 b
rg(H)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Exkurs: Der F -Test für Hb = 0
Modell: Y = Xb + , ∼ N(0, σ 2 IN )
Satz vom F -Test (für das feste Modell)
I
I
I
I
I
I
b0 H0 [H(X0 X)−1 H0 ]+ Hb
b ∼ χ2 (λ), λ =
QH = σ12 b
rg(H)
Unter H0 (H) : Hb = 0 folgt QH ∼ χ2rg(H) (0)
Q = σ12 Y0 [IN − X(X0 X)−1 X0 ]Y ∼ χ2N−rg(x) (0)
QH und Q sind stochastisch unabhängig
1
QH /r (H)
2 QH /r (H)
5. FH = 1 σ
=
ist
Q /[N − r (X)]
Q /[N − r (X)]
σ2 F (rg(H), N − r (X) | λ)− verteilt
6. Unter H0 (H) folgt FH ∼ F (rg(H), N − rg(X))
1.
2.
3.
4.
Markus Pauly (University of Ulm)
Versuchplanung
1 0 0 +
b H V Hb
σ2
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Exkurs: Der F -Test für Hb = 0
Spezialfall: Balanciertes faktorielles Modell:
b = (Y 1· , . . . , Y d· )0
b
n Pd
2
H0 (Pd )
i=1 (Y i· − Y ·· )
d−1
∼
F (d − 1, N − d)
FH =
P
P
d
n
1
2
i=1
k =1 (Yik − Y i· )
d(n−1)
Man kann zeigen: Der unter der Alternative auftretende
Zentralitätsparameter λ = σ12 b0 H0 V+ Hb hängt nicht von der
speziellen Wahl der Hypothesenmatrix H ab!
⇒ Für festes N hängt die Güte “nur” von der Design Matrix X ab!
Hierfür kann man zeigen: Der F -Test hat bei balancierter
Aufteilung von N die größte Power!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Varianzanalysetabelle bei der One-Way-ANOVA
Die auftretenden quadratischen Formen, Hypothesenmatrizen
und Nichtzentralitätsparameter (hier im CRF-a Modell:
Yik = µ + αi + ik ) stellt man häufig in sog.
Varianzanalyse-Tabellen zusammen (wieder d = a):
Faktor
Matrix Quadratform
Pa
A
a
X
ni Y i· − Y ··
Rang r E(Q/r )
2
a−1
σ 2 + n · σα2
N −a
σ2
i=1
a X
n
X
Yij − Y i·
2
i=1 j=1
a
Dabei gilt
σα2
1 X 2
=
αi mit σα2 = 0 unter H0 , d.h. die beiden
a−1
i=1
Quadratformen schätzen in diesem Fall die gleiche Varianz σ 2 .
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Der ANOVA-F -Test – Fallzahlplanung
Diskussion: Was ist ein praktisch relevanter Effekt?
Man behilft sich z.B. der Approximation (SLLN) unter Alternative17
1 Pd
2
i=1 n(Y i· − Y ·· )
d−1
FH ≈
∼ χ2d−1 (λ)
σ2
P
P
für λ = nσ −2 di=1 (µi − µ)2 = nσ −2 di=1 αi2
P
ind.
Erinnerung: Xi ∼ N(ai , σ 2 ) ⇒ σ −2 di=1 Xi2 ∼ χ2d (λ) für
P
λ = σ −2 di=1 µ2i .
P
⇒ Beschreibe relevanten Effekt durch ∆ = σ −2 di=1 (µi − µ)2 und
⇒ löse folgende approximative18 Gleichung nach n auf:
P(χ2d−1 (n∆) > χ2α,d−1 ) = 1 − β.
17
18
Wir betrachten hier zur Vereinfachung nur den balancierten Fall
Approximation auch für den kritischen Wert verwendet
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Der ANOVA-F -Test – Fallzahlplanung
Wird in der Praxis doch häufig nicht so gemacht!
Effekt
∆ = σ −2
d
d
X
X
(µi − µ)2 = σ −2
αi2
i=1
i=1
ist nicht so schön aus Anwendern herauszukitzeln:
I
I
Kleiner Effekt von allen Gruppen oder
großer Effekt von nur einer Gruppe
führen bspsw. zum selben Effekt.
Z.T. beobachtetes Vorgehen in der Praxis:
I
I
Nur der Effekt für “den” relevanten 2-Gruppenvergleich wird
angegeben und hiernach die Fallzahl berechnet. F -Test läuft quasi
nur mit.
Setze eine “konservative” minimale Differenz zwischen allen
möglichen Paaren von Erwartungswerten µi in der Gleichung an.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Grenzen der One-Way-ANOVA
Die One-Way-ANOVA beruht auf den sehr restriktiven Annahmen,
dass
I
I
die Varianzen innerhalb der Stufengruppen identisch sind, und dass
normalverteilte Beobachtungen vorliegen.
Bei der Auswertung des Schokoladenbeispiels sind wir vereinfacht
davon ausgegangen. Schaut man sich die geschätzten
Standardabweichungen an, erhält man dort jedoch
(b
σ1 , σ
b2 , σ
b3 ) = (3.53, 3.34, 4, 24), d.h. eine heteroskedastische
Tendenz, die auch signifikant nachgewiesen werden kann19
Genauso kann die Nullhypothese normalverteilter Daten
signifikant verworfen werden20
Noch deutlicher im anderen Beispiel des Kapitels.
19
Barlett’s Test verwirft die Nullhypothese gleicher Gruppenvarianzen zum Niveau
2.2e − 16
20
Der Shapiro-Wilk Test liefert einen p-Wert von 0.004129
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Grenzen der One-Way-ANOVA
Die One-Way-ANOVA beruht auf den sehr restriktiven Annahmen, dass
I
die Varianzen innerhalb der Stufengruppen identisch sind.
Dies verursacht typischerweise die folgenden Probleme:
I
I
I
Bei positive Pairing21 ⇒ Der F -Test wird konservativer ⇒ Verlust an Güte
Bei negative Pairing ⇒ Der F -Test wird liberal
In balancierten Designs treten obige Probleme indes in abgeschwächter
Form auf!
Überprüfung in der Praxis
I
Schätzung der gruppenspezifischen Streuungen der Residuen
b
ik = Yik − Y i· .
I
Testen der Nullhypothese gleicher Gruppenvarianzen {σ12 = · · · = σa2 }
mittels
F Bartlett’s Test bei normalverteilten Daten
F modifizierten Levene-Test bei nicht-normalverteilten Daten.
21
große Varianzen gehen einher mit großen Stichprobenumfängen und kleine mit
kleinen
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Grenzen der One-Way-ANOVA
Die One-Way-ANOVA beruht auf den sehr restriktiven Annahmen,
dass
I
normalverteilte Beobachtungen vorliegen.
Dies verursacht insbesondere bei stärkeren tails und (z.T. auch
bei) schiefen Verteilungen größere Probleme, die durch das
Auftreten von Varianzheterogenität nur noch verstärkt werden!
Überprüfung in der Praxis
I
Graphisch durch Histogramm, QQ- oder PP-Plots der Beobachtungen,
Residuen oder standardisierten Residuen
Yik − Y i·
.
σ
b
I
Testen der Nullhypothese normalverteilter Daten; z.B. mit dem
Shapiro-Wilks Test
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Exkurs: Überprüfung der Normalität
⇒ Quantil-Quantil-Plot:
Beim Quantil-Quantil-Plot (QQ-Plot) plottet man die geordneten
beobachteten Werte x1:n ≤ x2:n ≤ . . . ≤ xn:n (bzw. genauer: der
geordneten standardisierten Residuen) gegen die zugehörigen
theoretischen Quantile der N(0, 1)-Verteilung, d.h. gegen
Φ−1 (i/n).
Weichen die Punkte in einem QQ-Plot (stark) von einer Geraden
ab, dann spricht dies gegen die Normalverteilungsannahme.
Nicht Normalverteilt
3
Normalverteilt
●
●
●
6
● ●
●
−2
●
●
4
Sample Quantiles
●
●
●●
●
●
●
●●
●
●●
●●
2
0
1
●
●●●●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●●
●●
●
●
●●●
−1
Sample Quantiles
2
●
●●
●●
●
●
0
●
−3
−2
−1
0
1
2
●
●
3
Theoretical Quantiles
Markus Pauly (University of Ulm)
●●●
●●●●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●
●●●●●●
●●●●●
● ● ● ● ●●●●●●●●
−2
−1
0
1
2
Theoretical Quantiles
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Exkurs: Überprüfung der Normalität
⇒ σ-Regeln:
Für X ∼ N µ, σ 2 gilt
P |X − µ| ≤ σ
≈ 0.6827
P |X − µ| ≤ 2σ
≈ 0.9545
P |X − µ| ≤ 3σ
≈ 0.9973.
D.h. man könnte zur Überprüfung, ob Xi , i = 1, . . . , n,
normalverteilt sind, schauen, ob etwa 68%, 95% bzw. 99% der
beobachteten Werte n dem σ-, 2σ- bzw. 3σ-Intervallen liegen.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Exkurs: Überprüfung der Normalität
Alternativ kann man sich auch ein Histogramm der Residuen ansehen
und überprüfen, ob das Histogramm ungefähr normalverteilt aussieht.
Falls mehrere Gruppen betrachtet werden, deren Varianzen sich nicht
unterscheiden, dann können die Residuen beider Gruppen gemeinsam
betrachtet werden. Ansonsten sollten nach Gruppen getrennte Grafiken
generiert werden.
Man kann auch die geschätzte Schiefe E (Xk − µk )3 /σk3 = 0 oder
Kurtosis E (Xk − µk )4 /σk4 der Daten betrachten. Falls diese
normalverteilt sind, ist die geschätzte Schiefe ungefähr 0 und die
Kurtosis ungefähr 3.
Es existieren auch Tests wie z.B. der Kolmogorow-Smirnow-Test oder
Shapiro-Wilk-Test zur Überprüfung der Normalität der Daten, wobei wir
nochmal kurz auf Letzteren eingehen.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Shapiro-Wilk-Test
Seien x1:n ≤ . . . ≤ xn:n die geordneten beobachteten
Werte und
0
0
q = q1 , . . . , qn = E(Y1:n ), . . . , E(Yn:n ) für Yi i.i.d. N(0, 1). Dann ist
die Statistik des Shapiro-Wilk-Tests zum Testen der Nullhypothese
H0 : Die Daten sind normalverteilt. gegeben durch
Pn
SW = Pn
i=1 ai xi:n
i=1 (xik
2
− x̄k )2
.
Hierbei ist
−0.5
a = (a1 , . . . , an )0 = q0 V−1 V−1 q
q0 V−1 .
0
Dabei bezeichnet V die n × n Kovarianzmatrix von Y1:n , . . . , Yn:n .
Zur Berechnung des p-Werts wird typischerweise entweder eine
Monte-Carlo- (bei kleinem n) oder eine N(0, 1)-Approximation (bei
großem n) verwendet.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Grenzen der One-Way-ANOVA
Problem der obigen Verfahren: Genauigkeit bzw. Power nur gut
bei großem n. Die Normailitätsannahme ist jedoch nur bei
kleinerem n problematisch!
Typischer Ansatz bei Anzeichen nicht-normalverteilter und
heteroskedastischer Beobachtungen:
(Varianzstabilisierende) Transformation der Daten!
I
I
I
Z.B. durch Vorwissen aus vorangegangenen Untersuchungen oder
durch die üblichen Verdächtigen wie einer log-Transformation beim
“Hinweis” auf lognormalverteilte Beobachtungen oder
eine Box-Cox-Transformation.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Logarithmische Transformation
Zum Beispiel verwendet man bei Volumenmessungen (in den
Agrarwissenschaften) häufig logarithmische Transformationen der
Daten.
Hier 1x biespielhaft für das Volumen von 31 schwarzen
Kirschbäumen (Datensatz “trees” aus R-Paket “datasets“)
8
6
0
2
4
Häufigkeit
6
4
0
2
Häufigkeit
8
10
Histogramm nach Trafo
10
Histogramm Originaldaten
10
30
50
70
2.0
Volumen
Markus Pauly (University of Ulm)
2.5
3.0
3.5
4.0
4.5
log(Volumen)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Box-Cox-Transformation
Falls die üblichen Transformationen nicht weiterhelfen, können die
Box-Cox-Transformationen
( x γ −1
i
für γ 6= 0
γ
zi =
ln(xi ) für γ = 0
betrachtet werden.
Dabei kann γ mittels Maximierung der Likelihood
!
n
n
2
X
n
1 X
`(γ) = − ln
zi − z̄n
+ γ+1
ln xi
2
n
i=1
i=1
spezifiziert werden.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Grenzen der One-Way-ANOVA
Bei Transformationen der Daten muss man viele Punkte
beachten:
Das transformierte Modell muss dann ein Fixed Effects Modell sein
und
I mögliche Schlüsse gelten auch nur hierfür (Addititvität geht i.d.R.
bei Rücktransformation verloren)
⇒ Wird in der Praxis manchmal vergessen oder sogar missbraucht
(Transformieren bis zur Signifikanz)
I
Deshalb lieber...
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Alternativen zur One-Way-ANOVA
Andere Methoden, die im Fixed Effects Modell ohne Varianzhomogenität
und/oder Normalverteilungen auskommen sind beispielsweise die Tests von
I Welch-James,
I Brunner, Dette und Munk (beides Approximationen) oder
I Permutationstests vom Wald-Typ
Hiermit lässt sich die Nullhypothese H0 auch in heteroskedastischen Fixed
Effects Modellen (z.T. ohne NVA) testen.
Eine weitere Alternative (insbesondere im ordinalen Fall) stellen rangbasierte
Methoden zum Testen von Gleichheit der Verteilungsfunktionen
H0F : {F1 = · · · = Fa }
dar. Am bekanntesten ist dabei der Kruskal-Wallis-Test, der als Hauptannahme
jedoch ein sog. Shift-Modell annimmt, das wiederum Homoskedastizität
impliziert. Deshalb existieren auch hierfür Erweiterungen (z.B. auch von
Brunner, Dette und Munk22 ).
Diskussion?!
Für nominale Daten gibt es wieder einen χ2 -Test.
22
vgl. BDM.test im R-Paket asbio; ergibt p-Wert von 2.008027e − 07
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Back to business: Multiple Vergleiche
Im Schokoladenbeispiel konnten wir mittels ANOVA-F -Test die
Globalhypothese µ1 = µ2 = µ3 signifikant zu α = 5% verwerfen.
Frage: Sind die einzelnen Gruppen auch paarweise signifikant
voneinander verschieden?23 Teste also
I
I
I
(1,2)
H0
: µ1 = µ2
(1,3)
H0
: µ1 = µ3
(2,3)
H0
: µ2 = µ3
Problem: Multiplizität! Man möchte die Wahrscheinlichkeit
irgendeiner falschen Ablehnungen (FWER) zum Niveau α
kontrollieren!
Beim einfachen Durchführen der Einzeltests (hier z.B. t-Tests)
können sich die Fehler aber addieren.
23
oder verwandt dazu: Many-to-one bei Vergleich mit einer Kontrolle
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Multiple Vergleiche allgemeine Methoden
Ziel: Teste H0 (1), . . . , H0 (m) zum multiplen Level α, d.h.
FWER≤ α
Multiple Vergleiche von m Hypothesen über p-Werte p1 , . . . , pm p:
Erste Lösung Bonferroni
I
I
I
I
(`)
Lehne H0 , falls p` < α/m
Kontrolliert die FWER zum Niveau α
Aber: α/m ist sehr strikt
Resultiert in sehr konservativem Verfahren (geringe Güte)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Verbesserung
Ordne die p-Werte der Größe nach: p(1) ≤ . . . ≤ p(m)
Bonferroni - Holm - Methode
I
Start: p(1) ≤ α/m?
I
Ja: Lehne H0 ab! Nein: Stop und lehne keine Hypothese ab
p(2) ≤ α/(m − 1)?
I
I
I
I
I
(1)
(2)
Ja: Lehne H0 ab! Nein: Stop und lehne keine Hypothese ab
p(`) ≤ α/(m − ` + 1)?
(`)
Ja: Lehne H0 ab! Nein: Stop und lehne keine Hypothese ab
Man kann zeigen: Dies kontrolliert die FWER und hat mehr Güte
als Bonferroni
Weitere Verbesserungen, Methoden und Beweise in der
Vorlesung Multiple Hypothesentests
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Auswertung – ANOVA für feste Faktoren
Anwendung
Berechne die p-Werte der Einzeltests p1 , . . . , pm
Die R-Funktion p.adjust(...) berechnet hieraus sog. adjustierte
p-Werte piad , die pi so erhöhen, dass man sie direkt mit α
vergleichen kann (und die FWER erhalten bleibt).
I
I
p.adjust(c(p1 , . . . , pm ),”bonferroni”) 24
p.adjust(c(p1 , . . . , pm ),”holm”)
Im Schokoladenbeispiel erhält man (Gruppe 1 = dunkle
Schokolade) mittels 2-seitiger t-Tests p-Werte
I
I
I
p12 = 1.899e − 10
p13 = 4.607e − 09
p23 = 0.8391,
die auch nach Bonferroni-Adjustierung die gleichen Signifikanzen
liefern (Die Dunkle Schokoladengruppe unterscheidet sich jeweils
signifikant von den anderen beiden Gruppen; analoge Ergebnisse
für einseitige Tests und rangbasierte Versionen)
24
= (max(1, mp1 ), . . . , max(1, mpm ))
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Kapitel 6:
Einfaktorielle Experimente mit
geblockten Störfaktoren
Vorwort
Wir haben Blocking beispielhaft in den Kapiteln 3-4 kennengelernt. Dabei
insbesondere beim paarigen 1-Gruppenplan bzw. paarigen
2-Stichprobenproblem.
Allgemein ist Blocking eine Technik zur Kontrolle von Störfaktoren
Erinnerung: Störfaktoren sind Faktoren, deren Einfluss im Versuch nicht
interessiert. Da sie jedoch Einfluss auf die Zielgröße nehmen können, soll ihre
Variabilität möglichst gering gehalten/ kontrolliert werden
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Vorwort
Wir haben Blocking beispielhaft in den Kapiteln 3-4 kennengelernt. Hier
insbesondere beim paarigen 1-Gruppenplan bzw. 2-Stichprobenproblem.
Allgemein ist Blocking eine Technik zur Kontrolle von Störfaktoren
Bisher haben wir hauptsächlich Randomisierung als Kontrolltechnik aufgrund
ihrer einfachen und breiten Anwendungsmöglichkeit verwendet. Hiermit kann
i.d.R. auch der Einfluss von nicht veränderbaren oder gar unbekannten
Störfaktoren auf die Zielgröße ausbalanciert werden.
Ist der Störfaktor allerdings bekannt und kann vom Versuchsleiter bewußt
verändert werden, so bietet sich stattdessen zunächst Blocking an.
Grundidee bei der Blockbildung: Bilde homogene Blöcke/Gruppen, für die die
Variabilität des bekannten Störfaktors innerhalb eines Blocks sehr gering ist. Die
Variabilität zwischen den Blöcken kann dabei groß sein.
Typisch: Block = Spezielle Stufe des Störfaktors
George Box:
“Block what you can, randomize what you cannot”
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Complete Randomized Block Design
Wir betrachten zunächst ein sog. komplett randomisiertes Block-Design
(RCBD) mit einem festen Faktor A mit a Stufen.
Dabei wird das Experiment in jedem Block komplett durchgeführt, d.h. jede
Stufe des Faktors kommt genau 1x vor.
Blocking schränkt dabei das Randomisieren ein: Es wird jeweils nur die
Stufenzuweisung innerhalb eines Blocks randomisiert.
Faktor
A
Stufe
1
···
a
Block 1 V11 · · · V1a
..
..
..
..
.
.
.
.
Block n Vn1
·
Vna
Wie beim paarigen 1-Gruppenplan ist der Faktor Block typischerweise zufällig.
Es gibt aber auch Ausnahmen:
I In der Landwirtschaft: Wenn man nur Aussagen über das Verhalten von
Getreidesorten (Faktor A) auf vorliegende Felder (= Blöcke) treffen möchte
I Bei multizentrischen Studien mit verschiedenen Kliniken sollen die Kliniken
als feste Blöcke angesehen werden.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel: Wasserdichtheitsprüfung
Beispiel 6.1 (Wasserdichtheitsprüfung): Um den Einfluß von 4
verschiedenen Imprägniersprays auf die Wasserdichtheit von Textilien
zu messen, wurde folgendes Experiment durchgeführt:
Von verschiedenen Textilien wurde zufällig ein Materialstreifen
ausgewählt und in vier gleich große Stoffstücke geteilt.
Die Behandlungen mit den 4 verschiedenen Sprays wurden
anschließend zu jedem Stück zufällig randomisiert. Abschließend
wurde in einem Experiment die Dichheit in mm Wassersäulen
(mmWS) nacheinander mit dem selben Messinstrument
gemessen.
Obiges Experiment wurde insgesamt 4x wiederholt⇒
Verschiedene Textilien bilden die Blöcke
Die Zuweisungen und Beobachtungen entnehmen wir den folgenden
Tabellen:
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel: Wasserdichtheitsprüfung
Zuweisung
Block 1
Block 2
Block 3
Block 4
Block 1
Block 2
Block 3
Block 4
Markus Pauly (University of Ulm)
3
3
2
1
Spray
1 4
4 2
1 3
4 2
2
1
4
3
Beobachtungen
892 895 908 896
874 880 870 876
939 903 912 947
789 801 793 799
Versuchplanung
Sommersemester 2015
Beispiel: Proteinstudie
Beispiel 6.2 (Proteinstudie): Um den Einfluss von fünf verschiedenen
extensiven Eiweißdiäten auf die Entwicklung der Gewichtszunahme zu
untersuchen wurde eine Studie mit 15 Wistar-Ratten durchgeführt.
Diese wurden vorher bereits nach verschiedenen, hier nicht
interessierenden Kriterien (wie z.B. Größe, Gewicht, Aktivität,
Appetit etc.) in drei verschiedene homogene Blöcke vorsortiert.
Die Diätbehandlungen wurden innerhalb der Blöcke randomisiert
zugewiesen und
nach 4 Wochen Behandlung wurde die Gewichtszu-bzw.
abnahme (in Gramm) gemessen.
Die Zuweisungen und Beobachtungen entnehmen wir den folgenden
Tabellen:
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel: Proteinstudie
Zuweisung Behandlung
Block 1
5 3 2 1 4
Block 2
4 1 2 5 3
Block 3
1 3 5 4 2
Beobachtungen
Block 1 112 95 88 99 107
Block 2 101 98 79 109 107
Block 3 102 96 108 95 85
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Modellierung des RCBD
Klassisches Modell mit festem Blockfaktor:
Yik = µ + αi + βk + ik
I
I
I
I
I
I
(6.1)
Beobachtungen Yik sind unabhängig
µ - Globaleffekt
αi ∈ R i = 1, . . . , a - fester Behandlungseffekt (von Faktor A)
βk ∈ R, k = 1, . . . , n - fester Blockeffekt
i.i.d.
ik ∼ N(0,P
σ 2 ), Versuchsfehler
P
Annahme: i αi = k βk = 0
Mittlerer Behandlungseffekt von Stufe i:
I
µi = n−1
Pn
k =1
E(Yik ) = µ + αi
Hypothese von Interesse:
H0 : {µ1 = · · · = µa } = {α1 = · · · = αa = 0}
⇒ Wie zu testen?
I
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
ANOVA im RCBD
In den Übungen zeigen Sie die folgende Aufteilung der empirischen
Gesamtvarianz
n
a X
X
(Yik − Y ·· )2 = n
Pa
i=1 (Y i·
− Y ·· )2 + a
Pn
k =1 (Y ·k
− Y ·· )2
i=1 k =1
+
Pa
i=1
Pn
k =1 (Yik
− Y i· − Y ·k + Y ·· )2
bzw. symbolisch
SStotal = SStreat + SSblocks + SSerror .
Man kann zeigen (Stochastik 3), dass die 3 Summen auf der rechten
Seite dividiert durch σ 2 jeweils stu. χ2 - verteilt sind mit Freiheitsgraden
(a − 1), (n − 1) bzw. (a − 1)(n − 1). Genauer folgt dies aus
nachfolgendem Satz (Exkurs)...
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Satz 6.3 (Cochran’s Theorem):
Es gelte
Y ∼ Nd (0, Σ),
A, Ak , k = 1, 2, . . . , m seien Matrizen mit A =
Pn
k =1 Ak ,
so dass
AΣ idempotent ist.
Ist dann auch Ak Σ idempotent für alle k und gilt Ak ΣAk 0 = 0 für alle
k 6= k 0 , so folgt:
1
Y0 Ak Y ∼ χ2tr (Ak Σ) für alle k
2
Y0 Ak Y und Y0 Ak 0 Y sind unabhängig für k 6= k 0 .
3
Y0 AY ∼ χ2tr (AΣ) für alle k
Ohne Beweis
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
ANOVA im RCBD
Berechnung von den Erwartungswerten der Varianzanteile zeigt
P
n ai=1 αi2
2
E(SStreat /(a − 1)) = σ +
a−1
Pn
2
a
k =1 βk
E(SSblocks /(n − 1)) = σ 2 +
n−1
2
E(SSerror /[(a − 1)(n − 1)]) = σ ,
so dass zum Testen von H0 : {αi = 0 ∀i} wieder eine F -Statistik
F =
SStreat /(a − 1)
H0
∼ F (a − 1, (a − 1)(n − 1))
SSerror /[(a − 1)(n − 1)]
(6.2)
verwendet werden kann. Der zugehörige F -Test lehnt H0 ab, falls
F > Fα (a − 1, (a − 1)(n − 1)) gilt.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Grenzen der ANOVA
Die Annahmen sind auch hier wieder sehr restriktiv, was mitunter
zu ähnlichen Problemen führen kann wie beim CRF-a.
Deskriptiv kann dies z.B. wieder über Studium der Residuen
b
ik = Yik − Y i· − Y ·k + Y ··
geschehen. Diese können auch einen Hinweis auf mögliche
Interaktionen geben:
I
Ist b
ik negativ für kleine und große Beobachtungen, aber positiv für
mittlere, deutet dies u.U. auf Block-Faktor-Interaktionen hin!
⇒ Gleich mehr zu Interaktionen...
Ansonsten existieren auch hier wieder verschiedene
nichtparametrische Verfahren im ordinalen oder nominalen Fall.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistische Modellierung des RCBD – Teil II
Gemischtes Modell mit zufälligem Blockfaktor:
Yik = µ + αi + βk + ik
I
I
I
I
I
Yk = (Y1k , . . . , Yak )0 , k = 1, . . . , n - unabhängige
Beobachtungsvektoren
P
αi ∈ R, s = 1, . . . , a - fester Stufeneffekt von A ( i αi = 0)
i.i.d.
βk ∼ N(0, σβ2 ), k = 1, . . . , n
i.i.d.
- zufälliger Blockffekt
2
ks ∼ N(0, σ ), Versuchsfehler
die zufälligen Komponenten βk und ks sind unabhängig
Konsequenz
I
I
I
I
I
E(Yik ) = µi = µ + αi wie zuvor
Var (Y1k ) = · · · = Var (Yak ) = σβ2 + σ 2 sind gleich
Cov (Yik , Yi 0 k ) = σβ2 für alle Paare (i, i 0 ), i 6= i 0 = 1, . . . , a innerhalb
eines festen Blocks
Cov (Ysk , Ys0 k 0 ) = 0 für Beobachtungen aus verschiedenen
Blöcken k 6= k 0 = 1, . . . , n
die Kovarianzstruktur der Yk heißt Compound Symmetry
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
ANOVA im RCBD – Teil II
Analog zum Modell mit festen Blockeffekten rechnet man hiermit direkt
nach
P
n ai=1 αi2
2
E(SStreat /(a − 1)) = σ +
a−1
E(SSblocks /(n − 1)) = σ 2 + aσβ2
E(SSerror /[(a − 1)(n − 1)]) = σ 2 ,
so dass zum Testen von H0 : {αi = 0 ∀i} wieder die gleiche
F -Statistik25
F =
SStreat /(a − 1)
H0
∼ F (a − 1, (a − 1)(n − 1))
SSerror /[(a − 1)(n − 1)]
(6.3)
verwendet werden kann. Der zugehörige F -Test lehnt H0 ab, falls
F > Fα (a − 1, (a − 1)(n − 1)) gilt.
25
Verteilung mit Cochran’s Theorem
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Zufällige vs. feste Blöcke
Möchte man Interaktionen zwischen dem festen Faktor A und den
Blöcken mitmodellieren, so gelangt man zu einem gemischten
Modell mit Interaktion:
Yik = µ + αi + βk + γik + ik
I
I
Im
P Fall fester
P Blöcke wären γik ∈ R die Interaktionseffekte (mit
γ
=
ik
i
k γik = 0) und
bei zufälligen Blöcken würde man zufällige Interaktionen
i.i.d.
γik ∼ N(0, σγ2 ), die unabhängig von den β’s und ’s sind,
modellieren.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Zufällige vs. feste Blöcke
Konsequenzen:
I
Im Fall zufälliger Blöcke erhält man hierfür
E(SStreat /(a − 1))
I
2
= σ +
σγ2
+
E(SSblocks /(n − 1))
= σ 2 + aσβ2
E(SSerror /[(a − 1)(n − 1)])
= σ 2 + σγ2 ,
n
Pa
αi2
a−1
i=1
d.h. die F -Statistik (6.2) kann auch hier zum Testen von H0
verwendet werden.
Bei festen Blöcken kürzt sich der Interaktionseffekt in SStreat ; in
SSerror aber nicht, d.h. der F -Test wäre nicht anwendbar.
In der Praxis sind zufällige Blöcke die Regel, da man die
Ergebnisse meistens auf die Grundgesamtheit verallgemeinern
möchte.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Mehr zu RCBD
Multiple Vergleiche:
I
I
Mit ähnlichen Techniken wie beim 1-faktoriellen Modell.
Hier allerdings die Paarvergleiche zum Testen von
(i,j)
H0
: {αi = αj }
mittels paarigem t-Test.
Weitere Anwendungen:
I
Repeated Measurements:
F
F
F
I
a = t verschiedene Behandlungen
Jede Behandlung wird bei allen n Patienten genau 1x durchgeführt
Behandlungsreihenfolge muss dabei für RCBM randomisiert sein.
Erweiterungen:
F
In manchen Versuchen werden die Stufen des festen Faktors nicht
nur genau 1x sondern häufiger pro Block zugewiesen, um eine
größere Gesamtstichprobe zu erreichen. Kommen die Stufen dabei in
allen Blöcken gleich oft vor und werden zufällig zugewiesen, so
spricht man auch von einem RCBD (im weitesten Sinne).
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
RCBD (im weitesten Sinne)
Beispiel zu Letzterem: 2 Behandlungen werden in 2 Blöcken der Länge 4 jeweils
gleichhäufig und zufällig zugeteilt:
Zuweisung
Block 1
Block 2
Behandlung
1 2 2 1
1 2 1 2
Mögliches Problem an den bisherigen RCBDs mit vorgegebener Blocklänge:
I Kennt das Studienpersonal die Blocklänge (hier: 4) und die ersten drei
Behandlungen, so können Sie direkt schließen, welche Behandlung/Stufe
die letzte Person im Block bekommt!
⇒ Ein Teil der Randomisierung kann vorhergesagt werden
⇒ Es kann zu selection bias kommen!
Mögliche Lösung (wenn durchführbar):
I Verblindung des Studienpersonals (!) oder auch
I Verwendung von variablen (zufällig zugeteilten) Blocklängen
⇒ Für jeden Block werden nacheinander die Blocklängen zufällig zugeteilt (im
Beispiel könnte man z.B. zwischen 2, 4 und 8 wählen)
⇒ Dies führt aber zu unbalancierten Designs und mitunter zu (leicht) anderen
Fallzahlen.
⇒ Wenn möglich immer doppelt Entblinden!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Weitere Blockpläne
Das obige RCBD behandelt den Fall eines vollständigen
Blockplans mit genau einem (interessierenden) Faktor und einem
Blockfaktor.
Der Fall mehrerer Faktoren wird sehr ausführlich in den nächsten
Kapiteln behandelt.
Im Folgenden behandeln wir zunächst noch weitere
Block-Designs mit einem Faktor, bei denen entweder 2 oder
mehrere Blockfaktoren auftreten oder die Zuteilung nicht
vollständig ist.
Die genauen Vor- und Nachteile sowie deren Auswertung werden
dabei aus Zeitgründen jedoch nicht genau diskutiert.
Außerdem wird nur der Fall fester Blocklängen behandelt.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Latin-Square Design
Beispiel 6.4.: In einer Studie zur Bioäquivalenzprüfung zwischen zwei
Generika und dem Originator (Faktor mit 3 Stufen) soll jedem der drei
(zur Vereinfachung!) Probanden (nach einer ausreichenden
“Washout”-Periode) jedes Medikament an drei verschiedenen
Zeitpunkten verabreicht werden. Um hierbei etwaige Störfaktoren zu
blockieren, beschließt der Versuchsleiter neben dem “Probanden”
auch den “Zeitpunkt” als Blockfaktor zu verwenden und verwendet ein
spezielles 3 × 3 Latin Square Design, bei dem die Stufen des
interessierenden Faktors in jedem der Blöcke genau 1x vorkommen
(d.h. hier also in jeder Zeile und Spalte):
Patient 1
Patient 2
Patient 3
Markus Pauly (University of Ulm)
1
Orig
Gen 2
Gen 1
Zeitpunkt
2
3
Gen 1 Gen 2
Orig
Gen 1
Gen 2
Orig
Versuchplanung
Sommersemester 2015
Latin-Square Design (Lateinische Quadrate)
Allgemein bezeichnet ein p × p Latin-Square Design einen
Versuchsplan mit einem interessierenden Faktor und 2
Blockfaktoren, die alle jeweilse p Stufen besitzen und bei dem in
jeder Zeile und Spalte (d.h. in jedem Block) jede Stufe des
Einflussfaktors genau 1x vorkommt.
⇒ Dadurch, dass wir hierbei in zwei Richtungen “blocken”, haben wir
automatisch noch mehr Restriktionen an das randomisierte
zuteilen der Faktorstufen.
Bemerkung: Bis heute ist keine einfache Formel für die
Berechnung der Anzahl verschiedener Lateinischen Quadrate der
2
Ordnung p bekannt. Die Anzahl ist jedoch größer als (p!)2p /pp
Für kleine p erhält man beispielsweise
2(p = 2), 12(p = 3), 576(p = 4) bzw. 161280(p = 5)
Kombinationsmöglichkeiten, aus denen man beim Randomisieren
“zufällig” das Design ziehen würde.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Latin-Square Design
Der Name “Lateinische Quadrate” geht zurück auf Euler, der
lateinische Buchstaben für die verschiedenen Symbole (hier:
Stufen des Faktors) verwendet hat.
3×3
A B C
B C A
C A B
A
B
D
C
4×4
B C
C D
A B
D A
D
A
C
B
A
C
E
D
B
D
E
B
A
C
5×5
C
A
D
B
E
B
D
C
E
A
E
B
A
C
D
Im obigen Beispiel würde man durch A = Orig, B = Gen 1 und
C = Gen 2 ein anderes LQ erhalten.
Wir folgen dieser Schreibweise jedoch i.d.R. nicht, da wir die
Faktoren bereits mit Großbuchstaben bezeichnen.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Latin-Square Design
Statistisches Modell im einfachen p × p Latin-Square Design:
Yijk = µ + αi + τj + βk + ijk
1 ≤ i, j, k ≤ p,
beschreibt den Eintrag in Zeile i und Spalte k unter Faktorstufe j
(kurzzeitige Notationsänderung für die Faktoreffekte), wobei
I
I
I
I
αi = i-ter Zeileneffekt (des Zeilenblocks)
τj = j-ter Behandlungs- bzw. Stufeneffekt (des Faktors)
βk = k -ter Spalteneffekt (des Spaltenblocks)
ijk = Zufallsfehler (typisch: i.i.d. N(0, σ 2 ))
Wie beim RCBD erhält man F-Tests zum Testen von Hypothesen
über feste Effekte; allerdings
sind die Freiheitsgrade dabei wegen N = p2 Beobachtungen
häufig sehr klein...
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Latin-Square Design
Deshalb werden die Experimente mit Latin-Square-Designs häufig
n Mal wiederholt.
Statistisches Modell im n-fach wiederholten p × p Latin-Square
Design:
Yijk ` = µ + αi + τj + βk + ijk `
1 ≤ i, j, k ≤ p, ` = 1, . . . , n,
beschreibt den Eintrag in Zeile i und Spalte k unter Faktorstufe j
bei Wiederholung `
Wie oben erhält man wieder F-Tests zum Testen von Hypothesen
über feste Effekte; wobei
die Freiheitsgrade aufgrund von N = p2 n Beobachtungen nun
größer sind.
Erweiterungen mit Interaktionen sind natürlich auch wieder
möglich.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Crossover Designs
Ist speziell p = 2 so spricht man bei einem 2 × 2 Latin-Square
Design mit n-facher Wiederholung auch von einem sog.
(standard) Crossover-Design.
Dieses wird standardmäßig bei Pharmakokinetischen Studien
(PK-studies) oder auch Bioäquivalenz-Überprüfungen eingesetzt
Beispiel: In einer pharmakokinetischen Studie soll die Aufnahme
von Hydrocortison in den Körper bei Gabe vor (V) bzw. nach (N)
dem Essen untersucht werden. Dazu wurden die 10 Probanden
zufällig in 2 Gruppen randomisiert. Die Probanden in der ersten
Gruppe erhielten dabei die Behandlungsreihenfolge VN, die in der
zweiten Gruppe die Reihenfolge NV, d.h. in Gruppe 1 wurde zum
ersten Zeitpunkt nach Einnahme nach dem Essen gemessen und
in ausreichenden Abstand beim zweiten Zeitpunkt nach dem
Essen bei Einnahme vor dem Essen gemessen.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Crossover Designs
Versuchsplan für das Beispiel mit n = 10:
Gruppe 1
Gruppe 2
Proband
2 3 6 7 9 1 4 5 8 10
Zeitpunkt 1 V V V V V N N N N N
↓ ↓ ↓ ↓ Washout ↓ ↓ ↓ ↓
Zeitpunkt 2 N N N N N V V V V V
Die Probanden wurden dabei zufällig den beiden Gruppen
zugeteilt
Eine ausreichende Washout-Länge ist dabei wichtig, um mögliche
Übertragung- bzw. Residualeffekte auszuschließen.
Zur Auswertung (sowohl mittels F -Test als auch mit Hilfe von
nichtparametrischen Methoden) in R können Sie hierbei das Paket
bear verwenden, welches auch Designs mit mehr als 3 oder 4
Zeitpunkten zulässt.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Graeco-Latin-Square Design
Der zuvor behandelte Versuchsplan der Lateinischen Quadrate
erlaubt die Kontrolle von 2 verschiedenen Störfaktoren bzw. das
Blocken in 2 verschiedene Richtungen.
Möchte man nun sogar in 3 Richtungen blocken, so wird
typischerweise wie folgt vorgegangen:
I
I
Man überlagert zwei p × p Latin-Square Designs derart,
dass jede Stufe des einen Lateinischen Quadrats genau einmal mit
jeder Stufe des anderen kombiniert auftritt
(man sagt: die LQs liegen orthogonal zueinander)
Man kann zeigen: Solch ein Versuchsplan existiert für alle
p ≥ 3, p 6= 6.
Der Name wird klar, wenn man die Stufen im ersten LQ mit
lateinischen und im zweiten LQ mit griechischen Buchstaben
bezeichnet:
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Graeco-Latin-Square Design
Beispiel für ein 4 × 4 Graeco-Latin-Square Design:
Blockfaktor 1
1
2
3
4
1 aβ dα cδ bγ
2 dγ aδ bα cβ
Blockfaktor 2
3 cα bγ aγ dδ
4 bδ cγ dβ aα
Als einfaches Statistisches Modell ohne Wechselwirkung (und
1-facher Wiederholung) erhält man
Yijk ` = µ + αi + τj + βk + ω` + ijk `
1 ≤ i, j, k , ` ≤ p,
wobei τ und ω die Effekte der “lateinischen” bzw. “griechischen”
Behandlung angeben.
Bem: Die vier Einzeleffekte können dann jeweils aufgrund von p
Beobachtungen geschätzt werden!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Balanced incomplete Block Design
Zum Abschluss des Kapitels behandeln wir noch den Fall eines
einzelnen Blockfaktors, bei dem die Blöcke (aus Kosten-,
physikalischen oder Zeitgründen) zu klein sind, um alle Stufen des
interessierenden Faktors “aufzunehmen”, d.h. nicht jede Stufe
kommt in jedem Block vor.
Sind alle Stufen gleich wichtig, sollte man die Stufenzuweisung zu
den Blöcken ausbalancieren.
Dies führt zu sog. Balanced incomplete Block Designs (BIBD),
bei dem alle Paare von Stufenkombinationen (d.h. 2
verschiedenen Stufen) in gleich vielen Blöcken vorkommen.
Block 1
Block 2
Block 3
Block 4
Markus Pauly (University of Ulm)
Faktorstufen
1 2 3 4
x x − x
− x x x
x x x −
x − x x
Versuchplanung
Sommersemester 2015
Balanced incomplete Block Design
Im Folgenden bezeichnen wir die Anzahl der Blöcke mit p und die Anzahl der
Stufen des Faktors mit a. Im Fall a = p spricht man von einem symmetrischen
BIBD.
Nehmen wir an, dass jeder Block genau k < a Stufen enthält und jede Stufe
insgesamt r ≤ b26 Mal zugewiesen wird (d.h. in r verschiedenen Blöcken
vorkommt), so enthält der Versuchsplan genau N = ar = pk Beobachtungen.
Außerdem kommen alle Behandlungspaare in genau27
λ = r (k − 1)/(a − 1)
Blöcken vor (Im obigen Beispiel ist λ = 2).
Das Modell für die i−te Beobachtung in Block k ist analog zum RCBD (6.1)
gegeben durch
Yik = µ + αi + βk + ik ,
wobei hier nicht alle Kombinationen von i und k vorkommen.
Beim zugehörigen F -Test muss man dann für die Unvollständigkeit geeignet
adjustieren (vgl. Montgomery (Kapitel 4.4.1).
26
27
Dies ist notwengig für die Existenz des BIBD
Kleine Kombinatorikübung
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Block Designs aus kombinatorischer Sicht
Um für Block-Designs und im Speziellen für BIBD für
vorgegebene Werte von a, p, r und k randomisiert Zuweisen zu
können ist es wichtig Informationen über Existenz und Anzahl der
möglichen Versuchspläne zu besitzen.
Dies kann im Rahmen von fortgeschrittenen Kombinatorikaufgabe
gelöst werden.
Beispielsweise gibt das Bruck-Ryser-Chowla Theorem (hier ohne
Beweis) notwendige Bedingungen für die Existenz eines
symmetrischen BIBD mit Parametern (a, r , k , λ):
I
I
Ist a gerade, so ist k − λ Quadrat einer natürlichen Zahl
Ist a ungerade, so existieren nicht-triviale Lösungen der
Diophantine Gleichung28 x 2 − (k − λ)y 2 − (−1)(a−1)/2 λz 2 = 0
Und unter der zusätzlichen Bedingung k = r erhält man
Zusammenhänge mit endlichen projektiven Ebenen.
28
d.h. es interessieren nur ganzzahlige Lösungen
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Block Designs aus kombinatorischer Sicht
In dem Zusammenhang findet man auch das Schulmädchen
Problem von Kirkman29 :
“Fifteen young ladies in a school walk out three abreast for seven
days in succession: it is required to arrange them daily so that no
two shall walk twice abreast”
welches sich mit Hilfe von BIBD lösen lässt.
Viel Spaß beim Tüfteln!
Details zu Kombinatorik und Designs findet man z.B. in Hughes
and Piper: Design Theory (1985).
29
Quelle: Graham et al. (1995): Handbook of Combinatorics.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Kapitel 7:
Zwei- und Mehrfaktorielle Experimente
Mehrfaktorielle Designs
In den bisherigen Kapiteln haben wir (im Prinzip) nur Situationen
und Versuchspläne mit einem interessierenden Faktor untersucht
Dies wird sich jetzt ändern, d.h. wir studieren Versuchspläne, mit
denen man die Wirkung von zwei oder mehreren Faktoren
gleichzeitig auf die Zielgröße untersuchen kann.
Diese mehrfaktoriellen Versuchspläne sollte man von sog.
multivariaten Versuchsplänen unterschieden können (die
zunächst nicht thematisiert werden), bei denen mehrere
Zielgrößen auftreten (die allerdings auch wieder 1-2- oder
mehrfaktoriell sein können).
Neben der Analyse der zugehörigen Haupteffekte der Faktoren ist
hier insbesondere die wechselseitige Interaktion von Interesse.
Bevor wir dies systematisch angehen, geben wir zunächst einige
Beispiele für Fragestellungen, bei denen mehr als ein Faktor
interessiert.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel 7.1 (Studien von Schachter (1959)): In einer viel zitierten Arbeit von
Schachter (1959) sollte (vereinfacht dargestellt) die Wirkung von Angst- und
Hungergefühlen auf das Geselligkeitsbedürfnis untersucht werden. Dazu führte er 2
getrennte Versuche durch: (a) Hungerstudie. Hierbei wurde der Faktor Hungergefühl
in drei Stufen untersucht
starker Hunger (ca. 20 Stunden ohne Mahlzeit)
mittlerer Hunger (ca. 6 Stunden ohne Mahlzeit)
kein Hunger (Mahlzeit unmittelbar vor dem Versuch)
und die Zielgröße Geselligkeitsbedürfnis erfasste er durch Abfragen, ob man nun
lieber “alleine” oder “zusammen mit anderen” wäre. Die Aufteilung in die drei Gruppen
erfolgte dabei durch Randomisieren.
Ergebnis: Die Vermutung, dass steigender Hunger das Geselligkeitsbedürfnis fördert,
wurde bestätigt.
(b) Angststudie. Hierbei wurde der Faktor Angst (im Bezug auf angedachte
Elektroschocks) in 5 Stufen angegeben: “Mir gefällt es gar nicht, geschockt zu
werden” bis “Ich freue mich darauf, geschockt zu werden” und auch die Zielgröße
wurde genauer gemessen: Ich möchte die Elektroschocks - viel lieber allein, - lieber
allein, - egal, - lieber mit anderen zusammen, - viel lieber mit anderen zusammen,
bekommen.
Ergebnis: Die Vermutung, dass steigende Angst das Geselligkeitsbedürfnis fördert,
wurde bestätigt.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Fragen:
I
I
I
Um was für ein Design handelt es sich bei den Experimenten?
Wie sind Zielgröße und Faktoren skaliert?
Welchen Test würden Sie zur Auswertung verwenden?
Im Zusammenhang mit den Studien von Schachter fallen uns
direkt weitere Fragen ein:
I
I
I
I
Besteht das größte Bedürfnis nach Geselligkeit, wenn man
gleichzeitig hungrig und ängstlich ist? oder
Kann man überhaupt einen systematischen Einfluss auf das
Geselligkeitsbedürfnis feststellen, wenn Hunger und Angst
gleichzeitig auftreten? oder
Geht das Bedürfnis nach Geselligkeit bei extrem hohen
Belastungen von Angst und Hunger wieder zurück? oder
Wollen wenig hungrige, aber sehr ängstliche Personen eher mit
anderen Personen zusammen sein als wenig ängstliche, aber sehr
hungrige?
⇒ Diese lassen sich aus den Schachter-Experimenten nicht
beantworten! Die Faktoren müssten in neuen Versuchen
gemeinsam untersucht werden (⇒ 2-faktorieller Versuchsplan)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Weiteres Beispiel
Beispiel 7.2 (Toxizitätsstudie30 ): Es wurde die Toxizität einer
Substanz in 5 Dosis-Stufen bei männlichen und weiblichen
Wistar-Ratten untersucht. Die Zielgröße wurde dabei durch Messung
der relativen Nierengewichte (Nierengewicht/Körpergewicht) bestimmt.
Wir werden später sehen, dass sich der optische Eindruck (Dosis- und
Geschlechtereffekt; aber keine Interaktion) auch bei einer statistischen
Auswertung bestätigt.
30
Quelle: Brunner und Munzel (2013)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Und noch ein Beispiel
Beispiel 7.3 (Stressstudie): Eine Psychologiestudentin möchte den
Einfluss von Studienfach und Geschlecht auf den Stress während der
Examensarbeit in den Naturwissenschaften untersuchen. Dazu stellt
sie zufällig ausgewählten Probanden, die gerade an ihrer
Bachelor-Arbeit schreiben, sog. Stressverarbeitungsfragebogen.
Neben der Frage nach Einzel- bzw. Haupteffekten der beiden Faktoren
Geschlecht (M/W) und
Studienfach (Biologie/Chemie/Mathematik/Physik)
ist dabei auch von Interesse, ob Interaktionen vorliegen.
Im Zusammenhang mit mehreren Faktoren spielt auch deren
Anordnung eine große Rolle. Hierauf gehen wir zunächst kurz ein.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Anordnung der Faktoren
Definition 7.1 (Faktorenanordnungen und erste Designs):
(a) Zwei Faktoren heißen gekreuzt (Kreuzklassifikation), wenn ihre
Stufen ein kartesisches Produkt bilden.
(b) Wird jede Stufe eines Faktors mit jeder Stufe aller anderen
Faktoren kombiniert, dann heißt der Versuch vollständig, andernfalls
heißt er unvollständig.
Definition 7.2 (Interaktion/Wechselwirkung): Eine Interaktion bzw.
Wechselwirkung zwischen Faktoren liegt vor, wenn der Effekt eines
Faktors davon abhängt, welche Stufe auf einem anderen Faktor
vorliegt.
Deshalb gehen wir noch kurz auf Effektmessungen ein...
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Effekte
Haupteffekt
I
Effekte auf die Zielgröße, die auf das alleinige Wirken eines Faktors
zurückzuführen sind, nennt man Haupteffekte.
Wechselwirkung
I
I
I
Faktoren A und B gekreuzt → Einflüsse nicht notwendig getrennt
voneinander zu beurteilen
Stufe von B kann den Einfluss von A auf die Zielgröße verändern
analog fur mehrere gekreuzte Faktoren
einfacher Faktoreffekt
I
I
Einfluss eines Faktors innerhalb der Faktorstufen eines anderen
Faktors
von Bedeutung, falls eine Wechselwirkung vorhanden ist
Interpretation
I
Haupteffekt eines Faktors lässt sich nur sinnvoll interpretieren,
wenn keine Wechselwirkungen mit anderen Faktoren vorliegen
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Bemerkungen vorweg
Einfaktorielle Versuchspläne können nur einen Haupteffekt
aufzeigen!
In mehrfaktoriellen Plänen können dagegen Haupteffekte und
Wechselwirkungen effizient geschätzt und getestet werden!
Allerdings: Je mehr Faktoren man aufnimmt, desto schwieriger
sind Ergebnisse interpretierbar!
Beispielsweise gibt es bei mehr als 2 Faktoren nicht nur
Interaktionen 1. Ordnung (AB) sondern auch Wechselwirkungen
höherer Ordnung (ABC, ABCD etc.). Hier hängt eine gute
Interpretierbarkeit häufig auch vom Problem ab. Zudem werden
die Pläne natürlich auch immer unübersichtlicher.
Wir starten zunächst mit einem 2-faktoriellen Plan...
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Der zweifaktorielle gekreuzte Plan (CR2F bzw.
CRF-ab)
Die Abkürzung CR2F steht für ’Completely Randomized 2-Factorial Design’. Die
Stufen
Pder beiden Faktoren A und B sind dabei vollständig gekreuzt, wobei die
N = i,j nij Versuchseinheiten zufällig den ab Faktorstufen zugeteilt/randomoisiert
werden:
Faktor B
Faktor
A
1
..
.
a
Markus Pauly (University of Ulm)
1
···
V111
..
.
V11n11
..
.
Va11
..
.
Va1na1
Versuchplanung
..
.
..
.
..
.
b
V1b1
..
.
V1bn1b
..
.
Vab1
..
.
Vabnab
Sommersemester 2015
Allgemeines Two-Way Modell
Beobachtungen
I
I
I
I
Yijk
i = 1, 2, . . . , a (=
ˆ Faktor A mit a Stufen)
j = 1, 2, . . . , b (=
ˆ Faktor B mit b Stufen)
k = 1,
.
.
.
,
n
ij unabhängige Wiederholungen pro Stufenkombination,
P
N = i,j nij Beobachtungen
Zur Vereinfachung im Folgenden: nij ≡ n
Statistisches Modell
I
(Additives) Fixed Effects Modell:
Yijk = µij + ijk = µ + αi + βj + γij + ijk
I
I
αi
βj
γij
ijk
(7.1)
ˆ Haupteffekt A,
= µi· − µ·· =
= µ·j − µ·· =
ˆ Haupteffekt B,
= µij − µi· − µ·j + µ·· =
ˆ Interaktionseffekt AB
u.i.v. für festes (i, j) mit E(ijk ) = 0, Var (ijk ) = σij2 > 0.
u.i.v .
Klassische ANOVA-Annahme: ijk ∼ N(0, σ 2 ).
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Hypothesen im CRF-ab
Hypothesen von Interesse im CR2F sind
H0 (A) : {αi = 0 für alle i = 1, . . . , a}
H0 (B) : {βj = 0 für alle j = 1, . . . , b}
H0 (AB) : {γij = 0 für alle i = 1, . . . , a, j = 1, . . . , b}.
Diese lassen sich mit µ = (µ11 , . . . , µ1b , . . . , µab )0 wiederum mittels
geeigneter Kontrastmatrizen31 umformulieren32 :
H0 (A) : {CA · µ = 0} = {Pa ⊗ b1 10b · µ = 0}
H0 (B) : {CB · µ = 0} = { a1 10a ⊗ Pb · µ = 0}
H0 (AB) : {CAB · µ = 0} = {Pa ⊗ Pb · µ = 0}.
Frage: Wie würden Sie diese Nullhypothesen testen?
31
32
d.h. also hier C1ab = 0.
Zur Übung! Z.B. gilt Pa ⊗ b1 10b · µ = (αi )i
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
F-Test für die Two-Way ANOVA
u.i.v .
Im klassischen ANOVA-Modell mit ijk ∼ N(0, σ 2 ) schreibt man
(7.1) wieder als Lineares Modell wie bei der One-Way-ANOVA mit
b = (Y 11· , . . . , Y ab· )0
KQS µ
und erhält nach dem Satz vom F -Test ein Testverfahren in der
Statistik
FC =
1
Q /r (C)
σ2 C
1
Q /[N
σ2 − r (C)]
=
QC /r (C)
,
Q /[N − r (C)]
wobei C die Quadratform in der Kontrastmatrix C bezeichnet.
Unter Cµ = 0 gilt im balancierten Fall FC ∼ F (r (C), N − r (C))
Die jeweiligen Freiheitsgrade sowie Quadratformen im Zähler
(ersten drei Zeilen) bzw. Nenner (letzte Zeile mit ) entnimmt man
folgender Tabelle
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Varianzanalyse-Tabelle für den CRF-ab
Faktor
A
Matrix
Pa ⊗ b1 10b
Quadratform
a 2
X
nb
Y i·· − Y ···
Rang r
E(Q/r )
a−1
2
σ 2 + nb · σα
b−1
σ 2 + na · σβ2
(a − 1)(b − 1)
σ 2 + n · σγ2
ab(n − 1)
σ2
i=1
B
AB
1 0
1
a a
⊗ Pb
Pa ⊗ Pb
na
b X
Y ·j· − Y ···
j=1
a X
b X
Y ij· − Y i·· − Y ·j· + Y ···
i=1 j=1
a X
b X
n X
2
Yijk − Y ij·
2
2
i=1 j=1 k =1
Dabei gilt
2
σα
=
a
1 X 2
αi ,
a−1
σβ2 =
i=1
σγ2
=
b
1 X 2
βj
b−1
und
j=1
a X
b
X
1
γij2
(a − 1)(b − 1)
i=1 j=1
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Bemerkungen
Unter den Hypothesen
H0 (A) : Pa ⊗ b1 10b µ = 0 ist σα2 = 0 ,
H0 (B) : a1 10a ⊗ Pb µ = 0 ist σβ2 = 0 ,
2
H0 (AB) : Pa ⊗ Pb µ = 0 ist σαβ
=0
und die Quadratform in der jeweiligen Zeile der Tabelle schätzt
dann die gleiche Varianz σ 2 wie die Quadratform in der letzten
Zeile der Tabelle.
Die entsprechenden F -Tests kann man auch symbolisch
aufschreiben:
Quadratform(Faktor)/r (Matrix)
Quadratform( ) / (ab(n − 1))
Markus Pauly (University of Ulm)
H0 (Matrix)
Versuchplanung
∼
F (r (Matrix), ab(n − 1) )
Sommersemester 2015
Alternativen zur Two-Way-ANOVA
Auch die Two-Way-ANOVA beruht auf den sehr restriktiven Annahmen, dass
I
I
I
die Varianzen innerhalb aller Stufenkombinationen identisch sind,
und dass
normalverteilte Beobachtungen vorliegen.
gleiche Stichprobenumfänge vorliegen (ungleiche müssen anders
behandelt werden)
Andere Methoden, die ohne Varianzhomogenität und/oder Normalverteilungen
auskommen sind auch hier die Tests von
I Welch-James,
I Brunner, Dette und Munk (beides Approximationen) oder
I Permutationstests vom Wald-Typ
Hiermit lassen sich alle Nullhypothesen H0 auch in heteroskedastischen
Modellen (z.T. ohne NVA) testen.
Als weitere Alternative existieren auch hier rangbasierte Methoden wie z.B. der
Brunner, Dette und Munk Test für faktorielle Designs. Bei der
Hypothesenformulierung ersetzt man einfach die Erwartungswerte µij durch die
unbekannten Verteilungsfunktion Fij .
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Auswertung der Toxizitätsstudie
Wir betrachten nochmal die Situation aus der Toxizitätsstudie, wo die
Boxplots auf ungleiche Streuungen und möglicherweise nicht
normalverteilte Beobachtungen hinweisen:
P
W
M
8
8
Fallzahlen
D1 D2 D3
9
7
Markus Pauly (University of Ulm)
10
8
7
7
D4
P
Varianzen
D1
D2
D3
11
11
0.65
0.52
0.54
0.60
Versuchplanung
0.68
0.68
0.68
0.44
D4
0.43
0.53
Sommersemester 2015
Auswertung der Toxizitätsstudie
Da die Haupteffekte stark ausgeprägt sind, erhält man hier mit den
betrachteten Tests vergleichbare Ergebnisse:
Hypothese
H0 (A)
H0 (B)
H0 (AB)
Test
BDM
F -Test
Wald-Perm
BDM
F -Test
Wald-Perm
BDM
F -Test
Wald-Perm
p-Wert
< 0.0001
< 0.0001
< 0.0001
< 0.0001
< 0.0001
< 0.0001
0.6078
0.6509
0.6453
Dabei sollte klar sein: Die Anwendung von verschiedenen Tests war
hier nur zur Illustration!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Gekreuzte höherfaktorielle Versuchspläne
Das obige Vorgehen lässt sich kanonisch auf mehr als 2 Faktoren
erweitern.
Hätte man im letzten Datensatz beispielsweise noch nach dem
Faktor C Altersklassen unterschieden, so würde ein 3-faktorielles
Modell vorliegen.
Hierfür erhält man durch erneutes Aufsplitten der Indizes einen
komplexeren Versuchsplan, in dem weitere Hypothesen von
Interesse sind (mit ähnlicher Formulierung wie zuvor).
Für Anwendungen wird dabei klassischerweise empfohlen, dass
jede Zelle des Versuchsplans mit mindestens 5 Versuchseinheiten
besetzt ist.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Der gekreuzte dreifaktorielle Versuchsplan
Den vollständig gekreuzten 3-faktoriellen CR3F bzw. CRF-abc Plan
mit Faktoren
P A, B und C sowie vollständig randomisierter Zuweisung
der N = i,j,r nijr Versuchseinheiten zu den abc Faktorstufen erhält
man als:
Faktor B
Faktor
A
i=1
..
.
i=a
j=1
Faktor C
r =1
V1111
..
.
V111n111
..
.
Va111
..
.
Va11na11
Markus Pauly (University of Ulm)
···
..
.
..
.
..
.
j=b
Faktor C
...
...
r =c
...
r =1
V11c1
..
.
V11cn11c
..
.
Va1c1
..
.
Va1cna1c
...
V1b11
..
.
V1b1n1b1
..
.
Vab11
..
.
Vab1nab1
...
...
...
...
...
...
Versuchplanung
···
..
.
..
.
..
.
r =c
V1bc1
..
.
V1bcn1bc
..
.
Vabc1
..
.
Vacbnabc
Sommersemester 2015
Allgemeines Three-Way Modell
Statistisches Modell
I
I
(Additives) Fixed Effects Modell:
Yijrk = µijr + ijrk 1 ≤ i ≤ a, 1 ≤ j ≤ b, 1 ≤ r ≤ c, 1 ≤ k ≤ nijr .
ijrk u.i.v. für festes (i, j, r ) mit E(ijrk ) = 0, Var (ijrk ) < ∞.
Hypothesen hierfür (mit µ = (µ111 , . . . , µabc )0 ):
I
für die Haupteffekte
F
F
F
I
Interaktionen 1. Ordnung
F
F
F
I
H0 (A) : {(Pa ⊗ b1 10b ⊗ 1c 10c ) · µ = 0}
H0 (B) : {( a1 10a ⊗ Pb ⊗ 1c 10c ) · µ = 0}
H0 (C) : {( a1 10a ⊗ b1 10b ⊗ Pc ) · µ = 0}
H0 (AB) : {(Pa ⊗ Pb ⊗ 1c 10c ) · µ = 0}
H0 (AC) : {(Pa ⊗ b1 10b ⊗ Pc ) · µ = 0}
H0 (BC) : {( a1 10a ⊗ Pb ⊗ Pc ) · µ = 0}
Interaktionen 2. Ordnung
F
H0 (ABC) : {(Pa ⊗ Pb ⊗ Pc ) · µ = 0}
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Abschlussbemerkungen
Wie man sieht, wird der Versuchsplan mit mehr Faktoren immer
komplizierter.
Außerdem tritt ein genereller Nachteil von komplett randomisierten
Versuchsplänen auf: Man benötigt relativ viele Versuchseinheiten,
da hier mindestens vier Gruppen gebildet werden müssen.
Außerdem sollte man bei Randomisierung als einzige
Kontrolltechnik auch auf homogene Versuchseinheiten achten, um
keine zu große Versuchsfehlerstreuung im Versuch zu haben
Später werden wir auch mehrfaktorielle Blockpläne kennenlernen,
bei denen analog zum RCBD mit einem Faktor, Blocking als
weitere Technik eingesetzt wird.
Zunächst betrachten wir aber einge Spezialfälle des
mehrfaktoriellen Modells von Interesse.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Kapitel 8:
Faktorielle 2k Designs und verwandte
Pläne
2k Experimente
Die allgemeinen mehrfaktoriellen Experimente des letzten
Kapitels beinhalten viele interessante Spezialfälle
Einer der Wichtigsten ist dabei das sogenannte 2k Design mit k
Faktoren, die alle nur 2 Stufen besitzen
Diese Stufen können
I
I
quantitativ (zwei Dosen eines Wirkstoff, Temperaturwerte oder
Zeitpunkte) oder
qualitativ sein (Fall und Kontrolle, “hoch” und “niedrig”, zwei
Maschinen).
Man kodiert diese dann häufig mittels “+/−”, “0/1” oder “+1/ − 1“.
In jedem Fall benötigt eine einfache Durchführung dieses Designs
N = 2k Beobachtungen
Häufigste Anwendung: In frühen Versuchsstadien, um (die)
relevante(sten) Faktoren zu finden!
Die Auswertung geschieht dabei analog zum mehrfaktoriellen Fall.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel 8.1 (Chemieherstellung): Ein chemisches Produkt wird in
einem Druckbehälter hergestellt. In einer Pilotanlage soll der Effekt der
Faktoren
Temperatur (A),
Druck (B) und
Rührgeschwindigkeit (C) (alle jeweils auf 2 Stufen)
auf die Filtrationsrate (diese soll maximiert werden) durch Kombination
aller möglichen Stufen untersucht werden. Aus Kostengründen wird
dabei jeweils nur eine Messung pro Stufenkombination durchgeführt.
⇒ Es handelt sich also um einen einfachen 23 -Versuchsplan!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel 8.2 (Organisation und Lernen): Aus Ünlü (2011): Wenn
man eine Reihe von Wörtern, die man vorher gehört hat, wiedergeben
soll, so neigt man dazu, die Begriffe, die in einem sinnvollen
Zusammenhang stehen, nacheinander zu reproduzieren. Die Begriffe
werden dabei geordneter wiedergegeben als sie dargeboten wurden.
Man bildet sogenannte Wörter - Cluster, die zu einem Oberbegriff
gehören. Im Rahmen des “experimentalpsychologischen Praktikums”
der Universität Frankfurt ging man von folgenden Überlegung aus:
Gibt man die Lernreihe geordnet an, müsste die Behaltensleistung
der Probanden größer sein als bei einer ungeordneten Lernreihe.
(Faktor A mit 2 Stufen)
Gibt man zusätzlich noch an, dass sich die Wörter bestimmten
Oberbegriffen zuordnen lassen, müssten auch mehr Wörter
behalten werden als wenn dieser Hinweis nicht gegeben wird.
(Faktor B mit 2 Stufen)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Fortsetzung des Beispiels
Die Lernreihe bestand dabei aus 60 zweisilbigen Wörtern.
Die Wörter wurden auf einem Tonband mit einem Abstand von ca.
drei Sekunden nacheinander abgespielt.
Dabei ließen sich je 15 Wörter einer von vier Kategorien (Tiere,
Vornamen, Nahrungsmittel, Werkzeuge) zuordnen.
Die Wörter wurden einmal zufällig ungeordnet und einmal in
geordneter Reihenfolge (Faktor A) abgespielt.
Als weitere Versuchsbedingung wurde vor Darbietung der Wörter
ein Hinweis auf die Kategorien gegeben, unter der anderen
Bedingung nicht (Faktor B).
Das vorliegende Experiment wurde insgesamt 5x wiederholt, so
dass der Stichprobenumfang insgesamt N = 20 betrug (22 = 4
Versuchspersonen (eine Person für eine Bedingung) pro
Durchführung). Die Probanden wurden dabei zufällig den
verschiedenen Bedingungskombinationen zugeteilt.
⇒ Es handelt sich also um einen wiederholten 22 -Versuchsplan!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel 8.3 (Kreditkartenmarketing): Im International Journal of Research
in Marketing erschien 2006 ein Artikel von Bell et al., der ein Experiment zur
Steigerung der Kreditkartenabschlüsse einer Firma aus dem Finanzsektor beschreibt.
Das Experiment lässt sich schematisch vereinfacht wie folgt darstellen:
Faktor
A: Jahresbeitrag
B: Beantragungsgebühr
C: Zinssatz in den ersten 6 Monaten
D: Zinssatz danach
Kontrolle (-)
Aktueller Satz
Nein
Aktueller Satz
Aktueller Satz
Neue Idee (+)
Niedriger
Ja
Niedriger
Höher
Das Marketing-Team der Firma hat aus obigen Stufenkombinationen somit 24 = 16
verschiedene Angebote erstellt. Diese wurden an mehr als 7000 Kunden gemailt.
⇒ Es handelt sich also um einen wiederholten 24 -Versuchsplan!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Effektschätzung im 22 Design
Wir betrachten das Beispiel Organisation und Lernen mit den
hypothetischen Versuchsergebnissen
Faktor
Durchgang
A B
I
II
III IV V Summe
- 25 27 22 30 26
130
+ - 29 38 29 30 34
160
- + 31 26 27 34 32
150
+ + 31 39 33 32 35
170
Wie schätzt man nun die Effekte der Faktoren und
Wechselwirkungen?
⇒ Wie beim Basketballbeispiel!
Mögliches Modell:
Yijk = µ + αxi + βxj + γxi xj + ijk ,
1 ≤ i, j ≤ 2, 1 ≤ k ≤ n = 5
i.i.d.
für ijk ∼ N(0, σ 2 ) und xi = (−1)i .
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Effektschätzung im 22 Design
Faktor
A B
+
+
+ +
I
25
29
31
31
Durchgang
II
III
IV
27 22 30
38 29 30
26 27 34
39 33 32
V
26
34
32
35
Summe
130
160
150
170
Haupteffekt33 A:
α
b=
(A+ B + − A− B + ) + (A+ B − − A− B − )
170 − 150 + 160 − 130
=
=5
2n
10
Haupteffekt B:
(A+ B + − A+ B − ) + (A− B + − A− B − )
170 − 160 + 150 − 130
βb =
=
=3
2n
10
Wechselwirkung AB:
γ
b=
33
A+ B + − A+ B − − A− B + + A− B −
170 − 160 − 150 + 130
=
= −1
2n
10
n=Anzahl der Wiederholungen und 1/2 wegen Mittelung der beiden Effektanteile
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Bemerkung
Man kann die obigen Effektschätzer im Rahmen eines Linearen Modells als
Kontraste der Stufenkombis A± B ± angeben:
Stufenkombinationen
Effekte A− B − (= 1) A+ B − (= a) A− B + (= b) A+ B + (= ab)
A
-1
+1
-1
+1
B
-1
-1
+1
+1
AB
+1
-1
-1
+1
Die Kontrastvektoren (in den Zeilen) sind orthogonal zueinander!
⇒ Dies führt dazu, dass die zugehörigen Effekte unabhängig voneinander
geschätzt werden können (Beweis an Tafel?!)!
In Klammern haben wir zusätzlich eine Kodierung verwendet, die anzeigt,
welche Faktoren im Zustand “+” sind. Diese wird bei mehreren Faktoren hilfreich.
Außerdem sieht man im Rahmen der Theorie über Lineare Modell leicht ein,
dass die Effektschätzer KQS im obigen Modell sind, d.h. sie minimieren die
Fehlerquadratesumme
2 X
n
X
(Yijk − µ − αxi − βxj − γxi xj )2 .
i,j=1 k =1
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Effektschätzung im 2k Design
Da die Kontraste zur Effektschätzung bei mehren Faktoren schnell
unübersichtlich werden, haben wir in auf der letzten Folie die obige
Kurzschreibweise eingefügt (Vorsicht: Hier werden die Kleinbuchstaben
ausnahmsweise nicht für die Stufenanzahl verwendet!).
Allgemein lässt sich im 2k Design der Effekt von ABC . . . K schätzen durch
Entwicklung von
2
(a ± 1)(b ± 1) · · · (k ± 1)
n2k
schätzen. In einem 23 Design erhält man beispielsweise für die Wechselwirkung
AC:
2
abc + 1c + b + 1 − ab − bc − a − c
(a − 1)(b + 1)(c − 1) =
n23
n22
Die zugehörigen Kontrastvektoren erhält man dann wie oben. Diese sind auch
im allgemeinen Fall wieder orthogonal (leichte Übung).
Wir halten fest: 2k Designs sind
I sog. orthogonale Pläne, bei denen
I jeder Haupteffekt und jede Wechselwirkung einzeln und unabhängig
voneinander geschätzt werden kann
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Effektschätzung im 23 Design
Im 23 -Design erhält man z.B. die folgenden Kontraste als
Spaltenvektoren:
Stufenkombinationen
1
a
b
ab
c
ac
bc
abc
I
+1
+1
+1
+1
+1
+1
+1
+1
A
-1
+1
-1
+1
-1
+1
-1
+1
B
-1
-1
+1
+1
-1
-1
+1
+1
Effekte
AB
C
+1
-1
-1
-1
-1
-1
+1
-1
+1 +1
-1
+1
-1
+1
+1 +1
AC
+1
-1
+1
-1
-1
+1
-1
+1
BC
+1
+1
-1
-1
-1
-1
+1
+1
ABC
-1
+1
+1
-1
+1
-1
-1
+1
Man sieht direkt, dass je 2 Spalten orthogonal zueinander sind.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Geometrische Veranschaulichung im 23 Design
Quelle: Montgomery (2013).
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Optimalität von 2k Designs
Man kann zeigen: 2k Designs erfüllen gewisse
Optimalitätskriterien wie
I
I
I
D-optimality
G-optimality
I-optimality
im einfachen Fixed Effects Modell mit Interaktionen.
⇒ Exkurs an der Tafel....
Zuvor aber: Erinnerung an den F-Test Exkurs (Folie 147ff)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Optimalität von 2k Designs
2k Pläne erfüllen also gewisse Optimalitätskriterien.
Der Stichprobenumfang für einen Durchgang kann für großes k
allerdings sehr groß werden; z.B. benötigt die einfache
Durchführung eines Plans mit 10 Faktoren bereits 1024
Beobachtungen.
Lösung: Häufig ist man in der Screening-Phase nur an den
Haupteffekten (k Stück) und gar nicht an den Wechselwirkungen
interessiert. In diesem Fall können andere (unvollständige) Pläne
gewählt werden, die mit einem geringeren Stichprobenumfang
auskommen.
Dies führt auf
I
I
Placket-Burman- und
fraktioniert faktorielle 2k −p -Designs
Man muss hierbei allerdings beachten, dass vorhandene
Wechselwirkungen in den Haupteffekten confounded werden.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Screening-Pläne – Schätzung ohne
Wechselwirkungen
Diese Problemstellung zielt darauf ab alle Haupteffekte im
linearen Fixed Effects Modell mit k Faktoren ohne
Wechselwirkungen und je 2 Stufen mit möglichst wenigen
Stufenkombinationen zu schätzen, d.h. der Erwartungswertvektor
des LM besteht (bei einem Durchgang) aus den folgenden
Einträgen:
β0 + β1 x1 + · · · + βk xk ,
xi ∈ {−1, +1} für i = 1, . . . , k .
Ein zugehöriger Versuchsplan mit ortogonalen Kontrasten heißt
dann auch Screening-Plan.
Wir betrachten zunächst den Placket-Burman-Plan; bei dem man
(leider) voraussetzen muss, dass k + 1 ein Vielfaches von 4 ist.
Die Anzahl der Stufenkombinationen (pro Versuchsdurchgang) ist
dann auch ein Vielfaches der 4.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Placket-Burman-Designs
Placket-Burman-Designs lassen sich wie folgt konstruieren:
1
Man wählt einen Zeilenvektor der Länge k + 1, der (k + 1)/2 mal
die +1 und (k − 1)/2 mal die −1 enthält
2
Weitere Zeilenvektoren erhält man durch zyklisches Permutieren,
d.h. man schiebt die vorherige Zeile um eine Position nach rechts
und fügt den “verloren gegangenen” Wert an der ersten Stelle
hinzu.
3
Zum Abschluss wird dann noch ein Zeilenvektor mit den Einträgen
-1 hinzugefügt.
Der Versuchsplan ergibt sich dann aus den Zeilen in obiger
-1/+1-Kodierung, wobei die Spalten wiederum die Kontraste zum
Schätzen der Haupteffekte widerspiegeln.
Je zwei Spalten dieser Planungsmatrix sind dabei wieder orthogonal.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Placket-Burman-Designs – Beispiele
Beispiele für k = 3 und k = 7 Faktoren
Zeilennr.
1
2
3
4
Faktoren
A
B
C
−1 +1 +1
+1 +1 −1
+1 −1 +1
−1 −1 −1
Markus Pauly (University of Ulm)
Zeilennr.
1
2
3
4
5
6
7
8
A
−1
−1
+1
−1
+1
+1
+1
−1
Versuchplanung
B
−1
+1
−1
+1
+1
+1
−1
−1
Faktoren
C
D
E
+1 −1 +1
−1 +1 +1
+1 +1 +1
+1 +1 −1
+1 −1 −1
−1 −1 +1
−1 +1 −1
−1 −1 −1
F
+1
+1
−1
−1
+1
−1
+1
−1
G
+1
−1
−1
+1
−1
+1
+1
−1
Sommersemester 2015
Fraktioniert faktorielle 2k −p -Designs
Sog. fraktioniert faktorielle 2k −p -Designs sind unvollständige
Versuchspläne mit insgesamt 2k −p verschiedenen Versuchen
(Stufenkombinationen/Beobachtungen).
Man erhält diese durch Entfernen verschiedener
Kontraste/Stufenkombinationen aus dem zugehörigen
vollständigen 2k -Design
Im Fall
I
I
p = 1 spricht man von einem One-Half-Fraction eines 2k -Designs
p = 2 spricht man von einem One-Quarter-Fraction eines
2k -Designs
Hierbei können für p < k − 1 nicht nur die Haupteffekte sondern
auch bestimmte Wechselwirkungen mit untersucht werden.
Mehr Details und Theorie u.U. in späteren Teilen der Vorlesung.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Fraktioniert faktorielle 2k −p -Designs – Beispiel
Beispiel für k = 3 und p = 1. Es werden die roten Kontraste des 2k
Designs entfernt,
Stufenkombinationen
1
a
b
ab
c
ac
bc
abc
I
+1
+1
+1
+1
+1
+1
+1
+1
A
-1
+1
-1
+1
-1
+1
-1
+1
B
-1
-1
+1
+1
-1
-1
+1
+1
Effekte
AB
C
+1
-1
-1
-1
-1
-1
+1
-1
+1 +1
-1
+1
-1
+1
+1 +1
AC
+1
-1
+1
-1
-1
+1
-1
+1
BC
+1
+1
-1
-1
-1
-1
+1
+1
ABC
-1
+1
+1
-1
+1
-1
-1
+1
d.h. man verwendet nur die Kontraste a,b,c und abc (d.h. die mit einer
“+1” in der ABC-Spalte)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Fraktioniert faktorielle 2k −p -Designs – Beispiel
Im obigen Beispiel schätzt man also den Effekt von A durch
a − b − c + abc
.
2
Dies ist für die vorliegenden vier Stufenkombinationen auch
gleichzeitig ein Schätzer für die Wechselwirkung BC
(Spaltenvergleich!)
Man schätzt hier also eigentlich den (confounded) Effekt A + BC!
Bemerkung: Führt man 2 verschiedene Hälften eines
2k −1 -Designs hintereinander durch, so kann man diese zum
Schätzen aller Effekte wie im 2k -Design zusammenlegen.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
3k und q k Designs
q k Designs sind Versuchspläne mit k Faktoren, die alle genau q
Stufen besitzen.
Als wichtiger Spezialfall ist hierbei q = 3 geläufig, bei dem man
zusätzlich zu zwei extremen Stufen (“hoch” und “niedrig”) noch
eine mittlere Stufe verwendet.
Da man hierfür bei einem vollständigen Plan für eine einfache
Durchführung dieses Designs N = q k Beobachtungen benötigt,
sind auch hier wieder fraktionierte q k −p Pläne geläufig.
Ist q eine Primzahl, so lassen sich diese auch sehr leicht aus den
vollständigen q k -Pläne wie im Fall q = 2 erzeugen.
⇒ Verwendung bei Modellen mit quadratischen (q = 3) Termen oder
noch höheren Potenzen.
Die Auswertung geschieht dabei wieder analog zum
mehrfaktoriellen Fall.
Mehr Details u.U. in späteren Teilen der Vorlesung.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Kapitel 9:
Mehrfaktorielle Experimente mit
geblockten Störfaktoren
Vorwort
Allgemein ist Blocking eine Technik zur Kontrolle von Störfaktoren
Blocking in einfaktoriellen Experimenten hatten wir in Kapitel 6 besprochen.
Dabei haben wir verschiedene Pläne kennengelernt, die im Hinblick auf einen
oder mehrere Störfaktoren blocken können
Erinnerung aus Kapitel 6:
I Störfaktoren sind Faktoren, deren Einfluss im Versuch nicht interessiert.
Da sie jedoch Einfluss auf die Zielgröße nehmen können, soll ihre
Variabilität möglichst gering gehalten/ kontrolliert werden
I Grundidee bei der Blockbildung: Bilde homogene Blöcke/Gruppen, für die
die Variabilität des bekannten Störfaktors innerhalb eines Blocks sehr
gering ist. Die Variabilität zwischen den Blöcken kann dabei groß sein
Blocking erfolgt dabei z.B. nach Zeit oder physikalischen Gründen
In diesem Abschnitt betrachten wir nun analog Blockpläne bei zwei und mehr
Faktoren von Interesse, wobei wir nur von einem Blockfaktor ausgehen.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel 9.1 (Organisation und Lernen): Aus Ünlü (2011): Wir greifen
nochmal Beispiel 8.2. eines wiederholten 22 -Versuchsplans auf, bei dem man eine
Reihe von Wörtern, die man vorher gehört hat, wiedergeben soll. Die Lernreihe
bestand dabei aus 60 zweisilbigen Wörtern.
Die Wörter wurden auf einem Tonband mit einem Abstand von ca. drei
Sekunden nacheinander abgespielt.
Dabei ließen sich je 15 Wörter einer von vier Kategorien (Tiere, Vornamen,
Nahrungsmittel, Werkzeuge) zuordnen.
Die Wörter wurden einmal zufällig ungeordnet und einmal in geordneter
Reihenfolge (Faktor A) abgespielt.
Als weitere Versuchsbedingung wurde vor Darbietung der Wörter ein Hinweis
auf die Kategorien gegeben, unter der anderen Bedingung nicht (Faktor B).
Das vorliegende Experiment wurde insgesamt 5x wiederholt, so dass der
Stichprobenumfang insgesamt N = 20 betrug (22 = 4 Versuchspersonen (eine
Person für eine Bedingung) pro Durchführung). Die Probanden wurden dabei
zufällig den verschiedenen Bedingungskombinationen zugeteilt.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Fortsetzung des Beispiels
Bei dieser kleinen Stichprobengröße (5 Versuchspersonen pro
Faktorkombination) kann es natürlich passieren, dass in einer
Gruppe (5 Personen mit der gleichen Faktorkombination) durch
Zufall vier der fünf Personen ein überdurchschnittlich gutes
Gedächtnis hatten, in einer anderen dagegen genau umgekehrt.
Diese interindividuellen Unterschiede (Störfaktor) können
natürlich die Ergebnisse verfälschen.
Als Lösung könnte man entweder die Stichprobengröße erhöhen,
oder aber (effizienter) eine Blocktechnik verwenden, die die
Vergleichbarkeit (Homogenität) der Versuchsgruppen vergrößert.
Wir diskutieren dies im Folgenden am vorliegenden Beispiel...
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Fortsetzung des Beispiels – Parallelisierung
Eine einfache Möglichkeit bestünde darin, in Vortests die
Gedächtnisleistung aller 20 Teilnehmer zu überprüfen.
Vorsicht: Dieser Vortest sollte sich sehr deutlich vom
Hauptversuch unterscheiden, damit mögliche Testeffekte (als
neuer Störfaktor) vernachlässigbar sind!
Basierend auf den Vortest Ergebnissen könnte man dann eine
Reihenfolge (Ränge/Platzierungen) der 20 Versuchspersonen
festlegen und aus je 4 benachbarten Rängen die 5 Blöcke bilden.
Die Faktorkombination würde man innerhalb jedes Blocks
randomisiert zuweisen.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Fortsetzung des Beispiels – Wiederholungsmessung
Wir hatten auch Wiederholungsmessung (an den Personen) als Form der
Blockbildung kennengelernt.
Wäre das im vorliegenden Beispiel sinnvoll?
Eher nicht, denn dies würde genau genommen bedeuten, dass alle
Versuchspersonen alle vier Faktorkombinationen “ausprobiert” hätten; und zwar
jedes Mal mit der gleichen Wortreihe!
⇒ Hier treten enorme Übertragungseffekte (carry-over effects) bzw. Lerneffekte
auf, die sich sicherlich auch nicht durch Variation der Reihenfolge o.ä.
ausschalten ließen.
Nichtsdestotrotz stellen Wiederholungsmessungen eine sinnvolle Technik bei
mehrfaktoriellen Versuchsanlagen (mit anderer Fragestellung) dar; insbesondere
aufgrund der relativ geringen Anzahl an benötigten Versuchspersonen im
Vergleich zum Versuch ohne Blockbildung. Dieser Vorteil verstärkt sich noch mit
der Anzahl an Stufen und Faktoren.
In dem Fall kann Parallelisierung eher zu umständlich sein.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Fortsetzung des Beispiels – Versuchsplan
Der Versuchsplan des Beispiels mit den fünf Blöcken a vier Versuchseinheiten
ließe sich nun so darstellen:
Block
1
..
.
5
Faktor A
1
2
..
.
1
2
Faktor B
1
2
V111 V121
V211 V221
..
..
.
.
V115 V125
V215 V225
Dabei wird die Zuweisung zu den Faktorstufenkombinationen innerhalb jedes
Blocks randomisiert. Für den Fall der Parallelisierung gehören die Einträge
innerhalb eines Blocks zu einer jeweils anderen Versuchseinheit; in einem Plan
mit Wiederholungsmessungen würden die Einträge zu derselben
Versuchseinheit gehören.
Analog ergibt sich der Versuchsplan für 2 Faktoren A und B mit a bzw. b Stufen
und n homogenen Blöcken als...
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Versuchsplan im 2-faktoriellen Blockdesign
Block
1
..
.
..
.
n
Faktor A
1
..
.
a
..
.
..
.
1
..
.
a
Faktor B
1
···
b
V111 · · · V1b1
..
..
..
.
.
.
Va11 · · · Vab1
..
..
..
.
.
.
..
..
..
.
.
.
V11n · · · V1bn
..
..
..
.
.
.
Va1n · · · Vabn
Der letzte Index der VE gibt dabei die Blockzugehörigkeit an; die anderen beiden
die Stufe der Faktoren A bzw. B.
Die Zuweisung innerhalb der Blöcke erfolgt wiederum randomisiert
⇒ Completely Randomized 2-Factorial Block Design (RCBD-ab).
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Modellierung im 2-faktoriellen Blockdesign
Wir betrachten zunächst das Modell eines balancierten randomisierten
2-faktoriellen Designs mit unabhängigen Beobachtungen:
Yijk = µ + αi + βj + γij + ijk
1 ≤ i ≤ a, 1 ≤ j ≤ b, 1 ≤ k ≤ n.
Beispiel: Wir wollen an einem bestimmten Materialblock jeweils n Experimente
mit allen Faktorkombinationen durchführen. Leider stellen wir fest, dass nicht
genügend Blöcke aus derselben Charge vorhanden sind, um alle abn Versuche
durchzuführen; allerdings können an einem Block ab Versuche durchgeführt
werden. Aus diesem Grund ordern wir jeweils einen Materialblock von n
verschiedenen Chargen und führen an jedem Block die ab Faktorkombinationen
durch.
Dies führt auf ein RCBD-ab mit zugehörigem statistischen Modell
Yijk = µ + αi + βj + γij + δk + ijk
1 ≤ i ≤ a, 1 ≤ j ≤ b, 1 ≤ k ≤ n,
in dem δk ∼ N(0, σδ2 ) den Effekt des k -ten Blocks beschreibt und wir implizit
angenommen haben, dass keine Blockinteraktionen vorliegen. Der Blockeffekt
wird typischerweise zufällig und unabhängig von den ijk ∼ N(0, σ 2 ) modelliert.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Hypothesen im RCBD-ab
Hypothesen von Interesse sind genau dieselben wie im CR2F:
H0 (A) : {αi = 0 für alle i = 1, . . . , a}
H0 (B) : {βj = 0 für alle j = 1, . . . , b}
H0 (AB) : {γij = 0 für alle i = 1, . . . , a, j = 1, . . . , b}.
Diese testet man wiederum mittels entsprechender F -Tests, wobei
sich die Freiheitsgrade durch den Blockfaktor leicht ändern wie die
folgende Varianzanalyse-Tabelle für den RCBD-ab zeigt 34 ...
34
Eine ganz kurze Herleitung erfolgt später im Rahmen der gemischten Modelle
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Varianzanalyse-Tabelle für den RCBD-ab
Faktor
Block
Quadratform
n 2
X
ab
Y ··k − Y ···
Rang r
E(Q/r )
n−1
σ 2 + ab · σδ2
A
a 2
X
nb
Y i·· − Y ···
a−1
2
σ 2 + nb · σα
b−1
σ 2 + na · σβ2
(a − 1)(b − 1)
σ 2 + n · σγ2
(ab − 1)(n − 1)
σ2
1 Pa
1 Pb
2
2
2
i=1 αi , σβ = b−1
j=1 βj
a−1
P
P
a
b
1
2
i=1
j=1 γij .
(a−1)(b−1)
und
k =1
B
AB
na
i=1
b X
Y ·j· − Y ···
j=1
a X
b X
2
Y ij· − Y i·· − Y ·j· + Y ···
2
i=1 j=1
a X
b X
n X
Yijk − Y ij·
2
i=1 j=1 k =1
Dabei gilt wieder σα2 =
σγ2
Markus Pauly (University of Ulm)
=
Versuchplanung
Sommersemester 2015
Bemerkungen
Unter den Hypothesen H0 (A), H0 (B) bzw. H0 (AB) schätzen die
Quadratformen für die Faktoren A, B bzw. AB wieder dieselbe
Varianz σ 2 wie die Quadratform der Residuen in der letzten Zeile
der Tabelle.
Die entsprechenden F -Tests zum Testen von
H0 (C), C ∈ {A, B, AB} kann man wiederum symbolisch
aufschreiben:
Quadratform(C)/r (C)
Quadratform( ) / (ab(n − 1))
H0 (C)
∼
F (r (C), (ab − 1)(n − 1) )
Die einzige Änderungen bei der Auswertung im Vergleich zum
CRF-ab liegt also im zweiten Freiheitsgrad.
Voraussetzung hierbei war stets, dass die Faktoreffekte fest sind;
der Blockeffekt zufällig; und dass keine Blockinteraktionen
vorliegen.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Auf analoge Art und Weise erhält man Versuchspläne mit einem
Blockfaktor und deren Auswertung auch für höherfaktorielle
Blockdesigns.
Ein Beispiel für den RCBD-abc gibt es zum Abschluss auf der
nächsten Folie
Möchte man wie bei Lateinischen Quadraten oder Graeco
Lateinischen Quadraten in mehr als eine Richtung blocken,
Blockinteraktionen und zufällige Faktoreffekte zulassen, so erhält
man weitere Versuchspläne, auf die wir aber hier nicht mehr näher
eingehen.
Zum Teil werden diese später im Rahmen von Linearen Modellen
mit gemischten und zufälligen Faktoren (Mixed and Random
Effects Models) abgedeckt.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Versuchsplan im 3-faktoriellen Blockdesign
Block
Faktor A
1
1
.
.
.
a
.
.
.
.
.
.
1
n
.
.
.
a
Markus Pauly (University of Ulm)
Faktor B
1
.
.
.
b
.
.
.
1
.
.
.
b
1
V1111
.
.
.
V11b1
.
.
.
V1a11
.
.
.
V1ab1
.
.
.
1
.
.
.
b
.
.
.
1
.
.
.
b
.
.
.
Vn111
.
.
.
V11b1
.
.
.
Vna11
.
.
.
Vnab1
Versuchplanung
Faktor C
···
···
.
.
.
···
.
.
.
···
.
.
.
···
.
.
.
···
.
.
.
···
.
.
.
···
.
.
.
···
c
V111c
.
.
.
V11bc
.
.
.
V1a1c
.
.
.
V1abc
.
.
.
Vn11c
.
.
.
V11bc
.
.
.
Vna1c
.
.
.
Vnabc
Sommersemester 2015
Kapitel 10:
Hierarchische und Split-Plot Designs
In diesem Abschnitt lernen wir zwei weitere, fortgeschrittenere
Versuchspläne kennen, die häufig angewendet werden
I
I
Hierarchische bzw. verschachtelte bzw. nested Designs und
Split-Plot Designs
Vorwort: In den meisten, der bisher betrachteten Versuchsplänen,
waren die Stufen der interessierenden Faktoren untereinander
(vollständig35 ) gekreuzt.
In vielen Fällen ist dies aber gar nicht möglich. Möchte man
beispielsweise die Länder (Faktor A) Deutschland und Österreich
miteinander vergleichen, so sollte man als weiteren Faktor
wenigstens auf die zugehörigen Bundesländer (Faktor B)
schauen, um genauere lokale Unterschiede zu berücksichtigen
In diesem Fall können nicht alle 25 (=16+9) Stufen des Faktors B
mit den Stufen des Faktors Land kombiniert werden. Man sagt B
ist unter A verschachtelt.
35
Ausnahme hierbei war z.B. das Incomplete Block Design.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Anordnung der Faktoren
Definition 10.1 (Faktorenanordnungen und erste Designs):
(a) Die spezielle unvollständige Anordnung, die als
’Kronecker-Summe’ der Kombinationen der Faktorstufen
darstellbar ist, heißt hierarchische Anordnung oder auch
Schachtel-Modell (hierarchische Klassifikation). Hierbei heißt ein
Faktor verschachtelt unter einem anderen Faktor, wenn jede
seiner Stufen genau einer Stufe des anderen Faktors zugeordnet
ist
(b) Versuchsanlagen, bei denen zwei (oder mehrere) Faktoren
untereinander gekreuzt sind und ein weiterer Faktor (oder auch
mehrere) mit einem Teil dieser Faktoren ebenfalls gekreuzt, unter
den anderen Faktoren aber verschachtelt ist, heißen partiell
hierarchisch.
Wir betrachten zuerst Teil (a) und greifen (b) im Rahmen der
Split-Plot-Designs wieder auf.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Übersicht: Gekreuzt und verschachtelte Faktoren
Anordnung der Faktoren
gekreuzte Faktoren (Kreuzklassifikation)
I
I
I
I
I
Kombination der Stufen bildet kartesisches Produkt
vollständig gekreuzt = alle Kombinationen kommen vor
unvollständig = sonst
männliche und weibliche Patienten erhalten Verum und Placebo
in jedem Zentrum (Schicht) Standardtherapie und neue Therapie
verschachtelte Faktoren (hierarchische Klassifikation)
I
I
I
I
jede Stufe des verschachtelten Faktors kann genau einer Stufe des
anderen Faktors zugeordnet werden
Landkreis ist unter Bundesland verschachtelt
Versuchstiere sind unter der Behandlung verschachtelt
Doppelmessungen sind unter den Patienten verschachtelt
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel: Knochenschrauben
Beispiel 10.1 (Knochenschrauben-Studie): Ein Unternehmen besitzt fünf
verschiedene Langdrehautomaten (Faktor A) zur Herstellung von Knochenschrauben
aus Titan. Jede dieser Maschinen wird von zwei verschiedenen Mechanikern 36
(Faktor B) betrieben. Die folgende Tabelle erhält die Durchmesser von jeweils einer
erstellten Schraube (Norm: 12mm)
Maschine
1
2
3
4
5
36
Mechaniker
1
2
3
4
5
6
7
8
9
10
Beobachtung in mm
12.5
12.6
11.8
12.1
12.0
11.9
12.8
12.7
12.5
12.6
1x Tag- und 1x Nachtschicht
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel: Oberflächen-Volumen-Verhältnis
Beispiel 10.2 (OVV-Studie): Zur Untersuchung des protektiven
Effektes der Bretschneiderschen HTK-Lösung37 wurden bei 10
Hunden die AV-Knoten des Herzens untersucht. Fünf Herzen wurden
unter reiner Ischämie (Kontrolle) untersucht, die fünf anderen Herzen
wurden mit der HKT-Lösung perfundiert; bei randomisierter Zuordnung
Ein wichtiger Parameter bei diesem Experiment ist das
Oberflächen-Volumen-Verhältnis (SV R) der Mitochondrien im
AV-Knoten des Herzens. Zur genaueren Bestimmung dieses
Verhältnisses wurden bei jedem Knoten drei Schnitte im Abstand von
50µm angefertigt und SV R nach der Methode von Weibel bestimmt.
Die Ergebnisse entnehmen wir der folgenden Tabellen:
37
Kardioplegischer Lösung, die u.a. bei Organtransplanatationen und zur
künstlichen Herbeiführtung eines Herzstillstand bei bestimmten Operationen
verwendet wird
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel: Oberflächen-Volumen-Verhältnis
Oberflächen-Volumen-Verhältnis (SV R) [µm2 /µm3 ]
Reine Ischämie
HTK-Lösung
Hund Schnitt SV R
Hund Schnitt
SV R
1
8.19
1
9.06
1
2
8.23
6
2
9.38
3
7.91
3
9.27
1
7.47
1
9.13
2
2
8.20
7
2
9.39
3
7.93
3
9.22
1
7.46
1
9.24
3
2
7.89
8
2
9.18
3
7.86
3
9.84
1
8.71
1
9.64
4
2
7.90
9
2
9.36
3
8.49
3
9.69
1
7.65
1
9.90
5
2
7.98
10
2
9.86
3
8.03
3
9.77
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Bemerkungen
Dies sind beides hierarchische Designs mit 2 Faktoren (B ist unter
A verschachtelt) bzw. zweifaktorielle hierarchische Pläne
(CRHF-b(a)).
Im ersten Beispiel sind die Mechaniker unter den Maschinen
verschachtelt! Bemerke: Wenn uns der Effekt der Schicht
interessieren würde, hätten wir ein gekreuztes 2-faktorielles
Design!
Im zweiten Beispiel ist der Hund unter der Behandlung
verschachtelt.
Diskussion: Welche Faktoren sind fest, welche zufällig?
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Der zweifaktorielle hierarchische Plan (CRHF-b(a))
Die Abkürzung CRH2F steht für ’Completely Randomized
Hierarchical 2-Factorial Design’.
Wir sehen die Versuchseinheiten als Stufen des Faktors B an.
Da man in der Regel die Aussagen des Versuchs nicht nur für die
im Versuch verwendeten Versuchseinheiten (Mechaniker/Hunde)
treffen möchte sondern auf die Grundgesamtheit der
Versuchseinheiten verallgemeinern möchte, wird man den Faktor
‘Versuchseinheit’ häufig als zufällig ansehen. In diesem Fall
werden von den ab möglichen Versuchseinheiten beim
CRHF-b(a) zufällig b ausgewählt und den a Stufen des Faktors A
(zufällig) zugeteilt.
Dies führt auf den folgenden balancierten Versuchsplan
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Der zweifaktorielle hierarchische Plan (CRHF-b(a))
Faktor B
Faktor
1 ···
A
1
V11 · · ·
2
..
.
b
b + 1 ···
2b
···
V2b
···
(a − 1)b + 1 · · ·
ab
···
Vab
V1b
V21
..
a
.
Va1
Der Faktor B ist unter dem Faktor A verschachtelt.
Analog erhält man unbalancierte CRHF-b(a) Pläne, bei denen
unter Stufe i von Faktor A u.U. verschieden viele Stufen bi des
Faktors B verschachtelt sind. Im obigen Plan gilt bi ≡ b.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Modell für den zweifaktoriellen hierarchischen Plan
(feste Faktoren)
CRHF-b(a) im balancierten Fall bei zwei festen Faktoren:
Yijk
= µij + ijk
i = 1, . . . , a; j = 1, . . . , b; k = 1, . . . , n
= µ + αi + βj(i) + ijk .
i.i.d
Wie üblich nehmen wir dabei an, dass ijk ∼ N(0, σ 2 ) sowie
P
a
i=1 αi = 0.
Für den Effekt βj(i) gilt in diesem Fall
I
Pb
j=1
βj(i) = 0 , i = 1, . . . , a (da B fester Faktor).
Bemerke: Da B unter A verschachtelt ist, treten hierbei keine
Interaktionen zwischen den Faktoren auf!
Im unbalancierten Fall läuft der Index j(i) = 1, . . . , bi in
Abhängigkeit von i und man erhält das Modell...
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Der CRHF-b(a) unbalanciert
Statistisches Modell
Yijk
I
I
I
I
I
= µij + ijk = µ + αi + βj(i) + ijk
i.i.d
mit µij = E(Yijk ), ijk ∼ N(0, σ 2 )
Faktor A: i = 1, . . . , a Stufen
Faktor B: j = 1, . . . , bi Stufen in Stufe i des Faktors A
Versuchsfehler: k = 1, . . . , nij unabhängige Wiederholungen
Pa Pbi
N = i=1 j=1
nij gesamte Anzahl der Versuchseinheiten
Matrizenschreibweise


I
bi
a M
M
Y = 
1nij  µ + = X µ + i=1 j=1
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Der zweifaktorielle hierarchische Plan (CRHF-b(a))
Interpretation
I
Komponentenschreibweise
µij = µ·· + αi + βj(i) ,
αi
βj(i)
= µi· − µ·· ,
= µij − µi·
i = 1, . . . , a, j = 1, . . . , bi
i = 1, . . . , a
j = 1, . . . , bi und i = 1, . . . , a
Hypothesen (bei zwei festen Faktoren)
I
kein Kategorie-Effekt38 H0 (A) :
{αi = 0, i = 1, . . . , a} = {Pa diag(b1−1 10b1 , . . . , ba−1 10ba )µ = 0}
I
kein Subkategorie-Effekt H0 (B(A)) :
{βj(i) = 0, ∀1 ≤ i ≤ a, 1 ≤ j ≤ bi } = {diag(Pb1 , . . . , Pba )µ = 0}
Anmerkung
I
I
38
es gibt keinen Haupteffekt des Faktors B
es gibt keine Wechselwirkung zwischen A und B
mit µ = (µ11 , . . . , µ1b1 . . . , µa1 , . . . µaba )0
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Varianzanalyse-Tabelle für den CRHF-b(a)
Varianztabelle für den balancierten39 CRHF-b(a) (feste Faktoren)
Faktor
A
Matrix
Quadratform
Pa ⊗ b1 Jb ⊗ n1 Jn
nb
a
X
Y i·· − Y ···
2
Rang
E(Q/r )
a−1
σ 2 + nb · σ 2α
a(b − 1)
2
σ 2 + n · σβ(α)
i=1
B(A)
Ia ⊗ Pb ⊗ n1 Jn
n
a X
b
X
Y ij· − Y i··
2
i=1 j=1
a X
b X
n
X
Ia ⊗ Ib ⊗ Pn
Yijk − Y ij·
2
ab(n − 1) σ 2
i=1 j=1 k =1
Dabei gilt
a
σ 2α =
1 X 2
αi
a−1
a
2
und σβ(α)
=
i=1
39
b
XX
1
2
βi(j)
a(b − 1)
i=1 j=1
ähnliche Größen im unbalancierten mit obigen Matrizen zur Übung
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Modell für den zweifaktoriellen hierarchischen Plan
(mixed model)
CRHF-b(a) im balancierten Fall bei festem Faktor A und
zufälligem Faktor B
Yijk
= µ + αi + βj(i) + ijk ,
1 ≤ i ≤ a; 1 ≤ j ≤ b; 1 ≤ k ≤ n.
Annahmen:
I
Pa
I
die Zufallsvartiablen βj(i) und ijk sind unabhängig
i=1 αi = 0, µi = µ + αi = E(Yijk ), i = 1, . . . , a
i.i.d
2
I β
j(i) ∼ N(0, σβ ) zufälliger Faktor
i.i.d
2
I ijk ∼ N(0, σ ) unabhängige Versuchsfehler
- fester Effekt
Spezialfall Repeated Measures oder auch Clusterdaten:
I
I
mehrere Messungen an derselben Versuchseinheit
hier: unter gleichen Bedingungen / Behandlungen i = 1, . . . , a
(um z.B. genauere Messungen zu erhalten)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Hierarchisches Versuchsschema bei Repeated
Measures
Faktor A fest, Faktor B zufällig - B unter A verschachtelt: B(A)
Beispiel
I
Zwei unverbundene Stichproben (balanciert) mit je 3
Messwiederholungen:
1
V11
V12
..
.
V1n
Markus Pauly (University of Ulm)
2
x
x
x
x
x
x
..
.
x
x
x
V21
V22
..
.
V2n
Versuchplanung
x
x
x
x
x
x
..
.
x
x
x
Sommersemester 2015
Varianzanalyse-Tabelle für den CRHF-b(a)
Varianztabelle für den balancierten CRHF-b(a) (mixed model)
Faktor Quadratform
A
nb
a
X
Y i·· − Y ···
2
Rang
E(Q/r )
a−1
σ 2 + nb · σ 2α + n · σβ2
a(b − 1)
σ 2 + n · σβ2
i=1
B(A)
n
a X
b
X
Y ij· − Y i··
2
i=1 j=1
a X
b X
n
X
Yijk − Y ij·
2
ab(n − 1) σ 2
i=1 j=1 k =1
1 Pa
2 und Var (β
2
Dabei gilt wieder σ 2α = a−1
j(i) ) = σβ .
i=1 αi
Bem: Zum Testen von H0 (A) : {αi = 0, i = 1, . . . , a} kann hier der
Quotient von Q(A) und Q(B(A)) verwendet werden! Details und
H0 (B(A)) im mixed model im nächsten Kapitel.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Varianzanalyse-Tabelle für den CRHF-b(a)
Für Situationen, in denen der Faktor A auch noch zufällig ist,
i.i.d.
modelliert man diesen als αi ∼ N(0, σα2 ) und erhält eine
Varianztabelle für den balancierten CRHF-b(a) (random model)
Faktor
A
Quadratform
nb
a
X
Y i·· − Y ···
2
Rang
E(Q/r )
a−1
σ 2 + nb · σα2 + n · σβ2
a(b − 1)
σ 2 + n · σβ2
i=1
B(A)
n
a X
b
X
Y ij· − Y i··
i=1 j=1
a X
b X
n
X
2
Yijk − Y ij·
2
ab(n − 1) σ 2
i=1 j=1 k =1
In diesem Fall testet man typischerweise Nullhypothesen über die
Varianzen der Faktoren; Details im nächsten Kapitel.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Der Split-Plot Plan (SP-a.b)
Dies ist ein partiell hierarchischer Plan.
Die Faktoren A und C sind mit dem Faktor B gekreuzt, der Faktor
C ist unter dem Faktor A verschachtelt.
Jede Versuchseinheit ist eine Stufe des Faktors C
⇒ C ist hier typischerweise zufällig (Probanden etc.)
P
Die zugehörigen N = ai=1 ni Versuchseinheiten werden zufällig
den a Stufen von A zugeteilt
Einsatz in der Biometrie (u.a.): Man untersucht die Zeitverläufe
von 1 ≤ i ≤ a unabhängigen Stichproben mit jeweils k = 1, . . . , ni
unabhängigen Individuen mit je 1 ≤ j ≤ b Repeated Measures
Versuchsplan...
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Der Split-Plot Plan (SP-a.b)
Anschaulich mit ni ≡ n
Faktor B
Faktor
A
1
Faktor
C
1
..
.
..
.
n
..
.
a
(a − 1)n + 1
..
.
an
Markus Pauly (University of Ulm)
Versuchplanung
1
···
V11 · · ·
..
..
.
.
V1n · · ·
..
..
.
.
Va1 · · ·
..
..
.
.
Van · · ·
b
V11
..
.
V1n
..
.
Va1
..
.
Van
Sommersemester 2015
Bemerkungen
Die Bezeichnung Split-Plot-Design hat ihren Ursprung in den
Agrarwissenschaften.
Hier treten in den Experimenten häufig Faktoren auf (wie bspsw.
Bewässerungsmethode), die in der Regel nur für große Teile der
Ländereien (Böden), genannt whole plot, angewendet werden.
Der zugehörige Faktor heißt deshalb auch whole plot factor
(oder main treatment).
Innerhalb eines whole plots wird dann ein weiterer Faktor (wie
Getreidesorte) auf verschiedene, kleinere Teile des Landes
aufgeteilt, indem man die whole plots in kleinere Teile; sog.
subplots (oder split-plots) aufteilt (englisch: splitted). Der
hierzugehörige Faktor heißt dann subplot factor
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel
Zur Überprüfung der Atmungsaktivität von Leukozyten wurde an insgesamt 44
Laborratten folgender Versuch durchgeführt:
I 22 Ratten wurden mit einem Placebo und 22 mit einer Substanz zur
Stärkung der Abwehrkräfte behandelt. (whole-plot Faktor “Behandlung”)
I In weiteren (hier nicht detailliert erklärten) Schritten wurden von jedem Tier
ein leukozythaltiger Versuchsansatz entnommen und
I einer Hälfte des Ansatzes inaktivierte Staphylokokken zugesetzt; die
andere Hälfte blieb unbehandelt (sub-plot Faktor “Staphylokokken”)
I Im Anschluss wurde der O2 -Verbrauch von Leukozyten nach 6, 12 und 18
Minuten gemessen. Die gemittelten Werte entnehmen wir folgender
Tabelle
Placebo
Verum
Markus Pauly (University of Ulm)
Mittlerer O2 -Verbrauch [µ`]
Staphylokokken
mit
ohne
Zeit [in Min]
Zeit [in Min]
6
12
18
6
12
18
1.618 2.434 3.527 1.322 2.430 3.425
1.656 2.799 4.029 1.394
2.57 3.677
Versuchplanung
Sommersemester 2015
Split-Plot Plan – Klassisches Statistisches Modell
Faktoren A und B fest, C zufällig - A × B, C × B, C(A)
Statistisches Modell: Yijk = µij + βk (i) + ijk
I
I
I
I
I
Yik = (Yik 1 , . . . , Yikb )0 , - k = 1, . . . , n unabhängige ZVektoren
µij = E(Yijk ), i = 1, . . . , a; j = 1, . . . , b - feste Effekte
i.i.d
βk (i) ∼ N(0, σβ2 ), k = 1, . . . , an
i.i.d
- zufälliger Effekt
2
ijk ∼ N(0, σ ), i, j, k Versuchsfehler
Die Zufallsvariablen βk (i) und ijk sind unabhängig
Konsequenz
I
I
I
I
I
Var (Yijk ) = σβ2 + σ 2 für alle i, j, k Behandlungen und VE gleich
Cov (Yijk , Yij 0 k ) = σβ2 für alle Paare (j, j 0 ), j 6= j 0 = 1, . . . , b
Cov (Yijk , Yij 0 k 0 ) = 0 für verschiedene Versuchseinheiten k 6= k 0
diese Kovarianzstruktur heißt Compound Symmetry und tauchte
auch schon beim RCBD auf
Diese Kovarianzstruktur ist plausibel, wenn man die
Versuchseinheiten physikalisch aufteilen kann; für Verlaufsdaten
jedoch eher unangemessen. Deshalb...
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Split-Plot Plan – Allgemeineres Statistisches Modell
Faktoren A und B fest, C zufällig - A × B, C × B, C(A)
Statistisches Modell: Yik = (Yik 1 , . . . , Yikb )0 ∼ Nb (µi , Vi ),
I
I
I
1 ≤ i ≤ a, 1 ≤ k ≤ n unabhängige ZVektoren mit
Erwartungswertvektor µi und
unstrukturierter Kovarianzmatrix Vi in Gruppe i.
Beispiele für Kovarianzstrukturen für Vi
I
I
I
I
I
V = σ 2 Ib
b
M
V=
σi2
unabhängige homoskedastische Beobachtungen,
unabhängige heteroskedastische Beobachtungen,
i=1
σ 2 Ib
V=
+ ρJb
Compound Symmetry / CS
⇒ Klassisches Modell als Spezialfall mit ρ = σβ2
V = (cij )i,j=1,...,d , cii = σ 2 , cij = σ 2 ρ|i−j|
Autoregressive Struktur
...
Sinnhaftigkeit von Strukturannahmen hängen vom Problem ab!
Deshalb bevorzuge ich das Arbeiten ohne spezifische Annahmen.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Bemerkungen zu Repeated Measures (RM)
Generelle Gesichtspunkte
I
man unterscheidet
F
F
I
Messwiederholungen unter der gleichen Bedingung
(hierarchisches Design; linker Versuchsplan)
Messwiederholungen unter verschiedenen Bedingungen
(Block-Design, Verlaufskurven; rechter Versuchsplan))
beides wird in der Literatur als Clusterdaten bezeichnet
1
V11
V12
..
.
V1n1
2
x
x
x
x
x
x
..
.
x
x
x
V21
V22
..
.
V2n2
Markus Pauly (University of Ulm)
x
x
x
x
x
x
..
.
x
x
x
VE
V1
..
.
Vn
Versuchplanung
Behandlung
1 2 ··· a
x x ··· x
x x ··· x
x x ··· x
.. ..
..
..
. .
.
.
x
x
x
x
x
x
···
···
···
x
x
x
Sommersemester 2015
Allgemeineres Statistisches Modell – Sonderfälle
Unabhängigkeit / Unkorreliertheit
Kovarianzmatrix
 2
σ1 0 · · ·
 0 σ2 · · ·
2

V = .
..
 ..
.
0
0
···

0
0

.. 
.
σb2
Beispiel
I
I
I
Für a = 1:
unabhängige strukturierte Beobachtungen
verschiedene Varianzen in den b unabhängigen Versuchsgruppen
zugelassen
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Allgemeineres Statistisches Modell – Sonderfälle
Compound Symmetry (CS) - Struktur
Kovarianzmatrix
 2
σ +ρ
%
···
σ2 + ρ · · ·
 %
V =  .
..
..
.
%
%
···

%
% 
2
..  = σ Ib + ρJb
.
σ2 + ρ
Beispiel: Klassisches Modell mit additivem Blockeffekt
⇒ Ist praktisch nicht für Zeitverläufe/longitudinalen Daten geeignet,
da zeitlich benachbarte Beobachtungen höhere Korrelationen
aufweisen als weiter auseinanderliegende.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Allgemeineres Statistisches Modell – Sonderfälle
Autoregressive (AR) Kovarianz-Struktur
Kovarianzmatrix

1
%
%2
 %
1
%

2 2
V = σ  %
%
1
..
..
 ..
.
.
.
%a−1 %a−2 %a−3
I
I
Varianz: σ 2
Kovarianz: %i,i+s = σ 2 %s ,
···
···
···
···

%a−1
%a−2 

%a−3 
.. 

.
1
ρ<1
ist eine sog. Toeplitz-Matrix
Beispiel
I
Messungen zu äquidistanten Zeitpunkten bei Zeitverläufen
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Varianzanalyse-Tabelle SP-a.b – klassisches Modell
Erinnerung: A und B sind feste Faktoren und C
(Versuchseinheiten) ein zufälliger Faktor. Dann liegt im
klassischen Modell für die Beobachtungsvektoren
Yik = (Yik 1 , . . . , Yikb )0 eine compound symmetry Struktur vor.
Zum Testen von Nullhypothesen über die Faktoren A und B (die
Effekte sind wieder in µij versteckt), behilft man sich dann
meistens asymptotischer Verfahren. Hierzu müssen die
unbekannten Varianzen σ 2 und σβ2 konsistent geschätzt werden:
Für Yi· = (Y i·1 , . . . , Y i·b )0 definiert man Kovarianzmatrixschätzer
n
a
1Xb
1 X
0
b
b
Vi =
(Yik − Yi· )(Yik − Yi· ) , i = 1, . . . , a, V =
Vi
n−1
a
k =1
i=1
und erhält konsistente40 Schätzer für die unbekannten Varianzen:
1
1 b
b ), σ
Sp(Pb V
b2 + b · σ
bB2 = 10b V
σ
b2 =
1b .
b−1
b
40
ohne Beweis
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Varianzanalyse-Tabelle SP-a.b – klassisches Modell
Insgesamt erhält man im klassischen Modell eine “asymptotische”
Varianztabelle für den balancierten SP-a.b (compound symmetry)
Faktor
HypothesenMatrix H
A
Pa ⊗ b1 10b
B
1 0
1
a a
Quadratform QH
Grenzverteilung
unter H0 : Hµ = 0
a
AB
⊗ Pb
Pa ⊗ Pb
bn X
(Y i·· − Y ··· )2
σ
b2 + σ
bB2 i=1
b
an X
(Y ··s − Y ··· )2
2
σ
b
χ2a−1
n
σ
b2
χ2(a−1)(b−1)
s=1
a X
b
X
(Y i·s − Y i·· − Y ··s + Y ··· )2
χ2b−1
i=1 s=1
Hierbei ist µ = (µ11 , . . . , µab ) und man testet H0 : Hµ = 0 durch
Vergleich von QH mit (1 − α)-Quantilen der jeweiligen Grenzverteilung
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Varianzanalyse-Tabelle SP-a.b – allgemeineres Modell
In diesem Fall mit unbekannten und unstrukturierten
Kovarianzmatrizen behilft man sich auch mit asymptotischen
Methoden.
b i (als Schätzer für
Neben den empirischen Kovarianzmatrizen V
Vi = Cov (Yik )) von oben definiert man hier zudem
b =
Σ
a
M
N
i=1
ni
bi
V
√
L
als konsistenten Schätzer von41 Cov ( N Y· ) = ri=1 nNi Vi und
verwendet zum Testen von H0 : Hµ = 0 eine Statistik vom
Wald-Typ
0
b 0 ]+ HY·
QH = N · Y· H0 [HΣH
Man kann zeigen, dass diese unter H0 asymptotisch χ2r (H) verteilt
ist und erhält so...
41
0
0
Y· = (Y1· , . . . , Ya· )
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Varianzanalyse-Tabelle SP-a.b – allgemeineres Modell
Varianztabelle für den balancierten SP-a.b (allgemeineres Modell)
Faktor
HypothesenMatrix H
Quadratform QH
A
B
AB
Pa ⊗ b1 10b
1 0
1 ⊗ Pb
a a
Pa ⊗ Pb
0
b 0 ]+ HY·
N · Y· H0 [HΣH
0 0
b 0 ]+ HY·
N · Y· H [HΣH
0 0
b 0 ]+ HY·
N · Y· H [HΣH
Grenzverteilung
unter H0 : Hµ = 0
χ2a−1
χ2b−1
χ2(a−1)(b−1)
Hierbei ist wieder µ = (µ11 , . . . , µab ) und man testet H0 : Hµ = 0
durch Vergleich von QH mit (1 − α)-Quantilen der jeweiligen
Grenzverteilung
Allerdings benötigt man große Stichprobenumfänge, damit der
Test nicht zu liberal wird
Besseres Verfahren: Sarahs Permutationstest :)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Erweiterungen
Erweiterungen von Split-Plot Designs sind
Split-Plot Designs mit mehr als zwei Faktoren: Dies tritt z.B. dann
auf, wenn der whole plot und/oder sub-plot Faktor selber noch
eine faktorielle Struktur besitzen. Beispiel: Tageszeiten bei
Messungen über verschiedenen Tage hinweg.
Split-Split-Plot Designs: Hier treten neben whole plot und sub-plot
noch sog. sub-sub-plot Faktoren auf
Strip-Split-Plot Designs: Hier tritt ein Faktor in sog. orthogonalen
Strips auf
Die genaue Definition und Behandlung ist aber nicht Teil dieser
Vorlesung :)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Kapitel 11:
Random Effects und Mixed Models
Vorwort
Wir haben bei den bisherigen statistischen Modellen zwar immer
zwischen den folgenden Designs
I
I
I
mit ausschließlich festen Faktoren (Fixed Effects Model)
mit festen und zufälligen Faktoren (Mixed (Effects) Model)
mit ausschließlich zufälligen Faktoren (Random Effects Model)
unterschieden; allerdings dann auch immer nur Tests für
(Nullhypothesen in) feste(n) Faktoren diskutiert.
Zufällige Faktoren traten z.B. in natürlicher Weise bei RCBD,
RCBD-ab, CRHF-b(a) und SP-a.b auf.
In diesem Kapitel gehen wir zum einen etwas genauer auf die
zugehörigen Modelle ein und diskutieren hierin zum anderen
Möglichkeiten zum Testen von Hypothesen über zufällige
Faktoren.
Wir starten mit einer einfachen Wiederholung
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Feste und zufällige Faktoren
Ein Faktor heißt fest (fixed factor), wenn seine Stufen eindeutig
definierte, wiederholbare Ausprägungen (des Faktors) sind.
W IEDERHOLUNGSREGEL : Ein fester Faktor ist dadurch
charakterisiert, dass bei einer eventuellen Versuchswiederholung
dieselben Faktorstufen verwendet werden würden wie im
vorangegangenen Versuch.
V ERALLGEMEINERUNGSREGEL : Die Aussagen, die auf Grund
eines Versuchs mit festen Faktorstufen gemacht werden, gelten
nur für die im Versuch verwendeten festen Faktorstufen.
Beispiele: Geschlecht, Behandlung, Wochentag
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Feste und zufällige Faktoren
Ein Faktor heißt zufällig (random factor), wenn seine Stufen eine
zufällige Auswahl aus der Grundgesamtheit aller möglichen Stufen
dieses Faktors darstellen (Realisationen des zufälligen Faktors). Die
Stufen dieses Faktors sind nicht beobachtbare Zufallsvariable
(unobservable random variables).
W IEDERHOLUNGSREGEL : Ein zufälliger Faktor ist dadurch
charakterisiert, dass bei einer Versuchswiederholung erneut
zufällig ausgewählte Stufen des Faktors verwendet werden.
V ERALLGEMEINERUNGSREGEL : Die Aussagen, die auf Grund
eines Versuchs mit zufälligen Faktorstufen gemacht werden,
beziehen sich auf die Grundgesamtheit, aus der die im Versuch
verwendeten Faktorstufen zufällig ausgewählt wurden.
Beispiele: Patient, Labortier, Interviewer
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Random Effects Modelle – One Way Case
Wir betrachten zunächst die Random Effects Modelle und starten
mit dem einfaktoriellen Spezialfall, bei dem zufällig a Stufen des
interessierenden Faktors A (mit möglicherweise unendlich vielen
Stufen) ausgewählt werden.
Dies führt auf das (klassische, additive) statistische Modell
Yik = µ + αi + ik ,
I
I
I
I
1 ≤ i ≤ a, 1 ≤ k ≤ n
(11.1)
µ = Globaleffekt
i.i.d.
ik ∼ N(0, σ 2 )= Versuchsfehler und davon unabhängig
i.i.d.
αi ∼ N(0, σα2 ) = Zufälliger Effekt von Stufe i;
mit unbekannten Varianzkomponenten σ 2 , σα2 ∈ (0, ∞)
⇒ Var (Yik ) = σ 2 + σα2 für alle Wahlen von i und k
⇒ Cov (Yik , Yik 0 ) = σα2 für all k 6= k 0 und Cov (Yik , Yi 0 k 0 ) = 0 sonst.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Random Effects Modelle – One Way Case
Das Vorhandensein eines Faktoreffekts wird nun einfach durch
das Testproblem
H0 : {σα2 = 0}
versus H1 : {σα2 > 0}
(11.2)
beschrieben.
Wie bei der One-Way ANOVA im Fixed Effects Model lässt sich
die Gesamtfehlersumme aufschreiben als
SStotal = SStreat + SSerror = n
a
a X
n
X
X
(Y i· − Y ·· )2 +
(Yik − Y i· )2 .
i=1
i=1 k =1
Unter H0 gilt αi = 0 f.s. und man erhält vollkommen analog zum
Modell mit festem Faktor als Teststatistik (N = an):
F =
1
a−1 SStreat
1
(N−a) SSerror
Markus Pauly (University of Ulm)
=:
MStreat H0
∼ F (a − 1, N − a).
MSerror
Versuchplanung
Sommersemester 2015
Random Effects Modelle – One Way Case
Begründung für das Letzte: Die Verteilungen der Beobachtungen
unter den jeweiligen Nullhypothesen sind identisch!
Man kann also denselben F -Test wie bei der One-Way ANOVA mit
festen Faktoren verwenden!
Wir zeigen noch kurz auf, wie sich die unbekannten Varianzkomponenten erwartungstreu schätzen lassen. Sei dazu o.E.
µ = 0, so gilt aufgrund der Zentriertheit aller Zufallsvariablen:
" a n
#
a X
n
X
1
1X X
1
αi + ik )2
E(MStreat ) =
E
(
αi + ik )2 − (
a−1
n
N
i=1 k =1
=
i=1 k =1
1
[Nσα2 + aσ 2 − nσα2 − σ 2 ] = σ 2 + nσα2 .
a−1
Analog erhält man E(MSerror ) = σ 2 .
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Random Effects Modelle – One Way Case
Somit lassen sich die unbekannten Varianzkomponenten durch
σ
b2 = MSerror ,
MStreat − MSerror
σ
bα2 =
n
erwartungstreu schätzen.
(N − a)b
σ 2 /σ 2 ist χ2N−a -verteilt, so dass man 95%-KIs für σ 2 wieder
mittels
(
)
(N
−
a)MS
(N
−
a)MS
error
error
≤ σ2 ≤
σ2 :
χ2N−a;.025
χ2N−a;.975
erhält.
σ
bα2 lässt sich jedoch “nur” als eine Linearkombination zweier
χ2 -verteilter Zufallsvariable schreiben, für die es keine
geschlossene Darstellung gibt. Zugehörige KI erhält man
allerdings über Asymptotik
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Beispiel (Aus Montgomery)
In einer Textilfabrik wird ein bestimmter Stoff auf einer großen
Anzahl von Webmaschinen hergestellt.
Damit der Stoff immer ungefähr die gleiche Stärke hat, sollten sich
die Webmaschinen homogen verhalten.
Zur Überprüfung wurden deshalb zufällig vier Maschinen
ausgewählt und an jeweils vier, von diesen Maschinen
hergestellten Stoffproben, die Stärke (in Gramm pro
Quadratmeter) gemessen. Die Ergebnisse entnehmen wir der
folgenden Tabelle
i=1
98
97
99
96
y1· = 97.5
Markus Pauly (University of Ulm)
Webmaschine
i=2
i=3
91
96
90
95
93
97
92
95
y2· = 91.5 y3· = 95.75
Versuchplanung
i=4
95
96
99
98
y4· = 97
Sommersemester 2015
Beispiel– Ergebnisse
Nimmt man Modell(11.1) an, so erhalten wir als Schätzwerte
σ
b2 = 1.9 sowie σ
bα2 = 6.96, d.h. die Gesamtstreuung
Var (Yik ) = 8.86 im Experiment wird hauptsächlich durch die
verschiedenen Webmaschinen getrieben und ist vermutlich nicht
auf natürliche Schwankungen zurückzuführen.
Diese Beobachtung wird durch die Teststatistik des F -Test auch
signifikant bestätigt: F = 15.68 > 3.490295 = F3,12;.05
Als 95%-KI für σ 2 erhält man hier [0.977, 5.1775] und ein 95%-KI
für den Globaleffekt lässt sich (zur Übung) auch leicht angeben
mittels
"
#
r
MStreat
y ·· ∓ tn−1;.025
= [92.78, 98.1].
an
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Nachteile der Random One-Way ANOVA
Schätzen und Testen der Varianzkomponente σα2 ist
problematisch, da der Schätzer
σ
bα2 =
MStreat − MSerror
n
auch negative Werte annehmen kann! Wähle z.B.
Y11 = 1, Y12 = 5, Y21 = 4, Y22 = 2, so folgt σ
bα2 = −2.5
Wie beim Fixed Effects Modell werden auch hier keine ungleichen
Varianzen zugelassen und die Verteilungsannahmen der
Statistiken
beruhen alle auf einer Normalverteilungsannahme!
Verbesserungen erhält man teilweise durch ML- und REML- (=
restricted maximum likelihood) Schätzer.
Obige Nachteile bleiben bei höherfaktoriellen Random Effects
Modellen gültig! Wir gehen kurz auf den zweifaktoriellen Fall ein
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Random Two-Way Modell
Statistisches Modell
I
(Additives) Random Effects Modell:
Yijk = µ + αi + βj + γij + ijk
(11.3)
u.i.v .
I
αi =
ˆ Zufälliger Haupteffekt von A, αi ∼ N(0, σα2 ), 1 ≤ i ≤ a,
I
βj =
ˆ Zufälliger Haupteffekt B, βj ∼ N(0, σβ2 ), 1 ≤ j ≤ b,
I
γij =
ˆ Zufälliger Interaktionseffekt AB, γij ∼ N(0, σγ2 ),
I
ijk ∼ N(0, σ 2 ) Versuchsfehler, 1 ≤ k ≤ n.
u.i.v .
u.i.v .
u.i.v .
Alle Zufallsvariablen sind unabhängig
Nullhypothesen von Interesse werden wieder über die Varianzen
der Komponenten aufgestellt.
Wie oben berechnet man die Erwartungswerte der Quadratformen
aus der Two-Way-ANOVA mit festen Effekten und erhält folgende
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Varianzanalyse-Tabelle für die Random Two-Way ANOVA
Faktor
1 10
a a
B
AB
Matrix
Pa ⊗ b1 10b
A
⊗ Pb
Pa ⊗ Pb
Quadratform Q(Faktor )
a 2
X
nb
Y i·· − Y ···
na
i=1
b X
Y ·j· − Y ···
2
j=1
a X
b X
Y ij· − Y i·· − Y ·j· + Y ···
i=1 j=1
a X
b X
n X
Yijk − Y ij·
2
2
Rang r
E(Q/r )
a−1
2
2
σ 2 + nb · σα
+ n · σγ
b−1
2
2
σ 2 + na · σβ
+ n · σγ
(a − 1)(b − 1)
2
σ 2 + n · σγ
ab(n − 1)
σ2
i=1 j=1 k =1
Teststatistiken wählt man anhand der letzten Spalte aus, indem man schaut,
welche Quadratformen unter der Nullhypothese die gleiche Varianz schätzen42 :
I Für H0 (A) : {σ 2 = 0}: FA =
α
I Für H0 (B) : {σ 2 = 0}: FB =
β
Q(A)/(a − 1)
Q(AB)/[(a − 1)(b − 1)]
Q(B)/(b − 1)
Q(AB)/[(a − 1)(b − 1)]
I Für H0 (AB) : {σ 2 = 0}: FAB =
γ
42
H0 (A)
∼
H0 (B)
∼
F (a − 1, (a − 1)(b − 1)).
F (b − 1, (a − 1)(b − 1)).
Q(AB)/[(a − 1)(b − 1)] H0 (AB)
∼ F ((a − 1)(b − 1), ab(n − 1)).
Q()/[ab(n − 1)]
Verteilung ohne Beweis
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Random Effects Modelle – Bemerkungen
Für andere Designs mit ausschließlich zufälligen Faktoren kann
man häufig analog vorgehen.
Beispielsweise funktioniert dieser Ansatz auch beim CRHF-b(a)
mit zwei zufälligen Faktoren. Die zugehörige
Varianzanalysetabelle findet sich in Kapitel 9.
Für höherfaktorielle Designs kann es jedoch vorkommen, dass
man keine zwei Quadratformen findet, die unter der Nullhypothese
die gleiche Varianz schätzen.
Dies ist bspsw. bei einer Random Three-Way-ANOVA für die
Nullhypothese H0 (A) der Fall.
In solchen Fällen verwendet man sog. Quasi-F -Tests, bei denen
die Quadratformen geeignet kombiniert werden.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Mixed Two-Way Modell
Wir hatten gemischte Modelle im Rahmen von hierarchischen
Modellen mit einem festen Faktor A und einem darunter
verschachtelten, zufälligen Faktor B kennengelernt. Das
zugehörige Modell im balancierten Fall ist gegeben durch
Yijk
= µ + αi + βj(i) + ijk ,
1 ≤ i ≤ a; 1 ≤ j ≤ b; 1 ≤ k ≤ n,
wobei
I
Pa
I
die Zufallsvariablen βj(i) und ijk sind unabhängig
i=1 αi = 0, µi = µ + αi = E(Yijk ), i = 1, . . . , a
i.i.d
2
I β
j(i) ∼ N(0, σβ ) zufälliger Faktor
i.i.d
2
I ijk ∼ N(0, σ ) unabhängige Versuchsfehler
- fester Effekt
Nullhypothesen von Interesse sind dann
I
I
H0 (A) : {αi = 0 für alle 1 ≤ i ≤ a} und
H0 (B(A)) : {σβ2 = 0}
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Zum Testen geht man genauso vor wie zuvor und berechnet die
Erwartungswerte der Quadratformen aus dem festen Modell wie
folgt (zur Übung)
Varianztabelle für den balancierten CRHF-b(a) (mixed model)
Faktor Quadratform Q(Faktor ) Rang
A
nb
a
X
Y i·· − Y ···
2
E(Q/r )
a−1
σ 2 + nb · σ 2α + n · σβ2
a(b − 1)
σ 2 + n · σβ2
i=1
B(A)
n
a X
b
X
Y ij· − Y i··
2
i=1 j=1
a X
b X
n
X
Yijk − Y ij·
2
ab(n − 1) σ 2
i=1 j=1 k =1
Dabei gilt wieder σ 2α =
Markus Pauly (University of Ulm)
1
a−1
Pa
2
i=1 αi
Versuchplanung
und Var (βj(i) ) = σβ2 .
Sommersemester 2015
Tests im CRHF-b(a) (mixed model)
Durch Abgleich der letzten Spalte erhält man folgende Teststatistiken (Verteilung
ohne Beweis) für
H0 (A) : {αi = 0 für alle 1 ≤ i ≤ a}:
b
FA =
a X
Y i·· − Y ···
2
/(a − 1)
H0 (A)
i=1
a X
b X
∼ F (a − 1, a(b − 1)).
Y ij· − Y i··
2
/[a(b − 1)]
i=1 j=1
H0 (B(A)) : {σβ2 = 0}:
n
FB(A) =
a X
b X
Y ij· − Y i··
2
/[a(b − 1)]
H0 (B(A))
i=1 j=1
a X
b X
n X
Yijk − Y ij·
∼
2
F (a(b − 1), ab(n − 1)).
/[ab(n − 1)]
i=1 j=1 k =1
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Mixed Two-Way Model
Geläufig sind auch gemischte zweifaktorielle, vollständig gekreuzte Modelle der
Form
Yijk = µ + αi + βj + γij + ijk
P
αi =
ˆ Fester Haupteffekt von A,
i αi = 0, 1 ≤ i ≤ a,
I βj =
ˆ Zufälliger Haupteffekt B, βj ∼ N(0, σβ2 ), 1 ≤ j ≤ b,
I γij =
ˆ Zufälliger Interaktionseffekt AB, γij ∼ N(0, σγ2 ),
I ijk ∼ N(0, σ 2 ) Versuchsfehler, 1 ≤ k ≤ n.
Hier gibt es jedoch diverse kontroverse Diskussionen über verschiedene
Annahmen und Verfahren
Bspsw.
nimmt das sog. restriktive Modell an, dass σγ2 von a abhängt, und dass
P
γ
=
0 gilt, so dass die Zufallsvariablen γij nicht mehr unabhängig sind. Die
i ij
βj und ijk werden aber unabhängig modelliert.
Dagegen nimmt das sog. uneingeschränkte Modell nur an, dass alle Variablen
unkorreliert (bzw. unabhängig) sind.
Diese führen zu verschiedenen Tests. In SAS z.B. ist das zweite Modell
voreingestellt, das sich auch im folgenden Rahmen herleiten lässt...
I
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Theorie - Exkurs (Mixed Models)
Zum Abschluss dieses Kapitels gehen wir noch ganz kurz auf die
theoretische Herleitung ein
Ähnlich wie bei den festen Faktoren betrachtet man das folgende
statistische Modell
Y = X1 b + X2 Z + .
I
I
Y = (Y01 , . . . , Y0n )0
Yk = (Yk 1 , . . . , Ykd )0 , k = 1, . . . , n, unabhängig
I
I
I
I
I
I
b:
X1 :
Z:
X2 :
:
(feste) Parameter, z.B. Erwartungswerte; feste Effekte
Strukturmatrix für die festen Effekte
zufällige Effekte (meist nicht beobachtbar)
Strukturmatrix für die zufälligen Effekte
Vektor der Versuchsfehlerterme
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Theorie - Exkurs (Mixed Models)
Idee: Schreibe die Zufallsfaktoren zu den Fehlertermen und
erhalte wieder ein Lineares Modell:
I
I
Y = X1 b + X2 Z + = X1 b + η
| {z }
η
η ∼ N(0, S), S = σ 2 I + X2 Cov (Z)X02
Nun kann man den Parametervektor b schätzen wie zuvor:
I
I
I
I
b = X1 b!
b
Minimiere den Abstand von Y zu Y
Allerdings: Abstand im gemischten Modell muss bezüglich der
Kovarianzstruktur adjustiert werden
b 0 S−1 (Y − Y)
b
verwende den Mahalanobis-Abstand D = (Y − Y)
minimiere D analog zur Vorgehensweise in Kapitel 5.
Lösung:
I
I
I
Normalgleichungen: X01 S−1 X1 Y = X01 S−1 Y
falls X01 S−1 X1 invertierbar ist, gilt
b = (X0 S−1 X1 )−1 X0 S−1 Y
b
1
1
b heißt Verallgemeinerter kleinste Quadrate Schätzer - GLSE
b
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Theorie - Exkurs (Mixed Models)
b
Eigenschaften von b:
I
I
I
b =b
erwartungstreu: E(b)
b haben minimale Varianz
die Komponenten von b
(unter allen erwartungstreuen linearen Schätzern)
b ist BLUE = best linear unbiased estimator
b
b
Zur Anwendung brauchen wir noch die Kovarianzmatrix von b
I
I
I
b = (X0 S−1 X1 )−1
Cov (b)
1
Die Inverse enthält Linearkombinationen der auftretenden
Varianzen σ 2 , σα2 , σβ2 , . . . der zufälligen Komponenten und des
Fehlerterms
Zum Beispiel σ 2 + nσα2
Die Quadratformen dividiert durch die zugehörigen Varianzen
(z.B. σ 2 + nσα2 anstelle von nur σ 2 bei festen Faktoren) sind dann
wieder χ2 -verteilt.
Zum Testen von Hb = 0 sucht man deshalb zwei unabhängige (!)
quadratische Formen, die unter der Nullhypothese die gleiche
Varianz besitzen. Dies führt zu den oben angegebenen F -Tests
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Bemerkungen
Auf ähnliche Art und Weise geht man auch bei den Random
Effects Modellen vor.
Allerdings sollte man nicht vergessen, dass die oben genannten
Probleme (Varianzhomogenität; u.U. negative Varianzschätzer)
beim Testen der zufälligen Komponenten auftreten können.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Kapitel 12:
Spezielle Modelle und deren Auswertung
In diesem Kapitel betrachten wir einige spezielle Methoden, die
bisher eher stiefmütterlich behandelt wurden.
Hierzu zählen u.a.
Binäre Zielgrößen
I
logistische Regression
Mehr als eine Zielgröße
I
I
MANOVA und
Klassifikationsanalyse
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Motivierendes Beispiel: Challenger-Unglück
Am 28.1.1986 explodierte das Space Shuttle
Challenger kurz nach dem Start. Als Ursache
wurde das Versagen der Dichtungsringe
(O-Ringe), die zur Versiegelung der
Verankerung der Feststoff-Booster dienen,
ermittelt.
(Quelle: http://upload.wikimedia.org/wikipedia/commons/
e/e0/Challenger_STS_51_L_launch.JPG)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Motivierendes Beispiel: Challenger-Unglück
Bereits vor dem Start wurden in einer Telefonkonferenz starke Zweifel an der
Zuverlässigkeit der Dichtungsringe bei niedrigen Temperaturen geäußert, und
davor gewarnt, dass es beim Start zu Problemen mit den Dichtungsringen
kommen könnte, da für diesen Tag eine Temperatur von 31 Grad Fahrenheit
(−0.5◦ C) vorhergesagt wurde.
Ja
● ●
●
●
Mind. ein O−Ring hat versagt
●
Nein
● ● ● ● ●
30
40
50
60
70
● ●
● ●
● ●
●
80
Temperatur (in Fahrenheit)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Statistisches Modell
Hier passt kein klassisches lineares Modell!
Beliebte Wahl wäre sonst ja ein (multiples) lineares
Regressionsmodell der Form
Y = β0 + β1 X1 + β2 X2 + . . . + βp Xp + ε,
bei dem Parameter βj ∈ R die j-te Einflussvariable Xj , j = 1, . . . , p
gewichtet.
Begründung?
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Binäre Zielvariable
Häufig ist die interessierende Zielvariable binär. Z.B.
I
Person hat eine Krankheit vs. Person zeigt nicht diese
Krankheit,
I
Kredit wird zurückgezahlt: ja vs. nein.
I
Ausfall eines Dichtungsrings: ja vs. nein.
Dabei werden die beiden Ausprägungen der Zielvariable Y durch
0 und 1 kodiert.
In solchen Fällen interessiert man sich üblicherweise für die
Wahrscheinlichkeit, dass das interessierende Ereignis (z.B. krank
oder Kredit wird zurückgezahlt) eintritt.
Y nimmt also Werte zwischen 0 und 1 an.
β0 + β1 X1 + . . . + βp Xp + ε kann i.d.R. aber Werte in (−∞, ∞)
annehmen.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Logistische Regression
Um ein ähnlich einfaches Modell wie das lineare Modell verwenden zu
können, benötigen wir also eine Transformation von R auf [0, 1].
mit
0.4
exp(η)
1 + exp(η)
0.2
h(η) =
h(η)
0.6
0.8
1.0
Hierzu verwendet man
üblicherweise die logistische
Funktion
0.0
η = β0 + β1 X1 + . . . + βp Xp
= β0 + β 0 X
(X = (X1 , . . . , Xp )0 )
−10
−5
0
5
10
η
Deshalb wird dieses Modell logistisches Regressionsmodell genannt.
Es ist ein Spezialfall der GLMs für binäre Zielvariablen.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Logistische Regression
Dies führt auf das einfache Modell
P(Y = 0|X = x) =
P(Y = 1|X = x) =
1
1 + exp(β0 + β 0 x)
exp(β0 + β 0 x)
1 + exp(β0 + β 0 x)
Der Quotient der beiden WSen wird mit Odds(Y1/0 ) bezeichnet,
so dass das Modell wegen
Logit(Y1/0 ) = log(Odds(Y1/0 )) = β0 + β 0 x
auch häufig als (binäres) Logit-Modell bezeichnet wird.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Zurück zum Beispiel: Challenger-Unglück
Am 28.1.1986 explodierte das Space Shuttle
Challenger kurz nach dem Start. Als Ursache
wurde das Versagen der Dichtungsringe
(O-Ringe), die zur Versiegelung der
Verankerung der Feststoff-Booster dienen,
ermittelt.
(Quelle: http://upload.wikimedia.org/wikipedia/commons/
e/e0/Challenger_STS_51_L_launch.JPG)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Challenger-Unglück
Vor dem Start: Mehrstündige Telefonkonferenz zwischen Experten des
Triebwerkherstellers, der NASA und des Raumflughafens. Da hier nur die
Ausfalldaten (rote Punkte) betrachtet wurden, kam man zu dem Schluss, dass
die Historie keinen Temperatureffekt belegen konnte.
Ja
● ●
●
●
Mind. ein O−Ring hat versagt
●
Nein
● ● ● ● ●
30
40
50
60
70
● ●
● ●
● ●
●
80
Temperatur (in Fahrenheit)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Challenger-Unglück – Modell
Wir wählen nun das einfache Logit-Modell mit
(
1 Versagen mind. eines O-Rings
Y =
0 Ordnungsgemäße Funktion aller O-Ringe
X
= Außentemperatur in Grad Fahrenheit
P(Y = 0|X = x) =
1
1 + exp(β0 + β1 x)
P(Y = 1|X = x) =
exp(β0 + β1 x)
1 + exp(β0 + β1 x)
Gesucht: Schätzer für β = (β0 , β1 ).
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Challenger-Unglück – MLE
Idee: Wähle das β, das den Beobachtungen y1 , . . . , yn die höchste WS
zuordnet. Betr. dazu:
l(x, β) = log
n
Y
P(Yi = yi |X = xi )
i=1
=
n
X
(β0 + β1 xi )yi − log(1 + exp(β0 + β1 xi ))
i=1
Einsetzen der Beobachtungen zeigt eine negativ definite Hesse-Matrix
und Lösen von
!
∇l(x, β) = ( ∂β∂ 0 l(x, β), ∂β∂ 1 l(x, β))0 = 0
liefert den MLE βb = (βb0 , βb1 ) = (15.0429, −0.2322)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Challenger-Unglück – WSen
Wahrscheinlichkeit, dass mind. ein O−Ring versagt
Basierend auf diesem Modell erhält man, dass die WS, dass bei 31
Grad Fahrenheit mind. einer der Dichtungsringe versagt, bei ca.
99.9996% liegt!
1.0
●
● ●
●
●
0.8
0.6
0.4
0.2
0.0
● ● ● ● ●
31
40
50
60
70
● ●
● ●
● ●
●
80
Temperatur (in Fahrenheit)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Challenger-Unglück – Erweitert
Der Ausfall eines Dichtungsrings bedeutet noch nicht, dass es zu
einem Unglück kommt.
Zu jedem primären gehört nämlich auch ein sekundärer
Dichtungsring.
D.h. man interessiert sich für die WS, dass mind. eine
Dichtungsringkombination versagt!
Außerdem
Dichtungsringe können aus verschiedenen Gründen ausfallen
(in den Daten: Erosion oder Blow-by43 )
Diese sollten getrennt voneinander modelliert werden
Zusätzlich könnte man noch weitere erklärende Variablen wie
bspsw. Luftdruck mit aufnehmen und
untersuchen, ob das Modell “vernünftig” fitted.
43
durch zu hohe Temperaturen oder vorbeiströmende Gasen
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Challenger-Unglück – Erweitert
Dies wurde von Dalal et al. (1989, JASA, 84, 945-957) unter
Verwendung komplexerer logistischer Regressionsmodelle
durchgeführt.
Ergebnis: Bei einer Temperatur von 31 Grad Fahrenheit und 200
psi Luftdruck ist die WS, dass mind. eine
Dichtungsringkombination versagt im angepassten Modell
≈ 13%.
Bei einer Verschiebung auf 60 Grad Fahrenheit und gleichem
Luftdruck beträgt die WS dafür ≈ 1.9%.
⇒ Dies hätte im Vorfeld berechnet werden können!
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Prognosen
Allerdings sind üblicherweise Prognosen (weit) außerhalb des
Bereichs der bisher beobachteten Werte (äußerst) problematisch und
sollten (wenn überhaupt, dann) nur mit großer Vorsicht betrachtet
werden.
Theoretisch könnte z.B. auch folgendes Verhalten der Werte vorliegen:
Ja
● ●●
●
●
●
●
● ●
●
●
Mind. ein Versagen
●
Nein
●
●
●● ●
30
●
●
40
● ● ● ● ●
50
60
70
● ●
● ●
● ●
●
80
Temperatur (in Fahrenheit)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Lustige verwandte Beispiele– Liegende Kühe
Nehmen wir an, wir möchten herausfinden, ob die
Wahrscheinlichkeit, dass sich eine Kuh hinlegt, mit der Zeit, die
sie schon steht, steigt.
Zur Analyse dieser Frage beobachten wir eine Reihe von Kühen
und erheben deren Liege- sowie Stehzeiten.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
standing time on Plie were estimated using linear regression. Only probabilities based on at least 100 observations were
included in the regression analyses to avoid effects of data points based on few observations only.
Results A total of 10,814 lying episodes were recorded. Analyses of the (cumulative) frequency distributions of (logtransformed) lying episode lengths suggested that standing bouts were interrupted by an excessive number of short lying
episodes (i.e. < 4 min). Comparison of IceTag™ records with video recordings showed that lying episodes > 4 min did
correspond with lying behaviour, but episodes < 4 min did not (these tended to occur e.g. when a cow was displaced at a
feeder). In contrast, short standing episodes recorded by the sensors did correspond to actual standing behaviour. Lying and
standing bouts were, therefore, calculated by ignoring all lying episodes < 4 min. This decreased the number of episodes by
Aretotal
cowsdaily
more
likely
to(-lie3%).
down
the
longer
they stand?
88%, but it had only minor effects on estimated
lying
time
The
mean
individual
daily number of lying
B J Tolkamp, M J Haskell, C A Morgan, S P Turner
bouts ranged from 7.9 to 15.4 (mean 10.0, SE Scottish
0.7). Individual
mean daily lying time varied from 10.2 to 13.0 h (mean 11.6,
Agricultural College, Edinburgh, United Kingdom
SE 0.33 h). The probability of cows
Introduction Information on (changes in) standing and lying behaviour can be used for oestrus
standing up increased linearly with lying
time (Fig. 1a), as hypothesized. The
probability of cows lying down was,
however, entirely unaffected by standing
time (Fig. 1b), which contradicted our
hypothesis. Disaggregation of the data in
subsets showed that the absence of any
effect of standing time on Plie was not
caused by the pooling of data obtained
during the day and the night or across
individuals with different behavioural
strategies.
Lustige verwandte Beispiele– Liegende Kühe
Die Analyse dieser Daten führte zu
der Erkenntnis, dass je länger eine
Kuh liegt, desto eher steht sie
wieder auf. Wenn sie dann aber
wieder aufgestanden ist, ist es
nicht möglich vorherzusagen, wann
sie sich wieder hinlegen
Figure 1 Thewird.
probability of cows
standing up (Pstand) within 15 min in relation to time lying (a) and the probability of cows lying down (Plie) within 15 min in
relation to time standing (b). Regression lines were fitted to the data indicated by the solid symbols. The regression line in
graph (a) was highly significant (R2 = 0.98, P < 0.001, RSD = 0.021). The regression line in graph (b), however, was not
(R2 = 0.003, P = 0.83, RSD = 0.033).
Sensors can give relevant information on cows’ standing and lying behaviour but the type of sensor used here
Für diese wichtigeConclusions
Erkenntnis
erhielten Tolkamp et al. 2013 den
recorded an excessive number of short lying episodes which must be adjusted for. Determination of a bout criterion that
distinguishes between actual lying bouts and sensor settings suggesting short lying episodes but caused by other factors,
alternativen Nobelpreis
Wahrscheinlichkeitstheorie.
such as sudden für
leg movements,
then allows a meaningful interpretation of the data. The increase in the probability of cows
standing up with lying time was as expected. Cows were, however, not more likely to lie down the longer they were
standing, thereby refuting our second hypothesis. This suggests that the increase in motivation to lie down that has been
observed after lying deprivation (Metz 1985; Munksgaard et al., 2005) may have limited relevance for cows that are not
deliberately lying-deprived.
“Cows can be really boring.”
Acknowledgements SAC receives support from Scottish Government, Rural and Environment Research and Analysis
Directorate.
References
Metz, J.H.M. 1985. Applied Animal Behaviour Science 13, 301-307.
Munksgaard, L. Jensen, M.B., Pedersen, L.W, Hansen, S.J., Mathews, L. 2005. Applied Animal Behaviour Science 92, 3-14.
Bert Tolkamp
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Mehr als eine Zielgröße
In vielen Fällen wird nicht nur eine Zielgröße von Interesse
gemessen!
Es liegen dann multivariate Daten vor, die mit Methoden der
Multivariaten Analysis ausgewertet werden müssen.
Verfahren, die in diesen Bereich fallen sind beispielsweise
I
I
I
I
I
I
Hotelling’sT 2 -Test
Wilk’s MANOVA
PCA
Korrelationsanalysen
Klasssifikation und Diskriminanzanalysen
etc.
Wir betrachten zur Veranschaulichung ein schönes Beispiel
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Entdeckung einer neuen Unterart des Possums
Ross
Cunningham
Markus Pauly (University of Ulm)
Trichosurus
cunninghamii
Versuchplanung
Sommersemester 2015
Entdeckung einer neuen Unterart des Possums
Zoologen wollten die Hundskusus
(Possums) in Australien genauer
untersuchen.
Für die Erhebung der Daten führte ein
Statistiker (Ross Cunningham) die
Studienplanung durch.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Entdeckung einer neuen Unterart des Possums
Bei der explorativen Analyse der Daten fiel Ross Cunningham auf,
dass bei manchen gemessenen Größen zwei Gruppen zu sehen
waren.
●
●●
●
● ●●●
●● ●● ●●
●
●●
● ●●●
●●
●●
●
●●●●●
●●●
●●
●●●
● ●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●● ● ●●
●
●
●
●
●
●●
●
● ●●
●
●
●
●●
●● ● ● ●
●
●
●
●
●● ●●
●
●
●
●
●●
●●●●
●
●●
●● ● ●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●●
●
●
●●●
●
●
●
●●
●●●●
●●
●
●
●
●
●
●
●●
●●●●
●●
●●
●
● ●●
●
●
●●● ●
●
●●
●
● ●●
●●●
●●
●
●●
●
●
●●●●
●● ●
●
●
●
●
●● ●
●
●
●
●●●
●
●
●●
●●
●●
●●
●
●
●
●
●●●
●
●
●
●●●●
●● ●
●●●
●
●● ●●●● ●
●
● ●●
● ●
●●●
●●●●●●●
●●●
●●●● ●
●●
●●
●
●●●●●●●
●●
●● ●●●
●●●
●
●●●
●●
●●
●●●●
●
●●
●
●●
●●
● ●●●●
●●
●● ●
●● ● ●
●● ●
●
●
●●
●
●
●●● ●
●
●
●
●
●
●
●
●●
●●
●
●
●
● ●●●
●
●
●
●●
●●
● ●●●
●
●●●●●
●●
●● ●
●●
●
●
●●
● ●
●●
●●
●
●●
● ●
●
●
●
● ●
●● ●
●
●●
●
●●
●
●●●●●
●
●●
●●
●
●● ●
●
●
●
● ●●●●
●
●
●
●● ●●●●
●
●●
● ●●●
●●
●
●
● ●●●
●
●●
● ●●
●
●● ●
●●●●
●●●●●
●
●
●●● ●●
●●
●
●
● ●
●●
●●●● ●●
●●●
● ●●
●●●
●●●
●●●
●
●●
●●●
●●●
●●
●●●
●
●●●●
●●●
●●●●
●● ●
●●
●●
●●●
●●●●●
●● ● ●
●●
●
●●
●●●
● ●●
●
●●
●
●
●
●●
●
●
●
●● ●●
●●●
●
●
●
●
●●● ●●
●
●●
●
●●
●
●
●●●●●
●
●●
●
●
●
●●
●● ●
●
●
●
●
●●
●
●
●●● ●
●
●
● ●
● ●
●
●● ●
●
●
●●
●● ● ●
●●
●
●
● ●
● ●●●
●●●●
●●●●
●●●
●
●
●●●●●●
●
●● ●
●
●●●
●●●
●●
●●●
●●
●
●●●
●●
●●●
●● ●
●●
● ●●●
●
● ●●
Körper−
größe
●
● ●
●●
●● ●
● ●
● ●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●
● ●
●
●
●
●
●
●●
●
●●
● ●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●●● ●
● ●
●
● ●●
●
●
●●
●
●●
●●
●
●
●
●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●●
●
●
●
●
●
●●●●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●●●●● ●
● ●
●●
●●
●
● ●●
●
●●● ● ●
● ●●●
●●
● ●●●
●●●●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●●
●
●●
●
●●●● ●
● ●●
●●
●
● ●
Schwanz−
länge
●
●●● ●
●●
●
● ●
●●
●● ● ●●
●●
●●●●
●
●
●
●
●
●
●
●
●
●●●
● ●●● ●
●
●
●
●● ●
●
●
●●
●
●●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●● ● ●
●●
●
●●
●
● ●●●●● ●
●
●
●
●
●●
●●●
●●
●●
● ●●
●●● ●●
●
●●
●●●
●
●
●
●
●
●
●
● ●
●●
●
●
●
● ●●●
●●
● ●
●
●
●
●
●●
●
●
●
●●
●
●●
●
●●●
●
●
●●
● ●●● ●●
●
●
●●
●
●●
●
●●●●
●●
●
●●
●
●
●
●● ●●
●●●
●● ●
●●●
●● ●●
●●
●●
●
●
●●
●●
●●
●
●●●
●●
●
●●
●●●●●
●
●
●
●●● ●
●
●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●
●●
●
● ●
● ●●● ●
●
●●
●
●
●●
●
●●● ● ●
●●●
●
●●●
●●●
●
●●●
●
●●
●● ●
●●
● ●
●●●●
●●
●●●●●
●
●●
●
●●●●
●●
●
●●
●●
●
●
●●
●●●● ●
●●
●●●
●● ●●
●
●
●●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●●● ●
●
●
●●
●
●
●
●
● ●●●
●
●● ●
●
●
●
●●
●● ●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●● ● ●
●
●
●
●
●
●
●
●
●
● ●●
●
●●●
●●
●●
●●
●
●●●●●●
●
●
●●
●
●
●●●
●
●
●
● ●
●
● ●●
●
●
●●
●●
● ●
● ●
● ●●
● ● ●●
●
●●
●●
●●
●
●● ●● ●
●
● ●●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●●●●
● ●●
●
●
●●
●
●
●
●
● ●
●● ● ●●
●
●
●
●
●
●●●
●●
●
●
●
●
●●●
●
●
●
●●
●
● ●
●
●●
●
●
●
● ● ●
●
●
● ●●
●●●
●
●●●
●●
●
●
●●●●
●●
●
●●
●●
●●
●
●●
●●
●
●
●
●
●
●
● ●
●
●●●
●● ●
●●
●
●●
●● ●
●
●●●● ●●
●●●
●
●●
●
● ●●
●
●●
●●
●●●
●●●
●●
●
●●
●●●
● ●
●● ●
● ●●●
● ●●●
●●●●
●●●
●●● ●●
●
●
●
● ●●
● ●●
● ●●
Pfoten−
länge
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●●●
● ● ●●
●
● ●●●
●●●
●●●
●
●
● ● ● ●●●
● ●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●●
●
●
●● ●
●●
●●
●
● ●
●
●
●
●●
●
●
●
●●
●
●
●●●
●●●
●●
●●●
●●
●●● ● ●
●
●
●●
●
●
● ●● ●
●●
●● ●●●●
●●
●●
● ● ●
●●
●
● ●
●
●
●●● ●●●
●●●●●●●● ●●●
●
●●
● ●
●●
●
●
●●
● ●
● ● ●●
●●
●● ●
●
●●
● ●●
●
●●
●●●●
●●●●
●●●● ●●●
● ●●●●●●
●● ●
●●●
●●●● ●●
●● ●
●●●
●●●●●●
●
●
●
●
●
●
● ● ●
●●●
●
●●
●
●
●●●
●
●
●
●
●
●●
●
●
●
●
● ●●●
●●
●
●
●
●●
●
●
●
●●
● ●
●
●
●
●● ●
●● ●●
●
●●
●
● ●●
●
●
●
●●●
●●
●
●
●
●
●
●●●
● ●
●
● ●●
●
● ●
●
●
●●●●●
●●●
●
●
● ●
●
●
●
●
● ●●●
●
●
●
● ●●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●●
●
●●
●
●
●
●
●
●
● ●
●
●●● ●
●
●●
●
●●
●
●●●●●
●●●
●●
●
●●
● ●
●●
●●
●●
●
●●
●●●●●
●●
●
●
● ●●
●
●
●●
●
●
● ●
●●
●
●
●● ● ●●●●
●●
●
●
●●● ●
●●
● ●●
●
● ●●
●
● ●
●
●● ●●
●
●
●
●
●● ●● ●
●●
●
●●
●
●
●●
●●●●
●
●●
●●●
●● ●
●●
●●
●●●
●●
●
●
●
●● ●●●●●
●
● ●●
●
●●
●
●
●●●
●●
●●●●
●
●●●●●
●
●●●
●●●
●●
● ●●●●
●●
●●
●
●
●
●●
● ●●
●
●●
●
● ●
●●
●●●
●●●●
●
● ●●
●●
●● ●
●● ●
●●
●●
●●
●
●●
●●
●●
●●
● ●
●
●
●
●
●
●●●
●●
●
●●
●●●
●
●
●
●●●
●
●●
● ●●
●
●●
●
●●
●
●● ●
●●
●
●
●●
●●
●
●
●
● ●●●●●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●●
●●
●● ●
●
●
Ohr−
länge
● ●
●●
● ● ●●
●●●●
●●
●●● ● ●
● ●
●●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●● ●
●
●
●
●●
●
●
●
●● ●
●● ●●●
●
●
●
●
●●
●● ●
●●●
●●
●
●●
●● ● ●
●
●
●
●
●●● ●
●
●
●
●●
●●
●● ●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●●
●●●●
●
●
●
●● ●● ●●
●●
●●
●
●
●●●
●●●●
●
● ●●●
●
●
● ●●●
●
●
●● ●
●
●●
●
●●●
●
●
●
●
●
●
●●●
●
●
●
●●●
● ●
●
●
●
●●● ●
●●●●
●●● ●
● ●●
●●●●
● ●● ●●
● ●
● ●●
●
●
●●● ● ●
●●
●●●●●
● ●
●●
●●●
●●●●
●●
●●
●●●●●●●
●●
●●●
●●●●●
●●
●●●●●
●●●
●●●●
●● ●
●
●
●
●●●
●●
● ●●●●● ●●
●
●●●●●●
● ●
●●●
●●
●
●●
●
●
●●
●
●●
●
●
●● ●
●
●●
●
●
●●
●●
●●●
●
●●
●
●
●●●
●●●●
●
●
●
●●
●●● ●●●● ●
●●
●●●
●
●
●
●
●
●
●●●●
● ●
●
●●●●
●
●● ●
●
●●●●●
●
●
●●●
●
●
● ●
●
●●
●
●
●●●●
●
●
●
●●
●●
●
●● ●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
● ●●
●
●●●
●
●
●●●
● ●
● ●
●●●
●
●
●●
●● ● ●
●
●
Augen−
größe
●●
●
●
●
●●●●●
●
● ●●
●●●●
● ●●●●
●
●
●
●●
●●●●
● ●
●●●
●●
●●●
●●
●●●●●
●●●
● ●●
● ●
●●
●
●●●●●
●● ●●
●●●
●
●●●
● ● ● ●
●
●
●●
●
●
●
●●
●●
●●
●●
●
●●●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●
●●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●● ●
●
●
●
●
● ●●
●●
●●
●
●
●●● ●●
● ●●● ●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●●
●●
●
●
●●
●
●●
●
●●●
●
●●
●●
●●
●
●
●
●
●
●●●●
●
●●
●
●
●●
●●
●
●●
●●
●
●
●●
●●
●●● ●●
● ●●
●●
●
●
●●
●
●
●●●
●
●
●●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●●
●
●●
●
●
●●●
●
●●●
●
●●
●
●
●
●
●●●
●● ●
●●●
●●
●● ●
●
●●● ●●
● ●
●
●
●
● ●●
●
●●● ●
●●
●
●●●
● ●
●●
●●
●●●
●●●
●●
●●
●●
●●●
●●●●●
●
●
●●●●
●●●
●
●
● ●●
● ●●●●
●●●
●●
●
●●
● ●●●
●
●●●
●
●
●● ●●
●● ● ●●
●●
●● ●●
●
●
●
●
●
●●
●●
●●
●
●●
●
●
●
●
●●
●
●●●
●
●●
●
●
●●
●
●●
●●
●
●●
●
●●●
●
●
●
●
●●
●●● ●●●
●
●
●
●
●
●●
●
●
●● ●
●●● ●
● ●
●
●
●●
●
●
●
●
●●●
● ●●
●
● ●● ●
●●
●
●
●
●
● ●
●
●
●
●●
●●
●
●●●
●●
●●
●
●●
●
●●
●● ●
●●●●
●
●
●●
●●
●
●
●
●
●
●● ●●●
●
●
●
●
●
●
●●
●
●
●
● ●
●●●
●
●
●
● ●●
●
●
●●
●● ●●● ●
● ●●
●
●
●●
●
●
●
●●●● ●●
●●●
●
●
●
●
●
●●
●
●●●
●● ●
●
●●
●●
●
●
●●●
●●
●●●
●
●●●
●● ●●●●● ●
● ●●
●●
●●●● ●
● ●●
● ●●●● ●
●
Brust−
umfang
85
95
●
●
● ●●●
●
● ●
●
●●●● ● ●
●●●
● ●●
●
● ●●●
75
85
95
●
●
●
●●
●
●
60
● ●●
●● ●
●
●
●
●
●●
●
●●
●
●
●●
●●
●
●
●●●●
●●
●
●●●●
●
●
●●
●●
●●
●
●
●
●
70
Versuchplanung
● ●
●
●
●
●
●
●
●●●● ●
● ●●●
●
●
●●
●
●●
● ●
●
●●●
●●●
●
●●●●
● ●
●●● ●
●
● ●●● ● ●●
●
●
●
95
●●
●●● ●
●●
● ●
●●
●
●●●
●●
●
●●
●●
●●
●
●●●●
●
●
●●●●●
●
●●●
●
●●
●●●
●●
●
● ●●
●●●
●
●●
●●
●●
● ●●●●
●●
●●
●
●
●●●●
●
●
●
85
●●●
●
● ●
●
● ●
●● ●●●
●●●
●
●●●
●●
●●●●
●
●●
●●●
●●
●●
●
●●●
●●
●●●●
●
●●
●●
●●
●●
●●
●●
●
●●
●●●●
●●●
●● ●
●●●
● ●
●●
●
● ●●
●
●
95
●
●
●●
●
●
85
60
50
38
32
50
40
●
22 26 30
●
●
●
● ● ●
●●
●●
●
●
●
●
●●
●●
●●●
●●
●●
●
●
●●●●
●
●
●●●
●
●
●●
●●
●●
●●
●
●●● ●
● ●
●
●●
●
●
●●●●●
●
●●
●
●● ●
●● ●●
●●●●
● ●●
● ●● ●●●
● ●
●
●● ●
● ●●
●●
●
●●
●●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●●●
●
●
●●
●
●
● ●
●●
●●
●●
●
●
●
●
●●●
●●●
●●●●
●
●
●
●
●
22 26 30
●●
●
● ●
●● ●
●
●
●
●
●
●●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●●●
●
● ●●●
●
● ●●
●
●
●●●
●● ●
●●
●
50
●
●
●
●
●●●
●●
●
●
●●● ●
●●
●
●●● ●●●
●●
●
●●
●●
●
●
● ●●
●●
●
●
●
●●
●●
●●●
●
●
●●
●●●
●
●
● ●●
●
●
●
●●
●
●●●●
●●
●●● ●●
● ●
●●●●● ●
●
●●
●● ●●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●●●●
●●
●
●
●
●
●
●
●
●●
●● ●
●●●
●
●
●●
●
●
●
●
●●
●
●●
●●
●● ●●
●●
● ●
● ●
●
●
●
●●●
●●
●
●
●
●
Markus Pauly (University of Ulm)
●
●
Schädel−
breite
40
●●
●
●
●
●●● ●
●
●
●● ●
●● ●● ● ●
●●●
●
●●
●
●
●
●
●●●
●●
●
●●●
●
●
●
●●
●
●
●
●
●
●
●●●
●
●
●
●
●
●●
●●●
●
●
●
●●● ●●
●●
●●
●
●●
●●●●
●
●
●●
●
●●
●
75
●●●
●●
● ● ●
● ●
●●●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
● ●
●●
●●
●●
●
38
● ●
●
●● ●● ● ●
●●
●●●● ● ●
●●
●
●●●
●●●●●
●●
●●●
●●
●
●●
●●●
●●
●
●●●●●
●
●
●●
●●●
●●●
● ●●
●●
●
●● ●●● ●
●
●
●
● ●●
●
70
32
● ●
●
● ●● ●
●
●
●
●
●●
●
●●
●
●●
●●●●●
●●●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●●
● ●● ●
●
●
●●●
60
60
●
●
●
●
●● ●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●●●
●
●●
●●
●
●●
●●
●
●●
●●●
●
●●●
●
●
●●●●
●●●●●●●
●●
●
●● ●
● ●
●● ●●
● ●
●
●●●
● ●
● ●●●
●
●●●
●●
●●●●
●●
●●●●
●●● ●
●●●● ●
●
●●●
●●●
●●
●
● ●
●
13 15 17
50
Kopf−
länge
13 15 17
Sommersemester 2015
Entdeckung einer neuen Unterart des Possums
Bei genauerer Betrachtung stellte sich heraus, dass Possums im
Süden / in Victoria (rot) größere Ohren, längere Pfoten und kürzere
Schwänze als an anderen Standorten (blau) haben.
●●
●
●
● ●●●
●● ●● ●●
●
●●
● ●●●
●●
●●
●
●●●●●
●●●
●●
●●●
● ●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●● ● ●●
●
●
●
●
●
●●
●
● ●●
●
●
●
●●
●● ● ● ●
●
●
●
●
●● ●●
●
●
●
●
●●
●●●●
●
●●
●
●
●
●
●● ●
●
●
●●
●
●
●●
●
●●
●
●
●●
●●
●
●●●
●
●
●
●●
● ●●
●●
●
●
●
●
●
●
●●
●●●●
●●
●●
●
● ●●
●
●
●●● ●
●
●●
●
● ●●
●●●
●●
●
●●
●
●
●●●●
●● ●
●
●
●
●
●● ●
●
●
●
●●●
●
●
●●
●●
●●
●●
●
●
●
●
●●●
●
●
●
●●●●
●● ●
●●●
●
●● ●●●● ●
●
●●●
●●●●●●●
●●●
●●●● ●
●●
●●
●
●●●●●●●
●●
●● ●●●
●●●
●
●●●
●●
●●
●●●●
●
●●
●
●●
●●
● ●●●●
●●
●● ●
●● ● ●
●● ●
●
●
●●
●
●
●●● ●
●
●
●
●
●
●
●
●●
●●
●
●
●
● ●●●
●
●
●
●●
●●
● ●●●
●
●●●●●
●●
●● ●
●●
●
●
●●
● ●
●●
●●
●
●●
● ●
●
●
●
● ●
●● ●
●
●●
●
●●
●
●●●●●
●
●●
●●
●
●● ●
●
●
●
● ●●●●
●
●
●
●● ●●●●
●
●●
● ●●●
●●
●
●
● ●●●
●
●●
● ●●
●
●● ●
●●●●
●●●●●
●
●
●●● ●●
●●
●
●
● ●
●●
●●●● ●●
●●●
● ●●
●●●
●●●
●●●
●
●●
●●●
●●●
●●
●●●
●
●●●●
●●●
●●●●
●● ●
●●
●●
●●●
●●●●●
●● ● ●
●●
●
●●
●●●
● ●●
●
●●
●
●
●
●●
●
●
●
●● ●●
●●●
●
●
●
●
●●● ●●
●
●●
●
●●
●
●
●●●●●
●
●●
●
●
●
●●
●● ●
●
●
●
●
●●
●
●
●●● ●
●
●
● ●
● ●
●
●● ●
●
●
●●
●● ● ●
●●
●
●
●
● ●
●●
●● ●
● ●
● ●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●
● ●
●
●
●
●
●
●●
●
●●
● ●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●●● ●
● ●
●
● ●●
●
●
●●
●
●●
●●
●
●
●
●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●●
●
●
●
●
●
●●●●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●●●●● ●
● ●
●●
●●
●
● ●●
●
●●● ● ●
● ●●●
●●
● ●●●
●●●●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●●
●
●●
●
●●●● ●
● ●●
●●
●
● ●
Schwanz−
länge
●
●●● ●
●●
●
● ●
●●
●● ● ●●
●●
●●●●
●
●
●
●
●
●
●
●
●
●●●
● ●●● ●
●
●
●
●● ●
●
●
●●
●
●●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●● ● ●
●●
●
●●
●
● ●●●●● ●
●
●
●
●
●●
●●●
●●
●●
● ●●
●●● ●●
●
●●
●●●
●
●
●
●
●
●
●
● ●
●●
●
●
●
● ●●●
●●
● ●
●
●
●
●
●●
●
●
●
●●
●
●●
●
●●●
●
●
●●
● ●●● ●●
●
●
●●
●
●●
●
●●●●
●●
●
●
●
●
●●
●● ●●
●●●
●● ●
●●●
●● ●●
●●
●●
●
●
●●
●●
●●
●
●●●
●●
●
●●
●●●●●
●
●
●
●●● ●
●
●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●
●●
●
● ●
● ●●● ●
●
●●
●
●
●●
●
●●● ● ●
●●●
●
●●●
●●●
●
●●●
●
●●
●● ●
●●
● ●
●●●●
●●
●●●●●
●
●●
●
●●●●
●●
●
●●
●●
●
●
●●
●●●● ●
●●
●●●
●● ●●
●
●
●●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●●● ●
●
●
●●
●
●
●
●
● ●●●
●
●● ●
●
●
●
●●
●● ●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●● ● ●
●
●
●
●
●
●● ● ●●
●
●
●
●●
●
●●
●●
●●
●
●●●●●●
●
●
●●
●
●
●●●
●
●
●
● ●
●
● ●●
●
●
●●
●●
● ●
● ●
● ●●
● ● ●●
●
●●
●●● ●●
●
●●
●
● ●●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●●●
●
●●●●
●
●
●
●●
●
●
●
●
● ●
●● ● ●●
●
●
●
●
●
●●●
●●
●
●
●
●
●●●
●
●
●
●●
●
● ●
●
●●
●
●
●
● ● ●
●
●
● ●●
●●●
●
●●●
●●
●
●
●●●●
●●
●
●●
●●
●●
●
●
●●
●
●
●
●●●●
● ●
●
●
●●
●● ●
●●
●
●●
●● ●
●
●●● ●●
●●
●●
●●
●●●
● ●●
●
●●
●●
●●●
●●●●
●
● ● ●●
●
●●●●
● ●●●●
● ●●●
●●●●
●●●
●●● ●●
●
● ●●
●● ●●●
● ●●
Pfoten−
länge
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●●●
● ● ●●
●
● ●●●
●●●
●●●
●
●
● ● ● ●●●
● ●●
●
●●
●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●
●
●●●
●
●
●
●
●
●
●
●●● ●
●●
●
●●●
●
●
●● ●
●●
●●
●
● ●
●
●
●
●●
●
●
●
●●
●
●
●●●
●●●
●●
●●
●●●
●●
●●● ● ●
●
●
●
●●●
● ●
●●
●● ●
●
●●
● ●
● ●
●●
●●
●
● ●
●
●
●●● ●●●
●●●●●●●● ●●●
●
●●
● ●
●●
●
●
●●
● ●
● ● ●●
●●
●
●●
● ●●
●●●
●●●●●
●
●●●●
●
●●●● ●●●
● ●●●●●
●● ●● ●
●●●
●●●● ●
●● ●
●●●
●●●●●●
●
●
●●●
●●● ●
●●
●
●
●●
●
●
●●●
●
●
●
●
●
●●
●
●
●
●
● ●●●
●●
●
●
●
●●
●
●
●
●●
● ●
●
●
●
●● ●
●● ●●
●
●●
●
● ●●
●
●
●
●●●
●●
●
●
●
●
●
●●●
● ●
●
● ●●
●
● ●
●
●
●●●●●
●●●
●
●
● ●
●
●●
●
● ●●●
●
●
●
● ●●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●●
●
●●
●
●
●
●
●
●
● ●
●
●●● ●
●
●●
●
●●
●
●●●●●
●●●
●●
●
●●
● ●
●●
●●
●●
●
●●
●●●●●
●●
●
●
● ●●
●
●
●●
●
●
● ●
●●
●
●
●● ● ●●●●
●●
●
●
●●● ●
●●
● ●●
●
● ●●
●
● ●
●
●● ●●
●
●
●
●
●● ●● ●
●●
●
●
●
●
●
●●
●●●●
●
●●
●●●
●● ●
●●
●●
●●●
●●
●
●
●
●● ●●●●●
●
● ●●
●
●●
●
●
●●●
●●
●●●●
●
●●●●●
●
●●●
●●●
●●
● ●●●●
●●
●●
●
●
●
●●
● ●
●
●
●●
●
●●
● ●●
●●●
●●●●
●
● ●●
●●
●● ●
●● ●
●●
●●
●●
●
●●
●●
●●
●●
● ●
●
●
●
●
●
●●●
●●
●
●●
●●●
●
●
●
●●●
●
●●
● ●●
●
●●
●
●●
●
●● ●
●
●●
●
●●
●●
●
●
●
● ●●●●●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●●
●●
●● ●
● ●
Ohr−
länge
● ●
●●
● ● ●●
●●●●
●●
●●● ● ●
● ●
●●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●● ●
●
●
●
●●
●
●
●
●● ●
●● ●●●
●
●
●
●
●●
●● ●
●●●
●●
●
●●
●● ● ●
●
●
●
●
●●● ●
●
●
●
●●
●●
●● ●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●●
●●●●
●
●
●
●● ●● ●●
●●
●●
●
●
●●●
●●●●
●
● ●●●
●
●
● ●●●
●
●
●● ●
●
●●
●
●●●
●
●
●
●
●
●
●●●
●
●
●
●●●
● ●
●
●
●
●●● ●
●●●●
●●● ●
● ●●
●●●●
● ●● ●●
● ●
● ●●
●
●
●●● ● ●
●●
●●●●●
● ●
●●
●●●
●●●●
●●
●●
●●●●●●●
●●
●●●
●●●●●
●●
●●●●●
●●●
●●●●
●● ●
●
●
●
●●●
●●
● ●●●●● ●●
●
●●●●●●
● ●
●●●
●●
●
●●
●
●
●●
●
●●
●
●
●● ●
●
●●
●
●
●●
●●
●●●
●
●●
●
●
●●●
●●●●
●
●
●
●●
●●● ●●●● ●
●●
●●●
●
●
●
●
●
●
●●●●
● ●
●
●●●●
●
●● ●
●
●●●●●
●
●
●●●
●
●
● ●
●
●●
●
●
●●●●
●
●
●
●●
●●
●
●● ●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
● ●●
●
●●●
●
●
●●●
● ●
● ●
●●●
●
●
●●
●● ● ●
●
●
Augen−
größe
●●
●
●
●
●●●●●
●
● ●●
●●●●
● ●●●●
●
●
●● ●
●●
●●●●
●●●
●●
●●●
●●
●●●●●
●●●
● ●●
● ●
●●
●
●●●●●
●● ●●
●●●
●
●●●
● ● ● ●
●
●
●●
●
●
●
●●
●●
●●
●●
●
●●●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●
●●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●● ●
●
●
●
●
● ●●
●●
●●
●
●
●●● ●●
● ●●● ●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●●
●●
●
●
●●
●●●●
●
●●●
●
●●
●●
●●
●
●
●
●
●●●●
●
●●
●
●
●●
●●
●
●●
●●
●
●
●●
●●
●●● ●●
● ●●
●●
●
●
●●
●
●
●●●
●
●
●●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●●
●
●●
●
●
●●●
●
●●●
●
●●
●
●
●
●
●●●
●● ●
●●●
●●
●● ●
●
●●● ●●
● ●
●
●
●
● ●●
●
●●● ●
●●
●
●●●
●●● ●
●●●
●●●
●●●●
●●●●●
●●●●●
●●●
●●
●
●
●
●●●
●
●
● ●●
● ●●●●
●●●
●
●●
●●
● ●●●
●
●●●
●
●
●● ●●
●● ● ●●
●●
●● ●●
●
●
●
●
●
●●
●●
●●
●
●●
●
●
●
●
●●
●
●●●
●
●●
●
●
●●
●
●●
●●
●
●●
●
●●●
●
●
●
●
●●
●●● ●●●
●
●
●
●
●
●●
●
●
●● ●
●●● ●
● ●
●
●
●●
●
●
●
●
●●●
● ●●
●●
● ●● ●
●●
●
●●●
● ●
●
●
●
●●
●●
●
●●●
●●
●
●●
●
●●
●
●● ●
●●●●
●
●
●●
●●
●
●
●
●
●
●● ●●●
●
●
●
●
●
●
●●
●
●
●
● ●
●●●
●
●
●
● ●●
●
●
●●
●● ●●● ●
● ●●
●●
●
●
●
●
●
●●●● ●●
●●●
●
●
●
●
●
●●
●
●●●
●● ●
●
●●
●●
●
●
●●●
●●
●●●
●
●●●
●● ●●●●● ●
● ●●
●●
●●●● ●
● ●●
● ●●●● ●
●
Brust−
umfang
85
95
●
● ●●●
●
● ●
●
●●●● ● ●
●●●
● ●●
●
● ●●●
75
85
95
●
●
●
●●
●
●
60
● ●●
●● ●
●
●
●
●
●●
●
●●
●
●
●●
●●
●
●
●●●●
●●
●
●●●●
●
●
●●
●●
●●
●
●
●
●
70
Versuchplanung
● ●
●
●
●
●
●
●
●●●● ●
● ●●●
●
●
●●
●
●●
● ●
●
●●●
●●●
●
●●●●
● ●
●●● ●
●
● ●●● ● ●●
●
●
●
95
● ●●
● ●
● ●
● ●●●
●●●●
●● ●
●●●
●
●
●●●●
●● ●●
●●●
●
●●●
●●
●●●●●
●●●
●
●●●
●●
●●
●● ●
●●
●●
●
●● ●●●
●
Körper−
größe
●
85
●●
●
●●● ●
●●
● ●
●●
●
●●●
●●
●
●●
●●
●
●●●
●●●●
●
●
●
●
● ●●
●●●
●●●
●●●
●●
●●
● ●●●
●
● ●●●●●
●●●
●●
●●●
●
●●
●●●●
●●
●
●
95
●
●
● ●
●
● ●
●● ●●●
●●●
●
●●●
●●
●●●●
●
●●
●●●
●●
●●
●
●●●
●●
●●●●
●●
●●
●●
●●
●●●
●●
●
●●
●●●●
●●●
●● ●
●●●
● ●●
●●
● ●●
●
85
60
50
38
32
50
40
●
22 26 30
●
●
●
● ● ●
●●
●●
●
●
●
●
●●
●●
●●●
●●
●●
●
●
●
●
●
●●
●●●
●
●●●
●
●●
●●
●●
●●
●
●
● ●
●
●
●●
●
● ● ●
●●●●●
●
●●
●
● ●●
●●●●
● ●●
●●
● ●● ●●●
● ●
●
●● ●
● ●●
●●
●
●●
●●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●●●
●
●
●●
●
●
● ●
●●
●●
●●
●
●
●
●
●●●
●●●
●●●●
●
●
●
●
●
22 26 30
●●
●
● ●
●● ●
●
●
●
●
●
●●●●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●●●
●
● ●●●
●
● ●●
●
●
●●●●
●● ●
●
●
50
●
●
●
●
●●●
●●
●
●
●●● ●
●●
●
●●● ●●●
●●
●
●●
●●
●
●
●●
●
●
●
●●
●●
●
●●●
●
●
●
●●
●●●
●
●
● ●●●
●
●
●
●●
●
●●●●
●●
●●● ●●
● ●
●●●●● ●
●
●●
●
●●●
●
●
●●
●● ●●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●●●●
●●
●
●
●
●
●
●
●
●●
●● ●
●●●
●
●
●●
●
●
●
●
●●
●
●●
●●
●● ●●
●●
● ●
● ●
●
●
●
●●●
●●
●
●
●
●
Markus Pauly (University of Ulm)
●
●
Schädel−
breite
40
●●
●
●
●
●●● ●
●
●
●● ●
●● ●● ● ●
●●●
●
●●
●
●
●
●
●●●
●●
●
●●●
●
●
●
●●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●●
●
●●
●
●
●●● ●●
●●
●●
●
●●
●●●●
●
●
●●
●
●●
●
75
●●●
●●
● ● ●
● ●
●●●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
● ●
●●
●●
●●
●
38
● ●
●
●● ●● ● ●
●●
●●●● ● ●
●●
●
●●●
●●●●●
●●
●●●
●●
●●
●●●
●●
●
●●●●●
●
●●●
●●
●●
●●●
● ●●
●●
●
●● ●●● ●
●
●
●
● ●●
●
70
32
● ●
●
● ●● ●
●
●
●
●
●●
●
●●
●
●●
●●●●●
●●●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●●
● ●● ●
●
●
●●●
60
60
●
●
●
●
●● ●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●●●
●
●●
●●
●
●●
●●
●
●●
●●●
●
●●●
●
●
●●●●
●●●●●●●
●●
●
●● ●
● ●
●● ●●
● ●
● ●
● ●
●●
●
●●●●
●●
●●●●
●●
●
●● ●
●●●●
●●●
●●● ●
●
●●●
●●●
●●
●● ●
●
13 15 17
50
Kopf−
länge
13 15 17
Sommersemester 2015
Entdeckung einer neuen Unterart des Possums
Sein Klassifikationsmodell:
T = 24 − 0.571 × Ohrlänge
− 0.149 × Pfotenlänge
+ 0.341 × Schwanzlänge
Falls T < 0 gilt, so kommt das Possum
aus Victoria; ansonsten von einem der
anderen Standorte.
Genetische Untersuchungen
bestätigten später diese Entdeckung
einer neuen Unterart.
Quelle: P. Hall (2003). A Possum’s Tale – How Statistics
T. caninus T. cunninghamii
Revealed a New Mammal Species. Chance, 16, 8-13.
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015
Mehr Details zu multivariaten Fragestellungen – an der Tafel :)
Markus Pauly (University of Ulm)
Versuchplanung
Sommersemester 2015