Experimentelle und quasi

Kapitel VIII: Experimentelle und quasi-experimentelle Designs
LV2
Experimentelle und quasi-experimentelle Designs
Zentrale Begriffe
Varianzkontrolle
Hierbei werden die Vergleichsgruppe und der Modus der Aufteilung der
Versuchspersonen auf die Kontrollgruppe bestimmt. Es kann zwischen einer
zufälligen
Aufteilung
vor
und
nach
der
Erhebung
(Ex-post-facto-Designs)
unterschieden werden.
Die Varianz der unabhängigen Variablen wird bei Ex-ante-Bestimmung von
Vergleichgruppen schon vor der Datenerhebung kontrolliert.
Randomisierung
Es handelt sich hierbei um die Zufallsaufteilung von Versuchspersonen auf die
Vergleichsgruppe. Durch die zufällige Aufteilung (Münzwurf, Los, etc.) werden
verzerrende Einflüsse von Drittvariablen neutralisiert.
Drei Klassen von Designs
Varianzkontrolle
Randomisierung
Experimentelle Designs
9
9
Quasi-experimentelle Designs
9
8
Ex-post-facto-Designs
9
8
Zusätzlich sind noch die vorexperimentellen zu erwähnen, welche jedoch hinsichtlich
der Methodik der Hypothesenprüfung den wissenschaftlichen Anforderungen nicht
genügen.
X= experimenteller Stimulus
O= Beobachtung
Cordula Rechberger, Stefan Oberhauser
R= Randomisierung
Seite 1 / 10
Kapitel VIII: Experimentelle und quasi-experimentelle Designs
LV2
Vorexperimentelle Designs
Es handelt sich bei vorexperimentellen Designs um ein XO-Design ohne Kontrolloder Vergleichsgruppe.
Bsp.: Elefantenvertreiber; rasende deutsche Schifahrer; schnelles Autofahren nicht
gefährlich (bei Tempo 400 noch kein Unfall registriert)
Bei XO-Design werden nur die Werte einer Spalte werden registriert. Es informiert
nicht über die Werte einer Vergleichsgruppe. Daher sind Aussagen zu Effekten nicht
aussagekräftig.
Weiters gibt es die Möglichkeit, dass das XO-Design falsche Vergleichswerte liefert,
weil nur die Werte einer Zeile werden registriert d.h. die Tabelleninformation
unvollständig ist.
Bei einem O1XO2 Versuchsplan erfolgt eine Vorher-nachher-Messung, welche jedoch
in den Sozialwissenschaften nicht ausreicht, da Reifungsprozesse stattfinden
können.
Experimentelle Designs
Drei Bedingungen
1. Mindestens zwei experimentelle Gruppen
2. Versuchspersonen werden den experimentellen Gruppen nach Zufallsverfahren
zugewiesen (Randomisierung)
3. Die unabhängige Variable wird vom Forscher „manipuliert“ (experimenteller
Stimulus)
Der „Stimulus“ X ist z.B. ein neues Medikament, welches die Versuchsgruppe
einnimmt, während in der Kontrollgruppe ein Placebo verabreicht wird.
Form
Experimentelle Designs können in folgender klassischen Form dargestellt werden:
R
R
X
O
Versuchsgruppe
O
Kontrollgruppe
Der experimentelle Faktor nimmt zwei Ausprägungen an: Anwesenheit (X) und
Abwesenheit des experimentellen Stimulus.
Cordula Rechberger, Stefan Oberhauser
Seite 2 / 10
Kapitel VIII: Experimentelle und quasi-experimentelle Designs
LV2
Weiters gibt es die Möglichkeit unterschiedliche Stimuli (X1, X2, Xm) zu untersuchen.
Die Versuchsgruppen (1, 2,..., m) korrespondieren dann mit den Kategorien X1, X2,
..., Xm eines experimentellen Faktors X (Bsp. Unterrichtsmethode). Gemessen
werden die Werte der Versuchsgruppen O1, O2, ..., Om. Jene, die über der Schwelle
der Zufallsvarianz liegen, sind auf den Stimulus zurückzuführen.
Ein Drittfaktor Z ist sowohl mit X als auch mit O korreliert und führt zu einer
Scheinkorrelation.
Bsp. Z= Vorqualifikation, X= Kursteilnahme, O= Beschäftigungschancen
Umgang mit Drittvaraiblen (Störvariablen)
1) Man sorgt dafür, dass die Störvariable während des gesamten Experimentes
den gleichen Wert hat, hält die Störvariable also konstant.
2) Die Wirkung einer Störvariablen kann man auch dadurch neutralisieren, dass
man nicht eine einzige Stufe der Störvariablen konstant hält, sondern mehrere
verschiedene Stufen der Störvariablen zufällig mit den Stufen der UV
kombiniert.
Fehlerquellen
Folgende Fehlerquellen können zu falschen Schlüssen verleiten:
8 kausal relevant ist nicht X, sondern eine mit X konfundierte Variable Y
Bsp. Nicht die erhöhte Qualifikation (X), sondern andere Faktoren (Y), wie
Regelmäßigkeit, die der Entmutigung durch die Arbeitslosigkeit entgegenwirkt,
beeinflussen O. Î Dies kann mittels weitere Experimente kontrolliert werden.
8 Hawthorne-Effekt (Reaktivität) Einstellung- und Verhaltensänderung durch
wissenschaftliche Aufmerksamkeit
Î Blindversuch oder Doppelblindversuch
Blindversuch ist gegeben, wenn den Probanden nicht bekannt ist, ob sie in der
Kontroll- oder der Versuchsgruppe sind bzw. wenn ihnen die Hypothese nicht
bekannt ist. Selbstsuggestion oder Verhaltensveränderungen sollen ausgeschlossen
werden.
Doppelblindversuch ist gegeben,
Versuchsgruppe
und
Hypothese
wenn dem Versuchsleiter die Kontroll-,
ebenso
nicht
bekannt.
Selbstsuggestion,
Verhaltensveränderungen sowie unbewusste Beeinflussungsmechanismen seitens
des Versuchsleiters sollen ausgeschlossen werden.
Cordula Rechberger, Stefan Oberhauser
Seite 3 / 10
Kapitel VIII: Experimentelle und quasi-experimentelle Designs
LV2
8 Verzerrender Einfluss von Randomisierung, weiteres Verhalten der
Kontrollgruppe
Bsp.
Die
Kontrollgruppe
fühlt
sich
entmutigt,
Î
Arbeitsuche/Beschäftigungschance beeinflusst.
was
Ausnahme/
die
quasi-
experimentelle Designs
8 Missglücken der Randomisierung
Die relevante Merkmalsausprägung ist zufällig bei einer Gruppe häufiger.
Î Kombination Randomisierung und Matching
Matching: wird angewendet, damit eine Zufallsaufteilung nicht missglückt.
Versuchspersonen
werden
durchnumeriert,
die
Zahlen
werden
auf
Zettel
geschrieben und die Zettel in einen Zylinderhut geworfen, vermischt und eine
bestimmte Anzahl an Nummern gezogen und die Personen mit diesen Nummern der
Versuchsgruppe zugeordnet.
Gruppenmatching liegt vor, wenn die Verteilung bekannter Drittvariablen in den
Versuchsgruppen gleich ist. Bsp. Die weiblichen und männlichen Versuchspersonen
separat randomisieren (2 Zylinderhüte).
Paarweises Matching ist gegeben, wenn auch Kombinationen von Merkmalen z.B.
Altersklasse, Geschlecht, Bildung, berücksichtigt werden. Jede Person mit einer best.
Merkmalskombination in der Versuchsgruppe hat dann genau einen „Zwilling“ in der
Kontrollgruppe.
Randomisierung ist besser als Matching ohne Randomisierung. Empfehlenswert ist
eine Kombination von Randomisierung und Matching.
Weitere experimentelle Designs, mit denen zusätzliche Fehlerquellen
kontrollierbar sind:
• Vorher-Nachher-Messung bei der Versuchs- und Kontrollgruppe
R
O1
R
O3
X
O2
Versuchsgruppe
O4
Kontrollgruppe
Es werden hierbei noch die Ausgangsniveaus der Versuchsgruppe O1 und der
Kontrollgruppe O3 kontrolliert.
Cordula Rechberger, Stefan Oberhauser
Seite 4 / 10
Kapitel VIII: Experimentelle und quasi-experimentelle Designs
LV2
Faktorielles Design:
Es wird die simultane Wirkung von zwei oder mehr Experimentalvariablen erforscht.
Bsp. Untersuchung des Effekts von zwei Unterrichtsmethoden bei drei Größen von
Schulklassen. Es können durch die Kombination mit Standarddesigns oder Vorhernacher-Design Wechselwirkungen zwischen den „Faktoren“ untersucht werden.
Beispielsweise liegt eine Wechselwirkung oder ein Interaktionseffekt vor, wenn der
Gruppenunterricht nur in kleinen Klassen günstige Lernergebnisse hervorbringt.
Interne und externe Validität
Hinsichtlich der Vor- und Nachteile unterscheiden Campbell und Stanley (1963)
zwischen interner und externer Validität von Versuchsplänen:
Interne Validität: Ausblendung von Störvariablen; kann durch 8 Fehlerquellen
(Reifung, Selektionsfehler,...) beeinträchtigt werden.
Eine hohe interne Validität kann als ein Sicherstellen, dass die unabhängige
Variable, und nur diese, die abhängige Variable beeinflusst. Dies erfolgt durch die
Kontrolle aller störenden Variablen und einer zufälligen Stichprobenauswahl der
Teilnehmer für die verschiedenen Versuchsbedingungen des Experimentes. Wenn
die interne Validität hoch ist, kann der Versuchsleiter beurteilen, ob die unabhängige
die abhängige Variable bedingt.
Standarddesigns und Vorher-nachher-Designs mit Randomisierung können bei
sorgfältiger Anwendung den acht Gefahrenquellen Rechnung tragen. Die Kontrolle
der Störfaktoren ist die wesentliche Leistung experimenteller Versuchspläne mit
Zufallsaufteilung.
Externe Validität: Generalisierbarkeit experimenteller Effekte; kann durch 4
Fehlerquellen
beeinträchtigt werden.
Externe Validität ist das Ausmaß, in welchem die Ergebnisse einer Studie auf andere
Situationen oder Menschen verallgemeinert bzw. generalisiert werden können. Zwei
Arten von Generalisierbarkeit sind zu betrachten: (1) Das Ausmaß, mit dem wir von
der vom Versuchsleiter konstruierten Situation auf Situationen des wirklichen Lebens
verallgemeinern können (Generalisierbarkeit auf natürliche Situationen) und (2) das
Cordula Rechberger, Stefan Oberhauser
Seite 5 / 10
Kapitel VIII: Experimentelle und quasi-experimentelle Designs
LV2
Ausmaß, mit dem wir von den Versuchspersonen auf alle Menschen verallgemeinern
können (Generalisierbarkeit auf Personen).
Lösungsmöglichkeiten für das Problem der externen Validität:
• Versuchspersonen aus unterschiedlichen sozialen Gruppen auswählen
• Feldexperimente in natürlichen sozialen Situationen arrangieren
• Experimentelle Befunde mit anderen Designs und Methoden reproduzieren
Sind Effekte auch mit unterschiedlichen Methoden reproduzierbar (Triangulation), so
erhöht sich die Wahrscheinlichkeit, dass es sich nicht um bloße Artefakte künstlicher
und reaktiver Laborexperimente handelt.
Grenzen experimenteller Designs
Eine Randomisierung zur Prüfung vieler sozialer Zusammenhänge ist nicht möglich.
Bsp. Schüler können nicht per Random auf ein Gymnasium oder Hauptschule
geschickt werden. ODER
Eine Notenbank kann nicht unterschiedliche Zinssätze für randomisierte Zielgruppen
festlegen.
Vorteile und Probleme
Vorteile experimenteller Designs:
1. Der experimentelle Stimulus wird im Experiment „produziert“ und geht der
vermuteten
Wirkung zeitlich voraus.
2. Durch die Randomisierung werden verzerrende Effekte durch Drittvariablen
neutralisiert.
Aus diesen Gründen ist das experimentelle Design ideal zum Test von
Kausalhypothesen.
Probleme experimenteller Designs:
1. Externe Validität der geprüften Zusammenhänge
2. Reaktivität
3. Hoher Aufwand bei der simultanen Prüfung komplexer Zusammenhänge
4. Bei der Untersuchung vieler sozialer Zusammenhänge keine Randomisierung
möglich
Cordula Rechberger, Stefan Oberhauser
Seite 6 / 10
Kapitel VIII: Experimentelle und quasi-experimentelle Designs
LV2
Experimentelle Spieltheorie am Beispiel der
Verantwortungsdiffusion
Den Versuchspersonen wurde vorgespielt, dass sie an einer Diskussion über das
College-Leben teilnehmen. Jede Person war in einem eigenen Raum und wurde
gebeten sich über Mikrofon mit einer suggerierten Zwei-Personen-, Drei-Personenoder Sechs-Personen-Gruppe zu unterhalten. Nach vorgetäuschtem epileptischem
Anfall eines der Gruppenmitglieder wurde die Reaktion in einem Zeitraum von 6min
aufgezeichnet. Als Hilfeleistung wurde das Verlassen des Raumes um den
Versuchsleiter zu informieren gewertet.
Design
Fallzahl
Gruppengröße n
Reaktion in % ∅ Reaktionszeit
N
R
X1
O1
13
85
52
R
X2
O2
26
62
93
R
X3
O3
13
31
166
In der Annahme, dass die Teilnehmer nicht gefühlskalt sind und an einer Hilfeleistung
interessiert sind, kann der Wert der Hilfeleistung für die beteiligten Personen als
kollektives Gut mit dem Nutzen U gesehen werden. Mit der Hilfeleistung sind neben
dem erwähnten Nutzen auch Kosten K verbunden, welche geringer als U sind
(U>K>0). Demnach haben Personen die Hilfe leisten einen persönlichen Gewinn von
U-K, währenddessen „Trittbrettfahrer“ U erzielen. Wenn nun jeder sich auf den
anderen verlässt unterbleibt die Herstellung des kollektiven Gutes der Hilfeleistung
d.h. alle Akteure gehen leer aus. Daraus ergibt sich folgende Formel: p= 1- n-1√ K/U
Die Wahrscheinlichkeit p der Kooperation steigt mit dem Wert des kollektiven Gutes
und laut der Hypothese der Verantwortungsdiffusion mit der Gruppengröße n. Die
unabhängigen Variablen n, U, und K können variiert werden. Dadurch können die
Effekte dieser auf die Kooperationswahrscheinlichkeit p untersucht werden.
Soziale
Interaktionsstrukturen
(wie
Entscheidungsverhalten) können mit
der
experimentellen Spieltheorie zunächst abstrakt analysiert werden. Der Vorteil liegt
hierbei bei der großen Allgemeinheit und Konzentration auf die wesentlichen Aspekte
einer Situation. Das Experiment garantiert ein hohes Maß an interner Validität bei
korrekter Durchführung. Hinsichtlich der möglichen Verallgemeinerung können
Cordula Rechberger, Stefan Oberhauser
Seite 7 / 10
Kapitel VIII: Experimentelle und quasi-experimentelle Designs
LV2
Laborexperimente nicht weiterhelfen. Feldexperimente bieten die Möglichkeit der
externen Validierung. Grundsätzlich wächst das Vertrauen in wissenschaftliche
Befunde, wenn diese mitunterschiedlichen Untersuchungsmethoden repliziert werden
können.
Quasi-Experimentelle Designs
Dabei handelt es sich um Experimente ohne Randomisierung. Dies ist dadurch
bedingt, dass oft eine Zufallsaufteilung nicht möglich ist. So z.B. bei Untersuchungen
von Effekten rechtlicher, wirtschaftlicher oder sozialer Maßnahmen. Das zentrale
Problem bei Quasi-Experimenten ist somit den Einfluss von Drittvariablen zu
kontrollieren.
Es gibt 2 Arten von quasi-experimentellen Designs:
-
Versuchsanordnungen mit nicht gleichartiger Kontrollgruppe
-
Zeitreihen-Experimente
Versuchsanordnungen mit nicht gleichartiger Kontrollgruppe
Dieses Design entspricht einem Experiment mit Vorher-nachher-Messung ohne
Zufallsaufteilung:
O1
X
O3
O2
Versuchsgruppe
O4
Kontrollgruppe
D.h. die Ausgangspunkt O1 und O3 sind unterschiedlich, es wird lediglich die
Veränderung verglichen.
Somit lassen sich Reifungseffekte und zwischenzeitliches Geschehen kontrollieren,
es bleiben jedoch die Probleme bestehen: die Nicht-Vergleichbarkeit der Gruppen
(z.B. durch Selbstselektion, unbekannte Drittvariablen) sowie der systemische Ausfall
von Probanden (z.B. Daten nicht für alle Personen bekannt).
Cordula Rechberger, Stefan Oberhauser
Seite 8 / 10
Kapitel VIII: Experimentelle und quasi-experimentelle Designs
LV2
Die beiden Probleme lassen sich im Vorhinein durch Gruppen- oder paarweises
Matching beheben. Im Nachhinein kann man mit multivariaten statistischen
Verfahren versuchen den Einfluss von Drittvariable (soweit bekannt) kontrollieren.
Schwierig wird es dann, wenn man nicht alle relevanten Drittvariablen berücksichtigt
hat.
Ein weiteres Problem besteht im so genannten Regressionseffekt: es gibt eine
Tendenz zur Mitte (Bsp.: Kinder großer Eltern sind größer als Kinder kleiner Eltern.
Jedoch sind die Eltern großer Eltern meist kleiner als ihre Eltern und die Kinder
kleiner Eltern meist größer als ihre Eltern). Dies lässt sich jedoch gut durch
Zeitreihen-Designs berücksichtigen.
Zeitreihen-Experimente
Hier wird der Trend vor mit dem Trend nach einem Treatment X gemessen:
O1 O2 O3 O4 X O5 O6 O7 O8
Mit einem solchen Design lassen sich Reifungs- sowie Regressionseffekte sehr gut
kontrollieren. Schwierigkeit bereitet hingegen der Einfluss von zwischenzeitlichem
Geschehen.
Wenn man sich z.B. die Entwicklung der Schwarzfahrer-Quote in einer Stadt nach
Verdopplung der Strafen ansieht, so ist es zu wenig. Nur das Jahr vor und das Jahr
nach
der
Maßnahme
anzusehen.
Wenn
man
mehrere
Jahre
als
Beobachtungszeitraum wählt, lässt sich die Maßnahme in einem genaueren Licht
betrachten. Aber erst mittels multiplen Zeitreihen-Experiments lässt sich anhand
einer Kontrollgruppe (z.B. die Entwicklung der Schwarzfahrerquote in einer anderen
Stadt, welche die Strafen nicht verdoppelt hat) die Wirkung der Maßnahme
spezifizieren.
Cordula Rechberger, Stefan Oberhauser
Seite 9 / 10
Kapitel VIII: Experimentelle und quasi-experimentelle Designs
LV2
Evaluationsforschung
Hier spielen Quasi-Experimente eine große Rolle. Es werden zwar auch Experimente
(z.B. Mindesteinkommensexperimente in USA) oder nicht-experimentelle Designs
(z.B. Coleman-Report) durchgeführt, aber quasi-experimentelle Designs sind die
typische
Form
zur
Erfolgskontrolle
von
gesetzten
Maßnahmen
bei
einer
Evaluationsforschung.
Dabei sind 3 Probleme zu berücksichtigen:
1. Festlegung von Erfolgskriterien und deren Messung
2. Berücksichtigung eventueller Nebenwirkungen
3. Kosten-Nutzen-Analyse (Bewertung von Wirkung/Nebenwirkung)
Zusätzlich sind noch folgende Punkte zu beachten:
-
der
zeitliche
Rahmen
der
Untersuchung
(Strohfeuereffekt
vs.
Anlaufschwierigkeiten)
-
ob sich während der Untersuchung bereits Anhaltspunkte der Abmilderung der
Nebenwirkungen ergeben
-
interkulturelle Unterschiede (Bsp.: Mülltrennung in Basel vs. Jerusalem)
-
Definition
des
Zielkriteriums
(Bsp.:
nicht
die
Bruchsicherheit
der
Kopfbedeckung, sondern der Schutz des Kopfes sollte bei der Evaluierung
von Fahrradhelmen herangezogen werden)
-
Evaluationsforschung befindet sich immer im Spannungsfeld divergierender
Interessen (Forscher vs. Auftraggeber vs. Öffentlichkeit)
Cordula Rechberger, Stefan Oberhauser
Seite 10 / 10