Drittvariablenkontrolle und Mittelwertvergleich

Methoden II
Drittvariablenkontrolle und Mittelwertvergleiche
Einordnung und Programm
 Zusammenhangsmaße
Vorhergehende
Wochen
• Nominale Daten (Chi Quadrat, Cramers V)
• Metrische Daten (Korrelation nach Pearson)
 Indexkonstruktion
Heutige
Veranstaltung
Edgar Treischl
 Drittvariablenkontrolle
 Mittelwertvergleiche
04.05.15
#2
Was ist Drittvariablenkontrolle?
Hypothetisches Einführungsbeispiel
2000
1000
500
Frauen
0
Einkommen
2500
Streudiagramm: Schuhgröße und Einkommen
Männer
35
37
40
42
45
47
50
Schuhgröße
Edgar Treischl
04.05.15
#3
Was ist Drittvariablenkontrolle?
Hypothetisches Einführungsbeispiel
 Korrelation zwischen Schuhgröße und Einkommen
 Betrachtung ohne Drittvariable: Das Streudiagramm zeigt einen positiven
Zusammenhang zwischen Einkommen und Schuhgröße. Da das Einkommen
nicht auf die Schuhgröße wirken kann, nehmen wir an: Mit steigender
Schuhgröße wächst das Einkommen.
 Betrachtung mit Drittvariable Geschlecht: Wird das Streudiagramm zwischen
Einkommen und Schuhgröße getrennt für Männer und Frauen betrachtet,
gibt es keinen deutlichen Zusammenhang. Die Schuhgröße hat keinen
Einfluss auf das Einkommen.
 Bisher: Analyse von Zusammenhängen zwischen zwei Variablen.
 Problem: Möglicherweise wird der suggerierte Zusammenhang durch
eine dritte Variable erzeugt (z.B. Scheinkorrelation).
Edgar Treischl
04.05.15
#4
Methodik der Drittvariablenkontrolle
 Drittvariablenkontrolle ist ein multivariates Verfahren, das die
vermutete Kausalstruktur in der Datenanalyse berücksichtigt.
 Fragestellung: Wird der Zusammenhang zwischen zwei
Variablen durch eine dritte Variable beeinflusst?
 Anforderungen: Theoretische Überlegungen über Einflüsse von
Drittvariablen vor der Erhebung. Nur auf bekannte und auch
erhobene Variablen kann kontrolliert werden.
Edgar Treischl
04.05.15
#5
Methodik der Drittvariablenkontrolle
Prüfung der Drittvariableneffekte
 Allgemeine Vorgehensweise:
1. Messung des Zusammenhangs zwischen Variable X und Y (Bsp.
Korrelation von Schuhgröße und Einkommen).
2. Messung des Zusammenhangs zwischen X und Y unter der
Bedingung, dass die dritte Variable Z immer die gleichen
Werte/Ausprägungen hat, d.h. die dritte Variable wird „konstant“
gehalten (Bsp. Korrelation von Schuhgröße und Einkommen nur für
Männer und selbe Korrelation nur für Frauen).
3. Vergleich von Messung ohne Drittvariable und Messung mit
Drittvariable.
Edgar Treischl
04.05.15
#6
Methodik der Drittvariablenkontrolle
Drittvariableneffekte
 Kein Drittvariableneffekt
Der Zusammenhang zwischen X und Y
unter Kontrolle auf Z ändert sich nicht.
Zu beachten: Es kann dennoch sein, dass zwischen
X und Y unter Kontrolle auf Z ein Zusammenhang
besteht, wenn dieser separat für weitere Variablen
untersucht wird (siehe hierzu Regressionsanalyse).
Edgar Treischl
Variable Y
z2
z1
Variable X
Variable Y
 Konfundierung / Verzerrung
Variable Z beeinflusst sowohl X als auch
Y. Zwischen X und Y besteht wenn man
den Zusammenhang separat für jede
Ausprägung von Z betrachtet ein anderer
Zusammenhang.
zz1 2
Variable X
04.05.15
#7
Methodik der Drittvariablenkontrolle
Sonderfälle
z2
Variable Y
 Scheinkorrelation
Variable Z beeinflusst sowohl X als
auch Y. Tatsächlich besteht zwischen
X und Y kein Zusammenhang.
z1
 Interaktion
Je nach Ausprägung von Z besteht ein
anderer Zusammenhang zwischen X
und Y.
Variable Y
Variable X
z2
z1
 Suppression (Sonderform der Interaktion)
Je nach Ausprägung von Z ergeben
sich Zusammenhänge zwischen X und
Y, welche sich gemeinsam aufheben.
Variable Y
Variable X
z1
z2
Variable X
Edgar Treischl
04.05.15
#8
Bedingte Assoziationen
Bedingte Assoziation
 Einführung
 Interpretation
 Vorgehen in SPSS
Edgar Treischl
04.05.15
#9
Bedingte Assoziationen
Allgemeine Vorgehensweise
 Bedingte Assoziation
Zusammenhänge nominaler, ordinaler oder metrischer Variablen bei
nominalen oder ordinalen Drittvariablen.
 Vorarbeit:
Theoretische Ableitung einer relevanten Drittvariable Z, die den
vermuteten Zusammenhang zwischen X und Y beeinflussen könnte.
1. Kontingenztabelle ohne Drittvariable (Marginaltabelle) mit
entsprechenden Zusammenhangsmaßen
2. Kontingenztabellen unter Berücksichtigung der Drittvariable
(Partialtabellen) mit entsprechenden Zusammenhangsmaßen
3. Vergleich
(Zu kategorialen Zusammenhangsmaßen siehe 3. Sitzung)
Edgar Treischl
04.05.15
# 10
Umweltfreundliches Verhalten
Autobesitzer
Arbeitstätig
Ja
Ja
15,0
33,33 48,33
Nein
28,33
23,22 51,67
43,33
56,67
Arbeitstätig
Ja
Nein
Ja
21,74
4,35
26,1
Nein
65,22
8,7
73,9
86,96
13,04
100
Edgar Treischl
Nein
Umweltfreundliches Verhalten
Umweltfreundliches Verhalten
Bedingte Assoziationen
Hypothetisches Beispiel
100
Kein Auto
Arbeitstätig
Ja
Nein
Ja
10,81
51,35
62,16
Nein
5,41
32,43
37,84
16,22
83,78
100
04.05.15
# 11
Bedingte Assoziationen
Hypothetisches Beispiel
 Cramers V bei Umweltverhalten und Arbeitstätigkeit
 Betrachtung ohne Drittvariable: Cramers V nimmt einen Wert von 0,233 an.
Es wird daher davon ausgegangen, dass ein Zusammenhang zwischen
Umweltverhalten und Arbeitstätigkeit besteht.
 Betrachtung mit Drittvariable „Auto“: Für Personen mit und ohne Auto ist
Cramers V sehr nahe bei Null. Es wird nicht von einem Zusammenhang
zwischen Umweltverhalten und Arbeitstätigkeit ausgegangen
 Erklärung des Unterschieds: Autobesitzer haben ein schädliches
Umweltverhalten und Personen mit einer Arbeitstätigkeit besitzen häufiger
ein Auto. Werden ausschließlich Personen mit Auto betrachtet, so verliert sich
der Zusammenhang. Gleiches gilt für Personen ohne Auto. Folglich liegt eine
Scheinkorrelation vor.
Edgar Treischl
04.05.15
# 12
Bedingte Assoziationen
Interpretation Drittvariableneffekte
 Drittvariableneffekte für bedingte Assoziationen bei Aufteilung in zwei
Gruppen
ZG beliebig
Zusammenhangsmaß Gesamt
= ZG
Zusammenhangsmaß Gruppe 1
= Z1
Zusammenhangsmaß Gruppe 2
= Z2
Z1 ≠ ZG
&
Z2 ≠ ZG
Konfundierung / Verzerrung
Der Zusammenhang nach der Aufteilung
in Gruppen ändert sich
ZG beliebig
Edgar Treischl
Z1 = ZG
&
Z2 = ZG
Kein Drittvariableneffekt
Der Zusammenhang nach der Aufteilung
in Gruppen ändert sich nicht
04.05.15
# 13
Bedingte Assoziationen
Interpretation Drittvariableneffekte
ZG ≠ 0
Z1 = 0
ZG beliebig
ZG = 0
&
Z2 = 0
Z1 ≠ Z2
Z1 ≠ 0
&
Scheinkorrelation
Durch Aufteilung in Gruppen verschwindet der Gesamtzusammenhang
Interaktion
Je nach Gruppe ergibt sich eine
unterschiedliche Ausprägung des
Zusammenhangsmaß.
Z2 ≠ 0
Suppression
Durch Aufteilung in Gruppen zeigt sich
ein Zusammenhang, der sich zuvor nicht
erkennen ließ.
 Für die Betrachtung von Zusammenhangsmaßen bei kategorialen
Variablen mit mehr als zwei Kategorien ist es erforderlich, die
Drittvariableneffekte für jede Kategorienausprägung zu interpretieren.
Edgar Treischl
04.05.15
# 14
Bedingte Assoziationen
SPSS Syntax
 SPSS-Befehl zur Anforderung bedingter Kontingenztabellen für
nominale oder ordinale Variablen mit den Zusammenhangsmaßen:
crosstabs abhvar by unabhvar by drittvar
/cells count column
/sta chisq phi.
 SPSS-Befehl zur Anforderung der Korrelation als Maß für den linearen
Zusammenhang zwischen metrischen Variablen, siehe vorhergehende
Sitzung. Für jede Subgruppe wird eine Maßzahl berechnet.
Edgar Treischl
04.05.15
# 15
Bedingte Assoziationen
SPSS Anwendungsbeispiel
 These:




Idee: Sport wirkt sich positiv auf die seelische Gesundheit aus!
Je mehr Sport eine Person treibt, desto besser ist ihre seelische Gesundheit.
Aber:
Dies könnte vom Krankheitszustand vermittelt sein: Kranke Personen treiben
ggf. weniger Sport und schätzen Ihre seelische Gesundheit schlechter ein.
 Verwendete Variablen:
 Sport (v18)
 Seelische Gesundheit (v14)
 Krankheiten (v16_1)
Edgar Treischl
04.05.15
# 16
Bedingte Assoziationen
Variablen dichotomisieren
recode v14 (1 thru 3=0)(4 thru 5=1) (-77 = SYSMIS) into
sel_gesundheit.
variable labels sel_gesundheit „Seelische Gesundheit".
value labels sel_gesundheit 1"Gesund"
0"Nicht-Gesund".
Crosstabs v14 by sel_gesundheit.
Edgar Treischl
04.05.15
# 17
Bedingte Assoziationen
Variablen dichotomisieren
recode v18 (1 thru 3=0)(4 thru 7=1) into sport.
variable labels sport "Sportliche Betätigung".
value labels sport 1"Sport"
0"Nicht-Sport".
CROSSTABS v18 by sport.
Edgar Treischl
04.05.15
# 18
Bedingte Assoziationen
Variablen dichotomisieren
 Drittvariable Krankheit
fre v16_1.
compute krank = v16_1.
variable labels krank "Körperliche
Krankheiten".
value labels krank 1" Nicht - Krank"
0"Krank".
CROSSTABS krank by v16_1.
Edgar Treischl
04.05.15
# 19
Bedingte Assoziationen
SPSS Anwendungsbeispiel
 Beachte: Wenn die Zusammenfassung der Kategorien nicht erfolgen
würde, hätten einzelne Ausprägungen der Kreuztabelle weniger als 5
Beobachtungen, weshalb ein Chi-Quadrat Test und somit auch ein
Signifikanztest nicht anwendbar wären.
crosstabs sel_gesundheit by sport /cells count column
/stat chisq phi.
Edgar Treischl
04.05.15
# 20
Bedingte Assoziationen
SPSS Anwendungsbeispiel
>
<
Der Chi-Quadrat
Wert ist mit einem
p-Wert < 0,05
signifikant. Es kann
davon ausgegangen
werden, dass ein
Unterschied
besteht.
Edgar Treischl
04.05.15
# 21
Bedingte Assoziationen
Zusammenhangsmaß
 Interpretation?
 Höchst signifikanter (p  0,001) aber sehr schwacher Zusammenhang (Cramers
V= 0,112) zwischen Sport und seelischer Gesundheit
Edgar Treischl
04.05.15
# 22
Bedingte Assoziationen
Zusammenhangsmaß
crosstabs sel_gesundheit by sport by krank/cells count column /stat
phi.
 Interpretation?
 Signifikanter Effekt (p < 0,05) Effekt zwischen Sport und seelischer Gesundheit
bei gesunden Personen
Edgar Treischl
04.05.15
# 23
Bedingte Assoziationen
Zusammenhangsmaß
crosstabs sel_gesundheit by sport by krank/cells count column /stat phi.
 Interpretation?
 Signifikanter (p < 0,05) aber sehr schwacher Zusammenhang (V= 0,095)
zwischen Sport und seelischer Gesundheit bei kranken Personen
 Kein Drittvariableneffekt
Edgar Treischl
04.05.15
# 24
Partielle Korrelationen
Partielle Korrelation
 Einführung
 Interpretation
Edgar Treischl
04.05.15
# 25
Partielle Korrelation
Allgemeine Vorgehensweise
 Partielle Korrelation
Zusammenhänge zwischen zwei metrischen Variablen und einer
metrischen Drittvariable.
1. Korrelationskoeffizient zwischen X und Y ohne Drittvariable
2. Partieller Korrelationskoeffizient, d.h. die Korrelation von X und Y
bei welcher der Einfluss der Drittvariable Z herausgerechnet wird
3. Vergleich
Edgar Treischl
04.05.15
# 26
Partielle Korrelation
Allgemeine Vorgehensweise
 Berechnung des Partiellen Korrelationskoeffizienten
rXY
Korrelation von X und Y
rXZ
Korrelation von X mit Drittvariable Z
rYZ
Korrelation von Y mit Drittvariable Z
rYX|Z
Korrelation von X und Y ohne den Einfluss von
Drittvariable Z
|
Edgar Treischl
04.05.15
# 27
Partielle Korrelationen
Hypothetisches Beispiel
1
2
3
10
2
6
6
8
3
10
9
6
4
13
12
4
Y
Y
4
4
10
Z
3
2
1
 X oder Y sinken, Z steigt
5
 steigt Z, sinken X und Y
3
2
5
Y
10
X
5
Person
X
10
1
5
10
Z
→ Korrelation von X und Y
wird vollständig erklärt
(Scheinkorrelation)
Korrelationen
rYZ = -0,99
rXZ = -1
rXY = 0,99
1
2
5
→ X und Y ändern sich immer
gleich, wenn sich Z ändert
10
Z
3
4
5
Edgar Treischl
10
X
rXY | Z = 0
04.05.15
# 28
Partielle Korrelationen
Hypothetisches Beispiel
1
2
3
2
2
6
6
15
3
10
9
3
4
13
12
11
Y
4
2
1
5
3
2
X
10
1
5
10
Z
Z
→ Z hat keinen Einfluss auf
die Korrelation von X und Y.
Korrelationen
rYZ = 0,07
rXZ = 0,07
rXY = 0,99
10
2
5
4
3
1
5
Edgar Treischl
4
3
 Verändern sich X und Y, so
ändert sich Z nicht.
→ Die Korrelation von X und
Y wird nicht durch Z erklärt,
es liegt kein Drittvariableneffekt vor.
Y
10
Z
5
Y
10
X
5
Person
10
X
rXY | Z = 0,99
04.05.15
# 29
Partielle Korrelationen
Hypothetisches Beispiel
1
2
3
2
2
6
7
6
3
10
10
3
4
13
2
9
Y
Y
3
2
1
 Korrelation von X und Y ist nahe
Null,
4
5
 Korrelationen von Y mit Z -0,4
10
Z
→ Z unterdrückt ohne Drittvariablenkontrolle den tatsächlichen
Zusammenhang (Suppression).
Edgar Treischl
2
10
1
X
5
4
10
Z
Z
Korrelationen
rYZ = -0,40
rXZ = 0,70
rXY = 0,06
10
 Korrelationen von X mit Z 0,7
4
2
5
→ Korrelation von X und Y ohne Z
weicht stark von der Korrelation mit
Z ab.
3
5
Y
10
X
5
Person
3
1
5
10
X
rXY | Z = 0,53
04.05.15
# 30
Partielle Korrelationen
Drittvariableneffekte
rxy ≠ rxy|z
rxy ≠ 0, rxy|z = 0
rxy < rxy|z
Konfundierung / Verzerrung
Es bleibt ein veränderter Zusammenhang
nach Konstanthalten der Drittvariable
Scheinkorrelation
Durch Konstanthalten der Drittvariable
verschwindet der Gesamtzusammenhang
Suppression
Der Zusammenhang wird durch
Konstanthalten der Drittvariable stärker.
Hinweis: Ein Interaktionseffekt kann mit Hilfe der partiellen
Korrelation bei metrischen Drittvariablen nicht diagnostiziert
werden. Hierfür wird eine Regressionsanalyse benötigt.
Edgar Treischl
04.05.15
# 31
Partielle Korrelationen
SPSS Syntax
 SPSS Syntax zur Anforderung partieller Korrelationen:
partial corr unabvar with abhvar by Drittvar
/statistics=corr descriptives.
.
corr gibt die Korrelationstabelle aller Variablen untereinander
descriptives gibt zusätzlich Fallzahl, Mittelwert und
Standardabweichung der Variablen
Edgar Treischl
04.05.15
# 32
Mittelwertvergleiche
Mittelwertvergleiche
 Einführung
 Interpretation
 Vorgehen in SPSS
Edgar Treischl
04.05.15
# 33
Motivation statistischer
Testverfahren
 In der Sozialforschung interessiert man sich häufig für
Mittelwertvergleiche
 „Ist das Haushaltseinkommen in unserer Stichprobe größer als in
Deutschland?“
 „Sind Männer im Durchschnitt zufriedener mit ihrer Gesundheit als
Frauen?“
 Mittelwertunterschiede in der Stichprobe können entweder auf
einen realen Unterschied in der Grundgesamtheit zurück geführt
werden, oder auf einen zufällig auftretenden Unterschied, der
durch die Zufallsauswahl entstanden ist.
 Um zu prüfen, ob ein Mittelwertunterschied rein zufällig ist oder
ein relevanter Unterschied in der Grundgesamtheit vorliegt,
werden statistische Testverfahren eingesetzt.
Edgar Treischl
04.05.15
# 34
Verschiedene Varianten von
Mittelwertvergleichen
 Entscheidungskriterien bei der Auswahl des
Verfahrens:




Unabhängige oder abhängige Messung der Variable(n):
Unabhängig: Bsp. Einkommen von Frauen und Männern;
Abhängig: Einkommen der Eltern und eigenes Einkommen
Zahl der Ausprägungen der unabhängigen Variable: Zwei
Ausprägungen: Mittelwertvergleich; Mehr als zwei
Ausprägungen: Varianzanalyse
Skalenniveau der abhängigen Variable(n): Metrisch oder
ordinal
Verteilung der abhängigen Variable: Normalverteilt oder nicht
normalverteilt
Edgar Treischl
04.05.15
# 35
Entscheidungskriterien bei der
Auswahl des Verfahrens
 Metrische (und bei n >= 30 normalverteilte) abhängige
Variable: t-Test

t-test bei einer Stichprobe (Vergleich mit Referenzwert)

Zwei-Stichproben t-Test bei unabhängigen Stichproben

Zwei-Stichproben t-Test bei abhängigen Stichproben
 Nonparametrische Testverfahren

Bei n < 30 und metrisch nicht normalverteilter abhängiger Variable

Wilcoxon Rangsummentest
Edgar Treischl
04.05.15
# 36
Ein-Stichproben T-Test
 Der Ein-Stichproben T-Test prüft, ob ein Variablenmittelwert
in einer Stichprobe sich von einem vom
Forscher vermuteten Wert
in der Grundgesamtheit
signifikant unterscheidet.
 Zu prüfende Hypothesen:
 Beispiel für H1= Gemessenes Netto-Haushalteinkommen unserer
Stichprobe unterscheidet sich signifikant zu 3.069 € (Quelle: Destatis
2012)
 Beispiel für H0: Gemessenes Netto-Haushalteinkommen unterscheidet
sich nicht signifikant zu 3.069 € (Quelle: Destatis 2012)
Edgar Treischl
04.05.15
# 37
Ein-Stichproben T-Test:
Modellvoraussetzung
SPSS Syntax: t-test testval Wert /variables abvar.
1. Auswahl der Befragten mit einer Zufallsstichprobe (iid)
2. Mindestens intervallskalierte Daten
3. Normalverteilte Variable: Die Daten werden auf Normalverteilung
mittels des Kolmogorov-Smirnov-Anpassungstest geprüft.
Bei n >= 30:
Asymptotisch normalverteilte Variable. D.h. bei einer Stichprobengröße von mehr als
30 Beobachtungen kann angenommen werden, dass die Variable normalverteilt ist.Bei
keiner Normalverteilung: Wilcoxons Vorzeichen-Rangtest.
Edgar Treischl
04.05.15
# 38
Ein-Stichproben T-Test: Prüfung der
Normalverteilungsannahme
1. Grafische Analyse
SPSS Syntax :
frequencies Variable /format=notable/histogram=normal.
2. Kolmogorov-Smirnov-Anpassungstest:
Der KS-Test prüft, ob die Daten einer bestimmten Verteilung folgen, hier der
Normalverteilung.
– H0: Merkmal ist normalverteilt.
– H1: Merkmal ist nicht normalverteilt.
Bei p > 0,05 kann die H0 beibehalten werden ( Merkmal ist normalverteilt)
SPSS Syntax :
npar test/k-s(normal) = Variable.
Edgar Treischl
04.05.15
# 39
Ein-Stichproben T-Test:
Anwendungsbeispiel
 Beispiel
Liegt das Netto-Haushalteinkommen (
3.069 € ( )?
) unserer Stichprobe (v53) bei
1. Festlegung von H0 und H1
𝐻0 : 𝑥 = 3.069 €
𝐻1 : 𝑥 ≠ 3.069 €
2. Wahl der Irrtumswahrscheinlichkeit (α) für H0
α wird üblicherweise in den Sozialwissenschaften auf 0.05 gesetzt.
Edgar Treischl
04.05.15
# 40
Ein-Stichproben T-Test:
Anwendungsbeispiel
3. Grafische Prüfung auf Normalverteilung
temp.
select if einkommen < 15001.
frequencies einkommen /format = notable
/histogram = normal.
 Die grafische Betrachtung weist auf eine
starke Abweichung von der
Normalverteilung (durchgezogene
schwarze Linie).
 Unplausible Werte ausschließen!
Edgar Treischl
04.05.15
# 41
Ein-Stichproben T-Test:
Anwendungsbeispiel
3. Festlegung einer Prüfgröße bzw. Teststatistik unter
Berücksichtigung der Modellvoraussetzungen
Kolmogorov-Smirnov-Test auf Normalverteilung:
temp.
select if einkommen < 15001.
Ausschluss von Personen mit vermutlich zu
hohem Netto-Haushaltseinkommen
npar test/k-s(normal)=einkommen.
KS-Test auf Normalverteilung
Der KS-Test weist darauf hin, dass
die Verteilung der Daten signifikant
von einer Normalverteilung abweicht
(p < 0,001). Da aber die Fallzahl mit
n = 722 größer als 30 ist, kann
asymptotisch angenommen werden,
dass die Variable normalverteilt ist.
Edgar Treischl
04.05.15
# 42
Ein-Stichproben T-Test:
Anwendungsbeispiel
4. Berechnung der Prüfgröße und Entscheidung über die Verwerfung
von H0
temp.
select if einkommen < 15001.
t-test /variables einkommen
/testval=3069.
Mittelwert: Der Mittelwert der Stichprobe liegt bei 2645,79 €.
Signifikanztest: Da T nicht in [-1.96, 1.96] ist, ergibt sich mit 0.000 ein p-Wert von kleiner
als 0.05. Somit ist die H0 abzulehnen. Das Haushaltseinkommen weicht signifikant von
3069 € ab. Mit einer Wahrscheinlichkeit von 95 % ist der wahre Mittelwert der Online
Stichprobe 539,71 € bis 306,69 € kleiner als die privaten Haushalte in Deutschland.
H0 wird abgelehnt: Das mittlere Haushaltseinkommen ist signifikant von 3069 €
verschieden.
Edgar Treischl
04.05.15
# 43
Zwei-Stichproben T-Test für
unabhängige Stichproben
 Zwei-Stichproben T-Test für unabhängige Stichproben:
Der Zwei-Stichproben T-Test prüft, ob in der Grundgesamtheit ein in der
Stichprobe beobachteter Variablenmittelwert einer Gruppe (
), dem
einer anderen Gruppe (
) entspricht.
 Zu prüfende Hypothesen:
 Beispiel für H0: Haushaltseinkommen von Männern (
dem Haushaltseinkommen von Frauen (
).
Edgar Treischl
) entspricht
04.05.15
# 44
Zwei-Stichproben T-Test für
unabhängige Stichproben
SPSS Syntax:
t-test groups unabvar(GruppenWert1 GruppenWert2) /variables = abvar.
Modellvoraussetzung für den Zwei-Stichproben T-Test bei
unabhängigen Stichproben:
1. Auswahl der Befragten mit einer Zufallsstichprobe (iid)
2. Mindestens intervallskalierte Daten für beide Gruppen
3. Normalverteilte Mittelwerte für beide Gruppen
 Bei n >= 30 in jeder Gruppe: Hat jede Gruppe mehr als 30
Datenpunkte, so können die Daten als asymptotisch normalverteilt
angenommen werden.

Bei n < 30 mindestens einer Gruppe: Prüfung der Gruppe in welcher
zu wenig Beobachtungen vorliegen mittels des Kolmogorov-SmirnovAnpassungstest. Bei keiner Normalverteilung: Wilcoxon Rangsummentest.
Edgar
Treischl

04.05.15
# 45
Zwei-Stichproben T-Test für
unabhängige Stichproben
 Prüfung auf Varianzgleichheit:
Haben beide Gruppen die gleichen Varianzen, lässt sich diese
Information für einen effizienteren T-Test nutzen (Zwei-Stichproben TTest bei gleichen Varianzen). Daher wird mittels des F-Test auf
Varianzgleichheit geprüft.
 Levene F-Test:
Der Levene F-Test prüft, ob zwei oder mehr Gruppen die gleiche Varianz haben.
– H0: Gruppen haben gleiche Varianz.
– H1: Gruppen haben ungleiche Varianz.
Bei p > 0,05 kann die H0 beibehalten werden und der T-Test für gleiche Varianzen
wird betrachtet. Wird die H0 abgelehnt, wird der T-Test für ungleiche Varianzen
verwendet.
SPSS Syntax: Der F-Test wird gleichzeitig mit dem Befehl zum ZweiStichproben T-Test aufgerufen.
Edgar Treischl
04.05.15
# 46
Zwei-Stichproben T-Test für
unabhängige Stichproben: Beispiel
 Beispiel: Wir vermuten, dass Frauen ein geringeres
Haushaltseinkommen haben als Männer.
1. Festlegung von H0 und H1
2. Wahl der Irrtumswahrscheinlichkeit (α) für H0
α wird auf 0.05 gesetzt.
Edgar Treischl
04.05.15
# 47
Zwei-Stichproben T-Test für
unabhängige Stichproben: Beispiel
3. Prüfen der Modellvoraussetzungen
Prüfung der Normalverteilung des Haushaltseinkommen getrennt nach Geschlecht:
temp.
temp.
select if v55 = 1 & einkommen < 15001.
npar test/k-s(normal) = einkommen.
select if v55 = 2 & einkommen < 15001.
npar test/k-s(normal) = einkommen.
 Sowohl Männer als auch Frauen haben ein nicht-normalverteiltes Haushaltseinkommen. Da die Fallzahl in beiden Fällen 30 überschreitet, können
asymptotisch normalverteilte Daten angenommen werden.
Edgar Treischl
04.05.15
# 48
Zwei-Stichproben T-Test für
unabhängige Stichproben: Beispiel
4. Berechnung der Prüfgröße und Entscheidung über die Verwerfung
von H0
temp.
select if einkommen < 15001.
t-test /variables = einkommen /groups = v55 (1 2).
 Prüfung auf Varianzgleichheit:
Der F Test lehnt die H0 „Varianzen sind gleich“, mit einem p-Wert von 0,599
nicht ab. Es besteht kein signifikanter Varianzunterschied im Haushaltseinkommen zwischen Männern und Frauen. Somit kann der T-Test für
unabhängige Stichproben bei gleichen Varianzen verwendet werden (erste
Zeile).
Edgar Treischl
04.05.15
# 49
Zwei-Stichproben T-Test für
unabhängige Stichproben: Beispiel
Mittelwert: Das mittlere Haushaltseinkommen ist in der Stichprobe mit 2741,63 € höher als
das der Frauen mit 2575,85 €.
Signifikanztest: Da T in [-1.96, 1.96] liegt, ergibt sich mit 0,171 ein p-Wert, welcher größer
als 0,05 ist. Somit ist die H0 beizubehalten.
H0 wird nicht abgelehnt: Das mittlere Haushaltseinkommen von Frauen und Männern
unterscheidet sich nicht signifikant.
Edgar Treischl
04.05.15
# 50
Zusammenfassung:
Mittelwertvergleiche
Stichprobe
Variable(n)
Ein-StichMetrisch
proben-Fall
Metrisch
Verteilung
Test
NV oder n > 30
t-Test (eine Stichprobe)
NV, n > 30
t-Test (unabhängige Stichproben)
t-test/testval=Wert/var=abvar.
t-tests groups = unabvar(values)/variable
=abvar.
Unabhängige
Stichprobe
Keine NV, n < 30
Ordinal
Metrisch
Abhängige
Stichprobe
Ordinal
Edgar Treischl
Mann-Whitney-U-Test
npar tests/m-w abvar by unabvar (values).
Mann-Whitney-Test
npar tests/m-w abvar by unabvar (values).
NV oder n > 30
t-Test (abhängige Stichproben)
Keine NV, n < 30
Wilcoxon-Rangsummen-Test
t-tests pairs = var1 with var2 (paired).
npar tests wilcoxon = var1 with var2 (paired).
Wilcoxon-Vorzeichen-Test
npar tests wilcoxon = var1 with var2 (paired).
04.05.15
# 51
Übungsaufgaben
 Je höher die Bildung, desto besser die Gesundheit? In der
bildungssoziologischen Forschung wurde oft ein Zusammenhang
zwischen Bildung (v65) und Gesundheitsverhalten (v12) beobachtet.
Überprüfen Sie mit einem geeigneten Verfahren, ob dies auch in
unserer Stichprobe zutrifft. Kontrollieren Sie ferner, ob sich der
Bildungseffekt durch das Wissen der Probanden erklären lässt.
 Sie haben die Vermutung, dass geschlechtsspezifische Unterschiede
(v55) in der Gesundheitsvorsorge vorliegen. Rekonstruieren Sie den
Index „Gesunde Ernährung“ aus der letzten Sitzung und überprüfen Sie
ihre Hypothese anhand eines geeigneten statistischen Test.
Edgar Treischl
04.05.15
# 52