Statistik Auffrischung - Universität Flensburg

Fortgeschrittene Statistik –
Statistik Auffrischung
DATENERHEBUNG: PRIMÄR- UND
SEKUNDÄRANALYSEN, VERTEILUNGEN:
HÄUFIGKEITSTABELLEN, GRAFISCHE
DARSTELLUNGEN: BALKENDIAGRAMME,
HISTOGRAMME, ZUSAMMENHÄNGE:
KREUZTABELLEN, UNABHÄNGIGKEITSTEST (CHI QUADRAT),ZUSAMMENHANGSMAßE: PHI,
CRAMERS V, KENDALL TAU
Zentrale Methodenlehre, Europa Universität - Flensburg
Datenerhebung
2
Datenerhebung:
Um eine Untersuchung durchzuführen, muss man entscheiden, welche Daten
man auswerten/analysieren möchte: Daten, die man selber erhebt, oder Daten,
die schon von jemand anderem erhoben wurden. Abhängig vom Ursprung der
Daten unterscheidet man zwischen:
 Primäranalyse: In diesem Fall werden die benötigen Daten selbst erhoben
und von demjenigen, der die Daten erhoben hat, auch zuerst ausgewertet.
 Sekundäranalyse: In diesem Fall wertet man von anderen erhobene und in
der Regel bereits ausgewertete Daten ein weiteres Mal aus. Bei dieser Art der
Analyse können die Daten ursprünglich zu einem völlig anderen Zweck
erhoben worden sein. Wichtig ist nur, dass sie dem Untersuchungszweck der
erneuten Analyse dienlich sind.
Quelle: Uwe Gehring, Cornelia Weins, Grundkurs Statistik für Politologen, VS Verlag für
Sozialwissenschaften.
William Tarazona, Fortgeschrittene Statistik
Sekundäranalyse
3
Um Datensätze, die von anderen erhoben wurden, benutzen zu können, muss man
wissen, welche Variablen diese Datensätze beinhalten. Sehr oft reichen die VariablenBeschreibungen, die man in den Datensätzen lesen kann, nicht aus, um zu verstehen,
welche Information erhoben wurde.
Wenn man mit großen bekannten Datensätzen arbeitet – wie mit solchen, die wir im
Seminar benutzen, verfügt man in der Regel über Dokumentationen, die dabei helfen,
die Variablen des Datensatzes zu verstehen:
 Codebücher: Diese Dokumente sind ausführliche Berichte über die Variablen des
Datensatzes: was sie beinhalten, ihre Ausprägungen usw. Manchmal werden auch
die ursprünglichen Fragen mitgeteilt.
 Fragebogen: Diese Dokumente enthalten die Fragen, die von den Befragten zu
beantworten waren.
 Online Dienste: Einige Betreiber von Datensätzen bieten die Möglichkeit an, alle
nötigen Informationen über ihren Datensatz online zu browsen.
Die Dokumentation der Datensätze ist wichtig - nicht nur, weil die Beschreibung der
Variablen nicht genug ist, sondern weil es immer die Möglichkeit gibt, dass diese
Beschreibungen Fehler enthalten.
William Tarazona, Fortgeschrittene Statistik
Datensatz - ALLBUS
4
Mit der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS)
werden aktuelle Daten über Einstellungen, Verhaltensweisen und Sozialstruktur
der Bevölkerung in der Bundesrepublik Deutschland erhoben.
•
•
•
Betreiber:
GESIS – Leibniz-Institut für
Sozialwissenschaften e.V. GESIS
Erste Erhebung: 1980
Häufigkeit: In der Regel alle zwei Jahre
URL: http://www.gesis.org/allbus/
William Tarazona, Fortgeschrittene Statistik
Datensatz - GSS
5
Der General Social Survey (GSS) ist eine soziologische Studie, die
demographische Eigenschaften und Einstellungen von US Einwohner erfasst.
•
•
•
Betreiber: The National Data
Program for the Sciences, NORC at
the University of Chicago
Erste Erhebung: 1972
Häufigkeit: heutzutage jedes zweite
Jahr
URL: http://www3.norc.org/Gss+website/
William Tarazona, Fortgeschrittene Statistik
Datensatz - PISA
6
Das Programme for International Student Assessment (PISA) ist eine Studie von
der OECD, durchgeführt mit dem Ziel alltags- und berufsrelevante Kenntnisse
und Fähigkeiten 15-Jähriger weltweit zu messen.
•
•
•
•
Betreiber: Organisation for Economic
operation and Development (OECD)
Erste Erhebung: 2000
Häufigkeit: alle drei Jahre
Nützliche URL: pisa200x.acer.edu.au
Co-
URL: www.oecd.org/de/pisa
William Tarazona, Fortgeschrittene Statistik
Übung 1
7
Übung 1:
 (ALLBUS 2000) Findet die genaue Formulierung der Fragen heraus, die
gestellt wurden, um die Variablen “v45”, “v61” und “ v200” zu erzeugen.
 (ALLBUS 2000) Suchen Sie einige Variable heraus, die Informationen über
die Eltern der Befragten enthalten.
 (GSS 1994) Findet die genaue Formulierung der Fragen heraus, die gestellt
wurden, um die Variablen “nateduc”, “postlf2” und “mastersp” zu erzeugen.
 (GSS 1994) Was beinhaltet die Variable “born”? Gibt es ein Problem mit der
Datensatz-Beschreibung der Variable? Was ist geschehen?
William Tarazona, Fortgeschrittene Statistik
Deskriptive Statistik
8
Das Ziel der deskriptiven Statistik ist die statistische Beschreibung der
Merkmale/Variablen bzw. mögliche Zusammenhänge zwischen 2 oder mehr der
erhobenen Variablen eines Datensatzes zu untersuchen.
Die deskriptive Statistik beinhaltet somit alle Verfahren, mit denen sich durch die
Beschreibung von Daten einer Grundgesamtheit Informationen gewinnen lassen. Zu
diesen Methoden bzw. Verfahren gehören unter anderem die Erstellung von Grafiken,
Tabellen und die Berechnung von deskriptiven Kennzahlen. (Quelle: Deskriptive Statistik und
moderne Datenanalyse: Eine computergestützte Einführung mit Excel, PASW (SPSS) und STATA, Thomas Cleff,
Springer-Verlag, 2012)
Die Arbeit, um eine Variable statistisch zu beschreiben, kann wie folgt unterteilt
werden:
 Beschreibung der Verteilung bzw. Verteilungsform einer Variable:
Häufigkeitstabellen und grafische Darstellungen wie z.B. Histogramme werden
eingesetzt.
 Beschreibung der Variablen-Mitte: Das geschieht mit Hilfe der Lagemaße.
 Beschreibung der Streuung einer Variable: Das geschieht mit Hilfe der
Streuungsmaße.
William Tarazona, Fortgeschrittene Statistik
Häufigkeitstabelle - Beispiel
9
Frage aus dem ALLBUS 2010:
(100*12/1362)% = 0,88%
12+27+98 bzw. 39+98
Meine
Bezeichnungen:
Absolute
Häufigkeit: hi
Relative
Häufigkeit: fi
Kumulierte
absolute
Häufigkeit: Hi
Kumulierte
relative
Häufigkeit: Fi
n: Stichprobenumfamg
39,21%+30,32%
William Tarazona, Fortgeschrittene Statistik
Häufigkeitstabelle mit SPSS
10
Erstellen Sie mit dem Datensatz ALLBUS 2012 die Häufigkeitstabelle für die
Variable v104, die die Antworten der Befragten für die Aussage „Ein Klein Kind
wird sicherlich darunter leiden, wenn seine Mutter berufstätig ist.“ beinhaltet.
 Kreieren Sie die Syntax-Datei HäufigkeitT.sps mit dem SPSS-Befehl für die
Erstellung einer Häufigkeitstabelle.
 Wie viel Prozent der Befragten sind mit der Aussage tendenziell einverstanden?
So wird eine Häufigkeitstabelle in SPSS erstellt:
Häufigkeitstabelle
erstellen:
Datei herunterladen
Datei mit
SPSS
öffnen
Analysieren 
Deskriptive
Statistiken 
Häufigkeiten
Variable
v104
auswählen
Einfügen
anklicken
Markierten Befehl
ausführen lassen
SPSS Output
interpretieren
William Tarazona, Fortgeschrittene Statistik
Häufigkeitstabelle mit SPSS
11
Häufigkeitstabelle erstellen:
1
Ausgewählte
Variable; Man kann
mehrere Variablen
auswählen
2
Die
Auswahlmarkierung
muss angeklickt sein
Man kann
entweder OK
oder Einfügen
anklicken
William Tarazona, Fortgeschrittene Statistik
Häufigkeitstabelle mit SPSS
12
Häufigkeitstabelle: Syntax-Datei und Output:
42,6% der Befragten sind mit der
Aussage tendenziell einverstanden.
Verschiedene Art
fehlende Werte
hi
fi
fi
Fi
Spalten
William Tarazona, Fortgeschrittene Statistik
Übung 2 - Replikation
13
Übung 2: Replikation Beispiel
Replizieren Sie aus dem Artikel „Sohn oder Tochter, Natur oder Kultur?
Geschlechterpräferenzen für Kinder im europäischen Vergleich“ die Information
der Tabelle 1.
Um die Replikation zu erstellen, arbeiten Sie in Gruppen und beantworten Sie
folgende Fragen:
Finden Sie heraus:
 Welcher Datensatz wird benötigt?
 Wie wurde die Information in der Tabelle 1 gefiltert und gebaut?
 In dem Datensatz: Welche Variablen wurden (möglicherweise) benutzt?
William Tarazona, Fortgeschrittene Statistik
Balkendiagramme mit SPSS
14
Balkendiagramm erstellen – mit der Option Häufigkeiten:
1
2
3
Nicht nur
Balkendiagramme
sind hiermit
möglich
hi
fi
William Tarazona, Fortgeschrittene Statistik
Balkendiagramme mit SPSS
15
Balkendiagramm erstellen – mit der Option Grafik/Alte Dialogfelder:
1
5
fi
2
5
3
Frau, arbeitet nicht bei
Kleinkind
4
Man kann entweder OK oder
Einfügen anklicken
William Tarazona, Fortgeschrittene Statistik
Histogramme mit SPSS
16
Histogramm erstellen – mit der Option Grafik/Alte Dialogfelder:
1
2
3
Man kann entweder OK oder
Einfügen anklicken
William Tarazona, Fortgeschrittene Statistik
Histogramme mit SPSS
17
Histogramm erstellen – mit der Option Diagrammerstellung:
1
4
Die Schaltfläche
Anwenden muss für jeden
2
Titel oder jede Fußnote
angeklickt werden
Grafik von unten
hochschieben
Das Resultat, wenn man
die Schaltfläche Einfügen
anklickt
3
5
Gleiche Optionen
wie bei alten
Dialogfeldern
Man kann entweder OK oder Einfügen anklicken
William Tarazona, Fortgeschrittene Statistik
Zusammenhänge: Kreuztabellen
18
Eine andere Anwendung für Häufigkeitsverteilungen
ist die Erstellung von Kreuztabellen für die
Untersuchung von möglichen Beziehungen zwischen 2
Kategorialen Merkmalen.
William Tarazona, Fortgeschrittene Statistik
Zusammenhänge - Kreuztabellen
19
Beispiel:
Hypothese:
„Man
vermutet,
dass
Kinder in der Schule
weniger randalieren, je
mehr Sport sie treiben.“
Kann diese Vermutung
anhand der folgenden
Fragen analysiert werden?
Quelle: Kinderpanel, Mündlicher Fragebogen für die 8- bis 9-jährigen Kinder, Deutsches Jugendinstitut
http://www.dji.de/cgi-bin/projekte/output.php?projekt=71
William Tarazona, Fortgeschrittene Statistik
Zusammenhänge - Kreuztabellen
20
Beispiel:
Daten: Die Antworten
von 20 Kindern
William Tarazona, Fortgeschrittene Statistik
Zusammenhänge - Kreuztabellen
21
Beispiel:
KaputtMachen: Abhängiges Merkmal
SportTreiben: Unabhängiges Merkmal
Häufigkeitstabelle
Kreuztabelle der
beobachteten Werte
:Hauptdiagonale
:Nebendiagonale
:Randverteilungen
Häufigkeitstabelle
William Tarazona, Fortgeschrittene Statistik
Zusammenhänge - Kreuztabellen
22
Beispiel:
Hypothese:
„Man vermutet, dass Kinder in der
Schule weniger randalieren, je
mehr Sport sie treiben.“
Zeilen-Prozentuierung
Kreuztabelle der
beobachteten Werte
Spalten-Prozentuierung
William Tarazona, Fortgeschrittene Statistik
Kreuztabellen in SPSS - Beispiel
23
Im ALLBUS 2010 wurden folgende Fragen gestellt:
• Die Namen der Variablen sind
V38 und V72.
• V38 wurde so kodiert: 1:
„stimme voll zu“ bis 4: „stimme
überhaupt nicht zu“. 8: „Weiß
nicht“ und 9: „KA (keine
Angabe)“ sind fehlende Werte.
• V72 wurde so kodiert: 1: „sehr
stark“ bis 5: „überhaupt nicht“.
9: „KA“ ist ein fehlender Wert.
• Die Frage ist: Gibt es einen
Zusammenhang zwischen den
Antworten in v38 und v72?
Wenn ja, welche Art von
Zusammenhang?
William Tarazona, Fortgeschrittene Statistik
Kreuztabellen in SPSS - Beispiel
24
Erstellung einer Kreuztabelle von beobachteten Werten mit SPSS:
1
2
Unabhängiges
Merkmal
Abhängiges
Merkmal
3
William Tarazona, Fortgeschrittene Statistik
Kreuztabellen in SPSS - Beispiel
25
Erstellung einer Kreuztabelle mit SPSS: Zellen
Beobachtete Werte
Erwartete Werte
Zahlen, die man erwarten würde, wenn es keinen
Zusammenhang zwischen den zwei Merkmalen gibt.
Zeilen-%
Spalten-%
Globale-%
William Tarazona, Fortgeschrittene Statistik
Kreuztabellen in SPSS - Beispiel
26
Outputs und Syntaxdateien:
Welche Art des Zusammenhangs gibt es zwischen den Variablen?
William Tarazona, Fortgeschrittene Statistik
Statistik: Hypothesentests zusammengefasst
27
Hypothesentests: Statistische Verfahren, um Vermutungen über die Population zu falsifizieren –
wiederlegen/verwerfen - (oder nicht).
Aufbau: Es müssen 2 Hypothesen formuliert werden: H0 (Nullhypothese) und HA
(Alternativhypothese). Man kann Vermutungen über einen bestimmten Parameter der Population (z.B.
Mittelwert: µ) oder einen möglichen Zusammenhang zwischen 2 oder mehr Merkmalen aufstellen.
Beispiele:
Über
einen
Population:
Parameter
H0: µ=1500 Euro
HA: µ>1500 Euro
der
Über einen Zusammenhang in der Population:
H0: Es gibt keinen Zusammenhang zwischen dem Geschlecht
des Arbeitsnehmer und dessen Einkommen
HA: Es gibt einen Zusammenhang zwischen dem Geschlecht des
Arbeitsnehmer und dessen Einkommen
Signifikanzniveau (α): α ist die Wahrscheinlichkeit, H0 zu verwerfen, wenn H0 wahr ist (ein Fehler!).
α wird vor der Durchführung des Hypothesentests festgesetzt. Es kann so klein wie 0.01 und so groß wie
0.1 sein. Als Kompromiss zwischen Risiko und Informationsgehalt des Hypothesentests wird α als 0.05
festgesetzt.
P-Wert: Dieser Wert wird von allen statistischen Programmen bei Hypothesentests berechnet. P-Werte
werden benutzt, um die Entscheidung zu treffen, ob die Nullhypothese H0 statistisch verworfen werden
sollte oder nicht. Die Regel lautet:
Wenn P-Wert < α dann H0 verwerfen
William Tarazona, Fortgeschrittene Statistik
Chi-Quadrat: Unabhängigkeitstest
28
Der
Chi-Quadrat-Unabhängigkeitstest
wird
eingesetzt,
um
mögliche
Zusammenhänge zwischen 2 Merkmalen in der Population zu untersuchen, wobei
zumindest eine davon qualitativ (Kategorial – Ordinal oder Nominal) ist. Um den
Test durchzuführen, wird anhand der Stichprobeninformation der zwei Merkmale
eine Kreuztabelle erstellt.
Im Allgemeinen gibt es eine Stichprobe mit einem Merkmal K1 mit „k“
Ausprägungen: SK11,SK21,…SKk1 und mit einem zweiten Merkmal K2 mit „m“
Ausprägungen: SK12,SK22,…SKm2. Die resultierende Kreuztabelle ist dann
entweder eine Tabelle mit „k“ Zeilen und „m“ Spalten, das heißt: k*m oder mit
„m“ Spalten und „k“ Zeilen , das heißt: m*k.
In unserem Kreuztabellen-Beispiel haben wir einen Zusammenhang zwischen
v38 und v72 gefunden. Die Frage ist: Besteht dieser Zusammenhang in der
Population ebenfalls? Darüber hinaus, falls ein Zusammenhang in der Population
besteht, wie stark ist dieser Zusammenhang?
William Tarazona, Fortgeschrittene Statistik
Unabhängigkeitstest in SPSS - Beispiel
29
V38 und V72 sind ordinal skaliert, also benutzen wir einen Chi-QuadratUnabhängigkeitstest, und der Hypothesentest lautet:
H0: Es gibt keinen Zusammenhang dazwischen, wie stark man an Politik interessiert ist,
und der Meinung über Einkommen und Leistung.
HA: Es gibt einen Zusammenhang dazwischen, wie stark man an Politik interessiert ist, und
der Meinung über Einkommen und Leistung.
Prozedur:
•
•
•
•
•
•
•
•
Allbus2010.sav runterladen
Datei mit SPSS öffnen
Um diesen Test zu machen: Analysieren  Deskriptive
Statistiken  Kreuztabellen
v38 in Zeile(n) schieben
V72 in Spalten schieben (kann umgekehrt sein)
Statistiken Option anklicken und Chi-Quadrat auswählen
Weiter und dann OK anklicken
SPSS-Output interpretieren
William Tarazona, Fortgeschrittene Statistik
Unabhängigkeitstest in SPSS - Beispiel
30
Chi-Quadrat-Unabhängigkeitstest:
Chiemp
2
1
3
Variablen auswählen. Es ist egal, was in
den Zeilen und was in den Spalten
steht.
William Tarazona, Fortgeschrittene Statistik
Unabhängigkeitstest in SPSS - Beispiel
31
Komponenten des Outputs:
ObservedTabelle
Chi-QuadratUnabhängigkeitstest
William Tarazona, Fortgeschrittene Statistik
Unabhängigkeitstest in SPSS - Beispiel
32
Erstellung der erwartete-Tabelle:
Jeder Wert ist
größer als 5
2
1
3
William Tarazona, Fortgeschrittene Statistik
Unabhängigkeitstest in SPSS - Beispiel
33
Output - Unabhängigkeitstest:
Chiemp
P-Wert für den Unabhängigkeitstest.
Wenn dieser Wert kleiner als das
ausgewählte Signifikanzniveau ist,
dann kann man H0 verwerfen, wie
das in diesem Fall ist. Das heißt: Es
gibt
einen
Zusammenhang
dazwischen, wie stark man an Politik
interessiert ist, und der Meinung über
Einkommen und Leistung.*
Die Voraussetzung, um den Test durchführen zu
können ist, dass die Prozent-Zellen mit erwarteten
Werten kleiner als 5 max. 20% betragen. Falls die
Voraussetzung nicht erfüllt wird, kann man die
Variablen entsprechend umcodieren, um die
Situation zu lösen. SPSS informiert hier, dass alle
Werte der erwartete-Tabelle der Voraussetzung
entsprechen.
*Es
gibt also einen Zusammenhang, aber in welche Richtung geht dieser und wie stark ist er? Dafür setzen wir
Zusammenhangsmaße ein.
William Tarazona, Fortgeschrittene Statistik
Unabhängigkeitstest: Zusammenhangsmaße
34
Zusammenhangsmaße werden berechnet und interpretiert in Abhängigkeit vom
Skalenniveau. Die Variablen, die in einem Unabhängigkeitstest einbezogen sind, sind
entweder nominal oder ordinal bzw. gruppiert quantitativ. Also gibt es verschiedene
Zusammenhangsmaße für beide Gruppen.
 Zusammenhangsmaße für Nominal skalierte Merkmale: Diese Maße geben
ein Maß für die Stärke eines Zusammenhangs an.




Phi (φ): φ ist minimal 0 und hat keinen maximalen Wert. Es gibt verschiedene Formeln, um φ zu
berechnen. Es wird vor allem angewendet, wenn die Kreuztabelle 2*2 ist. In diesem Fall ist φ gleich dem
Korrelationskoeffizient rxy. φ wird dann so interpretiert: je näher zu -/+1 er ist, desto stärker ist der
Zusammenhang zwischen den 2 Merkmalen. Im Unterschied mit rxy gibt es keine Bedeutung für negative
Werte von φ – Werte werden im jeweiligen Betrag interpretiert.
Cramers V: Es kann wie ein standarisiertes φ interpretiert werden. Es liegt zwischen 0 und 1. Je größer
der Wert, desto stärker ist der Zusammenhang zwischen den zwei Merkmalen.
Der Kontingenzkoeffizient (C): Wenn korrigiert, ist er ein Wert zwischen 0 und 1 (je höher, desto
stärker ist der Zusammenhang). In SPSS ist der Wert nicht korrigiert und schwierig zu interpretieren.
u.a.
 Zusammenhangsmaße für Ordinal skalierte Merkmale: Diese Maße liegen
alle zwischen -1 und 1 und werden so interpretiert wie rxy. Das heißt, sie geben ein
Maß der Stärke und der Richtung eines Zusammenhangs an.



Kendall Tau-b (τb): Dieser Wert kann nicht die Extremwerte -1/1 erreichen, wenn die Kreuztabelle
nicht quadratisch ist. In diesem Fall es ist besser, τc zu benutzen.
Kendall Tau-c (τc): Es ist außer für nicht-quadratische Kreuztabellen auch für größere Kreuztabellen
geeignet.
u.a.
William Tarazona, Fortgeschrittene Statistik
Unabhängigkeitstest in SPSS - Beispiel
35
Zusammenhangsmaß für das Beispiel:
Ordinal skalierte Merkmale
2
1
3
Kreuztabelle ist nicht quadratisch
William Tarazona, Fortgeschrittene Statistik
Unabhängigkeitstest in SPSS - Beispiel
36
Zusammenhangsmaß für das Beispiel - Output:
*P-Wert
für folgenden Hypothesentest:
𝑯𝟎 : Tc = 𝟎
𝑯𝑨 : Tc ≠ 𝟎
τc
Wenn der P-Wert < α, wird H0
verworfen und die Stärke τc wird als
Wert der Population angenommen.
Wie das hier der Fall ist.
τc ist -0,079 , das heißt die Stärke des Zusammenhangs ist sehr schwach, aber trotzdem
signifikant (siehe Test*). Das heißt, der beobachtete Zusammenhang ist nicht zufällig. Der
Wert ist negativ und das bedeutet, dass es einen negativen Zusammenhang zwischen den 2
Merkmalen gibt:
Ein
negativer
Zusammenhang
würde bedeuten: je weniger man
sich für Politik interessiert, desto
mehr ist man mit der Aussage
einverstanden, dass Einkommen
nicht an Leistung gebunden sein
sollte.
William Tarazona, Fortgeschrittene Statistik
Übung 3
37
Übung 3:
 (GSS 2010) Testen Sie, ob die politische Einstellung (polviews) die Meinung
über das mögliche Aussterben der Polarbären wegen globaler Erwärmung
(extinct) signifikant beeinflusst wird. Falls es einen signifikanten
Zusammenhang zwischen beiden Variablen gibt, welche Art von
Zusammenhang ist es und wie stark ist dieser Zusammenhang?
 (ALLBUS 1994 und GSS 1994) Stellen Sie die Beziehung zwischen dem
Geschlecht und der Meinung zur Aussage „Eine berufstätige Frau kann ein
ebenso herzliches Verhältnis zu Ihrem Kind haben wie eine nicht berufstätige“
(engl. „A working mom can have a warm relation with kids“) für den Allbus94
(V356, V330) und den GSS 94 (mawrkwrm, sex) dar. Interpretieren Sie
die Unterschiede zwischen D und USA.
 (ALLBUS 2000) Untersuchen Sie, ob das Geschlecht der Befragten (v216)
die Antwort zur Frage, ob ein Kind ein Grund zu heiraten sei (v9), beeinflusst.
William Tarazona, Fortgeschrittene Statistik