Methoden StuFu 16.10.2015 Universität Erfurt, WS 2015/2016 24.10

Methoden StuFu
Universität Erfurt, WS 2015/2016
16.10.2015
24.10.2015
Handout 1
Blocktermin „Einführung in SPSS“
Das Programm




IBM SPSS Statistics ist ein Programm zur statistischen Datenauswertung
wurde von Soziologen eingeführt
Einfache Handhabung, aber rigide Struktur
Probleme:
o rechnet nicht immer richtig
o kann nur rechnen, nicht interpretieren!
Fenster I: Daten-Editor
Fenster II: Syntax-Editor
Fenster III: Ausgabe Viewer
•Datenbank, wird gefüllt mit Variablen
und Fällen
•Datenansicht
Ansicht der gewonnenen Rohdaten
Spalten = Variablen
Zeilen = einzelne Versuchspersonen
•Variablenansicht
Ansicht der einzelnen Variablen und
deren Eigenschaften
•wird gespeicher als .sav Datei
•Öffnen von weiteren Dateiformaten
(z.B. Excel) möglich
•früher mussten alle Befehle per
Programmiersprache eingegeben
werden
•Eingabe per Syntax ist heute noch
möglich und kann viele Prozesse
vereinfachen
•zeigt die Geschichte/das Protokoll des
Auswertungsprozessees an
•sollte während des
Auswertungsprozesses unbedingt
gespeichert werden
•wird gespeichert als .sps Datei
•Zeigt Auswertungsergebnisse und
Grafiken an
•muss nicht gespeichert werden, wenn
die Syntax gespeichert wurde.
•auch Output genannt
•wird gespeichert als .spv Datei
Das Menü/wichtige Befehle
Datei
•Neu, Öffnen, Speichern/Speichern unter ..., Drucken, Beenden
Bearbeiten
•Rückgängig, Wiederholen, Kopieren, Einfügen
Daten
•Fälle auswählen (Auswahl der Daten ansehen, z.B. nur weibliche Versuchspersonen, etc.)
Transformieren
•Varialben berechnen (neue Variable aus eingegebenen Rohdaten erstellen)
Wichtig: Daten immer als Rohdaten eingeben! Nichts vorher verrechnen! Größte Fehlerquelle!
Analysieren
•Deskriptive Statistiken, Mittelwerte vergleichen, Allgemeines lineares Modell
Die Dateneingabe (→ Daten-Editor → Variablenansicht)



Variablennamen: am besten selbsterklärend benennen
Bsp.: Sex_mw = Variable: Geschlecht, Kodierung: 0=männlich, 1=weiblich
Bsp.: Auto_nj = Variable Auto vorhanden, Kodierung: 0=nein, 1=ja
Fehlende Variable: am besten leer lassen
SPSS erkennt, dass kein Wert vorhanden ist und schließt Fall aus der Rechnung aus
Weitere Eingabefelder werden in den noch kommenden Sitzungen erläutert
1
Pauline Ehrsam, Anna Cloes, Franziska Lath & Sarah Viertel
Methoden StuFu
Universität Erfurt, WS 2015/2016
16.10.2015
24.10.2015
Deskriptive Statistik und Inferenzstatistik
Deskriptive Statistik
Inferenzstatistik
•Die deskriptive (auch: beschreibende) Statistik hat
zum Ziel, empirische Daten durch Tabellen,
Kennzahlen und Grafiken übersichtlich darzustellen
und zu ordnen.
•Vor allem bei umfangreichem Datenmaterial
sinnvoll, da dieses nicht leicht überblickt werden
kann.
•Maße der zentralen Tendenz
•arithmetisches Mittel (auch: Mittelwert)
•Modus
•Median
•Maße der Dispersion (Streuung)
•Quartilsabstände, Interquartilsabstände
•Standardabweichung
•Varianz
•Die Inferenz- (auch: schließende oder induktive)
Statistik hat zum Ziel, von den durch Stichproben
gelieferten Informationen auf Informationen über
die Grundgesamtheit zu schließen.
•Verbindet die Deskriptive Statistik mit Elementen
der Wahrscheinlichkeitstheorie.
•Maße
•Konfidenzintervalle
•Signifikanztests
•t-Tests
•Varianzanalyse (einfaktoriell, mehrfaktoriell)
•Chi-Quadrat
Eingabe der Syntax





Auswahl des Befehls über normalen Befehlsvorgang
Z.B. Analysieren → Deskriptive Statistiken → Häufigkeiten
Auswahl der gewünschten Variablen
Syntax durch Auswahl „Einfügen“ im Befehlfenster
Durchführung des Befehls im Syntax-Editor durch grünen „Play“ Button
Skalenniveaus
Nominalskalenniveau
Ordinalskalenniveau
Intervallskalenniveau
•Kategoriale Unterschiede
•Bsp.: Mann, Frau; Grün, Blau,
Gelb, etc.
•man kann keinen Mittelwert
berechnen.
•Rangfolge
•Bsp.: Beliebtheit der Freunde
(Anton>Susi>Peter)
•Abstand zwischen Anton und
Susi nicht zwingend gleich
Abstand zwischen Susi und
Peter.
•Rangfolge mit gleichen
Intervallen
•Bsp.: Gramm Mehl im
Kuchen, Geld, etc.
Explorative Datenanalyse


Generiert viele Informationen (Häufigkeiten, Streuungsmaße, Abbildungen, Diagramme, etc.)
Trennung zwischen abhängiger, von uns gemessener Variable (AV) und unabhängiger, von
uns kreierter Variable (UV oder Faktor)
Bsp.: Wenn Frustration, dann Aggression (Frustration = UV, Aggression = AV)
Diagramme



Histogramm (Häufigkeitsdarstellung)
Stengel/Stamm-Blatt-Diagramm (Häufigkeits- und Verteilungsdarstellung)
Boxplot (Häufigkeits- und Verteilungsdarstellung)
2
Pauline Ehrsam, Anna Cloes, Franziska Lath & Sarah Viertel
Methoden StuFu
Universität Erfurt, WS 2015/2016
16.10.2015
24.10.2015
Boxplot










Der Boxplot (auch Kastengrafik) ist ein Diagramm, das zur grafischen Darstellung der
Verteilung intervallskalierter Daten verwendet wird. Es fasst dabei verschiedene
robuste Streuungs- und Lagemaße in einer
Darstellung zusammen und soll schnell einen
Eindruck darüber vermitteln, in welchem Bereich
die Daten liegen und wie sie sich über diesen
Bereich verteilen.
Sternchen = Ausreißer
Oberer Whisker = 4. Quartil
Obere Box = 3. Quartil
Dicker Strich = Median
Untere Box = 2. Quartil
Unterer Whisker = 1. Quartil
Gesamte „graue“ Box = Interquartilsabstand
Bereich innerhalb der Whiskers
= Konfidenzintervall
Sehr nützlich bevor weitere Analysen getätigt werden
Kreuztabelle/Qui-Quadrat-Test
Single
Vergeben
Gesamt
Weiblich
10
10
20
Männlich
10
10
20
→ kein Zusammenhang erkennbar



Gesamt
20
20
Single
Vergeben
Gesamt
Weiblich
2
18
20
Männlich
18
2
20
Gesamt
20
20
→ starker Zusammenhang erkennbar
Erwartungswerte aus den Randhäufigkeiten bestimmen
Problem: Randhäufigkeiten bei realen Stichproben häufig nicht gleich, daher Zusammenhang
sehr schwer zu erkennen
Lösung: Prozentwerte vergleichen
→ das macht der Chi-Quadrat-Test
Variablen transformieren






WICHTIG!
Neue Variable aus bestehenden Rohwerten
•Variablen niemals umcodieren oder
generieren
verändern.
Transformieren → Variable berechnen → Name
•Der Rohdatensatz bleibt so wie er ist!
Zielvariable und Numerischen Ausdruck festlegen
•Sonst: sehr große Fehlerquelle
Bsp.: Neue Variable: Karibikbar_Saufrang,
•Alternative: neue Variablen aus
Numerischer Ausdruck = 0
Rohdatensatz berechnen
Transformation der Variable alk_loc_1
wenn eine VPN auf der Varialbe alk_loc_1 eingegeben hat, dass die Karibikbar auf dem
ersten Platz liegt, dann soll sie auf der neuen Variable den Wert 1 erhalten
Durch kopieren, einfügen und anpassen der Syntax Befehl erstellen
Wichtig: Execute und . müssen zur Ausführung vorhanden sein.
3
Pauline Ehrsam, Anna Cloes, Franziska Lath & Sarah Viertel
Methoden StuFu
Universität Erfurt, WS 2015/2016
16.10.2015
24.10.2015
t-Test






Der einfache t-Test (für eine Stichprobe) prüft anhand des Mittelwertes einer Stichprobe, ob
der Mittelwert einer Grundgesamtheit sich von einem vorgegebenen Sollwert unterscheidet.
Voraussetzung: die Daten entstammen einer Stichprobe einer normalverteilten
Grundgesamtheit bzw. einer genügend großen Stichprobe
Analysieren → Mittelwerte vergleichen
3 Möglichkeiten zur Auswahl
o Eine Stichprobe
o Unabhängige Stichprobe = between-Design
o Verbundene Stichprobe = within-Design
t-Test bei einer unabhängigen Stichprobe
o Testvariable = abhängige Variable (AV)
o Gruppenvariable = unabhängige Variable (UV)
t = √F (T-Wert entspricht der Wurzel des F-Wertes (siehe Varianzanalyse))
Varianzanalyse







testet den Einfluss einer einzelnen Variable auf eine andere Variable, indem sie die
Mittelwerte der abhängigen Variable innerhalb der durch die Kategorien der unabhängigen
Variable definierten Gruppen vergleicht
Alternative zum t-Test
für Vergleiche zwischen mehr als zwei Gruppen geeignet
Verschiedene Varianten:
Mittelwerte Vergleichen
o Einfaktorielle ANOVA = einfachste Form, ANOVA steht für Analysis of Variance
Allgemeines Lineares Modell
o Univariat
o Multivariat
o Messwiederholungen
Deskriptive Statistiken müssen unter „Optionen“ im Befehlfenster gesondert angefordert
werden.
Je größer der F-Wert, desto bedeutsamer ist der Mittelwertsunterschied
Varianzanalyse stellt Vergleichbarkeit her, ist jedoch nicht mehr robust, wenn sich die Anzahl
der Versuchspersonen in den Gruppen stark unterscheidet
→ dann eher t-Test
4
Pauline Ehrsam, Anna Cloes, Franziska Lath & Sarah Viertel