Fortgeschrittene Statistik – Statistik Auffrischung DATENERHEBUNG: PRIMÄR- UND SEKUNDÄRANALYSEN, VERTEILUNGEN: HÄUFIGKEITSTABELLEN, GRAFISCHE DARSTELLUNGEN: BALKENDIAGRAMME, HISTOGRAMME, ZUSAMMENHÄNGE: KREUZTABELLEN, UNABHÄNGIGKEITSTEST (CHI QUADRAT),ZUSAMMENHANGSMAßE: PHI, CRAMERS V, KENDALL TAU Zentrale Methodenlehre, Europa Universität - Flensburg Datenerhebung 2 Datenerhebung: Um eine Untersuchung durchzuführen, muss man entscheiden, welche Daten man auswerten/analysieren möchte: Daten, die man selber erhebt, oder Daten, die schon von jemand anderem erhoben wurden. Abhängig vom Ursprung der Daten unterscheidet man zwischen: Primäranalyse: In diesem Fall werden die benötigen Daten selbst erhoben und von demjenigen, der die Daten erhoben hat, auch zuerst ausgewertet. Sekundäranalyse: In diesem Fall wertet man von anderen erhobene und in der Regel bereits ausgewertete Daten ein weiteres Mal aus. Bei dieser Art der Analyse können die Daten ursprünglich zu einem völlig anderen Zweck erhoben worden sein. Wichtig ist nur, dass sie dem Untersuchungszweck der erneuten Analyse dienlich sind. Quelle: Uwe Gehring, Cornelia Weins, Grundkurs Statistik für Politologen, VS Verlag für Sozialwissenschaften. William Tarazona, Fortgeschrittene Statistik Sekundäranalyse 3 Um Datensätze, die von anderen erhoben wurden, benutzen zu können, muss man wissen, welche Variablen diese Datensätze beinhalten. Sehr oft reichen die VariablenBeschreibungen, die man in den Datensätzen lesen kann, nicht aus, um zu verstehen, welche Information erhoben wurde. Wenn man mit großen bekannten Datensätzen arbeitet – wie mit solchen, die wir im Seminar benutzen, verfügt man in der Regel über Dokumentationen, die dabei helfen, die Variablen des Datensatzes zu verstehen: Codebücher: Diese Dokumente sind ausführliche Berichte über die Variablen des Datensatzes: was sie beinhalten, ihre Ausprägungen usw. Manchmal werden auch die ursprünglichen Fragen mitgeteilt. Fragebogen: Diese Dokumente enthalten die Fragen, die von den Befragten zu beantworten waren. Online Dienste: Einige Betreiber von Datensätzen bieten die Möglichkeit an, alle nötigen Informationen über ihren Datensatz online zu browsen. Die Dokumentation der Datensätze ist wichtig - nicht nur, weil die Beschreibung der Variablen nicht genug ist, sondern weil es immer die Möglichkeit gibt, dass diese Beschreibungen Fehler enthalten. William Tarazona, Fortgeschrittene Statistik Datensatz - ALLBUS 4 Mit der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) werden aktuelle Daten über Einstellungen, Verhaltensweisen und Sozialstruktur der Bevölkerung in der Bundesrepublik Deutschland erhoben. • • • Betreiber: GESIS – Leibniz-Institut für Sozialwissenschaften e.V. GESIS Erste Erhebung: 1980 Häufigkeit: In der Regel alle zwei Jahre URL: http://www.gesis.org/allbus/ William Tarazona, Fortgeschrittene Statistik Datensatz - GSS 5 Der General Social Survey (GSS) ist eine soziologische Studie, die demographische Eigenschaften und Einstellungen von US Einwohner erfasst. • • • Betreiber: The National Data Program for the Sciences, NORC at the University of Chicago Erste Erhebung: 1972 Häufigkeit: heutzutage jedes zweite Jahr URL: http://www3.norc.org/Gss+website/ William Tarazona, Fortgeschrittene Statistik Datensatz - PISA 6 Das Programme for International Student Assessment (PISA) ist eine Studie von der OECD, durchgeführt mit dem Ziel alltags- und berufsrelevante Kenntnisse und Fähigkeiten 15-Jähriger weltweit zu messen. • • • • Betreiber: Organisation for Economic operation and Development (OECD) Erste Erhebung: 2000 Häufigkeit: alle drei Jahre Nützliche URL: pisa200x.acer.edu.au Co- URL: www.oecd.org/de/pisa William Tarazona, Fortgeschrittene Statistik Übung 1 7 Übung 1: (ALLBUS 2000) Findet die genaue Formulierung der Fragen heraus, die gestellt wurden, um die Variablen “v45”, “v61” und “ v200” zu erzeugen. (ALLBUS 2000) Suchen Sie einige Variable heraus, die Informationen über die Eltern der Befragten enthalten. (GSS 1994) Findet die genaue Formulierung der Fragen heraus, die gestellt wurden, um die Variablen “nateduc”, “postlf2” und “mastersp” zu erzeugen. (GSS 1994) Was beinhaltet die Variable “born”? Gibt es ein Problem mit der Datensatz-Beschreibung der Variable? Was ist geschehen? William Tarazona, Fortgeschrittene Statistik Deskriptive Statistik 8 Das Ziel der deskriptiven Statistik ist die statistische Beschreibung der Merkmale/Variablen bzw. mögliche Zusammenhänge zwischen 2 oder mehr der erhobenen Variablen eines Datensatzes zu untersuchen. Die deskriptive Statistik beinhaltet somit alle Verfahren, mit denen sich durch die Beschreibung von Daten einer Grundgesamtheit Informationen gewinnen lassen. Zu diesen Methoden bzw. Verfahren gehören unter anderem die Erstellung von Grafiken, Tabellen und die Berechnung von deskriptiven Kennzahlen. (Quelle: Deskriptive Statistik und moderne Datenanalyse: Eine computergestützte Einführung mit Excel, PASW (SPSS) und STATA, Thomas Cleff, Springer-Verlag, 2012) Die Arbeit, um eine Variable statistisch zu beschreiben, kann wie folgt unterteilt werden: Beschreibung der Verteilung bzw. Verteilungsform einer Variable: Häufigkeitstabellen und grafische Darstellungen wie z.B. Histogramme werden eingesetzt. Beschreibung der Variablen-Mitte: Das geschieht mit Hilfe der Lagemaße. Beschreibung der Streuung einer Variable: Das geschieht mit Hilfe der Streuungsmaße. William Tarazona, Fortgeschrittene Statistik Häufigkeitstabelle - Beispiel 9 Frage aus dem ALLBUS 2010: (100*12/1362)% = 0,88% 12+27+98 bzw. 39+98 Meine Bezeichnungen: Absolute Häufigkeit: hi Relative Häufigkeit: fi Kumulierte absolute Häufigkeit: Hi Kumulierte relative Häufigkeit: Fi n: Stichprobenumfamg 39,21%+30,32% William Tarazona, Fortgeschrittene Statistik Häufigkeitstabelle mit SPSS 10 Erstellen Sie mit dem Datensatz ALLBUS 2012 die Häufigkeitstabelle für die Variable v104, die die Antworten der Befragten für die Aussage „Ein Klein Kind wird sicherlich darunter leiden, wenn seine Mutter berufstätig ist.“ beinhaltet. Kreieren Sie die Syntax-Datei HäufigkeitT.sps mit dem SPSS-Befehl für die Erstellung einer Häufigkeitstabelle. Wie viel Prozent der Befragten sind mit der Aussage tendenziell einverstanden? So wird eine Häufigkeitstabelle in SPSS erstellt: Häufigkeitstabelle erstellen: Datei herunterladen Datei mit SPSS öffnen Analysieren Deskriptive Statistiken Häufigkeiten Variable v104 auswählen Einfügen anklicken Markierten Befehl ausführen lassen SPSS Output interpretieren William Tarazona, Fortgeschrittene Statistik Häufigkeitstabelle mit SPSS 11 Häufigkeitstabelle erstellen: 1 Ausgewählte Variable; Man kann mehrere Variablen auswählen 2 Die Auswahlmarkierung muss angeklickt sein Man kann entweder OK oder Einfügen anklicken William Tarazona, Fortgeschrittene Statistik Häufigkeitstabelle mit SPSS 12 Häufigkeitstabelle: Syntax-Datei und Output: 42,6% der Befragten sind mit der Aussage tendenziell einverstanden. Verschiedene Art fehlende Werte hi fi fi Fi Spalten William Tarazona, Fortgeschrittene Statistik Übung 2 - Replikation 13 Übung 2: Replikation Beispiel Replizieren Sie aus dem Artikel „Sohn oder Tochter, Natur oder Kultur? Geschlechterpräferenzen für Kinder im europäischen Vergleich“ die Information der Tabelle 1. Um die Replikation zu erstellen, arbeiten Sie in Gruppen und beantworten Sie folgende Fragen: Finden Sie heraus: Welcher Datensatz wird benötigt? Wie wurde die Information in der Tabelle 1 gefiltert und gebaut? In dem Datensatz: Welche Variablen wurden (möglicherweise) benutzt? William Tarazona, Fortgeschrittene Statistik Balkendiagramme mit SPSS 14 Balkendiagramm erstellen – mit der Option Häufigkeiten: 1 2 3 Nicht nur Balkendiagramme sind hiermit möglich hi fi William Tarazona, Fortgeschrittene Statistik Balkendiagramme mit SPSS 15 Balkendiagramm erstellen – mit der Option Grafik/Alte Dialogfelder: 1 5 fi 2 5 3 Frau, arbeitet nicht bei Kleinkind 4 Man kann entweder OK oder Einfügen anklicken William Tarazona, Fortgeschrittene Statistik Histogramme mit SPSS 16 Histogramm erstellen – mit der Option Grafik/Alte Dialogfelder: 1 2 3 Man kann entweder OK oder Einfügen anklicken William Tarazona, Fortgeschrittene Statistik Histogramme mit SPSS 17 Histogramm erstellen – mit der Option Diagrammerstellung: 1 4 Die Schaltfläche Anwenden muss für jeden 2 Titel oder jede Fußnote angeklickt werden Grafik von unten hochschieben Das Resultat, wenn man die Schaltfläche Einfügen anklickt 3 5 Gleiche Optionen wie bei alten Dialogfeldern Man kann entweder OK oder Einfügen anklicken William Tarazona, Fortgeschrittene Statistik Zusammenhänge: Kreuztabellen 18 Eine andere Anwendung für Häufigkeitsverteilungen ist die Erstellung von Kreuztabellen für die Untersuchung von möglichen Beziehungen zwischen 2 Kategorialen Merkmalen. William Tarazona, Fortgeschrittene Statistik Zusammenhänge - Kreuztabellen 19 Beispiel: Hypothese: „Man vermutet, dass Kinder in der Schule weniger randalieren, je mehr Sport sie treiben.“ Kann diese Vermutung anhand der folgenden Fragen analysiert werden? Quelle: Kinderpanel, Mündlicher Fragebogen für die 8- bis 9-jährigen Kinder, Deutsches Jugendinstitut http://www.dji.de/cgi-bin/projekte/output.php?projekt=71 William Tarazona, Fortgeschrittene Statistik Zusammenhänge - Kreuztabellen 20 Beispiel: Daten: Die Antworten von 20 Kindern William Tarazona, Fortgeschrittene Statistik Zusammenhänge - Kreuztabellen 21 Beispiel: KaputtMachen: Abhängiges Merkmal SportTreiben: Unabhängiges Merkmal Häufigkeitstabelle Kreuztabelle der beobachteten Werte :Hauptdiagonale :Nebendiagonale :Randverteilungen Häufigkeitstabelle William Tarazona, Fortgeschrittene Statistik Zusammenhänge - Kreuztabellen 22 Beispiel: Hypothese: „Man vermutet, dass Kinder in der Schule weniger randalieren, je mehr Sport sie treiben.“ Zeilen-Prozentuierung Kreuztabelle der beobachteten Werte Spalten-Prozentuierung William Tarazona, Fortgeschrittene Statistik Kreuztabellen in SPSS - Beispiel 23 Im ALLBUS 2010 wurden folgende Fragen gestellt: • Die Namen der Variablen sind V38 und V72. • V38 wurde so kodiert: 1: „stimme voll zu“ bis 4: „stimme überhaupt nicht zu“. 8: „Weiß nicht“ und 9: „KA (keine Angabe)“ sind fehlende Werte. • V72 wurde so kodiert: 1: „sehr stark“ bis 5: „überhaupt nicht“. 9: „KA“ ist ein fehlender Wert. • Die Frage ist: Gibt es einen Zusammenhang zwischen den Antworten in v38 und v72? Wenn ja, welche Art von Zusammenhang? William Tarazona, Fortgeschrittene Statistik Kreuztabellen in SPSS - Beispiel 24 Erstellung einer Kreuztabelle von beobachteten Werten mit SPSS: 1 2 Unabhängiges Merkmal Abhängiges Merkmal 3 William Tarazona, Fortgeschrittene Statistik Kreuztabellen in SPSS - Beispiel 25 Erstellung einer Kreuztabelle mit SPSS: Zellen Beobachtete Werte Erwartete Werte Zahlen, die man erwarten würde, wenn es keinen Zusammenhang zwischen den zwei Merkmalen gibt. Zeilen-% Spalten-% Globale-% William Tarazona, Fortgeschrittene Statistik Kreuztabellen in SPSS - Beispiel 26 Outputs und Syntaxdateien: Welche Art des Zusammenhangs gibt es zwischen den Variablen? William Tarazona, Fortgeschrittene Statistik Statistik: Hypothesentests zusammengefasst 27 Hypothesentests: Statistische Verfahren, um Vermutungen über die Population zu falsifizieren – wiederlegen/verwerfen - (oder nicht). Aufbau: Es müssen 2 Hypothesen formuliert werden: H0 (Nullhypothese) und HA (Alternativhypothese). Man kann Vermutungen über einen bestimmten Parameter der Population (z.B. Mittelwert: µ) oder einen möglichen Zusammenhang zwischen 2 oder mehr Merkmalen aufstellen. Beispiele: Über einen Population: Parameter H0: µ=1500 Euro HA: µ>1500 Euro der Über einen Zusammenhang in der Population: H0: Es gibt keinen Zusammenhang zwischen dem Geschlecht des Arbeitsnehmer und dessen Einkommen HA: Es gibt einen Zusammenhang zwischen dem Geschlecht des Arbeitsnehmer und dessen Einkommen Signifikanzniveau (α): α ist die Wahrscheinlichkeit, H0 zu verwerfen, wenn H0 wahr ist (ein Fehler!). α wird vor der Durchführung des Hypothesentests festgesetzt. Es kann so klein wie 0.01 und so groß wie 0.1 sein. Als Kompromiss zwischen Risiko und Informationsgehalt des Hypothesentests wird α als 0.05 festgesetzt. P-Wert: Dieser Wert wird von allen statistischen Programmen bei Hypothesentests berechnet. P-Werte werden benutzt, um die Entscheidung zu treffen, ob die Nullhypothese H0 statistisch verworfen werden sollte oder nicht. Die Regel lautet: Wenn P-Wert < α dann H0 verwerfen William Tarazona, Fortgeschrittene Statistik Chi-Quadrat: Unabhängigkeitstest 28 Der Chi-Quadrat-Unabhängigkeitstest wird eingesetzt, um mögliche Zusammenhänge zwischen 2 Merkmalen in der Population zu untersuchen, wobei zumindest eine davon qualitativ (Kategorial – Ordinal oder Nominal) ist. Um den Test durchzuführen, wird anhand der Stichprobeninformation der zwei Merkmale eine Kreuztabelle erstellt. Im Allgemeinen gibt es eine Stichprobe mit einem Merkmal K1 mit „k“ Ausprägungen: SK11,SK21,…SKk1 und mit einem zweiten Merkmal K2 mit „m“ Ausprägungen: SK12,SK22,…SKm2. Die resultierende Kreuztabelle ist dann entweder eine Tabelle mit „k“ Zeilen und „m“ Spalten, das heißt: k*m oder mit „m“ Spalten und „k“ Zeilen , das heißt: m*k. In unserem Kreuztabellen-Beispiel haben wir einen Zusammenhang zwischen v38 und v72 gefunden. Die Frage ist: Besteht dieser Zusammenhang in der Population ebenfalls? Darüber hinaus, falls ein Zusammenhang in der Population besteht, wie stark ist dieser Zusammenhang? William Tarazona, Fortgeschrittene Statistik Unabhängigkeitstest in SPSS - Beispiel 29 V38 und V72 sind ordinal skaliert, also benutzen wir einen Chi-QuadratUnabhängigkeitstest, und der Hypothesentest lautet: H0: Es gibt keinen Zusammenhang dazwischen, wie stark man an Politik interessiert ist, und der Meinung über Einkommen und Leistung. HA: Es gibt einen Zusammenhang dazwischen, wie stark man an Politik interessiert ist, und der Meinung über Einkommen und Leistung. Prozedur: • • • • • • • • Allbus2010.sav runterladen Datei mit SPSS öffnen Um diesen Test zu machen: Analysieren Deskriptive Statistiken Kreuztabellen v38 in Zeile(n) schieben V72 in Spalten schieben (kann umgekehrt sein) Statistiken Option anklicken und Chi-Quadrat auswählen Weiter und dann OK anklicken SPSS-Output interpretieren William Tarazona, Fortgeschrittene Statistik Unabhängigkeitstest in SPSS - Beispiel 30 Chi-Quadrat-Unabhängigkeitstest: Chiemp 2 1 3 Variablen auswählen. Es ist egal, was in den Zeilen und was in den Spalten steht. William Tarazona, Fortgeschrittene Statistik Unabhängigkeitstest in SPSS - Beispiel 31 Komponenten des Outputs: ObservedTabelle Chi-QuadratUnabhängigkeitstest William Tarazona, Fortgeschrittene Statistik Unabhängigkeitstest in SPSS - Beispiel 32 Erstellung der erwartete-Tabelle: Jeder Wert ist größer als 5 2 1 3 William Tarazona, Fortgeschrittene Statistik Unabhängigkeitstest in SPSS - Beispiel 33 Output - Unabhängigkeitstest: Chiemp P-Wert für den Unabhängigkeitstest. Wenn dieser Wert kleiner als das ausgewählte Signifikanzniveau ist, dann kann man H0 verwerfen, wie das in diesem Fall ist. Das heißt: Es gibt einen Zusammenhang dazwischen, wie stark man an Politik interessiert ist, und der Meinung über Einkommen und Leistung.* Die Voraussetzung, um den Test durchführen zu können ist, dass die Prozent-Zellen mit erwarteten Werten kleiner als 5 max. 20% betragen. Falls die Voraussetzung nicht erfüllt wird, kann man die Variablen entsprechend umcodieren, um die Situation zu lösen. SPSS informiert hier, dass alle Werte der erwartete-Tabelle der Voraussetzung entsprechen. *Es gibt also einen Zusammenhang, aber in welche Richtung geht dieser und wie stark ist er? Dafür setzen wir Zusammenhangsmaße ein. William Tarazona, Fortgeschrittene Statistik Unabhängigkeitstest: Zusammenhangsmaße 34 Zusammenhangsmaße werden berechnet und interpretiert in Abhängigkeit vom Skalenniveau. Die Variablen, die in einem Unabhängigkeitstest einbezogen sind, sind entweder nominal oder ordinal bzw. gruppiert quantitativ. Also gibt es verschiedene Zusammenhangsmaße für beide Gruppen. Zusammenhangsmaße für Nominal skalierte Merkmale: Diese Maße geben ein Maß für die Stärke eines Zusammenhangs an. Phi (φ): φ ist minimal 0 und hat keinen maximalen Wert. Es gibt verschiedene Formeln, um φ zu berechnen. Es wird vor allem angewendet, wenn die Kreuztabelle 2*2 ist. In diesem Fall ist φ gleich dem Korrelationskoeffizient rxy. φ wird dann so interpretiert: je näher zu -/+1 er ist, desto stärker ist der Zusammenhang zwischen den 2 Merkmalen. Im Unterschied mit rxy gibt es keine Bedeutung für negative Werte von φ – Werte werden im jeweiligen Betrag interpretiert. Cramers V: Es kann wie ein standarisiertes φ interpretiert werden. Es liegt zwischen 0 und 1. Je größer der Wert, desto stärker ist der Zusammenhang zwischen den zwei Merkmalen. Der Kontingenzkoeffizient (C): Wenn korrigiert, ist er ein Wert zwischen 0 und 1 (je höher, desto stärker ist der Zusammenhang). In SPSS ist der Wert nicht korrigiert und schwierig zu interpretieren. u.a. Zusammenhangsmaße für Ordinal skalierte Merkmale: Diese Maße liegen alle zwischen -1 und 1 und werden so interpretiert wie rxy. Das heißt, sie geben ein Maß der Stärke und der Richtung eines Zusammenhangs an. Kendall Tau-b (τb): Dieser Wert kann nicht die Extremwerte -1/1 erreichen, wenn die Kreuztabelle nicht quadratisch ist. In diesem Fall es ist besser, τc zu benutzen. Kendall Tau-c (τc): Es ist außer für nicht-quadratische Kreuztabellen auch für größere Kreuztabellen geeignet. u.a. William Tarazona, Fortgeschrittene Statistik Unabhängigkeitstest in SPSS - Beispiel 35 Zusammenhangsmaß für das Beispiel: Ordinal skalierte Merkmale 2 1 3 Kreuztabelle ist nicht quadratisch William Tarazona, Fortgeschrittene Statistik Unabhängigkeitstest in SPSS - Beispiel 36 Zusammenhangsmaß für das Beispiel - Output: *P-Wert für folgenden Hypothesentest: 𝑯𝟎 : Tc = 𝟎 𝑯𝑨 : Tc ≠ 𝟎 τc Wenn der P-Wert < α, wird H0 verworfen und die Stärke τc wird als Wert der Population angenommen. Wie das hier der Fall ist. τc ist -0,079 , das heißt die Stärke des Zusammenhangs ist sehr schwach, aber trotzdem signifikant (siehe Test*). Das heißt, der beobachtete Zusammenhang ist nicht zufällig. Der Wert ist negativ und das bedeutet, dass es einen negativen Zusammenhang zwischen den 2 Merkmalen gibt: Ein negativer Zusammenhang würde bedeuten: je weniger man sich für Politik interessiert, desto mehr ist man mit der Aussage einverstanden, dass Einkommen nicht an Leistung gebunden sein sollte. William Tarazona, Fortgeschrittene Statistik Übung 3 37 Übung 3: (GSS 2010) Testen Sie, ob die politische Einstellung (polviews) die Meinung über das mögliche Aussterben der Polarbären wegen globaler Erwärmung (extinct) signifikant beeinflusst wird. Falls es einen signifikanten Zusammenhang zwischen beiden Variablen gibt, welche Art von Zusammenhang ist es und wie stark ist dieser Zusammenhang? (ALLBUS 1994 und GSS 1994) Stellen Sie die Beziehung zwischen dem Geschlecht und der Meinung zur Aussage „Eine berufstätige Frau kann ein ebenso herzliches Verhältnis zu Ihrem Kind haben wie eine nicht berufstätige“ (engl. „A working mom can have a warm relation with kids“) für den Allbus94 (V356, V330) und den GSS 94 (mawrkwrm, sex) dar. Interpretieren Sie die Unterschiede zwischen D und USA. (ALLBUS 2000) Untersuchen Sie, ob das Geschlecht der Befragten (v216) die Antwort zur Frage, ob ein Kind ein Grund zu heiraten sei (v9), beeinflusst. William Tarazona, Fortgeschrittene Statistik
© Copyright 2024 ExpyDoc