Technische Universität Dortmund Fakultät Statistik Prof. Dr. Roland Fried Dipl.-Stat. Tobias Liboschik Vorlesung Statistik I Wintersemester 2015/2016 Übungsblatt 12 22. Januar 2016 Präsenzaufgaben Aufgabe 42: Korrelation und Kausalität Die folgende Grafik zeigt die Scheidungsrate in einem Bundesstaat der Vereinigten Staaten von Amerika und den Pro-Kopf-Verbrauch an Margarine im gesamten Land. DivorcerateinMaine correlateswith Percapitaconsumptionofmargarine 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 4.95per1,000 DivorcerateinMaine 4.62per1,000 6lbs 4.29per1,000 4lbs 3.96per1,000 Margarineconsumed 8lbs 2lbs 2000 2001 2002 2003 2004 Margarineconsumed 2005 2006 2007 2008 2009 DivorcerateinMaine tylervigen.com Quelle: http://tylervigen.com/spurious-correlations Der empirische Korrelationskoeffizient nach Bravais-Pearson zwischen beiden Variablen beträgt 0.9926. Welche Schlüsse können Sie aus dieser Erkenntnis ziehen (und welche nicht)? Hinweis: Die Beobachtungen sind hier zeitlich geordnet. Ein Beobachtungspaar (xi , yi ) ist also zum gleichen Zeitpunkt i erhoben worden. Der Zeitpunkt hat hier also die Rolle, die vorher üblicherweise der Merkmalsträger hatte. Diese Grafik ist kein Streudiagramm, sondern eine zeitlich geordnete Darstellung beider Merkmale in einer Grafik. Aufgabe 43: Interpretation von Korrelationskoeffizienten Aus 80 Beobachtungspaaren der Merkmale X und Y wurde ein empirischer Korrelationskoeffizient nach Bravais-Pearson von rXY = −0.95 berechnet. Welche der folgenden Aussagen sind richtig? (i) Die Beobachtungspaare streuen eng um eine fallende Gerade. (ii) Ein Zusammenhang ist nicht erwiesen, da rXY < 0 gilt. (iii) Berechnet man für die Beobachtungspaare eine Regressionsgerade y = b0 + b1 x nach der Methode der kleinsten Quadrate, so erhält man für b1 einen negativen Wert. (iv) Wenn eine Beobachtung des Merkmals X positiv ist, so ist die zugehörige Beobachtung des Merkmals Y stets negativ und umgekehrt. Hausaufgaben Aufgabe 44: Zusammenhang kardinaler Merkmale (Ausgaben) (2+2+2+2+3+1+1 Pkt.) Die weiter unten gezeigte Tabelle enthält die durchschnittlichen wöchentlichen Ausgaben pro Haushalt (in GBP) sowie den prozentualen Anteil der Ausgaben für Lebensmittel in den elf Hauptregionen Großbritanniens, gemittelt über die Jahre 1986 und 1987. (a) Stellen Sie die beiden Merkmale grafisch mit einem von Hand erstellten Streudiagramm dar. Fassen Sie dabei die Gesamtausgaben als erklärende Variable auf und den Lebensmittelanteil als erklärte Variable. Wie können Sie diese Grafik interpretieren? (b) Legen Sie eine geeignete Vierfeldertafel an und bestimmen Sie den Phi-Koeffizienten der beiden Merkmale. Wie ist das Ergebnis zu interpretieren? (c) Bestimmen Sie den empirischen Korrelationskoeffizienten nach Bravais-Pearson der beiden Merkmale und interpretieren Sie das Ergebnis. Region England North Yorkshire and Humberside East Midlands East Anglia South East South West West Midlands North West Wales Scotland Northern Ireland Gesamtausgaben (in GBP) Lebensmittelanteil (in Prozent) 150.20 157.30 169.80 188.20 219.20 189.50 166.40 172.00 163.60 161.80 178.50 20.80 20.30 20.30 18.10 17.80 19.00 20.40 19.90 21.70 20.50 21.40 (d) Bestimmen Sie den Spearmanschen Rangkorrelationskoeffizienten der beiden Merkmale und interpretieren Sie das Ergebnis. (e) Fassen Sie nun den Anteil der Ausgaben für Lebensmittel als abhängige Variable Y eines einfachen linearen Regressionsmodells mit den durchschnittlichen Haushaltsausgaben als unabhängige Variable X auf. Bestimmen Sie den Achsenabschnitt bb0 und die Geradensteigung bb1 der Regressionsgeraden von Y bezüglich X nach der Methode der kleinsten Quadrate. Geben Sie die Geradengleichung der Regressionsgeraden explizit an. Zeichnen Sie die Regressionsgerade in das Streudiagramm aus Aufgabenteil (a) ein. (f) Berechnen Sie das Bestimmtheitsmaß des obigen Regressionsmodells. (g) Interpretieren Sie die Ergebnisse aus den beiden vorherigen Aufgabenteilen. Aufgabe 45: Interpretation von Regressionsgeraden (3 Bonuspunkte) Sei y = b0 + b1 x mit b0 = 4 und b1 = 15 eine KQ-Regressionsgerade für den Zusammenhang der Merkmale X und Y . Welche der folgenden Aussagen sind richtig (mit Begründung)? (i) Da die Regressionsgerade einen sehr starken Anstieg hat (b1 = 15), besteht ein enger (stark ausgeprägter) Zusammenhang zwischen den beiden Merkmalen. (ii) Es liegt ein Rechenfehler vor, da stets −1 ≤ b1 ≤ 1 gelten muss. (iii) Wenn sich x um eine Einheit erhöht, erhöht sich y durchschnittlich um 15 Einheiten. (iv) Wenn sich x um eine Einheit erhöht, erhöht sich y durchschnittlich um das 15-fache. (v) Die Regressionsgerade sagt nichts darüber aus, wie stark beziehungsweise schwach die Abhängigkeit der Merkmale X und Y ist. (vi) Wenn x̄ = 1 das arithm. Mittel von X ist, dann ist ȳ = 19 das arithm. Mittel von Y . Abgabe der Hausaufgaben bis Freitag, 29. Januar 2016 um 12:00 Uhr in den entsprechenden Briefkasten (siehe Infoblatt). Bonuspunkte erhöhen die zur Zulassung nötige Punktzahl nicht! Die Frist für die Anmeldung zur Klausur endet für Studierende der Fakultät Statistik am 2. Februar 2016 (siehe Übungsblatt 10). Diese müssen sich außerdem rechtzeitig vor der ersten Klausur/Prüfung des Studiums per Formular beim Prüfungsamt Statistik anmelden: https://www.statistik.tu-dortmund.de/pruefungsamt.html. Quelle: xkcd.com
© Copyright 2024 ExpyDoc