¨Ubungsblatt 12

Technische Universität Dortmund
Fakultät Statistik
Prof. Dr. Roland Fried
Dipl.-Stat. Tobias Liboschik
Vorlesung Statistik I
Wintersemester 2015/2016
Übungsblatt 12
22. Januar 2016
Präsenzaufgaben
Aufgabe 42: Korrelation und Kausalität
Die folgende Grafik zeigt die Scheidungsrate in einem Bundesstaat der Vereinigten Staaten von
Amerika und den Pro-Kopf-Verbrauch an Margarine im gesamten Land.
DivorcerateinMaine
correlateswith
Percapitaconsumptionofmargarine
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
4.95per1,000
DivorcerateinMaine
4.62per1,000
6lbs
4.29per1,000
4lbs
3.96per1,000
Margarineconsumed
8lbs
2lbs
2000
2001
2002
2003
2004
Margarineconsumed
2005
2006
2007
2008
2009
DivorcerateinMaine
tylervigen.com
Quelle: http://tylervigen.com/spurious-correlations
Der empirische Korrelationskoeffizient nach Bravais-Pearson zwischen beiden Variablen beträgt
0.9926. Welche Schlüsse können Sie aus dieser Erkenntnis ziehen (und welche nicht)?
Hinweis: Die Beobachtungen sind hier zeitlich geordnet. Ein Beobachtungspaar (xi , yi ) ist also
zum gleichen Zeitpunkt i erhoben worden. Der Zeitpunkt hat hier also die Rolle, die vorher
üblicherweise der Merkmalsträger hatte. Diese Grafik ist kein Streudiagramm, sondern eine
zeitlich geordnete Darstellung beider Merkmale in einer Grafik.
Aufgabe 43: Interpretation von Korrelationskoeffizienten
Aus 80 Beobachtungspaaren der Merkmale X und Y wurde ein empirischer Korrelationskoeffizient
nach Bravais-Pearson von rXY = −0.95 berechnet. Welche der folgenden Aussagen sind richtig?
(i) Die Beobachtungspaare streuen eng um eine fallende Gerade.
(ii) Ein Zusammenhang ist nicht erwiesen, da rXY < 0 gilt.
(iii) Berechnet man für die Beobachtungspaare eine Regressionsgerade y = b0 + b1 x nach der
Methode der kleinsten Quadrate, so erhält man für b1 einen negativen Wert.
(iv) Wenn eine Beobachtung des Merkmals X positiv ist, so ist die zugehörige Beobachtung des
Merkmals Y stets negativ und umgekehrt.
Hausaufgaben
Aufgabe 44: Zusammenhang kardinaler Merkmale (Ausgaben) (2+2+2+2+3+1+1 Pkt.)
Die weiter unten gezeigte Tabelle enthält die durchschnittlichen wöchentlichen Ausgaben pro
Haushalt (in GBP) sowie den prozentualen Anteil der Ausgaben für Lebensmittel in den elf
Hauptregionen Großbritanniens, gemittelt über die Jahre 1986 und 1987.
(a) Stellen Sie die beiden Merkmale grafisch mit einem von Hand erstellten Streudiagramm dar.
Fassen Sie dabei die Gesamtausgaben als erklärende Variable auf und den Lebensmittelanteil
als erklärte Variable. Wie können Sie diese Grafik interpretieren?
(b) Legen Sie eine geeignete Vierfeldertafel an und bestimmen Sie den Phi-Koeffizienten der
beiden Merkmale. Wie ist das Ergebnis zu interpretieren?
(c) Bestimmen Sie den empirischen Korrelationskoeffizienten nach Bravais-Pearson der beiden
Merkmale und interpretieren Sie das Ergebnis.
Region
England
North
Yorkshire and Humberside
East Midlands
East Anglia
South East
South West
West Midlands
North West
Wales
Scotland
Northern Ireland
Gesamtausgaben
(in GBP)
Lebensmittelanteil
(in Prozent)
150.20
157.30
169.80
188.20
219.20
189.50
166.40
172.00
163.60
161.80
178.50
20.80
20.30
20.30
18.10
17.80
19.00
20.40
19.90
21.70
20.50
21.40
(d) Bestimmen Sie den Spearmanschen Rangkorrelationskoeffizienten der beiden Merkmale
und interpretieren Sie das Ergebnis.
(e) Fassen Sie nun den Anteil der Ausgaben für Lebensmittel als abhängige Variable Y eines
einfachen linearen Regressionsmodells mit den durchschnittlichen Haushaltsausgaben als
unabhängige Variable X auf.
Bestimmen Sie den Achsenabschnitt bb0 und die Geradensteigung bb1 der Regressionsgeraden
von Y bezüglich X nach der Methode der kleinsten Quadrate. Geben Sie die Geradengleichung der Regressionsgeraden explizit an. Zeichnen Sie die Regressionsgerade in das
Streudiagramm aus Aufgabenteil (a) ein.
(f) Berechnen Sie das Bestimmtheitsmaß des obigen Regressionsmodells.
(g) Interpretieren Sie die Ergebnisse aus den beiden vorherigen Aufgabenteilen.
Aufgabe 45: Interpretation von Regressionsgeraden
(3 Bonuspunkte)
Sei y = b0 + b1 x mit b0 = 4 und b1 = 15 eine KQ-Regressionsgerade für den Zusammenhang der
Merkmale X und Y . Welche der folgenden Aussagen sind richtig (mit Begründung)?
(i) Da die Regressionsgerade einen sehr starken Anstieg hat (b1 = 15), besteht ein enger (stark
ausgeprägter) Zusammenhang zwischen den beiden Merkmalen.
(ii) Es liegt ein Rechenfehler vor, da stets −1 ≤ b1 ≤ 1 gelten muss.
(iii) Wenn sich x um eine Einheit erhöht, erhöht sich y durchschnittlich um 15 Einheiten.
(iv) Wenn sich x um eine Einheit erhöht, erhöht sich y durchschnittlich um das 15-fache.
(v) Die Regressionsgerade sagt nichts darüber aus, wie stark beziehungsweise schwach die
Abhängigkeit der Merkmale X und Y ist.
(vi) Wenn x̄ = 1 das arithm. Mittel von X ist, dann ist ȳ = 19 das arithm. Mittel von Y .
Abgabe der Hausaufgaben bis Freitag, 29. Januar 2016 um 12:00 Uhr in den entsprechenden
Briefkasten (siehe Infoblatt). Bonuspunkte erhöhen die zur Zulassung nötige Punktzahl nicht!
Die Frist für die Anmeldung zur Klausur endet für Studierende der Fakultät Statistik
am 2. Februar 2016 (siehe Übungsblatt 10). Diese müssen sich außerdem rechtzeitig vor der
ersten Klausur/Prüfung des Studiums per Formular beim Prüfungsamt Statistik anmelden:
https://www.statistik.tu-dortmund.de/pruefungsamt.html.
Quelle: xkcd.com