Blatt 4

Statistik III für Nebenfachstudierende
Ludwig Bothmann, Sabrina Enzinger
Hausübungsblatt 4
WiSe 2015/16
Aufgabe 5 (Klausur WiSe 2012/13)
Die vorliegenden Daten stammen von einer belgischen Kfz-Versicherung. Es soll die
Schadenhöhe in Abhängigkeit von Kovariablen untersucht werden. Der Datensatz enthält
folgende Variablen von 16 477 Versicherungsnehmern, die jeweils einen Schaden im letzten
Kalenderjahr hatten:
Variablenname
Variablenbeschreibung
Wertebereich
logS
Logarithmierte Schadenhöhe (in Euro)
[5,15]
alterVN
Alter des Versicherungsnehmers in Jahren
[18,92]
alterAuto
Alter des versicherten Autos in Jahren
[0,29]
geschl
Geschlecht des Versicherungsnehmers
0 = weiblich, 1 = männlich
artVers
Art der Versicherung
1 = Nur Haftpflicht
2 = Teilkasko
3 = Vollkasko
alterVN2
Quadriertes Alter des Versicherungsnehmers
alterVN2 = alterVN
alterVN3
Kubisches Alter des Versicherungsnehmers
alterVN3 = alterVN
[300,8500]
2
[5800,780 000]
3
Zur Modellierung des Zusammenhangs zwischen der logarithmierten Schadenhöhe und den
Einflussgrößen werden zwei lineare Regressionsmodelle geschätzt, deren R-Outputs auf Seite 3
zu finden sind.
In Modell (2) wird der Effekt des Alters des Versicherungsnehmers nicht mehr linear wie in
Modell (1), sondern als Polynom 3. Grades aufgenommen.
(a) Interpretieren Sie im Output von Modell (1) den geschätzten Intercept sowie
den geschätzten Regressionskoeffizienten für die Variable alterAuto auf Ebene der
Schadenhöhe.
(b) Berechnen Sie die Werte -- A -- bis -- D -- im Output zu Modell (1) auf Seite 3.
Geben Sie dabei jeweils die zugrunde liegenden Formeln an.
(c) Prognostizieren Sie die erwartete Schadenhöhe für einen 20-jährigen männlichen
Versicherungsnehmer mit einer Teilkasko-Versicherung für ein 10 Jahre altes Auto mit
Modell (1).
(d) Die Variable artVers wurde in Dummy-Kodierung mit “Nur Haftpflicht” als
Referenzkategorie aufgenommen. Wie sind die zwei Dummy-Variablen art2 und art3
definiert?
Abgabe: Donnerstag, 21.01.2016
Seite 1 von 3
(e) Was spricht gegen die Aufnahme einer weiteren dummy-kodierten Variablen art1 für die
Kategorie “Nur Haftpflicht”? Begründen Sie Ihre Antwort.
(f) Die folgenden Abbildungen zeigen ein Streudiagramm zwischen alterVN und empirischen
Mittelwerten von logS pro Alter (links) sowie die partiellen Effekte, die von Modell (1)
und (2) geschätzt und für die Abbildung zentriert wurden:
11.5
1.0
Modell (1)
Modell (2)
●
●
●
●
●
10.5
●
●
●
Partielle Effekte
Mittelwert von logS
0.8
11.0
●
●
●
●●
●
●
●
●
10.0
●
● ●
● ● ●●●
●
●
●
9.5
20
●
●
●
●●
●
● ●●
●
●●
●
●
● ●●
●
●●
●● ●●
● ● ●●● ●
●●
●
●
●
●
0.6
0.4
0.2
0.0
●
●
●● ●
●● ● ●
●
40
−0.2
60
alterVN
80
100
20
40
60
80
100
alterVN
i. Interpretieren Sie den partiellen Effekt von alterVN in Modell (2).
ii. Nennen Sie anhand von den Abbildungen und Outputs zwei Gründe, weshalb die
polynomiale Modellierung von alterVN in Modell (2) gerechtfertigt erscheint.
(g) Mit einem Test zum Niveau α = 0.01 soll überprüft werden, ob die komplexere,
polynomiale Modellierung von alterVN in Modell (2) im Vergleich zur linearen
Modellierung in Modell (1) signifikant ist.
i. Formulieren Sie die Nullhypothese als lineare Hypothese der Art H0 : Cβ = d.
ii. Beschreiben Sie einen Test Ihrer Wahl, den man zur Überprüfung der Hypothese
durchführen könnte.
Hinweis:
Es ist keine explizite Durchführung des Tests nötig, eine kurze
Beschreibung der wichtigsten Schritte und die Angabe von relevanten Formeln
genügt.
(h) Beschreiben Sie für ein Werkzeug der Modelldiagnose Ihrer Wahl das Ziel der Diagnose
sowie Ihr Vorgehen um das Ziel zu überprüfen. Beschreiben Sie darüber hinaus (bei
Bedarf mit Skizze), in welchem Fall das Werkzeug ein Problem diagnostizieren würde.
Nennen Sie außerdem mindestens eine Lösungsmöglichkeit im Falle eines diagnostizierten
Problems.
Abgabe: Donnerstag, 21.01.2016
Seite 2 von 3
Modell (1)
Call:
lm(formula = logS ~ alterVN + alterAuto + geschl + art2 + art3,
data = belgium)
Residuals:
Min
1Q
-4.8915 -1.1657
Median
0.0181
3Q
1.1846
Max
5.4461
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.4892268
0.0482438 196.693
< 2e-16 ***
alterVN
0.0035700
0.0007813
4.569 4.93e-06 ***
alterAuto
0.0179535
0.0032386
5.544 3.01e-08 ***
geschl
0.0117002
0.0257466
0.454
-- C -art2
-0.1424864
0.0279823 -- B -- 3.58e-07 ***
art3
-- A -0.0383921
4.807 1.55e-06 ***
--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 1.47 on 16471 degrees of freedom
Multiple R-squared: 0.007216, Adjusted R-squared: 0.006914
F-statistic: 23.94 on -- D -- and 16471 DF, p-value: < 2.2e-16
Modell (2)
Call:
lm(formula = logS ~ alterVN + alterVN2 + alterVN3 + alterAuto +
geschl + art2 + art3, data = belgium)
Residuals:
Min
1Q Median
-4.964 -1.164 0.013
3Q
1.188
Max
5.349
Coefficients:
Estimate
10.0864760
-0.0198098
0.0001174
0.0000016
0.0168818
0.0079877
-0.1364953
0.1968947
(Intercept)
alterVN
alterVN2
alterVN3
alterAuto
geschl
art2
art3
--Signif. codes:
Std. Error
2.999e-01
2.016e-02
4.256e-04
2.831e-06
3.239e-03
2.572e-02
2.797e-02
3.839e-02
t value
33.631
-0.983
0.276
0.571
5.212
0.311
-4.880
5.129
Pr(>|t|)
< 2e-16
0.326
0.783
0.568
1.89e-07
0.756
1.07e-06
2.94e-07
***
***
***
***
0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 1.468 on 16469 degrees of freedom
Multiple R-squared: 0.01069, Adjusted R-squared: 0.01027
F-statistic: 25.42 on 7 and 16469 DF, p-value: < 2.2e-16
Abgabe: Donnerstag, 21.01.2016
Seite 3 von 3