Statistik III für Nebenfachstudierende Ludwig Bothmann, Sabrina Enzinger Hausübungsblatt 4 WiSe 2015/16 Aufgabe 5 (Klausur WiSe 2012/13) Die vorliegenden Daten stammen von einer belgischen Kfz-Versicherung. Es soll die Schadenhöhe in Abhängigkeit von Kovariablen untersucht werden. Der Datensatz enthält folgende Variablen von 16 477 Versicherungsnehmern, die jeweils einen Schaden im letzten Kalenderjahr hatten: Variablenname Variablenbeschreibung Wertebereich logS Logarithmierte Schadenhöhe (in Euro) [5,15] alterVN Alter des Versicherungsnehmers in Jahren [18,92] alterAuto Alter des versicherten Autos in Jahren [0,29] geschl Geschlecht des Versicherungsnehmers 0 = weiblich, 1 = männlich artVers Art der Versicherung 1 = Nur Haftpflicht 2 = Teilkasko 3 = Vollkasko alterVN2 Quadriertes Alter des Versicherungsnehmers alterVN2 = alterVN alterVN3 Kubisches Alter des Versicherungsnehmers alterVN3 = alterVN [300,8500] 2 [5800,780 000] 3 Zur Modellierung des Zusammenhangs zwischen der logarithmierten Schadenhöhe und den Einflussgrößen werden zwei lineare Regressionsmodelle geschätzt, deren R-Outputs auf Seite 3 zu finden sind. In Modell (2) wird der Effekt des Alters des Versicherungsnehmers nicht mehr linear wie in Modell (1), sondern als Polynom 3. Grades aufgenommen. (a) Interpretieren Sie im Output von Modell (1) den geschätzten Intercept sowie den geschätzten Regressionskoeffizienten für die Variable alterAuto auf Ebene der Schadenhöhe. (b) Berechnen Sie die Werte -- A -- bis -- D -- im Output zu Modell (1) auf Seite 3. Geben Sie dabei jeweils die zugrunde liegenden Formeln an. (c) Prognostizieren Sie die erwartete Schadenhöhe für einen 20-jährigen männlichen Versicherungsnehmer mit einer Teilkasko-Versicherung für ein 10 Jahre altes Auto mit Modell (1). (d) Die Variable artVers wurde in Dummy-Kodierung mit “Nur Haftpflicht” als Referenzkategorie aufgenommen. Wie sind die zwei Dummy-Variablen art2 und art3 definiert? Abgabe: Donnerstag, 21.01.2016 Seite 1 von 3 (e) Was spricht gegen die Aufnahme einer weiteren dummy-kodierten Variablen art1 für die Kategorie “Nur Haftpflicht”? Begründen Sie Ihre Antwort. (f) Die folgenden Abbildungen zeigen ein Streudiagramm zwischen alterVN und empirischen Mittelwerten von logS pro Alter (links) sowie die partiellen Effekte, die von Modell (1) und (2) geschätzt und für die Abbildung zentriert wurden: 11.5 1.0 Modell (1) Modell (2) ● ● ● ● ● 10.5 ● ● ● Partielle Effekte Mittelwert von logS 0.8 11.0 ● ● ● ●● ● ● ● ● 10.0 ● ● ● ● ● ●●● ● ● ● 9.5 20 ● ● ● ●● ● ● ●● ● ●● ● ● ● ●● ● ●● ●● ●● ● ● ●●● ● ●● ● ● ● ● 0.6 0.4 0.2 0.0 ● ● ●● ● ●● ● ● ● 40 −0.2 60 alterVN 80 100 20 40 60 80 100 alterVN i. Interpretieren Sie den partiellen Effekt von alterVN in Modell (2). ii. Nennen Sie anhand von den Abbildungen und Outputs zwei Gründe, weshalb die polynomiale Modellierung von alterVN in Modell (2) gerechtfertigt erscheint. (g) Mit einem Test zum Niveau α = 0.01 soll überprüft werden, ob die komplexere, polynomiale Modellierung von alterVN in Modell (2) im Vergleich zur linearen Modellierung in Modell (1) signifikant ist. i. Formulieren Sie die Nullhypothese als lineare Hypothese der Art H0 : Cβ = d. ii. Beschreiben Sie einen Test Ihrer Wahl, den man zur Überprüfung der Hypothese durchführen könnte. Hinweis: Es ist keine explizite Durchführung des Tests nötig, eine kurze Beschreibung der wichtigsten Schritte und die Angabe von relevanten Formeln genügt. (h) Beschreiben Sie für ein Werkzeug der Modelldiagnose Ihrer Wahl das Ziel der Diagnose sowie Ihr Vorgehen um das Ziel zu überprüfen. Beschreiben Sie darüber hinaus (bei Bedarf mit Skizze), in welchem Fall das Werkzeug ein Problem diagnostizieren würde. Nennen Sie außerdem mindestens eine Lösungsmöglichkeit im Falle eines diagnostizierten Problems. Abgabe: Donnerstag, 21.01.2016 Seite 2 von 3 Modell (1) Call: lm(formula = logS ~ alterVN + alterAuto + geschl + art2 + art3, data = belgium) Residuals: Min 1Q -4.8915 -1.1657 Median 0.0181 3Q 1.1846 Max 5.4461 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 9.4892268 0.0482438 196.693 < 2e-16 *** alterVN 0.0035700 0.0007813 4.569 4.93e-06 *** alterAuto 0.0179535 0.0032386 5.544 3.01e-08 *** geschl 0.0117002 0.0257466 0.454 -- C -art2 -0.1424864 0.0279823 -- B -- 3.58e-07 *** art3 -- A -0.0383921 4.807 1.55e-06 *** --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 Residual standard error: 1.47 on 16471 degrees of freedom Multiple R-squared: 0.007216, Adjusted R-squared: 0.006914 F-statistic: 23.94 on -- D -- and 16471 DF, p-value: < 2.2e-16 Modell (2) Call: lm(formula = logS ~ alterVN + alterVN2 + alterVN3 + alterAuto + geschl + art2 + art3, data = belgium) Residuals: Min 1Q Median -4.964 -1.164 0.013 3Q 1.188 Max 5.349 Coefficients: Estimate 10.0864760 -0.0198098 0.0001174 0.0000016 0.0168818 0.0079877 -0.1364953 0.1968947 (Intercept) alterVN alterVN2 alterVN3 alterAuto geschl art2 art3 --Signif. codes: Std. Error 2.999e-01 2.016e-02 4.256e-04 2.831e-06 3.239e-03 2.572e-02 2.797e-02 3.839e-02 t value 33.631 -0.983 0.276 0.571 5.212 0.311 -4.880 5.129 Pr(>|t|) < 2e-16 0.326 0.783 0.568 1.89e-07 0.756 1.07e-06 2.94e-07 *** *** *** *** 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 Residual standard error: 1.468 on 16469 degrees of freedom Multiple R-squared: 0.01069, Adjusted R-squared: 0.01027 F-statistic: 25.42 on 7 and 16469 DF, p-value: < 2.2e-16 Abgabe: Donnerstag, 21.01.2016 Seite 3 von 3
© Copyright 2025 ExpyDoc