Was ist Regression? Statistik II Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung ¨ Ubersicht Wiederholung Literatur Regression Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Parametersch¨atzung f¨ ur die lineare Regression Zusammenfassung Statistik II Regression (1/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Literatur Literatur f¨ur heute Berk (2004, S. 13-17, 39-56) und Fox (1997, S. 86-88, 101, 204-205, 212-213) (beides im ReaderPlus) Statistik II Regression (2/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Literatur Literatur f¨ur n¨achste Woche Agresti ch. 10 Statistik II Regression (3/35) Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung female 0 −2 Scores for factor 1 2 male 0 5 10 0 placement on left right scale Graphs by gender Statistik II Regression (4/35) 5 10 Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung female −2 0 2 male 0 5 10 0 5 placement on left right scale Bewertung Immigranten Mittelwert Graphs by gender Statistik II Regression (5/35) 10 Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung female −2 0 2 male 0 5 10 0 5 placement on left right scale Bewertung Immigranten Verbindung Mittelwerte Mittelwert Graphs by gender Statistik II Regression (6/35) 10 Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung female −2 0 2 male 0 5 10 0 5 placement on left right scale Bewertung Immigranten Fitted values Mittelwert Graphs by gender Statistik II Regression (7/35) 10 Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Was ist Regression? Regression ist der Oberbegriff f¨ ur Verfahren, . . . die die konditionale Verteilung einer Variablen y . . . in Abh¨angigkeit von einer oder mehreren anderen Variablen x1 , x2 . . . xk beschreiben Was ist eine konditionale Verteilung“? ” Verteilung von y (Mittelwert, Streuung etc.) . . . innerhalb von Subgruppen, die durch x1 , x2 . . . xk definiert sind Statistik II Regression (8/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Was ist Regression? Die konditionalen Mittelwerte k¨ onnen durch eine glatte Linie beschrieben werden ¨ Ubergang zum Modell: Annahmen u ¨ber die Eigenschaften der Linie kommen von außen Abh¨angige“ / unabh¨angige“ Variable kommen ebenfalls von ” ” außen Das Beispiel zeigt u. a. Mehrere unabh¨angige Variablen Kategoriale unabh¨angige Variablen Interaktion Probleme mit der Linearit¨atsannahme Statistik II Regression (9/35) Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung female −2 0 2 male 0 5 10 0 5 placement on left right scale Bewertung Immigranten Verbindung Mittelwerte Mittelwert Graphs by gender Statistik II Regression (10/35) 10 Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Wie sieht das Standardmodell aus? Statistik II Regression (11/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Wie sieht das Standardmodell aus? y =α + β1 x1 + β2 x2 · · · + =β0 x0 + β1 x1 + β2 x2 · · · + mit x0 = 1 f¨ ur alle Einheiten Statistik II Regression (11/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Welche Symbole werden verwendet? Nomenklatur oft wenig einheitlich Grundregeln: 1. y f¨ ur abh¨angige“ Variable, x f¨ ur unabh¨angige“ Variable ” ” 2. Variablen, Parameter und Untersuchungseinheiten kann man mit einem Index durchnumerieren: x1 , x2 . . . xk 3. Lateinische Buchstaben f¨ ur Variablen und Parameter in der Stichprobe, 4. Griechische Buchstaben f¨ ur die unbekannten Parameter der Grundgesamtheit Statistik II Regression (12/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Welche Symbole werden verwendet? Nomenklatur oft wenig einheitlich Grundregeln: 5. Variablen erkannt man am Kursivdruck 6. F¨ ur Vektoren verwendet man (griechische oder lateinische) Kleinbuchstaben in Fettdruck 7. F¨ ur Matrizen verwendet man (griechische oder lateinische) Großbuchstaben in Fettdruck ˆ zeigt an, daß es 8. Ein Dach“ u ¨ber einem Parameter (z. B. β) ” sich um eine Sch¨atzung handelt (wird oft weggelassen) Statistik II Regression (12/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Was ist eine Zufallsvariable? Zufallsvariablen Ergebnis von Zufallsexperimenten Zufallsvariablen im Regressionsmodell Zuf¨allige Einfl¨ usse auf einen Fall Zuf¨allige Variation der Sch¨atzungen bei wiederholter Stichprobenziehung Zufallsexperimente K¨ onnen theoretisch beliebig oft wiederholt werden Einzelergebnisse h¨angen vom Zufall ab, Verteilung der Ergebnisse ist aber bekannt Bei h¨aufiger Wiederholung n¨ahert sich die empirische Verteilung der theoretischen Verteilung an Ziehung einer Zufallsstichprobe ist ein Zufallsexperiment Deshalb sind Stichprobenkennwerte und Modellparameter ebenfalls Zufallsvariablen Statistik II Regression (13/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Was ist eine Zufallsvariable? Im Einzelfall weiß man nicht, welchen Wert die Variable annimmt Aber: Auspr¨agungen von Zufallsvariablen sind nicht willk¨ urlich, sondern h¨ ochst regelm¨aßig verteilt Die Form der Verteilung der Werte einer Zufallsvariablen ist in der Regel bekannt / wird angenommen Zufallsvariablen (und ihre Verteilungen) k¨ onnen diskret oder stetig sein Einfaches lineares Regressionsmodell: stetige Zufallsvariablen wichtig Statistik II Regression (14/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Was ist der konzeptionelle Status eines Regressionsmodells? All models are ” wrong. Some are useful“ (George Box) To err is human, to forgive ” divine, but to include errors into your design is statistical“ (Leslie Kish) Statistik II Regression (15/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Was will uns Kish sagen? Abh¨angige Variable kann niemals vollst¨andig durch x1 , x2 . . . xk erkl¨art werden Zuf¨allige/als zuf¨allig betrachtete Einfl¨ usse Bestandteil des Modells (im linearen Modell ) Diese Art von Fehlern“ ist aus Sicht des Modells v¨ollig ” unproblematisch Statistik II Regression (16/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Was will uns Box sagen? Modelle niemals eine vollst¨andige Abbildung der Wirklichkeit, sondern immer extreme Vergr¨ oberung Z. B. Auswahl unabh¨angigen Variablen, Linearit¨atsannahme Ist das Modell dem Forschungsproblem angemessen? Instrumentalismus / Idealisierung (Friedman): Gute Prognosen, Problem: Stabilit¨at der Randbedingungen? Realismus / Abstraktion: Realistische Beschreibung, Problem: Komplexit¨at, Overfitting“ ” Statistik II Regression (17/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Was ist der konzeptionelle Status eines Regressionsmodells? Regressionsmodell Hochgradig vereinfachte Nicht unbedingt realistische Mathematisch formalisierte Beschreibung der sozialen Wirklichkeit als Funktion von systematischen und zuf¨alligen Einfl¨ ussen Statistik II Regression (18/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Was k¨onnen wir mit den Parametern eines Modells anfangen? Beschreibung: Modell erfaßt wesentliche Aspekte einer konkreten Verteilung von Datenpunkten Keine weitergehenden Schl¨ usse, Mittel zur Verdichtung der Information Inferenz: Von den konkreten Daten soll auf etwas anderes geschlossen werden, aber auf was? (Fast v¨ ollig) unproblematisch im Fall einer Zufallsstichprobe aus einer großen Grundgesamtheit Klassische Inferenz, Standardfehler, Konfidenzintervalle, Signifikanztests Erfordert Annahmen u ¨ber Zustandekommen der Daten → klassische Inferenz Statistik II Regression (19/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Was leistet die klassische Inferenz? R¨ uckschl¨ usse auf die Verteilung der in der Stichprobe errechneten Sch¨atzungen um die wahren Werte in der Grundgesamtheit wenn Stichprobenziehung unter essentiell identischen Bedingungen unendlich oft wiederholt wird Konfidenzintervall Ein Intervall, das nach dieser Regel konstruiert wird, wird in 95 ” von 100 Stichproben den wahren Wert des Parameters mit einschließen“ Statistik II Regression (20/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Was leistet die klassische Inferenz? R¨ uckschl¨ usse auf die Verteilung der in der Stichprobe errechneten Sch¨atzungen um die wahren Werte in der Grundgesamtheit wenn Stichprobenziehung unter essentiell identischen Bedingungen unendlich oft wiederholt wird Habe ich eine der 95 gl¨ ucklichen“ Stichproben gezogen? ” Nicht sehr intuitive, aber klare Interpretation Statistik II Regression (20/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Und wenn ich keine Zufallsstichprobe habe? Schulbezirke, OECD-Staaten, Studierende an einer bestimmten Universit¨at Strategie I: Die Daten werden wie eine Grundgesamtheit behandelt Regression dient nur zur Beschreibung Strategie II (mit Varianten): Annahmen u ¨ber Natur, Superpopulation, . . . Standardfehler werden als ob“ berechnet ” Innerhalb des klassischen Ansatzes nicht ok Erfordert andere statistische Annahmen Statistik II Regression (21/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was ist Regression? Wiederholung: Standardmodell der linearen Regression Nomenklatur Wiederholung: Wahrscheinlichkeitsverteilungen Beschreibung und Inferenz Und wenn ich keine Zufallsstichprobe habe? Schulbezirke, OECD-Staaten, Studierende an einer bestimmten Universit¨at Strategie I: Die Daten werden wie eine Grundgesamtheit behandelt Regression dient nur zur Beschreibung Strategie II (mit Varianten): Annahmen u ¨ber Natur, Superpopulation, . . . Standardfehler werden als ob“ berechnet ” Innerhalb des klassischen Ansatzes nicht ok Erfordert andere statistische Annahmen Extreme Vorsicht mit Standardfehlern bei Non-Samples Statistik II Regression (21/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Wie komme ich zu meinen Sch¨atzungen? Wie lege ich die Gerade durch die Punkte (gute Beschreibung/gute Sch¨atzung)? Standardmethode: Kleinste-Quadrate-Sch¨atzung“ (Ordinary ” Abweichungsquadrate“? Least Squares, OLS) Welche Koeffizienten minimieren die SAQ? Gute Beschreibung/Anpassung Und (in diesem Fall) auch gute Sch¨atzung f¨ ur Grundgesamtheit Statistik II Regression (22/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung 4 5 6 Was sind die Abweichungen, die quadriert werden? 2 3 y 1 2 3 x Statistik II 4 Regression (23/35) 5 Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Wie komme ich zu meinen Sch¨atzungen? F¨ ur alle Datenpunkte i = 1, 2 . . . n Differenz zwischen beobachtetem (yi ) und erwartetem Wert (yˆi ) bestimmen, quadrieren und aufsummieren n (yi − (b0 + b1 x1i ))2 (1) (yi − b0 − b1 x1i )2 (2) SAQ = i=1 n = i=1 Die SAQ in (1) sind eine Funktion der Daten und der Parametersch¨atzungen Gesucht sind Parametersch¨atzungen, die SAQ minimieren Statistik II Regression (24/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Wie minimiere ich die SAQ? M¨ oglichkeit I: Durch systematisches Variieren der Parameter Entspricht in etwa den iterativen Verfahren M¨oglichkeit II: Es existiert eine analytische L¨ osung Funktion hat globales Minimum Notwendige Bedingung f¨ ur einen Extremwert: 1. Ableitung gleich 0 (Tangente ist an dieser Stelle flach) Funktion hat zwei Variablen → zwei partielle Ableitungen (nach b0 und b1 ) betrachten Normalgleichungen“ ” Statistik II Regression (25/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Wie sehen die Normalgleichungen aus? b0 × n + b1 x1i + b2 x2i + · · · bk xki = yi (3) b0 x1i + b1 x1i2 + b2 x1i x2i + · · · bk x1i xki = x1i yi (4) .. . b0 xki + b1 xki x1i + b2 xki x2i + · · · bk xki2 = xki yi (5) Nur zur Illustration, muß nicht auswendig gelernt werden Statistik II Regression (26/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Geht das auch etwas u¨bersichtlicher? Schon bei zwei Variablen sehr un¨ ubersichtlich F¨ ur den multivariaten Fall Darstellung und Berechnung vorzugsweise in Matrix-Schreibweise Matrix: tabellenf¨ ormige Darstellung von Zahlen (Elementen der Matrix) A ist eine m × n Matrix (m Zeilen, n Spalten): a11 a12 · · · a1n a21 a22 · · · a2n A = .. (6) .. .. .. . . . . am1 am2 . . . amn Matrix mit einer Spalte: Spaltenvektor; Matrix mit einer Zeile: Zeilenvektor weiter Statistik II Regression (27/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Wie kann man mit Matrizen rechnen? Der Stoff auf den n¨achsten Folien dient Ihrem Verst¨andnis, ist aber nicht klausurrelevant Matrizen werden elementweise addiert (Rechenbeispiele aus Wikipedia) Setzt gleiche Zahl von Spalten Zeilen voraus 0 0 5 1 3 2 + 1 2 2 2 1 1 = 1+0 3+0 2+5 1+2 2+1 2+1 Statistik II Regression (28/35) = 1 3 7 3 3 3 Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Wie kann man mit Matrizen rechnen? Die Multiplikation mit einem Skalar ist einfach: 2× 1 3 2 1 2 2 = 2×1 2×3 2×2 2×1 2×2 2×2 Statistik II Regression (29/35) = 2 6 4 2 4 4 Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Wie kann man mit Matrizen rechnen? Die Multiplikation von Matrizen ist spannender Nur m¨oglich, wenn die Spaltenzahl der linken mit der Zeilenzahl der rechten Matrix u ¨bereinstimmt A × B = B × A (normalerweise) 6 −1 1 2 3 × 3 2 = 4 5 6 0 −3 1 × 6 + 2 × 3 + 3 × 0 1 × (−1) + 2 × 2 + 3 × (−3) 4 × 6 + 5 × 3 + 6 × 0 4 × (−1) + 5 × 2 + 6 × (−3) 12 −6 39 −12 Statistik II Regression (30/35) = Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was kann man sonst noch machen? Transponieren, d. h. Zeilen und Spalten vertauschen 1 4 1 8 −3 = 8 −2 4 −2 5 −3 5 Die Inverse suchen (entspricht etwa dem Kehrwert): A × A−1 = I I ist die Einheitsmatrix Quadratische Matrix mit Einsen auf der Hauptdiagonale, sonst nur Nullen Inverse erm¨oglicht es, durch Matrix zu teilen; nicht alle Matrizen sind invertierbar Statistik II Regression (31/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was hilft uns das? Das lineare Modell kann in Matrix-Schreibweise sehr kompakt formuliert werden y = Xβ + y: X: mit β: : Spaltenvektor mit Werten der abh¨ angigen Variablen Matrix mit Werten der unabh¨ angigen Variablen Spaltenvektor mit Koeffizienten Spaltenvektor mit zuf¨ alligen Einfl¨ ussen dabei ist y1 . y = .. yn 1 . X = .. 1 x11 .. . xn1 ··· .. . ··· x1k .. . xnk β0 β1 β= . .. βk 1 . = .. n (7) Statistik II Regression (32/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was hilft uns das? OLS-Sch¨atzung: y = Xb + e (e ist der Spaltenvektor der Residuen, b ist der Spaltenvektor der Koeffizienten, X ist die Datenmatrix) Die Summe der quadrierten Residuen ist e e (warum? – siehe Matrix-Multiplikation drei Folien vorher) SAQ = e e = (y − Xb) (y − Xb) = y y − y Xb − b X y + b X Xb = y y − (2y X)b + b (X X)b Muß nicht auswendig gelernt werden, aber Sie sollten es in groben Z¨ ugen verstehen Statistik II Regression (33/35) (8) (9) (10) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Was hilft uns das? Die partielle Ableitung der SAQ nach b ist ∂SAQ = −2X y + 2X Xb b Auf null setzen: −2X y + 2X Xb = 0 Vektorform der Normalgleichungen: X Xb = X y Nach b aufl¨osen: b = (X X)−1 X y Muß nicht auswendig gelernt werden, aber Sie sollten es in groben Z¨ ugen verstehen Statistik II Regression (34/35) Wiederholung Regression Parametersch¨ atzung f¨ ur die lineare Regression Zusammenfassung Zusammenfassung Regression betrachtet konditionalen Mittelwert einer Variablen Mittelwert folgt in Abh¨angigkeit von unabh¨angigen Variablen einem Pfad Im klassischen Modell entspricht dieser Pfad einer Linie/Fl¨ache/Hyperfl¨ache, die die SAQ minimiert Das Gleichungssystem l¨aßt sich analytisch l¨ osen, um die optimalen Parameter zu finden Matrix muß genug unabh¨angige Informationen enthalten OLS gutes Mittel zur Datenverdichtung – auch ein gutes Sch¨atzverfahren? Statistik II Regression (35/35)
© Copyright 2024 ExpyDoc