Was ist Regression? - Kai Arzheimer

Was ist Regression?
Statistik II
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
¨
Ubersicht
Wiederholung
Literatur
Regression
Was ist Regression?
Wiederholung: Standardmodell der
linearen Regression
Nomenklatur
Wiederholung:
Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Parametersch¨atzung f¨
ur die lineare
Regression
Zusammenfassung
Statistik II
Regression (1/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Literatur
Literatur f¨ur heute
Berk (2004, S. 13-17, 39-56) und
Fox (1997, S. 86-88, 101, 204-205, 212-213)
(beides im ReaderPlus)
Statistik II
Regression (2/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Literatur
Literatur f¨ur n¨achste Woche
Agresti ch. 10
Statistik II
Regression (3/35)
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
female
0
−2
Scores for factor 1
2
male
0
5
10
0
placement on left right scale
Graphs by gender
Statistik II
Regression (4/35)
5
10
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
female
−2
0
2
male
0
5
10
0
5
placement on left right scale
Bewertung Immigranten
Mittelwert
Graphs by gender
Statistik II
Regression (5/35)
10
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
female
−2
0
2
male
0
5
10
0
5
placement on left right scale
Bewertung Immigranten
Verbindung Mittelwerte
Mittelwert
Graphs by gender
Statistik II
Regression (6/35)
10
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
female
−2
0
2
male
0
5
10
0
5
placement on left right scale
Bewertung Immigranten
Fitted values
Mittelwert
Graphs by gender
Statistik II
Regression (7/35)
10
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Was ist Regression?
Regression ist der Oberbegriff f¨
ur Verfahren, . . .
die die konditionale Verteilung einer Variablen y . . .
in Abh¨angigkeit von einer oder mehreren anderen Variablen
x1 , x2 . . . xk beschreiben
Was ist eine konditionale Verteilung“?
”
Verteilung von y (Mittelwert, Streuung etc.) . . .
innerhalb von Subgruppen, die durch x1 , x2 . . . xk definiert sind
Statistik II
Regression (8/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Was ist Regression?
Die konditionalen Mittelwerte k¨
onnen durch eine glatte Linie
beschrieben werden
¨
Ubergang
zum Modell: Annahmen u
¨ber die Eigenschaften der
Linie kommen von außen
Abh¨angige“ / unabh¨angige“ Variable kommen ebenfalls von
”
”
außen
Das Beispiel zeigt u. a.
Mehrere unabh¨angige Variablen
Kategoriale unabh¨angige Variablen
Interaktion
Probleme mit der Linearit¨atsannahme
Statistik II
Regression (9/35)
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
female
−2
0
2
male
0
5
10
0
5
placement on left right scale
Bewertung Immigranten
Verbindung Mittelwerte
Mittelwert
Graphs by gender
Statistik II
Regression (10/35)
10
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Wie sieht das Standardmodell aus?
Statistik II
Regression (11/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Wie sieht das Standardmodell aus?
y =α + β1 x1 + β2 x2 · · · +
=β0 x0 + β1 x1 + β2 x2 · · · +
mit x0 = 1 f¨
ur alle Einheiten
Statistik II
Regression (11/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Welche Symbole werden verwendet?
Nomenklatur oft wenig einheitlich
Grundregeln:
1. y f¨
ur abh¨angige“ Variable, x f¨
ur unabh¨angige“ Variable
”
”
2. Variablen, Parameter und Untersuchungseinheiten kann man
mit einem Index durchnumerieren: x1 , x2 . . . xk
3. Lateinische Buchstaben f¨
ur Variablen und Parameter in der
Stichprobe,
4. Griechische Buchstaben f¨
ur die unbekannten Parameter der
Grundgesamtheit
Statistik II
Regression (12/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Welche Symbole werden verwendet?
Nomenklatur oft wenig einheitlich
Grundregeln:
5. Variablen erkannt man am Kursivdruck
6. F¨
ur Vektoren verwendet man (griechische oder lateinische)
Kleinbuchstaben in Fettdruck
7. F¨
ur Matrizen verwendet man (griechische oder lateinische)
Großbuchstaben in Fettdruck
ˆ zeigt an, daß es
8. Ein Dach“ u
¨ber einem Parameter (z. B. β)
”
sich um eine Sch¨atzung handelt (wird oft weggelassen)
Statistik II
Regression (12/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Was ist eine Zufallsvariable?
Zufallsvariablen Ergebnis von Zufallsexperimenten
Zufallsvariablen im Regressionsmodell
Zuf¨allige Einfl¨
usse auf einen Fall
Zuf¨allige Variation der Sch¨atzungen bei wiederholter
Stichprobenziehung
Zufallsexperimente
K¨
onnen theoretisch beliebig oft wiederholt werden
Einzelergebnisse h¨angen vom Zufall ab, Verteilung der
Ergebnisse ist aber bekannt
Bei h¨aufiger Wiederholung n¨ahert sich die empirische
Verteilung der theoretischen Verteilung an
Ziehung einer Zufallsstichprobe ist ein Zufallsexperiment
Deshalb sind Stichprobenkennwerte und Modellparameter
ebenfalls Zufallsvariablen
Statistik II
Regression (13/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Was ist eine Zufallsvariable?
Im Einzelfall weiß man nicht, welchen Wert die Variable
annimmt
Aber: Auspr¨agungen von Zufallsvariablen sind nicht
willk¨
urlich, sondern h¨
ochst regelm¨aßig verteilt
Die Form der Verteilung der Werte einer Zufallsvariablen ist in
der Regel bekannt / wird angenommen
Zufallsvariablen (und ihre Verteilungen) k¨
onnen diskret oder
stetig sein
Einfaches lineares Regressionsmodell: stetige Zufallsvariablen
wichtig
Statistik II
Regression (14/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Was ist der konzeptionelle Status eines
Regressionsmodells?
All models are
”
wrong. Some are
useful“ (George
Box)
To err is human, to forgive
”
divine, but to include errors
into your design is statistical“
(Leslie Kish)
Statistik II
Regression (15/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Was will uns Kish sagen?
Abh¨angige Variable kann niemals vollst¨andig durch
x1 , x2 . . . xk erkl¨art werden
Zuf¨allige/als zuf¨allig betrachtete Einfl¨
usse Bestandteil des
Modells (im linearen Modell )
Diese Art von Fehlern“ ist aus Sicht des Modells v¨ollig
”
unproblematisch
Statistik II
Regression (16/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Was will uns Box sagen?
Modelle niemals eine vollst¨andige Abbildung der Wirklichkeit,
sondern immer extreme Vergr¨
oberung
Z. B. Auswahl unabh¨angigen Variablen, Linearit¨atsannahme
Ist das Modell dem Forschungsproblem angemessen?
Instrumentalismus / Idealisierung (Friedman): Gute Prognosen,
Problem: Stabilit¨at der Randbedingungen?
Realismus / Abstraktion: Realistische Beschreibung, Problem:
Komplexit¨at, Overfitting“
”
Statistik II
Regression (17/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Was ist der konzeptionelle Status eines
Regressionsmodells?
Regressionsmodell
Hochgradig vereinfachte
Nicht unbedingt realistische
Mathematisch formalisierte
Beschreibung der sozialen Wirklichkeit als Funktion von
systematischen und
zuf¨alligen Einfl¨
ussen
Statistik II
Regression (18/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Was k¨onnen wir mit den Parametern eines Modells
anfangen?
Beschreibung:
Modell erfaßt wesentliche Aspekte einer konkreten Verteilung
von Datenpunkten
Keine weitergehenden Schl¨
usse, Mittel zur Verdichtung der
Information
Inferenz:
Von den konkreten Daten soll auf etwas anderes geschlossen
werden, aber auf was?
(Fast v¨
ollig) unproblematisch im Fall einer Zufallsstichprobe
aus einer großen Grundgesamtheit
Klassische Inferenz, Standardfehler, Konfidenzintervalle,
Signifikanztests
Erfordert Annahmen u
¨ber Zustandekommen der Daten →
klassische Inferenz
Statistik II
Regression (19/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Was leistet die klassische Inferenz?
R¨
uckschl¨
usse auf die Verteilung der in der Stichprobe
errechneten Sch¨atzungen
um die wahren Werte in der Grundgesamtheit
wenn Stichprobenziehung unter essentiell identischen
Bedingungen
unendlich oft wiederholt wird
Konfidenzintervall
Ein Intervall, das nach dieser Regel konstruiert wird, wird in 95
”
von 100 Stichproben den wahren Wert des Parameters mit
einschließen“
Statistik II
Regression (20/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Was leistet die klassische Inferenz?
R¨
uckschl¨
usse auf die Verteilung der in der Stichprobe
errechneten Sch¨atzungen
um die wahren Werte in der Grundgesamtheit
wenn Stichprobenziehung unter essentiell identischen
Bedingungen
unendlich oft wiederholt wird
Habe ich eine der 95 gl¨
ucklichen“ Stichproben gezogen?
”
Nicht sehr intuitive, aber klare Interpretation
Statistik II
Regression (20/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Und wenn ich keine Zufallsstichprobe habe?
Schulbezirke, OECD-Staaten, Studierende an einer
bestimmten Universit¨at
Strategie I: Die Daten werden wie eine Grundgesamtheit
behandelt
Regression dient nur zur Beschreibung
Strategie II (mit Varianten): Annahmen u
¨ber Natur,
Superpopulation, . . .
Standardfehler werden als ob“ berechnet
”
Innerhalb des klassischen Ansatzes nicht ok
Erfordert andere statistische Annahmen
Statistik II
Regression (21/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was ist Regression?
Wiederholung: Standardmodell der linearen Regression
Nomenklatur
Wiederholung: Wahrscheinlichkeitsverteilungen
Beschreibung und Inferenz
Und wenn ich keine Zufallsstichprobe habe?
Schulbezirke, OECD-Staaten, Studierende an einer
bestimmten Universit¨at
Strategie I: Die Daten werden wie eine Grundgesamtheit
behandelt
Regression dient nur zur Beschreibung
Strategie II (mit Varianten): Annahmen u
¨ber Natur,
Superpopulation, . . .
Standardfehler werden als ob“ berechnet
”
Innerhalb des klassischen Ansatzes nicht ok
Erfordert andere statistische Annahmen
Extreme Vorsicht mit Standardfehlern bei Non-Samples
Statistik II
Regression (21/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Wie komme ich zu meinen Sch¨atzungen?
Wie lege ich die Gerade durch die Punkte (gute
Beschreibung/gute Sch¨atzung)?
Standardmethode: Kleinste-Quadrate-Sch¨atzung“ (Ordinary
” Abweichungsquadrate“?
Least Squares, OLS)
Welche Koeffizienten minimieren die SAQ?
Gute Beschreibung/Anpassung
Und (in diesem Fall) auch gute Sch¨atzung f¨
ur
Grundgesamtheit
Statistik II
Regression (22/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
4
5
6
Was sind die Abweichungen, die quadriert werden?
2
3
y
1
2
3
x
Statistik II
4
Regression (23/35)
5
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Wie komme ich zu meinen Sch¨atzungen?
F¨
ur alle Datenpunkte i = 1, 2 . . . n Differenz zwischen
beobachtetem (yi ) und erwartetem Wert (yˆi ) bestimmen,
quadrieren und aufsummieren
n
(yi − (b0 + b1 x1i ))2
(1)
(yi − b0 − b1 x1i )2
(2)
SAQ =
i=1
n
=
i=1
Die SAQ in (1) sind eine Funktion der Daten und der
Parametersch¨atzungen
Gesucht sind Parametersch¨atzungen, die SAQ minimieren
Statistik II
Regression (24/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Wie minimiere ich die SAQ?
M¨
oglichkeit I:
Durch systematisches Variieren der Parameter
Entspricht in etwa den iterativen Verfahren
M¨oglichkeit II:
Es existiert eine analytische L¨
osung
Funktion hat globales Minimum
Notwendige Bedingung f¨
ur einen Extremwert: 1. Ableitung
gleich 0 (Tangente ist an dieser Stelle flach)
Funktion hat zwei Variablen → zwei partielle Ableitungen
(nach b0 und b1 ) betrachten
Normalgleichungen“
”
Statistik II
Regression (25/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Wie sehen die Normalgleichungen aus?
b0 × n + b1
x1i + b2
x2i + · · · bk
xki =
yi
(3)
b0
x1i + b1
x1i2 + b2
x1i x2i + · · · bk
x1i xki =
x1i yi
(4)
..
.
b0
xki + b1
xki x1i + b2
xki x2i + · · · bk
xki2 =
xki yi
(5)
Nur zur Illustration, muß nicht auswendig gelernt werden
Statistik II
Regression (26/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Geht das auch etwas u¨bersichtlicher?
Schon bei zwei Variablen sehr un¨
ubersichtlich
F¨
ur den multivariaten Fall Darstellung und Berechnung
vorzugsweise in Matrix-Schreibweise
Matrix: tabellenf¨
ormige Darstellung von Zahlen (Elementen
der Matrix)
A ist eine m × n Matrix (m Zeilen, n Spalten):


a11 a12 · · · a1n
 a21 a22 · · · a2n 


A =  ..
(6)
..
.. 
..
 .
.
.
. 
am1 am2 . . . amn
Matrix mit einer Spalte: Spaltenvektor; Matrix mit einer Zeile:
Zeilenvektor weiter
Statistik II
Regression (27/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Wie kann man mit Matrizen rechnen?
Der Stoff auf den n¨achsten Folien dient Ihrem Verst¨andnis, ist
aber nicht klausurrelevant
Matrizen werden elementweise addiert (Rechenbeispiele aus
Wikipedia)
Setzt gleiche Zahl von Spalten Zeilen voraus
0 0 5
1 3 2
+
1 2 2
2 1 1
=
1+0 3+0 2+5
1+2 2+1 2+1
Statistik II
Regression (28/35)
=
1 3 7
3 3 3
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Wie kann man mit Matrizen rechnen?
Die Multiplikation mit einem Skalar ist einfach:
2×
1 3 2
1 2 2
=
2×1 2×3 2×2
2×1 2×2 2×2
Statistik II
Regression (29/35)
=
2 6 4
2 4 4
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Wie kann man mit Matrizen rechnen?
Die Multiplikation von Matrizen ist spannender
Nur m¨oglich, wenn die Spaltenzahl der linken mit der
Zeilenzahl der rechten Matrix u
¨bereinstimmt
A × B = B × A (normalerweise)


6 −1
1 2 3
× 3 2  =
4 5 6
0 −3
1 × 6 + 2 × 3 + 3 × 0 1 × (−1) + 2 × 2 + 3 × (−3)
4 × 6 + 5 × 3 + 6 × 0 4 × (−1) + 5 × 2 + 6 × (−3)
12 −6
39 −12
Statistik II
Regression (30/35)
=
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was kann man sonst noch machen?
Transponieren, d. h. Zeilen und Spalten vertauschen


1
4
1 8 −3
=  8 −2
4 −2 5
−3 5
Die Inverse suchen (entspricht etwa dem Kehrwert):
A × A−1 = I
I ist die Einheitsmatrix
Quadratische Matrix mit Einsen auf der Hauptdiagonale, sonst
nur Nullen
Inverse erm¨oglicht es, durch Matrix zu teilen; nicht alle
Matrizen sind invertierbar
Statistik II
Regression (31/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was hilft uns das?
Das lineare Modell kann in Matrix-Schreibweise sehr kompakt
formuliert werden
y = Xβ +

y:



X:
mit
β:



:
Spaltenvektor mit Werten der abh¨
angigen Variablen
Matrix mit Werten der unabh¨
angigen Variablen
Spaltenvektor mit Koeffizienten
Spaltenvektor mit zuf¨
alligen Einfl¨
ussen
dabei ist
 
y1
.
y =  .. 
yn

1
.
X =  ..
1
x11
..
.
xn1
···
..
.
···

x1k
.. 
. 
xnk


β0
 β1 
 
β= . 
 .. 
βk
 
1
.
=  .. 
n
(7)
Statistik II
Regression (32/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was hilft uns das?
OLS-Sch¨atzung: y = Xb + e (e ist der Spaltenvektor der
Residuen, b ist der Spaltenvektor der Koeffizienten, X ist die
Datenmatrix)
Die Summe der quadrierten Residuen ist e e (warum? – siehe
Matrix-Multiplikation drei Folien vorher)
SAQ = e e = (y − Xb) (y − Xb)
= y y − y Xb − b X y + b X Xb
= y y − (2y X)b + b (X X)b
Muß nicht auswendig gelernt werden, aber Sie sollten es in groben Z¨
ugen verstehen
Statistik II
Regression (33/35)
(8)
(9)
(10)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Was hilft uns das?
Die partielle Ableitung der SAQ nach b ist
∂SAQ
= −2X y + 2X Xb
b
Auf null setzen: −2X y + 2X Xb = 0
Vektorform der Normalgleichungen: X Xb = X y
Nach b aufl¨osen: b = (X X)−1 X y
Muß nicht auswendig gelernt werden, aber Sie sollten es in groben Z¨
ugen verstehen
Statistik II
Regression (34/35)
Wiederholung
Regression
Parametersch¨
atzung f¨
ur die lineare Regression
Zusammenfassung
Zusammenfassung
Regression betrachtet konditionalen Mittelwert einer Variablen
Mittelwert folgt in Abh¨angigkeit von unabh¨angigen Variablen
einem Pfad
Im klassischen Modell entspricht dieser Pfad einer
Linie/Fl¨ache/Hyperfl¨ache, die die SAQ minimiert
Das Gleichungssystem l¨aßt sich analytisch l¨
osen, um die
optimalen Parameter zu finden
Matrix muß genug unabh¨angige Informationen enthalten
OLS gutes Mittel zur Datenverdichtung – auch ein gutes
Sch¨atzverfahren?
Statistik II
Regression (35/35)