Buch 1, Kap 6.1: Das
P Summenzeichen
Das Summenzeichen
wird als Abkürzung für längere Summen benutzt.
So wird die Summe 1 + 2 + 3 + 4 + 5 + 6 geschrieben als
6
X
i
i=1
Der Index unter dem Summenzeichen gibt den Startwert der Summanden an (im Beispiel 1). Der
Index oberhalb des Summenzeichens gibt den Endwert der Summanden an (im Beispiel 6). Das i ist
die Laufvariable, die bei dem Startwert beginnt und bis zum Endwert jeweils um +1 erhöht wird.
Besonders praktisch ist das Summenzeichen, wenn der Endwert nur symbolisch bekannt ist, wie bei
der Anzahl von Beoabachtungen, die wir mit n abkürzen. So kann die Summe aller Beoachtungen der
gemessenen Variable Y entweder durch
y1 + y2 + ... + yn
bezeichnet werden oder auch einfach durch
n
X
yi
i=1
Entsprechend ist der Mittelwert y durch
n
y=
1X
yi
n
i=1
gegeben.
Es gibt einige wichtige Summen, die man als Funktion des Endwerts n angeben kann.
So gilt
n
X
n(n + 1)
i = 1 + 2 + ... + n =
2
i=1
oder
n
X
i2 = 12 + 22 + ... + n2 =
i=1
n(n + 1)(2n + 1)
.
6
Wichtige Regeln für das Arbeiten mit Summen sind die Folgenden:
n
X
i=1
n
X
i=1
n X
m
X
i=1 j=1
a = |a + a +
{z... + a} = n × a
n Summanden
byi = by1 + by2 + ... + byn = b
n
X
yi
i=1
xi yj = x1 y1 + x2 y1 + ... + x1 ym + x2 y1 + ...x2 ym + ... + xn y1 + ... + xn ym =
n
X
i=1
!
xi
m
X

j=1

yj 
Buch 1, Kap 6.1: Optimalitätseigenschaft des arithmetischen Mittelwerts
n
n
P
P
(yi − y)2 ≤
(yi − c)2 für jede Konstante c
i=1
i=1
Beweis
Wir betrachten im folgenden lediglich die rechte Seite der Ungleichung und zeigen, dass die rechte
Seite niemals kleiner als die linke Seite sein kann und die Gleichheit dann erreicht wird, wenn c = y.
Dazu betrachten, die rechte Seite als Funktion von c, y1 , ....yn :
f (c, y1 , ....yn ) :=
n
X
2
(yi − c) =
i=1
n
X
yi2 − 2yi c + c2
i=1
und ermitteln das Minimum für c. Dazu leiten wir f nach c ab und setzen die Ableitung gleich 0 :
n
X
δf
=
(−2yi + 2c) = 0
δc
i=1
Dann folgt:
2nc = 2
n
X
yi = 2ny bzw. c = y
i=1
5Das Minimum für c entspricht dem arithmetischen Mittel und nur dann sind besitzen die beiden
Seiten der obigen Ungleichung einen identischen Wert. Um zu zeigen, dass c ein Minimum ist, muss
die zweite Ableitung positiv sein, was im vorliegenden Fall auch zutrifft:
n
X
δ2f
=
2 = 2n > 0
δc
i=1
Buch 1, Kap 6.1: Äquivarianz des arithmetischen Mittelwerts Der Mittelwert von Y 0 = a+bY
ist a + by.
Beweis
n
y0 =
1X
(a + byi )
n
i=1
=
1
n
na + b
n
X
i=1
1
=
(na + bny)
n
= a + by
!
yi
Buch 1, Kap 6.1: Andere Mittelwerte
Überlegungen
Neben Modalwerte, dem Median und dem arithmetischen Mittel werden einige weitere Mittelwerte
diskutiert.
Insgesamt lassen sich folgende Definitionen finden
Name
Geometrisches Mittel
Kürzel
y geom
Definition
√
y geom = n y1 × y2 × ... × yn
Harmonisches Mittel
y harm
y harm =
Monomisches Mittel für p > 1
y p−mono
n
1/y1 +1/y2 +...+1/yn
p
y p−mono = p y1p × y2p + ...
Quadratisches Mittel
y 2−mono
y 2−mono =
Kubisches Mittel
y 3−mono
y 3−mono
+ ynp
p
y12 × y22 + ... + yn2
p
= 3 y13 × y23 + ... + yn3
Quadratisches und kubisches Mittel sind Spezialfälle des monomischen Mittels mit p = 2 (quadratisch)
bzw. p = 3 (kubisch).
Bei allen Definitionen ist die Grundidee die, dass die gemessene Variable Y nicht intervallskaliert ist,
sondern eine nicht-lineare Transformation der Variablen intervallskaliert ist.
• Beim geometrischen Mittel ist der Logarithmus ln(Y ) die Variable, die interpretierbare Differenzen aufweist.
• Beim harmonischen Mittel ist
1
Y
die Variable, die interpretierbare Differenzen aufweist.
p
• Beim monomischen Mittel ist letztlich Y die Variable, die interpretierbare Differenzen aufweist.
Die jeweiligen Mittelwerte werden dann als arithmetische Mittelwerte in den transformierten Variablen
f (Y ) berechnet und danach wird das berechnete arithmetische Mittel mittels der Umkehrtransformation f −1 nach Y zurück transformiert.
Im Einzelnen:
Name
Transformation
Geometrisches Mittel
ln(Y )
Harmonisches Mittel
1/Y
Monomisches Mittel für p > 1
Yp
Rücktransformation
exp ln(Y )
1
1/Y
p
p
Yp
Buch
Pn 1, Kap 6.1.2:
PnOptimalitätseigenschaft des Medians
i=1 |yi − ymed | ≤
i=1 |yi − c| für jede Konstante c
Beweis
Um diese Eigenschaft des Medians zu beweisen müssen mehrere Fälle untersucht werden.
Ein wenig Arbeit kann eingespart werden, wenn man folgende Beziehung berücksichtigt:
Gilt die Behauptung für Y und einen festen Wert c, dann gilt die Behauptung für −c und −Y und
dem Median −ymed ebenfalls. Dies gilt, da der −ymed tatsächlich der Median von −Y ist und
n
X
|−yi − (−c)| =
i=1
n
X
|yi − c|
i=1
unverändert bleibt.
Für den Beweis nutzen wir die nach der Größe sortierten Werte y(i) .
Fall 1: c ≤ ymed
n
Wir setzen m = n−1
2 für ungerades n und m = 2 für gerades n. Es gilt somit 2m ≤ n.
Aus der Definition des Medians lässt sich dann abeliten, dass für alle i = 1, ..., m y(i) ≤ ymed und
y(i) ≥ ymed für i > m gilt.
Für c ≤ ymed gibt es einen maximalen Index j ≤ m mit y(j) ≤ c.
Für alle i > j soll dann y(i) ≥ c gelten.
Wir betrachten nun die Differenz der Summe der Absolutbeträge
n
X
j
n
m
n
X
X
X
X
|y(i) − c| − |y(i) − ymed | =
(c − y(i) ) +
(y(i) − c) −
(ymed − y(i) ) −
(y(i) − ymed )
i=1
=
i=1
i=j+1
j
X
m
X
i=1
i=j+1
(c − ymed ) +
i=1
(y(i) − c − (ymed − y(i) ) +
= (n − m − j)(ymed − c) +
≥ (n − m − j)(ymed − c) +
= (n − m − j)(ymed − c) +
i=m+1
n
X
(−c + ymed )
i=m+1
m
X
(2y(i) − c − ymed )
i=j+1
m
X
(2c − c − ymed )
i=j+1
m
X
(c − ymed )
i=j+1
= (n − m − j)(ymed − c) + (m − j)(c − ymed )
= (n − 2m)(ymed − c)
Oben wurde festgestellt, dass (n − 2m) ≥ 0 gilt. Nach Voraussetzung ist ymed − c ≥ 0. Damit gilt
n
X
|y(i) − c| − |y(i) − ymed | ≥ 0
i=1
Fall 2: c ≥ ymed
Da −c in −Y nicht optimal sein kann (Fall 1), kann dies auch hier nicht gelten.
Buch 1, Kap 6.3.3: Verschiebungssatz für Abweichungsquadrate
n
X
(yi − c)2 = SSY + n(y − c)2
i=1
Beweis
n
X
(yi − c)
2
=
i=1
n
X
(yi − y + y − c)2
i=1
=
n
X
n
n
X
X
(yi − y) + 2
(yi − y)(y − c) +
(y − c)2
2
i=1
i=1
i=1
n
X
= SSY + 2(y − c)
(yi − y) + n(y − c)2
i=1
= SSY + 2(y − c) × 0 + n(y − c)2
= SSY + n(y − c)2
Buch 1, Kap 6.3.3: Rechentechnisch günstige Formel für die Varianz
!
n
n
X
1 X
1
2
2
2
2
(yi − y) =
yi − ny
s =
n−1
n−1
i=1
i=1
Beweis
Nach dem Verschiebungssatz für Abweichungsquadrate gilt für die Verschiebung c = 0:
n
X
(yi − 0)2 = SSY + n(y − 0)2
i=1
n
X
yi2 = SSY + ny 2 und damit
i=1
SSY
=
n
X
yi2 − ny 2
i=1
1
SSY
s2Y =
n−1
=
1
n−1
n
X
i=1
!
yi2 − ny 2
Buch 1, Kap 8.4.1: Rechentechnisch günstige Formel für die Kovarianz
!
n
n
X
1 X
1
(xi − x) (yi − y) =
xi yi − nxy
sXY =
n−1
n−1
i=1
i=1
Beweis
Wir kürzen den Faktor
n
X
1
n−1
aus der Gleichung und zeigen
(xi − x) (yi − y) =
i=1
=
=
=
n
X
i=1
n
X
i=1
n
X
i=1
n
X
(xi yi − xyi − xi y + xy)
x i yi −
n
X
xyi −
i=1
n
X
x i yi − x
i=1
=
i=1
xi y +
i=1
n
X
yi − y
xi yi − nxy
n
X
xy
i=1
xi + nxy
i=1
xi yi − xny − ynx + nxy
i=1
n
X
n
X
Buch 1, Kap 8.4.1: Maximale Kovarianz
|sX,Y | ≤ sX sY
Beweis
Es kommt die sog. Cauchy-Schwarz-Ungleichung zur Anwendung, die hier kurz bewiesen werden soll.
Es gilt immer (a − b)2 ≥ 0 und damit a2 + b2 ≥ 2ab
Weiter gilt (a + b)2 ≥ 0 und damit a2 + b2 ≥ −2ab
Zusammengefaßt also: a2 + b2 ≥ 2|ab|
Für beliebige Zahlen ai und bi (i = 1, ..., n) gilt somit
n
X
a2i +
n
X
i=1
b2i ≥ 2
i=1
n
X
|ai bi |
i=1
n
X
≥ 2
i=1
(1)
ai bi (2)
Nun normieren wir die Werte so, dass die Summen auf der linken Seite der Ungleichung (2) jeweils 1
ergeben. Hierfür nutzen wir die Werte
ai
a0i = qP
n
2
i=1 ai
b
qP i
n
b0i =
2
i=1 bi
Wir erhalten
2=
n
X
a2
Pn i 2
i=1 ai
i=1
+
n
X
ai bi
qP
qP
≥ 2
n
n
2
2
i=1
i=1 ai
i=1 bi
n
X
b2
Pn i 2
i=1 bi
i=1
damit gilt
v
v
u n
u n
n
X
uX uX
2t
a2i t
b2i ≥ 2 ai bi i=1
i=1
i=1
Kürzen durch 2 und Umstellung ergibt die Cauchy-Schwarz-Ungleichung:
n
X
ai bi ≤
v
v
u n
u n
uX uX
2
t
a t
b2
i
i=1
i=1
(3)
i
i=1
Für unsere Fragestellung setzen wir zunächst ai = xi − x und bi = yi − y ein:
n
X
(xi − x)(yi − y) ≤
v
v
u n
u n
uX
uX
t (xi − x)2 t (yi − y)2
i=1
Teilen durch
1
n−1
i=1
i=1
ergibt die Behauptung:
n
1 X
(xi − x)(yi − y) ≤
n − 1
i=1
v
u
u
t
v
u
n
n
u 1 X
1 X
2
(xi − x) t
(yi − y)2
n−1
n−1
|sX,Y | ≤ sX sY
i=1
i=1
Buch 1, Kap 8.4.2: Nullkorrelation bei linearer Unabhängigkeit
Buch 1, Kap 8.5.1: Berechnung der Spearman-Rangkorrelation ohne Rangbindungen in
den Variablen
Liegen in X und Y keine Rangbindungen vor, so gilt:
n
P
rs =
(rg(xi )−rg(x))(rg(yi )−rg(y))
s i=1
n
P
n
P
i=1
i=1
(rg(xi )−rg(x))2
=1−
(rg(yi )−rg(y))2
P
2
6 n
i=1 di
2
(n −1)n
wobei di = rg (xi ) − rg (yi )
Beweis
Im dem Fall, dass keine Rangbindungen vorliegen, werden sowohl für X als auch für Y alle Zahlen
von 1, ..., n als Ränge vergeben.
Damit liegt der mittlere Rang von X und Y identisch bei
rg(x) = rg(y) =
n+1
2
Auch die Varianzen von X und Y sind identisch, da in beiden Fällen die Varianz der Werte 1, ..., n zu
berechnen ist. Zu bestimmen ist damit
!
n
X
1
n+1
2
2
2
sX = sY =
i −n
n−1
2
i=1
Für
Pn
i=1 i
2
gibt es die Formel
n
X
i2 =
i=1
n(n + 1)(2n + 1)
6
Damit gilt
s2X
=
s2Y
=
=
=
1
n−1
n
X
i=1
2
i −n
n+1
2
2 !
n(n + 1)(2n + 1) n(n + 1)2
1
−
n−1
6
2
2
n(n − 1)
12(n − 1)
Die Formel für rs hat sich damit bereits wie folgt vereinfacht:
(n+1)2
i=1 rg(xi )rg(yi ) − n
4
n(n2 −1)
12
P
12 ni=1 rg(xi )rg(yi ) − 3n(n
n(n2 − 1)
Pn
rs =
=
+ 1)2
Es bleibt noch die Vereinfachung des Zählers. Wir betrachten dafür die Differenzen der Ränge
di := rg(xi ) − rg(yi ). Es gilt
n
X
d2i =
i=1
−6
2n(n + 1)(2n + 1) − 6
i=1
n
X
d2i
Pn
rg(xi )rg(yi ) +
i=1
n(n + 1)(2n + 1)
−2
3
n
X
rg(yi )2
i=1
n
X
rg(xi )rg(yi )
i=1
n
X
rg(xi )rg(yi )
i=1
d2i
i=1 rg(xi )rg(yi )
rs =
n
X
= −2n(n + 1)(2n + 1) + 12
= 12
i=1
Wir ersetzen nun 12
rg(xi )2 − 2
i=1
=
n
X
n
X
n
X
rg(xi )rg(yi )
i=1
und erhalten
P
2n(n + 1)(2n + 1) − 6 ni=1 d2i − 3n(n + 1)2
n(n2 − 1)
Kurze Nebenrechnung ergibt:
2n(n + 1)(2n + 1) − 3n(n + 1)2 = n(n + 1)(2(2n + 1) − 3(n + 1)) = n(n + 1)(n − 1) = n(n2 − 1)
Einsetzen ergibt das gewünschte Ergebnis
rs =
P
Pn
2
n(n2 − 1) − 6 ni=1 d2i
i=1 di
=
1
−
6
n(n2 − 1)
n(n2 − 1)
Buch 1, Kap 8.5.3: Weitere ordinale Korrelationskoeffizienten
Buch 1, Kap 8.6.1: Eigenschaften von λ
1: Bei statistischer Unabhängigkeit ist λ = 0
2: Es kann λ = 0 werden, auch wenn keine statistische Unabhängigkeit vorliegt.
Beweis
Zunächst sortieren wir die Kontingenztafel nach den Randsummen und sorgen dafür, dass jeweils ein
maximaler Wert in der Randsumme der ersten Zeile und der ersten Spalte auftritt. Da sich die bei
statistischer Unabhängigkeit die Werte auf Zeilen und Spalten proportional aufteilen, ist – spaltenweise
– immer der Eintrag in der ersten Zeile maximal, bzw. – zeilenweise – immer der Eintrag in der ersten
Spalte maximal. Die Summe ergibt dann jeweils die erste Zeilensumme, bzw. die erste Spaltensumme.
Diese sind aber auch das Maximum der Zeilensummen bzw. der Spaltensummen. Der Zähler von λ ist
c
X
maxj (nij ) +
i=1
r
X
maxi (nij ) − maxi (ni• ) − maxj (n•j )
j=1
Pc
P
Bei Unabhängigkeit gilt i=1 maxj (nij ) = maxj (n•j ) bzw. rj=1 maxi (nij ) = maxi (ni• )
Damit ist der Zähler von λ Null und somit ist λ = 0
Die Statistik λ kann aber auch den Wert Null annehmen, ohne dass statistische Unabhängigkeit
vorliegt. Ein einfaches Beispiel hierfür ist folgende Tabelle
X
Y
0
1
0
c
c
1
c
0
Der Wert c steht für eine Anzahl von Beobachtungen mit c > 0.
In Zeilen und Spalten sind die Summe der Maxima jeweils 2c und genau so groß wie die Maxima der
Zeilen- und Spaltenrandsummen. Damit ist der Zähler von λ Null und folglich λ = 0.
Die Indifferenztabelle ist
X
Y
0
1
0
4c/3
2c/3
1
2c/3
c/3
Y
0
1
X
0
1
c/12 c/6
c/6 c/3
Die zugehörigen χ2 -Anteile sind somit
Damit ist χ2 = 3c/4 (also z.B. χ2 = 30 für c = 40). Der χ2 -Wert kann in Abhängigkeit von c beliebig
groß werden, während λ konstant 0 bleibt.
Buch 1, Kap 8.7.1: SST = SSW + SSE
Buch 1, Kap 8.8: Pakete für Korrelationen in PASW und R
Buch 1, Kap 9.2: Bestimmung der optimalen Regressionsgeraden als Extremwertproblem
Die optimalen Regressionsgewichte b0 (Achsenabschnitt) und b1 (Steigung) bzgl. der Summe der Abweichungsquadrate der vorhergesagten Werte von den beobachteten Werten sind
b0 = y − b1 x
sXY
b1 =
s2X
Beweis
Die Statistiken b0 und b1 in der Regressionsgleichung ŷi = b1 xi + b0 werden so bestimmt, dass die
Summe der quadratischen Fehler
n
X
e2i =
i=1
n
X
(yi − ŷi )2
i=1
=
n
X
(yi − b1 xi − b0 )2
i=1
=
n
X
yi2
−2
i=1
n
X
b1 xi yi − 2
i=1
n
X
b0 yi + 2
i=1
n
X
b0 b1 xi +
i=1
n
X
i=1
b21 x2i
+
n
X
b20
i=1
minimiert wird.
Die partiellen Ableitung nach b0 bzw b1 ergeben:
δSSe
δb0
= −2
n
X
yi + 2
n
X
i=1
b1 xi + 2
i=1
n
X
b0 = −2
i=1
n
X
(yi − b1 xi − b0 )
i=1
bzw.
δSSe
δb1
= −2
n
X
i=1
x i yi + 2
n
X
i=1
b0 xi + 2
n
X
b1 x2i = −2
i=1
n
X
xi (yi − b1 xi − b0 )
i=1
Setzen wir diese partiellen Ableitungen gleich Null und lösen sie nach b0 bzw. b1 auf. Für den Achsenabschnitt b0 resuliert:
n
X
−2
(yi − b1 xi − b0 ) = 0
i=1
ny − b1 nx − nb0 = 0
nb0 = ny − nb1 x
b0 = y − b1 x
Für die Steigung b folgt:
−2
n
X
xi (yi − b1 xi − b0 ) = 0
i=1
−2
n
X
xi (yi − b1 xi − y + b1 x) = 0
i=1
X
xi yi − b1
X
x2i − y
X
X
xi + b1 x
X
xi = 0
xi yi − y
X
X
X
xi = b1
x2i − b1 x
xi
P
P
x i yi − y x i
P
b1 = P 2
xi − x xi
sXY
=
s2X
Wie leicht zu sehen ist, sind die zweiten Ableitungen jeweils positiv, so dass auch tatsächlich ein
Minimum vorliegt.
Buch 1, Kap 9.5: Streuungszerlegung in der linearen Regression
Zunächst bestimmen wir die Variation der vorhergesagten Werte.
SSR
n
X
=
(yˆi − ȳ)2
i=1
=
n
X
(b0 + b1 xi − ȳ)2
i=1
=
n
X
(b0 + b1 xi )2 − 2(b0 + b1 xi )ȳ + ȳ 2
i=1
=
n
X
(b0 + b1 xi )2 − 2
i=1
=
n
X
n
X
(b0 + b1 xi )ȳ + nȳ 2
i=1
(b0 + b1 xi )2 − 2nȳ ȳ + nȳ 2
i=1
n
X
=
(b0 + b1 xi )2 − nȳ 2
=
i=1
n
X
b20 + 2b0 b1 xi + b21 x2i − nȳ 2
i=1
= nb20 + 2b0 b1
n
X
xi + b21
i=1
n
X
x2i − nȳ 2
i=1
= nb20 + 2b0 b1 nx̄ + b21 (SSX + nx̄2 ) − nȳ 2
= nb20 + 2nb0 (ȳ − b0 ) + b21 (SSX + nx̄2 ) − nȳ 2
= nb20 + 2nb0 ȳ − 2nb20 + b21 (SSX + nx̄2 ) − nȳ 2
= −nb20 + 2nb0 ȳ + b21 SSX + nb21 x̄2 − nȳ 2
= −nb20 + 2nb0 ȳ + b21 SSX + n(ȳ − b0 )2 − nȳ 2
= −nb20 + 2nb0 ȳ + b21 SSX + n(ȳ 2 − 2b0 ȳ + b20 ) − nȳ 2
= −nb20 + 2nb0 ȳ + b21 SSX + nȳ 2 − 2nb0 ȳ + nb20 − nȳ 2
= b21 SSX
r2 s2Y
SSX
=
s2X
r2 s2Y
SSX
SSX /(n − 1)
= (n − 1)(r2 s2Y )
=
= r2 SSY
Als zweite Komponente betrachten wir die Variation des Residuums.
SSE =
n
X
(yi − yˆi )2
i=1
=
n
X
(yi − (b0 + b1 xi ))2
i=1
=
n
X
yi2 − 2yi (b0 + b1 xi ) + (b0 + b1 xi )2
i=1
=
n
X
yi2
−2
i=1
n
X
yi (b0 + b1 xi ) +
i=1
n
X
(b0 + b1 xi )2
i=1
2
= SSY + nȳ − 2b0
n
X
yi − 2b1
i=1
n
X
n
X
yi xi +
(b0 + b1 xi )2
i=1
i=1
2
= SSY + nȳ − 2nb0 ȳ − 2b1 ((n − 1)sXY + nx̄ȳ) +
n
X
(b0 + b1 xi )2
i=1
2
= SSY + nȳ − 2nb0 ȳ − 2b1 (n − 1)sXY
n
X
− 2nb1 x̄ȳ) +
(b0 + b1 xi )2
i=1
2
= SSY + nȳ − 2nb0 ȳ − 2b1 (n − 1)rsX sY − 2n(ȳ − b0 )ȳ) +
n
X
(b0 + b1 xi )2
i=1
n
= SSY + nȳ 2 − 2nb0 ȳ − 2r
X
sY
(n − 1)rsX sY − 2nȳ 2 + 2nb0 ȳ +
(b0 + b1 xi )2
sX
i=1
n
X
= SSY − nȳ 2 − 2r2 (n − 1)s2Y +
(b0 + b1 xi )2
i=1
= SSY − nȳ 2 − 2r2 SSY +
n
X
(b20 + 2b0 b1 xi + b21 x2i
i=1
= SSY − nȳ 2 − 2r2 SSY + nb20 + 2b0 b1
n
X
xi + b21
i=1
= SSY −
= SSY −
= SSY −
= SSY −
= SSY −
= SSY −
= SSY −
= SSY −
= SSY −
n
X
x2i
i=1
2
nȳ − 2r SSY +
+ 2b0 b1 (nx̄) + b1 (SSX + nx̄2 )
nȳ 2 − 2r2 SSY +
+ 2nb0 b1 x̄ + b21 SSX + nb21 x̄2
nȳ 2 − 2r2 SSY +
+ 2nb0 (ȳ − b0 ) + b21 SSX + nb21 x̄2
nȳ 2 − 2r2 SSY +
+ 2nb0 ȳ − 2nb20 + b21 SSX + nb21 x̄2
nȳ 2 − nb20 + 2nb0 ȳ − 2r2 SSY + b21 SSX + nb21 x̄2
n(ȳ − b0 )2 − 2r2 SSY + b21 SSX + nb21 x̄2
r 2 s2
n(ȳ − b0 )2 − 2r2 SSY + 2Y SSX + n(ȳ − b0 )2
sx
2
2
2r SSY + r SSY
r2 SSY
2
2
2
nb20
nb20
nb20
nb20
= SSY (1 − r )
Offensichtlich gilt SSY = SSR + SSE = SSY r2 + SSY (1 − r2 ).
Buch 1, Kap 9.6: R = |r|
Da Ŷ = b0 + b1 X, gilt für b1 > 0:
rX Ŷ
= 1
rY Ŷ
= rXY
rX Ŷ
= 0
rY Ŷ
= rXY
für b1 = 0:
und für b1 < 0
rX Ŷ
= −1
rY Ŷ
= −rXY
Für die Korrelation zwischen Y und Ŷ läßt sich damit kurz die Korrelation durch rY Ŷ = |rXY |
beschreiben.
Buch 1, Kap 9.8: Mittelwerte, Varianzen und Interkorrelation von X, Y , Ŷ und e
Überlegungen
Mittelwerte:
Gegeben sind x und y.
ŷ = b0 + b1 x
= b0 + b1 x
= y − b1 x + b1 x
= y
Für das Residuum e gilt dann
e = Y − Ŷ = y − y = 0
Varianzen:
Die Varianz des Fehlers leitet sich aus SSE ab. Da beim Fehler zwei Parameter bestimmt werden
müssen (y und b1 ) liegen n − 2 Freiheitsgrade vor und
s2e =
SSE
n−2
Alternativ gilt auch
SSE
SST − SSR
=
n−2
n−2
1 − r2
= SST
n−2
1 − r2
= (n − 1)s2Y
n−2
n−1 2
=
sY 1 − r 2
n−2
s2e =
Korrelationen
Da Ŷ = b0 + b1 X, gilt für b1 > 0:
rX Ŷ
= 1
rY Ŷ
= rXY
rX Ŷ
= 0
rY Ŷ
= rXY
für b1 = 0:
und für b1 < 0
rX Ŷ
= −1
rY Ŷ
= −rXY
Für die Korrelation zwischen Y und Ŷ läßt sich damit kurz die Korrelation durch rY Ŷ = |rXY |
beschreiben.
Die Korrelation rXe ist Null, da
n
sXe =
=
1 X
(xi − x)((yi − ybi ) − 0)
n−1
1
n−1
i=1
n
X
i=1
= sXY −
= sXY
n
(xi − x)(yi − y) −
1 X
(xi − x)(ybi − y)
n−1
i=1
1
n−1
n
X
(xi − x)(ybi − y)
i=1
n
1 X
−
(xi − x)(b0 + b1 xi − (b0 + b1 x))
n−1
i=1
= sXY −
1
n−1
n
X
b1 (xi − x)(xi − x)
i=1
= sXY − b1 s2X
sXY
= sXY − 2 s2X
sX
= 0
Damit ist dann auch die Korrelation rŶ e = 0, da Ŷ = b0 + b1 X.
Es fehlt noch die Korrelation rY e .
sY e = sY (Y −Ŷ )
= s2Y − sY Ŷ
= s2Y − rY Ŷ sY sŶ
= s2Y − |rXY |sY sŶ
2
= s2Y − rXY
s2Y
2
= s2Y (1 − rXY
)
rY e =
sY (Y −Ŷ )
sY se
2 )
s2Y (1 − rXY
q
=
2
sY sY n−1
n−2 (1 − r )
r
n − 1p
=
(1 − r2 )
n−2
Buch 1, Kap 9.9.4: Beeinflussende Beobachtungen
Buch 1, Kap 10.3.1: Aus Unabhängigkeit folgt r = 0
Sind bei zwei Variablen die Häufigkeiten der Ausprägungen statistisch unabhängig verteilt, dann sind
die Variablen unkorreliert.
Beweis
Nach Voraussetzung liegen für X insgesamt A unterschiedliche Werte x1 , ..., xA vor und für Y gibt
es B unterschiedliche Werte y1 , ..., yB Werte. Die Häufigkeit mit der ein Paar (xa , ya ) in den Daten
auftaucht, ist nab . Wegen der statischen Unabhängigkeit gilt für alle 1 ≤ a ≤ A und 1 ≤ b ≤ B:
nab = na × nb /n.
Mit diesen Informationen lässt sich nun zeigen, dass die Kovarianz (und damit die Korrelation) zwischen X und Y Null ist.
n
sXY
=
=
=
=
=
=
=
=
1 X
(xi − x)(yi − y)
n−1
1
n−1
1
n−1
i=1
A X
B
X
a=1 b=1
A X
B
X
na nb
(xa − x)(yb − y)
n
a=1 b=1
A X
B
X
1
(n − 1)n
1
(n − 1)n
1
(n − 1)n
1
(n − 1)n
1
(n − 1)n
= 0
nab (xa − x)(yb − y)
na (xa − x)nb (yb − y)
a=1 b=1
A
X
B
X
!
na (xa − x)
a=1
A
X
a=1
n
X
i=1
n
X
i=1
!
nb (yb − y)
b=1
A
X
na xa −
!
na x
a=1
xi − nx
nb yb −
b=1
n
X
!
B
X
B
X
!
nb y
b=1
!
yi − ny
i=1
Pn
xi − n
i=1 xi
n
!
n
X
i=1
Pn
yi − n
i=1 yi
n
!
Buch 1, Kap 10.3.1: r = 0 trotz fehlender Unabhängigkeit
Sind bei zwei Variablen die Häufigkeiten der Ausprägungen nicht statistisch unabhängig verteilt, dann
können die Variablen dennoch unkorreliert sein.
Beweis
Die Behauptung zeigt man am Besten durch ein Beispiel, in dem die Häufigkeiten offensichtlich nicht
statistisch unabhängig verteilt sind (also einen positiven χ2 -Wert aufweisen) und die Korrelation der
Variablen dennoch Null ist.
Für das Beispiel nutzen folgende Daten:
−2
0
c
Y
0
4
X
0
c
0
2
0
c
Der Wert c steht für eine Anzahl von Beobachtungen mit c > 0.
Die Indifferenztabelle ist
X
Y
−2
0
2
0
c/3
c/3
c/3
4 2c/3 2c/3 2c/3
Zu berechnen sind jetzt die χ2 -Anteile pro Zelle in der Häufigkeitstabelle. Wir finden
Y
0
4
−2
c/3
c/6
X
0
4c/3
2c/3
2
c/3
c/6
Wir erhalten χ2 = 3c bei 2 Freiheitsgraden (also z.B. χ2 = 30 für c = 10). Dies zeigt, dass die Häufigkeiten weit von der statistischen Unabhängigkeit entfernt sind und dass der χ2 bei größer werdenden
c unbegrenzt wächst.
Wir zeigen jetzt, dass die Korrelation Null ist, unabhängig von der Wahl der Zellenbesetzung c.
Der Mittelwert von X ist unabhängig von c: x = 0.
Der Mittelwert von Y ist unabhängig von c: y = 8/3.
Die Kovarianz berechnet sich somit:
n
sXY
=
1 X
(xi − x)(yi − y)
n−1
i=1
=
=
=
=
1
(c(−2 − x)(4 − y) + c(0 − x)(0 − y) + c(2 − x)(4 − y))
3c − 1
1
(c(−2 − 0)(4 − 8/3) + c(0 − 0)(0 − 8/3) + c(2 − 0)(4 − 8/3))
3c − 1
1
(−2c(4 − 8/3) + 0 + 2c(4 − 8/3))
3c − 1
0
Die Kovarianz ist somit – unabhängig von der Zellenbesetzung c – immer Null und damit ist auch
rXY = 0.
Der Grund ist, dass die χ2 -Berechnung auf beliebige Zusammenhänge reagiert, während eine Korrelation nur lineare Zusammenhänge anzeigt. Da im Beispiel ein quadratischer Zusammenhang genutzt
wird, ist es verständlich, dass der χ2 -Wert sehr groß werden kann, ohne dass die Korrelation von Null
verschieden wird.
Behauptung (Buch 1, S. XXX): Fordert man, dass eine Funktion in zwei Variablen bei mehr als
2 Ausprägungen jeweils (nicht konstant) linear in X1 (bei festem X2 ) und in X2 (bei festem X1 ) ist,
dann ist die Funktionsgleichung notwendigerweise
Y = f (X1 , X2 ) = b0 + b1 X1 + b2 X2 + b12 X1 X2
Beweis
Die Voraussetzung besagt, dass folgende Gleichungen gelten
1) Für alle x2 ∈ X2 gilt
f (X1 , x2 ) = A2 (x2 ) + B2 (x2 )X1
Hierbei sind A2 und B2 beliebige Funktionen, die x2 transformieren
2) Für alle x1 ∈ X1 gilt
f (x1 , X2 ) = A1 (x1 ) + B1 (x1 )X2
Hierbei sind A1 und B1 beliebige Funktionen, die x1 transformieren
Für alle x1 ∈ X1 und x2 ∈ X2 müssen die beide Funktionen den Wert f (x1 , x2 ) annehmen, dh.
f (x1 , x2 ) = A1 (x1 ) + B1 (x1 )x2 = A2 (x2 ) + B2 (x2 )x1
Für den Funktionswert f (x1 + a, x2 ) gilt damit
f (x1 + a, x2 ) = A1 (x1 + a) + B1 (x1 + a)X2 = A2 (x2 ) + B2 (x2 )(x1 + a)
Wegen der Linearität der Funktion in X1 ist
f (x1 + a, x2 ) − f (x1 , X2 ) = aB2 (x2 )
A1 (x1 + a) + B1 (x1 + a)x2 − A1 (x1 ) + B1 (x1 )x2 = aB2 (x2 )
A1 (x1 + a) − A1 (x1 ) + x2 (B1 (x1 + a) − B1 (x1 )) = aB2 (x2 )
Auf der linken Seite der Gleichung erhalten wir eine lineare Funktion in X2 , die proportional zu
aB2 (X2 ) ist. Wenn mehr als 2 Ausprägungen vorliegen, gilt somit B2 (X2 ) = α2 + β2 X2 (bei weniger
als 3 Ausprägungen ist jede Funktion B2 proportional zu einer linearen Funktion!).
Analog gilt somit B1 (X1 ) = α1 + β1 X1 .
Wir erhalten
A1 (x1 + a) − A1 (x1 ) + x2 (α1 + β1 × (x1 + a) − α1 − β1 × x1 ) = a(α2 + β2 x2 )
A1 (x1 + a) − A1 (x1 ) + x2 β1 a = aα2 + aβ2 x2
A1 (x1 + a) − A1 (x1 ) = aα2 + a(β2 − β1 )x2
Die Werte auf der linken Seite der Gleichung hängen von a und x1 ab, während die Werte auf der
rechten Seite der Gleichung von a und x2 abhängen. Da A1 (x1 + a) − A1 (x1 ) für beliebige x2 konstant
bleiben muss, ist β2 = β1 und
A1 (x1 + a) − A1 (x1 ) = aα2 oder
A1 (x1 + a) − A1 (x1 )
= α2 oder
a
A1 (X1 ) = α2 X1 + γ2
Analog kann man zeigen, dass A2 (X2 ) = α1 X2 + γ1 gelten muss.
Für f (0, 0) erhalten wir
f (0, 0) = A1 (0) = A2 (0)
α2 × 0 + γ2 = α1 × 0 + γ1
γ2 = γ1
Insgesamt ergibt sich somit folgende Funktionsgleichung
f (X1 , X2 ) = A2 (X2 ) + B2 (X2 )X1
= α1 X2 + γ1 + (α2 + β2 X2 )X1
= γ1 + α2 X1 + α1 X2 + β2 X1 X2
= b0 + b1 X1 + b2 X2 + b12 X1 X2
oder auch
f (X1 , X2 ) = A1 (X1 ) + B1 (X1 )X2
= α2 X1 + γ2 + (α1 + β1 X1 )X2
= γ1 + α2 X1 + α1 X2 + β2 X1 X2
= b0 + b1 X1 + b2 X2 + b12 X1 X2
n
P
Behauptung (Buch 1, S. XXX):
xi yi −nxy
i=1
s
n
P
x2i −nx2
i=1
n
P
yi2 −ny 2
=
y −y p n1 n0
q1 0
n2
n−1
sy
n
i=1
mit:
n
P
xi
n1 =
i=1
n0 = n − n1
n
P
y 1 = n1
yi
y0 =
1
n
i:xi =1
n
P
yi
i:xi =0
Hier wird behauptet, dass der Produkt-Moment Korrelationskoeffizient mit dem punktbiserialen Korrelationskoeffizienten übereinstimmt.
Beweis
Mit:
Berechnen wir zunächst Mittelwerte, Kreuzprodukte der zentrierten Variablen und Abweichungsquadratsummen als Bestandteile der Formel für die Produkt-Moment Korrelation.
n0
y = nn1 yP
1 + n y0
n
n1
x=
i=1 xi yi − nxy
Pn
= i:xi =1 yi − n nn1 y
= n1 y 1 − n1 y
= n1 y 1 − n1 ( nn1 y 1 + nn0 y 0 )
= n1 y 1 − n1 nn1 y 1 − n1 nn0 y 0
= n1 (1 − nn1 )y 1 − n1nn0 y 0
= n1 ( nn0 )y 1 − n1nn0 y 0
= n1nn0 (y 1 − y 0 )
n
P
x2i − nx2
i=1
n2
= n1 − n n21
n2
= n1 − n1
= n1 − n1 nn1
= n1 (1 − nn1 )
= n1nn0
n
P
yi2 − ny 2
i=1
2
= n n−1
n sy
Setzen wir nun diese Terme in die Produkt-Moment Korrelation ein, resultiert:
n1 n0
(y
−y )
0
r = √ n1nn0 q1 n−1
n
s2y
p n1 nn0 y1 −y0n
q
=
n
n−1
n
sy
Behauptung (Buch 1, S. XXX):
ni
I P
P
(yij − y)2 =
I
P
ni (y i − y)2 +
i=1
i=1 j=1
ni
I P
P
(yij − y i )2
i=1 j=1
Beweis
ni
I P
P
(yij − y)2 =
i=1 j=1
=
ni
I P
P
((yij − y i ) + (y i − y))2
i=1 j=1
ni
I P
P
(yij − y i )2 + 2(yij − y i )(y i − y) + (y i − y)2
i=1 j=1
=
ni
I P
P
(yij − y i )2 +
ni
I P
P
2(yij − y i )(y i − y) +
i=1 j=1
i=1 j=1
=
ni
I P
P
(yij − y i )2 + 2
i=1 j=1
ni
I P
P
ni
I P
P
(y i − y)2
i=1 j=1
(yij − y i )(y i − y) +
i=1 j=1
I
P
ni (y i − y)2
i=1
Jetzt müssen wir nur noch zeigen dass 2
ni
I P
P
(yij − y i )(y i − y) = 0.
i=1 j=1
2
ni
I P
P
(yij − y i )(y i − y) = 2
i=1 j=1
ni
P
Aber
i=1
(y i − y)
ni
P
!
(yij − y i )
j=1
(yij −y i ) ist die Summe der Abweichungen vom Mittelwert innerhalb jeder Gruppe und damit
j=1
0.
I
P
Buch 1, Kap 10.4.3: Simpsons Paradox und multiple Regression
Buch 1, Kap 10.4.4: Konstanz der unstandardisierten Koeffizienten
Buch 1, Kap 10.4.5: Mittelwerte der Effektkodierung
Nutzt man die Effektkodierung für die Berechnung von Gruppenmittelwerten in der multiplen Regression, dann gilt für die Regressionsgewichte der k effektkodierten Variablen b0 , b1 , ..., bk :
Pk
b0 =
b1
bk
i=0 yi
k+1
Pk
yi
= y1 − i=0
k+1
...
Pk
yi
= yk − i=0
k+1
Außerdem gilt
y0 = b0 −
k
X
bi
i=1
Beweis
Für den Nachweis bestimmen wir für alle möglichen Kombination der Effektkodierung den jeweils
optimalen Wert bzgl. des kleinsten-Quadrate-Kriteriums.
Sei yi in einer Gruppe g > 0, dann ist ŷi = b0 +bg . Die Wert mit den kleinsten Summe der quadratischen
Abweichungen die yi der Gruppe g ist der Mittelwert der Gruppe g. Wir erhalten damit für die Gruppen
g = 1, ..., k den vorhergesagten Wert
yg = b0 + bg
P
Sei nun yi in der Gruppe g = 0, dann ist ŷi = b0 − kg=1 bg Auch ist der Gruppenmittelwert y0 der
optimale Wert nach dem kleinsten-Quadrate-Kriterium und wir erhalten (wie behauptet)
y0 = b0 −
k
X
bg
g=1
Summiert man über alle k + 1 Mittelwerte ergibt sich
k
X
yg = b0 −
g=0
k
X
g=1
b0
bg +
k
X
(b0 + bg )
g=1
= (k + 1)b0 und damit
Pk
g=1 yg
=
k+1
Für b1 , ..., bg , ... ,bk ergibt sich damit
bg = yg − b0
Pk
yi
= yg − i=1
k+1
Buch 1, Kap 10.4.7: Lineares Modell und nichtlineare Regression
Buch 2, Erwartungstreuue des Varianzschätzers
Wir berechnen den Erwartungswert der Summe der Abweichungsquadrate vom Mittelwert für unabhängige i.i.d. Zufallsvariablen
E
n
X
n
X
!
(Yi − Ȳ )2
= E
i=1
i=1
n
X
= E
!
((Yi − µ) − (Ȳ − µ))2
!
2
(Yi − µ)
− 2E
i=1
=
n
X
E (Yi − µ)
2
!
n
X
(Yi − µ)(Ȳ − µ) + E
n
X
i=1
i=1
− 2E (nȲ − nµ)(Ȳ − µ) +
i=1
= nE (Y − µ)
=
=
nσY2
nσY2
= (n
− 2nσȲ2
− σY2
− 1)σY2
Folglich ist
2
i=1
2
− 2nCOV (Ȳ , Ȳ ) + nE (Ȳ − µ)
+ nσȲ2
Pn
E
n
X
− Ȳ )2
n−1
i=1 (Yi
= σY2
!
2
(Ȳ − µ)
E (Ȳ − µ)2