Statistik IV für Studenten mit dem Nebenfach Statistik
Gerhard Tutz, Jan Ulbricht
Lösungen zu Blatt 1
SS 07
Lösung Aufgabe 1
Motivation Zentrierungsmatrix
• Sei x̄j das arithmetische Mittel der j-ten Variable, j = 1, . . . , p. Durch die Transformation
x∗ij = xij − x̄j
erhalten wir
n
x̄∗j =
1X ∗
xij
n
i=1
=
n
1X
(xij − x̄j ) = 0.
n
i=1
• Soll diese Transformation für die gesamte Datenmatrix X gelten, so erhalten wir
x11 − x̄1 · · · x1p − x̄p
..
..
..
X∗ =
.
.
.
xn1 − x̄1 · · ·
x11 · · ·
..
..
= .
.
xn1 · · ·
x1p
..
.
xnp
xnp − x̄p
x̄1 · · ·
.. . .
− .
.
x̄1 · · ·
x̄p
..
.
x̄p
= X − 1n x̄>
1
= X − 1n 1>
nX
n
1
= (In − 1n 1>
n )X = HX.
n
Durch Multiplikation (von links) mit der Matrix H wird die Datenmatrix X zentriert.
Zur eigentlichen Aufgabe
• Definition (Symmetrische Matrix): Eine (quadratische) Matrix A heißt symmetrisch, falls gilt
A = A>
bzw. in elementweiser Darstellung A = (aij ) = (aji ) = A> .
• Für die Zentrierungsmatrix erhalten wir
H = In −
1
1n 1>
=
n
n
n−1
n
− n1
..
.
− n1
− n1
n−1
n
..
.
− n1
···
···
..
.
− n1
− n1
..
.
···
n−1
n
(n×n)
und damit (hij ) = − n1 = (hji ).
• Definition (idempotente Matrix): Eine (quadratische) Matrix A heißt idempotent, falls gilt
A = A> A = A2 .
• Es gilt
1
1
>
>
1n 1>
n ) (In − 1n 1n )
n
n
1
1
1
>
>
>
= In − 1n 1>
n − 1n 1n + 2 1n 1n 1n 1n
n
n
n
2
1
>
= In − 1n 1>
n + 1n 1n
n
n
1
= In − 1n 1>
n = H.
n
H > H = (In −
Lösung Aufgabe 2
Mittelwertvektor
• Ausgangspunkt: Datenmatrix
x11 . . . x1p
..
..
X = ...
.
.
xn1 . . . xnp
• arithmetisches Mittel der j-ten Variable:
n
x̄j =
1X
xrj ,
n
j = 1, . . . , p,
r=1
bzw. zusammengefasst im Mittelwertvektor x̄ für alle p Variablen:
Pn
x11 + x21 + . . . + xn1
r=1 xr1
1
1
..
..
x̄ =
=
.
.
n Pn
n
x1p + x2p + . . . + xnp
r=1 xrp
(1)
• Für die j-te Zeile von (1) können wir schreiben
x1j + x2j + . . . + xnj =
£
x1j
x2j
···
• Damit ergibt sich
x11 x21 · · ·
x11 + x21 + . . . + xn1
..
..
..
..
= .
.
.
.
x1p x2p · · ·
x1p + x2p + . . . + xnp
und schließlich
x̄ =
1 >
X 1n .
n
xnj
1
¤ .
..
1 (n×1)
1
xn1
.. .. = X > 1
n
. .
xnp
1
(2)
Varianz-Kovarianzmatrix
• Die Kovarianzmatrix fasst die Varianzen und Kovarianzen der p Variablen zusammen. Für die
(geringfügig modifizierte) empirische Kovarianz der i-ten und der j-ten Variable gilt
n
sij
=
=
=
=
1 X
(xri − x̄i )(xrj − x̄j )
n−1
r=1
n
n
n
X
X
X
1
xri xrj − x̄j
xri −x̄i
xrj +nx̄i x̄j
n−1
r=1
|r=1{z }
|r=1{z }
=nx̄i
=nx̄i
à n
!
X
1
xri xrj − nx̄i x̄j
n−1
1
n−1
r=1
n
X
xri xrj −
r=1
n
x̄i x̄j .
n−1
• Fassen wir die einzelnen Varianzen und Kovarianzen in der Matrix S zusammen, so erhalten wir
1 Pn
n
n
1 Pn
r=1 xr1 xr1 − n−1 x̄1 x̄1 . . . n−1
r=1 xr1 xrp − n−1 x̄1 x̄p
n−1
..
..
..
S =
.
.
.
n
n
1 Pn
1 Pn
r=1 xrp xr1 − n−1 x̄p x̄1 . . . n−1
r=1 xrp xrp − n−1 x̄p x̄p
n−1
Pn
Pn
x̄1 x̄1 . . . x̄1 x̄p
r=1 xr1 xr1 . . .
r=1 xr1 xrp
n .
1
..
..
..
..
..
=
−
..
.
.
.
.
n − 1 Pn .
n
−
1
Pn
x̄p x̄1 . . . x̄p x̄p
r=1 xrp xrp
r=1 xrp xr1 . . .
x11 . . . xn1
x11 . . . x1p
x̄1
1 .
.. ..
.. − n .. £ x̄ . . . x̄ ¤
..
..
=
..
.
1
p
.
.
.
. n−1 .
n−1
x1p . . . xnp
xn1 . . . xnp
x̄p
1
(X > X − nx̄x̄> )
=
n−1
1
1
=
(X > X − X > 11> X)
n−1
n
1
1
=
(X > (I − 11> )X)
n−1
n }
| {z
=H
=
1
X > HX.
n−1
• Bemerkung: In der Literatur tritt auch die empirische Kovarianzmatrix mit dem Faktor
• Obige Herleitung hätte auch mit dem Faktor
1
n
funktioniert!
Lösung Aufgabe 3
Die empirische Korrelationsmatrix
• Bezeichne
v
u
u
sj = t
n
1 X
√
(xrj − x̄j )2 = sjj
n−1
r=1
die (geringfügig modifizierte) empirische Standardabweichung der j-ten Variablen.
1
n
auf
• Der Bravais-Pearson-Korrelationskoeffizient der i-ten und der j-ten Variablen ist definiert als
Pn
(xri − x̄i )(xrj − x̄j )
sij
pPn
rij = pPn r=1
=
.
2
2
si sj
r=1 (xri − x̄i )
r=1 (xrj − x̄j )
• Zur Erinnerung:
s11 . . . s1p
S = ... . . . ...
sp1 . . . spp
• Die Matrix R = (rij ) erhalten wir mit Hilfe von
1
s1
.
D−1 = ..
0
durch folgende Berechnung
s
s1
s21
s1
s12
s2
s22
s2
sp1
s1
sp2
s2
11
R=D
−1
SD
−1
=
..
.
..
.
0
..
.
...
..
.
...
···
···
..
.
···
s1 . . . 0
bzw. D = ... . . . ...
0 . . . sp
1
sp
s1p
sp
s2p
sp
1
s1
..
.
..
.
0
spp
sp
...
..
.
...
0
..
. =
1
sp
s11
s1 s1
s21
s1 s2
s12
s2 s1
s22
s2 s2
sp1
s1 sp
sp2
s2 sp
..
.
..
.
s1p
sp s1
s2p
sp s2
···
···
..
.
···
..
.
spp
sp sp
.
Zur eigentlichen Aufgabe
• Ansatz für Mittelwertvektor:
x̄ =
1 >
1
X 1n =
n
4
·
1 2 3 4
7 6 5 3
¸
1
·
¸
1
2.5
=
1
5.25
1
• Ansatz für empirische Korrelationsmatrix: R = D−1 SD−1 mit D = diag(s1 , . . . , sp ) und S =
1
>
n−1 X HX. Für die Zentrierungsmatrix erhalten wir
1
0
H=
0
0
0
1
0
0
0
0
1
0
0
0.25 0.25
0.25 0.25
0
−
0 0.25 0.25
1
0.25 0.25
0.25
0.25
0.25
0.25
0.25
0.75 −0.25 −0.25 −0.25
0.25
0.75 −0.25 −0.25
= −0.25
0.25
−0.25 −0.25
0.75 −0.25
0.25
−0.25 −0.25 −0.25
0.75
und damit
1 7
0.75
−0.25
−0.25
−0.25
¸
0.75 −0.25 −0.25 2 6
3 4 −0.25
0.75 −0.25 3 5
5 3 −0.25 −0.25
4 3
−0.25 −0.25 −0.25
0.75
¸ 1 7
−0.5
0.5
1.5
2 6
3 5
0.75 −0.25 −2.25
4 3
¸
−6.5
.
8.75
·
>
X HX =
·
=
·
=
• Damit erhalten wir
1 2
7 6
−1.5
1.75
5
−6.5
1
S=
3
·
5 −6.5
−6.5 8.75
¸
·
=
1.6667 −2.1667
−2.1667
2.9167
¸
.
• Mit
√
s11 = 1.2910
√
=
s22 = 1.7078
s1 =
s2
erhalten wir
·
D
−1
=
1
s1
0
0
1
s2
¸
·
=
0.7746
0
0 0.5855
¸
.
• Damit können wir die empirische Korrelationsmatrix berechnen
·
¸·
¸·
¸
0.7746
0
1.6667 −2.1667
0.7746
0
R = D−1 SD−1 =
0 0.5855
−2.1667
2.9167
0 0.5855
·
¸·
¸
1.2910 −1.6783
0.7746
0
=
−1.2686
1.7077
0 0.5855
·
¸
1 −0.9826
=
.
−0.9826
1
© Copyright 2026 ExpyDoc