Aufgabe 1-3

Statistik IV für Studenten mit dem Nebenfach Statistik
Gerhard Tutz, Jan Ulbricht
Lösungen zu Blatt 1
SS 07
Lösung Aufgabe 1
Motivation Zentrierungsmatrix
• Sei x̄j das arithmetische Mittel der j-ten Variable, j = 1, . . . , p. Durch die Transformation
x∗ij = xij − x̄j
erhalten wir
n
x̄∗j =
1X ∗
xij
n
i=1
=
n
1X
(xij − x̄j ) = 0.
n
i=1
• Soll diese Transformation für die gesamte Datenmatrix X gelten, so erhalten wir


x11 − x̄1 · · · x1p − x̄p


..
..
..
X∗ = 

.
.
.

xn1 − x̄1 · · ·
x11 · · ·
 ..
..
=  .
.
xn1 · · ·
x1p
..
.
xnp
xnp − x̄p
 
x̄1 · · ·
  .. . .
− .
.
x̄1 · · ·

x̄p
.. 
. 
x̄p
= X − 1n x̄>
1
= X − 1n 1>
nX
n
1
= (In − 1n 1>
n )X = HX.
n
Durch Multiplikation (von links) mit der Matrix H wird die Datenmatrix X zentriert.
Zur eigentlichen Aufgabe
• Definition (Symmetrische Matrix): Eine (quadratische) Matrix A heißt symmetrisch, falls gilt
A = A>
bzw. in elementweiser Darstellung A = (aij ) = (aji ) = A> .
• Für die Zentrierungsmatrix erhalten wir

H = In −

1

1n 1>
=

n
n

n−1
n
− n1
..
.
− n1
− n1
n−1
n
..
.
− n1
···
···
..
.
− n1
− n1
..
.
···
n−1
n





(n×n)
und damit (hij ) = − n1 = (hji ).
• Definition (idempotente Matrix): Eine (quadratische) Matrix A heißt idempotent, falls gilt
A = A> A = A2 .
• Es gilt
1
1
>
>
1n 1>
n ) (In − 1n 1n )
n
n
1
1
1
>
>
>
= In − 1n 1>
n − 1n 1n + 2 1n 1n 1n 1n
n
n
n
2
1
>
= In − 1n 1>
n + 1n 1n
n
n
1
= In − 1n 1>
n = H.
n
H > H = (In −
Lösung Aufgabe 2
Mittelwertvektor
• Ausgangspunkt: Datenmatrix


x11 . . . x1p

.. 
..
X =  ...
.
. 
xn1 . . . xnp
• arithmetisches Mittel der j-ten Variable:
n
x̄j =
1X
xrj ,
n
j = 1, . . . , p,
r=1
bzw. zusammengefasst im Mittelwertvektor x̄ für alle p Variablen:

 Pn


x11 + x21 + . . . + xn1
r=1 xr1
1
 1

..
..
x̄ = 
= 

.
.
n Pn
n
x1p + x2p + . . . + xnp
r=1 xrp
(1)
• Für die j-te Zeile von (1) können wir schreiben

x1j + x2j + . . . + xnj =
£
x1j
x2j
···
• Damit ergibt sich
 

x11 x21 · · ·
x11 + x21 + . . . + xn1
  ..

..
..
..
= .

.
.
.
x1p x2p · · ·
x1p + x2p + . . . + xnp
und schließlich
x̄ =
1 >
X 1n .
n
xnj

1
¤ . 
 .. 
1 (n×1)
 
1
xn1
..   ..  = X > 1
n
.  . 
xnp
1
(2)
Varianz-Kovarianzmatrix
• Die Kovarianzmatrix fasst die Varianzen und Kovarianzen der p Variablen zusammen. Für die
(geringfügig modifizierte) empirische Kovarianz der i-ten und der j-ten Variable gilt
n
sij
=
=
=
=
1 X
(xri − x̄i )(xrj − x̄j )
n−1
r=1


 n

n
n
X
X
X

1 

xri xrj − x̄j
xri −x̄i
xrj +nx̄i x̄j 


n−1

r=1
|r=1{z }
|r=1{z }
=nx̄i
=nx̄i
à n
!
X
1
xri xrj − nx̄i x̄j
n−1
1
n−1
r=1
n
X
xri xrj −
r=1
n
x̄i x̄j .
n−1
• Fassen wir die einzelnen Varianzen und Kovarianzen in der Matrix S zusammen, so erhalten wir
 1 Pn

n
n
1 Pn
r=1 xr1 xr1 − n−1 x̄1 x̄1 . . . n−1
r=1 xr1 xrp − n−1 x̄1 x̄p
n−1


..
..
..
S = 

.
.
.
n
n
1 Pn
1 Pn
r=1 xrp xr1 − n−1 x̄p x̄1 . . . n−1
r=1 xrp xrp − n−1 x̄p x̄p
n−1

 Pn


Pn
x̄1 x̄1 . . . x̄1 x̄p
r=1 xr1 xr1 . . .
r=1 xr1 xrp
n  .
1 

.. 
..
..
..
..
=
−

 ..
.
.
. 
.
n − 1 Pn .
n
−
1
Pn
x̄p x̄1 . . . x̄p x̄p
r=1 xrp xrp
r=1 xrp xr1 . . .





x11 . . . xn1
x11 . . . x1p
x̄1
1  .
..   ..
..  − n  ..  £ x̄ . . . x̄ ¤
..
..
=
 ..
 .
1
p
.
.
.
.  n−1 . 
n−1
x1p . . . xnp
xn1 . . . xnp
x̄p
1
(X > X − nx̄x̄> )
=
n−1
1
1
=
(X > X − X > 11> X)
n−1
n
1
1
=
(X > (I − 11> )X)
n−1
n }
| {z
=H
=
1
X > HX.
n−1
• Bemerkung: In der Literatur tritt auch die empirische Kovarianzmatrix mit dem Faktor
• Obige Herleitung hätte auch mit dem Faktor
1
n
funktioniert!
Lösung Aufgabe 3
Die empirische Korrelationsmatrix
• Bezeichne
v
u
u
sj = t
n
1 X
√
(xrj − x̄j )2 = sjj
n−1
r=1
die (geringfügig modifizierte) empirische Standardabweichung der j-ten Variablen.
1
n
auf
• Der Bravais-Pearson-Korrelationskoeffizient der i-ten und der j-ten Variablen ist definiert als
Pn
(xri − x̄i )(xrj − x̄j )
sij
pPn
rij = pPn r=1
=
.
2
2
si sj
r=1 (xri − x̄i )
r=1 (xrj − x̄j )
• Zur Erinnerung:

s11 . . . s1p


S =  ... . . . ... 
sp1 . . . spp

• Die Matrix R = (rij ) erhalten wir mit Hilfe von

1
s1
 .
D−1 =  ..
0
durch folgende Berechnung
 s
s1
s21
s1
s12
s2
s22
s2
sp1
s1
sp2
s2
11
R=D
−1
SD
−1


=
 ..
 .
..
.

0
.. 
. 
...
..
.
...
···
···
..
.
···


s1 . . . 0


bzw. D =  ... . . . ... 
0 . . . sp
1
sp
s1p
sp
s2p
sp


1
s1


.. 

. 
..
.
0
spp
sp

...
..
.
...

0

..  
. =


1
sp
s11
s1 s1
s21
s1 s2
s12
s2 s1
s22
s2 s2
sp1
s1 sp
sp2
s2 sp
..
.
..
.
s1p
sp s1
s2p
sp s2
···
···
..
.
···
..
.
spp
sp sp



.


Zur eigentlichen Aufgabe
• Ansatz für Mittelwertvektor:

x̄ =
1 >
1
X 1n =
n
4
·
1 2 3 4
7 6 5 3
¸

1
·
¸
 1 
2.5
 =
 1 
5.25
1
• Ansatz für empirische Korrelationsmatrix: R = D−1 SD−1 mit D = diag(s1 , . . . , sp ) und S =
1
>
n−1 X HX. Für die Zentrierungsmatrix erhalten wir

1
 0
H=
 0
0
0
1
0
0
0
0
1
0
 
0
0.25 0.25
 0.25 0.25
0 
−
0   0.25 0.25
1
0.25 0.25
0.25
0.25
0.25
0.25
 

0.25
0.75 −0.25 −0.25 −0.25

0.25 
0.75 −0.25 −0.25 
 =  −0.25



0.25
−0.25 −0.25
0.75 −0.25 
0.25
−0.25 −0.25 −0.25
0.75
und damit

1 7
0.75
−0.25
−0.25
−0.25
¸



0.75 −0.25 −0.25   2 6
3 4  −0.25
0.75 −0.25   3 5
5 3  −0.25 −0.25
4 3
−0.25 −0.25 −0.25
0.75


¸ 1 7

−0.5
0.5
1.5 
 2 6 

3 5 
0.75 −0.25 −2.25
4 3
¸
−6.5
.
8.75

·
>
X HX =
·
=
·
=
• Damit erhalten wir
1 2
7 6
−1.5
1.75
5
−6.5
1
S=
3
·
5 −6.5
−6.5 8.75
¸
·
=
1.6667 −2.1667
−2.1667
2.9167
¸
.




• Mit
√
s11 = 1.2910
√
=
s22 = 1.7078
s1 =
s2
erhalten wir
·
D
−1
=
1
s1
0
0
1
s2
¸
·
=
0.7746
0
0 0.5855
¸
.
• Damit können wir die empirische Korrelationsmatrix berechnen
·
¸·
¸·
¸
0.7746
0
1.6667 −2.1667
0.7746
0
R = D−1 SD−1 =
0 0.5855
−2.1667
2.9167
0 0.5855
·
¸·
¸
1.2910 −1.6783
0.7746
0
=
−1.2686
1.7077
0 0.5855
·
¸
1 −0.9826
=
.
−0.9826
1