Statistik IV für Studenten mit dem Nebenfach Statistik Gerhard Tutz, Jan Ulbricht Lösungen zu Blatt 1 SS 07 Lösung Aufgabe 1 Motivation Zentrierungsmatrix • Sei x̄j das arithmetische Mittel der j-ten Variable, j = 1, . . . , p. Durch die Transformation x∗ij = xij − x̄j erhalten wir n x̄∗j = 1X ∗ xij n i=1 = n 1X (xij − x̄j ) = 0. n i=1 • Soll diese Transformation für die gesamte Datenmatrix X gelten, so erhalten wir x11 − x̄1 · · · x1p − x̄p .. .. .. X∗ = . . . xn1 − x̄1 · · · x11 · · · .. .. = . . xn1 · · · x1p .. . xnp xnp − x̄p x̄1 · · · .. . . − . . x̄1 · · · x̄p .. . x̄p = X − 1n x̄> 1 = X − 1n 1> nX n 1 = (In − 1n 1> n )X = HX. n Durch Multiplikation (von links) mit der Matrix H wird die Datenmatrix X zentriert. Zur eigentlichen Aufgabe • Definition (Symmetrische Matrix): Eine (quadratische) Matrix A heißt symmetrisch, falls gilt A = A> bzw. in elementweiser Darstellung A = (aij ) = (aji ) = A> . • Für die Zentrierungsmatrix erhalten wir H = In − 1 1n 1> = n n n−1 n − n1 .. . − n1 − n1 n−1 n .. . − n1 ··· ··· .. . − n1 − n1 .. . ··· n−1 n (n×n) und damit (hij ) = − n1 = (hji ). • Definition (idempotente Matrix): Eine (quadratische) Matrix A heißt idempotent, falls gilt A = A> A = A2 . • Es gilt 1 1 > > 1n 1> n ) (In − 1n 1n ) n n 1 1 1 > > > = In − 1n 1> n − 1n 1n + 2 1n 1n 1n 1n n n n 2 1 > = In − 1n 1> n + 1n 1n n n 1 = In − 1n 1> n = H. n H > H = (In − Lösung Aufgabe 2 Mittelwertvektor • Ausgangspunkt: Datenmatrix x11 . . . x1p .. .. X = ... . . xn1 . . . xnp • arithmetisches Mittel der j-ten Variable: n x̄j = 1X xrj , n j = 1, . . . , p, r=1 bzw. zusammengefasst im Mittelwertvektor x̄ für alle p Variablen: Pn x11 + x21 + . . . + xn1 r=1 xr1 1 1 .. .. x̄ = = . . n Pn n x1p + x2p + . . . + xnp r=1 xrp (1) • Für die j-te Zeile von (1) können wir schreiben x1j + x2j + . . . + xnj = £ x1j x2j ··· • Damit ergibt sich x11 x21 · · · x11 + x21 + . . . + xn1 .. .. .. .. = . . . . x1p x2p · · · x1p + x2p + . . . + xnp und schließlich x̄ = 1 > X 1n . n xnj 1 ¤ . .. 1 (n×1) 1 xn1 .. .. = X > 1 n . . xnp 1 (2) Varianz-Kovarianzmatrix • Die Kovarianzmatrix fasst die Varianzen und Kovarianzen der p Variablen zusammen. Für die (geringfügig modifizierte) empirische Kovarianz der i-ten und der j-ten Variable gilt n sij = = = = 1 X (xri − x̄i )(xrj − x̄j ) n−1 r=1 n n n X X X 1 xri xrj − x̄j xri −x̄i xrj +nx̄i x̄j n−1 r=1 |r=1{z } |r=1{z } =nx̄i =nx̄i à n ! X 1 xri xrj − nx̄i x̄j n−1 1 n−1 r=1 n X xri xrj − r=1 n x̄i x̄j . n−1 • Fassen wir die einzelnen Varianzen und Kovarianzen in der Matrix S zusammen, so erhalten wir 1 Pn n n 1 Pn r=1 xr1 xr1 − n−1 x̄1 x̄1 . . . n−1 r=1 xr1 xrp − n−1 x̄1 x̄p n−1 .. .. .. S = . . . n n 1 Pn 1 Pn r=1 xrp xr1 − n−1 x̄p x̄1 . . . n−1 r=1 xrp xrp − n−1 x̄p x̄p n−1 Pn Pn x̄1 x̄1 . . . x̄1 x̄p r=1 xr1 xr1 . . . r=1 xr1 xrp n . 1 .. .. .. .. .. = − .. . . . . n − 1 Pn . n − 1 Pn x̄p x̄1 . . . x̄p x̄p r=1 xrp xrp r=1 xrp xr1 . . . x11 . . . xn1 x11 . . . x1p x̄1 1 . .. .. .. − n .. £ x̄ . . . x̄ ¤ .. .. = .. . 1 p . . . . n−1 . n−1 x1p . . . xnp xn1 . . . xnp x̄p 1 (X > X − nx̄x̄> ) = n−1 1 1 = (X > X − X > 11> X) n−1 n 1 1 = (X > (I − 11> )X) n−1 n } | {z =H = 1 X > HX. n−1 • Bemerkung: In der Literatur tritt auch die empirische Kovarianzmatrix mit dem Faktor • Obige Herleitung hätte auch mit dem Faktor 1 n funktioniert! Lösung Aufgabe 3 Die empirische Korrelationsmatrix • Bezeichne v u u sj = t n 1 X √ (xrj − x̄j )2 = sjj n−1 r=1 die (geringfügig modifizierte) empirische Standardabweichung der j-ten Variablen. 1 n auf • Der Bravais-Pearson-Korrelationskoeffizient der i-ten und der j-ten Variablen ist definiert als Pn (xri − x̄i )(xrj − x̄j ) sij pPn rij = pPn r=1 = . 2 2 si sj r=1 (xri − x̄i ) r=1 (xrj − x̄j ) • Zur Erinnerung: s11 . . . s1p S = ... . . . ... sp1 . . . spp • Die Matrix R = (rij ) erhalten wir mit Hilfe von 1 s1 . D−1 = .. 0 durch folgende Berechnung s s1 s21 s1 s12 s2 s22 s2 sp1 s1 sp2 s2 11 R=D −1 SD −1 = .. . .. . 0 .. . ... .. . ... ··· ··· .. . ··· s1 . . . 0 bzw. D = ... . . . ... 0 . . . sp 1 sp s1p sp s2p sp 1 s1 .. . .. . 0 spp sp ... .. . ... 0 .. . = 1 sp s11 s1 s1 s21 s1 s2 s12 s2 s1 s22 s2 s2 sp1 s1 sp sp2 s2 sp .. . .. . s1p sp s1 s2p sp s2 ··· ··· .. . ··· .. . spp sp sp . Zur eigentlichen Aufgabe • Ansatz für Mittelwertvektor: x̄ = 1 > 1 X 1n = n 4 · 1 2 3 4 7 6 5 3 ¸ 1 · ¸ 1 2.5 = 1 5.25 1 • Ansatz für empirische Korrelationsmatrix: R = D−1 SD−1 mit D = diag(s1 , . . . , sp ) und S = 1 > n−1 X HX. Für die Zentrierungsmatrix erhalten wir 1 0 H= 0 0 0 1 0 0 0 0 1 0 0 0.25 0.25 0.25 0.25 0 − 0 0.25 0.25 1 0.25 0.25 0.25 0.25 0.25 0.25 0.25 0.75 −0.25 −0.25 −0.25 0.25 0.75 −0.25 −0.25 = −0.25 0.25 −0.25 −0.25 0.75 −0.25 0.25 −0.25 −0.25 −0.25 0.75 und damit 1 7 0.75 −0.25 −0.25 −0.25 ¸ 0.75 −0.25 −0.25 2 6 3 4 −0.25 0.75 −0.25 3 5 5 3 −0.25 −0.25 4 3 −0.25 −0.25 −0.25 0.75 ¸ 1 7 −0.5 0.5 1.5 2 6 3 5 0.75 −0.25 −2.25 4 3 ¸ −6.5 . 8.75 · > X HX = · = · = • Damit erhalten wir 1 2 7 6 −1.5 1.75 5 −6.5 1 S= 3 · 5 −6.5 −6.5 8.75 ¸ · = 1.6667 −2.1667 −2.1667 2.9167 ¸ . • Mit √ s11 = 1.2910 √ = s22 = 1.7078 s1 = s2 erhalten wir · D −1 = 1 s1 0 0 1 s2 ¸ · = 0.7746 0 0 0.5855 ¸ . • Damit können wir die empirische Korrelationsmatrix berechnen · ¸· ¸· ¸ 0.7746 0 1.6667 −2.1667 0.7746 0 R = D−1 SD−1 = 0 0.5855 −2.1667 2.9167 0 0.5855 · ¸· ¸ 1.2910 −1.6783 0.7746 0 = −1.2686 1.7077 0 0.5855 · ¸ 1 −0.9826 = . −0.9826 1
© Copyright 2024 ExpyDoc