Ergänzung: Korrelations

Ergänzung zu Abschnitt 5.5 des Skripts:
Test auf Unabhängigkeit zweier normalverteilter Stichproben
Für den folgenden Spezialfall des Korrelationstests:
Unabhängigkeitstest:
Hypothese H0 : ρ = 0 (Xi und Yi sind unabhängig) gegen Alternative H1 : ρ 6= 0 (Xi , Yi beeinflussen
sich gegenseitig)
bietet sich eine einfachere Variante an. Dabei wird benutzt, dass die Stichprobenkorrelation unter der
Hypothese ungefähr normalverteilt ist für genügend großes N , genauer:
√
Z = N ρ̂N
ist ungefähr N (0, 1)-verteilt. Der Test läuft dann bei vergegebenem Niveau α folgendermaßen ab:
Hypothese
H0 : ρ = 0
oder H0 : ρ ≤ 0
H0 : ρ = 0
oder H0 : ρ ≥ 0
H0 : ρ = 0
Alternative
H1 : ρ > 0
H0 verwerfen, wenn
Z > q1−α
H1 : ρ < 0
Z < qα = −q1−α
H1 : ρ 6= 0
|Z| > q1−α/2
wobei qβ = β-Quantil von N (0, 1).
Im Fall ρ = 0 ist die benutzte Näherung auch bei kleineren Stichprobenumfängen brauchbar; für
Tests der Hypothese H0 : ρ = ρ0 mit einem Wert ρ0 ≈ 1 muss man dagegen den im Skript angegebenen komplizierten Test benutzen.
Der Unabhängigkeitstest kann auch für Daten benutzt werden, die nur ungefähr normalverteilt sind.
Dann folgt zwar aus der Unkorreliertheit nicht die Unabhängigkeit, aber wenn die Hypothese H0 : ρ =
0 der Unkorreliertheit verworfen werden kann, dann müssen die beiden Zufallsgrößen Xi , Yi abhängig
sein (bis auf Irrtumswahrscheinlichkeit α).
Neuer Abschnitt 5.9 des Skripts:
5.9 Tests für lineare Regressionsmodelle
Um die Art der Abhängigkeit von Zufallsgrößen Yj von Einflussgrößen Xj zu überprüfen, kann man
testen, ob einzelne Parameter eines der in Kapitel 4 beschriebenen Regressionsmodelle signifikant von
0 verschieden sind oder nicht. Im letzteren Fall kann man sie aus dem Modell entfernen und dieses so
vereinfachen. Wie solche Tests funktionieren, betrachten wir nur exemplarisch am Fall einer Regressionsgerade. Wie üblich, nehme wir zuerst an, dass die Daten Yj normalverteilt sind, genauer: bei
festgehaltenem Xj normalverteilt sind.
Über die Xj nehmen wir nichts an, außer dass sie reellwertig sind. Sie können fest gewählt oder
auch zufällig mit beliebiger Verteilung sein. Sie werden sowieso als fest vorgegeben behandelt. Wir
setzen nur voraus, dass sich unter den X1 , . . . , XN wenigstens zwei unterschiedliche Werte befinden.
Wenn alle Xj gleich wären, könnten wir die Steigung einer Geraden nicht identifizieren, da dann nur
Beobachtungen der interessierenden Funktion an einer einzigen Stelle vorliegen würden.
Wir setzen folgendes Modell für die Daten voraus:
Yj = b1 + b2 Xj + ej , j = 1, . . . , N,
e1 , . . . , eN sind u.i.v. N (0, σe2 )
Gegeben X1 , . . . , XN sind dann Y1 , . . . , YN unabhängig, und Yj ist N (b1 + b2 Xj , σe2 )-verteilt, j =
1, . . . , N .
Wir interessieren uns dafür, ob Yj überhaupt von Xj abhängt, d.h. im obigen Modell, ob b2 = 0
oder b2 6= 0. Bei dem Testproblem geht es um die Frage, wie der Mittelwert der normalverteilten Yj ,
gegeben den Wert von Xj , aussieht: b1 oder b1 + b2 Xj ist mit b2 6= 0? Der passende Test ist daher
eine Verallgemeinerung des Einstichproben-t-Tests (vgl. Abschnitt 5.2).
Für die Teststatistik benötigen wir einen Schätzer für die gemeinsame Varianz σe2 der Yj . Wir schätzen
zuerst die nicht beobachtbaren Residuen ej = Yj − b1 − b2 Xj durch die Stichprobenresiduen
êj = Yj − b̂1 − b̂2 Xj , j = 1, . . . , N,
indem wir die unbekannten Regressionsparameter b1 , b2 durch ihre Kleinste-Quadrate-Schätzer b̂1 , b̂1
ersetzen (vgl. Kapitel 4).
σ̂e2 =
N
N
1 X
1 X
ê2j =
(Yj − b̂1 − b̂2 Xj )2
N − 2 j=1
N − 2 j=1
schätzt dann σe2 .
Wir dividieren durch N − 2, da wir zum Schätzen des Mittelwerts der Yj zwei unbekannte Parameter schätzen
müssen.
Als Hilfsgrößen brauchen wir außerdem
σ̂x2 =
N
1 X
N −1 2
(Xj − X N )2 =
sx ,
N j=1
N
σ̂22 =
σ̂e2
σ̂x2
wobei s2x die von uns sonst immer verwendete Stichprobenvarianz von X1 , . . . , XN ist. σ̂22 schätzt die
Varianz des Schätzers b̂2 des Regressionsparameters b2 .
Der Test auf Signifikanz des Regressionsparameters b2 benutzt dann die Teststatistik
√
N b̂2
0
T2 =
.
σ̂2
T20 ist tN −2 -verteilt, wenn die Hypothese H0 : b2 = 0 richtig ist und das obigen Modell mit normalverteilten Residuen zutrifft. Der Test läuft daher bei vorgegebenem Niveau α folgendermaßen ab:
Hypothese
Alternative
H0 verwerfen, wenn
H0 : b2 = 0
oder H0 : b2 ≤ 0
H0 : b2 = 0
oder H0 : b2 ≥ 0
H0 : b2 = 0
H1 : b2 > 0
T20 > tN −2,1−α
H1 : b2 < 0
T20 < tN −2,α = −tN −2,1−α
H1 : b2 6= 0
|T20 | > tN −2,1−α/2
wobei tN −2,β = β-Quantil von tN −2 .
Bemerkung 1: Der Test kann auch für den Test der allgemeineren Hypothese H0 : b2 = bo2 benutzt
werden - mit festem Wert bo2 , der nicht unbedingt 0 sein muss. Dabei wird nur T20 durch die folgende
Teststatistik ersetzt:
√
N (b̂2 − bo2 )
.
T2 =
σ̂2
Bemerkung 2: Wie alle t-Tests ist der beschriebene Test vergleichsweise robust gegen Abweichungen
von der Normalitätsannahme. Er kann daher auch für Daten benutzt werden, die nur näherungsweise
normalverteilt sind. Das Niveau ist dann auch nur näherungsweise α.