Ergänzung: Korrelations

Ergänzung zu Abschnitt 5.5 des Skripts:
Test auf Unabhängigkeit zweier normalverteilter Stichproben
Für den folgenden Spezialfall des Korrelationstests:
Unabhängigkeitstest:
Hypothese H0 : ρ = 0 (Xi und Yi sind unabhängig) gegen Alternative H1 : ρ 6= 0 (Xi , Yi beeinflussen
sich gegenseitig)
bietet sich eine einfachere Variante an. Dabei wird benutzt, dass die Stichprobenkorrelation unter der
Hypothese ungefähr normalverteilt ist für genügend großes N , genauer:
√
Z = N ρ̂N
ist ungefähr N (0, 1)-verteilt. Der Test läuft dann bei vergegebenem Niveau α folgendermaßen ab:
Hypothese
H0 : ρ = 0
oder H0 : ρ ≤ 0
H0 : ρ = 0
oder H0 : ρ ≥ 0
H0 : ρ = 0
Alternative
H1 : ρ > 0
H0 verwerfen, wenn
Z > q1−α
H1 : ρ < 0
Z < qα = −q1−α
H1 : ρ 6= 0
|Z| > q1−α/2
wobei qβ = β-Quantil von N (0, 1).
Im Fall ρ = 0 ist die benutzte Näherung auch bei kleineren Stichprobenumfängen brauchbar; für
Tests der Hypothese H0 : ρ = ρ0 mit einem Wert ρ0 ≈ 1 muss man dagegen den im Skript angegebenen komplizierten Test benutzen.
Der Unabhängigkeitstest kann auch für Daten benutzt werden, die nur ungefähr normalverteilt sind.
Dann folgt zwar aus der Unkorreliertheit nicht die Unabhängigkeit, aber wenn die Hypothese H0 : ρ =
0 der Unkorreliertheit verworfen werden kann, dann müssen die beiden Zufallsgrößen Xi , Yi abhängig
sein (bis auf Irrtumswahrscheinlichkeit α).
Neuer Abschnitt 5.9 des Skripts:
5.9 Tests für lineare Regressionsmodelle
Um die Art der Abhängigkeit von Zufallsgrößen Yj von Einflussgrößen Xj zu überprüfen, kann man
testen, ob einzelne Parameter eines der in Kapitel 4 beschriebenen Regressionsmodelle signifikant von
0 verschieden sind oder nicht. Im letzteren Fall kann man sie aus dem Modell entfernen und dieses so
vereinfachen. Wie solche Tests funktionieren, betrachten wir nur exemplarisch am Fall einer Regressionsgerade. Wie üblich, nehme wir zuerst an, dass die Daten Yj normalverteilt sind, genauer: bei
festgehaltenem Xj normalverteilt sind.
Über die Xj nehmen wir nichts an, außer dass sie reellwertig sind. Sie können fest gewählt oder
auch zufällig mit beliebiger Verteilung sein. Sie werden sowieso als fest vorgegeben behandelt. Wir
setzen nur voraus, dass sich unter den X1 , . . . , XN wenigstens zwei unterschiedliche Werte befinden.
Wenn alle Xj gleich wären, könnten wir die Steigung einer Geraden nicht identifizieren, da dann nur
Beobachtungen der interessierenden Funktion an einer einzigen Stelle vorliegen würden.
Wir setzen folgendes Modell für die Daten voraus:
Yj = b1 + b2 Xj + ej , j = 1, . . . , N,
e1 , . . . , eN sind u.i.v. N (0, σe2 )
Gegeben X1 , . . . , XN sind dann Y1 , . . . , YN unabhängig, und Yj ist N (b1 + b2 Xj , σe2 )-verteilt, j =
1, . . . , N .
Wir interessieren uns dafür, ob Yj überhaupt von Xj abhängt, d.h. im obigen Modell, ob b2 = 0
oder b2 6= 0. Bei dem Testproblem geht es um die Frage, wie der Mittelwert der normalverteilten Yj ,
gegeben den Wert von Xj , aussieht: b1 oder b1 + b2 Xj ist mit b2 6= 0? Der passende Test ist daher
eine Verallgemeinerung des Einstichproben-t-Tests (vgl. Abschnitt 5.2).
Für die Teststatistik benötigen wir einen Schätzer für die gemeinsame Varianz σe2 der Yj . Wir schätzen
zuerst die nicht beobachtbaren Residuen ej = Yj − b1 − b2 Xj durch die Stichprobenresiduen
êj = Yj − b̂1 − b̂2 Xj , j = 1, . . . , N,
indem wir die unbekannten Regressionsparameter b1 , b2 durch ihre Kleinste-Quadrate-Schätzer b̂1 , b̂1
ersetzen (vgl. Kapitel 4).
σ̂e2 =
N
N
1 X
1 X
ê2j =
(Yj − b̂1 − b̂2 Xj )2
N − 2 j=1
N − 2 j=1
schätzt dann σe2 .
Wir dividieren durch N − 2, da wir zum Schätzen des Mittelwerts der Yj zwei unbekannte Parameter schätzen
müssen.
Als Hilfsgrößen brauchen wir außerdem
σ̂x2 =
N
1 X
N −1 2
(Xj − X N )2 =
sx ,
N j=1
N
σ̂22 =
σ̂e2
σ̂x2
wobei s2x die von uns sonst immer verwendete Stichprobenvarianz von X1 , . . . , XN ist. σ̂22 schätzt die
Varianz des Schätzers b̂2 des Regressionsparameters b2 .
Der Test auf Signifikanz des Regressionsparameters b2 benutzt dann die Teststatistik
√
N b̂2
0
T2 =
.
σ̂2
T20 ist tN −2 -verteilt, wenn die Hypothese H0 : b2 = 0 richtig ist und das obigen Modell mit normalverteilten Residuen zutrifft. Der Test läuft daher bei vorgegebenem Niveau α folgendermaßen ab:
Hypothese
Alternative
H0 verwerfen, wenn
H0 : b2 = 0
oder H0 : b2 ≤ 0
H0 : b2 = 0
oder H0 : b2 ≥ 0
H0 : b2 = 0
H1 : b2 > 0
T20 > tN −2,1−α
H1 : b2 < 0
T20 < tN −2,α = −tN −2,1−α
H1 : b2 6= 0
|T20 | > tN −2,1−α/2
wobei tN −2,β = β-Quantil von tN −2 .
Bemerkung 1: Der Test kann auch für den Test der allgemeineren Hypothese H0 : b2 = bo2 benutzt
werden - mit festem Wert bo2 , der nicht unbedingt 0 sein muss. Dabei wird nur T20 durch die folgende
Teststatistik ersetzt:
√
N (b̂2 − bo2 )
.
T2 =
σ̂2
Bemerkung 2: Wie alle t-Tests ist der beschriebene Test vergleichsweise robust gegen Abweichungen
von der Normalitätsannahme. Er kann daher auch für Daten benutzt werden, die nur näherungsweise
normalverteilt sind. Das Niveau ist dann auch nur näherungsweise α.

Download Report