Stichprobenverfahren JProf. Dr. Hans Manner Fakult¨at Statistik Technische Universit¨at Dortmund Email: [email protected] Sommersemester 2015 Stand: 01.04.2015 §-1 Aktueller Bezug 1 §0 Einf¨ uhrung in die Stichprobenverfahren 0.1 Voraussetzungen und Notationen • Die Menge potentieller Untersuchungseinheiten {U1, U2, . . . , UN } heißt Grundgesamtheit (kurz: GG) vom Umfang N . • Jeder Untersuchungseinheit Ui wird ein eindeutig fester Merkmalswert Yi zugeordnet. • Es wird eine zuf¨allige Stichprobe vom Umfang n gezogen. • Die ”Ergebnisse” yi, i = 1, . . . , n, repr¨asentieren Zufallsvariablen. • Notation bei Stichprobenverfahren in der Grundgesamtheit: Großbuchstaben, feste Werte (meist) unbekannt in der Stichprobe: Kleinbuchstaben, zuf¨allige Werte, Realisationen von Zufallsvariablen 0.2 G¨ utekriterien im Rahmen der Stichprobentheorie • Erwartungstreue: Sei θ der interessierende Parameter, dann heißt T (y1, . . . , yn) erwartungstreu f¨ ur θ , falls E(T (y1, . . . , yn)) = E(T ) = θ . • Varianzvergleich: Seien T1 und T2 zwei erwartungstreue Sch¨atzer f¨ ur θ , dann heißt T1 ”besser” als T2, falls Var(T1) < Var(T2). • MSE-Vergleich: Seien T1 und T2 zwei beliebige Sch¨atzer f¨ ur θ , dann heißt T1 ”besser” als T2, falls MSE(T1) < MSE(T2). (Hinweis: MSE(T ) = Var(T ) + [E(T ) − θ]2) 2 §1 Einfache Zufallsauswahl Definition 1.1 Eine Stichprobe vom Umfang n aus einer Grundgesamtheit vom Umfang N heißt einfache Zufallsstichprobe ohne Zur¨ ucklegen (kurz: eZoZ), wenn sie die gleiche Auswahlwahrscheinlichkeit wie alle anderen m¨ oglichen Stichproben gleichen Umfangs besitzen. Beispiel 1.2 N = 4, Merkmalswerte {1, 3, 5, 7}, Stichprobe vom Umfang n = 2. M¨ ogliche Stichproben {1, 3} {1, 5} {1, 7} {3, 5} {3, 7} Auswahlwahrscheinlichkeiten 1/6 1/6 1/6 1/6 1/6 ⇒ einfache Zufallsstichprobe Auswahlwahrscheinlichkeiten 1/2 0 0 0 0 6⇒ einfache Zufallsstichprobe {5, 7} 1/6 1/2 3 Bemerkung 1.3 (i) Man unterscheidet Modelle ohne Zur¨ ucklegen (eZoZ) und mit Zur¨ ucklegen (eZmZ). (ii) Modell ohne Zur¨ ucklegen: y1, . . . , yn identisch verteilt, aber stochastisch abh¨angig. (iii) Modell mit Zur¨ ucklegen: y1, . . . , yn unabh¨angig und identisch verteilt. (iv) Problem: viele statistische Analysen (z. B. Lineares Modell, statistische Tests) setzen stochastische Unabh¨angigkeit voraus; in der Praxis werden aber meist Modelle ohne Zur¨ ucklegen angewendet. Definition 1.4 Es bezeichnet in der Grundgesamtheit N X 1 Yi Merkmalsdurchschnitt Y¯ . := N i=1 N X Y. := Yi = N Y¯ . Merkmalssumme i=1 N 2 1 X 2 ¯ Yi − Y . SY := N − 1 i=1 N k 1 X µk := Yi − Y¯ . N i=1 Merkmalsvarianz k-tes zentrales Moment 4 Definition 1.4 (Fortsetzung) Es bezeichnet in der Stichprobe n 1X y¯. := yi n i=1 n X 1 2 2 (yi − y¯.) sy := n − 1 i=1 Stichprobenmittel Stichprobenvarianz Satz 1.5 F¨ ur eine einfache Zufallsstichprobe ohne Zur¨ ucklegen gilt: (i) E(¯ y .) = Y¯ . 1 n 1 2 (ii) Var(¯ y .) = K µ2 1− SY = n N n 2 2 (iii) E(sy ) = SY 1 n−3 2 2 (iv) Var(sy ) = K1 µ4 − K2 µ2 n n(n − 1) n−1 der Endlichkeitskorrektur der Mittelwertsch¨atzung und den mit K = 1 − N −1 Endlichkeitskorrekturen der Varianz (n − 1) N 3 − (n2 + 1) N 2 + (n2 + n) N K1 = (n − 1) (N − 1) (N − 2) (N − 3) 5 und −(n − 3) N 4 + (n2 − 3n − 6) N 3 + (9n + 3) N 2 − (3n2 + 3n) N . K2 = −(n − 3) (N − 1)2 (N − 2) (N − 3) Beweis: ¨ (i)–(iii): Ubungsaufgabe (iv): Beweisskizze in der Vorlesung; ausf¨ uhrlicher Beweis von (iv) in Kreienbrock, L. (1986), Statistische Hefte 27, 23–35 (jetzt Statistical Papers). Endlichkeitskorrekturen sind von besonderer Wichtigkeit f¨ ur den Vergleich von eZoZ und eZmZ, denn es gilt Satz 1.6 Falls n fest, so gilt lim K = lim K1 = lim K2 = 1. N →∞ N →∞ N →∞ 6 Korollar 1.7 F¨ ur eine einfache Zufallsstichprobe mit Zur¨ ucklegen gilt: (i) E(¯ y .) = Y¯ . 1 µ2 (ii) Var(¯ y .) = n 2 (iii) E(sy ) = µ2 n−3 1 2 2 µ4 − µ2 (iv) Var(sy ) = n n(n − 1) Bemerkung 1.8 Satz 1.5 entspricht der praktizierten Auswahl, Korollar 1.7 entspricht der praktizierten Auswertung (bzw. Voraussetzung vieler statistischer Verfahren) ⇒ Gr¨oßenordnung der K’s ist von zentraler Bedeutung, ob eine eZoZ als eZmZ interpretiert werden darf ⇒ vor der Weiterverarbeitung der Daten (Lineares Modell, Test, ...) muss u ¨berpr¨ uft werden, ob die relativen Abweichungen der Endlichkeitskorrekturen von 1 nicht zu groß sind, d. h. (*) (1 − K) < (**) (1 − K1) < 1 (***) (1 − K2) < 2 7 G¨ ultigkeit dieser Abweichungen: (1 − K) < ⇔ Var(¯ y.(mZ)) − Var(¯ y.(oZ)) Var(¯ y.(mZ)) < n 1− n−1 < ⇔ f := <+ N −1 N N d. h. es gilt ungef¨ahr ”relative Abweichung” = ˆ Auswahlsatz f . Beachte: Diese Aussage ist unabh¨angig(!) von der Varianz SY2 der Grundgesamtheit. ⇔ Die Ungleichungen (**) und (***) sind keine relativen Varianzabweichungen, da die Varianzen aus Satz 1.5(iv) und Korollar 1.7(iv) Summanden in Abh¨angigkeit von µ2 und µ4 sind, d. h. (**) und (***) m¨ ussen separat berechnet werden und es m¨ ussen µ2 und µ4 ber¨ ucksichtigt werden. Zentraler Grenzwertsatz f¨ ur die einfache Zufallsauswahl Das Auswahlmodell der eZoZ f¨ uhrt zu dem statistischen Modell • y1, . . . , yn sind identisch verteilt. • E(y1) = Y¯ . N −1 2 SY • Var(y1) = µ2 = N • y1, . . . , yn sind stochastisch abh¨angig. 1 1 2 • Cov(y1, y2) = − µ 2 = − SY N −1 N 8 ⇒ keine Anwendung des (normalen) Zentralen Grenzwertsatzes, da yi stochastisch abh¨angig. Dennoch kann ein Grenzwertsatz angegeben werden: H´ajek, J. (1960). Limiting distributions in simple random sampling from a finite population. Publications of the Mathematical Institute of the Hungarian Academy of Sciences 5, 361–374. Voraussetzungen 1.9 Sei eine unendliche Folge von Urnen der Gr¨ oße Nν gegeben, aus denen eZoZ vom Umfang nν gezogen werden. Weiterhin sei • • • • nν → ∞ und (Nν − nν ) → ∞, falls ν → ∞. Iν := {1, . . . , Nν } Yνi, i ∈ Iν Merkmalswert in der GG ν yνi, i = 1, . . . , nν Merkmalswert in der Stichprobe ν ) ( r Xnν yνi f¨ ur beliebige τ > 0. • Iντ := i ∈ Iν : |Yνi − Y¯ν.| > τ Var i=1 1 X ¯ Yνi • Yν. := Nν i∈I ν 9 Satz 1.10 (H´ajek, 1960) Unter den Voraussetzungen 1.9 gilt y¯ν. − E(¯ yν.) * N (0, 1), p ν→∞ Var(¯ yν.) dann und nur dann, wenn P Yνi − Y¯ν. i∈Iντ lim P ν→∞ Yνi − Y¯ν. 2 2 = 0. i∈Iν (Bedingung vom Lindeberg-Typ) Beweisidee: Weise nach, dass eZoZ asymptotisch ¨aquivalent zu einem Auswahlverfahren mit stochastisch unabh¨angigen Zufallsvariablen ist. Bemerkung 1.11 Gilt f¨ ur fν := nν /Nν die Beschr¨ankung 0 < < fν < 1 − f¨ ur ν > ν0, so kann man auch die schw¨achere Noether-Bedingung 2 ¯ max Yνi − Yν. i∈Iν lim P 2 = 0. ν→∞ ¯ Yνi − Yν. i∈Iν verwenden. 10 Definition 1.12 Seien x1, . . . , xN unabh¨angig identisch verteilte Zufallsvariablen mit W = P (x1 = 1), x := [x1, . . . , xN ]T und X ∈ {0, 1}N eine Realisation von x. Sei weiterhin I := {1, . . . , N } und s(I) ⊆ I eine beliebige Stichprobe aus I. Dann heißt s(I) nach einer Poisson-Auswahl erzeugt (kurz: Poisson-Stichprobe), falls gilt i ∈ I, Xi = 1 ⇔ i ∈ s(I). Beispiel: N=10 , d. h. I = {1, 2, . . . , 10} X = [0, 0, 0, 1, 1, 0, 0, 1, 0, 0] ⇒ s(I) = {4, 5, 8}. Bemerkung 1.13 (i) Der Auswahlumfang einer Poisson-Auswahl ist eine Zufallsvariable k. (ii) Eine eZoZ mit Bin(N, n/N )-verteilten Stichprobenumfang k f¨ uhrt zur Poisson¨ Auswahl. ( UA) 11 Lemma 1.14 (fundamentales Grenzwertlemma der Stichprobentheorie) Voraussetzungen: (i) n < N fest (ii) k ∼ Bin(N, n/N ) und k0 sei eine Realisierung von k. (iii) sn(I) eZoZ vom Umfang n und sk0 (I) Poisson-Stichprobe vom Umfang k0 derart, dass (iv) η := X sn(I) = sk0 (I) falls n = k0 sn(I) ⊂ sk0 (I) falls n < k0 sn(I) ⊃ sk0 (I) falls n > k0 ∗ (yi − Y¯ .), η := X (yi − Y¯ .) i∈sk (I) 0 i∈sn (I) Behauptung: ∗ 2 E(η − η ) ≤ Var(η ∗) s 1 1 + n N −n Beweis: η − η ∗ = 0 P (yi − Y¯. ) falls k0 = n falls k0 < n i∈sn (I)6=sk (I) 0 P (yi − Y¯. ) falls k0 > n i∈sk (I)6=sn (I) 0 12 d.h. f¨ ur eine Realisation k0 von k liegt eine Stichprobe von Umfang |k0 − n| vor h i ∗ 2 ∗ 2 ∗ ⇒ E[(η − η ) ] = E E(η − η ) | k = E Var(η − η ) | k |k − n| X |k − n| N − |k − n| X 2 2 · · (Yi − Y¯. ) ≤ E · (Yi − Y¯. ) = E N N −1 N i∈I q i∈I E(k − n)2 = µ2 · √ Var k = µ2 · E|k − n| ≤ µ2 · s s n n n = µ2 · N · · 1− = µ2 · n · 1 − N N N h i 1 k N −k X 2 ∗ 2 ¯ (Yi − Y. ) = Var η = E Var(η | k) = E · · · µ2 · E N k − k N N −1 N −1 ∗ i∈I h i 1 n 1 2 2 = · µ2 · N · E k − Var k − (E k) = · µ2 · N · n − n · 1 − −n N −1 N −1 N h i n n n 2 = · µ2 · N − 1 + −n = · µ2 · N − N + n − nN N −1 N N · (N − 1) n n · µ2 · [N · (N − 1) − n · (N − 1)] = n · 1 − · µ2 = N · (N − 1) N ∗ 2 ⇒ (insgesamt): E (η − η ) ≤ Var η ∗ s 1 n) = n · (1 − N s 1 1 + n N −n 13 Bemerkung 1.15 (i) Lemma 1.14 besagt, dass die einfache Zufallsauswahl und die Poisson-Auswahl zu asymptotisch gleichen Verteilungen f¨ uhren. (ii) Da die Poisson-Auswahl auf u.i.v. Zufallsvariablen beruht, ist der ”normale” Zentrale Grenzwertsatz hierauf anwendbar, d. h. ”Rest”-Beweis von Satz 1.10 durch Anwendung des Zentralen Grenzwertsatzes von Lindeberg(-Feller) auf Poisson-Stichprobe (siehe H´ajek, 1960) (iii) Lemma 1.14 angewandt auf mit ν indizierte Urnen 2 E (ην − ην∗ ) =0 lim ν→∞ Var(ην∗ ) (iv) Anwendungsregeln f¨ ur die G¨ ultigkeit n > 50 µ23 n > 25 3 µ2 3/2 Beachte: Schiefekoeffizient µ3/µ2 ; unbekannte Struktur von Y1, . . . , YN beeinflusst die Verteilung von y1, . . . , yn. 14 Satz 1.10 ist von großer praktischer Relevanz: Korollar 1.16 y¯. − u1−α/2 q q c (¯ Var y .) ; y¯. + u1−α/2 c (¯ Var y .) c (¯ ¯ . Hierbei ist Var ist approximativ ein (1 − α) -Konfidenzintervall f¨ u r Y y .) = 2 1 n n 1 − N sy . Korollar 1.17 Es gilt f¨ ur den notwendigen Stichprobenumfang n∗, so dass das (1 − α)-Konfidenzintervall ¯ . h¨ochstens eine L¨ange von 2 d hat, f¨ ur Y n0 ∗ , n > 1 + n0/N wobei n0 = u1−α/2 sy d 2 . 15 Gebundene Hochrechnung Bislang ist man immer davon ausgegangen, dass bei der Erhebung an Ui ein Merkmal Yi, i = 1, . . . , N , beobachtet werden kann, und dies die einzige Information u ¨ber die Grundgesamtheit darstellt. ¯ . heißt dann freie Hochrechnung. Die Sch¨atzung von Y H¨aufig liegen aber weitere Informationen vor, z. B. • • • • aus fr¨ uheren Auswahlen oder Vollerhebungen durch Pilotstudien Informationen der amtlichen Statistik ... Diese Informationen sollen ausgenutzt werden und eine daran gebundene Hochrechnung erfolgen. Voraussetzung 1.18 Neben dem Merkmal Yi besitzt jede Untersuchungseinheit Ui noch ein Merkmal Xi, i = 1, . . . , N . 16 Differenzensch¨ atzung Satz 1.19 Bei einer eZoZ sei neben dem Merkmal Y ein Merkmal X erhoben und zus¨atzlich sei der ¯ bekannt. Dann gilt Merkmalsdurchschnitt X. ˆ ¯ = (¯ ¯ ist ein erwartungstreuer Sch¨atzer f¨ ¯ .. (i) Y. y. − x ¯.) + X. ur Y h i n 1 2 2 ˆ ¯ 1− SY + SX − 2 ρ SX SY (ii) Var(Y.) = n N n X n 1 1 2 ˆ c (Y.) ¯ = (yi − xi − y¯. + x ¯.) (iii) Var 1− n N n − 1 i=1 ˆ ¯ . ist ein erwartungstreuer Sch¨atzer f¨ ur Var(Y.) Beweis: (i) klar! (ii) Sei di = (yi − xi ), i = 1, . . . , n, und Di = (Yi − Xi ), i = 1, . . . , N . Dann gilt ˆ ¯ Var(Y.) = = = ¯ = 1 Var(¯ y. − x ¯.) = Var(d.) n 1 n 1 n n 1− N N 1 X ¯ 2 Di − D. N −1 i=1 N n 1− N n 1− N 2 2 SY + SX − 2ρSX SY 1 X 2 2 ¯ ¯ (Yi − Y .) + (Xi − X.) − 2(Yi − Y.)(Xi − X.) N −1 i=1 (iii) klar! 17 Bemerkung 1.20 (i) Differenzensch¨atzer werden immer dann genutzt, wenn ein Zusammenhang der Form Y = X + a, a ∈ IR, zu vermuten ist (z. B. bei Wahlen, Ernteertr¨agen, . . . ) (ii) Der Differenzensch¨atzer ist besser als der Mittelwertsch¨atzer y¯. aus freier Hochrechnung, falls 2 SX − 2 ρ SX 1 SX <ρ SY < 0 ⇔ 2 SY Verh¨ altnissch¨ atzung Satz 1.21 ¯ Bei einer eZoZ mit erhobenen Merkmalen Y und X und bekanntem Merkmalsmittel X. sei ˆ ¯ ., ¯ = X. ¯ y¯. der Verh¨altnissch¨atzer f¨ ur Y (i) Y. x ¯. y¯. Y¯ . ˆ (ii) R = der Verh¨altnissch¨atzer f¨ ur R = ¯ . x ¯. X. ˆ: Dann gilt f¨ ur die Verzerrung von R ˆ =− B(R) 1 ˆ x Cov(R, ¯.) E(¯ x.) 18 Beweis: ˆ Cov R, x ¯. = = y¯. y¯. ˆ E(¯ ˆ X. ¯ x ¯. − E E E(¯ x.) = E(¯ y .) − E(R) x.) = Y¯ . − E(R) x ¯. x ¯. ¯ ˆ ˆ X. R − E(R) = E(¯ x.) −Bias(R) =⇒ Beh. Korollar 1.22 Unter den Voraussetzungen von Satz 1.21 gilt ˆ ≤ CV(¯ |B(R)| x.) q ˆ Var(R) mit CV(¯ x.) dem Variationskoeffizienten von x ¯. ¨ Beweis: UA ˆ wegen der Verzerrung von R ˆ Dieses Korollar ist sch¨on, aber wenig n¨ utzlich, da Var(R) ˆ anders angen¨ahert. keine Aussagen erm¨oglicht. Deshalb wird B(R) 19 Satz 1.23 Unter den Voraussetzungen von Satz 1.21 ist ˜ (R) ˆ = R CV(¯ B x.) [CV(¯ x.) − ρ(¯ y ., x ¯.)CV(¯ y .)] Beweis: Vorlesung ˆ ˆ und Y. ¯ Betrachte den mittleren quadratischen Fehler von R Satz 1.24 Unter den Voraussetzungen von Satz 1.21 ist h i n 1 1 2 2 2 ˆ = ] (R) 1− (i) MSE ¯ 2 SY + R SX − 2 ρ R SX SY n N X. ˆ = E(R ˆ − R)2. eine N¨aherungswert f¨ ur MSE(R) h i 1 n 2 2 2 ˆ ¯ = ] (Y.) (ii) MSE 1− SY + R SX − 2 ρ R SX SY n N ˆ ˆ ¯ = E(Y. ¯ − Y¯ .)2. eine N¨aherungswert f¨ ur MSE(Y.) ˆ = E(R ˆ − R)2 = f (θ). Beweis: analog zu Satz 1.23 mit MSE(R) 20 Bemerkung 1.25 (i) Die gebundene Hochrechnung liefert einen kleineren quadratischen Fehler als die freie ¯.,geb) < MSE(¯ ] (Yˆ Hochrechnung, d. h. MSE y.,frei), falls CV(X) < 2 ρ, CV(Y ) denn ¯.,geb ) < MSE(¯ ] (Yˆ MSE y.,frei ) 2 2 ⇔ R SX − 2 ρ R SX SY < 0 ⇔ CV(X) <2ρ CV(Y ) ⇔ R S X < 2 ρ SY ⇔ SX SY < 2 ρ ¯ X. Y¯ . (ii) Sind X und Y proportional, d. h. Yi = a Xi, i = 1, . . . , N , so gilt ˆ = 0, ] (R) MSE 2 2 denn Yi = a Xi =⇒ SY = a2 SX , R = a, ρ = 1. 21 (iii) H¨angen X und Y linear voneinander ab, d. h. Yi = a + b Xi, i = 1, . . . , N , so ¯.,geb), ] (Yˆ ist die freie Hochrechnung besser als die gebundene, d. h. MSE(¯ y.,frei) < MSE falls ¯ 2 MSE(1/¯ b2 1 n X. x.) > 2 1− 2 SX a n N denn mit Yi = a + bXi folgt ¯ y¯. X. x ¯. 1 MSE(¯ y.,frei ) = n ˆ ¯.,geb ) = MSE MSE(Y und ¯ 2 MSE = X. n 1− N a + b¯ x. x ¯. 1 2 SY = n ¯ 2 a2 MSE = X. n 1− N 2 1 x ¯. 2 b SX ⇒ Verh¨altnissch¨atzung ist gut bei proportionaler Abh¨angigkeit, schlecht bei linearer Abh¨angigkeit mit großem Achsenabschnitt. 22 Verbesserung des Verh¨altnissch¨atzers durch Modifizierung des Auswahlverfahrens Definition 1.26 Sind die Werte Xi, i = 1, . . . , N , bekannt und w¨ahlt man die erste Einheit der Stichprobe mit Wahrscheinlichkeit proportional zur Gr¨ oße X einer Einheit sowie die restlichen (n − 1) Einheiten als eZoZ, so heißt dieses Verfahren ppas-Auswahl (probability proportional to aggregated size). Satz 1.27 Bei ppas-Auswahl gilt: y ¯ . ˆ ¯ = E X. ¯ = Y¯ . (i) E(Y.) x ¯. Pn 2 X( yi) 1 1 2 ˆ ¯ − Y. (ii) Var(Y.) = 2 N −1 X. Pi=1 n N i=1 xi n−1 (∗) " # Pn 2 N −1 Pn−1 Pn y + 2 n−1 i=1 j=i+1 yi yj ˆ ˆ c (Y.) ¯ 2 − X. i=1 i ¯ = 1 (N Y.) (iii) Var P n N2 i=1 xi ˆ ¯ ist ein erwartungstreuer Sch¨atzer f¨ ur Var(Y.) P ( bedeutet Summe u ¨ber alle m¨ oglichen Stichproben) (∗) Beweis: Vorlesung 23 Regressionssch¨ atzung Verh¨altnissch¨atzung ist dann schlecht, wenn eine Beziehung Y = A + B X besteht; dies f¨ uhrt zur Idee der Regressionssch¨atzung Satz 1.28 F¨ ur eine eZoZ und b0 ∈ IR fest gilt ˆ = y¯. + b (X. ¯ ¯ −x ¯. (i) Y. ¯.) ist ein erwartungstreuer Sch¨atzer f¨ ur Y 0 n 1 2 2 2 ˆ ¯ = 1− (SY − 2 b0 SXY + b0SX ) (ii) Var(Y.) n N n 1 2 2 2 ˆ c (Y.) ¯ = 1− (sy − 2 b0 sxy + b0sx) ist ein erwartungstreuer Sch¨atzer (iii) Var n N ˆ ¯ f¨ ur Var(Y.) ¨ Beweis: UA Bemerkung 1.29 ˆ ¯ → min! ⇔ b0 = SXY . F¨ (i) Var(Y.) ur die Varianz gilt in diesem Fall 2 SX ˆ ¯ = 1 Var(Y.) n 1− n N 2 SY − 2 SXY 2 SX ! 24 (ii) Kennt man b0 nicht, so kann man den gew¨ ohnlichen KQ-Sch¨atzer an dessen Stelle setzen; der Satz 1.28 gilt dann allerdings nur noch approximativ. Insbesondere gilt dann f¨ ur die Varianz n 1 2 2 ˆ ¯ = 1− SY (1 − ρ ) Var(Y.) n N Auswahl mit ungleichen Auswahlwahrscheinlichkeiten Bis auf die Modifizierung der ppas-Auswahl wurde bislang immer von gleichen Auswahlwahrscheinlichkeiten ausgegangen. Das ist nicht immer sinnvoll, z. B. • Auswahl von Gemeinden • Auswahl von landwirtschaftlichen Nutzfl¨achen d. h. wenn die (absolute) Realisierung von einer externen Gr¨ oße der Untersuchungseinheit abh¨angt. ⇒ Der Satz von Horvitz / Thompson 25 Voraussetzungen 1.30 Betrachtet wird ein beliebiges Auswahlverfahren, bei welchem jede Untersuchungseinheit Ui, i = 1, . . . , N , h¨ ochstens ein Mal in die Auswahl gelangen kann. Sei 1 , falls Ui in der Stichprobe, ti := 0 , sonst, und ci ∈ IR, i = 1, . . . , N , feste Koeffizienten. Allgemeiner linearer Sch¨atzer N X ` := ci ti Yi i=1 Mit diesem allgemeinen Ansatz k¨ onnen nun beliebige Parametrisierungen und beliebige Auswahlverfahren betrachtet werden. Lemma 1.31 Sei Πi die Wahrscheinlichkeit, dass Ui, und Πij die Wahrscheinlichkeit, dass Ui und Uj in die Stichprobe gelangen. Dann gilt unter den Voraussetzungen 1.30 E(ti) = Πi, i = 1, . . . , N Var(ti) = Πi(1 − Πi), i = 1, . . . , N E(ti tj ) = Πij , i 6= j, i, j = 1, . . . , N Cov(ti, tj ) = Πij − Πi Πj , i 6= j, i, j = 1, . . . , N N X (v) E(`) = ci Πi Yi (i) (ii) (iii) (iv) i=1 26 ¯ . sein, so muss Soll ` erwartungstreu f¨ ur Y N ci = 1 , i = 1, . . . , N, Πi definiert werden. F¨ ur diesen Sch¨atzer gilt der wichtigste Satz der Stichprobentheorie: Satz 1.32 (Horvitz-Thompson-Varianzformel) Sei Π0i, i = 1, . . . , n, die Auswahlwahrscheinlichkeit Untersuchungseinheit in der Stichprobe und der i-ten gezogenen n X 1 1 ˆ ¯ HT := Y. yi N i=1 Π0i ¯ . Dann gilt der Horvitz-Thompson-Sch¨ atzer f¨ ur Y N N X N X X 1 (1 − Π ) Π − Π Π i ij i j 2 ˆ ¯ HT) = Var(Y. Y + Y Y i j i N 2 i=1 Πi Π Π i j i=1 j=1 i6=j falls Πi > 0 f¨ ur alle i = 1, . . . , N. 27 Beweis: ˆ ¯ HT ) Var(Y. = = 1 Var N2 N X i=1 = 1 ti Yi Πi N N 1 XX Cov N2 i=1 j=1 1 1 ti Yi , tj Y j Πi Πj ! N N 1 X X Yi Yj = 2 Cov ti , tj N Πi Πj i=1 j=1 N N N 2 X X X Y Y Yi 1 i j Πi (1 − Πi ) + Πij − Πi Πj 2 N2 Π Π Π i j i=1 j=1 i=1 i i6=j Horvitz, D.G., Thompson, D.J. (1952): A generalization of sampling without replacement from a finite universe. Journal of the American Statistical Association 47, 663-685. Mit diesem Satz kann im Prinzip jedes beliebige Auswahlverfahren (mit oder ohne Zur¨ ucklegen) behandelt werden. Bei Auswahlverfahren mit Zur¨ ucklegen ist n in Satz 1.32 die Anzahl der unterschiedlichen Untersuchungseinheiten in der Stichprobe. Die Sch¨atzung der Varianz erfolgt durch: 28 Satz 1.33 0 0 0 n n X n 0 X X Π − Π Π 1 − Π 1 ij i j 2 i ˆ ¯ \ y + Var y y HT (Y.HT ) = i j i 0 Π0 Π0 N 2 i=1 (Π0i)2 Π ij i j i=1 j=1 i6=j ˆ ¯ HT), ist unter den Voraussetzungen 1.30 und 1.32 ein erwartungstreuer Sch¨atzer f¨ ur Var(Y. falls Πij > 0 f¨ ur alle i 6= j , i, j = 1, . . . , N . Beweis: Seien f und g beliebige reelle Funktionen, dij ∈ IR beliebige Konstanten, `1 = und `2 = n X n X ti ci f (Yi ) i=1 ti tj dij g(Yi ) g(Yj ). Dann gilt i=1 j=1 i6=j E(`1 ) = N X ci f (Yi ) Πi und E(`2 ) = i=1 2 Setze f (Y ) = Y , ci = N X 1 − Πi 2 E(`1 ) = Yi Πi i=1 N X , dij g(Yi ) g(Yj ) Πij i=1 j=1 i6=j 1 − Πi Π2i N X N X , g(Y ) = Y , dij = E(`2 ) = Πij − Πi Πj Πij Πi Πj N X N X Πij − Πi Πj i=1 j=1 i6=j Πij Πi Πj , dann gilt Yi Yj 1 ˆ ¯ HT ). und E (`1 + `2 ) = Var(Y. 2 N 29 Bemerkung: Ausgesprochen wichtig ist, dass f¨ ur das Auswahlverfahren Πi > 0 ∀i und Πij > 0 ∀i, j, i 6= j gelten muss!!! ABER: Der erwartungstreue Varianzsch¨atzer kann negative Sch¨atzwerte liefern. Falls der tats¨achliche Stichprobenumfang n fest ist, l¨asst sich die Varianz des HorvitzThompson Sch¨atzers und des unverzerrten Varianzsch¨atzers nach Yates und Grundy (1953, JRRS B 15, 253-261) wie folgt darstellen: Satz 1.34 ˆ ¯ HT gilt: F¨ ur den Horvitz-Thompson-Sch¨atzer Y. 2 N X N X Y Y 1 i j ˆ ¯ HT) = (Π Π − Π ) − (i) Var(Y. i j ij N 2 i=1 j=1 Πi Πj i<j 30 0 0 0 n X n X − Π Π Π 1 ij j i ˆ ¯ \ (ii) Var YG (Y.HT ) = n2 i=1 j=1 Π0ij yi yj − Π0i Π0j !2 i<j Aus diesem allgemeinen Ansatz von Horvitz und Thompson kann ein weiteres wichtiges Resultat hergeleitet werden: Satz 1.35 Seien z1, . . . , zn unkorrelierte Zufallsvariablen mit E(zi) = µ, i = 1, . . . , n. Dann gilt n X 1 2 c (zi − z¯.) Var(¯ z .) = n (n − 1) i=1 ist ein erwartungstreuer Sch¨atzer f¨ ur Var(¯ z .) 31 Beweis: n 1X E(zi ) = µ, E(¯ z .) = n 2 2 E(zi zj ) = Cov(zi , zj )+µ = µ (unkorreliert), 2 2 Var(¯ z .) = E(¯ z . )−µ i=1 n X 2 (zi − z¯.) n X = i=1 !2 − zi n X 2 2 zi zj + zi − n z¯. = i=1 j=1 i=1 = n X n X 2 2 (n z¯.) − n z¯. − i=1 n X n X ⇒E 1 n (n − 1) ! (zi − z¯.) i=1 2 !2 zi i=1 2 zi zj = n(n − 1)¯ z. − i=1 j=1 i6=j n X n X n X n X − n X n X 2 zi zj − n z¯. i=1 j=1 i6=j zi zj i=1 j=1 i6=j n n XX 1 2 2 = E(¯ z . )− E(zi zj ) = Var(¯ z .)+µ −µ = Var(¯ z .) n(n − 1) 2 i=1 j=1 i6=j Bemerkung: Die Voraussetzung in Satz 1.35 beinhaltet keine identischen Verteilungen, d. h. insbesondere keine identischen Varianzen. Konfidenzintervall: ˆ ¯ HT ± Y. q ˆ ¯ \ Var HT (Y.HT ) u1−α/2 Eine wichtige Anwendung: pps-Verfahren 32 pps-Verfahren Beispiel: Auswahl aus einer Grundgesamtheit mit Geschlechterverh¨altnis m¨ annlich : weiblich = 2 : 1 in der Form, dass 100 M¨anner und 100 Frauen in die Stichprobe gelangen ⇒ M¨anner haben geringere ”Chance” in die Stichprobe zu gelangen. ⇒ M¨anner sind ”unterrepr¨asentiert”. Definition 1.36 Sei Pi > 0 die Wahrscheinlichkeit beim einmaligen Ziehen Ui aus der Grundgesamtheit PN zu entnehmen, Pj = 1. Sei Xi ein bekanntes zus¨atzliches Merkmal von Ui Pj=1 N ur alle i = 1, . . . , N . Dann heißt eine solche Auswahl und Pi = Xi/ j=1 Xj f¨ pps-Auswahl (probability proportional to size) mit Zur¨ ucklegen. Bemerkung: Das obige Auswahlverfahren beschreibt (zun¨achst) eine Stichprobe vom Umfang eins. Realisierungsm¨ oglichkeiten von pps-Auswahlen Ziehungstechnik 1: Verfahren zum Ziehen einer Einheit / Zufallszahlen " k−1 ! k X X Ik := Pi , Pi , |Ik | = Pk , k = 0, 1, . . . , N, P0 := 0 i=0 i=0 z Zufallszahl aus [0, 1], z ∈ Ik ⇒ w¨ahle Uk 33 Voraussetzung ist, dass alle Pi bekannt sind und die Untersuchungseinheiten angeordnet werden k¨onnen! Ziehungstechnik 2: Verfahren zum Ziehen einer Einheit / Zufallszahlen Xmax := max Xi, i=1,...,N X0 ≥ Xmax Algorithmus: 1. Schritt: z1 diskrete Zufallszahl aus {1, . . . , N }, w¨ahle Uz1 vorl¨aufig 2. Schritt: z2 stetige Zufallszahl aus [0, X0] falls Xz1 ≥ z2 ⇒ w¨ahle Uz1 endg¨ ultig ⇒ STOP falls Xz1 < z2, gehe zu Schritt 1 Lahiri-Verfahren f¨ uhrt zu pps-Auswahl, denn p˜ := Wahrscheinlichkeit, dass bei einem Durchgang eine Einheit gezogen wird; p˜ = N X i=1 q˜ := 1 − p˜, d.h. Z X N ¯ X i 1 X. 1 Xi = , da du = P (z2 ≤ Xi ), P (Ui in Stichprobe) = N X0 X0 X0 0 z2 ∼ U [0, X0 ) i=1 34 p˜i = Wahrscheinlichkeit, dass bei einem Durchgang Ui gezogen wird = Pi = Wahrscheinlichkeit, dass Ui gezogen wird = ∞ X Xi N X0 P (Ui im j -ten Durchgang und nicht(s) vorher) j=i = ∞ Xi Xi Xi X k Xi 1 2 Xi 3 Xi + q˜ + q˜ + q˜ + ··· = q˜ = N X0 N X0 N X0 N X0 N X0 N X0 1 − q˜ k=0 = 1 Xi 1 1 Xi X0 Xi = = P N ¯ N X0 p˜ N X0 X. Xj j=1 Vorteil: es sind nur die Xz1 als bekannt vorauszusetzen (Kosten- und Zeitersparnis) Ziehungstechnik 3: Verfahren zum Ziehen einer Stichprobe vom Umfang n mit Zur¨ ucklegen wiederhole Ziehungstechnik 1 bzw. 2 n-mal 35 Satz 1.37 Bei n-maliger Wiederholung einer pps-Auswahl mit Zur¨ ucklegen gilt: n 1 X yi ˆ ¯. ¯ ist erwartungstreu f¨ ur Y (i) Y. = N n i=1 pi ˆ ¯ = (ii) Var(Y.) N X 1 N2 n Pi i=1 1 ˆ c (Y.) ¯ = 1 (iii) Var N 2 n(n − 1) (Hansen-Hurwitz Sch¨ atzer) 2 Yi 1 = 2 − Y. Pi N n n X i=1 1 yi − pi n n X j=1 N X Y2 i i=1 Pi ! 2 − Y. 2 yj ˆ ¯ ist erwartungstreu f¨ ur Var(Y.) pj Beweis: Vorlesung Folgerung 1.38 Unter den Voraussetzungen von Satz 1.37 und Pi = Xi/X., i = 1, . . . , N , gilt ˆ ¯ = Var(Y.) 1 N N X X N 2 n i=1 j=1 i<j " Xi Xj Yi Yj − Xi Xj 2 # N X. X = 2 Xi N n i=1 Yi −R Xi 2 36 Beweis: N X N X Yj Yi − Xi Xj Xi Xj i=1 j=1 i<j = N X N X Yi2 Xj Xi i=1 j=1 i<j = N X Y2 i i=1 = X. Xi N X i=1 2 !2 + X. − Y. = Yj2 Xi Xj N X i=1 Xi ! − 2 Yi Yj = N X N X Yi2 Xj i=1 j=1 Xi − N X i=1 2 Yi − N X N X i=1 j=1 Yi Yj + N X i=1 2 N X Yi Xi Yi Y. 2 − Y. = − Xi X. Xi /X. X. Xi X. i=1 2 Yi −R Xi Bemerkung: ˆ ¯ ist im pps-Verfahren klein, falls Y und X nahezu proportional (i) Var(Y.) ¨ (ii) Verhalten bei linearer Abh¨angigkeit, siehe UA 37 2 Yi Allgemein gilt: Lemma 1.39 ˆ ¯ pps < Var (¯ Var Y. y .eZmZ ) dann und nur dann, wenn N X i=1 Yi2 ¯ >0 Xi − X. Xi (! Dies bedeutet hohe Korrelation!) Beweis: 2 N N X X 2 X. Y Y. 1 1 i ˆ ¯ pps < Var (¯ Var Y. y .eZmZ ) ⇔ 2 Xi − < Yi − Y¯ . N n Xi X. nN i=1 ⇔ N X. X N2 i=1 ⇔ Yi2 Y.2 Xi Yi Y. + − 2 Xi X.2 X. ! N 1 X 2 2 < Yi − Y¯ . N i=1 N N N N 2 X X Y Y.2 1 X 2 X. X Yi2 Y.2 2 2 i ¯ . ⇔ X. ¯ + Y − Y − Y <0 − 2 < i i N2 Xi N2 N2 N Xi i=1 ⇔ i=1 N X i=1 2 Yi i=1 i=1 i=1 ¯ N N X X Yi2 ¯ Yi2 X. ¯ >0 −1 <0⇔ X. − Xi < 0 ⇔ Xi − X. Xi Xi Xi i=1 i=1 38 Ziehungstechnik 4: Zur¨ ucklegen / direkt Verfahren zum Ziehen einer Stichprobe vom Umfang n ohne Xi f¨ uhrt zur Einheit U1 X. Xi 2. Schritt: pps-Auswahl mit P˜i = f¨ uhrt zur Einheit U2 X. − X1 Xi ˜ ˜ 3. Schritt: pps-Auswahl mit Pi = f¨ uhrt zur Einheit U3 X. − X1 − X2 ... Xi ∗ f¨ uhrt zur Einheit Un n. Schritt: pps-Auswahl mit Pi = Pn−1 X. − i=1 Xi 1. Schritt: pps-Auswahl mit Pi = Ziehungstechnik 5: Verfahren zum Ziehen einer Stichprobe vom Umfang n ohne Zur¨ ucklegen / systematische pps-Auswahl Ik = " k−1 X i=0 Xi, k X # Xi, , |Ik | = Xk , k = 0, . . . , N, X0 := 0 i=0 X. X. , z` := z1 + (` − 1) , ` = 2, . . . , n z1 Zufallszahl aus 0, n n z` ∈ Ik ⇒ w¨ahle Uk , ` = 1, . . . , n 39 Bemerkungen: X. , so ist die Stichprobe vom Umfang n definiert. n X. • Ist Xi > , so gelangt Ui mit Wahrscheinlichkeit eins in die Stichprobe und das n X. Verfahren ist keine pps-Auswahl. Falls Xi > n 1. M¨oglichkeit: Mehrfachauswertung (praxisgerecht) 2. M¨oglichkeit: ”Restgesamtheitsverfahren”, Beispiel: • Ist Xi < i 1 2 3 4 5 6 7 8 9 10 Xi 300 90 10 10 50 210 10 10 300 10 n = 4, X. = 1000, ⇒ d = 250 ⇒ U1 und U9 in die Stichprobe. Restgesamtheit i 2 3 4 5 6 7 8 10 0 Xi 90 10 10 50 210 10 10 10 n0 = 2, X.0 = 400, ⇒ d0 = 200 ⇒ U6 in die Stichprobe ⇒ von 4 Stichprobenelementen wird nur eines, n¨amlich das letzte, zuf¨allig ausgew¨ahlt. • Ziehungstechnik setzt geordnete Grundgesamtheit voraus • 50 Modifikationen in Brewer, K.R.W., Hanif, M. (1983), Sampling with unequal probabilities, Springer, New York. 40 Neben solchen ”Feinheiten” treten zwei Hauptprobleme bei pps-Auswahlen auf: Lemma 1.40 F¨ ur n = 2 und Ziehung gem¨aß Ziehungstechnik 4 gilt N X Pj (i) Πi = Pi 1 + 1 − P j j=1 j6=i (ii) Πij = Pi Pj 1 1 + 1 − Pi 1 − Pj ¨ Beweis: UA F¨ ur n > 2 m¨ ussen Approximationen angegeben werden. Satz 1.41 X. Sei {Y1, . . . , YN } zuf¨allig geordnet, Xi < f¨ ur alle i = 1, . . . , N , und eine ppsn Stichprobe ohne Zur¨ ucklegen nach Ziehungstechnik 5 (Kumulationsverfahren) erhoben. Dann gilt: 41 2 N X Y 1 i ˆ ¯ kum) ' (i) Var(Y. − Y¯ . Pi Ci n i=1 N Pi mit Ci = 1 − (n − 1)Pi, i = 1, . . . , N ˆ c (Y. ¯ kum) ' (ii) Var n X n X 1 n − 1 i=1 j=1 i<j yi yj − N Π0i N Π0j !2 1− 0 Πi 0 Πj 1 + n n X ! 0 2 (Πi) i=1 Beweis: Hartley, H.O., Rao, J.N.K. (1962). Sampling with unequal probabilities and without replacement. AMS 33, 350-374. Bemerkung: (i) Satz 1.41 ist Folge von Satz 1.32. n (ii) Ist Πi = ⇒ Formeln wie bei eZoZ N (iii) Ist Ci ≡ 1 ⇒ Formeln Satz 1.37 42 Ein weiteres Problem der pps-Auswahl ergibt sich im homograden Fall, d. h. bei der Sch¨atzung von Anteilen ¨ Ubliche Transformation 1 , falls Ui Eigenschaft besitzt Yi = 0 , sonst oder Y˜i = 0 1 , , falls Ui Eigenschaft besitzt sonst ˆ ¯ ˆ ¯ pps + Y. ˜ pps = 1 Y. Dann gilt nicht notwendigerweise Beispiel: N = 10, n = 3 i Yi Pi 1 1 1/2 2 0 1/10 3 1 1/20 4 0 1/20 5 0 1/20 6 0 1/20 7 0 1/20 8 0 1/20 9 0 1/20 10 0 1/20 pps-Auswahl: Y1, Y2, Y3 ˆ ¯ pps Y. ˆ ¯ ˜ pps Y. = 1 10 · 3 = 1 10 · 3 1 0 1 + + 1/2 1/10 1/20 0 1 0 + + 1/2 1/10 1/20 = 22 11 = 30 15 = 10 5 = 30 15 43 Systematische Auswahl mit zuf¨ alligem Start Forderung: einfach zu realisierende Auswahl Durchf¨ uhrung: • • • • geordnete Grundgesamtheit Bestimmung einer Schrittl¨ange d zuf¨allige Auswahl der ersten Stichprobeneinheit systematische Auswahl: jede d-te Einheit Vorteile: • • • • Kenntnis von N ist nicht unbedingt erforderlich Auswahl ohne Auswahlgrundlage m¨ oglich Minimierung der Fehler in der Feldarbeit Kosten- und Zeiterspanis Probleme: • St¨orung der Repr¨asentativit¨at bei Systematik der GG • nur ein Element wird zuf¨allig erhoben (Varianzsch¨atzung?) 44 Definition 1.42 N und z eine Zufallszahl aus {1, . . . , d}. n Ermittelt man eine Stichprobe vom Umfang n durch (i) Sei {U1, . . . , Un} eine geordnete GG, d := Uz , Uz+d, Uz+2d, . . . , Uz+(n−1)d, so heißt das Verfahren systematische Auswahl mit zuf¨alligem Start z und Schrittl¨ange d. (ii) Die Merkmalswerte der GG werden dann auch mit yij , i = 1, . . . , d, j = 1, . . . , n. Schema: Nr. der Stichprobe 1 2 ··· j ··· n 1 ... i yi1 yi2 · · · yij · · · yin ... d Interpretationsm¨oglichkeiten: • Schichten {(1, . . . , d), (d + 1, . . . , 2d), . . .} ⇒ geschichtete Auswahl mit Umfang jeweils 1 • Klumpen {alle m¨oglichen d Stichproben} ⇒ einfache Zufallsauswahl von einem Klumpen des Umfangs n Frage: N = d n? 45 Auswahlmodelle Voraussetzung: N bekannt 1. Fall: Schrittl¨ ange d ist vorgegeben ⇒ n ist abh¨angig von z N = (n − 1)d + r N N − d d d mit r = d , , N N falls 6 = d d N N falls = d d z≤r ⇒ Umfang = n r < z ≤ d ⇒ Umfang = n − 1 r=d ⇒ Umfang = n (unabh¨angig von z ) Lineares Auswahlmodell A: z aus {1, . . . , d} ⇒ Uz , Uz+d, Uz+2d, . . . ausw¨ahlen Lineares Auswahlmodell B: z 0 aus {1, . . . , N } ⇒ r 0 := mod (z 0/d) ∈ {0, . . . , d − 1} r0 = d − 1 ⇒ z = 1 0 r =d−2 ⇒ z =2 ⇒ .. ⇒ weiter wie A . 0 r =0 ⇒ z=d (Stichproben habe unterschiedliche Auswahlwahrscheinlichkeiten) 46 Zirkul¨ ares Auswahlmodell nach Lahiri Skizze in Vorlesung z aus {1, . . . , d} ⇒ Uz , Uz+d, Uz+2d, . . . , Uz˜ mit z˜ ≤ z ausw¨ahlen (Stichprobenumfang immer gleich n) 2. Fall: Stichprobenumfang n ist vorgegeben Auswahlmodelle analog zu oben und Auswahlmodell mit periodisch wechselnden Auswahlabst¨ anden ⇒ (n − r 0)-mal Schrittl¨ange r 0-mal Schrittl¨ange N 0 0 = d Rest r n d = d0 d = d0 + 1 Sch¨ atzverfahren Auch bei systematischer Auswahl ist y¯. ein sinnvoller Sch¨atzer, dessen Eigenschaften aber vom Auswahlmodell bestimmt werden. 47 Satz 1.43 (a) Sei N = nd, dann gilt: ¯. y¯. ist erwartungstreu f¨ ur Y unabh¨angig vom verwendeten Auswahlmodell. (b) Sei N 6= nd, dann gilt: ¯ ., y¯. ist erwartungstreu f¨ ur Y (i) falls nach Auswahlmodell B oder nach Lahiri ausgew¨ahlt wurde N − 1 , falls nach Auswahlmodell A ausgew¨ahlt wurde. (ii) E(¯ y .) = Y¯ . + Y¯. n0 d Dabei ist N = (n − 1)d + r und n0 der tats¨achlich realisierte Stichprobenumfang. ¨ Beweis: UA Bemerkung: B(¯ y .) = Y¯. N −1 0 nd in (ii) ist (h¨aufig) nicht praxisrelevant. Wegen Satz 1.43 kann in guter Approximation von der Voraussetzung E(¯ y .) = Y¯ . N = nd ausgegangen werden. 48 Satz 1.44 Bei einer systematischen Stichprobe mit N = nd gilt Var(¯ y .) = N1 2 N −1 2 SY − S , N N W wobei d 2 SW n 1 XX 2 = (yij − y¯i.) (Variabilit¨at innerhalb der ”Stichproben”) N − 1 i=1 j=1 Beweis: Var(¯ y .) = E y¯i. − Y¯ . 2 d 1X 2 = (¯ yi. − y¯..) d (¯ y .. = Y¯ .) i=1 Betrachte die Streuungszerlegung: d X n X d X n d X X 2 2 2 yij − y¯.. = yij − y¯i. + n (¯ yi. − y¯..) i=1 j=1 i=1 j=1 i=1 d n d 2 2 1 XX 1 XX N −1 2 N −1 2 n yij − y¯i. = SY − SW ⇒ Var(¯ y .) = yij − y¯.. − dn dn N N i=1 j=1 i=1 j=1 Varianz h¨angt von den Stichproben untereinander ab ⇒ (Interpretation wie beim Klumpenverfahren): Intraklasskorrelation 49 Folgerung 1.45 Sei N Pd i=1 Pn Pn ρw = j 0 =1 (yij j=1 j6=j 0 − Y¯ .)(yij 0 − Y¯ .) dn(n − 1)(N − 1)SY2 die Intraklasskorrelation der systematischen Auswahl, dann gilt Var(¯ y .) = N −1 2 S (1 + (n − 1)ρw ) Nn Y Beweis: Var(¯ y .) = = 1 d d X y¯i. − Y¯ . 2 i=1 = 1 d d X i=1 1 n n X 2 yij − Y¯ . = j=1 1 d d X i=1 1 n2 n X 2 (yij − Y¯ .) j=1 d n n 1 XX X (yij − Y¯ .)(yij 0 − Y¯ .) 2 dn 0 i=1 j=1 j =1 = X d X n d X n X n X 1 2 (yij − Y¯ .) + (yij − Y¯ .)(yij 0 − Y¯ .) 2 dn 0 i=1 j=1 = i=1 j=1 j =1 j6=j 0 i 1 1 h 2 2 2 (N − 1) S + (n − 1) (N − 1) S ρ = (N − 1) S (1 + (n − 1)ρw ) w Y Y Y d n2 N n 50 Folgerung 1.46 1 Var(¯ y .sys) < Var(¯ y .eZoZ ) ⇔ ρw < − N −1 Satz 1.47 n N − n 02 02 1 X 2 (yij − y¯i.) Sei N = nd, v = sy , sy = Nn n − 1 j=1 h i N −1 2 N −n ⇒ E(v) = Sy (1 − ρw ) 6= Var(¯ y .sys) Nn N Bemerkung: c (¯ (i) v = ˆ Var y .) bei eZoZ 1 N −1 ≈ 0 (zuf¨allige Ordnung der GG), (ii) v erwartungstreu ⇔ ρw = − (iii) praxisrelevant, falls ρw Auswahlsatz) N −n N ≈ 1 (kleiner ⇒ Ber¨ ucksichtigung von Strukturen der GG: zuf¨allige Anordnung, lineare Anordnung, periodische Anordnung 51 §2 Geschichtete Auswahlverfahren Definition 2.1 Zerlegt man eine GG von N Einheiten in L disjunkte Teilmengen vom Umfang Nh, mit PL N = h=1 Nh , und werden den Nh Einheiten der h-ten Teilmenge nh Einheiten unabh¨angig und zuf¨allig entnommen, so heißt das Auswahlverfahren geschichtete Zufallsauswahl. Definition 2.2 Es bezeichne in der GG N L Nh Wh = Nh/N Yhi Nh X Y¯h. = Yhi/Nh Y¯ .. = 2 Sh = i=1 Nh L X X h=1 i=1 Nh X Umfang Anzahl der Schichten Umfang in Schicht h Gewicht der Schicht h Merkmal von Einheit i in Schicht h Yhi/N 2 Yhi − Y¯h. /(Nh − 1) Schichtvarianz i=1 In der Stichprobe entsprechend mit kleinen Buchstaben. 52 Satz 2.3 Zieht man aus jeder Schicht unabh¨angige eZoZ, so gilt ˆ = ¯ (i) Y.. L X ¯ .. Wh y¯h. ist erwartungstreu f¨ ur Y h=1 L X 1 nh 2 1 ˆ c (Y..) ¯ = (iii) Var Wh nh h=1 ˆ ¯ = (ii) Var(Y..) 2 Wh h=1 L X nh 1− Nh nh 1− Nh 2 Sh 2 ˆ ¯ sh ist erwartungstreu f¨ ur Var(Y..) ¨ Beweis: UA Schichtungseffekt: F¨ unf wesentliche Aspekte • • • • • Stichprobenplan je Schicht Schichtungsvariable Schichtgrenzen Aufteilung des Stichprobenumfangs Anzahl der Schichten ˆ ¯ minimieren Ziel: Schichtungseffekt maximieren ⇔ Var(Y..) 53 Voraussetzungen (I) eZoZ in jeder Schicht (II) Schichtungsvariable ist bekannt (III) Anzahl L der Schichten vorgegeben (A) Aufteilungsproblem Zus¨atzliche Voraussetzung: (IV) Schichtgrenzen vorgegeben • Einfache Aufteilungen – gleichm¨aßige Aufteilung: nh = n/L, h = 1, . . . , L – proportionale Aufteilung: nh = Wh n, h = 1, . . . , L ˆ ¯ = y¯. (selbstgewichtende Stichprobe: Y.. konstante Auswahls¨atze: f = nh/Nh = n/N ) – Aufteilung nach der Auswahl: nh als Zufallsvariable, h = 1, . . . , L • Optimale Aufteilung 54 Einschub: Aufteilung nach der Auswahl Satz Wird eine einfache Zufallsstichprobe nachtr¨aglich geschichtet und ist dann n0h der (zuf¨allige) Stichprobenumfang der h-ten Schicht, h = 1, . . . , L, dann gilt 1 ˆ ¯ (a) Y.. = N L X 1 Nh 0 nh h=1 n0h X ¯ .. yhi ist ein erwartungstreuer Sch¨atzer f¨ ur Y i=1 L L X X N − n 1 2 2 ˆ ¯ ≈ (b) Var(Y..) Wh Sh + 2 (1 − Wh)Sh N n h=1 N h=1 0 nh L L 0 X X X N 1 1 1 n N − n h 2 2 2 h ˆ ˆ c (Y..) ¯..2 + ¯ = y − N Y 1 − s (c) Var hj h h n (N − 1) N h=1 n0h j=1 N 2 h=1 n0h Nh 55 Satz 2.4 Sei ein geschichtetes Auswahlverfahren unter den Voraussetzung (I) – (IV) gegeben. Sei weiterhin L X C = C0 + c h nh h=1 die f¨ ur die Untersuchung zur Verf¨ ugung stehenden Kosten. Dann gilt: √ ch W S / h h ∗ nh = n L P √ Wg Sg / cg g=1 mit L P n = (C − C0) √ Wh Sh/ ch h=1 L P Wh Sh √ ch h=1 ˆ ¯ unter der Nebenbedingung C = C0 + PL ch nh minimiert Var(Y..) h=1 Beweis: Vorlesung 56 Bemerkung (i) Sind die Konstanten in allen Schichten gleich, d.h. ch ≡ c, dann gilt L X nh = h=1 C − C0 =n c (ii) Neyman, J. (1934), Tschuprow, A.A. (1923) ⇒ optimale Aufteilung, NeymanTschuprow-Aufteilung Bemerkung 2.5 Nachteile/Probleme bei der optimalen Aufteilung • • • • Sh unbekannt ∗ nh > Nh m¨oglich ∗ nh 6∈ IN Restriktion muss exakt erf¨ ullt sein d. h. n∗h ist nur pseudo-optimale L¨ osung 57 (B) Schichtungsproblem Die Voraussetzung (IV) wird hier nicht angenommen, d. h. nur die Voraussetzungen (I) – (III). Hinzu kommen Annahmen 2.6 (i) der Wertebereich des Y -Merkmals sei [a, b] ⊆ IR (ii) die L Schichten werden durch L + 1 Stratifikationspunkte a = y0 < y1 < y2 < · · · < yL−1 < yL = b definiert ⇒ Schichtenbildungsproblem: Minimiere ˆ ¯ z(y1, . . . , yL−1) = Var(Y..) unter den Restriktionen a = y0 < y1 < y2 < · · · < yL−1 < yL = b, yh ≥ 0 L¨osungsstrategien: • Dalenius-Gleichungen • Heuristik • Methoden aus OR 58 Dalenius-Gleichungen Dalenius, T. (1950). The problem of optimum stratification. Skandinavisk Aktuarietidskrift 33, 203–213. Voraussetzungen: (I), (II), (III), Annahmen 2.6 und Definition 2.7 Sei auf der GG eine st¨ uckweise stetige Dichte f definiert. Dann definiere Z yh (a) ph = f (y) dy, h = 1, . . . , L yh−1 1 (b) µh = ph Z 1 ph Z 2 (c) σh = yh y f (y) dy, yh−1 yh 2 h = 1, . . . , L (y − µh) f (y) dy, h = 1, . . . , L yh−1 ¯h. und S 2 Definition 2.7 beinhaltet die stetigen Verallgemeinerungen von Wh, Y h Lemma 2.8 ˆ ¯ , In der stetigen Parametrisierung gem¨aß Definition 2.7 gilt f¨ ur die Varianz von Var(Y..) falls mit Zur¨ ucklegen gezogen wird, L LX 2 2 ˆ ¯ (a) Varglm(Y..) = ph σh bei gleichm¨aßiger Aufteilung n h=1 59 L 1X 2 ˆ ¯ ph σh bei proportionaler Aufteilung (b) Varprop(Y..) = n h=1 !2 L 1 X ˆ ¯ (c) Varopt(Y..) = ph σ h bei optimaler Aufteilung nach Neyman-Tschuprow n h=1 und bei konstanten Kosten in jeder Schicht. ˆ ¯ = Beweis: Wird in jeder Schicht unabh¨angig eine eZmZ gezogen, so gilt Var(Y..) L X h=1 2 1 Wh nh µ2(h) . Mit der stetigen Parametrisierung gem¨aß Definition 2.7 gilt dann ˆ ¯ = Var(Y..) L X 2 1 2 ph σh nh h=1 Einsetzen von nh = n/L (gleichm¨aßige Aufteilung, nh = ph n (proportionale Aufteilung) und nh = P n ph σh / L g=1 pg σg (Neyman-Tschuprow-Aufteilung) liefert die Beh. (a)–(c) L¨osung des Schichtenbildungsproblems durch Minimierung der Varianzen in Anh¨angigkeit von y1, . . . , yL−1 Satz 2.9 (Dalenius-Gleichungen) Das Gleichungssystem 2 2 2 2 (a) ph σh + (yh − µh) = ph+1 σh+1 + (µh+1 − yh) , h = 1, . . . , L − 1, bei gleichm¨aßiger Aufteilung 60 (b) yh − µh = µh+1 − yh, h = 1, . . . , L − 1, bei proportionaler Aufteilung 1 2 1 2 2 2 (c) σh + (yh − µh) = σh+1 + (µh+1 − yh) , h = 1, . . . , L − 1, σh σh+1 bei optimaler Aufteilung stellt eine notwendige Bedingung f¨ ur die L¨ osung des Schichtenbildungsproblems in Abh¨angigkeit von y1, . . . , yL−1 dar. Beweis: Vorlesung Bemerkungen: (i) Dalenius-Gleichungen sind nur notwendige Bedingungen, d. h. es existieren mehrere L¨osungen; sogar Sattelpunkte erf¨ ullen Satz 2.9 (ii) L¨osungen durch numerische Verfahren und Ausnutzen der Staffelungseigenschaft LS(yh−1, yh) = RS(yh, yh+1) Heuristische Schichtenbildung Hier wird keine bestimmte Aufteilungsart vorausgesetzt. • konstante Schichtung nach Aoyama (1954) yh − yh−1 = b−a ≡ const. L 61 • proportionale Schichtung nach Mahalanobis (1952) ph µh ≡ const. √ • kumulative f -Regel nach Dalenius/Hodges (1957); h¨aufig verwendete Regel, da gute Approximation zu Satz 2.9. Z q u Definiere y(u) = ⇒ w¨ahle a y1, . . . , yL−1, f (t) dt, u ≤ b, −→ H, u→b so dass y(yh) = H L Bemerkungen (i) Effizienz der Regeln h¨angt von f und der Aufteilung ab (ii) Es existiert eine Vielzahl von Regeln, vgl. Drexl (1982), Geschichtete Stichprobenverfahren. (iii) Verallgemeinerungen auf Ziehen ohne Zur¨ ucklegen sind m¨ oglich, wenn auch nur bedingt notwendig, wenn stetige Dichte vorausgesetzt. 62 §3 Mehrstufige Zufallsstichproben bisher: vollst¨andig zug¨angliche Auswahlgrundlage jetzt: direkter Zugriff auf potenzielle Untersuchungseinheiten nicht m¨ oglich, weil • keine Auswahlgrundlage existiert, • m¨ogliche Verzeichnisse zu groß oder unvollst¨andig sind • Datenschutzgr¨ unde den direkten Zugriff auf ein bestehendes Verzeichnis verwehren ⇒ stufenweise Erhebung der Untersuchungseinheiten Vorteil der Stufenbildung: • allgemein im organisatorischen und wirtschaftlichen Bereich • Auswahlgrundlage ist immer nur f¨ ur jede Stufe einzeln zu beschaffen 63 Beispiel 3.1 Musterstichprobenpl¨ane des Arbeitskreises Deutscher Markt- und Sozialforschungsinstitute e.V. von Sch¨afer (1979) Bev¨ olkerungsstichproben 1. Stufe: Verzeichnisse der Stimmbezirke der Bundestagswahl, z. B. u ¨ber den Bundeswahlleiter Nur f¨ ur die ausgew¨ahlten Stimmbezirke: 2. Stufe: Liste der Haushalte ermitteln Nur f¨ ur die ausgew¨ahlten Haushalte: 3. Stufe: ”Liste” aller potenziellen Zielpersonen ermitteln Bemerkung 3.2 Vorteile des Musterstichprobenplans • • • • Erleichterung der Erhebungsorganisation Gew¨ahrleistung des Datenschutzes B¨ undelung der Feldarbeit Ersparnis von Wegzeiten und Kosten Nachteil: • Assoziation der ausgew¨ahlten Einheiten untereinander 64 Einstufige Zufallsauswahl Definition 3.3 (a) Zerlegt man eine Grundgesamtheit in K disjunkte Teilmengen vom Umfang Mi, P i = 1, . . . , K , mit ahlt man aus diesen Mengen k zuf¨allig aus, i Mi = N und w¨ so heißen die Teilmengen Klumpen und das Auswahlverfahren Klumpenauswahl. (b) Gehen alle ausgew¨ahlten Einheiten in die Untersuchung ein, so bezeichnet man das Verfahren als einstufig. (c) Wird das Prinzip aus (a) in den ausgew¨ahlten Klumpen wiederholt, so heißt das Verfahren mehrstufig. Notation 3.4 Bei einer einstufigen Klumpenauswahl sei Yij Yi . = Y¯i. = Y¯ = PMi j=1 Yij i-te Klumpensumme 1 Mi Yi . PK 1 i=1 K Y¯ .. = SY2 = 1 N Durchschnitt im i-ten Klumpen Yi . PK PMi j=1 Yij PK PMi 1 i=1 j=1 Yij N −1 Merkmalswert der j -ten Einheit im i-ten Klumpen, j = 1, . . . , Mi, i = 1, . . . , K durchschnittliche Klumpensumme Merkmalsdurchschnitt i=1 − Y¯ .. 2 Merkmalsvarianz 65 Satz 3.5 (Spezialfall Mi = M , i = 1, . . . , K ) Werden bei einstufiger Klumpenauswahl aus K Klumpen der Gr¨ oße M k Klumpen durch eine einfache Zufallsstichprobe gezogen, dann gilt k 1 X ˆ ¯ .. ¯ Yi. ist ein erwartungstreuer Sch¨atzer f¨ ur Y (a) Y.. = M k i=1 K X 1 k 1 1 k 2 ˆ ¯ ¯ )2 = (b) Var Y.. = 1 − (Y . − Y 1 − S i C M2 k K K − 1 i=1 M2 k K Beweis: ˆ ¯ = E(Y..) k k K K 1 X 1 XX 1 1 1 X E(Yi. ) = Yj. = k Yj. = Y¯ .. M k M k K M K k i=1 i=1 j=1 j=1 X k K 1 1 1 1 k 1 X eZoZ 2 ˆ ¯ Var Var(Y..) = Yi. = 1− (Yi − Y¯ ) 2 2 M k M k K K−1 i=1 i=1 Definition 3.6 Die Gr¨oße ρW K X M X M X 1 (Yij − Y¯ ..)(Yij 0 − Y¯ ..) = 2 (M − 1) (N − 1) SY i=1 j=1 0 j =1 j6=j 0 heißt Intraklasskorrelationskoeffizient. 66 Bemerkung 3.7 Die Gr¨oße ρW aus Definition 3.6 ist ein Maß f¨ ur den Zusammenhang zwischen den Merkmalswerten innerhalb eines Klumpens und es gilt 1 ≤ ρW ≤ 1 − M −1 Lemma 3.8 F¨ ur die Varianz aus Satz 3.5(b) gilt ˆ ¯ Var Y.. ≈ Var(¯ y .) (1 + (M − 1) ρW ) , wobei Var(¯ y .) die Varianz der Mittelwertsch¨atzung bei einfacher Zufallsstichprobe ist. Beweis: Betrachte die Varianzzerlegung K K X M X M X X 2 2 (Yi. − Y¯ ) = (N − 1)SY + (Yij − Y¯ ..)(Yij 0 − Y¯ ..) i=1 i=1 j=1 j 0 =1 j6=j 0 67 Dann gilt ˆ ¯ Var Y.. = = ≈ i k 1 h 1 2 2 (N − 1) SY + (M − 1)(N − 1)SY ρw 1− M2 k K K−1 1 M k M K−1 2 1− S (1 + (M − 1)ρw ) M k M K M K−M Y M k 1 2 1− SY (1 + (M − 1)ρw ) = Var(¯ y .) (1 + (M − 1)ρw ) M k M K Definition 3.9 Bei einer einstufigen Klumpenauswahl heißt die Gr¨ oße (1 + (M − 1) ρW ) Designeffekt. 68 Bemerkung 3.10 Der Designeffekt aus Definition 3.9 wird h¨aufig auch als Varianzaufbl¨ ahungsfaktor bezeichnet, da der Intraklasskorrelationskoeffizient in der Regel gr¨ oßer als Null ist. ρW kann als Hilfe zur Entscheidung zwischen einfacher Zufallsauswahl und Klumpenauswahl benutzt werden: <0 ρw =0 >0 , Klumpenverfahren genauer , beide Auswahlverfahren gleich , einfache Zufallsstichprobe genauer Satz 3.11 Zieht man aus K Klumpen unterschiedlicher Gr¨ oße k Klumpen mittels einfacher Zufallsstichprobe, so gilt k K X ˆ ¯ .. ¯ Yi. ist ein erwartungstreuer Sch¨atzer f¨ ur Y (a) (i) Y..(a) = N k i=1 K 2 X 2 1 k 1 K ˆ ¯ ¯ (a) = 1 − Y . − Y (ii) Var Y.. i N2 k K K − 1 i=1 k ˆ ¯ (b) (b) (i) Y.. k 1X¯ 1X 1 ¯ .. = Yi. ist ein verzerrter Sch¨atzer f¨ ur Y Yi . = k i=1 k i=1 Mi 69 1 ˆ ¯ (ii) Var Y..(b) = k ˆ ¯ (c) (i) Y.. (c) = Pk k X 1 i=1 1− Mi k K 1 K−1 K X i=1 Y¯i. − 1 K K X 2 Y¯j . j=1 ¯ .. Yi. ist ein verzerrter Sch¨atzer f¨ ur Y i=1 K 2 X 2 K 1 k 1 2 ¯ ˆ ¯ (c) ≈ ¯ (ii) Var Y.. M Y . − Y .. 1 − i N2 k K K − 1 i=1 i Bemerkung 3.12 F¨ ur die Sch¨atzer aus Satz 3.11 gilt ˆ ˆ ˆ ¯ ¯ ¯ Var Y..(a) > Var Y..(c) > Var Y..(b) und f¨ ur die Verzerrungen ˆ ˆ ˆ ¯ (a) < B Y.. ¯ (c) < B Y.. ¯ (b) 0 = B Y.. 70 §4 Zweiphasige Auswahl Engl.: Two-phase sampling, Double sampling Auswahlprinzip Grundgesamtheit l Merkmalswerte U1 , l (X1, Y1), U2 , l (X2, Y2), . . ., . . ., UN l (XN , YN ) 1. Phase: Auswahl vom Umfang n0 (aus N ) Stichprobe von x-Werten: x01, x02, . . . , x0n0 2. Phase: Auswahl vom Umfang n (aus n0) Stichprobe von x und y -Werten: (x1, y1), (x2, y2), . . . , (xn, yn) Beispiel: Mikrozensus (N ≈ 83000000) 1. Phase: n0 ≈ 830000 Standardbefragung 2. Phase: n ≈ 83000 interessierende Zusatzbefragung, z. B. Daten zum Gesundheitswesen !!! Dies hat NICHTS mit einer zweistufigen Auswahl zu tun !!! 71 ¯ . unter ”optimaler” Ausnutzung der Zusatzinformation X , Ziel ist die Sch¨atzung von Y die nicht a-priori bekannt ist (im Gegensatz zur pps-Auswahl). Dazu verwendet man verschiedene Prinzipien. Da zwei Auswahlen betrachtet werden, m¨ ussen auch zwei Erwartungswerte bzw. Varianzen betrachtet werden. Bezeichnungen: E1 / Var1: Erwartungswert und Varianz der 1. Phase E2 / Var2: Erwartungswert und Varianz der 2. Phase gegeben die Ergebnisse der 1. Phase F¨ ur diese bedingten Momente gilt: Lemma 4.1 F¨ ur bedingte Erwartungswerte und Varianzen in zwei Phasen und eine Zufallsvariable z gilt (i) E(z) = E1 E2(z) (ii) Var(z) = E1 Var2(z) + Var1 E2(z) Auswertung bei verschiedenen Subauswahlen • Differenzensch¨atzung Satz 4.2 In dem oben geschilderten Auswahlverfahren mit eZoZ vom Umfang n0 aus N in der 1. Phase und eZoZ vom Umfang n aus n0 in der 2. Phase gilt: 72 0 ˆ = (¯ ¯ ¯. y. − x ¯.) + x ¯ . ist erwartungstreu f¨ ur Y (i) Y. 1 1 1 1 2 ˆ ¯) = (ii) Var(Y − SY − − 0 SX (2ρSY − SX ) n N n n Beweis: Vorlesung Folgerung 4.3 F¨ ur die Varianz aus Satz 4.2 (ii) gilt ˆ c (Y.) ¯ = Var mit 1 1 − n0 N 2 sy + 1 1 − 0 n n 2 sd n 2 1 X 2 sd = (yi − xi) − (¯ y. − x ¯.) n − 1 i=1 ˆ ¯ ist ein erwartungstreuer Sch¨atzer f¨ ur Var(Y.) ¨ Beweis: UA 73 Fasst man die zwei Phasen als unabh¨angige Verfahren auf (z. B. bei Kombination von Untersuchungen: Werte x0i aus 1. Untersuchung, Werte xi aus 2. Untersuchung, d. h. xi nicht notwendigerweise in 1. Untersuchung enthalten.), so gilt: Folgerung 4.4 Bei unabh¨angigen Auswahlen in der 1. und 2. Phase gilt 0 ˆ ¯ = E (¯ (i) E(Y.) y. − x ¯.) + x ¯ . = Y¯ . 1 1 1 1 2 2 2 ˆ ¯ = − (SY + SX − 2 ρ SX SY ) + − S (ii) Var(Y.) X n N n0 N ˆ ˆ c (Y.) ¯ = 1 − 1 s2 + 1 − 1 s2 0 ist erwartungstreu f¨ ¯ , (iii) Var u r Var ( Y.) d x 0 n N n N n0 X 1 0 0 2 2 (xi − x ¯ .) wobei sx0 = 0 n − 1 i=1 Die Folgerung ist sehr wichtig, wenn Untersuchungsergebnisse zusammengefasst werden. Auswahlphase ←→ Untersuchung ←→ Varianzanteil ←→ Varianzkomponente ←→ Lineares Modell 74 • pps-Sch¨atzung Satz 4.5 Falls die 1. Phase durch eZoZ und die 2. Phase durch pps-Auswahl (mit Zur¨ ucklegen) nach x0 gewonnen wird, dann gilt n 0 X x . yi 1 ˆ = ¯. ¯ ist erwartungstreu f¨ ur Y (i) Y. 0 n n i=1 xi 1 n0 − 1 1 0 2 V + (N − n ) S , Y N (N − 1) n n0 N n0 2 N X Xi Yi − Y. wobei V = X. X /X. i i=1 !2 n n 0 2 X y2 (x. ) 1 X yi 1 i ˆ c ¯ (iii) Var(Y.) = 02 − 2 n n(n − 1) i=1 xi n i=1 xi !2 n 2 n 2 2 0 0 2 Xy X yi Xy (N − n (x.) 1 0 i i + x. − − 2 0 0 0 N n n (n − 1) i=1 xi n n−1 x x i i i=1 i=1 ˆ ¯ = (ii) Var(Y.) ˆ ¯ ist ein unverzerrter Sch¨atzer f¨ ur Var(Y.) Beweis: analog zu Satz 4.2 unter Ausnutzung der Ergebnisse von Satz 1.37 und Folgerung 1.38 f¨ ur die pps-Auswahl 75 Bei Kombination von unabh¨angigen Untersuchungen gilt analog zu Folgerung 4.4: Folgerung 4.6 Falls die 1. Phase mit eZoZ und die 2. Phase unabh¨angig mit pps (nach dem LahiriVerfahren) ausgew¨ahlt wird, gilt ! 0 n X 1 yi ˆ ¯. ¯ = x. ist erwartungstreu f¨ ur Y (i) Y. 0 n n i=1 xi " 2 2# ˆ ¯ = 1 − 1 Y . S 2 + 1 V 1 + 1 − 1 SX (ii) Var(Y.) ¯.2 n0 N X.2 X n n0 N X # 2 " 0 2 n 0 X (x.) 1 y¯. n yi 2 ˆ c (Y.) ¯ = (iii) Var − − 1 − s x n(n − 1)n0 i=1 xi x ¯. n0 N !2 n 1 X yi 1 1 2 + − s x n i=1 xi n0 N ¯ .) ist erwartungstreu f¨ ur Var(Y 76 • Verh¨altnissch¨atzung Diese Prinzipien k¨onnen auch auf Verh¨altnissch¨atzer u ¨bertragen werden. Es gilt: Satz 4.7 Bei eZoZ in 1. und 2. Phase gilt 0 y ¯ . y¯. 0 x ¯. = Y¯ . − E1 Cov ,x ¯ . x ¯. (i) E x ¯. x ¯. ! 2 ¯ ¯ y¯. 0 Y. 1 1 Y. 2 2 (ii) MSE SY − 2 ¯ ρ SX SY + ¯ 2 SX x ¯. ≈ − x ¯. n N X. X. ¯2 2 1 Y. 2 1 1 1 1 1 2 SX − − − SY ¯ 2 + SX + 0 0 2 ¯ n N X. n N n N X. ¯. dann durch ppas-Auswahl Bemerkung: erwartungstreue Sch¨atzung von Y Prinzipiell kann jede Auswahl so ber¨ ucksichtigt werden. (Ist aber nicht immer einfach!) Zweiphasige Auswahl kann auch genutzt werden, um mit der Information der 1. Phase u ¨ber die X -Werte Schichten f¨ ur die 2. Phase zu bilden, siehe Cochran (1977). 77 ———————————————————————————————————— EINSCHUB: Zusammenfassung der Auswahlverfahren Skizze in Vorlesung Beispiel: Muster-Stichprobenpl¨ane des Arbeitskreises Deutscher Marktforschungsinstitute Drei–stufige Klumpenauswahl 1. Stufe: Auswahl von Stimmbezirken • Schichten durch Anordnung (Ordnungskriterium: Bundesl¨ander, Regierungsbezirke, Ortsgr¨oßenklassen nach Boustedt) • pps-Auswahl nach Einwohnerzahl • systematische Auswahl (Kumulationsverfahren nach Mahalanobis) 2. Stufe: Auswahl von Haushalten • einfache Zufallsauswahl • Random-Route 3. Stufe: Auswahl von Haushalten • einfache Zufallsauswahl • Schwedenschl¨ ussel =⇒ ca. sechs Auswahlstrategien werden benutzt =⇒ Sch¨atzer und Varianzen?? 78 §5 Capture-Recapture-Verfahren Problem: N ist unbekannt Beispiele: • Tierpopulation • Marktforschung, z. B. Kunden/K¨aufer eines Produkts Idee: 1. Schritt: definiere eine (auch r¨aumlich begrenzte) Population 2. Schritt Pr¨ ufung, ob • offene Population – Immigration (Einwanderung) – Emigration (Auswanderung) – Recruitment (Erneuerung) – Sterblichkeit • geschlossene Population 79 3. Schritt (i) Ziehen einer Stichprobe (Capture) (ii) Markierung der Individuen (Mark) (iii) Zur¨ ucklegen in die GG (Release) 4. Schritt (i) Ziehen einer Stichprobe (Recapture) (ii) Pr¨ ufen der Markierungen Voraussetzung: Zwischen Schritt 3 und 4 findet ein vollst¨andiges Durchmischen der GG statt Erweiterung: • Einfache Durchf¨ uhrung von Schritt 3 und 4 (Single-Mark-Release) • Mehrfache Durchf¨ uhrung von Schritt 3 und 4 (Multiple-Marking) 80 • Single-Mark-Release bei geschlossenen Populationen Annahmen 5.1 (i) (ii) (iii) (iv) N konstant In der Capture-Stichprobe gelte πi = const., i = 1, . . . , N . Die Recapture-Stichprobe sei eZoZ. Der Verlust der Markierung ist unm¨ oglich. Definition 5.2 Beim Capture-Recapture-Verfahren unter Annahmen 5.1 sei M Umfang der Capture-Stichprobe (= ˆ Anzahl der Markierungen) n Umfang der Recapture-Stichprobe m Anzahl der markierten Individuen in der Recapture-Stichprobe Dann heißt ˆ =M n N m der Petersen- oder Lincoln-Sch¨ atzer (Lincoln-Index) f¨ ur N . Bemerkung: m ∼ Hyp M N, n, N ˆ entsteht durch Bemerkung: Der Sch¨atzer N Markierte m M = = ˆ ˆ −M Unmarkierte n−m N 81 Geht man von einem Binomial-Modell aus, so gilt Satz 5.3 ˆ ML-Sch¨atzer f¨ Ist m ∼ Bin(n, P ) mit P = M/N , dann ist N ur N . Beweis: Mit n M k M n−k 1− P (m = k) = N N k folgt n ln P (m = k) = ln + k (ln M − ln N ) + (n − k) (ln(N − M ) − ln N ) k d 1 1 1 ! ⇒ ln P (m = k) = k − + (n − k) − =0 dN N N −M N m n−m n−m n−m n k=m ˆ = nM ⇒ − + − =0⇔ = ⇔ N n − N M = N n − nM ⇒ N N N −M N N −M N m 2 3 d m ln P (m = k) = · · · = − <0 ˆ N =N dN 2 M 2 n(n − m) Bemerkung: (i) ML-Theorie =⇒ asymptotische Normalit¨at, Fisher-Information, Varianzsch¨atzung ˆ verzerrt =⇒ Bailey-Sch¨atzer (ii) da N 2 M (n + 1) M (n + 1)(n − m) c (N ˆ1 = ˆ1) < Bias(N ˆ ) und Var ˆ1 ) = N mit Bias(N m+1 (m + 1)2 (m + 2) ˆ u Begr¨ undung des Petersen-Sch¨atzer N ¨ber unvollst¨andige Vier-Felder-Tafel: 82 Sei xij die Anzahl der anwesenden Individuen in der ersten und/oder zweiten Stichprobe, d. h. 2. Stichprobe 1. Stichprobe gefangen nicht gef. gefangen x11 = m x12 x1 . = M nicht gef. x21 ? x.1 = n N Herleitung: Die Stichproben sind unabh¨angig mit E(xij ) = mij , dann gilt m11 m22 m ˆ 12 m ˆ 21 x12 x21 = 1 (Odds Ratio gleich eins) und m ˆ 22 = = m21 m12 m ˆ 11 x11 ˆ ⇒N = = = x12 x21 x11 i 1 2 1 h x11 + x21 x11 + x12 x11 + x12 x21 = (x11 + x12 )(x11 + x21 ) x11 x11 x11 + x21 + x12 + m ˆ 22 = x11 + x21 + x12 + x1. x.1 M n = x11 m 83 Bemerkung: (i) Ein Sch¨atzer f¨ ur die Varianz des Petersen-Sch¨atzers ist gegeben durch c (N ˆ ) = M n (M − m) (n − m) Var m3 =⇒ Konfidenzintervall mit Quantil der Standardnormalverteilung (ii) Die Anzahl der markierten Tiere in der zweiten Stichprobe kann null sein; weiterer modifizierter Sch¨atzer von Chapman: ˜ = (M + 1) (n + 1) − 1 N m+1 mit approximativ unverzerrtem Varianzsch¨atzer c (N ˜ ) = (M + 1) (n + 1) (M − m) (n − m) Var (m + 1)2 (m + 2) 84 • Multiples Marking bei geschlossenen Populationen (Schnabel-Census) Notation 5.4: (i) betrachte Folge von s Stichproben (ii) ni, i = 1, . . . , s Umfang der i-ten Stichprobe (iii) mi, i = 1, . . . , s Anzahl Markierter in i-ter Stichprobe (iv) ui = ni − mi Pi−1 (v) Mi = j=1 uj Gesamtzahl Markierter in der Population vor Stichprobe i, i = 1, . . . , s + 1 =⇒ M1 = 0, M2 = n1 − m1 (vi) r = Ms+1 Gesamtanzahl Markierter nach dem Experiment (vii) w ⊆ {1, . . . , s} Fanggeschichte (viii) aw Anzahl der Tiere mit Fanggeschichte w =⇒ r = P aw (ix) Pw Wahrscheinlichkeit, dass ein Individuum die Fanggeschichte w hat !N −r X Y a N! 1− Pk Pk k P (aw = ak ) = Q k ak !(N − r)! k k Multinomialverteilung u ¨ber die Fanggeschichten w unter der Voraussetzung, dass alle Individuen unabh¨angig agieren. w Beispiel: s=3, # Fanggeschichten = 23: (0, 0, 0), (1, 0, 0), (1, 1, 0), (1, 0, 1), (0, 1, 0), (0, 1, 1), (0, 0, 1), (1, 1, 1) 85 Satz 5.5 Im Multiple-Marking-Modell wird der ML-Sch¨atzer bestimmt als L¨ osung von r 1− N = s Y i=1 ni 1− N Beweis: betrachte Likelihood obiger Multinomialverteilung Bemerkung: ˆ Petersen-Sch¨atzer, denn • s = 2 =⇒ N s=2 ⇒ ⇒ ⇒ n1 n2 N −r 1 r = 1− 1− ⇒ = 2 (N − n1 )(N − n2 ) 1− N N N N N 2 2 N − N r = N − N n1 − N n2 + n1 n2 n1 n2 M n M n N = = = n1 + n2 − r M + n − (M + n − m) m • s ≥ 3 =⇒ iterieren; Nullstellen eines Polynoms vom Grade s − 1 • Aber: ML-Theorie kann angewendet werden 86 Satz 5.6 ˆ aus Satz 5.5 Im Multiple-Marking Modell gilt f¨ ur den ML-Sch¨atzer N ! ! s s X X 2 2 s−1 s−1 ˆ − ni ˆ − ni − N + N 2 ˆ ˆ N N i=1 i=1 ˆ (i) b = ! 2 s X 1 s−1 1 2 + − ˆ −r ˆ ˆ − ni N N N i=1 ˆ. ist ein Sch¨atzer f¨ ur die Verzerrung von N ˆ ergibt sich aus (ii) Die asymptotische Varianz von N !−1 s X s−1 1 1 ˆ) ≈ + − Var(N ˆ −r ˆ ˆ N N i=1 N − ni Bemerkung: Allgemeine Absch¨atzung nach Chapman (1952) ni Mi n M i i ˆ ≤ max max r, min ≤N i=2,...,s mi mi =⇒ gute Einschr¨ankung f¨ ur Startwerte eines iterativen Verfahrens 87 Bemerkungen zu offenen Populationen: Das Vorliegen der vier Prozesse: • • • • Einwanderung % Auswanderung & Geburt % Tod & ˆ . Es m¨ ”st¨ort” die Bestimmung von N ussen zus¨atzliche Parameter benutzt werden. ϕ νi ... Wahrscheinlichkeit von Stichprobe i nach (i + 1) zu u ¨berleben Wahrscheinlichkeit, dass ein in Stichprobe i gezogenes Tier in die Population zur¨ uckkehrt ˆi ist eine Zeitreihe) =⇒ Folge von (bedingten) Sch¨atzern im Multinomialmodell (d. h. N 88 §6 Netzwerk- oder Multiplizit¨ atsstichproben (engl. Network-Sampling, Multiplicity-Sampling) Beispiel 6.1 (Pr¨avalenz einer seltenen Krankheit) (a) Multiplizit¨ at Betrachte eine Zufallsstichprobe von Krankenh¨ausern. Die Akten der Krankenh¨auser der Zufallsstichprobe enthalten die Daten der erkrankten Personen. Beachte, dass ein Patient in mehreren Krankenh¨ausern behandelt worden sein kann. Je h¨aufiger ein Patient in verschiedenen Krankenh¨ausern behandelt worden ist, desto gr¨ oßer ist die Wahrscheinlichkeit, dass die Krankenakte des Patienten in die Stichprobe gelangt. (b) Netzwerk Betrachte eine Stichprobe von Haushalten. Alle Bewohner des Haushaltes werden nach der Krankheit befragt. Außerdem wird jeder Bewohner gefragt, ob seine/ihre Geschwister an der Krankheit leiden. Eine Person mit mehrerer Geschwistern in verschiedenen Haushalten hat somit eine h¨ ohere Wahrscheinlichkeit als eine Person ohne Geschwister in einem Single-Haushalt in die Stichprobe zu gelangen. Beachte, dass selbst Bewohner eines gemeinsamen Haushalts unterschiedliche Wahrscheinlichkeiten haben k¨onnen, um in die Stichprobe zu gelangen. Unter einem Netzwerk verstehen wir die Menge aller Untersuchungseinheiten, die die gleiche Verbindungsstruktur (linkage configuration) aufweisen. 89 Voraussetzungen 6.2 • Sei Yi der Merkmalswert der i-ten Untersuchungseinheit. Das Merkmal kann eine Indikatorvariable sein, Yi = 1, falls die Krankheit vorliegt, Yi = 0 sonst, oder z.B. die Behandlungskosten. • Sei N die Anzahl der Untersuchungseinheiten in der Population. N P • Sei Y. = Yi die interessierende Populationssumme. i=1 • Sei M die Anzahl der Auswahleinheiten (Krankenh¨auser, Haushalte). • Sei mi die Anzahl, wie oft die i-te Untersuchungseinheit mit den Auswahleinheiten verbunden ist. • Es werden n Auswahleinheiten mittels eZoZ gezogen und alle Untersuchungseinheiten, die mit den gezogenen Auswahleinheiten verbunden sind, gelangen in die Stichprobe. • Die Auswahlwahrscheinlichkeit f¨ ur die i-te Untersuchungseinheit ist pi = mi/M ; das ist die Wahrscheinlichkeit, dass mindestens eine Auswahleinheit, die mit der Untersuchungseinheit verbunden ist, gezogen wird. 90 Satz 6.3 (Multiplicity estimator) (a) Ein unverzerrter Sch¨atzer f¨ ur Y. ist gegeben durch M X Yi ˆ Y. = , n i∈S mi wobei S die Menge der Untersuchungseinheiten in der Stichprobe bezeichnet. (b) Sei X Yi wj = mi i∈A j mit Aj der Menge der Untersuchungseinheiten in der j -ten Auswahleinheit, dann l¨asst sich der Sch¨atzer aus (a) auch darstellen als n X M wj , Yˆ. = n j=1 (c) Die Varianz des multiplicity estimator ist gegeben durch M X M (M − n) 1 ˆ Var(Y.) = n M − 1 j=1 Y. wj − M 2 91 ˆ.) ist gegeben durch (d) Ein unverzerrter Sch¨atzer f¨ ur Var(Y c (Yˆ.) = M (M − n) s2 , Var w n wobei n 2 sw 1 X 2 (yi − w) ¯ , = n − 1 j=1 n 1X w ¯= wj . n j=1 Beweis: siehe Vorlesung Bemerkung 6.4 (a) Unter einem Netzwerk verstehen wir die Menge aller Untersuchungseinheiten, die die gleiche Verbindungsstruktur (linkage configuration) aufweisen. Ein Netzwerk kann somit mit mehreren Auswahleinheiten verbunden sein (Geschwister in verschiedenen Haushalten) und eine Auswahleinheit kann mit mehreren Netzwerken (Nicht-Geschwister im selben Haushalt) verbunden sein. (b) Zerlege die Population in K Netzwerke. Sei Yk∗ die Summe der YWerte der Untersuchungseinheiten im k-ten Netzwerk und m∗k die gemeinsame Vielfachheit jeder Untersuchungseinheit innerhalb des Netzwerks, k = 1, . . . , K . Dann haben alle Untersuchungseinheiten innerhalb eines Netzwerks die gleiche Auswahlwahrscheinlichkeit in die Stichprobe zu gelangen. Diese Auswahlwahrscheinlichkeit ist gleich der Auswahlwahrscheinlichkeit f¨ ur das k-te Netzwerk. 92 (c) Die Auswahlwahrscheinlichkeit f¨ ur das k-te Netzwerk ist , M − m∗ M k . πk = 1 − n n (d) Sei m∗jk die Anzahl der Auswahleinheiten, die mit beiden Netzwerken j und k verbunden sind. Dann ist die Wahrscheinlichkeit, dass die beiden Netzwerke gemeinsam in die Stichprobe gelangen, gegeben durch , M − m∗ − m∗ + m∗ M j k jk πjk = πj + πk − 1 + . n n 93 Satz 6.5 (Horvitz-Thompson-Netzwerk-Sch¨atzer) (a) Der Horvitz-Thompson Sch¨atzer f¨ ur Y. ist gegeben durch κ ∗ X y k , Yˆ . = π k i=1 wobei κ die Anzahl der verschiedenen Netzwerke der Untersuchungseinheiten in der Stichprobe bezeichne. (b) Die Varianz des Horvitz-Thompson-Sch¨atzers ist gegeben durch ˆ .) = Var(Y K X 1 − πk k=1 πk ∗ 2 (yk ) + K X X πk` − πk π` k=1 `6=k πk πl ∗ ∗ yk y` (c) Ein erwartungstreuer Sch¨atzer f¨ ur die Varianz ist gegeben durch c (Yˆ .) = Var κ X k=1 1 1 − πk2 πk ! κ X X 1 1 ∗ 2 ∗ ∗ (yk ) + − yk y` π k π` πk` k=1 `6=k 94 Beispiel 6.6 (Pr¨avalenz einer seltenen Krankheit in einer Stadt) Aus M = 5000 Haushalten einer Stadt werden n = 100 Haushalte mittels eZoZ ausgew¨ahlt und alle Erwachsenen in den ausgew¨ahlten Haushalten berichten u ¨ber sich und u ¨ber alle Geschwister, die in der Stadt leben, ob sie an der Krankheit leiden. Die Ergebnisse der Untersuchung lassen sich wie folgt zusammenfassen: • Im Stichprobenhaushalt 1 leben zwei Erwachsene, ein Mann und eine Frau. – Der Mann hat einen Bruder, der in einem anderen Haushalt in der Stadt lebt. Der Mann hat die Krankheit nicht (y1 = 0), aber der Bruder hat sie (y2 = 1). Zusammen bilden die beiden ein Netzwerk (Netzwerk 1) mit Vielfachheit m∗1 = 2. – Die Frau hat die Krankheit (y3 = 1) und zwei Geschwister leben in unterschiedlichen Haushalten in der Stadt, der Bruder mit der Krankheit (y4 = 1) und die Schwester ohne (y5 = 0). Diese drei Geschwister bilden ein Netzwerk (Netzwerk 2) mit m∗2 = 3. • Der Haushalt der Schwester der Frau aus Haushalt 1 ist auch in die Stichprobe gekommen (Haushalt 2). – Das Netzwerk 2 der drei Geschwister ist doppelt ausgew¨ahlt und befragt worden. – Der Ehemann in Haushalt 2 hat die Krankheit nicht (y6 = 0). Da keine Geschwister von ihm in der Stadt leben, bildet er alleine ein Netzwerk (Netzwerk 3) mit m∗3 = 1. • Im Haushalt 3 lebt nur ein Erwachsener mit (y7 = 1). Keine Geschwister von ihm leben in der Stadt. Er bildet alleine ein Netzwerk (Netzwerk 4) mit m∗4 = 1. • In anderen 97 ausgew¨ahlten Haushalten hat keiner der Bewohner die Krankheit. Auch deren Geschwister haben die Krankheit nicht. Alle y -Werte sind somit 0. 95 Bemerkung 6.7 (a) Wenn die Auswahleinheiten der Population in Schichten aufgeteilt werden, kann das Problem auftreten, dass Untersuchungseinheiten mit Auswahleinheiten verbunden sind, die zu verschiedenen Schichten geh¨ oren. Dann sind die Beobachtungen zwischen den Schichten nicht wie bei der gew¨ ohnlichen geschichteten Auswahl unabh¨angig. (b) Seien die M Auswahleinheiten in L disjunkte Schichten aufgeteilt. Seien Mh Auswahleinheiten in Schicht h und in jeder Schicht wird eine eZoZ vom Umfang nh gezogen, h = 1, . . . , L. Sei Ahj die Menge der Untersuchungseinheiten, die mit der j -ten Auswahleinheit in Schicht h verbunden sind. F¨ ur die i-te Untersuchungseinheit sei mi die Anzahl der Auswahleinheiten, die mit der Untersuchungseinheit verbunden sind. F¨ ur die j -te Auswahleinheit in Schicht h definiere die neue interessierende Variable P whj durch whj = i∈Aj Yi /mi . Definiere das Stichprobenmittel der w -Variablen in Pnh Schicht h als w ¯h = (1/nh) j=1 whj . Der geschichtete unverzerrte multiplicity Sch¨atzer f¨ ur Y. lautet dann Yˆ . = L X Mhw ¯h. h=1 ˆ . unverzerrt f¨ (c) Beachte, dass Y ur Y. ist; aber Mhw ¯h ist im Allgemeinen nicht unverzerrt f¨ ur die entsprechende Schichtsumme. 96 §7 Nachweisbarkeit und Stichprobenverfahren (engl. Detectability and Sampling) In den bisherigen Verfahren ist (weitestgehend) davon ausgegangen worden, dass das interessierende Merkmal fehlerfrei f¨ ur jede Untersuchungseinheit in der Stichprobe erfasst werden konnte. In manchen Situationen ist dies jedoch kaum der Fall. Beispiele: (a) Bei Z¨ahlungen h¨aufiger Vogelarten ist es unwahrscheinlich, dass alle V¨ ogel in einem Gebiet (plot) entdeckt werden. (b) In Erhebungen aus der Luft zur Z¨ahlung großer S¨augetiere k¨ onnen einige Tiere unsichtbar bleiben. (c) Bei der Bestimmung von Mineralien, z.B. Diamanten, in Erd- oder Erzstichproben k¨onnen einige Objekte u ¨bersehen werden. Bemerkung 7.1: (Konstante Nachweisbarkeit in einer Region) Angenommen die Nachweisbarkeit f¨ ur eine gewisse Tierart in einer Region sei gegeben durch eine konstante Wahrscheinlichkeit p. Sei y die Anzahl der beobachteten Tiere in der Region und sei die tats¨achliche Anzahl (Populationsgr¨ oße) Y . Die Entdeckungswahrscheinlichkeit f¨ ur ein Tier in der Region sei p. Unter der Annahme, dass die Tiere unabh¨angig voneinander entdeckt werden, ist y binomial verteilt mit Parametern Y und p. 97 Falls die Entdeckungswahrscheinlichkeit p bekannt ist, dann ist ein unverzerrter Sch¨atzer f¨ ur Y gegeben durch y ˆ ) = Y 1 − p. mit Var(Y Yˆ = p p Ein unverzerrter Sch¨atzer f¨ ur die Varianz ist gegeben durch c (Yˆ ) = y 1 − p . Var p2 Bemerkung 7.2 (Sch¨atzung der Nachweisbarkeit, Entdeckungswahrscheinlichkeit) Die Entdeckungswahrscheinlichkeit p ist in der Regel unbekannt und muss gesch¨atzt werden, siehe Beispiel Verh¨ altnissch¨ atzung mit zweiphasiger Auswahl. Um p zu sch¨atzen, k¨ onnen Methoden der zweiphasigen Auswahl oder Capture-Recapture Methoden angewendet werden. Diese Methoden liefern auch immer eine Sch¨atzung f¨ ur die Varianz der gesch¨atzten Nachweisbarkeit. Satz 7.3 (Effekt der gesch¨atzten Nachweisbarkeit) Sei pˆ ein (approximativ) unverzerrter Sch¨atzer f¨ ur die Nachweisbarkeit p, und pˆ sei nicht mit y , der Anzahl der beobachteten Tiere, korreliert. Dann ist ein approximativ unverzerrter Sch¨atzer f¨ ur die Populationsgr¨ oße Y gegeben durch 2 1 − p Y y ˆ) ≈ Y mit Var(Y + 2 Var(p) ˆ Yˆ = pˆ p p Beweis: Anwendung des Fehlerfortpflanzungsgesetzes, siehe Vorlesung. 98 Satz 7.4 (Nachweisbarkeit und eZoZ) Betrachte eine eZoZ von n Untersuchungseinheiten aus einer Grundgesamtheit von N Einheiten. Sei Yi die tats¨achliche Anzahl der Tiere in der i-ten Untersuchungseinheit und PN yi die Anzahl der beobachteten Tiere. Die Populationsgr¨oße ist somit Y. = i=1 Yi . Die Entdeckungen in den einzelnen Untersuchungseinheiten seien unabh¨angig. F¨ ur eine feste Untersuchungseinheit i in der Stichprobe ist yi binomial verteilt mit Parameter Yi und p, der konstanten bekannten Entdeckungswahrscheinlichkeit. (a) Ein unverzerrter Sch¨atzer f¨ ur die Populationsgr¨ oße ist gegeben durch n N N1X ˆ Y. = yi. y¯. = p p n i=1 ˆ . ist gegeben durch (b) Die Varianz von Y ˆ .) = N 2 Var(Y 1 n n 1− N 2 SY + 1−p p Y. . Nn ˆ . ist gegeben durch (c) Ein erwartungstreuer Sch¨atzer f¨ ur die Varianz von Y 2 N 1 n 1 − p 2 c (Yˆ .) = 1 − s y¯. . Var y + p2 n N N Beweis: siehe Vorlesung 99 Satz 7.5 (Gesch¨atzte Nachweisbarkeit und eZoZ) Gegeben die Voraussetzungen von Satz 7.4. Jedoch sei die Entdeckungswahrscheinlichkeit p unbekannt, aber es steht ein (approximativ) unverzerrter Sch¨atzer pˆ zur Verf¨ ugung c (p) sowie eine Sch¨atzung f¨ ur die Varianz von pˆ, n¨amlich Var ˆ . Zudem sei die Sch¨atzung pˆ unkorreliert mit y¯. . (a) Ein Sch¨atzer f¨ ur die Populationsgr¨ oße ist gegeben durch n N1X N ˆ y¯. = yi. Y. = pˆ pˆ n i=1 Der Sch¨atzer ist nicht mehr erwartungstreu f¨ ur Y. . ˆ . ist gegeben durch (b) Die Varianz von Y " ˆ .) ≈ N 2 Var(Y 1 n 1− n N 2 SY + 1−p p # 2 Y. Y. + 2 2 Var(p) ˆ . N n N p ˆ . ist gegeben durch (c) Ein Sch¨atzer f¨ ur die Varianz von Y 2 N c ˆ Var(Y .) = 2 pˆ " N −n N s2y n + 1−p N 2 # y¯ c y¯. + 2 Var(p) ˆ . pˆ 100 Satz 7.6 Falls eine eZmZ gezogen wird mit bekannter Entdeckungswahrscheinlichkeit p, dann ist ein erwartungstreuer Sch¨atzer f¨ ur die Populationsgr¨ oße gegeben durch " # 2 N ˆ .) = N 2 SY + 1 − p Y mit Var(Y . Yˆ . = y¯ p n p N n ˆ . ist gegeben durch Ein unverzerrter Sch¨atzer f¨ ur die Varianz von Y n X 1 2 c ˆ Var(Y .) = (τi − Yˆ .) n(n − 1) i=1 mit τi = N yi/p, i = 1, . . . , n. Bemerkung 7.7 (Ungleiche Auswahlwahrscheinlichkeiten von Gruppen mit ungleichen Entdeckungswahrscheinlichkeiten) Sei Yij das interessierende Merkmal (stetig, diskret, bin¨ar) der j -ten Beobachtungseinheit in der i-ten Untersuchungseinheit. Sei πi die Wahrscheinlichkeit, dass die i-te Untersuchungseinheit in die Stichprobe gelangt, und πii0 die Wahrscheinlichkeit, dass die i-te und i0-te Untersuchungseinheit gemeinsam in die Stichprobe gelangen. Sei gij die Entdeckungswahrscheinlichkeit f¨ ur die j -te Beobachtungseinheit in der i-ten Untersuchungseinheit. 101 Sei Mi die Anzahl der Beobachtungseinheiten in der i-ten Untersuchungseinheit und mi die entdeckten Beobachtungseinheiten in dieser Untersuchungseinheit. Die Anzahl der verschiedenen Untersuchungseinheiten in der Stichprobe sei ν . PMi Sei Yi = j=1 Yij , i = 1, . . . , k . Mi N P P Yij . Populationsgr¨ oße: Y = i=1 j=1 Horvitz-Thompson-Sch¨atzer: mi ν X X yij 1 Yˆ = πi j=1 gij i=1 mit ˆ) = Var(Y N X 1 − πi i=1 π Mi N X N X X X 1 − g π − π π 1 0 0 ij i i 2 2 ii Yi + Yi Yi0 + Yij πi πi0 πi j=1 gij 0 i=1 i=1 i6=i Unverzerrter Varianzsch¨atzer: c (Yˆ ) = Var ν X 1 − πi i=1 π2 mi ν X ν X X X π − π π 1 0 0 i i 2 ii Yˆi + Yˆi Yˆi0 + πii0 πi πi0 πi j=1 0 i=1 i=1 i6=i 1 − gij 2 gij ˆi = Pmi yij /gij , i = 1, . . . , ν . mit Y j=1 Steinhorst, Samuel (1989), Sightability adjustment methods for aerial surveys of wildlife populations, Biometrics, 45, 415–425. 102 ! 2 yij §8 Adaptive Stichprobenverfahren Adaptive Stichprobenverfahren heißen solche Stichprobendesigns, bei denen die Auswahl von Untersuchungseinheiten, die in die Stichprobe gelangen, abh¨angig sein darf von den bereits erhobenen Merkmalswerten in der Untersuchung. Motivation: • Viele Tier- und Pflanzenpopulationen haben die Tendenz sich zu versammeln oder anzuh¨aufen z.B. aufgrund von Herden- oder Schwarmbildung bzw. Umweltregel- bzw. unregelm¨aßigkeiten. • H¨aufig ist der Ort und die Form der Ansammlung nicht vor der Untersuchung vorhersagbar, so dass traditionelle Stichprobenverfahren zur Erh¨ ohung der Pr¨azision wie z.B. die Schichtenbildung nicht m¨ oglich sind. 8.1 Adaptive Klumpenstichprobenverfahren Definition 8.1 Adaptive Klumpenstichprobenverfahren sind solche Stichprobendesigns, bei denen zun¨achst eine Startstichprobe von Untersuchungseinheiten (initial set of units) mit einer zuf¨alligen Stichprobenprozedur gezogen wird, und, wenn die erhobenen Merkmale dieser ausgew¨ahlten Untersuchungseinheiten ein gewisses Kriterium erf¨ ullen, dann werden auch alle Untersuchungseinheiten in der Nachbarschaft mit in die Stichprobe aufgenommen. 103 Hier: Startstichprobe mit eZoZ oder eZmZ Voraussetzungen 8.2 • Die Population besteht aus N Untersuchungseinheiten, die mit 1, 2, . . . , N (Labels) durchnummeriert werden k¨ onnen und zugeh¨ origen Merkmalswerten Y1, Y2, . . . , YN . • Die Stichprobe s ist eine Menge von Labels, die die Untersuchungseinheiten, die beobachtet werden sollen, identifizieren. • Die Daten bestehen aus den beobachteten y -Werten zusammen mit den dazugeh¨origen Labels. • Der interessierende Parameter ist das Populationsmittel oder die Populationsgr¨oße, d.h., N X 1 Yi Y¯ . = N i=1 oder Y. = N Y¯ . Bezeichnung 8.3 Ein Stichprobendesign (sampling design) ist eine Funktion P (s|Y ), die jeder Stichprobe s eine Wahrscheinlichkeit zuweist. In diesem Kapitel h¨angen die Auswahlwahrscheinlichkeiten der Stichproben von den Populationswerten Y1, . . . , YN ab. 104 Annahme 8.4 (a) F¨ ur jede Untersuchungseinheit Ui in der Population ist eine Nachbarschaft Ai eindeutig definiert. Die (Definition der) Nachbarschaft h¨angt nicht von den YPopulationswerten ab. Dar¨ uber hinaus ist die Nachbarschaftsbeziehung symmetrisch, d.h. falls Untersuchungseinheit Ui in der Nachbarschaft von Uj ist, dann ist auch Uj in der Nachbarschaft von Ui. (b) Die Bedingung weitere Untersuchungseinheiten aus der Nachbarschaft der Untersuchungseinheiten der Startstichprobe in die Stichprobe aufzunehmen, wird durch ein Intervall oder eine Menge C basierend auf dem Wertebereich der Y-Merkmalswerte bestimmt. Eine Untersuchungseinheit Ui erf¨ ullt die Bedingung, falls Yi ∈ C . Beispiel: Eine Untersuchungseinheit Ui erf¨ ullt die Bedingung, falls Yi gr¨ oßer oder gleich einer Konstanten c ist, d. h. C = {Y : Y ≥ c}. Bemerkung 8.5 (Adaptive Strategie) • Falls eine Untersuchungseinheit Ui die Bedingung aus Annahme 8.4(b) erf¨ ullt, werden alle Untersuchungseinheiten aus der Nachbarschaft von Ui ebenfalls in die Stichprobe aufgenommen und beobachtet. • Einige der neuen Untersuchungseinheiten k¨onnten die Bedingung ebenfalls erf¨ ullen, andere nicht. • Wenn neue Untersuchungseinheiten die Bedingung erf¨ ullen, dann werden auch alle Untersuchungseinheiten aus der Nachbarschaft dieser Untersuchungseinheiten in die Stichprobe aufgenommen und beobachtet. • usw. 105 Bezeichnung 8.6 • Betrachte die Menge aller Untersuchungseinheiten, die mit der adaptiven Strategie aus Bemerkung 8.5 aufgrund der Untersuchungseinheit Ui der Startstichprobe in die Stichprobe gelangt sind. Diese Menge bezeichnen wir als Klumpen (cluster). • Innerhalb eines Klumpens gibt es eine Untermenge, die als Netzwerk bezeichnet wird. Die Untersuchungseinheiten des Netzwerks haben die Eigenschaft, dass, wenn ein Element des Netzwerks in die Startstichprobe gelangt, dann kommen aufgrund der adaptiven Strategie auch alle anderen Elemente des Netzwerks in die Stichprobe; anders ausgedr¨ uckt: alle Untersuchungseinheiten in dem Netzwerk erf¨ ullen die Bedingung. • Jede Untersuchungseinheit, die die Bedingung nicht erf¨ ullt, aber in der Nachbarschaft einer Untersuchungseinheit liegt, die die Bedingung erf¨ ullt, wird als edge unit bezeichnet. Bemerkung 8.7 Falls eine Untersuchungseinheit, die zu einem Netzwerk geh¨ ort, in die Startstichprobe gelangt, so gelangen alle Untersuchungseinheiten dieses Netzwerks sowie die edge units in die Stichprobe. Die Auswahl eines edge units f¨ uhrt zu keiner weiteren Auswahl von Untersuchungseinheiten. Untersuchungseinheiten, die die Bedingung nicht erf¨ ullen, bilden somit jeweils ein Netzwerk der Gr¨oße 1. Seien die Y -Populationswerte gegeben. Dann l¨asst sich die Population eindeutig in Netzwerke aufteilen. 106 Lemma 8.8 (Startstichprobe mit eZoZ) Sei mi die Anzahl der Untersuchungseinheiten in dem Netzwerk, zu dem die Untersuchungseinheit Ui geh¨ ort, und sei ai die Gesamtzahl von Untersuchungseinheiten in Netzwerken, bei denen Ui edge unit ist. Die Startstichprobe von Umfang n wird als eZoZ gezogen. Dann gilt: (a) Die Auswahlwahrscheinlichkeit f¨ ur Ui in jedem der n Z¨ uge ist pi = mi + ai , N i = 1, . . . , N. (b) Die Wahrscheinlichkeit, dass Ui in die Stichprobe gelangt, ist N − m − a .N i i πi = 1 − , n n i = 1, . . . , N. Lemma 8.9 (Startstichprobe mit eZmZ) Die Startstichprobe von Umfang n wird als eZmZ gezogen. Dann gilt: (a) Die Auswahlwahrscheinlichkeit f¨ ur Ui in jedem der n Z¨ uge ist pi = mi + ai , N i = 1, . . . , N. (b) Die Wahrscheinlichkeit, dass Ui in die Stichprobe gelangt, ist n πi = 1 − (1 − pi) , i = 1, . . . , N. 107 Bemerkung 8.10 (a) Falls die Untersuchungseinheit Ui die Bedingung erf¨ ullt, so ist ai = 0. Falls Ui die Bedingung nicht erf¨ ullt, so ist mi = 1. (b) Die Auswahlwahrscheinlichkeiten pi und die Einschlusswahrscheinlichkeiten πi k¨ onnen nicht anhand der Daten bestimmt werden, weil unter Umst¨anden einige der ai unbekannt bleiben. Satz 8.11 (modifizierter Hansen-Hurwitz Sch¨atzer) Bezeichne Ψi das Netzwerk, das die Untersuchungseinheit Ui enth¨alt, und sei mi die Anzahl der Untersuchungseinheiten in diesem Netzwerk. Definiere 1 X Yj . wi = mi j∈Ψ i (a) Der unverzerrte modifizierte Hansen-Hurwitz Sch¨atzer f¨ ur das Populationsmittel lautet n 1X ˆ ¯ wi . Y. = n i=1 (b) Falls die Startstichprobe eine eZoZ ist, so gilt ˆ ¯ = 1 VaroZ (Y.) n n 1− N N 2 1 X wi − Y¯ . N − 1 i=1 108 (b0) Falls die Startstichprobe eine eZmZ ist, so gilt N X 2 1 1 ˆ ¯ = VarmZ (Y.) wi − Y¯ . n N i=1 (c) Ein unverzerrter Sch¨atzer f¨ ur die Varianz ist ˆ c oZ (Y.) ¯ = 1 Var n n 1− N n 2 1 X ˆ ¯ wi − Y. n − 1 i=1 (c0) Ein unverzerrter Sch¨atzer f¨ ur die Varianz ist n 2 X 1 1 ˆ ˆ c ¯ ¯ VarmZ (Y.) = wi − Y. n n − 1 i=1 Beweis: siehe Vorlesung 109 Bemerkung 8.12 (modifizierter Horvitz-Thompson Sch¨atzer) Falls die Startstichprobe eine eZoZ ist, so definiere die Wahrscheinlichkeit 0 πi N − m .N i . =1− n n Falls die Startstichprobe eine eZmZ ist, so definiere πi0 = 1 − (1 − mi/N )n. Dabei ist mi wiederum die Anzahl von Untersuchungseinheiten in dem Netzwerk, das Ui enth¨alt. Erf¨ ullt Ui die Bedingung nicht, so ist mi = 1. Sei Ji = 0, falls Ui nicht die Bedingung erf¨ ullt und nicht in der Startstichprobe ist, andernfalls Ji = 1. Sei ν die Anzahl der unterschiedlichen Untersuchungseinheiten in der Stichprobe. Dann ist der modifizierte Horvitz-Thompson-Sch¨atzer f¨ ur das Populationsmittel gegeben durch ν X 1 Yi Ji ˆ ¯ = Y. . N i=1 πi0 Alternativ: Sei K die Anzahl der Netzwerke in der Population und sei Ψk die Menge der Untersuchungseinheiten im k-ten Netzwerk. Sei xk die Anzahl der Untersuchungseinheiten P im k-ten Netzwerk. Sei Yk∗ = i∈Ψk Yi die Merkmalssumme im k -ten Netzwerk. Die Wahrscheinlichkeit πi0 ist f¨ ur alle Untersuchungseinheiten in dem Netzwerk gleich, d.h. πi0 = αk und N − x .N k αk = 1 − n n n bei eZoZ und αk = 1 − (1 − xk /N ) bei eZoZ. Definiere Zk = 1, falls irgendeine Untersuchungseinheit aus dem k-ten Netzwerk in der Startstichprobe ist, sonst Zk = 0. 110 Mit der Netzwerknotation l¨asst sich obiger Sch¨atzer auch darstellen als K ∗ X Zk Y 1 k ˆ ¯ = Y. N k=1 αk F¨ ur die Varianzen und Varianzformeln siehe Thompson (2002), Sampling, Wiley, Seite 296-297. Bemerkung 8.13 Betrachte die adaptive Klumpenstichprobe mit Startstichprobenumfang n und betrachte eine eZoZ mit festen Stichprobenumfang n∗. Dann l¨asst sich zeigen, dass die adaptive Strategie mit dem modifizierten Hansen-Hurwitz-Sch¨atzer zu einer gr¨ oßeren Pr¨azision der Sch¨atzung f¨ uhrt als eine eZoZ, falls gilt 1 1 − ∗ n n 1 2 Sy < n n 1− N K 1 XX 2 (Yi − wi) N − 1 k=1 i∈Ψ i mit Ψk dem k-ten Netzwerk in der Population. D.h. adaptive Klumpenstichprobenverfahren sind effizienter als eine eZoZ, wenn die Variabilit¨at innerhalb der Netzwerke in der Population hinreichend groß ist. 111 8.2 Systematische und Strip adaptive Klumpenstichprobenverfahren Annahmen 8.14 Die Grundgesamtheit l¨asst sich in N prim¨are Einheiten aufteilen. Jede der prim¨aren Einheiten besteht aus M sekund¨aren Einheiten. Damit gibt es M N Einheiten in der Grundgesamtheit. Die M N Einheiten der Grundgesamtheit werden mit Uij , i = 1, . . . , N , j = 1, . . . , M , bezeichnet. Jede Uij ist eindeutig mit einem Merkmalswert Yij verbunden. Die interessierenden Parameter sind das Populationsmittel PN PM Y¯ = (M N )−1 i=1 j=1 Yij bzw. die Populationsgr¨oße Y = M N Y¯ . Bemerkung 8.15 Bez¨ uglich der adaptiven Strategie gelten die gleichen Voraussetzungen wie in Abschnitt 8.1. Die Nachbarschaft der sekund¨aren Einheiten muss eindeutig definiert sein. Eine Bedingung muss existieren, die das adaptive Hinzuf¨ ugen von sekund¨aren Untersuchungseinheiten zur Startstichprobe regelt. Seien die Y -Werte der Grundgesamtheit gegeben, dann l¨asst sich die Grundgesamtheit eindeutig in K Netzwerke aufteilen. Bemerkung 8.16 (Design) Es wird zun¨achst eine Startstichprobe von Umfang n der prim¨aren Einheiten mittels eZoZ gezogen. Wenn eine sekund¨are Einheiten in einer prim¨aren Einheit der Startstichprobe die Bedingung erf¨ ullt, so werden alle sekund¨aren Einheiten in der Nachbarschaft ebenfalls in die Stichprobe aufgenommen. Wenn eine der neu aufgenommenen sekund¨aren Einheiten auch die Bedingung erf¨ ullt, so werden auch die sekund¨aren Einheiten aus der Nachbarschaft dieser Einheit in die Stichprobe aufgenommen, usw. 112 Bezeichnung 8.17 (a) Wenn die prim¨aren Einheiten gleichm¨aßig u ¨ber die Studienregion verteilt sind, so spricht man von einer systematischen Startstichprobe. (b) Die prim¨aren Einheiten heißen Strips (Streifen), wenn die sekund¨aren Einheiten in den prim¨aren Einheiten in gerader Linie angeordnet sind. Lemma 8.18 (Startstichprobe mit eZoZ) Sei mij die Anzahl der prim¨aren Einheiten, die mit dem Netzwerk, welches Uij enth¨alt, verbunden ist, und aij die Anzahl der prim¨aren Einheiten, bei denen Ui edge unit ist. Die Startstichprobe von Umfang n wird als eZoZ gezogen. Dann gilt: (a) Die Auswahlwahrscheinlichkeit f¨ ur Uij in jedem der n Z¨ uge ist pij mij + aij , = N i = 1, . . . , N, j = 1, . . . , M. (b) Die Wahrscheinlichkeit, dass Uij in die Stichprobe gelangt, ist πij N − m − a .N ij ij =1− , n n i = 1, . . . , N, j = 1, . . . , M. 113 Satz 8.19 PM ¯ ist gegeben durch Sei Yi = atzer f¨ ur Y j=1 Yij . Ein unverzerrter Sch¨ n 1 X ˆ ¯ Yi Y0 = M n i=1 mit 1 ˆ ¯ Var(Y0) = M 2n N n 1− N 1 X 2 (Yi − M Y¯ ) N − 1 i=1 n 1− N 1 X ¯0)2. (Yi − M Yˆ n − 1 i=1 und unverzerrter Varianzsch¨atzung c (Yˆ ¯0) = 1 Var M 2n n Beweis: Anwendung von Satz 1.5 Beachte: Eine unverzerrte Varianzsch¨atzung gibt es nicht, wenn die prim¨aren Einheiten mit einer systematischen Auswahl mit zuf¨alligem Start gezogen wurden. 114 Satz 8.20 (Sch¨atzer basierend auf partiellen Auswahlwahrscheinlichkeiten) Sei K die Anzahl der Netzwerke in der Grundgesamtheit und Yk die k-te Netzwerksumme des interessierenden Merkmals. Sei 1, falls die i-te prim¨are Einheit mit dem Netzwerk k verbunden ist, Iik = 0, sonst. PN aren Einheiten in der Grundgesamtheit, die mit Sei xk = i=1 Iik die Anzahl der prim¨ dem k-ten Netzwerk verkn¨ upft sind. Die Auswahlwahrscheinlichkeit, dass die prim¨are Einheit mit dem k-ten Netzwerk verkn¨ upft ist, ist somit xk /N . Definiere f¨ ur die i-te prim¨are Einheit K 1 X Yk Iik . wi = M k=1 xk ¯ ist gegeben durch (a) Ein unverzerrter Sch¨atzer f¨ ur Y n 1X ˆ ¯ Y1 = wi n i=1 ¯1) = 1 mit Var(Yˆ n n 1− N N 2 1 X ¯ wi − Y . N − 1 i=1 (b) Die Varianz wird unverzerrt gesch¨atzt durch c (Yˆ ¯1) = 1 Var n n 1− N n 2 1 X ˆ ¯ wi − Y1 . n − 1 i=1 115 Satz 8.21 (Sch¨atzer basierend auf partiellen Einschlusswahrscheinlichkeiten) Sei αk die Wahrscheinlichkeit, dass eine oder mehrere prim¨are Einheiten, die mit dem k-ten Netzwerk verkn¨ upft sind, in die Startstichprobe gelangen, d.h. N − x .N k αk = 1 − . n n Sei αkj die Wahrscheinlichkeit, dass eine oder mehrere prim¨are Einheiten, die mit dem k-ten und dem j -ten Netzwerk verkn¨ upft sind, in die Startstichprobe gelangen, d.h., N − xk N − xj N − xk − xj + xkj .N , αkj = 1 − + − n n n n wobei xkj die Anzahl der prim¨aren Einheiten ist, die mit den Netzwerken k und j verkn¨ upft sind. Sei Zk = 1, wenn eine oder mehrere prim¨aren Einheiten in der Startstichprobe sind, die mit dem k-ten Netzwerk verkn¨ upft sind, sonst Zk = 0. ¯ gegeben durch Dann ist ein unverzerrter Sch¨atzer f¨ ur Y ¯2 = Yˆ K 1 X Yk Zk M N k=1 αk mit K K XX 1 ˆ ¯ Var(Y2) = YK Yj M 2N 2 k=1 j=1 αkj −1 αk αj , 116 wobei αkk = αk . Der unverzerrte Varianzsch¨atzer lautet K K X X YK Yj Zk Zj 1 ˆ c ¯ Var(Y2) = M 2N 2 k=1 j=1 αkj αkj −1 αk αj 8.3 Geschichtete adaptive Klumpenstichprobenverfahren Designs f¨ ur geschichtete adaptive Klumpenstichprobenverfahren: Die Grundgesamtheit wird in L disjunkte Schichten aufgeteilt und jede Schicht h besteht aus Nh Einheiten, PL h = 1, . . . , L. Der Umfang der Grundgesamtheit ist N = Jeder h=1 Nh . Untersuchungseinheit Uhi wird eindeutig ein Merkmalswert Yhi, h = 1, . . . , L, i = 1, . . . , Nh, zugeordnet. In jeder Schicht h wird nun eine Startstichprobe vom Umfang nh gezogen. F¨ ur die adaptive Strategie gelten dieselben Annahmen und Voraussetzungen wie in Abschnitt 8.1 und 8.2. F¨ ur gegebene Y -Werte kann die Population wiederum in K disjunkte Netzwerke aufgeteilt werden. Netzwerke sind dadurch charakterisiert, dass, wenn eine Einheit des Netzwerks in der Startstichprobe ist, so gelangen alle Einheiten des Netzwerks in die endg¨ ultige Stichprobe. Beachte, dass die Einheiten des Netzwerks zu unterschiedlichen Schichten geh¨oren k¨onnen. 117 Sei rhi die Anzahl, wie oft Untersuchungseinheit Uhi ausgew¨ahlt wird. Sei mkhi die Anzahl der Einheiten aus der Schicht k, die mit dem Netzwerk, das Uhi enth¨alt, verkn¨ upft sind. Sei akhi die Anzahl der Netzwerke in Schicht k, bei denen Uhi edge unit ist. Die erwartete Anzahl, wie oft Uhi ausgew¨ahlt wird, ist dann E(rhi) = L X k=1 nk mkhi + akhi . Nk Die Wahrscheinlichkeit, dass Uhi in die Stichprobe gelangt, ist πhi L Y Nk − mkhi − akhi.Nk =1− nk nk k=1 Satz 8.22 Definiere L whi L .X n nh X k = ξkhi mkhi, Nh k=1 N k k=1 wobei ξkhi die Gesamtsumme der Y -Werte der Einheiten des Netzwerks von Uhi aus Schicht k. 118 ¯ ist dann gegeben durch Ein unverzerrter Sch¨atzer f¨ ur das Populationsmittel Y nh L X X 1 N h ¯1 = whi Yˆ N h=1 nh i=1 mit L 1 X Sh2 ˆ ¯ Var(Y1) = 2 Nh(Nh − nh) , N h=1 nh wobei N 2 Sh h X 2 1 ¯ = whi − Wh Nh − 1 i=1 N h X 1 ¯h = whi. und W nh i=1 Die Varianz Sh2 wird durch die Stichprobenvarianz n h 1 X 2 2 sh = (whi − w) ¯ , nh i=1 n h 1 X w ¯= whi, nh i=1 unverzerrt gesch¨atzt. 119 Bemerkung 8.23 (a) Anstelle von whi kann auch die neue Variable 0 whi = L X ξkhi L .X k=1 mkhi k=1 ˆ ¯ 0, indem whi durch w0 in definiert werden. Damit ergibt sich ein neuer Sch¨atzer Y 1 hi 0 Satz 8.22 ersetzt wird. Beachte, dass whi und whi gleich sind, falls die Schichten alle gleich groß sind und die Umf¨ange der Startstichproben in den Schichten ebenfalls. (b) Anstelle von whi kann auch die neue Variable 00 whi . = ξhhi mhhi definiert werden, d.h. es werden keine Untersuchungseinheiten des Netzwerks von Uhi ˆ ¯ 00 ergibt sich, ber¨ ucksichtigt, die in anderen Schichten liegen. Der neue Sch¨atzer Y 1 00 indem whi durch whi in Satz 8.22 ersetzt wird. Satz 8.24 Seien die K verschiedenen Netzwerke mit 1, 2, . . . , K bezeichnet. Sei Yi die Gesamtsumme im i-ten Netzwerk. Sei xhi die Anzahl der Einheiten in Schicht h, die mit dem Netzwerk i verkn¨ upft sind. Die Wahrscheinlichkeit, dass die Startstichprobe 120 mit dem Netzwerk i verkn¨ upft ist, lautet L Y Nk − xki.Nk αi = 1 − . n n k k k=1 Sei qi = 1 − αi, dann ist die Wahrscheinlichkeit, dass die Startstichprobe mit den Netzwerken i und j verkn¨ upft ist, gegeben durch αij L Y Nk − xki − xkj .Nk = 1 − qi − qj + nk nk k=1 Sei Zi = 1, falls die Startstichprobe mit dem Netzwerk i verkn¨ upft ist, sonst Zi = 0. Der unverzerrte stratifizierte Sch¨atzer vom Horvitz-Thompson-Typ ist gegeben durch K X Yi Zi 1 ˆ Y¯2 = N i=1 αi k k 1 XX ˆ ¯ mit Var(Y2) = 2 Yi Yj N i=1 j=1 αij −1 αi αj Die Varianz wird erwartungstreu gesch¨atzt durch k k 1 X X Yi Yj Zi Zj ˆ c ¯ Var(Y2) = 2 N i=1 j=1 αij αij −1 αi αj 121 §9 Ausblick auf weitere Verfahren und Anwendungen • Nonresponse • Multivariate Stichprobenverfahren • Ranked Set Sampling 122 9.1 Nonresponse Einfaches Modell: Unterteile die GG in zwei Schichten; Schicht 1 sind die Responder und Schicht 2 die Nonresponder. Seien W1 = N1/N und W2 = N2/N die entsprechenden Schichtgewichte. Wenn die Untersuchung beendet ist, liegen nur Informationen u ¨ber Schicht 1 vor; es gibt keine Daten aus Schicht 2. Wie sieht der Erwartungswert von y¯ bei eZoZ bei Vorliegen von Nonresponse aus? ¯ angegeben werden? Kann ein zuverl¨assiges Konfidenzintervall f¨ ur Y ¯1 − Y¯2) Bias: W2 (Y Stetiges Merkmal: ?? Bin¨ares Merkmal: P2 ∈ [0, 1] Seien W1 und W2 bekannt und sei eine Stichprobe vom Umfang n1 gegeben, dann ist ein approximatives (1 − α)-Konfidenzintervall f¨ ur P1 gegeben durch p1 ± u1−α/2 q p1 (1 − p1)/n1 123 Ein konservatives (1 − α)-Konfidenzintervall f¨ ur P ist gegeben durch [PˆL, PˆU ] mit PˆL = W1 und PˆU = W1 p1 − u1−α/2 p1 + u1−α/2 q p1 (1 − p1)/n1 q + W2 · 0 p1 (1 − p1)/n1 + W2 · 1 Je gr¨oßer W2, d.h. der Anteil der Nonresponder, desto breiter ist das Konfidenzintervall. Ziel: W2 m¨ oglichst klein. Die Grenzen k¨onnen auch etwas schmaler gemacht werden, da nie gleichzeitig p2 = 0 und p2 = 1 — wie oben angenommen — auftreten kann. Literatur: Kapitel 13 in Cochran (1977), Sampling Techniques, Wiley. 124 9.2 Multivariate Stichprobenverfahren Literatur: Kreienbrock, L. (1986). Einfache und geschichtete Zufallsauswahl aus endlichen Grundgesamtheiten bei multivariaten Beobachtungen. Dissertation, Fachbereich Statistik, Uni Dortmund. In allen bisherigen Stichprobenverfahren wurde nur ein Merkmal Y erhoben. H¨aufig werden aber mehrere Merkmale Y1, . . . Yk an einer Untersuchungseinheit erhoben. Beachte: einfache und geschichtete Zufallsauswahl w¨ahlen die Untersuchungseinheit aus; unabh¨angig davon, ob ein oder mehrere Merkmal erhoben werden. Aber: die Merkmale Y1, . . . Yk sind in der Regel korreliert; die Rolle der Varianz bei einem Merkmal u ¨bernimmt nun die Kovarianzmatrix der Merkmale Y1, . . . Yk . Wann ist eine Kovarianzmatrix A ”kleiner” als eine Kovarianzmatrix B ? 125 9.3 Ranked Set Sampling Kosteneffektive Stichprobenverfahren Problem: Bestimmung von Yi ist kostspielig, arbeitsaufwendig und/oder zeitaufwendig. McIntyre (1952, Australian Journal of Agricultural Research), Durchschnittlicher Heuertrag wurde effizienter (pr¨aziser) als durch eZoZ gesch¨atzt. Grundlegende Idee / Annahme: Eine Stichprobe (Menge) von Untersuchungseinheiten kann durch gewisse Charakteristika bez¨ uglich der interessierenden Variablen Y , ohne diese tats¨achlich zu messen, klassifiziert bzw. geordnet werden. McIntyre (1952): 1. Schritt: Ziehe eine eZoZ vom Umfang k, ordne die k Stichprobenelemente bzgl. der Variablen Y durch Beurteilung (ohne die tats¨achliche Messung von Y ), w¨ahle das Stichprobenelement mit Rang 1 und messe Y ; ignoriere alle weiteren Stichprobenelemente. 2. Schritt: Ziehe eine neue eZoZ vom Umfang k, ordne die k Stichprobenelemente bzgl. der Variablen Y durch Beurteilung (ohne die tats¨achliche Messung von Y ), w¨ahle das Stichprobenelement mit Rang 2 und messe Y ; ignoriere alle weiteren Stichprobenelemente. ... k. Schritt: Ziehe eine neue eZoZ vom Umfang k, ordne die k Stichprobenelemente bzgl. der Variablen Y durch Beurteilung (ohne die tats¨achliche Messung von Y ), w¨ahle das Stichprobenelement mit Rang k und messe Y ; ignoriere alle weiteren Stichprobenelemente. 126 Wiederhole die Schritte 1 bis n m-mal (m Zyklen) ⇒ Stichprobenumfang n = m k. Das Konzept des Ranked Set Sampling (RSS) ist ¨ahnlich der geschichteten Zufallsauswahl. RSS kann als Post-Stratifikation der Stichprobenelemente bez¨ uglich ihrer R¨ange aufgefasst werden. Das Ranking kann durch eine latente Variable (Beispiel McIntyre: Beurteilung der Gr¨ oße des Heuertrags durch einen erfahrenen Bauern per einfacher Betrachtung des Feldes) oder durch eine externe Variable X erfolgen. Unter einer Konsistenzannahme l¨asst sich zeigen, dass das Stichprobenmittel des RSS-Verfahrens erwartungstreu f¨ ur das Populationsmittel ist und die Varianz des Stichprobenmittels des RSS-Verfahrens stets kleiner gleich der Varianz des Stichprobenmittels bei eZmZ ist; und die Gleichheit gilt nur dann, wenn das Ranking zuf¨allig geschieht. Literatur: Chen, Z., Bai, Z., Sinha, B.K. (2004), Ranked Set Sampling, Springer. 127
© Copyright 2024 ExpyDoc