Stichprobenverfahren - Fakultät Statistik

Stichprobenverfahren
JProf. Dr. Hans Manner
Fakult¨at Statistik
Technische Universit¨at Dortmund
Email: [email protected]
Sommersemester 2015
Stand: 01.04.2015
§-1 Aktueller Bezug
1
§0 Einf¨
uhrung in die Stichprobenverfahren
0.1 Voraussetzungen und Notationen
• Die Menge potentieller Untersuchungseinheiten {U1, U2, . . . , UN } heißt
Grundgesamtheit (kurz: GG) vom Umfang N .
• Jeder Untersuchungseinheit Ui wird ein eindeutig fester Merkmalswert Yi zugeordnet.
• Es wird eine zuf¨allige Stichprobe vom Umfang n gezogen.
• Die ”Ergebnisse” yi, i = 1, . . . , n, repr¨asentieren Zufallsvariablen.
• Notation bei Stichprobenverfahren
in der Grundgesamtheit: Großbuchstaben, feste Werte (meist) unbekannt
in der Stichprobe: Kleinbuchstaben, zuf¨allige Werte, Realisationen von Zufallsvariablen
0.2 G¨
utekriterien im Rahmen der Stichprobentheorie
• Erwartungstreue: Sei θ der interessierende Parameter, dann heißt T (y1, . . . , yn)
erwartungstreu f¨
ur θ , falls E(T (y1, . . . , yn)) = E(T ) = θ .
• Varianzvergleich: Seien T1 und T2 zwei erwartungstreue Sch¨atzer f¨
ur θ , dann heißt T1
”besser” als T2, falls Var(T1) < Var(T2).
• MSE-Vergleich: Seien T1 und T2 zwei beliebige Sch¨atzer f¨
ur θ , dann heißt T1 ”besser”
als T2, falls MSE(T1) < MSE(T2).
(Hinweis: MSE(T ) = Var(T ) + [E(T ) − θ]2)
2
§1 Einfache Zufallsauswahl
Definition 1.1
Eine Stichprobe vom Umfang n aus einer Grundgesamtheit vom Umfang N heißt
einfache Zufallsstichprobe ohne Zur¨
ucklegen (kurz: eZoZ), wenn sie die gleiche
Auswahlwahrscheinlichkeit wie alle anderen m¨
oglichen Stichproben gleichen Umfangs
besitzen.
Beispiel 1.2
N = 4, Merkmalswerte {1, 3, 5, 7}, Stichprobe vom Umfang n = 2.
M¨
ogliche Stichproben
{1, 3} {1, 5} {1, 7} {3, 5} {3, 7}
Auswahlwahrscheinlichkeiten
1/6
1/6
1/6
1/6
1/6
⇒ einfache Zufallsstichprobe
Auswahlwahrscheinlichkeiten
1/2
0
0
0
0
6⇒ einfache Zufallsstichprobe
{5, 7}
1/6
1/2
3
Bemerkung 1.3
(i) Man unterscheidet Modelle ohne Zur¨
ucklegen (eZoZ) und mit Zur¨
ucklegen (eZmZ).
(ii) Modell ohne Zur¨
ucklegen:
y1, . . . , yn identisch verteilt, aber stochastisch abh¨angig.
(iii) Modell mit Zur¨
ucklegen:
y1, . . . , yn unabh¨angig und identisch verteilt.
(iv) Problem: viele statistische Analysen (z. B. Lineares Modell, statistische Tests) setzen
stochastische Unabh¨angigkeit voraus; in der Praxis werden aber meist Modelle ohne
Zur¨
ucklegen angewendet.
Definition 1.4
Es bezeichnet in der Grundgesamtheit
N
X
1
Yi
Merkmalsdurchschnitt
Y¯ . :=
N i=1
N
X
Y. :=
Yi = N Y¯ .
Merkmalssumme
i=1
N
2
1 X
2
¯
Yi − Y .
SY :=
N − 1 i=1
N
k
1 X
µk :=
Yi − Y¯ .
N i=1
Merkmalsvarianz
k-tes zentrales Moment
4
Definition 1.4 (Fortsetzung)
Es bezeichnet in der Stichprobe
n
1X
y¯. :=
yi
n i=1
n
X
1
2
2
(yi − y¯.)
sy :=
n − 1 i=1
Stichprobenmittel
Stichprobenvarianz
Satz 1.5
F¨
ur eine einfache Zufallsstichprobe ohne Zur¨
ucklegen gilt:
(i) E(¯
y .) = Y¯ .
1
n
1
2
(ii) Var(¯
y .) =
K µ2
1−
SY =
n
N
n
2
2
(iii) E(sy ) = SY
1
n−3
2
2
(iv) Var(sy ) =
K1 µ4 −
K2 µ2
n
n(n − 1)
n−1
der Endlichkeitskorrektur der Mittelwertsch¨atzung und den
mit K = 1 −
N −1
Endlichkeitskorrekturen der Varianz
(n − 1) N 3 − (n2 + 1) N 2 + (n2 + n) N
K1 =
(n − 1) (N − 1) (N − 2) (N − 3)
5
und
−(n − 3) N 4 + (n2 − 3n − 6) N 3 + (9n + 3) N 2 − (3n2 + 3n) N
.
K2 =
−(n − 3) (N − 1)2 (N − 2) (N − 3)
Beweis:
¨
(i)–(iii): Ubungsaufgabe
(iv): Beweisskizze in der Vorlesung; ausf¨
uhrlicher Beweis von (iv) in Kreienbrock, L. (1986),
Statistische Hefte 27, 23–35 (jetzt Statistical Papers).
Endlichkeitskorrekturen sind von besonderer Wichtigkeit f¨
ur den Vergleich von eZoZ und
eZmZ, denn es gilt
Satz 1.6
Falls n fest, so gilt
lim K = lim K1 = lim K2 = 1.
N →∞
N →∞
N →∞
6
Korollar 1.7
F¨
ur eine einfache Zufallsstichprobe mit Zur¨
ucklegen gilt:
(i) E(¯
y .) = Y¯ .
1
µ2
(ii) Var(¯
y .) =
n
2
(iii) E(sy ) = µ2
n−3
1
2
2
µ4 −
µ2
(iv) Var(sy ) =
n
n(n − 1)
Bemerkung 1.8
Satz 1.5 entspricht der praktizierten Auswahl, Korollar 1.7 entspricht der praktizierten
Auswertung (bzw. Voraussetzung vieler statistischer Verfahren)
⇒
Gr¨oßenordnung der K’s ist von zentraler Bedeutung, ob eine eZoZ als eZmZ interpretiert
werden darf
⇒
vor der Weiterverarbeitung der Daten (Lineares Modell, Test, ...) muss u
¨berpr¨
uft werden,
ob die relativen Abweichungen der Endlichkeitskorrekturen von 1 nicht zu groß sind, d. h.
(*) (1 − K) < (**) (1 − K1) < 1
(***) (1 − K2) < 2
7
G¨
ultigkeit dieser Abweichungen:
(1 − K) < ⇔
Var(¯
y.(mZ)) − Var(¯
y.(oZ))
Var(¯
y.(mZ))
<
n
1−
n−1
< ⇔ f :=
<+
N −1
N
N
d. h. es gilt ungef¨ahr ”relative Abweichung” =
ˆ Auswahlsatz f .
Beachte: Diese Aussage ist unabh¨angig(!) von der Varianz SY2 der Grundgesamtheit.
⇔
Die Ungleichungen (**) und (***) sind keine relativen Varianzabweichungen, da die
Varianzen aus Satz 1.5(iv) und Korollar 1.7(iv) Summanden in Abh¨angigkeit von µ2 und
µ4 sind, d. h. (**) und (***) m¨
ussen separat berechnet werden und es m¨
ussen µ2 und
µ4 ber¨
ucksichtigt werden.
Zentraler Grenzwertsatz f¨
ur die einfache Zufallsauswahl
Das Auswahlmodell der eZoZ f¨
uhrt zu dem statistischen Modell
• y1, . . . , yn sind identisch verteilt.
• E(y1) = Y¯ .
N −1 2
SY
• Var(y1) = µ2 =
N
• y1, . . . , yn sind stochastisch abh¨angig.
1
1 2
• Cov(y1, y2) = −
µ 2 = − SY
N −1
N
8
⇒ keine Anwendung des (normalen) Zentralen Grenzwertsatzes, da yi stochastisch
abh¨angig.
Dennoch kann ein Grenzwertsatz angegeben werden:
H´ajek, J. (1960). Limiting distributions in simple random sampling from a finite population.
Publications of the Mathematical Institute of the Hungarian Academy of Sciences 5,
361–374.
Voraussetzungen 1.9
Sei eine unendliche Folge von Urnen der Gr¨
oße Nν gegeben, aus denen eZoZ vom Umfang
nν gezogen werden. Weiterhin sei
•
•
•
•
nν → ∞ und (Nν − nν ) → ∞, falls ν → ∞.
Iν := {1, . . . , Nν }
Yνi, i ∈ Iν Merkmalswert in der GG ν
yνi, i = 1, . . . , nν Merkmalswert in der Stichprobe ν
)
(
r
Xnν
yνi
f¨
ur beliebige τ > 0.
• Iντ := i ∈ Iν : |Yνi − Y¯ν.| > τ Var
i=1
1 X
¯
Yνi
• Yν. :=
Nν i∈I
ν
9
Satz 1.10 (H´ajek, 1960)
Unter den Voraussetzungen 1.9 gilt
y¯ν. − E(¯
yν.)
* N (0, 1),
p
ν→∞
Var(¯
yν.)
dann und nur dann, wenn
P
Yνi − Y¯ν.
i∈Iντ
lim P
ν→∞
Yνi − Y¯ν.
2
2 = 0.
i∈Iν
(Bedingung vom Lindeberg-Typ)
Beweisidee: Weise nach, dass eZoZ asymptotisch ¨aquivalent zu einem Auswahlverfahren
mit stochastisch unabh¨angigen Zufallsvariablen ist.
Bemerkung 1.11
Gilt f¨
ur fν := nν /Nν die Beschr¨ankung 0 < < fν < 1 − f¨
ur ν > ν0, so kann man
auch die schw¨achere Noether-Bedingung
2
¯
max Yνi − Yν.
i∈Iν
lim P
2 = 0.
ν→∞
¯
Yνi − Yν.
i∈Iν
verwenden.
10
Definition 1.12
Seien x1, . . . , xN unabh¨angig identisch verteilte Zufallsvariablen mit W = P (x1 = 1),
x := [x1, . . . , xN ]T und X ∈ {0, 1}N eine Realisation von x.
Sei weiterhin I := {1, . . . , N } und s(I) ⊆ I eine beliebige Stichprobe aus I. Dann heißt
s(I) nach einer Poisson-Auswahl erzeugt (kurz: Poisson-Stichprobe), falls gilt
i ∈ I, Xi = 1 ⇔ i ∈ s(I).
Beispiel: N=10 , d. h. I = {1, 2, . . . , 10}
X = [0, 0, 0, 1, 1, 0, 0, 1, 0, 0] ⇒ s(I) = {4, 5, 8}.
Bemerkung 1.13
(i) Der Auswahlumfang einer Poisson-Auswahl ist eine Zufallsvariable k.
(ii) Eine eZoZ mit Bin(N, n/N )-verteilten Stichprobenumfang k f¨
uhrt zur Poisson¨
Auswahl. ( UA)
11
Lemma 1.14 (fundamentales Grenzwertlemma der Stichprobentheorie)
Voraussetzungen:
(i) n < N fest
(ii) k ∼ Bin(N, n/N ) und k0 sei eine Realisierung von k.
(iii) sn(I) eZoZ vom Umfang n und sk0 (I) Poisson-Stichprobe vom Umfang k0 derart, dass
(iv) η :=
X
sn(I) = sk0 (I)
falls
n = k0
sn(I) ⊂ sk0 (I)
falls
n < k0
sn(I) ⊃ sk0 (I)
falls
n > k0
∗
(yi − Y¯ .), η :=
X
(yi − Y¯ .)
i∈sk (I)
0
i∈sn (I)
Behauptung:
∗ 2
E(η − η )
≤
Var(η ∗)
s
1
1
+
n
N −n
Beweis:
η − η ∗ =


0






P
(yi − Y¯. )
falls k0 = n
falls k0 < n
i∈sn (I)6=sk (I)
0

P


(yi − Y¯. ) falls k0 > n



i∈sk (I)6=sn (I)
0
12
d.h. f¨
ur eine Realisation k0 von k liegt eine Stichprobe von Umfang |k0 − n| vor
h
i
∗ 2
∗ 2
∗
⇒ E[(η − η ) ] = E E(η − η ) | k = E Var(η − η ) | k




|k − n| X
|k − n| N − |k − n| X
2
2
·
·
(Yi − Y¯. )  ≤ E 
·
(Yi − Y¯. ) 
= E
N
N −1
N
i∈I
q
i∈I
E(k − n)2 = µ2 ·
√
Var k
= µ2 · E|k − n| ≤ µ2 ·
s
s
n
n
n
= µ2 · N ·
· 1−
= µ2 · n · 1 −
N
N
N


h
i
1
k N −k X
2
∗
2
¯

(Yi − Y. )
=
Var η = E Var(η | k) = E
·
·
· µ2 · E N k − k
N N −1
N −1
∗
i∈I
h
i
1
n
1
2
2
=
· µ2 · N · E k − Var k − (E k) =
· µ2 · N · n − n · 1 −
−n
N −1
N −1
N
h
i
n
n
n
2
=
· µ2 · N − 1 +
−n =
· µ2 · N − N + n − nN
N −1
N
N · (N − 1)
n
n
· µ2 · [N · (N − 1) − n · (N − 1)] = n · 1 −
· µ2
=
N · (N − 1)
N
∗ 2
⇒ (insgesamt):
E (η − η )
≤
Var η ∗
s
1
n) =
n · (1 − N
s
1
1
+
n
N −n
13
Bemerkung 1.15
(i) Lemma 1.14 besagt, dass die einfache Zufallsauswahl und die Poisson-Auswahl zu
asymptotisch gleichen Verteilungen f¨
uhren.
(ii) Da die Poisson-Auswahl auf u.i.v. Zufallsvariablen beruht, ist der ”normale” Zentrale
Grenzwertsatz hierauf anwendbar, d. h. ”Rest”-Beweis von Satz 1.10 durch Anwendung
des Zentralen Grenzwertsatzes von Lindeberg(-Feller) auf Poisson-Stichprobe (siehe
H´ajek, 1960)
(iii) Lemma 1.14 angewandt auf mit ν indizierte Urnen
2
E (ην − ην∗ )
=0
lim
ν→∞
Var(ην∗ )
(iv) Anwendungsregeln f¨
ur die G¨
ultigkeit
n > 50
µ23
n > 25 3
µ2
3/2
Beachte: Schiefekoeffizient µ3/µ2 ; unbekannte Struktur von Y1, . . . , YN beeinflusst
die Verteilung von y1, . . . , yn.
14
Satz 1.10 ist von großer praktischer Relevanz:
Korollar 1.16
y¯. − u1−α/2
q
q
c (¯
Var
y .) ; y¯. + u1−α/2
c (¯
Var
y .)
c (¯
¯ . Hierbei ist Var
ist approximativ
ein
(1
−
α)
-Konfidenzintervall
f¨
u
r
Y
y .) =
2
1
n
n 1 − N sy .
Korollar 1.17
Es gilt f¨
ur den notwendigen Stichprobenumfang n∗, so dass das (1 − α)-Konfidenzintervall
¯ . h¨ochstens eine L¨ange von 2 d hat,
f¨
ur Y
n0
∗
,
n >
1 + n0/N
wobei
n0 =
u1−α/2 sy
d
2
.
15
Gebundene Hochrechnung
Bislang ist man immer davon ausgegangen, dass bei der Erhebung an Ui ein Merkmal
Yi, i = 1, . . . , N , beobachtet werden kann, und dies die einzige Information u
¨ber die
Grundgesamtheit darstellt.
¯ . heißt dann freie Hochrechnung.
Die Sch¨atzung von Y
H¨aufig liegen aber weitere Informationen vor, z. B.
•
•
•
•
aus fr¨
uheren Auswahlen oder Vollerhebungen
durch Pilotstudien
Informationen der amtlichen Statistik
...
Diese Informationen sollen ausgenutzt werden und eine daran gebundene Hochrechnung
erfolgen.
Voraussetzung 1.18
Neben dem Merkmal Yi besitzt jede Untersuchungseinheit Ui noch ein Merkmal Xi,
i = 1, . . . , N .
16
Differenzensch¨
atzung
Satz 1.19
Bei einer eZoZ sei neben dem Merkmal Y ein Merkmal X erhoben und zus¨atzlich sei der
¯ bekannt. Dann gilt
Merkmalsdurchschnitt X.
ˆ
¯ = (¯
¯ ist ein erwartungstreuer Sch¨atzer f¨
¯ ..
(i) Y.
y. − x
¯.) + X.
ur Y
h
i
n
1
2
2
ˆ
¯
1−
SY + SX − 2 ρ SX SY
(ii) Var(Y.) =
n
N
n
X
n
1
1
2
ˆ
c (Y.)
¯ =
(yi − xi − y¯. + x
¯.)
(iii) Var
1−
n
N
n − 1 i=1
ˆ
¯ .
ist ein erwartungstreuer Sch¨atzer f¨
ur Var(Y.)
Beweis: (i) klar!
(ii) Sei di = (yi − xi ), i = 1, . . . , n, und Di = (Yi − Xi ), i = 1, . . . , N . Dann gilt
ˆ
¯
Var(Y.)
=
=
=
¯ = 1
Var(¯
y. − x
¯.) = Var(d.)
n
1
n
1
n
n
1−
N
N
1 X
¯ 2
Di − D.
N −1
i=1
N
n
1−
N
n
1−
N
2
2
SY + SX − 2ρSX SY
1 X
2
2
¯
¯
(Yi − Y .) + (Xi − X.) − 2(Yi − Y.)(Xi − X.)
N −1
i=1
(iii) klar!
17
Bemerkung 1.20
(i) Differenzensch¨atzer werden immer dann genutzt, wenn ein Zusammenhang der Form
Y = X + a, a ∈ IR, zu vermuten ist (z. B. bei Wahlen, Ernteertr¨agen, . . . )
(ii) Der Differenzensch¨atzer ist besser als der Mittelwertsch¨atzer y¯. aus freier
Hochrechnung, falls
2
SX
− 2 ρ SX
1 SX
<ρ
SY < 0 ⇔
2 SY
Verh¨
altnissch¨
atzung
Satz 1.21
¯
Bei einer eZoZ mit erhobenen Merkmalen Y und X und bekanntem Merkmalsmittel X.
sei
ˆ
¯ .,
¯ = X.
¯ y¯. der Verh¨altnissch¨atzer f¨
ur Y
(i) Y.
x
¯.
y¯.
Y¯ .
ˆ
(ii) R =
der Verh¨altnissch¨atzer f¨
ur R =
¯ .
x
¯.
X.
ˆ:
Dann gilt f¨
ur die Verzerrung von R
ˆ =−
B(R)
1
ˆ x
Cov(R,
¯.)
E(¯
x.)
18
Beweis:
ˆ
Cov R, x
¯.
=
=
y¯.
y¯.
ˆ E(¯
ˆ X.
¯
x
¯. − E
E
E(¯
x.) = E(¯
y .) − E(R)
x.) = Y¯ . − E(R)
x
¯.
x
¯.
¯
ˆ
ˆ
X. R − E(R) = E(¯
x.) −Bias(R)
=⇒ Beh.
Korollar 1.22
Unter den Voraussetzungen von Satz 1.21 gilt
ˆ ≤ CV(¯
|B(R)|
x.)
q
ˆ
Var(R)
mit CV(¯
x.) dem Variationskoeffizienten von x
¯.
¨
Beweis: UA
ˆ wegen der Verzerrung von R
ˆ
Dieses Korollar ist sch¨on, aber wenig n¨
utzlich, da Var(R)
ˆ anders angen¨ahert.
keine Aussagen erm¨oglicht. Deshalb wird B(R)
19
Satz 1.23
Unter den Voraussetzungen von Satz 1.21 ist
˜ (R)
ˆ = R CV(¯
B
x.) [CV(¯
x.) − ρ(¯
y ., x
¯.)CV(¯
y .)]
Beweis: Vorlesung
ˆ
ˆ und Y.
¯
Betrachte den mittleren quadratischen Fehler von R
Satz 1.24
Unter den Voraussetzungen von Satz 1.21 ist
h
i
n
1
1
2
2
2
ˆ =
] (R)
1−
(i) MSE
¯ 2 SY + R SX − 2 ρ R SX SY
n
N X.
ˆ = E(R
ˆ − R)2.
eine N¨aherungswert f¨
ur MSE(R)
h
i
1
n
2
2
2
ˆ
¯ =
] (Y.)
(ii) MSE
1−
SY + R SX − 2 ρ R SX SY
n
N
ˆ
ˆ
¯ = E(Y.
¯ − Y¯ .)2.
eine N¨aherungswert f¨
ur MSE(Y.)
ˆ = E(R
ˆ − R)2 = f (θ).
Beweis: analog zu Satz 1.23 mit MSE(R)
20
Bemerkung 1.25
(i) Die gebundene Hochrechnung liefert einen kleineren quadratischen Fehler als die freie
¯.,geb) < MSE(¯
] (Yˆ
Hochrechnung, d. h. MSE
y.,frei), falls
CV(X)
< 2 ρ,
CV(Y )
denn
¯.,geb ) < MSE(¯
] (Yˆ
MSE
y.,frei )
2
2
⇔
R SX − 2 ρ R SX SY < 0
⇔
CV(X)
<2ρ
CV(Y )
⇔
R S X < 2 ρ SY
⇔
SX
SY
<
2
ρ
¯
X.
Y¯ .
(ii) Sind X und Y proportional, d. h. Yi = a Xi, i = 1, . . . , N , so gilt
ˆ = 0,
] (R)
MSE
2
2
denn Yi = a Xi =⇒ SY
= a2 SX
, R = a, ρ = 1.
21
(iii) H¨angen X und Y linear voneinander ab, d. h. Yi = a + b Xi, i = 1, . . . , N , so
¯.,geb),
] (Yˆ
ist die freie Hochrechnung besser als die gebundene, d. h. MSE(¯
y.,frei) < MSE
falls
¯ 2 MSE(1/¯
b2 1
n
X.
x.)
> 2
1−
2
SX
a n
N
denn mit Yi = a + bXi folgt
¯ y¯.
X.
x
¯.
1
MSE(¯
y.,frei ) =
n
ˆ
¯.,geb ) = MSE
MSE(Y
und
¯ 2 MSE
= X.
n
1−
N
a + b¯
x.
x
¯.
1
2
SY =
n
¯ 2 a2 MSE
= X.
n
1−
N
2
1
x
¯.
2
b SX
⇒ Verh¨altnissch¨atzung ist gut bei proportionaler Abh¨angigkeit, schlecht bei linearer
Abh¨angigkeit mit großem Achsenabschnitt.
22
Verbesserung des Verh¨altnissch¨atzers durch Modifizierung des Auswahlverfahrens
Definition 1.26
Sind die Werte Xi, i = 1, . . . , N , bekannt und w¨ahlt man die erste Einheit der Stichprobe
mit Wahrscheinlichkeit proportional zur Gr¨
oße X einer Einheit sowie die restlichen (n − 1)
Einheiten als eZoZ, so heißt dieses Verfahren ppas-Auswahl (probability proportional to
aggregated size).
Satz 1.27
Bei ppas-Auswahl gilt:
y
¯
.
ˆ
¯ = E X.
¯
= Y¯ .
(i) E(Y.)
x
¯.


Pn
2
X(
yi)
1
1
2
ˆ
¯
−
Y.
(ii) Var(Y.) = 2  N −1 X.
Pi=1
n
N
i=1 xi
n−1
(∗)
"
#
Pn
2
N −1 Pn−1 Pn
y + 2 n−1
i=1
j=i+1 yi yj
ˆ
ˆ
c (Y.)
¯ 2 − X. i=1 i
¯ = 1 (N Y.)
(iii) Var
P
n
N2
i=1 xi
ˆ
¯
ist ein erwartungstreuer Sch¨atzer f¨
ur Var(Y.)
P
(
bedeutet Summe u
¨ber alle m¨
oglichen Stichproben)
(∗)
Beweis: Vorlesung
23
Regressionssch¨
atzung
Verh¨altnissch¨atzung ist dann schlecht, wenn eine Beziehung Y = A + B X besteht; dies
f¨
uhrt zur Idee der Regressionssch¨atzung
Satz 1.28
F¨
ur eine eZoZ und b0 ∈ IR fest gilt
ˆ = y¯. + b (X.
¯
¯ −x
¯.
(i) Y.
¯.) ist ein erwartungstreuer Sch¨atzer f¨
ur Y
0
n
1
2
2 2
ˆ
¯ =
1−
(SY − 2 b0 SXY + b0SX )
(ii) Var(Y.)
n
N
n
1
2
2 2
ˆ
c (Y.)
¯ =
1−
(sy − 2 b0 sxy + b0sx) ist ein erwartungstreuer Sch¨atzer
(iii) Var
n
N
ˆ
¯
f¨
ur Var(Y.)
¨
Beweis: UA
Bemerkung 1.29
ˆ
¯ → min! ⇔ b0 = SXY . F¨
(i) Var(Y.)
ur die Varianz gilt in diesem Fall
2
SX
ˆ
¯ = 1
Var(Y.)
n
1−
n
N
2
SY −
2
SXY
2
SX
!
24
(ii) Kennt man b0 nicht, so kann man den gew¨
ohnlichen KQ-Sch¨atzer an dessen Stelle
setzen; der Satz 1.28 gilt dann allerdings nur noch approximativ. Insbesondere gilt
dann f¨
ur die Varianz
n
1
2
2
ˆ
¯ =
1−
SY (1 − ρ )
Var(Y.)
n
N
Auswahl mit ungleichen Auswahlwahrscheinlichkeiten
Bis auf die Modifizierung der ppas-Auswahl wurde bislang immer von gleichen
Auswahlwahrscheinlichkeiten ausgegangen. Das ist nicht immer sinnvoll, z. B.
• Auswahl von Gemeinden
• Auswahl von landwirtschaftlichen Nutzfl¨achen
d. h. wenn die (absolute) Realisierung von einer externen Gr¨
oße der
Untersuchungseinheit abh¨angt.
⇒ Der Satz von Horvitz / Thompson
25
Voraussetzungen 1.30
Betrachtet wird ein beliebiges Auswahlverfahren, bei welchem jede Untersuchungseinheit
Ui, i = 1, . . . , N , h¨
ochstens ein Mal in die Auswahl gelangen kann. Sei
1 , falls Ui in der Stichprobe,
ti :=
0 , sonst,
und ci ∈ IR, i = 1, . . . , N , feste Koeffizienten.
Allgemeiner linearer Sch¨atzer
N
X
` :=
ci ti Yi
i=1
Mit diesem allgemeinen Ansatz k¨
onnen nun beliebige Parametrisierungen und beliebige
Auswahlverfahren betrachtet werden.
Lemma 1.31
Sei Πi die Wahrscheinlichkeit, dass Ui, und Πij die Wahrscheinlichkeit, dass Ui und Uj
in die Stichprobe gelangen. Dann gilt unter den Voraussetzungen 1.30
E(ti) = Πi, i = 1, . . . , N
Var(ti) = Πi(1 − Πi), i = 1, . . . , N
E(ti tj ) = Πij , i 6= j, i, j = 1, . . . , N
Cov(ti, tj ) = Πij − Πi Πj , i 6= j, i, j = 1, . . . , N
N
X
(v) E(`) =
ci Πi Yi
(i)
(ii)
(iii)
(iv)
i=1
26
¯ . sein, so muss
Soll ` erwartungstreu f¨
ur Y
N ci =
1
, i = 1, . . . , N,
Πi
definiert werden. F¨
ur diesen Sch¨atzer gilt der wichtigste Satz der Stichprobentheorie:
Satz 1.32 (Horvitz-Thompson-Varianzformel)
Sei Π0i, i = 1, . . . , n, die Auswahlwahrscheinlichkeit
Untersuchungseinheit in der Stichprobe und
der
i-ten
gezogenen
n
X
1
1
ˆ
¯ HT :=
Y.
yi
N i=1 Π0i
¯ . Dann gilt
der Horvitz-Thompson-Sch¨
atzer f¨
ur Y


N
N X
N
X

X
1
(1
−
Π
)
Π
−
Π
Π
i
ij
i
j


2
ˆ
¯ HT) =
Var(Y.
Y
+
Y
Y


i
j
i

N 2  i=1
Πi
Π
Π
i
j
i=1 j=1
i6=j
falls Πi > 0 f¨
ur alle i = 1, . . . , N.
27
Beweis:

ˆ
¯ HT )
Var(Y.
=
=
1
Var 
N2
N
X
i=1
=
1
ti Yi 
Πi
N N
1 XX
Cov
N2
i=1 j=1

1
1
ti Yi ,
tj Y j
Πi
Πj
!
N N
1 X X Yi Yj
= 2
Cov ti , tj
N
Πi Πj
i=1 j=1










N
N
N
2


X
X
X
Y
Y
Yi
1
i j
Πi (1 − Πi ) +
Πij − Πi Πj
2

N2 
Π
Π
Π


i j


i=1 j=1
i=1 i




i6=j
Horvitz, D.G., Thompson, D.J. (1952): A generalization of sampling without replacement
from a finite universe. Journal of the American Statistical Association 47, 663-685.
Mit diesem Satz kann im Prinzip jedes beliebige Auswahlverfahren (mit oder
ohne Zur¨
ucklegen) behandelt werden. Bei Auswahlverfahren mit Zur¨
ucklegen ist
n in Satz 1.32 die Anzahl der unterschiedlichen Untersuchungseinheiten in der
Stichprobe.
Die Sch¨atzung der Varianz erfolgt durch:
28
Satz 1.33


0
0
0
n
n X
n
0
X

X
Π
−
Π
Π
1
−
Π
1
ij
i
j


2
i
ˆ
¯
\
y
+
Var
y
y


HT (Y.HT ) =
i
j
i
0 Π0 Π0

N 2  i=1 (Π0i)2
Π
ij
i
j
i=1 j=1
i6=j
ˆ
¯ HT),
ist unter den Voraussetzungen 1.30 und 1.32 ein erwartungstreuer Sch¨atzer f¨
ur Var(Y.
falls Πij > 0 f¨
ur alle i 6= j , i, j = 1, . . . , N .
Beweis: Seien f und g beliebige reelle Funktionen, dij ∈ IR beliebige Konstanten, `1 =
und `2 =
n X
n
X
ti ci f (Yi )
i=1
ti tj dij g(Yi ) g(Yj ). Dann gilt
i=1 j=1
i6=j
E(`1 ) =
N
X
ci f (Yi ) Πi
und
E(`2 ) =
i=1
2
Setze f (Y ) = Y , ci =
N
X
1 − Πi 2
E(`1 ) =
Yi
Πi
i=1
N
X
,
dij g(Yi ) g(Yj ) Πij
i=1 j=1
i6=j
1 − Πi
Π2i
N X
N
X
, g(Y ) = Y , dij =
E(`2 ) =
Πij − Πi Πj
Πij Πi Πj
N X
N
X
Πij − Πi Πj
i=1 j=1
i6=j
Πij Πi Πj
, dann gilt
Yi Yj
1
ˆ
¯ HT ).
und E
(`1 + `2 ) = Var(Y.
2
N
29
Bemerkung: Ausgesprochen wichtig ist, dass f¨
ur das Auswahlverfahren
Πi > 0 ∀i
und
Πij > 0 ∀i, j, i 6= j
gelten muss!!!
ABER: Der erwartungstreue Varianzsch¨atzer kann negative Sch¨atzwerte liefern.
Falls der tats¨achliche Stichprobenumfang n fest ist, l¨asst sich die Varianz des HorvitzThompson Sch¨atzers und des unverzerrten Varianzsch¨atzers nach Yates und Grundy (1953,
JRRS B 15, 253-261) wie folgt darstellen:
Satz 1.34
ˆ
¯ HT gilt:
F¨
ur den Horvitz-Thompson-Sch¨atzer Y.


2 
N X
N
X
Y
Y
1
i
j


ˆ
¯ HT) =
(Π
Π
−
Π
)
−
(i) Var(Y.


i
j
ij
N 2  i=1 j=1
Πi
Πj 
i<j
30


0
0
0
n X
n
X
−
Π
Π
Π
1
ij
j
i

ˆ
¯
\
(ii) Var

YG (Y.HT ) =
n2  i=1 j=1
Π0ij
yi
yj
−
Π0i
Π0j
!2




i<j
Aus diesem allgemeinen Ansatz von Horvitz und Thompson kann ein weiteres wichtiges
Resultat hergeleitet werden:
Satz 1.35
Seien z1, . . . , zn unkorrelierte Zufallsvariablen mit E(zi) = µ, i = 1, . . . , n. Dann gilt
n
X
1
2
c
(zi − z¯.)
Var(¯
z .) =
n (n − 1) i=1
ist ein erwartungstreuer Sch¨atzer f¨
ur Var(¯
z .)
31
Beweis:
n
1X
E(zi ) = µ,
E(¯
z .) =
n
2
2
E(zi zj ) = Cov(zi , zj )+µ = µ (unkorreliert),
2
2
Var(¯
z .) = E(¯
z . )−µ
i=1
n
X
2
(zi − z¯.)
n
X
=
i=1
!2
−
zi
n
X
2
2
zi zj +
zi − n z¯. =
i=1 j=1
i=1
=
n X
n
X
2
2
(n z¯.) − n z¯. −
i=1
n X
n
X
⇒E
1
n (n − 1)
!
(zi − z¯.)
i=1
2
!2
zi
i=1
2
zi zj = n(n − 1)¯
z. −
i=1 j=1
i6=j
n
X
n
X
n X
n
X
−
n X
n
X
2
zi zj − n z¯.
i=1 j=1
i6=j
zi zj
i=1 j=1
i6=j
n
n
XX
1
2
2
= E(¯
z . )−
E(zi zj ) = Var(¯
z .)+µ −µ = Var(¯
z .)
n(n − 1)
2
i=1 j=1
i6=j
Bemerkung: Die Voraussetzung in Satz 1.35 beinhaltet keine identischen Verteilungen,
d. h. insbesondere keine identischen Varianzen.
Konfidenzintervall:
ˆ
¯ HT ±
Y.
q
ˆ
¯
\
Var
HT (Y.HT ) u1−α/2
Eine wichtige Anwendung: pps-Verfahren
32
pps-Verfahren
Beispiel: Auswahl aus einer Grundgesamtheit mit Geschlechterverh¨altnis m¨
annlich :
weiblich = 2 : 1 in der Form, dass 100 M¨anner und 100 Frauen in die Stichprobe gelangen
⇒ M¨anner haben geringere ”Chance” in die Stichprobe zu gelangen.
⇒ M¨anner sind ”unterrepr¨asentiert”.
Definition 1.36
Sei Pi > 0 die Wahrscheinlichkeit beim einmaligen Ziehen Ui aus der Grundgesamtheit
PN
zu entnehmen,
Pj = 1. Sei Xi ein bekanntes zus¨atzliches Merkmal von Ui
Pj=1
N
ur alle i = 1, . . . , N . Dann heißt eine solche Auswahl
und Pi = Xi/ j=1 Xj f¨
pps-Auswahl (probability proportional to size) mit Zur¨
ucklegen.
Bemerkung: Das obige Auswahlverfahren beschreibt (zun¨achst) eine Stichprobe vom
Umfang eins.
Realisierungsm¨
oglichkeiten von pps-Auswahlen
Ziehungstechnik 1:
Verfahren zum Ziehen einer Einheit / Zufallszahlen
" k−1
!
k
X
X
Ik :=
Pi ,
Pi , |Ik | = Pk , k = 0, 1, . . . , N, P0 := 0
i=0
i=0
z Zufallszahl aus [0, 1], z ∈ Ik ⇒ w¨ahle Uk
33
Voraussetzung ist, dass alle Pi bekannt sind und die Untersuchungseinheiten angeordnet
werden k¨onnen!
Ziehungstechnik 2:
Verfahren zum Ziehen einer Einheit / Zufallszahlen
Xmax := max Xi,
i=1,...,N
X0 ≥ Xmax
Algorithmus:
1. Schritt: z1 diskrete Zufallszahl aus {1, . . . , N }, w¨ahle Uz1 vorl¨aufig
2. Schritt: z2 stetige Zufallszahl aus [0, X0]
falls Xz1 ≥ z2 ⇒ w¨ahle Uz1 endg¨
ultig ⇒ STOP
falls Xz1 < z2, gehe zu Schritt 1
Lahiri-Verfahren f¨
uhrt zu pps-Auswahl, denn
p˜ := Wahrscheinlichkeit, dass bei einem Durchgang eine Einheit gezogen wird;
p˜ =
N
X
i=1
q˜ := 1 − p˜, d.h.
Z X
N
¯
X
i 1
X.
1 Xi
=
, da
du = P (z2 ≤ Xi ),
P (Ui in Stichprobe) =
N X0
X0
X0
0
z2 ∼ U [0, X0 )
i=1
34
p˜i = Wahrscheinlichkeit, dass bei einem Durchgang Ui gezogen wird =
Pi
=
Wahrscheinlichkeit, dass Ui gezogen wird =
∞
X
Xi
N X0
P (Ui im j -ten Durchgang und nicht(s) vorher)
j=i
=
∞
Xi
Xi
Xi X k
Xi
1
2 Xi
3 Xi
+ q˜
+ q˜
+ q˜
+ ··· =
q˜ =
N X0
N X0
N X0
N X0
N X0
N X0 1 − q˜
k=0
=
1 Xi 1
1 Xi X0
Xi
=
=
P
N
¯
N X0 p˜
N X0 X.
Xj
j=1
Vorteil: es sind nur die Xz1 als bekannt vorauszusetzen (Kosten- und Zeitersparnis)
Ziehungstechnik 3:
Verfahren zum Ziehen einer Stichprobe vom Umfang n mit Zur¨
ucklegen
wiederhole Ziehungstechnik 1 bzw. 2 n-mal
35
Satz 1.37
Bei n-maliger Wiederholung einer pps-Auswahl mit Zur¨
ucklegen gilt:
n
1 X yi
ˆ
¯.
¯
ist erwartungstreu f¨
ur Y
(i) Y. =
N n i=1 pi
ˆ
¯ =
(ii) Var(Y.)
N
X
1
N2 n
Pi
i=1
1
ˆ
c (Y.)
¯ = 1
(iii) Var
N 2 n(n − 1)
(Hansen-Hurwitz Sch¨
atzer)
2
Yi
1
= 2
− Y.
Pi
N n
n
X


i=1
1
yi
−
pi
n
n
X
j=1
N
X
Y2
i
i=1
Pi
!
2
− Y.
2
yj
ˆ
¯
 ist erwartungstreu f¨
ur Var(Y.)
pj
Beweis: Vorlesung
Folgerung 1.38
Unter den Voraussetzungen von Satz 1.37 und Pi = Xi/X., i = 1, . . . , N , gilt
ˆ
¯ =
Var(Y.)
1
N
N X
X
N 2 n i=1
j=1
i<j
"
Xi Xj
Yi
Yj
−
Xi
Xj
2 #
N
X. X
= 2
Xi
N n i=1
Yi
−R
Xi
2
36
Beweis:
N X
N
X
Yj
Yi
−
Xi
Xj
Xi Xj
i=1 j=1
i<j
=
N X
N
X
Yi2 Xj
Xi
i=1 j=1
i<j
=
N
X
Y2
i
i=1
=
X.
Xi
N
X
i=1
2
!2
+
X. − Y. =
Yj2 Xi
Xj
N X
i=1
Xi
!
− 2 Yi Yj
=
N X
N
X
Yi2 Xj
i=1 j=1
Xi
−
N
X
i=1
2
Yi −
N X
N
X
i=1 j=1
Yi Yj +
N
X
i=1
2
N X
Yi
Xi
Yi
Y. 2
− Y.
=
−
Xi X.
Xi /X.
X.
Xi
X.
i=1
2
Yi
−R
Xi
Bemerkung:
ˆ
¯ ist im pps-Verfahren klein, falls Y und X nahezu proportional
(i) Var(Y.)
¨
(ii) Verhalten bei linearer Abh¨angigkeit, siehe UA
37
2
Yi
Allgemein gilt:
Lemma 1.39
ˆ
¯ pps < Var (¯
Var Y.
y .eZmZ )
dann und nur dann, wenn
N
X
i=1
Yi2
¯
>0
Xi − X.
Xi
(! Dies bedeutet hohe Korrelation!)
Beweis:
2
N
N
X
X
2
X.
Y
Y.
1
1
i
ˆ
¯ pps < Var (¯
Var Y.
y .eZmZ ) ⇔ 2
Xi
−
<
Yi − Y¯ .
N n
Xi
X.
nN
i=1
⇔
N
X. X
N2
i=1
⇔
Yi2
Y.2 Xi
Yi Y.
+
−
2
Xi
X.2
X.
!
N
1 X 2
2
<
Yi − Y¯ .
N
i=1
N
N
N
N
2
X
X
Y
Y.2
1 X 2
X. X Yi2
Y.2
2
2
i
¯ . ⇔ X.
¯
+
Y
−
Y
−
Y
<0
−
2
<
i
i
N2
Xi
N2
N2
N
Xi
i=1
⇔
i=1
N
X
i=1
2
Yi
i=1
i=1
i=1
¯
N
N
X
X
Yi2 ¯
Yi2
X.
¯ >0
−1 <0⇔
X. − Xi < 0 ⇔
Xi − X.
Xi
Xi
Xi
i=1
i=1
38
Ziehungstechnik 4:
Zur¨
ucklegen / direkt
Verfahren zum Ziehen einer Stichprobe vom Umfang n ohne
Xi
f¨
uhrt zur Einheit U1
X.
Xi
2. Schritt: pps-Auswahl mit P˜i =
f¨
uhrt zur Einheit U2
X. − X1
Xi
˜
˜
3. Schritt: pps-Auswahl mit Pi =
f¨
uhrt zur Einheit U3
X. − X1 − X2
...
Xi
∗
f¨
uhrt zur Einheit Un
n. Schritt: pps-Auswahl mit Pi =
Pn−1
X. − i=1 Xi
1. Schritt: pps-Auswahl mit Pi =
Ziehungstechnik 5: Verfahren zum Ziehen einer Stichprobe vom Umfang n ohne
Zur¨
ucklegen / systematische pps-Auswahl
Ik =
" k−1
X
i=0
Xi,
k
X
#
Xi,
, |Ik | = Xk , k = 0, . . . , N, X0 := 0
i=0
X.
X.
, z` := z1 + (` − 1) , ` = 2, . . . , n
z1 Zufallszahl aus 0,
n
n
z` ∈ Ik ⇒ w¨ahle Uk , ` = 1, . . . , n
39
Bemerkungen:
X.
, so ist die Stichprobe vom Umfang n definiert.
n
X.
• Ist Xi >
, so gelangt Ui mit Wahrscheinlichkeit eins in die Stichprobe und das
n
X.
Verfahren ist keine pps-Auswahl. Falls Xi >
n
1. M¨oglichkeit: Mehrfachauswertung (praxisgerecht)
2. M¨oglichkeit: ”Restgesamtheitsverfahren”, Beispiel:
• Ist Xi <
i
1
2
3
4
5
6
7
8
9
10
Xi 300 90 10 10 50 210 10 10 300 10
n = 4, X. = 1000, ⇒ d = 250 ⇒ U1 und U9 in die Stichprobe.
Restgesamtheit
i
2
3
4
5
6
7
8
10
0
Xi 90 10 10 50 210 10 10 10
n0 = 2, X.0 = 400, ⇒ d0 = 200 ⇒ U6 in die Stichprobe
⇒ von 4 Stichprobenelementen wird nur eines, n¨amlich das letzte, zuf¨allig ausgew¨ahlt.
• Ziehungstechnik setzt geordnete Grundgesamtheit voraus
• 50 Modifikationen in Brewer, K.R.W., Hanif, M. (1983), Sampling with unequal
probabilities, Springer, New York.
40
Neben solchen ”Feinheiten” treten zwei Hauptprobleme bei pps-Auswahlen auf:
Lemma 1.40
F¨
ur n = 2 und Ziehung gem¨aß Ziehungstechnik 4 gilt


N

X
Pj 


(i) Πi = Pi 1 +


1
−
P
j
j=1
j6=i
(ii) Πij = Pi Pj
1
1
+
1 − Pi
1 − Pj
¨
Beweis: UA
F¨
ur n > 2 m¨
ussen Approximationen angegeben werden.
Satz 1.41
X.
Sei {Y1, . . . , YN } zuf¨allig geordnet, Xi <
f¨
ur alle i = 1, . . . , N , und eine ppsn
Stichprobe ohne Zur¨
ucklegen nach Ziehungstechnik 5 (Kumulationsverfahren) erhoben.
Dann gilt:
41
2
N X
Y
1
i
ˆ
¯ kum) '
(i) Var(Y.
− Y¯ . Pi Ci
n i=1 N Pi
mit Ci = 1 − (n − 1)Pi, i = 1, . . . , N
ˆ
c (Y.
¯ kum) '
(ii) Var
n X
n
X
1
n − 1 i=1
j=1
i<j
yi
yj
−
N Π0i
N Π0j
!2
1−
0
Πi
0
Πj
1
+
n
n
X
!
0 2
(Πi)
i=1
Beweis: Hartley, H.O., Rao, J.N.K. (1962). Sampling with unequal probabilities and
without replacement. AMS 33, 350-374.
Bemerkung:
(i) Satz 1.41 ist Folge von Satz 1.32.
n
(ii) Ist Πi =
⇒ Formeln wie bei eZoZ
N
(iii) Ist Ci ≡ 1 ⇒ Formeln Satz 1.37
42
Ein weiteres Problem der pps-Auswahl ergibt sich im homograden Fall, d. h. bei der
Sch¨atzung von Anteilen
¨
Ubliche
Transformation
1 , falls Ui Eigenschaft besitzt
Yi =
0 , sonst
oder
Y˜i =
0
1
,
,
falls Ui Eigenschaft besitzt
sonst
ˆ
¯
ˆ
¯ pps + Y.
˜ pps = 1
Y.
Dann gilt nicht notwendigerweise
Beispiel: N = 10, n = 3
i
Yi
Pi
1
1
1/2
2
0
1/10
3
1
1/20
4
0
1/20
5
0
1/20
6
0
1/20
7
0
1/20
8
0
1/20
9
0
1/20
10
0
1/20
pps-Auswahl: Y1, Y2, Y3
ˆ
¯ pps
Y.
ˆ
¯
˜ pps
Y.
=
1
10 · 3
=
1
10 · 3
1
0
1
+
+
1/2
1/10
1/20
0
1
0
+
+
1/2
1/10
1/20
=
22
11
=
30
15
=
10
5
=
30
15
43
Systematische Auswahl mit zuf¨
alligem Start
Forderung: einfach zu realisierende Auswahl
Durchf¨
uhrung:
•
•
•
•
geordnete Grundgesamtheit
Bestimmung einer Schrittl¨ange d
zuf¨allige Auswahl der ersten Stichprobeneinheit
systematische Auswahl: jede d-te Einheit
Vorteile:
•
•
•
•
Kenntnis von N ist nicht unbedingt erforderlich
Auswahl ohne Auswahlgrundlage m¨
oglich
Minimierung der Fehler in der Feldarbeit
Kosten- und Zeiterspanis
Probleme:
• St¨orung der Repr¨asentativit¨at bei Systematik der GG
• nur ein Element wird zuf¨allig erhoben (Varianzsch¨atzung?)
44
Definition 1.42
N
und z eine Zufallszahl aus {1, . . . , d}.
n
Ermittelt man eine Stichprobe vom Umfang n durch
(i) Sei {U1, . . . , Un} eine geordnete GG, d :=
Uz , Uz+d, Uz+2d, . . . , Uz+(n−1)d,
so heißt das Verfahren systematische Auswahl mit zuf¨alligem Start z und Schrittl¨ange
d.
(ii) Die Merkmalswerte der GG werden dann auch mit yij , i = 1, . . . , d, j = 1, . . . , n.
Schema:
Nr. der Stichprobe
1
2
···
j
···
n
1
...
i
yi1 yi2 · · ·
yij · · ·
yin
...
d
Interpretationsm¨oglichkeiten:
• Schichten {(1, . . . , d), (d + 1, . . . , 2d), . . .} ⇒ geschichtete Auswahl mit Umfang
jeweils 1
• Klumpen {alle m¨oglichen d Stichproben} ⇒ einfache Zufallsauswahl von einem
Klumpen des Umfangs n
Frage: N = d n?
45
Auswahlmodelle
Voraussetzung: N bekannt
1. Fall: Schrittl¨
ange d ist vorgegeben
⇒ n ist abh¨angig von z
N = (n − 1)d + r
 N
N


−
 d
d
d
mit r =


 d
,
,
N
N
falls
6
=
d
d
N
N
falls
=
d
d
z≤r
⇒ Umfang = n
r < z ≤ d ⇒ Umfang = n − 1
r=d
⇒ Umfang = n (unabh¨angig von z )
Lineares Auswahlmodell A:
z aus {1, . . . , d} ⇒ Uz , Uz+d, Uz+2d, . . . ausw¨ahlen
Lineares Auswahlmodell B:
z 0 aus {1, . . . , N } ⇒ r 0 :=
mod (z 0/d) ∈ {0, . . . , d − 1}

r0 = d − 1 ⇒ z = 1 


0
r =d−2 ⇒ z =2
⇒ ..
⇒ weiter wie A
.



0
r =0
⇒ z=d
(Stichproben habe unterschiedliche Auswahlwahrscheinlichkeiten)
46
Zirkul¨
ares Auswahlmodell nach Lahiri
Skizze in Vorlesung
z aus {1, . . . , d} ⇒ Uz , Uz+d, Uz+2d, . . . , Uz˜ mit z˜ ≤ z ausw¨ahlen
(Stichprobenumfang immer gleich n)
2. Fall: Stichprobenumfang n ist vorgegeben
Auswahlmodelle analog zu oben und
Auswahlmodell mit periodisch wechselnden Auswahlabst¨
anden
⇒
(n − r 0)-mal Schrittl¨ange
r 0-mal Schrittl¨ange
N
0
0
= d Rest r
n
d = d0
d = d0 + 1
Sch¨
atzverfahren
Auch bei systematischer Auswahl ist y¯. ein sinnvoller Sch¨atzer, dessen Eigenschaften aber
vom Auswahlmodell bestimmt werden.
47
Satz 1.43
(a) Sei N = nd, dann gilt:
¯.
y¯. ist erwartungstreu f¨
ur Y
unabh¨angig vom verwendeten Auswahlmodell.
(b) Sei N 6= nd, dann gilt:
¯ .,
y¯. ist erwartungstreu f¨
ur Y
(i) falls nach Auswahlmodell
B oder
nach Lahiri ausgew¨ahlt wurde
N
− 1 , falls nach Auswahlmodell A ausgew¨ahlt wurde.
(ii) E(¯
y .) = Y¯ . + Y¯.
n0 d
Dabei ist N = (n − 1)d + r und n0 der tats¨achlich realisierte Stichprobenumfang.
¨
Beweis: UA
Bemerkung: B(¯
y .) = Y¯.
N
−1
0
nd
in (ii) ist (h¨aufig) nicht praxisrelevant.
Wegen Satz 1.43 kann in guter Approximation von der Voraussetzung
E(¯
y .)
=
Y¯ .
N
=
nd
ausgegangen werden.
48
Satz 1.44
Bei einer systematischen Stichprobe mit N = nd gilt
Var(¯
y .) =
N1 2
N −1 2
SY −
S ,
N
N W
wobei
d
2
SW
n
1 XX
2
=
(yij − y¯i.) (Variabilit¨at innerhalb der ”Stichproben”)
N − 1 i=1 j=1
Beweis:
Var(¯
y .) = E y¯i. − Y¯ .
2
d
1X
2
=
(¯
yi. − y¯..)
d
(¯
y .. = Y¯ .)
i=1
Betrachte die Streuungszerlegung:
d X
n
X
d X
n
d
X
X
2
2
2
yij − y¯.. =
yij − y¯i. + n
(¯
yi. − y¯..)
i=1 j=1
i=1 j=1
i=1
d
n
d
2
2
1 XX
1 XX
N −1 2
N −1 2
n yij − y¯i. =
SY −
SW
⇒ Var(¯
y .) =
yij − y¯.. −
dn
dn
N
N
i=1 j=1
i=1 j=1
Varianz h¨angt von den Stichproben untereinander ab
⇒ (Interpretation wie beim Klumpenverfahren): Intraklasskorrelation
49
Folgerung 1.45
Sei
N
Pd
i=1
Pn
Pn
ρw =
j 0 =1 (yij
j=1
j6=j 0
− Y¯ .)(yij 0 − Y¯ .)
dn(n − 1)(N − 1)SY2
die Intraklasskorrelation der systematischen Auswahl, dann gilt
Var(¯
y .) =
N −1 2
S (1 + (n − 1)ρw )
Nn Y
Beweis:
Var(¯
y .)
=
=
1
d
d
X
y¯i. − Y¯ .
2
i=1
=
1
d
d
X


i=1
1
n
n
X
2
yij − Y¯ . =
j=1
1
d
d
X
i=1

1

n2
n
X
2
(yij − Y¯ .)
j=1
d
n
n
1 XX X
(yij − Y¯ .)(yij 0 − Y¯ .)
2
dn
0
i=1 j=1 j =1
=
X
d X
n
d X
n X
n
X
1
2
(yij − Y¯ .) +
(yij − Y¯ .)(yij 0 − Y¯ .)
2
dn
0
i=1 j=1
=
i=1 j=1 j =1
j6=j 0
i
1
1 h
2
2
2
(N
−
1)
S
+
(n
−
1)
(N
−
1)
S
ρ
=
(N
−
1)
S
(1 + (n − 1)ρw )
w
Y
Y
Y
d n2
N n
50
Folgerung 1.46
1
Var(¯
y .sys) < Var(¯
y .eZoZ ) ⇔ ρw < −
N −1
Satz 1.47
n
N − n 02 02
1 X
2
(yij − y¯i.)
Sei N = nd, v =
sy , sy =
Nn
n − 1 j=1
h
i
N −1 2 N −n
⇒ E(v) =
Sy
(1 − ρw )
6= Var(¯
y .sys)
Nn
N
Bemerkung:
c (¯
(i) v =
ˆ Var
y .) bei eZoZ
1
N −1
≈ 0 (zuf¨allige Ordnung der GG),
(ii) v erwartungstreu ⇔ ρw = −
(iii) praxisrelevant, falls ρw
Auswahlsatz)
N −n
N
≈ 1 (kleiner
⇒ Ber¨
ucksichtigung von Strukturen der GG: zuf¨allige Anordnung, lineare Anordnung,
periodische Anordnung
51
§2 Geschichtete Auswahlverfahren
Definition 2.1
Zerlegt man eine GG von N Einheiten in L disjunkte Teilmengen vom Umfang Nh, mit
PL
N =
h=1 Nh , und werden den Nh Einheiten der h-ten Teilmenge nh Einheiten
unabh¨angig und zuf¨allig entnommen, so heißt das Auswahlverfahren geschichtete
Zufallsauswahl.
Definition 2.2
Es bezeichne in der GG
N
L
Nh
Wh = Nh/N
Yhi
Nh
X
Y¯h. =
Yhi/Nh
Y¯ .. =
2
Sh =
i=1
Nh
L X
X
h=1 i=1
Nh
X
Umfang
Anzahl der Schichten
Umfang in Schicht h
Gewicht der Schicht h
Merkmal von Einheit i in Schicht h
Yhi/N
2
Yhi − Y¯h. /(Nh − 1)
Schichtvarianz
i=1
In der Stichprobe entsprechend mit kleinen Buchstaben.
52
Satz 2.3
Zieht man aus jeder Schicht unabh¨angige eZoZ, so gilt
ˆ =
¯
(i) Y..
L
X
¯ ..
Wh y¯h. ist erwartungstreu f¨
ur Y
h=1
L
X
1
nh
2 1
ˆ
c (Y..)
¯ =
(iii) Var
Wh
nh
h=1
ˆ
¯ =
(ii) Var(Y..)
2
Wh
h=1
L
X
nh
1−
Nh
nh
1−
Nh
2
Sh
2
ˆ
¯
sh ist erwartungstreu f¨
ur Var(Y..)
¨
Beweis: UA
Schichtungseffekt: F¨
unf wesentliche Aspekte
•
•
•
•
•
Stichprobenplan je Schicht
Schichtungsvariable
Schichtgrenzen
Aufteilung des Stichprobenumfangs
Anzahl der Schichten
ˆ
¯ minimieren
Ziel: Schichtungseffekt maximieren ⇔ Var(Y..)
53
Voraussetzungen
(I) eZoZ in jeder Schicht
(II) Schichtungsvariable ist bekannt
(III) Anzahl L der Schichten vorgegeben
(A) Aufteilungsproblem
Zus¨atzliche Voraussetzung:
(IV) Schichtgrenzen vorgegeben
• Einfache Aufteilungen
– gleichm¨aßige Aufteilung: nh = n/L, h = 1, . . . , L
– proportionale Aufteilung: nh = Wh n, h = 1, . . . , L
ˆ
¯ = y¯.
(selbstgewichtende Stichprobe: Y..
konstante Auswahls¨atze: f = nh/Nh = n/N )
– Aufteilung nach der Auswahl: nh als Zufallsvariable, h = 1, . . . , L
• Optimale Aufteilung
54
Einschub: Aufteilung nach der Auswahl
Satz
Wird eine einfache Zufallsstichprobe nachtr¨aglich geschichtet und ist dann n0h der (zuf¨allige)
Stichprobenumfang der h-ten Schicht, h = 1, . . . , L, dann gilt
1
ˆ
¯
(a) Y.. =
N
L
X
1
Nh 0
nh
h=1
n0h
X
¯ ..
yhi ist ein erwartungstreuer Sch¨atzer f¨
ur Y
i=1
L
L
X
X
N
−
n
1
2
2
ˆ
¯ ≈
(b) Var(Y..)
Wh Sh + 2
(1 − Wh)Sh
N n h=1
N h=1


0
nh
L
L
0 X
X
X
N
1
1
1
n
N
−
n
h

2
2
2
h
ˆ
ˆ
c (Y..)
¯..2 +
¯ =
y
−
N
Y
1
−
s
(c) Var

hj
h
h
n (N − 1) N h=1 n0h j=1
N 2 h=1
n0h
Nh
55
Satz 2.4
Sei ein geschichtetes Auswahlverfahren unter den Voraussetzung (I) – (IV) gegeben.
Sei weiterhin
L
X
C = C0 +
c h nh
h=1
die f¨
ur die Untersuchung zur Verf¨
ugung stehenden Kosten. Dann gilt:
√
ch
W
S
/
h
h
∗
nh = n
L
P
√
Wg Sg / cg
g=1
mit
L
P
n = (C − C0)
√
Wh Sh/ ch
h=1
L
P
Wh Sh
√
ch
h=1
ˆ
¯ unter der Nebenbedingung C = C0 + PL ch nh
minimiert Var(Y..)
h=1
Beweis: Vorlesung
56
Bemerkung
(i) Sind die Konstanten in allen Schichten gleich, d.h. ch ≡ c, dann gilt
L
X
nh =
h=1
C − C0
=n
c
(ii) Neyman, J. (1934), Tschuprow, A.A. (1923) ⇒ optimale Aufteilung, NeymanTschuprow-Aufteilung
Bemerkung 2.5
Nachteile/Probleme bei der optimalen Aufteilung
•
•
•
•
Sh unbekannt
∗
nh > Nh m¨oglich
∗
nh 6∈ IN
Restriktion muss exakt erf¨
ullt sein
d. h. n∗h ist nur pseudo-optimale L¨
osung
57
(B) Schichtungsproblem
Die Voraussetzung (IV) wird hier nicht angenommen, d. h. nur die Voraussetzungen (I) –
(III). Hinzu kommen
Annahmen 2.6
(i) der Wertebereich des Y -Merkmals sei [a, b] ⊆ IR
(ii) die L Schichten werden durch L + 1 Stratifikationspunkte
a = y0 < y1 < y2 < · · · < yL−1 < yL = b
definiert ⇒ Schichtenbildungsproblem:
Minimiere
ˆ
¯
z(y1, . . . , yL−1) = Var(Y..)
unter den Restriktionen
a = y0 < y1 < y2 < · · · < yL−1 < yL = b,
yh ≥ 0
L¨osungsstrategien:
• Dalenius-Gleichungen
• Heuristik
• Methoden aus OR
58
Dalenius-Gleichungen
Dalenius, T. (1950). The problem of optimum stratification. Skandinavisk Aktuarietidskrift
33, 203–213.
Voraussetzungen: (I), (II), (III), Annahmen 2.6 und
Definition 2.7
Sei auf der GG eine st¨
uckweise stetige Dichte f definiert. Dann definiere
Z yh
(a) ph =
f (y) dy, h = 1, . . . , L
yh−1
1
(b) µh =
ph
Z
1
ph
Z
2
(c) σh =
yh
y f (y) dy,
yh−1
yh
2
h = 1, . . . , L
(y − µh) f (y) dy,
h = 1, . . . , L
yh−1
¯h. und S 2
Definition 2.7 beinhaltet die stetigen Verallgemeinerungen von Wh, Y
h
Lemma 2.8
ˆ
¯ ,
In der stetigen Parametrisierung gem¨aß Definition 2.7 gilt f¨
ur die Varianz von Var(Y..)
falls mit Zur¨
ucklegen gezogen wird,
L
LX 2 2
ˆ
¯
(a) Varglm(Y..) =
ph σh bei gleichm¨aßiger Aufteilung
n h=1
59
L
1X
2
ˆ
¯
ph σh bei proportionaler Aufteilung
(b) Varprop(Y..) =
n h=1
!2
L
1 X
ˆ
¯
(c) Varopt(Y..) =
ph σ h
bei optimaler Aufteilung nach Neyman-Tschuprow
n h=1
und bei konstanten Kosten in jeder Schicht.
ˆ
¯ =
Beweis: Wird in jeder Schicht unabh¨angig eine eZmZ gezogen, so gilt Var(Y..)
L
X
h=1
2 1
Wh
nh
µ2(h) .
Mit der stetigen Parametrisierung gem¨aß Definition 2.7 gilt dann
ˆ
¯ =
Var(Y..)
L
X
2 1
2
ph
σh
nh
h=1
Einsetzen von nh = n/L (gleichm¨aßige Aufteilung, nh = ph n (proportionale Aufteilung) und nh =
P
n ph σh / L
g=1 pg σg (Neyman-Tschuprow-Aufteilung) liefert die Beh. (a)–(c)
L¨osung des Schichtenbildungsproblems durch Minimierung der Varianzen in Anh¨angigkeit
von y1, . . . , yL−1
Satz 2.9 (Dalenius-Gleichungen)
Das Gleichungssystem
2
2
2
2
(a) ph σh + (yh − µh) = ph+1 σh+1 + (µh+1 − yh) , h = 1, . . . , L − 1,
bei gleichm¨aßiger Aufteilung
60
(b) yh − µh = µh+1 − yh, h = 1, . . . , L − 1, bei proportionaler Aufteilung
1 2
1 2
2
2
(c)
σh + (yh − µh) =
σh+1 + (µh+1 − yh) , h = 1, . . . , L − 1,
σh
σh+1
bei optimaler Aufteilung
stellt eine notwendige Bedingung f¨
ur die L¨
osung des Schichtenbildungsproblems in
Abh¨angigkeit von y1, . . . , yL−1 dar.
Beweis: Vorlesung
Bemerkungen:
(i) Dalenius-Gleichungen sind nur notwendige Bedingungen, d. h. es existieren mehrere
L¨osungen; sogar Sattelpunkte erf¨
ullen Satz 2.9
(ii) L¨osungen durch numerische Verfahren und Ausnutzen der Staffelungseigenschaft
LS(yh−1, yh) = RS(yh, yh+1)
Heuristische Schichtenbildung
Hier wird keine bestimmte Aufteilungsart vorausgesetzt.
• konstante Schichtung nach Aoyama (1954)
yh − yh−1 =
b−a
≡ const.
L
61
• proportionale Schichtung nach Mahalanobis (1952)
ph µh ≡ const.
√
• kumulative f -Regel nach Dalenius/Hodges (1957); h¨aufig verwendete Regel, da gute
Approximation zu Satz
2.9.
Z q
u
Definiere y(u) =
⇒ w¨ahle
a
y1, . . . , yL−1,
f (t) dt, u ≤ b, −→ H,
u→b
so dass
y(yh) =
H
L
Bemerkungen
(i) Effizienz der Regeln h¨angt von f und der Aufteilung ab
(ii) Es existiert eine Vielzahl von Regeln, vgl. Drexl (1982), Geschichtete Stichprobenverfahren.
(iii) Verallgemeinerungen auf Ziehen ohne Zur¨
ucklegen sind m¨
oglich, wenn auch nur bedingt
notwendig, wenn stetige Dichte vorausgesetzt.
62
§3 Mehrstufige Zufallsstichproben
bisher: vollst¨andig zug¨angliche Auswahlgrundlage
jetzt: direkter Zugriff auf potenzielle Untersuchungseinheiten nicht m¨
oglich, weil
• keine Auswahlgrundlage existiert,
• m¨ogliche Verzeichnisse zu groß oder unvollst¨andig sind
• Datenschutzgr¨
unde den direkten Zugriff auf ein bestehendes Verzeichnis verwehren
⇒ stufenweise Erhebung der Untersuchungseinheiten
Vorteil der Stufenbildung:
• allgemein im organisatorischen und wirtschaftlichen Bereich
• Auswahlgrundlage ist immer nur f¨
ur jede Stufe einzeln zu beschaffen
63
Beispiel 3.1
Musterstichprobenpl¨ane des Arbeitskreises Deutscher Markt- und Sozialforschungsinstitute
e.V. von Sch¨afer (1979)
Bev¨
olkerungsstichproben
1. Stufe: Verzeichnisse der Stimmbezirke der Bundestagswahl, z. B. u
¨ber den
Bundeswahlleiter
Nur f¨
ur die ausgew¨ahlten Stimmbezirke:
2. Stufe: Liste der Haushalte ermitteln
Nur f¨
ur die ausgew¨ahlten Haushalte:
3. Stufe: ”Liste” aller potenziellen Zielpersonen ermitteln
Bemerkung 3.2
Vorteile des Musterstichprobenplans
•
•
•
•
Erleichterung der Erhebungsorganisation
Gew¨ahrleistung des Datenschutzes
B¨
undelung der Feldarbeit
Ersparnis von Wegzeiten und Kosten
Nachteil:
• Assoziation der ausgew¨ahlten Einheiten untereinander
64
Einstufige Zufallsauswahl
Definition 3.3
(a) Zerlegt man eine Grundgesamtheit in K disjunkte Teilmengen vom Umfang Mi,
P
i = 1, . . . , K , mit
ahlt man aus diesen Mengen k zuf¨allig aus,
i Mi = N und w¨
so heißen die Teilmengen Klumpen und das Auswahlverfahren Klumpenauswahl.
(b) Gehen alle ausgew¨ahlten Einheiten in die Untersuchung ein, so bezeichnet man das
Verfahren als einstufig.
(c) Wird das Prinzip aus (a) in den ausgew¨ahlten Klumpen wiederholt, so heißt das
Verfahren mehrstufig.
Notation 3.4
Bei einer einstufigen Klumpenauswahl sei
Yij
Yi . =
Y¯i. =
Y¯ =
PMi
j=1
Yij
i-te Klumpensumme
1
Mi Yi .
PK
1
i=1
K
Y¯ .. =
SY2 =
1
N
Durchschnitt im i-ten Klumpen
Yi .
PK PMi
j=1 Yij
PK PMi
1
i=1
j=1 Yij
N −1
Merkmalswert der j -ten Einheit im i-ten Klumpen,
j = 1, . . . , Mi, i = 1, . . . , K
durchschnittliche Klumpensumme
Merkmalsdurchschnitt
i=1
− Y¯ ..
2
Merkmalsvarianz
65
Satz 3.5 (Spezialfall Mi = M , i = 1, . . . , K )
Werden bei einstufiger Klumpenauswahl aus K Klumpen der Gr¨
oße M k Klumpen durch
eine einfache Zufallsstichprobe gezogen, dann gilt
k
1 X
ˆ
¯ ..
¯
Yi. ist ein erwartungstreuer Sch¨atzer f¨
ur Y
(a) Y.. =
M k i=1
K
X
1
k
1
1
k
2
ˆ
¯
¯ )2 =
(b) Var Y..
=
1
−
(Y
.
−
Y
1
−
S
i
C
M2 k
K K − 1 i=1
M2 k
K
Beweis:
ˆ
¯ =
E(Y..)
k
k K
K
1 X
1 XX
1
1
1 X
E(Yi. ) =
Yj.
=
k
Yj. = Y¯ ..
M k
M k
K
M K k
i=1
i=1 j=1
j=1
X
k
K
1
1
1
1
k
1 X
eZoZ
2
ˆ
¯
Var
Var(Y..) =
Yi.
=
1−
(Yi − Y¯ )
2
2
M
k
M k
K K−1
i=1
i=1
Definition 3.6
Die Gr¨oße
ρW
K X
M X
M
X
1
(Yij − Y¯ ..)(Yij 0 − Y¯ ..)
=
2
(M − 1) (N − 1) SY i=1 j=1 0
j =1
j6=j 0
heißt Intraklasskorrelationskoeffizient.
66
Bemerkung 3.7
Die Gr¨oße ρW aus Definition 3.6 ist ein Maß f¨
ur den Zusammenhang zwischen den
Merkmalswerten innerhalb eines Klumpens und es gilt
1
≤ ρW ≤ 1
−
M −1
Lemma 3.8
F¨
ur die Varianz aus Satz 3.5(b) gilt
ˆ
¯
Var Y..
≈ Var(¯
y .) (1 + (M − 1) ρW ) ,
wobei Var(¯
y .) die Varianz der Mittelwertsch¨atzung bei einfacher Zufallsstichprobe ist.
Beweis: Betrachte die Varianzzerlegung
K
K X
M X
M
X
X
2
2
(Yi. − Y¯ ) = (N − 1)SY +
(Yij − Y¯ ..)(Yij 0 − Y¯ ..)
i=1
i=1 j=1 j 0 =1
j6=j 0
67
Dann gilt
ˆ
¯
Var Y..
=
=
≈
i
k
1 h
1
2
2
(N − 1) SY + (M − 1)(N − 1)SY ρw
1−
M2 k
K K−1
1
M k
M K−1 2
1−
S (1 + (M − 1)ρw )
M k
M K M K−M Y
M k
1
2
1−
SY (1 + (M − 1)ρw ) = Var(¯
y .) (1 + (M − 1)ρw )
M k
M K
Definition 3.9
Bei einer einstufigen Klumpenauswahl heißt die Gr¨
oße
(1 + (M − 1) ρW )
Designeffekt.
68
Bemerkung 3.10
Der Designeffekt aus Definition 3.9 wird h¨aufig auch als Varianzaufbl¨
ahungsfaktor
bezeichnet, da der Intraklasskorrelationskoeffizient in der Regel gr¨
oßer als Null ist.
ρW kann als Hilfe zur Entscheidung zwischen einfacher Zufallsauswahl und Klumpenauswahl
benutzt werden:


<0


ρw
=0


 >0
,
Klumpenverfahren genauer
,
beide Auswahlverfahren gleich
,
einfache Zufallsstichprobe genauer
Satz 3.11
Zieht man aus K Klumpen unterschiedlicher Gr¨
oße k Klumpen mittels einfacher
Zufallsstichprobe, so gilt
k
K X
ˆ
¯ ..
¯
Yi. ist ein erwartungstreuer Sch¨atzer f¨
ur Y
(a) (i) Y..(a) =
N k i=1
K
2 X
2
1
k
1
K
ˆ
¯
¯ (a) =
1
−
Y
.
−
Y
(ii) Var Y..
i
N2 k
K K − 1 i=1
k
ˆ
¯ (b)
(b) (i) Y..
k
1X¯
1X 1
¯ ..
=
Yi. ist ein verzerrter Sch¨atzer f¨
ur Y
Yi . =
k i=1
k i=1 Mi
69
1
ˆ
¯
(ii) Var Y..(b) =
k
ˆ
¯
(c) (i) Y..
(c) = Pk
k
X
1
i=1
1−
Mi
k
K
1
K−1
K
X
i=1

Y¯i. −
1
K
K
X
2
Y¯j .
j=1
¯ ..
Yi. ist ein verzerrter Sch¨atzer f¨
ur Y
i=1
K
2
X
2
K
1
k
1
2 ¯
ˆ
¯ (c) ≈
¯
(ii) Var Y..
M
Y
.
−
Y
..
1
−
i
N2 k
K K − 1 i=1 i
Bemerkung 3.12
F¨
ur die Sch¨atzer aus Satz 3.11 gilt
ˆ
ˆ
ˆ
¯
¯
¯
Var Y..(a) > Var Y..(c) > Var Y..(b)
und f¨
ur die Verzerrungen
ˆ
ˆ
ˆ
¯ (a) < B Y..
¯ (c) < B Y..
¯ (b) 0 = B Y..
70
§4 Zweiphasige Auswahl
Engl.: Two-phase sampling, Double sampling
Auswahlprinzip
Grundgesamtheit
l
Merkmalswerte
U1 ,
l
(X1, Y1),
U2 ,
l
(X2, Y2),
. . .,
. . .,
UN
l
(XN , YN )
1. Phase: Auswahl vom Umfang n0 (aus N )
Stichprobe von x-Werten:
x01, x02, . . . , x0n0
2. Phase: Auswahl vom Umfang n (aus n0)
Stichprobe von x und y -Werten:
(x1, y1), (x2, y2), . . . , (xn, yn)
Beispiel: Mikrozensus (N ≈ 83000000)
1. Phase: n0 ≈ 830000 Standardbefragung
2. Phase: n ≈ 83000 interessierende Zusatzbefragung, z. B. Daten zum Gesundheitswesen
!!! Dies hat NICHTS mit einer zweistufigen Auswahl zu tun !!!
71
¯ . unter ”optimaler” Ausnutzung der Zusatzinformation X ,
Ziel ist die Sch¨atzung von Y
die nicht a-priori bekannt ist (im Gegensatz zur pps-Auswahl).
Dazu verwendet man verschiedene Prinzipien.
Da zwei Auswahlen betrachtet werden, m¨
ussen auch zwei Erwartungswerte bzw. Varianzen
betrachtet werden.
Bezeichnungen:
E1 / Var1: Erwartungswert und Varianz der 1. Phase
E2 / Var2: Erwartungswert und Varianz der 2. Phase gegeben die Ergebnisse der 1. Phase
F¨
ur diese bedingten Momente gilt:
Lemma 4.1
F¨
ur bedingte Erwartungswerte und Varianzen in zwei Phasen und eine Zufallsvariable z gilt
(i) E(z) = E1 E2(z)
(ii) Var(z) = E1 Var2(z) + Var1 E2(z)
Auswertung bei verschiedenen Subauswahlen
• Differenzensch¨atzung
Satz 4.2
In dem oben geschilderten Auswahlverfahren mit
eZoZ vom Umfang n0 aus N in der 1. Phase und
eZoZ vom Umfang n aus n0 in der 2. Phase gilt:
72
0
ˆ = (¯
¯
¯.
y. − x
¯.) + x
¯ . ist erwartungstreu f¨
ur Y
(i) Y.
1
1
1
1
2
ˆ
¯) =
(ii) Var(Y
−
SY −
− 0 SX (2ρSY − SX )
n
N
n
n
Beweis: Vorlesung
Folgerung 4.3
F¨
ur die Varianz aus Satz 4.2 (ii) gilt
ˆ
c (Y.)
¯ =
Var
mit
1
1
−
n0
N
2
sy +
1
1
− 0
n
n
2
sd
n
2
1 X
2
sd =
(yi − xi) − (¯
y. − x
¯.)
n − 1 i=1
ˆ
¯
ist ein erwartungstreuer Sch¨atzer f¨
ur Var(Y.)
¨
Beweis: UA
73
Fasst man die zwei Phasen als unabh¨angige Verfahren auf (z. B. bei Kombination von
Untersuchungen: Werte x0i aus 1. Untersuchung, Werte xi aus 2. Untersuchung, d. h. xi
nicht notwendigerweise in 1. Untersuchung enthalten.), so gilt:
Folgerung 4.4
Bei unabh¨angigen Auswahlen in der 1. und 2. Phase gilt
0
ˆ
¯ = E (¯
(i) E(Y.)
y. − x
¯.) + x
¯ . = Y¯ .
1
1
1
1
2
2
2
ˆ
¯ =
−
(SY + SX − 2 ρ SX SY ) +
−
S
(ii) Var(Y.)
X
n
N
n0
N
ˆ
ˆ
c (Y.)
¯ = 1 − 1 s2 + 1 − 1 s2 0 ist erwartungstreu f¨
¯ ,
(iii) Var
u
r
Var
(
Y.)
d
x
0
n
N
n
N
n0
X
1
0
0 2
2
(xi − x
¯ .)
wobei sx0 = 0
n − 1 i=1
Die Folgerung ist sehr wichtig, wenn Untersuchungsergebnisse zusammengefasst werden.
Auswahlphase ←→ Untersuchung ←→ Varianzanteil ←→ Varianzkomponente ←→
Lineares Modell
74
• pps-Sch¨atzung
Satz 4.5
Falls die 1. Phase durch eZoZ und die 2. Phase durch pps-Auswahl (mit Zur¨
ucklegen) nach
x0 gewonnen wird, dann gilt
n
0 X
x
.
yi
1
ˆ =
¯.
¯
ist erwartungstreu f¨
ur Y
(i) Y.
0
n n i=1 xi
1
n0 − 1
1
0
2
V
+
(N
−
n
)
S
,
Y
N (N − 1) n n0
N n0
2
N
X
Xi
Yi
− Y.
wobei V =
X.
X
/X.
i
i=1

!2 
n
n
0 2
X y2
(x.
)
1 X yi
1
i
ˆ
c
¯


(iii) Var(Y.) = 02
−
2
n n(n − 1) i=1 xi
n i=1 xi



!2
n
2
n
2
2
0
0
2
 Xy
X yi
Xy 
(N − n
(x.)
1
0
i
i

+
x.
−
−
2 
0
0
0
N n n (n − 1)  i=1 xi
n n−1
x
x
i
i
i=1
i=1
ˆ
¯ =
(ii) Var(Y.)
ˆ
¯
ist ein unverzerrter Sch¨atzer f¨
ur Var(Y.)
Beweis: analog zu Satz 4.2 unter Ausnutzung der Ergebnisse von Satz 1.37 und Folgerung
1.38 f¨
ur die pps-Auswahl
75
Bei Kombination von unabh¨angigen Untersuchungen gilt analog zu Folgerung 4.4:
Folgerung 4.6
Falls die 1. Phase mit eZoZ und die 2. Phase unabh¨angig mit pps (nach dem LahiriVerfahren) ausgew¨ahlt wird, gilt
!
0 n
X
1
yi
ˆ
¯.
¯ = x.
ist erwartungstreu f¨
ur Y
(i) Y.
0
n
n i=1 xi
"
2
2#
ˆ
¯ = 1 − 1 Y . S 2 + 1 V 1 + 1 − 1 SX
(ii) Var(Y.)
¯.2
n0
N X.2 X
n
n0
N X
#
2 " 0 2
n 0
X
(x.)
1
y¯.
n
yi
2
ˆ
c (Y.)
¯ =
(iii) Var
−
−
1
−
s
x
n(n − 1)n0 i=1 xi
x
¯.
n0
N
!2 n
1 X yi
1
1
2
+
−
s
x
n i=1 xi
n0
N
¯ .)
ist erwartungstreu f¨
ur Var(Y
76
• Verh¨altnissch¨atzung
Diese Prinzipien k¨onnen auch auf Verh¨altnissch¨atzer u
¨bertragen werden. Es gilt:
Satz 4.7
Bei eZoZ in 1. und 2. Phase gilt
0
y
¯
.
y¯. 0
x
¯. = Y¯ . − E1 Cov
,x
¯ . x
¯.
(i) E
x
¯.
x
¯.
!
2
¯
¯
y¯. 0
Y.
1
1
Y. 2
2
(ii) MSE
SY − 2 ¯ ρ SX SY + ¯ 2 SX
x
¯. ≈
−
x
¯.
n
N
X.
X.
¯2
2
1 Y. 2
1
1
1
1
1
2 SX
−
−
−
SY ¯ 2
+
SX +
0
0
2
¯
n
N X.
n
N
n
N
X.
¯. dann durch ppas-Auswahl
Bemerkung: erwartungstreue Sch¨atzung von Y
Prinzipiell kann jede Auswahl so ber¨
ucksichtigt werden.
(Ist aber nicht immer einfach!)
Zweiphasige Auswahl kann auch genutzt werden, um mit der Information der 1. Phase
u
¨ber die X -Werte Schichten f¨
ur die 2. Phase zu bilden, siehe Cochran (1977).
77
————————————————————————————————————
EINSCHUB:
Zusammenfassung der Auswahlverfahren
Skizze in Vorlesung
Beispiel: Muster-Stichprobenpl¨ane des Arbeitskreises Deutscher Marktforschungsinstitute
Drei–stufige Klumpenauswahl
1. Stufe: Auswahl von Stimmbezirken
• Schichten durch Anordnung (Ordnungskriterium: Bundesl¨ander, Regierungsbezirke,
Ortsgr¨oßenklassen nach Boustedt)
• pps-Auswahl nach Einwohnerzahl
• systematische Auswahl (Kumulationsverfahren nach Mahalanobis)
2. Stufe: Auswahl von Haushalten
• einfache Zufallsauswahl
• Random-Route
3. Stufe: Auswahl von Haushalten
• einfache Zufallsauswahl
• Schwedenschl¨
ussel
=⇒ ca. sechs Auswahlstrategien werden benutzt
=⇒ Sch¨atzer und Varianzen??
78
§5 Capture-Recapture-Verfahren
Problem: N ist unbekannt
Beispiele:
• Tierpopulation
• Marktforschung, z. B. Kunden/K¨aufer eines Produkts
Idee:
1. Schritt: definiere eine (auch r¨aumlich begrenzte) Population
2. Schritt Pr¨
ufung, ob
• offene Population
– Immigration (Einwanderung)
– Emigration (Auswanderung)
– Recruitment (Erneuerung)
– Sterblichkeit
• geschlossene Population
79
3. Schritt
(i) Ziehen einer Stichprobe (Capture)
(ii) Markierung der Individuen (Mark)
(iii) Zur¨
ucklegen in die GG (Release)
4. Schritt
(i) Ziehen einer Stichprobe (Recapture)
(ii) Pr¨
ufen der Markierungen
Voraussetzung:
Zwischen Schritt 3 und 4 findet ein vollst¨andiges Durchmischen der GG statt
Erweiterung:
• Einfache Durchf¨
uhrung von Schritt 3 und 4
(Single-Mark-Release)
• Mehrfache Durchf¨
uhrung von Schritt 3 und 4
(Multiple-Marking)
80
• Single-Mark-Release bei geschlossenen Populationen
Annahmen 5.1
(i)
(ii)
(iii)
(iv)
N konstant
In der Capture-Stichprobe gelte πi = const., i = 1, . . . , N .
Die Recapture-Stichprobe sei eZoZ.
Der Verlust der Markierung ist unm¨
oglich.
Definition 5.2
Beim Capture-Recapture-Verfahren unter Annahmen 5.1 sei
M
Umfang der Capture-Stichprobe (=
ˆ Anzahl der Markierungen)
n
Umfang der Recapture-Stichprobe
m
Anzahl der markierten Individuen in der Recapture-Stichprobe
Dann heißt
ˆ =M n
N
m
der Petersen- oder Lincoln-Sch¨
atzer (Lincoln-Index) f¨
ur N .
Bemerkung: m ∼ Hyp
M
N, n,
N
ˆ entsteht durch
Bemerkung: Der Sch¨atzer N
Markierte
m
M
=
=
ˆ
ˆ −M
Unmarkierte
n−m
N
81
Geht man von einem Binomial-Modell aus, so gilt
Satz 5.3
ˆ ML-Sch¨atzer f¨
Ist m ∼ Bin(n, P ) mit P = M/N , dann ist N
ur N .
Beweis: Mit
n M k M n−k
1−
P (m = k) =
N
N
k
folgt
n
ln P (m = k) = ln
+ k (ln M − ln N ) + (n − k) (ln(N − M ) − ln N )
k
d
1
1
1
!
⇒
ln P (m = k) = k −
+ (n − k)
−
=0
dN
N
N −M
N
m
n−m
n−m
n−m
n
k=m
ˆ = nM
⇒ − +
−
=0⇔
=
⇔ N n − N M = N n − nM ⇒ N
N N −M
N
N −M
N
m
2
3
d
m
ln
P
(m
=
k)
=
·
·
·
=
−
<0
ˆ
N =N
dN 2
M 2 n(n − m)
Bemerkung:
(i) ML-Theorie =⇒ asymptotische Normalit¨at, Fisher-Information, Varianzsch¨atzung
ˆ verzerrt =⇒ Bailey-Sch¨atzer
(ii) da N
2
M
(n
+
1)
M
(n + 1)(n − m)
c (N
ˆ1 =
ˆ1) < Bias(N
ˆ ) und Var
ˆ1 ) =
N
mit Bias(N
m+1
(m + 1)2 (m + 2)
ˆ u
Begr¨
undung des Petersen-Sch¨atzer N
¨ber unvollst¨andige Vier-Felder-Tafel:
82
Sei xij die Anzahl der anwesenden Individuen in der ersten und/oder zweiten Stichprobe,
d. h.
2. Stichprobe
1. Stichprobe
gefangen
nicht gef.
gefangen
x11 = m
x12
x1 . = M
nicht gef.
x21
?
x.1 = n
N
Herleitung:
Die Stichproben sind unabh¨angig mit E(xij ) = mij , dann gilt
m11 m22
m
ˆ 12 m
ˆ 21
x12 x21
= 1 (Odds Ratio gleich eins) und m
ˆ 22 =
=
m21 m12
m
ˆ 11
x11
ˆ
⇒N
=
=
=
x12 x21
x11
i
1 2
1 h
x11 + x21 x11 + x12 x11 + x12 x21 =
(x11 + x12 )(x11 + x21 )
x11
x11
x11 + x21 + x12 + m
ˆ 22 = x11 + x21 + x12 +
x1. x.1
M n
=
x11
m
83
Bemerkung:
(i) Ein Sch¨atzer f¨
ur die Varianz des Petersen-Sch¨atzers ist gegeben durch
c (N
ˆ ) = M n (M − m) (n − m)
Var
m3
=⇒ Konfidenzintervall mit Quantil der Standardnormalverteilung
(ii) Die Anzahl der markierten Tiere in der zweiten Stichprobe kann null sein; weiterer
modifizierter Sch¨atzer von Chapman:
˜ = (M + 1) (n + 1) − 1
N
m+1
mit approximativ unverzerrtem Varianzsch¨atzer
c (N
˜ ) = (M + 1) (n + 1) (M − m) (n − m)
Var
(m + 1)2 (m + 2)
84
• Multiples Marking bei geschlossenen Populationen
(Schnabel-Census)
Notation 5.4:
(i) betrachte Folge von s Stichproben
(ii) ni, i = 1, . . . , s Umfang der i-ten Stichprobe
(iii) mi, i = 1, . . . , s Anzahl Markierter in i-ter Stichprobe
(iv) ui = ni − mi
Pi−1
(v) Mi =
j=1 uj Gesamtzahl Markierter in der Population vor Stichprobe i, i =
1, . . . , s + 1 =⇒ M1 = 0, M2 = n1 − m1
(vi) r = Ms+1 Gesamtanzahl Markierter nach dem Experiment
(vii) w ⊆ {1, . . . , s} Fanggeschichte
(viii) aw Anzahl der Tiere mit Fanggeschichte w =⇒ r =
P
aw
(ix) Pw Wahrscheinlichkeit, dass ein Individuum die Fanggeschichte w hat
!N −r
X
Y a
N!
1−
Pk
Pk k
P (aw = ak ) = Q
k ak !(N − r)!
k
k
Multinomialverteilung u
¨ber die Fanggeschichten w unter der Voraussetzung, dass alle
Individuen unabh¨angig agieren.
w
Beispiel: s=3, # Fanggeschichten = 23:
(0, 0, 0), (1, 0, 0), (1, 1, 0), (1, 0, 1), (0, 1, 0), (0, 1, 1), (0, 0, 1), (1, 1, 1)
85
Satz 5.5
Im Multiple-Marking-Modell wird der ML-Sch¨atzer bestimmt als L¨
osung von
r
1−
N
=
s Y
i=1
ni
1−
N
Beweis: betrachte Likelihood obiger Multinomialverteilung
Bemerkung:
ˆ Petersen-Sch¨atzer, denn
• s = 2 =⇒ N
s=2
⇒
⇒
⇒
n1
n2
N −r
1
r
= 1−
1−
⇒
= 2 (N − n1 )(N − n2 )
1−
N
N
N
N
N
2
2
N − N r = N − N n1 − N n2 + n1 n2
n1 n2
M n
M n
N =
=
=
n1 + n2 − r
M + n − (M + n − m)
m
• s ≥ 3 =⇒ iterieren; Nullstellen eines Polynoms vom Grade s − 1
• Aber: ML-Theorie kann angewendet werden
86
Satz 5.6
ˆ aus Satz 5.5
Im Multiple-Marking Modell gilt f¨
ur den ML-Sch¨atzer N
!
!
s s X
X
2
2
s−1
s−1
ˆ − ni
ˆ − ni
−
N
+
N
2
ˆ
ˆ
N
N
i=1
i=1
ˆ
(i) b =
! 2
s X
1
s−1
1
2
+
−
ˆ −r
ˆ
ˆ − ni
N
N
N
i=1
ˆ.
ist ein Sch¨atzer f¨
ur die Verzerrung von N
ˆ ergibt sich aus
(ii) Die asymptotische Varianz von N
!−1
s
X
s−1
1
1
ˆ) ≈
+
−
Var(N
ˆ −r
ˆ
ˆ
N
N
i=1 N − ni
Bemerkung: Allgemeine Absch¨atzung nach Chapman (1952)
ni Mi
n
M
i
i
ˆ ≤ max
max r, min
≤N
i=2,...,s mi
mi
=⇒ gute Einschr¨ankung f¨
ur Startwerte eines iterativen Verfahrens
87
Bemerkungen zu offenen Populationen:
Das Vorliegen der vier Prozesse:
•
•
•
•
Einwanderung %
Auswanderung &
Geburt %
Tod &
ˆ . Es m¨
”st¨ort” die Bestimmung von N
ussen zus¨atzliche Parameter benutzt werden.
ϕ
νi
...
Wahrscheinlichkeit von Stichprobe i nach (i + 1) zu u
¨berleben
Wahrscheinlichkeit, dass ein in Stichprobe i gezogenes Tier
in die Population zur¨
uckkehrt
ˆi ist eine Zeitreihe)
=⇒ Folge von (bedingten) Sch¨atzern im Multinomialmodell (d. h. N
88
§6 Netzwerk- oder Multiplizit¨
atsstichproben
(engl. Network-Sampling, Multiplicity-Sampling)
Beispiel 6.1 (Pr¨avalenz einer seltenen Krankheit)
(a) Multiplizit¨
at
Betrachte eine Zufallsstichprobe von Krankenh¨ausern. Die Akten der Krankenh¨auser
der Zufallsstichprobe enthalten die Daten der erkrankten Personen. Beachte, dass
ein Patient in mehreren Krankenh¨ausern behandelt worden sein kann. Je h¨aufiger ein
Patient in verschiedenen Krankenh¨ausern behandelt worden ist, desto gr¨
oßer ist die
Wahrscheinlichkeit, dass die Krankenakte des Patienten in die Stichprobe gelangt.
(b) Netzwerk
Betrachte eine Stichprobe von Haushalten. Alle Bewohner des Haushaltes werden
nach der Krankheit befragt. Außerdem wird jeder Bewohner gefragt, ob seine/ihre
Geschwister an der Krankheit leiden. Eine Person mit mehrerer Geschwistern in
verschiedenen Haushalten hat somit eine h¨
ohere Wahrscheinlichkeit als eine Person ohne
Geschwister in einem Single-Haushalt in die Stichprobe zu gelangen. Beachte, dass
selbst Bewohner eines gemeinsamen Haushalts unterschiedliche Wahrscheinlichkeiten
haben k¨onnen, um in die Stichprobe zu gelangen. Unter einem Netzwerk verstehen wir
die Menge aller Untersuchungseinheiten, die die gleiche Verbindungsstruktur (linkage
configuration) aufweisen.
89
Voraussetzungen 6.2
• Sei Yi der Merkmalswert der i-ten Untersuchungseinheit. Das Merkmal kann eine
Indikatorvariable sein, Yi = 1, falls die Krankheit vorliegt, Yi = 0 sonst, oder z.B. die
Behandlungskosten.
• Sei N die Anzahl der Untersuchungseinheiten in der Population.
N
P
• Sei Y. =
Yi die interessierende Populationssumme.
i=1
• Sei M die Anzahl der Auswahleinheiten (Krankenh¨auser, Haushalte).
• Sei mi die Anzahl, wie oft die i-te Untersuchungseinheit mit den Auswahleinheiten
verbunden ist.
• Es werden n Auswahleinheiten mittels eZoZ gezogen und alle Untersuchungseinheiten,
die mit den gezogenen Auswahleinheiten verbunden sind, gelangen in die Stichprobe.
• Die Auswahlwahrscheinlichkeit f¨
ur die i-te Untersuchungseinheit ist pi = mi/M ;
das ist die Wahrscheinlichkeit, dass mindestens eine Auswahleinheit, die mit der
Untersuchungseinheit verbunden ist, gezogen wird.
90
Satz 6.3 (Multiplicity estimator)
(a) Ein unverzerrter Sch¨atzer f¨
ur Y. ist gegeben durch
M X Yi
ˆ
Y. =
,
n i∈S mi
wobei S die Menge der Untersuchungseinheiten in der Stichprobe bezeichnet.
(b) Sei
X Yi
wj =
mi
i∈A
j
mit Aj der Menge der Untersuchungseinheiten in der j -ten Auswahleinheit, dann l¨asst
sich der Sch¨atzer aus (a) auch darstellen als
n
X
M
wj ,
Yˆ. =
n j=1
(c) Die Varianz des multiplicity estimator ist gegeben durch
M
X
M (M − n) 1
ˆ
Var(Y.) =
n
M − 1 j=1
Y.
wj −
M
2
91
ˆ.) ist gegeben durch
(d) Ein unverzerrter Sch¨atzer f¨
ur Var(Y
c (Yˆ.) = M (M − n) s2 ,
Var
w
n
wobei
n
2
sw
1 X
2
(yi − w)
¯ ,
=
n − 1 j=1
n
1X
w
¯=
wj .
n j=1
Beweis: siehe Vorlesung
Bemerkung 6.4
(a) Unter einem Netzwerk verstehen wir die Menge aller Untersuchungseinheiten, die die
gleiche Verbindungsstruktur (linkage configuration) aufweisen. Ein Netzwerk kann
somit mit mehreren Auswahleinheiten verbunden sein (Geschwister in verschiedenen
Haushalten) und eine Auswahleinheit kann mit mehreren Netzwerken (Nicht-Geschwister
im selben Haushalt) verbunden sein.
(b) Zerlege die Population in K Netzwerke.
Sei Yk∗ die Summe der YWerte der Untersuchungseinheiten im k-ten Netzwerk und m∗k die gemeinsame
Vielfachheit jeder Untersuchungseinheit innerhalb des Netzwerks, k =
1, . . . , K . Dann haben alle Untersuchungseinheiten innerhalb eines Netzwerks
die gleiche Auswahlwahrscheinlichkeit in die Stichprobe zu gelangen.
Diese
Auswahlwahrscheinlichkeit ist gleich der Auswahlwahrscheinlichkeit f¨
ur das k-te
Netzwerk.
92
(c) Die Auswahlwahrscheinlichkeit f¨
ur das k-te Netzwerk ist
,
M − m∗ M k
.
πk = 1 −
n
n
(d) Sei m∗jk die Anzahl der Auswahleinheiten, die mit beiden Netzwerken j und k verbunden
sind. Dann ist die Wahrscheinlichkeit, dass die beiden Netzwerke gemeinsam in die
Stichprobe gelangen, gegeben durch
,
M − m∗ − m∗ + m∗ M j
k
jk
πjk = πj + πk − 1 +
.
n
n
93
Satz 6.5 (Horvitz-Thompson-Netzwerk-Sch¨atzer)
(a) Der Horvitz-Thompson Sch¨atzer f¨
ur Y. ist gegeben durch
κ
∗
X
y
k
,
Yˆ . =
π
k
i=1
wobei κ die Anzahl der verschiedenen Netzwerke der Untersuchungseinheiten in der
Stichprobe bezeichne.
(b) Die Varianz des Horvitz-Thompson-Sch¨atzers ist gegeben durch
ˆ .) =
Var(Y
K X
1 − πk
k=1
πk
∗ 2
(yk ) +
K X
X
πk` − πk π`
k=1 `6=k
πk πl
∗ ∗
yk y`
(c) Ein erwartungstreuer Sch¨atzer f¨
ur die Varianz ist gegeben durch
c (Yˆ .) =
Var
κ
X
k=1
1
1
−
πk2
πk
!
κ X
X
1
1
∗ 2
∗ ∗
(yk ) +
−
yk y`
π k π`
πk`
k=1 `6=k
94
Beispiel 6.6 (Pr¨avalenz einer seltenen Krankheit in einer Stadt)
Aus M = 5000 Haushalten einer Stadt werden n = 100 Haushalte mittels eZoZ
ausgew¨ahlt und alle Erwachsenen in den ausgew¨ahlten Haushalten berichten u
¨ber sich und
u
¨ber alle Geschwister, die in der Stadt leben, ob sie an der Krankheit leiden. Die Ergebnisse
der Untersuchung lassen sich wie folgt zusammenfassen:
• Im Stichprobenhaushalt 1 leben zwei Erwachsene, ein Mann und eine Frau.
– Der Mann hat einen Bruder, der in einem anderen Haushalt in der Stadt lebt.
Der Mann hat die Krankheit nicht (y1 = 0), aber der Bruder hat sie (y2 = 1).
Zusammen bilden die beiden ein Netzwerk (Netzwerk 1) mit Vielfachheit m∗1 = 2.
– Die Frau hat die Krankheit (y3 = 1) und zwei Geschwister leben in unterschiedlichen
Haushalten in der Stadt, der Bruder mit der Krankheit (y4 = 1) und die Schwester
ohne (y5 = 0). Diese drei Geschwister bilden ein Netzwerk (Netzwerk 2) mit
m∗2 = 3.
• Der Haushalt der Schwester der Frau aus Haushalt 1 ist auch in die Stichprobe
gekommen (Haushalt 2).
– Das Netzwerk 2 der drei Geschwister ist doppelt ausgew¨ahlt und befragt worden.
– Der Ehemann in Haushalt 2 hat die Krankheit nicht (y6 = 0). Da keine Geschwister
von ihm in der Stadt leben, bildet er alleine ein Netzwerk (Netzwerk 3) mit m∗3 = 1.
• Im Haushalt 3 lebt nur ein Erwachsener mit (y7 = 1). Keine Geschwister von ihm
leben in der Stadt. Er bildet alleine ein Netzwerk (Netzwerk 4) mit m∗4 = 1.
• In anderen 97 ausgew¨ahlten Haushalten hat keiner der Bewohner die Krankheit. Auch
deren Geschwister haben die Krankheit nicht. Alle y -Werte sind somit 0.
95
Bemerkung 6.7
(a) Wenn die Auswahleinheiten der Population in Schichten aufgeteilt werden, kann das
Problem auftreten, dass Untersuchungseinheiten mit Auswahleinheiten verbunden sind,
die zu verschiedenen Schichten geh¨
oren. Dann sind die Beobachtungen zwischen den
Schichten nicht wie bei der gew¨
ohnlichen geschichteten Auswahl unabh¨angig.
(b) Seien die M Auswahleinheiten in L disjunkte Schichten aufgeteilt. Seien Mh
Auswahleinheiten in Schicht h und in jeder Schicht wird eine eZoZ vom Umfang nh
gezogen, h = 1, . . . , L. Sei Ahj die Menge der Untersuchungseinheiten, die mit der
j -ten Auswahleinheit in Schicht h verbunden sind. F¨
ur die i-te Untersuchungseinheit
sei mi die Anzahl der Auswahleinheiten, die mit der Untersuchungseinheit verbunden
sind. F¨
ur die j -te Auswahleinheit in Schicht h definiere die neue interessierende Variable
P
whj durch whj =
i∈Aj Yi /mi . Definiere das Stichprobenmittel der w -Variablen in
Pnh
Schicht h als w
¯h = (1/nh) j=1 whj .
Der geschichtete unverzerrte multiplicity Sch¨atzer f¨
ur Y. lautet dann
Yˆ . =
L
X
Mhw
¯h.
h=1
ˆ . unverzerrt f¨
(c) Beachte, dass Y
ur Y. ist; aber Mhw
¯h ist im Allgemeinen nicht unverzerrt
f¨
ur die entsprechende Schichtsumme.
96
§7 Nachweisbarkeit und Stichprobenverfahren
(engl. Detectability and Sampling)
In den bisherigen Verfahren ist (weitestgehend) davon ausgegangen worden, dass das
interessierende Merkmal fehlerfrei f¨
ur jede Untersuchungseinheit in der Stichprobe erfasst
werden konnte. In manchen Situationen ist dies jedoch kaum der Fall.
Beispiele:
(a) Bei Z¨ahlungen h¨aufiger Vogelarten ist es unwahrscheinlich, dass alle V¨
ogel in einem
Gebiet (plot) entdeckt werden.
(b) In Erhebungen aus der Luft zur Z¨ahlung großer S¨augetiere k¨
onnen einige Tiere
unsichtbar bleiben.
(c) Bei der Bestimmung von Mineralien, z.B. Diamanten, in Erd- oder Erzstichproben
k¨onnen einige Objekte u
¨bersehen werden.
Bemerkung 7.1: (Konstante Nachweisbarkeit in einer Region)
Angenommen die Nachweisbarkeit f¨
ur eine gewisse Tierart in einer Region sei gegeben durch
eine konstante Wahrscheinlichkeit p. Sei y die Anzahl der beobachteten Tiere in der Region
und sei die tats¨achliche Anzahl (Populationsgr¨
oße) Y . Die Entdeckungswahrscheinlichkeit
f¨
ur ein Tier in der Region sei p. Unter der Annahme, dass die Tiere unabh¨angig voneinander
entdeckt werden, ist y binomial verteilt mit Parametern Y und p.
97
Falls die Entdeckungswahrscheinlichkeit p bekannt ist, dann ist ein unverzerrter Sch¨atzer
f¨
ur Y gegeben durch
y
ˆ ) = Y 1 − p.
mit Var(Y
Yˆ =
p
p
Ein unverzerrter Sch¨atzer f¨
ur die Varianz ist gegeben durch
c (Yˆ ) = y 1 − p .
Var
p2
Bemerkung 7.2 (Sch¨atzung der Nachweisbarkeit, Entdeckungswahrscheinlichkeit)
Die Entdeckungswahrscheinlichkeit p ist in der Regel unbekannt und muss gesch¨atzt werden,
siehe Beispiel Verh¨
altnissch¨
atzung mit zweiphasiger Auswahl. Um p zu sch¨atzen, k¨
onnen
Methoden der zweiphasigen Auswahl oder Capture-Recapture Methoden angewendet
werden. Diese Methoden liefern auch immer eine Sch¨atzung f¨
ur die Varianz der gesch¨atzten
Nachweisbarkeit.
Satz 7.3 (Effekt der gesch¨atzten Nachweisbarkeit)
Sei pˆ ein (approximativ) unverzerrter Sch¨atzer f¨
ur die Nachweisbarkeit p, und pˆ sei nicht
mit y , der Anzahl der beobachteten Tiere, korreliert. Dann ist ein approximativ unverzerrter
Sch¨atzer f¨
ur die Populationsgr¨
oße Y gegeben durch
2
1
−
p
Y
y
ˆ) ≈ Y
mit Var(Y
+ 2 Var(p)
ˆ
Yˆ =
pˆ
p
p
Beweis: Anwendung des Fehlerfortpflanzungsgesetzes, siehe Vorlesung.
98
Satz 7.4 (Nachweisbarkeit und eZoZ)
Betrachte eine eZoZ von n Untersuchungseinheiten aus einer Grundgesamtheit von N
Einheiten. Sei Yi die tats¨achliche Anzahl der Tiere in der i-ten Untersuchungseinheit und
PN
yi die Anzahl der beobachteten Tiere. Die Populationsgr¨oße ist somit Y. =
i=1 Yi . Die
Entdeckungen in den einzelnen Untersuchungseinheiten seien unabh¨angig. F¨
ur eine feste
Untersuchungseinheit i in der Stichprobe ist yi binomial verteilt mit Parameter Yi und p,
der konstanten bekannten Entdeckungswahrscheinlichkeit.
(a) Ein unverzerrter Sch¨atzer f¨
ur die Populationsgr¨
oße ist gegeben durch
n
N
N1X
ˆ
Y. =
yi.
y¯. =
p
p n i=1
ˆ . ist gegeben durch
(b) Die Varianz von Y
ˆ .) = N 2
Var(Y
1
n
n
1−
N
2
SY +
1−p
p
Y.
.
Nn
ˆ . ist gegeben durch
(c) Ein erwartungstreuer Sch¨atzer f¨
ur die Varianz von Y
2 N
1
n
1
−
p
2
c (Yˆ .) =
1
−
s
y¯. .
Var
y +
p2 n
N
N
Beweis: siehe Vorlesung
99
Satz 7.5 (Gesch¨atzte Nachweisbarkeit und eZoZ)
Gegeben die Voraussetzungen von Satz 7.4. Jedoch sei die Entdeckungswahrscheinlichkeit
p unbekannt, aber es steht ein (approximativ) unverzerrter Sch¨atzer pˆ zur Verf¨
ugung
c (p)
sowie eine Sch¨atzung f¨
ur die Varianz von pˆ, n¨amlich Var
ˆ . Zudem sei die Sch¨atzung pˆ
unkorreliert mit y¯. .
(a) Ein Sch¨atzer f¨
ur die Populationsgr¨
oße ist gegeben durch
n
N1X
N
ˆ
y¯. =
yi.
Y. =
pˆ
pˆ n i=1
Der Sch¨atzer ist nicht mehr erwartungstreu f¨
ur Y. .
ˆ . ist gegeben durch
(b) Die Varianz von Y
"
ˆ .) ≈ N 2
Var(Y
1
n
1−
n
N
2
SY +
1−p
p
#
2
Y.
Y.
+ 2 2 Var(p)
ˆ .
N n
N p
ˆ . ist gegeben durch
(c) Ein Sch¨atzer f¨
ur die Varianz von Y
2
N
c
ˆ
Var(Y .) = 2
pˆ
"
N −n
N
s2y
n
+
1−p
N
2
#
y¯ c
y¯. + 2 Var(p)
ˆ .
pˆ
100
Satz 7.6
Falls eine eZmZ gezogen wird mit bekannter Entdeckungswahrscheinlichkeit p, dann ist
ein erwartungstreuer Sch¨atzer f¨
ur die Populationsgr¨
oße gegeben durch
"
#
2
N
ˆ .) = N 2 SY + 1 − p Y
mit Var(Y
.
Yˆ . = y¯
p
n
p N n
ˆ . ist gegeben durch
Ein unverzerrter Sch¨atzer f¨
ur die Varianz von Y
n
X
1
2
c
ˆ
Var(Y .) =
(τi − Yˆ .)
n(n − 1) i=1
mit τi = N yi/p, i = 1, . . . , n.
Bemerkung 7.7 (Ungleiche Auswahlwahrscheinlichkeiten von Gruppen mit ungleichen
Entdeckungswahrscheinlichkeiten)
Sei Yij das interessierende Merkmal (stetig, diskret, bin¨ar) der j -ten Beobachtungseinheit
in der i-ten Untersuchungseinheit.
Sei πi die Wahrscheinlichkeit, dass die i-te Untersuchungseinheit in die Stichprobe gelangt,
und πii0 die Wahrscheinlichkeit, dass die i-te und i0-te Untersuchungseinheit gemeinsam
in die Stichprobe gelangen.
Sei gij die Entdeckungswahrscheinlichkeit f¨
ur die j -te Beobachtungseinheit in der i-ten
Untersuchungseinheit.
101
Sei Mi die Anzahl der Beobachtungseinheiten in der i-ten Untersuchungseinheit und mi
die entdeckten Beobachtungseinheiten in dieser Untersuchungseinheit.
Die Anzahl der verschiedenen Untersuchungseinheiten in der Stichprobe sei ν .
PMi
Sei Yi =
j=1 Yij , i = 1, . . . , k .
Mi
N P
P
Yij .
Populationsgr¨
oße: Y =
i=1 j=1
Horvitz-Thompson-Sch¨atzer:
mi
ν
X
X
yij
1
Yˆ =
πi j=1 gij
i=1
mit
ˆ) =
Var(Y
N X
1 − πi
i=1
π
Mi N X
N
X
X
X
1
−
g
π
−
π
π
1
0
0
ij
i i
2
2
ii
Yi +
Yi Yi0 +
Yij
πi πi0
πi j=1
gij
0
i=1
i=1
i6=i
Unverzerrter Varianzsch¨atzer:
c (Yˆ ) =
Var
ν X
1 − πi
i=1
π2
mi
ν X
ν
X
X
X
π
−
π
π
1
0
0
i i
2
ii
Yˆi +
Yˆi Yˆi0 +
πii0 πi πi0
πi j=1
0
i=1
i=1
i6=i
1 − gij
2
gij
ˆi = Pmi yij /gij , i = 1, . . . , ν .
mit Y
j=1
Steinhorst, Samuel (1989), Sightability adjustment methods for aerial surveys of wildlife
populations, Biometrics, 45, 415–425.
102
!
2
yij
§8 Adaptive Stichprobenverfahren
Adaptive Stichprobenverfahren heißen solche Stichprobendesigns, bei denen die Auswahl
von Untersuchungseinheiten, die in die Stichprobe gelangen, abh¨angig sein darf von den
bereits erhobenen Merkmalswerten in der Untersuchung.
Motivation:
• Viele Tier- und Pflanzenpopulationen haben die Tendenz sich zu versammeln oder
anzuh¨aufen z.B. aufgrund von Herden- oder Schwarmbildung bzw. Umweltregel- bzw.
unregelm¨aßigkeiten.
• H¨aufig ist der Ort und die Form der Ansammlung nicht vor der Untersuchung
vorhersagbar, so dass traditionelle Stichprobenverfahren zur Erh¨
ohung der Pr¨azision
wie z.B. die Schichtenbildung nicht m¨
oglich sind.
8.1 Adaptive Klumpenstichprobenverfahren
Definition 8.1
Adaptive Klumpenstichprobenverfahren sind solche Stichprobendesigns, bei denen
zun¨achst eine Startstichprobe von Untersuchungseinheiten (initial set of units) mit einer
zuf¨alligen Stichprobenprozedur gezogen wird, und, wenn die erhobenen Merkmale dieser
ausgew¨ahlten Untersuchungseinheiten ein gewisses Kriterium erf¨
ullen, dann werden auch
alle Untersuchungseinheiten in der Nachbarschaft mit in die Stichprobe aufgenommen.
103
Hier: Startstichprobe mit eZoZ oder eZmZ
Voraussetzungen 8.2
• Die Population besteht aus N Untersuchungseinheiten, die mit 1, 2, . . . , N (Labels)
durchnummeriert werden k¨
onnen und zugeh¨
origen Merkmalswerten Y1, Y2, . . . , YN .
• Die Stichprobe s ist eine Menge von Labels, die die Untersuchungseinheiten, die
beobachtet werden sollen, identifizieren.
• Die Daten bestehen aus den beobachteten y -Werten zusammen mit den dazugeh¨origen
Labels.
• Der interessierende Parameter ist das Populationsmittel oder die Populationsgr¨oße, d.h.,
N
X
1
Yi
Y¯ . =
N i=1
oder
Y. = N Y¯ .
Bezeichnung 8.3
Ein Stichprobendesign (sampling design) ist eine Funktion P (s|Y ), die jeder Stichprobe s
eine Wahrscheinlichkeit zuweist. In diesem Kapitel h¨angen die Auswahlwahrscheinlichkeiten
der Stichproben von den Populationswerten Y1, . . . , YN ab.
104
Annahme 8.4
(a) F¨
ur jede Untersuchungseinheit Ui in der Population ist eine Nachbarschaft Ai
eindeutig definiert. Die (Definition der) Nachbarschaft h¨angt nicht von den YPopulationswerten ab. Dar¨
uber hinaus ist die Nachbarschaftsbeziehung symmetrisch,
d.h. falls Untersuchungseinheit Ui in der Nachbarschaft von Uj ist, dann ist auch Uj
in der Nachbarschaft von Ui.
(b) Die Bedingung weitere Untersuchungseinheiten aus der Nachbarschaft der
Untersuchungseinheiten der Startstichprobe in die Stichprobe aufzunehmen, wird durch
ein Intervall oder eine Menge C basierend auf dem Wertebereich der Y-Merkmalswerte
bestimmt. Eine Untersuchungseinheit Ui erf¨
ullt die Bedingung, falls Yi ∈ C .
Beispiel: Eine Untersuchungseinheit Ui erf¨
ullt die Bedingung, falls Yi gr¨
oßer oder gleich
einer Konstanten c ist, d. h. C = {Y : Y ≥ c}.
Bemerkung 8.5 (Adaptive Strategie)
• Falls eine Untersuchungseinheit Ui die Bedingung aus Annahme 8.4(b) erf¨
ullt, werden
alle Untersuchungseinheiten aus der Nachbarschaft von Ui ebenfalls in die Stichprobe
aufgenommen und beobachtet.
• Einige der neuen Untersuchungseinheiten k¨onnten die Bedingung ebenfalls erf¨
ullen,
andere nicht.
• Wenn neue Untersuchungseinheiten die Bedingung erf¨
ullen, dann werden auch alle
Untersuchungseinheiten aus der Nachbarschaft dieser Untersuchungseinheiten in die
Stichprobe aufgenommen und beobachtet.
• usw.
105
Bezeichnung 8.6
• Betrachte die Menge aller Untersuchungseinheiten, die mit der adaptiven Strategie
aus Bemerkung 8.5 aufgrund der Untersuchungseinheit Ui der Startstichprobe in die
Stichprobe gelangt sind. Diese Menge bezeichnen wir als Klumpen (cluster).
• Innerhalb eines Klumpens gibt es eine Untermenge, die als Netzwerk bezeichnet
wird. Die Untersuchungseinheiten des Netzwerks haben die Eigenschaft, dass, wenn
ein Element des Netzwerks in die Startstichprobe gelangt, dann kommen aufgrund der
adaptiven Strategie auch alle anderen Elemente des Netzwerks in die Stichprobe; anders
ausgedr¨
uckt: alle Untersuchungseinheiten in dem Netzwerk erf¨
ullen die Bedingung.
• Jede Untersuchungseinheit, die die Bedingung nicht erf¨
ullt, aber in der Nachbarschaft
einer Untersuchungseinheit liegt, die die Bedingung erf¨
ullt, wird als edge unit
bezeichnet.
Bemerkung 8.7
Falls eine Untersuchungseinheit, die zu einem Netzwerk geh¨
ort, in die Startstichprobe
gelangt, so gelangen alle Untersuchungseinheiten dieses Netzwerks sowie die edge units in
die Stichprobe.
Die Auswahl eines edge units f¨
uhrt zu keiner weiteren Auswahl von Untersuchungseinheiten.
Untersuchungseinheiten, die die Bedingung nicht erf¨
ullen, bilden somit jeweils ein Netzwerk
der Gr¨oße 1.
Seien die Y -Populationswerte gegeben. Dann l¨asst sich die Population eindeutig in
Netzwerke aufteilen.
106
Lemma 8.8 (Startstichprobe mit eZoZ)
Sei mi die Anzahl der Untersuchungseinheiten in dem Netzwerk, zu dem die
Untersuchungseinheit Ui geh¨
ort, und sei ai die Gesamtzahl von Untersuchungseinheiten in
Netzwerken, bei denen Ui edge unit ist. Die Startstichprobe von Umfang n wird als eZoZ
gezogen. Dann gilt:
(a) Die Auswahlwahrscheinlichkeit f¨
ur Ui in jedem der n Z¨
uge ist
pi =
mi + ai
,
N
i = 1, . . . , N.
(b) Die Wahrscheinlichkeit, dass Ui in die Stichprobe gelangt, ist
N − m − a .N i
i
πi = 1 −
,
n
n
i = 1, . . . , N.
Lemma 8.9 (Startstichprobe mit eZmZ)
Die Startstichprobe von Umfang n wird als eZmZ gezogen. Dann gilt:
(a) Die Auswahlwahrscheinlichkeit f¨
ur Ui in jedem der n Z¨
uge ist
pi =
mi + ai
,
N
i = 1, . . . , N.
(b) Die Wahrscheinlichkeit, dass Ui in die Stichprobe gelangt, ist
n
πi = 1 − (1 − pi) ,
i = 1, . . . , N.
107
Bemerkung 8.10
(a) Falls die Untersuchungseinheit Ui die Bedingung erf¨
ullt, so ist ai = 0. Falls Ui die
Bedingung nicht erf¨
ullt, so ist mi = 1.
(b) Die Auswahlwahrscheinlichkeiten pi und die Einschlusswahrscheinlichkeiten πi k¨
onnen
nicht anhand der Daten bestimmt werden, weil unter Umst¨anden einige der ai unbekannt
bleiben.
Satz 8.11 (modifizierter Hansen-Hurwitz Sch¨atzer)
Bezeichne Ψi das Netzwerk, das die Untersuchungseinheit Ui enth¨alt, und sei mi die
Anzahl der Untersuchungseinheiten in diesem Netzwerk. Definiere
1 X
Yj .
wi =
mi j∈Ψ
i
(a) Der unverzerrte modifizierte Hansen-Hurwitz Sch¨atzer f¨
ur das Populationsmittel lautet
n
1X
ˆ
¯
wi .
Y. =
n i=1
(b) Falls die Startstichprobe eine eZoZ ist, so gilt
ˆ
¯ = 1
VaroZ (Y.)
n
n
1−
N
N
2
1 X
wi − Y¯ .
N − 1 i=1
108
(b0) Falls die Startstichprobe eine eZmZ ist, so gilt
N
X
2
1
1
ˆ
¯ =
VarmZ (Y.)
wi − Y¯ .
n N i=1
(c) Ein unverzerrter Sch¨atzer f¨
ur die Varianz ist
ˆ
c oZ (Y.)
¯ = 1
Var
n
n
1−
N
n
2
1 X
ˆ
¯
wi − Y.
n − 1 i=1
(c0) Ein unverzerrter Sch¨atzer f¨
ur die Varianz ist
n 2
X
1
1
ˆ
ˆ
c
¯
¯
VarmZ (Y.) =
wi − Y.
n n − 1 i=1
Beweis: siehe Vorlesung
109
Bemerkung 8.12 (modifizierter Horvitz-Thompson Sch¨atzer)
Falls die Startstichprobe eine eZoZ ist, so definiere die Wahrscheinlichkeit
0
πi
N − m .N i
.
=1−
n
n
Falls die Startstichprobe eine eZmZ ist, so definiere πi0 = 1 − (1 − mi/N )n. Dabei ist
mi wiederum die Anzahl von Untersuchungseinheiten in dem Netzwerk, das Ui enth¨alt.
Erf¨
ullt Ui die Bedingung nicht, so ist mi = 1. Sei Ji = 0, falls Ui nicht die Bedingung
erf¨
ullt und nicht in der Startstichprobe ist, andernfalls Ji = 1. Sei ν die Anzahl der
unterschiedlichen Untersuchungseinheiten in der Stichprobe. Dann ist der modifizierte
Horvitz-Thompson-Sch¨atzer f¨
ur das Populationsmittel gegeben durch
ν
X
1
Yi Ji
ˆ
¯ =
Y.
.
N i=1 πi0
Alternativ: Sei K die Anzahl der Netzwerke in der Population und sei Ψk die Menge der
Untersuchungseinheiten im k-ten Netzwerk. Sei xk die Anzahl der Untersuchungseinheiten
P
im k-ten Netzwerk. Sei Yk∗ =
i∈Ψk Yi die Merkmalssumme im k -ten Netzwerk. Die
Wahrscheinlichkeit πi0 ist f¨
ur alle Untersuchungseinheiten in dem Netzwerk gleich, d.h.
πi0 = αk und
N − x .N k
αk = 1 −
n
n
n
bei eZoZ und αk = 1 − (1 − xk /N ) bei eZoZ. Definiere Zk = 1, falls irgendeine
Untersuchungseinheit aus dem k-ten Netzwerk in der Startstichprobe ist, sonst Zk = 0.
110
Mit der Netzwerknotation l¨asst sich obiger Sch¨atzer auch darstellen als
K
∗
X
Zk
Y
1
k
ˆ
¯ =
Y.
N k=1 αk
F¨
ur die Varianzen und Varianzformeln siehe Thompson (2002), Sampling, Wiley, Seite
296-297.
Bemerkung 8.13
Betrachte die adaptive Klumpenstichprobe mit Startstichprobenumfang n und betrachte
eine eZoZ mit festen Stichprobenumfang n∗. Dann l¨asst sich zeigen, dass die adaptive
Strategie mit dem modifizierten Hansen-Hurwitz-Sch¨atzer zu einer gr¨
oßeren Pr¨azision der
Sch¨atzung f¨
uhrt als eine eZoZ, falls gilt
1
1
− ∗
n
n
1
2
Sy <
n
n
1−
N
K
1 XX
2
(Yi − wi)
N − 1 k=1 i∈Ψ
i
mit Ψk dem k-ten Netzwerk in der Population.
D.h. adaptive Klumpenstichprobenverfahren sind effizienter als eine eZoZ, wenn die
Variabilit¨at innerhalb der Netzwerke in der Population hinreichend groß ist.
111
8.2 Systematische und Strip adaptive Klumpenstichprobenverfahren
Annahmen 8.14
Die Grundgesamtheit l¨asst sich in N prim¨are Einheiten aufteilen. Jede der prim¨aren
Einheiten besteht aus M sekund¨aren Einheiten. Damit gibt es M N Einheiten in
der Grundgesamtheit.
Die M N Einheiten der Grundgesamtheit werden mit Uij ,
i = 1, . . . , N , j = 1, . . . , M , bezeichnet. Jede Uij ist eindeutig mit einem
Merkmalswert Yij verbunden. Die interessierenden Parameter sind das Populationsmittel
PN PM
Y¯ = (M N )−1 i=1 j=1 Yij bzw. die Populationsgr¨oße Y = M N Y¯ .
Bemerkung 8.15
Bez¨
uglich der adaptiven Strategie gelten die gleichen Voraussetzungen wie in Abschnitt 8.1.
Die Nachbarschaft der sekund¨aren Einheiten muss eindeutig definiert sein. Eine Bedingung
muss existieren, die das adaptive Hinzuf¨
ugen von sekund¨aren Untersuchungseinheiten zur
Startstichprobe regelt. Seien die Y -Werte der Grundgesamtheit gegeben, dann l¨asst sich
die Grundgesamtheit eindeutig in K Netzwerke aufteilen.
Bemerkung 8.16 (Design)
Es wird zun¨achst eine Startstichprobe von Umfang n der prim¨aren Einheiten mittels eZoZ
gezogen. Wenn eine sekund¨are Einheiten in einer prim¨aren Einheit der Startstichprobe die
Bedingung erf¨
ullt, so werden alle sekund¨aren Einheiten in der Nachbarschaft ebenfalls in
die Stichprobe aufgenommen. Wenn eine der neu aufgenommenen sekund¨aren Einheiten
auch die Bedingung erf¨
ullt, so werden auch die sekund¨aren Einheiten aus der Nachbarschaft
dieser Einheit in die Stichprobe aufgenommen, usw.
112
Bezeichnung 8.17
(a) Wenn die prim¨aren Einheiten gleichm¨aßig u
¨ber die Studienregion verteilt sind, so spricht
man von einer systematischen Startstichprobe.
(b) Die prim¨aren Einheiten heißen Strips (Streifen), wenn die sekund¨aren Einheiten in den
prim¨aren Einheiten in gerader Linie angeordnet sind.
Lemma 8.18 (Startstichprobe mit eZoZ)
Sei mij die Anzahl der prim¨aren Einheiten, die mit dem Netzwerk, welches Uij enth¨alt,
verbunden ist, und aij die Anzahl der prim¨aren Einheiten, bei denen Ui edge unit ist. Die
Startstichprobe von Umfang n wird als eZoZ gezogen. Dann gilt:
(a) Die Auswahlwahrscheinlichkeit f¨
ur Uij in jedem der n Z¨
uge ist
pij
mij + aij
,
=
N
i = 1, . . . , N, j = 1, . . . , M.
(b) Die Wahrscheinlichkeit, dass Uij in die Stichprobe gelangt, ist
πij
N − m − a .N ij
ij
=1−
,
n
n
i = 1, . . . , N, j = 1, . . . , M.
113
Satz 8.19
PM
¯ ist gegeben durch
Sei Yi =
atzer f¨
ur Y
j=1 Yij . Ein unverzerrter Sch¨
n
1 X
ˆ
¯
Yi
Y0 =
M n i=1
mit
1
ˆ
¯
Var(Y0) =
M 2n
N
n
1−
N
1 X
2
(Yi − M Y¯ )
N − 1 i=1
n
1−
N
1 X
¯0)2.
(Yi − M Yˆ
n − 1 i=1
und unverzerrter Varianzsch¨atzung
c (Yˆ
¯0) = 1
Var
M 2n
n
Beweis: Anwendung von Satz 1.5
Beachte: Eine unverzerrte Varianzsch¨atzung gibt es nicht, wenn die prim¨aren Einheiten
mit einer systematischen Auswahl mit zuf¨alligem Start gezogen wurden.
114
Satz 8.20 (Sch¨atzer basierend auf partiellen Auswahlwahrscheinlichkeiten)
Sei K die Anzahl der Netzwerke in der Grundgesamtheit und Yk die k-te Netzwerksumme
des interessierenden Merkmals. Sei
1, falls die i-te prim¨are Einheit mit dem Netzwerk k verbunden ist,
Iik =
0, sonst.
PN
aren Einheiten in der Grundgesamtheit, die mit
Sei xk =
i=1 Iik die Anzahl der prim¨
dem k-ten Netzwerk verkn¨
upft sind. Die Auswahlwahrscheinlichkeit, dass die prim¨are
Einheit mit dem k-ten Netzwerk verkn¨
upft ist, ist somit xk /N .
Definiere f¨
ur die i-te prim¨are Einheit
K
1 X Yk Iik
.
wi =
M k=1 xk
¯ ist gegeben durch
(a) Ein unverzerrter Sch¨atzer f¨
ur Y
n
1X
ˆ
¯
Y1 =
wi
n i=1
¯1) = 1
mit Var(Yˆ
n
n
1−
N
N
2
1 X
¯
wi − Y .
N − 1 i=1
(b) Die Varianz wird unverzerrt gesch¨atzt durch
c (Yˆ
¯1) = 1
Var
n
n
1−
N
n
2
1 X
ˆ
¯
wi − Y1 .
n − 1 i=1
115
Satz 8.21 (Sch¨atzer basierend auf partiellen Einschlusswahrscheinlichkeiten)
Sei αk die Wahrscheinlichkeit, dass eine oder mehrere prim¨are Einheiten, die mit dem
k-ten Netzwerk verkn¨
upft sind, in die Startstichprobe gelangen, d.h.
N − x .N k
αk = 1 −
.
n
n
Sei αkj die Wahrscheinlichkeit, dass eine oder mehrere prim¨are Einheiten, die mit dem
k-ten und dem j -ten Netzwerk verkn¨
upft sind, in die Startstichprobe gelangen, d.h.,
N − xk N − xj N − xk − xj + xkj .N ,
αkj = 1 −
+
−
n
n
n
n
wobei xkj die Anzahl der prim¨aren Einheiten ist, die mit den Netzwerken k und j verkn¨
upft
sind.
Sei Zk = 1, wenn eine oder mehrere prim¨aren Einheiten in der Startstichprobe sind, die
mit dem k-ten Netzwerk verkn¨
upft sind, sonst Zk = 0.
¯ gegeben durch
Dann ist ein unverzerrter Sch¨atzer f¨
ur Y
¯2 =
Yˆ
K
1 X Yk Zk
M N k=1 αk
mit
K
K
XX
1
ˆ
¯
Var(Y2) =
YK Yj
M 2N 2 k=1 j=1
αkj
−1
αk αj
,
116
wobei αkk = αk .
Der unverzerrte Varianzsch¨atzer lautet
K
K
X X YK Yj Zk Zj
1
ˆ
c
¯
Var(Y2) =
M 2N 2 k=1 j=1
αkj
αkj
−1
αk αj
8.3 Geschichtete adaptive Klumpenstichprobenverfahren
Designs f¨
ur geschichtete adaptive Klumpenstichprobenverfahren: Die Grundgesamtheit
wird in L disjunkte Schichten aufgeteilt und jede Schicht h besteht aus Nh Einheiten,
PL
h = 1, . . . , L. Der Umfang der Grundgesamtheit ist N =
Jeder
h=1 Nh .
Untersuchungseinheit Uhi wird eindeutig ein Merkmalswert Yhi, h = 1, . . . , L,
i = 1, . . . , Nh, zugeordnet. In jeder Schicht h wird nun eine Startstichprobe vom Umfang
nh gezogen. F¨
ur die adaptive Strategie gelten dieselben Annahmen und Voraussetzungen
wie in Abschnitt 8.1 und 8.2.
F¨
ur gegebene Y -Werte kann die Population wiederum in K disjunkte Netzwerke aufgeteilt
werden. Netzwerke sind dadurch charakterisiert, dass, wenn eine Einheit des Netzwerks
in der Startstichprobe ist, so gelangen alle Einheiten des Netzwerks in die endg¨
ultige
Stichprobe. Beachte, dass die Einheiten des Netzwerks zu unterschiedlichen Schichten
geh¨oren k¨onnen.
117
Sei rhi die Anzahl, wie oft Untersuchungseinheit Uhi ausgew¨ahlt wird.
Sei mkhi die Anzahl der Einheiten aus der Schicht k, die mit dem Netzwerk, das Uhi
enth¨alt, verkn¨
upft sind.
Sei akhi die Anzahl der Netzwerke in Schicht k, bei denen Uhi edge unit ist.
Die erwartete Anzahl, wie oft Uhi ausgew¨ahlt wird, ist dann
E(rhi) =
L
X
k=1
nk
mkhi + akhi
.
Nk
Die Wahrscheinlichkeit, dass Uhi in die Stichprobe gelangt, ist
πhi
L Y
Nk − mkhi − akhi.Nk =1−
nk
nk
k=1
Satz 8.22
Definiere
L
whi
L
.X n
nh X
k
=
ξkhi
mkhi,
Nh k=1
N
k
k=1
wobei ξkhi die Gesamtsumme der Y -Werte der Einheiten des Netzwerks von Uhi aus
Schicht k.
118
¯ ist dann gegeben durch
Ein unverzerrter Sch¨atzer f¨
ur das Populationsmittel Y
nh
L
X
X
1
N
h
¯1 =
whi
Yˆ
N h=1 nh i=1
mit
L
1 X
Sh2
ˆ
¯
Var(Y1) = 2
Nh(Nh − nh) ,
N h=1
nh
wobei
N
2
Sh
h
X
2
1
¯
=
whi − Wh
Nh − 1 i=1
N
h
X
1
¯h =
whi.
und W
nh i=1
Die Varianz Sh2 wird durch die Stichprobenvarianz
n
h
1 X
2
2
sh =
(whi − w)
¯ ,
nh i=1
n
h
1 X
w
¯=
whi,
nh i=1
unverzerrt gesch¨atzt.
119
Bemerkung 8.23
(a) Anstelle von whi kann auch die neue Variable
0
whi
=
L
X
ξkhi
L
.X
k=1
mkhi
k=1
ˆ
¯ 0, indem whi durch w0 in
definiert werden. Damit ergibt sich ein neuer Sch¨atzer Y
1
hi
0
Satz 8.22 ersetzt wird. Beachte, dass whi und whi gleich sind, falls die Schichten alle
gleich groß sind und die Umf¨ange der Startstichproben in den Schichten ebenfalls.
(b) Anstelle von whi kann auch die neue Variable
00
whi
.
= ξhhi mhhi
definiert werden, d.h. es werden keine Untersuchungseinheiten des Netzwerks von Uhi
ˆ
¯ 00 ergibt sich,
ber¨
ucksichtigt, die in anderen Schichten liegen. Der neue Sch¨atzer Y
1
00
indem whi durch whi in Satz 8.22 ersetzt wird.
Satz 8.24
Seien die K verschiedenen Netzwerke mit 1, 2, . . . , K bezeichnet.
Sei Yi die
Gesamtsumme im i-ten Netzwerk. Sei xhi die Anzahl der Einheiten in Schicht h,
die mit dem Netzwerk i verkn¨
upft sind. Die Wahrscheinlichkeit, dass die Startstichprobe
120
mit dem Netzwerk i verkn¨
upft ist, lautet
L Y
Nk − xki.Nk αi = 1 −
.
n
n
k
k
k=1
Sei qi = 1 − αi, dann ist die Wahrscheinlichkeit, dass die Startstichprobe mit den
Netzwerken i und j verkn¨
upft ist, gegeben durch
αij
L Y
Nk − xki − xkj .Nk = 1 − qi − qj +
nk
nk
k=1
Sei Zi = 1, falls die Startstichprobe mit dem Netzwerk i verkn¨
upft ist, sonst Zi = 0.
Der unverzerrte stratifizierte Sch¨atzer vom Horvitz-Thompson-Typ ist gegeben durch
K
X
Yi Zi
1
ˆ
Y¯2 =
N i=1 αi
k
k
1 XX
ˆ
¯
mit Var(Y2) = 2
Yi Yj
N i=1 j=1
αij
−1
αi αj
Die Varianz wird erwartungstreu gesch¨atzt durch
k
k
1 X X Yi Yj Zi Zj
ˆ
c
¯
Var(Y2) = 2
N i=1 j=1
αij
αij
−1
αi αj
121
§9 Ausblick auf weitere Verfahren und Anwendungen
• Nonresponse
• Multivariate Stichprobenverfahren
• Ranked Set Sampling
122
9.1 Nonresponse
Einfaches Modell: Unterteile die GG in zwei Schichten; Schicht 1 sind die Responder und
Schicht 2 die Nonresponder. Seien W1 = N1/N und W2 = N2/N die entsprechenden
Schichtgewichte.
Wenn die Untersuchung beendet ist, liegen nur Informationen u
¨ber Schicht 1 vor; es gibt
keine Daten aus Schicht 2.
Wie sieht der Erwartungswert von y¯ bei eZoZ bei Vorliegen von Nonresponse aus?
¯ angegeben werden?
Kann ein zuverl¨assiges Konfidenzintervall f¨
ur Y
¯1 − Y¯2)
Bias: W2 (Y
Stetiges Merkmal: ??
Bin¨ares Merkmal: P2 ∈ [0, 1]
Seien W1 und W2 bekannt und sei eine Stichprobe vom Umfang n1 gegeben, dann ist ein
approximatives (1 − α)-Konfidenzintervall f¨
ur P1 gegeben durch
p1 ± u1−α/2
q
p1 (1 − p1)/n1
123
Ein konservatives (1 − α)-Konfidenzintervall f¨
ur P ist gegeben durch
[PˆL, PˆU ]
mit
PˆL = W1
und
PˆU = W1
p1 − u1−α/2
p1 + u1−α/2
q
p1 (1 − p1)/n1
q
+ W2 · 0
p1 (1 − p1)/n1
+ W2 · 1
Je gr¨oßer W2, d.h. der Anteil der Nonresponder, desto breiter ist das Konfidenzintervall.
Ziel: W2 m¨
oglichst klein.
Die Grenzen k¨onnen auch etwas schmaler gemacht werden, da nie gleichzeitig p2 = 0 und
p2 = 1 — wie oben angenommen — auftreten kann.
Literatur: Kapitel 13 in Cochran (1977), Sampling Techniques, Wiley.
124
9.2 Multivariate Stichprobenverfahren
Literatur: Kreienbrock, L. (1986). Einfache und geschichtete Zufallsauswahl aus endlichen
Grundgesamtheiten bei multivariaten Beobachtungen. Dissertation, Fachbereich Statistik,
Uni Dortmund.
In allen bisherigen Stichprobenverfahren wurde nur ein Merkmal Y erhoben. H¨aufig werden
aber mehrere Merkmale Y1, . . . Yk an einer Untersuchungseinheit erhoben.
Beachte: einfache und geschichtete Zufallsauswahl w¨ahlen die Untersuchungseinheit aus;
unabh¨angig davon, ob ein oder mehrere Merkmal erhoben werden.
Aber: die Merkmale Y1, . . . Yk sind in der Regel korreliert; die Rolle der Varianz bei einem
Merkmal u
¨bernimmt nun die Kovarianzmatrix der Merkmale Y1, . . . Yk .
Wann ist eine Kovarianzmatrix A ”kleiner” als eine Kovarianzmatrix B ?
125
9.3 Ranked Set Sampling
Kosteneffektive Stichprobenverfahren
Problem: Bestimmung von Yi ist kostspielig, arbeitsaufwendig und/oder zeitaufwendig.
McIntyre (1952, Australian Journal of Agricultural Research),
Durchschnittlicher Heuertrag wurde effizienter (pr¨aziser) als durch eZoZ gesch¨atzt.
Grundlegende Idee / Annahme:
Eine Stichprobe (Menge) von Untersuchungseinheiten kann durch gewisse Charakteristika
bez¨
uglich der interessierenden Variablen Y , ohne diese tats¨achlich zu messen, klassifiziert
bzw. geordnet werden.
McIntyre (1952):
1. Schritt: Ziehe eine eZoZ vom Umfang k, ordne die k Stichprobenelemente bzgl. der
Variablen Y durch Beurteilung (ohne die tats¨achliche Messung von Y ), w¨ahle das
Stichprobenelement mit Rang 1 und messe Y ; ignoriere alle weiteren Stichprobenelemente.
2. Schritt: Ziehe eine neue eZoZ vom Umfang k, ordne die k Stichprobenelemente
bzgl. der Variablen Y durch Beurteilung (ohne die tats¨achliche Messung von Y ), w¨ahle das
Stichprobenelement mit Rang 2 und messe Y ; ignoriere alle weiteren Stichprobenelemente.
...
k. Schritt: Ziehe eine neue eZoZ vom Umfang k, ordne die k Stichprobenelemente
bzgl. der Variablen Y durch Beurteilung (ohne die tats¨achliche Messung von Y ), w¨ahle das
Stichprobenelement mit Rang k und messe Y ; ignoriere alle weiteren Stichprobenelemente.
126
Wiederhole die Schritte 1 bis n m-mal (m Zyklen) ⇒ Stichprobenumfang n = m k.
Das Konzept des Ranked Set Sampling (RSS) ist ¨ahnlich der geschichteten Zufallsauswahl.
RSS kann als Post-Stratifikation der Stichprobenelemente bez¨
uglich ihrer R¨ange aufgefasst
werden.
Das Ranking kann durch eine latente Variable (Beispiel McIntyre: Beurteilung der Gr¨
oße
des Heuertrags durch einen erfahrenen Bauern per einfacher Betrachtung des Feldes) oder
durch eine externe Variable X erfolgen.
Unter einer Konsistenzannahme l¨asst sich zeigen, dass das Stichprobenmittel
des RSS-Verfahrens erwartungstreu f¨
ur das Populationsmittel ist und die Varianz
des Stichprobenmittels des RSS-Verfahrens stets kleiner gleich der Varianz des
Stichprobenmittels bei eZmZ ist; und die Gleichheit gilt nur dann, wenn das Ranking
zuf¨allig geschieht.
Literatur: Chen, Z., Bai, Z., Sinha, B.K. (2004), Ranked Set Sampling, Springer.
127