Stichprobenverfahren

JProf. Dr. Hans Manner
Stichprobenverfahren
Stichprobenverfahren
Sommersemester 2015
1. Einf¨
uhrung
1
JProf. Dr. Hans Manner
Stichprobenverfahren
Personen
Jun.-Prof. Dr. Hans Manner
Lehrstuhlvertretung “Statistische Methoden mit Schwerpunkt
Psychometrie”
Raum: M 737
E-mail: [email protected]
Tel.: 0231 755 - 8259
([email protected])
Sprechstunde: Nach Vereinbarung, idealerweise Dienstags
M.Sc. Joanna Wiedom
Raum: E 16a
E-mail: [email protected]
Sprechstunde: Nach Vereinbarung
1. Einf¨
uhrung
2
JProf. Dr. Hans Manner
Stichprobenverfahren
Zeiten und Daten
Vorlesung:
Dienstags 12.15-13.45h in M/E25,
¨
Ubung:
Montags 14.15-15.45h in H¨orsaal M/E21 (findet nicht immer statt).
Klausuren: TBA, aber zwei Termine, einer direkt nach
Vorlesungsende und einer im September
1. Einf¨
uhrung
3
JProf. Dr. Hans Manner
Stichprobenverfahren
Organisation und Materialien
• Alle Unterlagen auf meiner Webseite an der TU Dortmund
verf¨
ugbar
• Wichtig: Zeitplan zur Vorlesung, wird aktualisiert, beinhaltet
¨
Abgabedaten der Ubungsbl¨
atter
• Skript
• Zus¨atzliche Folien (wie diese, evtl. mit Notizen)
¨
• Ubungsbl¨
atter werden regelm¨aßig hochgeladen
• Weitere Materialien und Bekanntmachungen
1. Einf¨
uhrung
4
JProf. Dr. Hans Manner
Stichprobenverfahren
¨
Ubungen
¨
• Es gibt 7 Ubungsbl¨
atter
• Davon m¨
ussen mindestens 3 abgegeben werden, um an der
Klausur teilnehmen zu d¨
urfen
¨
• Außerdem 3 R-Ubungen
bez¨
uglich der praktischen
Implementierung der Verfahren
¨
• Ubungen
finden nicht immer statt, siehe Zeitplan
¨
• Nur eine große Ubungsgruppe,
verbleibende individuelle Fragen
in der Sprechstunde
1. Einf¨
uhrung
5
JProf. Dr. Hans Manner
Stichprobenverfahren
Literatur
• Skript zum Kurs (auf Webseite verf¨
ugbar)
• Kauermann und K¨
uchenhoff, “Stichproben - Methoden und
praktische Umsetzung mit R”, Springer Verlag, 2011. (Als Ebook
kostenlos f¨
ur Studenten der TU Dortmund zug¨anglich.)
• Cochrane, “Stichprobenverfahren”, De Gruyter, 1972.
• Kreienbrock, “Einf¨
uhrung in die Stichprobenverfahren”,
Oldenbourg, 1989.
• Pokropp, “Stichproben: Theorie und Verfahren”, Oldenbourg,
1996.
1. Einf¨
uhrung
6
JProf. Dr. Hans Manner
Stichprobenverfahren
Klausur
• Anmeldung via e-mail bis maximal eine Woche vor der Klausur
• Voraussetzung ist die Abgabe von mindestens drei
¨
Ubungsbl¨
attern, die mit ausreichend bewertet sein m¨
ussen
(sprich es muss mindestens die H¨alfte richtig sein)
• 90 min¨
utige schriftliche Klausur
• Rechen- und Verst¨andnisaufgaben
• Als Hilfsmittel ist ein A4 Blatt mit handgeschriebenen Notizen
erlaubt (und nat¨
urlich ein Taschenrechner)
1. Einf¨
uhrung
7
JProf. Dr. Hans Manner
Stichprobenverfahren
Kursinhalte
• Einf¨
uhrung in die Stichprobenverfahren
• Modellbasierte Stichprobenverfahren
• Designbasierte Stichprobenverfahren
• Geschichtete Stichproben
• Klumpenstichproben
• Mehrstufige Verfahren
• Zweiphasige Verfahren
• Capture-Recapture Verfahren
• Ausblick auf weitere Verfahren
1. Einf¨
uhrung
8
JProf. Dr. Hans Manner
Stichprobenverfahren
Schwerpunkte
1. Theoretische Eigenschaften
2. Praktische Beispiele
3. Numerische Umsetzung in R
1. Einf¨
uhrung
9
JProf. Dr. Hans Manner
Stichprobenverfahren
Fragen?
1. Einf¨
uhrung
10
JProf. Dr. Hans Manner
Stichprobenverfahren
Einf¨
uhrung
• Wie bekommt man nach Schließung der Wahllokale genaue
Wahlprognosen durch eine Befragung von nur 2000 Personen?
• Wie w¨ahlt man die Personen aus?
• Wie h¨
angt die Berechnung der Prognose von der Auswahl der
Personen aus?
• Wie sollte man es nicht tun?
• Weitere Anwendungen von Stichprobenverfahren:
– Marktforschung
– Mikrozensus und Sozio¨okonomisches Panel
– Medizinisch-epidemiologische Studien
– Absch¨
atzung von Umweltbelastungen
– ...
1. Einf¨
uhrung
11
JProf. Dr. Hans Manner
Stichprobenverfahren
Population und Stichprobe
• Die Population oder Grundgesamtheit ist die Menge alle
Individuen oder Objekte, u
¨ber die eine Aussage getroffen werden
soll.
• Merkmalstr¨
ager, Untersuchungseinheiten, statistische
Einheiten oder Individuen sind die Einheiten oder Objekte, an
denen Untersuchungen, Messungen oder Beobachtungen
vorgenommen werden
• Merkmale sind die Eigenschaften der statistischen Einheiten,
die untersucht, beobachtet oder gemessen werden
• Eine Stichprobe S ist die Teilmenge der Population, an der die
Merkmale erhoben werden
• Wir unterscheiden eine Vollerhebung und eine Teilerhebung
1. Einf¨
uhrung
12
JProf. Dr. Hans Manner
Stichprobenverfahren
Notation
• Die Menge potentieller Untersuchungseinheiten {U1 , U2 , . . . , UN }
heißt Grundgesamtheit (kurz: GG) vom Umfang N .
• Jeder Untersuchungseinheit Ui wird ein eindeutig fester
Merkmalswert Yi zugeordnet.
• Es wird eine zuf¨
allige Stichprobe vom Umfang n gezogen.
• Die “Ergebnisse” yi , i = 1, . . . , n, repr¨
asentieren Zufallsvariablen.
• Notation bei Stichprobenverfahren
In der Grundgesamtheit: Großbuchstaben, feste Werte (meist)
unbekannt
In der Stichprobe: Kleinbuchstaben, zuf¨
allige Werte,
Realisationen von Zufallsvariablen
1. Einf¨
uhrung
13
JProf. Dr. Hans Manner
Stichprobenverfahren
Homograd und heterograd
Ist Yi qualitativ,
Yi ∈ {0, 1},
sprechen wir vom homograden Fall. Hier interessieren uns in der
Regel Anteilwerte. (Beispiele?)
Sind die Merkmalswerte Yi quantitativ,
Yi ∈ R,
sprechen wir vom heterograden Fall. Hier interessieren uns in der
Regel Mittelwerte. (Beispiele?)
1. Einf¨
uhrung
14
JProf. Dr. Hans Manner
Stichprobenverfahren
G¨
utekriterien im Rahmen der Stichprobentheorie
• Erwartungstreue: Sei θ der interessierende Parameter, dann heißt
T (y1 , . . . , yn ) erwartungstreu f¨
ur θ, falls
E(T (y1 , . . . , yn )) = E(T ) = θ.
• Varianzvergleich: Seien T1 und T2 zwei erwartungstreue Sch¨
atzer
f¨
ur θ, dann heißt T1 ”besser” als T2 , falls Var(T1 ) < Var(T2 ).
• MSE-Vergleich: Seien T1 und T2 zwei beliebige Sch¨
atzer f¨
ur θ,
dann heißt T1 ”besser” als T2 , falls MSE(T1 ) < MSE(T2 ).
(Hinweis: MSE(T ) = Var(T ) + [E(T ) − θ]2 )
1. Einf¨
uhrung
15
JProf. Dr. Hans Manner
Stichprobenverfahren
G¨
utekriterien
In der Regel interessiert uns der Mittelwert der Population
N
X
1
Yi
Y¯ =
N i=1
und die dazu geh¨orige Varianz
N
2
1 X
2
¯
S =
Yi − Y .
N − 1 i=1
¯
Außerdem interessiert uns f¨
ur einen Sch¨
atzer Yˆ
V ar(Yˆ¯ )
1. Einf¨
uhrung
16
JProf. Dr. Hans Manner
Stichprobenverfahren
G¨
utekriterien
• Wir m¨ochten diese Gr¨
oßen unverzerrt sch¨
atzen
• Wir wollen idealerweise ein Stichprobenverfahren und den dazu
geh¨origen Sch¨
atzer so w¨ahlen, dass die Varianz des
Mittelwertsch¨
atzers so klein wie m¨oglich ist
• Berechnung von Konfidenzintervallen
• Wie w¨ahlt man den Stichprobenumfang n unter bestimmten Zieloder Kostenfunktionen?
1. Einf¨
uhrung
17
JProf. Dr. Hans Manner
Stichprobenverfahren
Nicht-zuf¨
allige Auswahlverfahren
• Auswahl auf “Geratewohl”, den “Mann auf der Straße”
befragen
• Beispiel: Zuf¨allige Befragung an einem Vormittag im Supermarkt
zur Kundenzufriedenheit
• Typische Stichprobe
• Beispiele: Warenkorb zur Inflationsberechnung, Stadt Haßloch
als Testmarkt
• Quotenstichprobe, z.B Altersgruppen und
Geschlechterverteilung exakt auf die Population abstimmen →
St¨orgr¨
oßen werden kontrolliert, aber zuf¨
allige Auswahl n¨
otig
• Systematische Stichproben: W¨
ahle jedes p’te Element aus
der Population
1. Einf¨
uhrung
18
JProf. Dr. Hans Manner
Stichprobenverfahren
Verzerrungen
• Eine Stichprobe kann f¨
ur eine Fragestellung geeignet sein, f¨
ur
eine andere jedoch nicht
• Beispiel: Eine Gemeinde in einem Landkreis kann repr¨
asentativ
f¨
ur das Konsumverhalten im Landkreis sein, aber nicht f¨
ur die
Parteipr¨aferenz f¨
ur eine bestimmte Partei, weil z.B. eine sehr
beliebter B¨
urgermeister dieser Partei in der Gemeinde ist
• Man hat also eine verzerrte Stichprobe bez¨
uglich der
Parteipr¨aferenz
• Anderes Beispiel: Man befragt vormittags in einem Supermarkt
die Leute nach ihren Berufen
1. Einf¨
uhrung
19
JProf. Dr. Hans Manner
Stichprobenverfahren
Auswahlform 1
• Alle N Element sind verf¨
ugbar und mit Nummern (labels)
versehen → wir haben eine Populationsliste
• Zufallsauswahl aus den Nummern 1, . . . , N
• Die dazugeh¨origen Untersuchungseinheiten bilden die Stichprobe
S
• Man kann mit Zur¨
ucklegen (mZ) oder ohne Zur¨
ucklegen (oZ)
ziehen
• Eigentlich interessiert nur oZ, aber Formeln f¨
ur mZ in der Regel
einfacher
• Wenn der Auswahlsatz n/N klein ist kann man oZ Stichproben
wie mZ behandeln
1. Einf¨
uhrung
20
JProf. Dr. Hans Manner
Stichprobenverfahren
Auswahlform 1: Einfache Stichprobe
Die Wahrscheinlichkeit einer bestimmten Stichprobe S vom Umfang
n ist dann
1
P (S) = N −n−1
n
beim Ziehen mZ und
P (S) =
1
N
n
beim Ziehen oZ. Jedes Element die gleiche Wahrscheinlichkeit in die
Stichprobe zu gelangen. Diese Auswahlwahrscheinlichkeit ist
gegeben durch
n
π=
N
¨
Herleitungen davon in der Ubung.
1. Einf¨
uhrung
21
JProf. Dr. Hans Manner
Stichprobenverfahren
Studienpopulation
• Eine Studienpopulation ist eine zur Verf¨
ugung stehende
Untermenge der Population
• Beispiel: Leute mit Telefon bei einer Telefonumfrage
1. Einf¨
uhrung
22
JProf. Dr. Hans Manner
Stichprobenverfahren
Auswahlform 2: Gr¨
oßenproportionale Stichproben
(pps)
• Wir w¨ahlen die Auswahlwahrscheinlichkeiten πi proportional zu
Yi
• Hilfsvariable Xi die mit Yi korreliert wird dazu verwendet
• So werden informativere Beobachtungen mit h¨
oherer
Wahrscheinlichkeit gew¨
ahlt
• Varianzreduktion bei der Mittelwertsch¨
atzung
1. Einf¨
uhrung
23
JProf. Dr. Hans Manner
Stichprobenverfahren
Auswahlform 3: Geschichtete Stichprobe
• Die Grundgesamtheit ist in M Teilgesamtheiten vom Umfang Nh
f¨
ur die h-te Teilmenge zerlegt
• Diese Teilmengen nennt man Schichten
• Man zieht aus jeder Schicht und setzt die Gesamtstichprobe
daraus zusammen
• Dies kann zu einer Reduktion der Varianz der
Mittelwertsch¨
atzung im Vergleich zur einfachen Stichprobe
f¨
uhren
• Beispiel: Deutschland und die Bundesl¨ander
1. Einf¨
uhrung
24
JProf. Dr. Hans Manner
Stichprobenverfahren
Auswahlform 4: Klumpenstichproben
• Man zerlegt die GG in M disjunkte Teilmenge
• Man w¨ahlt zuf¨
allig m dieser Teilmengen
• F¨
ur jede dieser gew¨
ahlten Teilmengen f¨
uhrt man eine
Vollerhebung durch
• Beispiel: GG ist die Menge aller Schulanf¨anger in einer Stadt. Es
werden ganze Klassen ausgew¨
ahlt und vollst¨
andig befragt
1. Einf¨
uhrung
25
JProf. Dr. Hans Manner
Stichprobenverfahren
Auswahlform 5: Gebundene Hochrechnung
¯
• Wir beobachten ein weiteres Merkmal X und wir kennen X
• Wir unterstellen einen linearen Zusammenhang zwischen X und
Y
• Wir verwenden diese Vorkenntnis u
¨ber X um Y¯ zu sch¨
atzen
• F¨
uhrt in der Regel zu Varianzreduktion
• Beispiel: Bei der Wahlprognose kennen wir das Ergebnis bei der
letzten Wahl genau und erfragen das Wahlverhalten bei der
letzten Wahl
1. Einf¨
uhrung
26
JProf. Dr. Hans Manner
Stichprobenverfahren
Auswahlform 5’: Zweiphasige Stichprobe
¯ ist unbekannt
• Situation wie bei 5, aber X
• Wir nehmen an, dass X relative g¨
unstig erhoben werden kann
¯
• In Phase 1 ziehen wir eine Stichprobe und sch¨
atzen X
• In Phase 2 gehen wir vor wie in 5
1. Einf¨
uhrung
27
JProf. Dr. Hans Manner
Stichprobenverfahren
Auswahlform 6: Capture-Recapture
• Wie viele Ratten gibt es in New York?
• Fange 1000 Ratten
• Markiere diese und lasse Sie wieder frei
• Fange nach einem Monat wieder 1000 Ratten
• Wie viele sind davon markiert?
1. Einf¨
uhrung
28