Beispielsammlung Statistik I & II

Übungsbeispiele Statistik I & II für
SoziologInnen
Version 3.2
1
24. November 2015
Grundlagen
1.1. Betrachten Sie die folgenden Merkmale:
• Lebensalter
• Temperatur (in Grad Celsius bzw. Kelvin)
• Arbeitslosenzahl bzw. Arbeitslosenrate
• Bestellmenge
• Religion
• Preis
• Kontostand
• Abschlussnote der Lehrveranstaltung
(i) Sind die Merkmale nominalskaliert, ordinalskaliert, metrisch skaliert oder verhältnisskaliert?
(ii) Handelt es sich dabei um qualitative oder quantitative Merkmale?
(iii) Sind die Ausprägungen stetig oder diskret?
1.2. Welche der folgenden Aussagen sind richtig?
(i) Das Merkmal ”Grundstücksgröße” ist verhältnisskaliert und stetig.
(ii) Verhältnisskalierte Merkmale haben einen absoluten Nullpunkt, negative Merkmalsausprägungen sind nicht möglich.
(iii) Für intervallskalierte Merkmale existiert ein absoluter Nullpunkt. Quotientenbildung
von Merkmalsausprägungen liefert wertvolle Information.
1.3. Interpretieren Sie folgenden Artikel aus dem Standard vom 26. Mai 2010:
Mehr und weniger Herzprobleme: Divergierende Zahlen zu Verboten
von Michael Möseneder
Wien - Wie gesund sind Rauchverbote? Schon kurzfristig extrem wirksam gegen Herzinfarkte, sagen Kardiologen. Allerdings gibt es auch offizielle Statistiken, die die Vorteile
etwas relativieren.
1
Um 21 Prozent ging in Island die Zahl der Herzprobleme bei Nichtrauchern nach der
Einführung der Rauchverbote an öffentlichen Orten im Jahr 2007 zurück, zeigt eine im
Vorjahr beim Europäischen Kardiologenkongress präsentierte Studie. Konkret wurde verglichen, wie viele Menschen in den fünf Wochen vor und in den fünf Monaten nach dem
Rauchverbot mit akuten Herzbeschwerden ins Krankenhaus kamen. Bei den Männern, die
75 Prozent der Patienten ausmachten, waren es vor dem Verbot 157 Betroffene, danach
124 Personen.
Für Studienleiter Thorarinn Gudnason von der Universität Reykjavik ist die Schlussfolgerung klar: Ein allgemeines Rauchverbot könnte weltweit Leben retten, ohne große
Investitionen oder Nebenwirkungen wie für medizinische Therapien zu benötigen. Das
gilt allerdings offenbar nur für Männer: Die Studie zeigt, dass sich bei Frauen praktisch
nichts verändert.
In Irland, das als erstes EU-Land schon im März 204 strene Antitabakgesetze erlassen hat,
ist man im Gesundheitsministerium etwas vorsichtiger mit der Beurteilung kurzfristiger
Effekte. Eine klare Auswirkung würde sich erst Jahre später zeigen, sagt man im Gesundheitsministerium.
Denn die Zahlen, die Pressesprecher Martin Woods vorlegt, scheinen die isländische Studie
nicht unbedingt zu bestätigen. Die Zahl der Herzinfarkte in ganz Irland ging zwischen
1998 und 208 zwar um 5.4 Prozent zurück. Die Zahl der Herzerkrankungen insgesamt
ist im selben Zeitraum allerdings um 2.9 Prozent gestiegen. Interessant dabei: Zwischen
2006 und 2008 ist die Zahl der Erkrankungen in Irland sogar leicht angestiegen, während
sie in den EU-15-Staaten weiter gesunken ist. ”Ein Rückgang würde sich nicht unbedingt
sofort nach einem Rauchverbot zeigen”, meint Woods.
2
Lagemaße und Streuungsmaße
2.1. Verwendung des Summen- (Σ) bzw. Produkt-(Π) Symbols. Für eine kompaktere Darstellung ist folgende Schreibweise üblich:
A1 + A2 + . . . + An−1 + An = Σni=1 Ai ,
B1 B2 · · · Bm−1 Bm = Πm
k=1 Bk
Finden Sie die alternative Schreibweise zu
(i)
Pn
l=1 cl xl
Pn
k=1 ck
Was erhält man im Fall, dass cl = 1, für alle l = 1, 2, · · · , n?
2
(ii)
q
α
α
m−1 αm
xα1 1 xα2 2 · · · xm−1
xm
mit α = α1 + α2 + · · · + αm
2.2. Erklären Sie die Begriffe
(i) arithmetisches (gewichtetes) Mittel
(ii) geometrisches (gewichtetes) Mittel
(iii) harmonisches (gewichtetes) Mittel
2.3. In der folgenden Tabelle sind die Stimmanteile, die die wichtigsten Parteien bei der letzten
Wahl erreicht haben, aufgeschlüsselt nach Altersgruppen angegeben.
16-25 25-45 45-65
65 -
SPÖ
23%
29%
31% 33%
ÖVP
19%
22%
35% 36%
FPÖ
29%
18%
15% 16%
Grüne
14%
20%
8%
6%
BZÖ
12%
9%
4%
7%
3%
2%
7%
2%
sonstige
Berechnen Sie die Stimmanteile in der Gesamtbevölkerung, wenn die Häufigkeit der einzelnen Altersgruppen (der abgegebenen gültigen Stimmen) folgendermaßen aussieht:
Altersklasse
Häufigkeit
16-25 25-45 45-65
22%
30%
65 -
35% 13%
2.4. In den Städten Wien, Graz und Salzburg wurde der Durchschnittspreis für ein Produkt
ermittelt. In Wien ergab sich aus 20 Messungen ein Durchschnittspreis von 120 Euro,
15 Beobachtungen in Graz ergaben ein Mittel von 130 Euro, die Geschäfte in Salzburg
(basierend auf 18 Erhebungen) verlangten durchschnittlich 135 Euro für das Produkt.
Wie hoch ist der durchschnittliche Verkaufspreis unter Berücksichtigung der vorliegenden
Informationen?
2.5. In der folgenden Tabelle sind die Einwohnerzahlen von Neustadt aufgelistet.
Jahr
2004 2005 2006 2007 2008
Bevölkerung 7320 7480 7810 7735 7815
3
(i) Berechnen Sie die jährlichen Zuwachsraten sowie die durchschnittliche Zuwachsrate.
Welches Mittel müssen Sie dafür verwenden?
(ii) Angenommen Sie erhalten noch die Information, dass die Bevölkerung im Jahr 2002
aus 7125 Personen bestand. Wie können Sie diese Information verwenden, um die
durchschnittliche jährliche Zuwachsrate für die Periode 2002-2008 zu berechnen?
2.6. In der folgenden Tabelle sind die Einwohnerzahlen von Wien aufgelistet.
Jahr
Bevölkerung Wiens
1846
521 289
1851
550 947
1869
900 998
1880
1 162 591
(i) Berechnen Sie die durchschnittlichen jährlichen Zuwachsraten für die 3 Zeiträume
1846-1851, 1851-1869, 1869-1880.
(ii) Berechnen Sie dann aus diesen jährlichen durchschnittlichen Zuwachsraten die durchschnittliche Zuwachsrate für den Zeitraum 1846-1880.
2.7. Familie Hofmann fährt von A nach B. Die ersten 100 km werden dabei auf der Autobahn mit einer Durchschnittgeschwindigkeit von 120 km/h zurückgelegt, weitere 80 km
werden auf der Bundesstraße mit durchschnittlich 80 km/h, die letzten 20 km werden
im Mittel mit 40 km/h durch das Stadtgebiet zurückgelegt. Berechnen Sie die Durchschnittgeschwindigkeit der gesamten Fahrt.
2.8. Im Katalog eines amerikanischen Reiseveranstalters sind für Pauschalreisen folgende Preise
in $ angegeben:
600, 680, 720, 760, 840
Die Varianz dieser Preise beträgt 6400 $2 .
Wie groß ist die Varianz der entsprechenden Euro-Preise, wenn man einen Umrechnungskurs von 1$ = 0.70Euro zugrundelegt?
3
Graphische Darstellung
3.1. Betrachten Sie folgendes Wahlergebnis bei den Landtagswahlen 2013 (bzw. 2008) in der
Gemeinde StAW:
4
Stimm-
abgegebene
gültige
berechtigte
Stimmen
Stimmen
2008
7520
4780
4691
2286
1141
604
0
545
54
61
2013
7567
4920
4850
2100
920
875
499
409
47
0
ÖVP SPÖ Grüne
Frank FPÖ KPÖ Andere
(i) Berechnen Sie die Stimmanteile der einzelnen Parteien.
(ii) Stellen Sie das Ergebnis geeignet graphisch dar und vergleichen Sie die Wahlen 2013
mit 2008.
3.2. An einer Mautstation einer Gebirgsstraße werden die Ankünfte von Fahrzeugen (Ankünfte
pro Zeitintervall) beobachtet und folgende Werte festgestellt:
0,
5,
3,
3,
6,
4,
2,
2,
1,
1,
3,
3,
3,
4,
0,
2,
1,
1,
5,
4,
0,
1,
1,
4,
3,
6,
5,
0,
2,
1,
4,
2,
4,
5,
2,
0,
3,
2,
1,
5,
Ermitteln Sie die absoluten und relativen Häufigkeiten der Fahrzeugankünfte und stellen
Sie die Häufigkeitsverteilung und Summenhäufigkeitsfunktion graphisch dar.
3.3. Von 100 Personen, die nach ihrem monatlichen Einkommen befragt wurden, ergab sich
folgende Häufigkeitsverteilung:
monatl. Einkommen Anzahl der Personen
bis 999
20
1000 bis 1499
33
1500 bis 1999
27
2000 bis 2499
14
2500 bis 5000
6
Stellen Sie Häufigkeitsverteilung und Summenhäufigkeitsfunktion graphisch dar.
3.4. Eine Untersuchung über das Durchschnitteinkommen von 2-Personen-Haushalten in den
Ländern A und B ergab folgendes Ergebnis:
5
Land A
Land B
Einkommen in A$
Anzahl der Haushalte
Einkommen in B$ Anzahl der Haushalte
800 bis unter 1400
18
1400 bis unter 2000
12
1400 bis unter 2000
48
2000 bis unter 2800
30
2000 bis unter 2600
24
2800 bis unter 3600
74
2600 bis unter 3000
10
3600 bis unter 4000
48
4000 bis unter 5000
24
5000 bis unter 5800
12
Ein A$ entspricht dabei dem Wert von 2 B$.
(i) Zeichnen Sie die relativen Summenkurven
(ii) Bestimmen Sie (graphisch und rechnerisch) den Zentralwert (=Median).
(iii) Zeichnen Sie zum Vergleich der Einkommensstrukturen geeignete Histogramme (Bezugsklassenbreite 400 A$.)
3.5. Um die Wirkung der Erdbeschaffung auf das Wachstum neuer Hybridpflanzen zu erforschen, werden Schößlinge in 3 verschiedenen Erdarten eingepflanzt und ihr Wachstum
in 3 Kategorien klassifiziert.
Wachstum
Ton
Sand
Lehm
schlecht
16
8
14
mittelmß̈ig
31
16
21
gut
18
36
25
Geben Sie eine geeignete graphische Darstellung zur Illustration dieser Daten.
3.6. Die Anzahl der Beschäftigten (in Tausend) in den 3 Hauptberufsgruppen in den Jahren
1979 und 1989 für die USA ist in folgender Tabelle angegeben:
1979
1989
Industrie
26 461
25 326
Service
47 416
65 318
Regierung
15 947
17 769
Summe
89 824
108 413
(i) Berechnen Sie die relativen Häufigkeiten.
(ii) Zeichnen Sie gruppierte Balkendiagramme.
6
3.7. Im Rahmen des ”Canada Social Survey, 1991” wurden Personen hinsichtlich ihrer subjektiv erlebten Stressbelastung befragt.
Kategorie absolute Häufigkeit
keine
2310
gering
3783
hoch
4397
sehr hoch
844
gesamt
11334
(a) Berechnen Sie die relativen und kumulierten rel. Häufigkeiten.
(b) Stellen Sie die Häufigkeiten mittels eines Tortendiagramms dar.
(c) Wie hoch ist der Anteil der Personen mit keiner oder geringen Stressbelastung.
(d) Wie hoch ist der Anteil mit zumindest geringer Stressbelastung.
3.8. Gegeben sind die folgenden Messungen über sauren Regen in Wisconsin.
3.58 3.80 4.01 4.05 4.12 4.18
4.20 4.30 4.32 4.35 4.50 4.52
4.57 4.58 4.60 4.61 4.61 4.65
4.72 4.73 4.78 4.79 5.07 5.40
5.41 5.48
(a) Stellen Sie die Daten in einem Stem & Leaf Diagramm dar.
(b) Berechnen Sie Mittelwert und Standardabweichung.
(c) Berechnen Sie den Median und die Quartile.
(d) Zeichnen Sie einen Box-Plot.
3.9. Gegeben sind die folgenden klassifizierten Daten:
Klasse
abs. Häufigkeit
0-5000 5000 - 6000 6000 - 7000 7000 - 10000
7
37
46
(a) Ermitteln Sie rechnerisch aus diesen klassifizierten Daten
(i) den Mittelwert
(ii) den Median
(iii) die Varianz
7
10
(iv) das dritte Quartil.
(b) Erstellen Sie
(i) das Histogramm
(ii) das Summenhäufigkeitspolygon
(iii) ermitteln Sie graphisch den Median und das dritte Quartil
(c) Ist die Verteilung rechts- oder links-schief? (keine Rechnung erforderlich; vergleichen
Sie Median und Mittelwert!)
4
Konzentrationsmessung
4.1. In folgender Tabelle sind verschiedene Verteilungen (A − H) des Gesamtumsatzes eines
Industriezweigs auf einzelne Unternehmen (a − j) aufgelistet. Vergleichen Sie nun die
Verteilungen hinsichtlich deren Konzentration mittels
(a) graphischer Darstellung der Lorenzkurven
(b) Berechnung des Herfindahl-Index als Maßzahl der absoluten Konzentration
(c) Berechnung des Lorenz-Münzner Koeffizienten als Maßzahl der relativen Konzentration
Unter-
Verteilung
nehmen
A
B
C
a
1000
360
b
0
c
D
E
F
G
H
200
500 1000
180
100
199
300
200
140
280
180
100
199
0
200
200
130
260
150
100
199
d
0
80
200
120
240
150
100
199
e
0
60
200
110
220
100
100
199
f
100
100
1
g
40
100
1
h
40
100
1
i
30
100
1
j
30
100
1
Gesamtumsatz
1000 1000 1000 1000 2000 1000 1000 1000
4.2. Im Sozialbericht der APA wurden für die Verteilung der Bruttobezüge 2006 in Österreich
folgende Daten erhoben:
8
Anteil an der Bevölkerung
1. Fünftel
Anteil der Bruttobezüge (in %)
2. Fünftel 3. Fünftel 4. Fünftel 5. Fünftel
2.2
9.5
17.1
24.5
46.7
(a) Zeichnen Sie die Lorenzkurven.
(b) Berechnen Sie den Gini-Koeffizienten.
(c) Berechnen Sie den Robin-Hood Index (Hoover-Index).
4.3. In einem Land besitzen 50% der Bevölkerung 3% des Einkommensvermögens, weitere
40% besitzen 47%, 9% besitzen 27% und 1% besitzt 23% des Gesamteinkommens.
Zeichnen Sie die Lorenz-Kurven und berechnen Sie den Lorenz-Münzner Koeffizienten.
4.4. In Musterland verfügen die reichsten 20% der Bevölkerung über 30% des Vermögens,
während die ärmsten 30% nur 15% besitzt. Weiters besitzen 40% der Bevölkerung 45%
des Vermögens.
Berechnen Sie den Vermögensanteil der übrigen 10% und zeichnen Sie die Lorenzkurve.
Nach welchem Kriterium sind die Daten anzuordnen?
5
Wahrscheinlichkeitsrechnung
5.1. Zwei Frauen und vier Männer bilden eine Gruppe, aus der ein Dreierkomitee zufällig
gewählt wird.
(a) Man bilde einen geeigneten Ereignisraum für dieses ”Zufallsexperiment”.
(b) Man bestimme die Ereignisse
A = { die Frauen haben die Mehrheit im Komitee }
B = { die Männer haben die Mehrheit im Komitee }
C = { im Komitee befindet sich kein Mann }
D = { das Komitee wird nur aus Männern gebildet }
(c) Berechnen Sie die Wahrscheinlichkeiten für das Eintreten der Ereignisse A, B, C, D.
5.2. Ein Übungsleiter hat Schwierigkeiten, sich die Namen seiner Studenten zu merken. Nach
2 Monaten sind es noch 4 Studenten, deren Namen er nicht zuordnen kann. Mit welcher
Wahrscheinlichkeit ordnet er jedem dieser Studenten einen falschen aus den noch 4 verbleibenden Namen seiner Liste zu.
9
5.3. Marianne und Hans suchen nach einem fairen Spiel, um entscheiden zu können, ob sie
am Abend ins Kino (Wunsch von Hans) oder ins Theater (Wunsch von Marianne) gehen.
Welches der folgenden Glücksspiele würden Sie zur fairen Entscheidung empfehlen (mit
Begründung)?
(a) Eine Runde ”Schere-Stein-Papier” spielen.
(b) Eine (faire) Münze zweimal werfen, wobei Marianne gewinnt, wenn wenigstens einmal ZAHL gefallen ist. Ansonst gewinnt Hanns
(c) Aus einer Kiste, die 3 Lose mit den Zahlen 1, 2 oder 3 enthält, zieht jeder der beiden
blind ein Los, wobei dieses wieder zurückgelegt wird. Ist die Summe der Zahlen auf
den gezogenen Losen gerade, gewinnt Hans, ansonst Marianne.
(d) Zwei Würfel werden geworfen. Ist der Betrag der Augendifferenz 1 oder 2 gewinnt
Marianne, andernfalls Hans.
5.4. Bei einer schwierigen sozialpolitischen Entscheidung werden drei Experten zu Rate gezogen.
Die Experten irren bei Alternativentscheidungen mit den Wahrscheinlichkeiten
0.05, 0.10 bzw. 0.15. Wie groß ist die Wahrscheinlichkeit, dass die Mehrheit der Experten
einen Irrtum begeht? (unter der Annahme, dass die Urteile unabhängig abgegeben werden.)
5.5. Eine Drei-Mann-Jury hat zwei Mitglieder, die unabhängig voneinander urteilen und jeweils mit Wahrscheinlichkeit p die richtige Entscheidung treffen. Das dritte Mitglied trifft
seine Entscheidung durch Werfen einer fairen Münze. Die Mehrheit entscheidet. Wie
groß ist die Wahrscheinlichkeit einer richtigen Entscheidung?
5.6. In einer Stadt erscheinen 2 Zeitungen. Ein erwachsener Einwohner wird zufällig ausgewählt. Zi sei das Ereignis ”Die Person liest Zeitung i”, i = 1, 2. Weiters werden
folgende Ereignisse betrachtet:
A=
die Person liest wenigstens eine Zeitung
B=
die Person liest beide Zeitungen
C=
die Person liest höchstens eine Zeitung
D=
die Person liest keine Zeitung
E=
die Person liest genau eine Zeitung
Weiters ist bekannt, dass von den erwachsenen Einwohnern 45% Zeitung 1 lesen, 30%
lesen Zeitung 2 nicht aber Zeitung 1, und 35% lesen Zeitung 1, nicht aber Zeitung 2.
(i) Stellen Sie die Ereignisse A bis E durch geeignete Verknüpfungen der Ereignissse Z1
und Z2 dar und zeichnen Sie ein Venn-Diagramm.
10
(ii) Berechnen Sie die Wahrscheinlichkeiten der Ereignisse A bis E.
(iii) Sie stellen fest, dass eine zufällig ausgewählte Person Leser von Zeitung 2 ist. Wie
groß ist die Wahrscheinlichkeit, dass die Person auch Zeitung 1 liest?
5.7. Die Wahrscheinlichkeit, arbeitslos zu sein, hängt vom Bildungsniveau ab. Unter Personen mit Pflichtschulabschluss beträgt die Wahrscheinlichkeit arbeitslos zu sein 8%,
Personen mit Matura sind zu 5% arbeitslos, während unter Akademikern die Arbeitslosigkeit bei 2% liegt. Weiters ist bekannt, dass der Anteil der Personen mit Pflichtschulabschluss/Matura/Studium bei 30%/55%/15% liegt. (Hinweis: Satz von Bayes)
(a) Sie wählen aus der Grundgesamtheit eine Person zufällig aus. Wie groß ist die
Wahrscheinlichkeit, dass die Person arbeitslos ist?
(b) Sie wählen eine Person zufällig aus und stellen fest, dass sie arbeitslos ist. Mit welcher
Wahrscheinlichkeit handelt es sich um (i) einen Akademiker (ii) einen Maturanten
(iii) eine Person mit Pflichtschulabschluss?
5.8. Das Personalbüro einer Firma weiß, dass 80% aller Bewerber die erforderlichen Qualifikationen aufweisen. Obwohl die Bewerber gründlich interviewt werden, sind die Entscheidungen des Personalchefs in typischer Weise irrtumsbehaftet: 1/48 der qualifizierten Bewerber werden nicht aufgenommen, während 1/6 der Ungeeigneten akzeptiert werden.
Wie groß ist die Wahrscheinlichkeit, dass eine eingestellte Person ungeeignet ist?
5.9. Mit welcher Wahrscheinlichkeit tragen auf einem Ball mindestens 5 von 250 Männern die
gleiche Krawatte, wenn es 1000 verschiedene Krawatten zu kaufen gibt
6
Diskrete Verteilungen
6.1. Nehmen Sie an, dass der Anteil der selbständig Erwerbstätigen in der Grundgesamtheit
bei 25% liegt und Sie eine repräsentative Menge von 10 Personen auswählen. Es sei X
die Anzahl der Selbständigen in der Stichprobe.
(a) Bestimmen Sie Erwartungswert und Varianz von X. Welche Verteilung folgt X?
(b) Berechnen Sie P {X ≤ 4}, P {3 ≤ X ≤ 8}, P {X ≥ 8}.
6.2. In einer Personengruppe von 40 Personen befinden sich 10 selbständig Erwerbstätige. 10
Personen werden zufällig ausgewählt und nach ihrem Beschäftigungsverhältnis befragt.
Es sei X die Anzahl der Selbständigen unter den Befragten.
(a) Bestimmen Sie Erwartungswert und Varianz von X̃.
11
(b) Berechnen Sie P {X ≤ 4}, P {3 ≤ X ≤ 8}, P {X ≥ 8}.
(c) Vergleichen Sie die Ergebnisse mit Beispiel 6.1
6.3. Die Ankünfte von Kunden in einem Geschäft pro Zeiteinheit sei durch eine poison-verteilte
Zufallsvariable X und durch folgende Wahrscheinlichkeitsfunktion gegeben:
P {X = n} =
λn e−λ
n!
mit Parameter λ = 5.
Berechnen Sie die Wahrscheinlichkeit, dass innerhalb der nächsten Zeiteinheit (i) höchstens
4, (ii) genau 5, (iii) mehr als 5 Kunden eintreffen.
6.4. Ein Versicherungsvertreter schließt mit 5 Personen, die alle das gleiche Alter haben,
Lebensversicherungen ab. Nach der Sterbetafel beträgt die Wahrscheinlichkeit für jeden
dieser Kunden, die nächsten 30 Jahre zu überleben, 0.60. Berechnen Sie die Wahrscheinlichkeit dafür, dass nach 30 Jahren
• genau 2 Kunden
• alle 5 Kunden
• wenigstens noch 2 Kunden
am Leben sind.
6.5. Es sei X die Anzahl der in einer Vierkinderfamilie geborenen Knaben. Man bestimme
die Wahrscheinlichkeitsfunktion dieser Zufallsgröße, wenn die Wahrscheinlichkeit einer
Knabengeburt (a) p=0.5, (b) p=0.512, beträgt.
6.6. Ein Ereignis A tritt mit Wahrscheinlichkeit p = 0.4 ein. Das Experiment wird solang
wiederholt, bis das Ereignis A zum ersten Mal auftritt. Wie groß ist die Wahrscheinlichkeit, dass genau 3 Versuche erforderlich sind?
6.7. Der Lehrveranstaltungsleiter weiß(von früheren Semestern), dass nur 80% der zu einer
Lehrveranstaltung angemeldeten StudentInnen diese auch wirklich besuchen. Daher nimmt
er auch insgesamt 45 StudentInnen auf, obwohl nur 40 im Seminarraum Platz haben.
(a) Mit welcher Wahrscheinlichkeit besuchen mehr StudentInnen die Lehrveranstaltung
als Sitzplätze zu Verfügung stehen.
(b) Um den guten Ruf zu wahren, möchte der Lehrveranstaltungsleiter mit einer Wahrscheinlichkeit von 95% ausreichend Sitzplätze verfügbar haben. Wieviel StudentInnen darf
er höchstens aufnehmen?
12
7
Kreuztabellen & Korrelation
7.1. Die Mietervereinigung einer Stadt veröffentlicht zum Jahresende folgende Tabelle über
den Mietpreis in Abhängigkeit von der Wohnfläche:
Mietpreis von ... bis unter ...
Wohnfläche
0 - 300 300 - 600 600 - 900 900 - 1200
0 - 40
101
53
0
0
40 - 80
96
215
13
8
80 - 120
3
14
35
62
Berechnen Sie unter Verwendung der Klassenmitten einen geeigneten Korrelationskoeffizienten als Maß für den Zusammenhang zwischen Mietpreis und Wohnfläche.
7.2. Bei einer Statistik-Prüfung an einer Universität ergaben sich für die daran teilgenommenen Studenten von drei Fachrichtungen die folgenden Ergebnisse:
Fachrichtung
bestanden nicht bestanden
BWL
334
122
VWL
125
85
53
25
Soziologie
Berechnen Sie als Maß für den Zusammenhang zwischen der Studienrichtung und dem
Prüfungsergebnis den Pearsonschen Kontingenzkoeffizienten.
7.3. Ein Gruppe von Personen wird hinsichtlich ihrer Einstellung zur Wirtschaftslage bzw.
bezüglich der Bewertung des demokratischen Systems befragt. Die Ergebnisse sind in
folgender Kreuztabelle zusammengefasst.
demokratisches System
Wirtschaftslage ist
sehr gut
funktoniert
gut
etwas
viel
völlig
verändern verändern verändern
1
6
0
0
gut
24
94
12
1
teils teils
46
349
86
2
schlecht
16
191
74
10
4
31
23
8
sehr schlecht
(i) Berechnen Sie die Anteilwerte und interpretieren Sie das Ergebnis.
13
(ii) Fassen Sie die Ausprägungen entsprechend zusammen, damit ein χ2 − Test durchgeführt
werden kann, und stellen Sie fest, ob ein Zusammenhang zwischen der Einstellung
zum demoktarischen System mit der Einschätzung der Wirtschaftslage besteht.
7.4. Eine Untersuchung über das Rauchverhalten soll unter anderem Aufschluss darüber geben,
ob ein Zusammenhang zwischen der Anzahl der in einer Woche gerauchten Zigaretten und
dem Alter der Person besteht. Dazu werden 400 Männer (M) sowie 400 Frauen (F) zufälig
ausgewählt und hinsichtlich der beiden oben genannten Kriterien befragt. Das Ergebnis
ist in folgender Tabelle zusammengefasst:
Alter
bis 16
16 - 20
20 - 30
30 - 45
über 45
Konsum
M
F
M
M
M
F
M
F
bis 20
25
8 15
15 10
20 12
15
8
9
20 - 80
12 14 20
24 18
30 22
21 32
17
80 - 140
8 21 40
39 80
55 35
34 12
26
140 -
5
12 12
15 11
10
7 15
F
F
8
8
(i) Überprüfen Sie die beiden Merkmale auf deren Abhängigkeit für die Gruppe der
Männer (α = 0.01).
(ii) Überprüfen Sie die beiden Merkmale auf deren Abhängigkeit für die Gruppe der
Frauen (α = 0.01).
(iii) Überprüfen Sie die beiden Merkmale auf deren Abhängigkeit (α = 0.01).
7.5. Anhand einer Umfrage soll bestimmt werden, ob ein Zusammenhang zwischen eigener
Bildung und der Bildung des Vaters besteht. Dabei ergeben sich folgende Werte:
Schulbildung des Befragten
Schulbildung
des Vaters
Pflicht-
Lehre
schule FS, BMS
AHS/BHS
Hochschule
Pflichtschule
410
347
48
13
Lehre, FS, BMS
180
491
160
38
AHS/BHS
21
40
76
24
Hochschule
2
12
32
24
(i) Berechnen Sie den Pearsonschen Kontingenzkoeffizienten.
(ii) Führen Sie einen χ2 − Test zum Signifikanzniveau α = 0.05 durch.
14
7.6. Am Ende eines Schuljahres wird in einer Schule das Anwesenheitsbuch einer Klasse
überprüft. Dabei stellt man fest, dass es im abgelaufenen Jahr an den einzelnen Wochentagen folgende Abwesenheiten gegeben hat:
Wochentag
Mo Di
Abwesenheit
40
Mi Do
45
35
Fr
45 65
Führen Sie einen Test (χ2 − Anpassungstest) durch, ob eine Gleichverteilung der Abwesenheit an den Wochentagen vorliegt. (α = 0.05)
7.7. Die nachstehende Tabelle wurde für eine Kohorte von 600 Personen erhoben. Berechnen Sie das Assoziationsmaß λ nach Goodman & Kruskal für den prädiktiven Wert des
Merkmals ”Region” zur richtigen Vorhersage des abhängigen Merkmals ”Schulbildung”.
Merkmal: Bildung
ohne Schul-
Lehr-
Hochschul-
Region
abschluss
abschluss
Matura
abschluss
Norden
10
50
60
80
200
Zentral
20
60
70
50
200
Süden
60
80
40
20
200
90
190
170
150
600
Angenommen wir wählen rein nach dem Zufallsprinzip eine Person aus der obigen Kohorte
von 600 Personen aus.
• Sei A das Ereignis: ”Die Person stammt aus der Region Norden”
• Sei B das Ereignis: ”Die Bildung der Person ist Matura oder Hochschulabschluss”.
Bestimmen Sie für diese zufällig ausgewählte Person die folgenden Wahrscheinlichkeiten:
(a) P (A ∩ B),
8
(b) P (A|B),
(c) P (A ∪ B)
Stetige Verteilungen
8.1. Die Zufallsvariable X sei standardnormalverteilt. Bestimmen Sie die Wahrscheinlichkeiten
P ({X ≤ 2.15}),
P ({X ≥ 1.18}),
15
P ({−0.5 ≤ X ≤ 2}),
P (X 2 ≤ 4}).
8.2. Bei der Musterung des österreichischen Bundesheeres wurde festgestellt, dass die Körpergröße
X der Rekruten annähernd als normalverteilte Zufallsvariable mit Mittelwert 168 cm und
Standardabweichung 6 cm betrachtet werden kann.
Berechnen Sie die Wahrscheinlichkeiten der Ereignisse:
(a) {X ≤ 150cm},
(b) {X ≥ 185cm},
(c) {160cm ≤ X ≤ 170cm}.
8.3. Sei X eine normalverteilte Zufallsvariable mit Mittelwert µ = 4 und Varianz σ 2 = 25.
Welche Verteilung haben 2X, −X, 3X − 12.
8.4. Die Zufallsvariable X sei standardnormalverteilt. In welchem symmetrischen Bereich um
0 liegt X mit einer Wahrscheinlichkeit von (a) 90% (b) 95% (c) 99%?
8.5. Eine Zufallsvariable X sei normalverteilt mit Erwartungswert µ = 80 und Varianz σ 2 =
16. Eine Stichprobe vom Umfang n = 100 wird gezogen und das arithmetische Mittel X̄n
der beobachteten Werte gebildet.
(i) Bestimmen Sie die Verteilung des Stichprobenmittels X̄n .
(ii) Mit welcher Wahrscheinlichkeit liegt das Stichprobenmittel im Intervall [79.5, 80.5].
8.6. Es sei die folgende Funktion einer Zufallsvariablen X gegeben:
f (x) =


 2x


für
0
0≤x≤1
sonst
(i) Zeigen Sie, dass f (x) eine Dichtefunktion ist.
(ii) Bestimmen Sie die Verteilungsfunktion.
(iii) Bestimmen Sie die Wahrscheinlichkeiten P ({0.3 ≤ X ≤ 0.7}), P ({X = 0.25}),
P ({X > 0.6}).
(iv) Bestimmen Sie Erwartungswert und Varianz von X.
8.7. Zwei Personen sind mit dem Problem konfrontiert, aus einer normalverteilten Grundgesamtheit eine Stichprobe vom Umfang n = 100 zu ziehen und die Summe der erhobenen Merkmalsausprägungen zu bestimmen. Die eine Person erfüllt die Aufgabe nach
Vorschrift, die andere zieht nur eine Stichprobe vom Umfang 10 und multipliziert die
Summe der Beobachtungswerte mit 10.
Wie groß sind die Erwartungswerte und Varianzen der von beiden Personen errechneten
Summen?
16
8.8. Die Konsumausgaben pro Monat eines Haushaltes seien normalverteilt mit µ = 2200
Euro und einer Varianz von σ 2 = 400 Euro2 . Wie sind die Gesamtkonsumausgaben von
50 Haushalten verteilt und wie groß ist die Wahrscheinlichkeit, dass insgesamt mehr als
150000 Euro ausgegeben werden?
8.9. Aus einer Gruppe von Ehepaaren, bei denen beide Partner berufstätig sind, wird ein
Paar zufällig ausgewählt. Wie groß sind Erwartungswert und Varianz der Summe der
Einkommen beider Partner, wenn bekannt ist, dass das Einkommen des Mannes (X) einen
Erwartungswert von E(X) = 1400Euro bei einer Varianz von V (X) = 60Euro2 besitzt
während das Einkommen der Frau (Y ) einen Erwartungswert von E(Y ) = 1000Euro und
eine Varianz von V (Y ) = 80Euro2 hat. Weiterhin gilt für die Covarianz Cov(X, Y ) =
50Euro2 .
9
Schätzverfahren
9.1. Vor einer Wahl planen zwei Meinungsforschungsinstitute unabhängig voneinander jeweils
1000 zufällig ausgewählte Personen danach zu befragen, ob sie beabsichtigen, ”grün” zu
wählen. Wie groß ist die Wahrscheinlichkeit dafür, dass die Anteile der ”Grün”-Wähler
in den beiden Stichproben um höchstens einen Prozentpunkt differieren, wenn 5% der
Bevölkerung beabsichtigen, ”Grün” zu wählen?
9.2. Von den 60000 Besuchern einer Sportveranstaltung wurden 196 zufällig ausgewählte Personen nach ihrem Wohnort befragt.
(i) Unter den 196 befragten Personen befanden sich 49 Einheimische. Berechnen Sie das
95.45%− Konfidenzintervall für den Anteil der Einheimischen bei der Veranstaltung.
(ii) Wieviele Personen müssten Sie befragen, damit mit einer Sicherheitswahrscheinlichkeit von 95.45% der absolute Fehler der Stichprobenschätzung des Anteilswertes
höchstens 0.01 beträgt.
9.3. Zur Schätzung des Durchschnittsalters der Leser einer bestimmten Zeitung werden 50
ihrer Abonnenten zufällig ausgewählt und nach ihrem Alter befragt. Die Erhebungsergebnisse sind in folgender Häufigkeitstabelle dargestellt:
Alter
Anzahl
20 28
3
2
30
31
38
45
48
49
54
58
61
62
65
68
72
5
6
8
8
4
3
1
2
2
1
1
3
1
(a) Berechnen Sie ein Konfidenzintervall (α = 0.95) für das Durchschnittsalter der Leser
unter der Annahme, dass das Alter der Leser normalverteilt ist mit einer Varianz
von σ 2 = 100.
17
(b) Wie lautet das Konfidentzintervall, wenn derselbe Schätzwert x̄ = 43 aus einer
Stichprobe vom Umfang n = 20 ermittelt wurde.
9.4. Der Verband der Spielwarenindustrie ist durch Meldungen über den Rückgang der Kinderzahl
in der Bevölkerung beunruhigt. Er führt daher eine Umfrage unter 2800 Haushalten
durch, die durch eine Zufallsstichprobe nach dem Modell ohne Zurücklegen ausgewählt
wurde.
Aus den 2000 beantworteten Fragebogen wird folgende Häufigkeitsverteilung ermittelt:
0
1
2
3
4
5
1100 400
350
100
40
10
Kinderzahl
Anzahl
(a) Berechnen Sie einen (erwartungstreuen) Schätzwert für die durchschnittliche Kinderzahl
der Haushalte.
(b) Berechnen Sie einen (erwartungstreuen) Schätzwert für den Anteil der kinderlosen
Haushalte.
Kann die Varianz der Schätzfunktion berechnet werden?
9.5. Ein Marktforschungsinstitut will in einer Stadt den Monatsumsatz eines bestimmten Artikels feststellen. Von den 5000 Einzelhändlern werden 350 zufällig ausgewählt und befragt. Es ergibt sich ein durchschnittlicher Monatsumsatz von x̄ = 780 Euro bei einer
Standardabweichung von s = 40 Euro.
(i) Bestimmen Sie ein 95% Konfidenzintervall für den durchschnittlichen Monatsumsatz.
(ii) Zwischen welchen Grenzen liegt der gesamte Monatsumsatz in der Großstadt (bei
einem Signifikanzniveau von 95%.)
(iii) Wie groß ist der Stichprobenumfang n zu wählen, wenn der absolute Fehler des symmetrischen Konfidenzintervalls für den (unbekannten) durchschnittlichen Monatsumsatz in der Grundgesamtheit ∆µ = 1 Euro betragen soll (bei einem Signifikanzniveau
von 95%.)
9.6. Bei der Überprüfung zweier Abfüllmaschinen wird jeweils eine Stichprobe vom Umfang
50 aus der laufenden Produktion jeder Maschine gezogen. Bei Maschine I ergibt sich ein
durchschnittliches Füllgewicht von x̄1 = 810g bei einer Standardabweichung von s1 = 4g,
bei der zweiten Maschine erhält man x̄2 = 808g sowie eine Standardabweichung von
s2 = 2g. Berechnen Sie ein 95%Konfidenzintervall für die Differenz der durchschnittlichen
Füllgewichte.
18
9.7. Eine Bank möchte wissen, wieviel ihrer Kunden in einer Stadt eine Wohnung suchen.
Dazu werden 400 Kunden zufällig ausgewählt und befragt. Von den 400 Kunden geben
88 an, eine Wohnung zu suchen. Berechnen Sie ein 90%−Konfidenzintervall für den
Prozentsatz an Kunden, die eine Wohnung suchen.
9.8. Betrachten Sie die Aufgabenstellung aus Beispiel 9.7. Welche Probleme könnten sich aus
folgenden Auswahlverfahren der Stichprobe ergeben?
(i) Zwischen 9:00 und 12:00 Uhr vormittag werden solang Kunden angerufen, bis man
400 Personen erreicht hat, die zuhause sind.
(ii) Alle Kunden, deren Personennamen mit ”M” beginnt, werden angeschrieben und
schriftlich befragt. Von den angeschriebenen 542 Kunden antworten 215.
9.9. Mittels einer Umfrage soll geklärt werden, welcher Anteil der österreichischen Bevölkerung
einer Mitliedschaft bei der NATO zustimmt.
(i) Wie groß muss eine Stichprobe gewählt werden, um den Anteilswert (bei einem
Signifikanzniveau von 95%) auf ±5% genau zu schätzen?
(ii) Wieviele Personen müssen befragt werden, wenn die Schätzgenauigkeit ±1% betragen soll (bei gleicher Überdeckungswahrscheinlichkeit)?
(iii) Wie kann man die erforderliche Stichprobengröße abschätzen, wenn Vorwissen über
den Anteil besteht?
9.10. Welche der folgenden Aussagen sind richtig?
(i) Mit zunehmender Varianz der Beobachtungen nimmt auch die Länge des Konfidenzintervals zu.
(ii) Basierend auf denselben Daten ist ein 95%−Konfidenzintervall stets länger als ein
90%−Konfidenzintervall.
(iii) Mit zunehmender Stichprobengröße nimmt die Länge eines Konfidenzintervalls zu.
(iv) Schätzungen für den Anteilswert sind umso schwieriger, je näher der unbekannte
Anteilswert bei 0.5 liegt.
(v) Aus einer Stichprobe wurde ein [0.10, 0.30] als 95%−Konfidenzintervall für den Bekanntheitsgrad eines Politikers ermittelt. Um ein Konfidenzintervall der Länge 0.10 zu
erhalten, müsste der Stichprobenumfang ungefähr verdoppelt werden.
9.11. Um den Anteil der Bevölkerung mit Migrationshintergrund in Großstädten zu bestimmen,
werden die Daten von einer repräsentativen Stichprobe von n = 500 Personen erhoben.
Dabei stellt sich heraus, dass 100 Personen ausländischer Herkunft sind.
Bestimmen Sie ein 95%− Konfidenzintervall für Personen mit Migrationshintergrund.
19
9.12. Ein Kurzentrum, welches eine spezielle Diät anbietet, möchte feststellen, wieviel die Gäste
nach einem zweiwöchigen Aufenthalt typischerweise abnehmen. Dazu wird das Gewicht
von 10 Gästen vor und nach dem Aufenthalt ermittelt:
Gast
1
2
3
4
5
6
7
8
9
10
vorher
85 78
92
103
105
95
89
84
88
110
nachher
78 75
89
97
101
87 80
82
81
101
(i) Schätzen Sie aus den obigen Daten die mittlere Gewichtsabnahme durch den Kurbesuch.
(ii) Berechnen Sie ein 95%−Konfidenzintervall für die Gewichtsabnahme.
9.13. Eine Umfrage unter 100 Personen im Alter zwischen 20 und 30 Jahren ergab, dass 46%
der Befragten Raucher sind.
(i) Berechnen Sie ein 90%− Konfidenzintervall für der Anteil der Raucher in dieser
Altersgruppe.
(ii) Wieviele Personen müssen befragt werden, damit dass 90%−Konfidenzintervall eine
Länge von höchstens 0.05 aufweist? (ohne Vorwissen über den Anteil der Raucher).
9.14. Zwei Unterrichtsmethoden sollen durch eine Studie verglichen werden. Bei Methode A
erreichten 25 Studenten beim darauffolgenden Test eine mittlere Punktezahl von x̄a = 82,
wobei die Standardabweichung sa = 6.5 betrug. Bei Methode B erzielten 27 Studenten
ein durchschnittliches Ergebnis von x̄B = 77 bei einer Standardabweichung von sB = 6.7.
(i) Berechnen Sie unter der Annahme gleicher Varianzen ein 95%− Konfidenzintervall
für den Unterschied in der Effizienz der beiden Methoden.
(ii) Wie ändert sich die Berechnung, wenn Sie von unterschiedlichen Varianzen ausgehen?
9.15. Durch eine Werbekampagne soll potentiellen Kunden der Eindruck vermittelt werden,
dass das Reinigungsmittel ”Sonnenglanz” ein besonders gutes Preis-Leistungsverhältnis
hat. Um die Effizienz der Werbekampagne zu untersuchen, werden jeweils vor und nach
der Kampagne 100 Kunden entsprechend befragt.
Vor der Kampagne finden 15 befragte Kunden, dass sie beim Kauf von Sonnenglanz ”im
Vergleich zu Konkurrenzprodukten mehr für ihr Geld bekommen”; nach der Kampagne
wird diese Frage von 25 Personen bejaht.
Berechnen Sie ein 90%Konfidenzintervall für die Veränderung der Produkteinschätzung.
(Hinweis: berechnen Sie das Konfidenzintervall für die Differenz der Anteilswerte.)
20
9.16. Über einen Zeitraum von 7 Tagen wurden in einem Wiener Bezirk jeweils 100 Verkehrskontrollen täglich durchgeführt. An den Wochentagen gab es bei 360 (von 500) Kontrollen
Beanstandungen am Wochenende waren bei 100 von 200 Kontrollen Beanstandungen zu
verzeichnen. Berechnen Sie ein 90%−Konfidenzintervall für den Unterschied im Beanstandungsanteil zwischen Wochentagen und Wochenende.
9.17. In einer Stadt liegen für 161 Jahre die Niederschlagsmengen im Monat April vor. Die
Messreihe xi , · · · , x161 (xi = Niederschlagsmenge in mm im Jahr i) hat ein arithmetisches
Mittel von x̄ = 53.68 und eine empirische Standardabweichung von s = 6.13.
Unter der Annahme, dass die Niederschlagsmengen Realisierungen von unabhängigen,
identisch (i.i.d) N (µ, σ 2 )− verteilten Zufallsvariablen sind sollen folgende Konfidenzintervalle zum Signifikanzniveau von 95% berechnet werden:
(i) für den unbekannten Mittelwert µ,
(ii) für die unbekannte Varianz σ 2 ,
(iii) für den unbekannten Mittelwert µ unter der Voraussetzung σ 2 = 6.132 .
9.18. Die Produktionsabteilung eines Werkes überprüft die Qualität eines Produktes. Zu diesem
Zweck wird aus der laufenden Produktion eine Stichprobe vom Umfang 25 entnommen,
bei der 6 Ausschussstücke auftreten.
(i) Schätzen Sie die Wahrscheinlichkeit, dass ein Produktionsstück Ausschuss ist.
(ii) Bestimmen Sie ein 90%−Konfidenzintervall für den Anteil fehlerhafter Stücke in
der Gesamtproduktion, unter der Annahme, dass die Approximation der Binomialverteilung durch die Normalverteilung gerechtfertigt ist.
(iii) Bestimmen Sie ein 90%−Konfidenzintervall für den Anteil fehlerhafter Stücke in der
Gesamtproduktion, unter Verwendung der Pearson-Clopper Werte.
9.19. Bei der Anlieferung von Bauteilen mit einem Drehgewinde werden einige Teile zufällig ausgewählt und deren Gewindedurchmesser vermessen. Die Abweichungen (in µm) von der
untersten zulässigen Durchmessergrenze, das sogenannte Spiel, werden wie folgt notiert:
0.7, 1.9, 2.6, 3.7, 3.9, 4.4, 4.9, 5.8, 6.5, 9.6
Führen Sie folgende Berechnungen durch, wobei angenommen werden kann, dass die
Abweichungen vom Mindestdurchmesser normalverteilt sind.
(i) Bestimmen Sie ein Konfidenzintervall für die Varianz des Spiels (d.h. die Varianz
der Abweichung vom Mindestdurchmesser) zum 80% Niveau.
21
(ii) Bauteile mit Werten über 9µm für das Spiel sind unbrauchbar und gelten als Ausschuss. Bestimmen Sie anhand obiger Stichprobe ein exaktes Konfidenzintervall für
den Ausschussanteil in der Lieferung zum Niveau von 80%.
9.20. Die Lebensdauer von Computern kann als exponentialverteilt mit Parameter λ angesehen werden. Eine Untersuchung von n = 100 Computern ergab eine durchschnittliche
Lebensdauer von x̄ = 2 Jahren. Geben Sie eine Schätzung für λ an und bestimmen Sie
die Grenzen eines Konfidenzintervalls für λ zum Niveau von 95%.
Hinweise: Die Dichte der Exponentialverteilung mit Parameter λ ist gegeben durch


 λe−λx
f (x) = 

für
0
x≥0
sonst
Der Erwartungswert beträgt 1/λ. Für das Konfidenzintervall erhält man
"
χ22n,α/2 χ22n,1−α/2
,
2nx̄
2nx̄
#
wobei χ2k,γ das γ−Quantil der χ2 −Verteilung mit k Freiheitsgraden bezeichnet. (z.B:
χ2200,0.025 = 162.7, χ2200,0.975 = 241.1)
9.21. Um den Anteil der einzelnen Beschäftigungsverhältnisse unter der sich im arbeitsfähigen
Alter befindlichen Bevölkerung zu erheben wurden 250 Personen befragt. Darunter befanden sich 20 Arbeitslose, 180 unselbständig Beschäftigte sowie 50 Selbständige.
(i) Schätzen Sie die Wahrscheinlichkeiten pi , i1 , 2, 3, dass eine Person der Grundgesamtheit (1) arbeitslos, (2) unselbständig, (3) selbständig ist.
(ii) Geben Sie simultane 90%−Konfidenzintervalle für die Wahrscheinlichkeiten p1 , p2 , p3
an.
9.22. Ein Tierpark besitzt 12 Exemplare einer inzwischen selten gewordenen Tierart. In einem
Forschungsinstitut wurde eine bisher unbekannte Krankheit entdeckt, die diese Tierart
befallen kann. Um entsprechende Massnahmen zu ergreifen, will der Leiter des Tierparks
wissen, wieviel seiner Exemplare erkrankt sind. Da die Tiere in einem großen Freigehege
leben, ist es zu aufwändig, alle Tiere einzufangen und zu untersuchen. Es werden daher
nur 4 Tiere eingefangen und untersucht. Dabei stelt sich heraus, dass ein Tier erkrankt
ist. Berechnen Sie unter geeigneten Modellannahmen (Ziehen ohne Zurücklegen) einen
Maximum-Likelihood-Schätzwert für die unbekannte Anzahl der kranken Tiere im Freigehege.
9.23. Zur Feststellung der Anzahl Θ der in einem bestimmten Revier lebenden Rothirsche wurden insgesamt 7 Tiere gefangen, gekennzeichnet und anschließend wieder freigelassen.
22
Nach einer gewissen Zeit wurde eine weitere Fangaktion durchgeführt. Dabei wurden 3
Rothirsche gefangen, und man stellte fest, dass 2 davon gekennzeichnet waren. Nehmen
Sie an, dass zwischen den beiden Fangaktionen keine Zu- bzw. Abwanderung von Rothirschen
erfolgt ist und dass es zu einer guten Durchmischung der Population kam.
Berechnen Sie einen (ganzzahligen) Maximum-Likelihood-Schätzer für die Gesamtzahl
der in dem Revier lebenden Rothische unter geeigneten Modellannahmen (Ziehen ohne
Zurücklegen.)
9.24. Die Zufallsvariablen X1 , · · · , Xn seien unabhängig und identisch Poisson-verteilt mit dem
unbekannten Parameter λ.
• Bestimmen Sie einen Maximum-Likelihood-Schätzer λ̂n : IN → IR für λ.
• Bestimmen Sie (in Abhängigkeit vom wahren Parameter λ) den Erwartungswert und
die Varianz des Maximum-Likelihood-Schätzers λ̂n (X1 , · · · , Xn ).
10
Testverfahren
10.1. Die folgenden Messwerte seien Realisierungen von unabhängigen identisch N (µ, σ 2 )−
verteilten Zufallsvariablen:
0.84, 0.01, 0.35, −0.76, −0.11, −0.17, 0.16, 0.63, −0.09, 0.22, 0.35
(a) Geben Sie einen geeigneten Test an, um die Hypothese µ = µ0 zu Niveau α = 0.02
zu testen.
(b) Welche Antwort ergibt sich in (a) für den Fall µ0 = 0?
(c) Man gebe alle Werte von µ0 an, für die der in (a) beschriebene Test nicht zur
Ablehnung der Hypothese führt.
10.2. Die Popularität des Bürgermeisters hat nachgelassen. Angesichts bevorstehender Wahlen
verkündet der Bürgermeister ein neues kommunalpolitisches Konzept und lässt 500 zufällig
ausgewählte Bürger der Stadt befragen. Dabei stellt sich heraus, dass 270 von ihnen seine
Politik befürworten.
Ist nun die Hypothese ”Höchstens die Hälfte der Einwohner befürworten die neue Politik
des Bürgermeisters” zugunsten der Alternative ”Mehr als 50 % befürworten die neue
Politik des Bürgermeisters” auf dem Niveau von 5% zu verwerfen?
10.3. Der Bekanntheitsgrad eines Politikers betrug in der Vergangenheit θ = 0.35. Nachdem
er in einen Skandal verwickelt war, möchte die Partei wissen, ob dies einen Einfluss auf
den Bekanntheitsgrad gehabt hat. In einer Stichprobe von n = 2000 Personen geben 825
23
Personen an, den Politiker zu kennen. Interpretieren Sie das Ergebnis. (Signifikanzniveau
α = 0.05.)
10.4. Ein Rechnungsprüfer ist der Ansicht, dass die Buchführung der zu prüfenden Firma als
ordnungsgemäss zu betrachten sei, wenn der Prozentsatz fehlerhafter Belege nicht mehr
als 1% beträgt. Aus der als sehr groß anzunehmenden Grundgesamtheit aller Belege werden nun n = 300 zufällig ausgewählt und geprüft. Dabei werden 6 fehlerhafte Belege gefunden. Kann der Rechnungsprüfer die Ordnungsmäßigkeit der Buchhaltung bestätigen?
(α = 0.05)
10.5. Ein Unternehmen rüstet seinen Fuhrpark mit zwei verschiedenen Reifensorten A und
B aus. 12 Reifen der Sorte A erreichen eine durchschnittliche Laufleistung von x̄1 =
40000 km bei einer Standardabwechung von s1 = 5950km. Eine gleich große Stichprobe
der Sorte B ergibt eine durchschnittliche Laufleistung von x̄2 = 38000 km bei einer
Standardabweichung von s2 = 5150km.
Wie beurteilen Sie die Hypothese, dass beide Reifensorten die gleiche durchschnittliche
Laufleistung besitzen, unter der Voraussetzung, dass die Laufleistungen normalverteilt
sind und die Varianzen übereinstimmen σ12 = σ22 . (α = 0.05)
10.6. Betrachten Sie nochmals Beispiel 10.5 und testen Sie die Nullhypothese H0 : σ12 = σ22
gegen die Alternative HA : σ12 > σ22 .
10.7. Jeweils 50 Versuchspersonen werden mit drei verschiedenenLernmethoden (A, B, C) trainiert
und bekommen dann ein Problem gestellt.
Die Lösungen werden mit ”gut”, ”mit-
telmäßig” oder ”schlecht” bewertet.
gut mittelmäßig schlecht
A
30
10
10
B
30
15
5
C
5
25
20
Lassen diese Daten darauf schließen, dass die Leistungsfähigkeit von der Trainingsmethode abhängt? Formulieren Sie Null- und Alternativ-hypothese und führen Sie den entsprechenden Test durch (α = 0.05).
10.8. Zwei Medikamente A und B werden an jeweils 10 (verschiedenen) Versuchspersonen
getestet. Die Patienten der ersten Gruppe waren durchschnittlich 23 Tage krank, die
Standardabweichung s1 betrug 3.6 Tage. Die Patienten der zweiten Grupe waren durchschnittlich 21.5 Tage krank, die Standardabweichung s2 betrug 4.1 Tage.
(a) Testen Sie, ob die Varianzen der Krankheitsdauern gleich sind (α = 0.05).
24
(b) Ermitteln Sie nun unter Verwendung des Resultats aus (a) ein 95%− Konfidenzintervall für die Unterschiede der Krankheitsdauern bei Behandlung mit Medikament
A und B.
10.9. Bei einer repräsentativen Umfrage über die Bekanntheit einer Marke in einem Land
antworten von 1000 Personen 420, dass sie die Marke kennen. Bei einer zweiten Umfrage in einem anderen Land gaben von 1200 Personen 500 Pesonen an, die Marke zu
kennen.
Kann bei einer Irrtumswahrscheinlichkeit von 5% von einem gleichen Bekanntheitsgrad
der Marke in beiden Ländern gesprochen werden?
10.10. Sie planen eine Umfrage unter n = 200 Wahlberechtigten um empirisch zu testen, ob sich
der Anteil der Partei X seit der letzen Wahl, bei der diese einen Stimmenanteil von 30%
erreicht hat signifikant vergrößert hat.
(a) Ab welchem Anteil von Respondenten, die angeben Partei X zu wählen würden Sie
bei Anwendung eines geeigneten Signifikanztests von einem signifikanten Ergebnis
sprechen? (Irrtumswahrscheinlichkeit α = 0.05).
(b) Angenommen der Anteil der Wähler hat sich tatsächlich um 2% auf 32% erhöht. Wie
groß ist in diesem Fall die Wahrscheinlichkeit, dass Sie in der Stichprobe ein Ergebnis
erhalten, das einen Stimmenverlust signalisiert, also einen Stichprobenanteil p <
30%?
(c) Wie groß ist unter (b) der Fehler 2. Art des Testverfahrens. Darunter versteht man
die Wahrscheinlichkeit, dass Sie trotz dieser realen Steigerung um 2 Prozentpunkte
aufgrund der Stichprobe mit dem unter (a) entwickelten Testverfahren irrtümlich
die Nullhypothese annehmen?
10.11. (Hartung-Heine 6.6) Bei einer Landtagwahl wurden von 5000 bereits ausgezählten Stimmzetteln 300 für die Partei Y registriert. Wird diese Partei bei einem Signifikanzniveau
α = 0.01% die 5%−Hürde überwinden?
10.12. (Hartung Heine 6.7) Die Produktionsabteilung eines Werkes überprüft die Qualität seines
Produktes. Unter 25 dem Produktionslos zufällig entnommenen Stücken wurden 4 Ausschussstücke ermittelt. Überprüfen Sie zum Niveau α = 0.05 die Hypothese, dass der
Ausschussanteil in der Gesamtproduktion bei über 25% liegt.
10.13. (Lehn, Wegmann, Rettig, 142) An einem Fußgängerübergang soll eine Ampel installiert
werden, wenn während der Hauptverkehrszeit im Mittel mehr als 10 Fahrzeuge pro Minute
den Übergang passieren. Es kann angenommen werden, dass die Anzahl von Fahrzeugen,
25
die pro Minute beobachtet werden, durch unabhängige Poisson-verteilte Zufallsvariable
beschrieben werden können.
Formulieren Sie eine der Problemstellung angemessene Nullhypothese und prüfen Sie
mit einem Test zum Niveau von 5%, wenn in einer zweistündigen Zählung während der
Hauptverkehrszeit insgesamt 1278 Fahrzeuge gezählt wurden.
(Hinweis: Die Summe der 120 poisson-verteilten Zufallsvariablen ist näherungsweise normalverteilt.)
10.14. (Deutler 136) Aufgrund einer Zufallsstichprobe aus dem Datenbestand der Eheschließungen im Jahr 2008 beabsichtigt man folgende Vermutungen zu bestätigen:
(i) Bei Ehepaaren besteht ein Zusammenhang zwischen dem Familienstand des Mannes
vor der Eheschließung und dem Familienstand der Frau vor der Eheschließung.
(ii) Die Männer, die 2008 geheiratet haben, waren zum Zeitpunkt der Eheschließung im
Durchschnitt älter als 25 Jahre.
(iii) Im ersten Halbjahr 2008 wurden mehr Ehen geschlossen als im zweiten Halbjahr
2008.
Welche Tests eignen sich zur Beantwortung dieser Fragestellungen und wie lauten die
entsprechenden Nullhypothesen.
10.15. (Deutler 138)
Mit Θ werde der Anteil der Wähler der Partei X bezeichnet. Aufgrund einer erhobenen
Stichprobe vom Umfang n = 100 soll nun für den Anteilswert die Nullhypothese H0 :
Θ ≤ 0.1 getestet werden (Signifikanzniveau α = 0.0228.) Skizzieren Sie die Gütefunktion
und bestimmen Sie deren Wert an der Stelle Θ = 0.2?
10.16. (Futschik/Brannert 6.4, Seite 155) Betrachten Sie das Testproblem
H0 : µ = 0
HA : µ 6= 0
wobei angenommen wird, dass 10 normalverteilte Beobachtungen mit bekannter Varianz
σ 2 = 4 vorliegen.
(i) Wir groß ist der Fehler erster Art, wenn wir die Nullhypothese ablehnen, falls |T | >
1.96 (dabei bezeichnet T die gewohnte Teststatistik)?
(ii) Wie groß ist der Fehler zweiter Art, wenn tatsächlich µ = 1?
(iii) Wie groß ist der Fehler zweiter Art in b), wenn 100 statt 10 Beobachtungen vorliegen?
26
10.17. (Lehn, Rettig 153)
Es wird angenommen, dass vorliegende Messwerte eine Realisierung von unabhängigen,
identisch verteilten, stetigen Zufallsvariablen sind. Die geordnete Stichprobe sei gegeben
durch
−2.45
−2.01
−1.87
−1.81
−0.99
−0.65
−0.59
−0.53
−0.46
−0.34
−0.24
−0.22
−0.08
−0.04
0.10
0.23
0.28
0.38
0.41
0.56
0.57
0.93
1.11
1.13
2.70
Man überprüfe die Annahme, dass es sich um N (0, 1)−verteilte Zufallsvariable handelt
zum Niveau von α = 0.05 durch Anwendung
(i) des Kolmogoroff-Smirnov-Tests
(ii) des χ2 − Anpassungstests und wähle dabei die Klasseneinteilung (−∞, a0 ], (a0 , a1 ], (a1 , a2 ], (a2 , ∞)
mit a0 = −0.6, a1 = 0, a2 = 0.6.
10.18. (Lehn 118, Seite 90) Eine neue Sorte von Reagenzgläsern soll bezüglich ihrer Schmelztemperatur mit einer gebräuchlichen Sorte, bei der die mittlere Schmelztemperatur 745◦ C
beträgt, verglichen werden. Bei der neuen Sorte wurden folgende Temperaturwerte ermittelt:
675
720
621
653
750
631
742
828
715
611
790
671
820
730
650
785
Es wird angenommen, dass die Messwerte x1 , · · · , x16 eine Realisierung von unabhängigen
identisch N (µ, 4900)− verteilten Zufallsvariablen X1 , · · · , X16 sind. Durch Anwendung
eines geeigneten Tests zum Niveau α = 0.05 überprüfe man
(a) die Hypothese H0 : µ = 745 gegen HA : µ 6= 745
(b) die Hypothese H0 : µ = 745 gegen HA : µ < 745
10.19. Das Gesundheitsministerium vergibt an ein Forschungsinstitut einen Auftrag zur Überprüfung
des Rauchverhaltens der Bürger. Zu überprüfen ist, ob Männer mehr rauchen als Frauen.
Es soll ein Signifikanztest (α = 0.01) durchgeführt werden. Dazu wurden 500 Männer
sowie 300 Frauen befragt, wieviel Zigaretten sie in der Woche rauchen. Es ergaben sich
folgende Mittelwerte x̄i sowie empirische Varianzen s2i (i = M, F ):
x̄M = 137.8,
s2M = 1000,
27
x̄F = 131.2,
s2F = 2100.
11
Verteilungsunabhängige Tests
11.1. (Lehn 173, Seite 111) Zwei Therapien für eine bestimmte fiebrige Erkrankung sollen
verglichen werden. Dazu werden bei 4 bzw. 6 Patienten die Therapien angewendet und
jeweils die Dauer der Behandlung, bis der Patient fieberfrei ist, in Stunden ermittelt.
xi (Therapie 1)
89.75
94.50
98.75
101.50
yi (Therapie 2)
89.00
91.00
94.00
96.75
99.50
102.25
Es wird angenommen, dass die angegebenen Messwerte x1 , · · · , x4 , y1 , · · · , y6 eine Realisierung unabhängiger Zufallsvariablen X1 , · · · , X4 , Y1 , · · · , Y6 sind und dass X1 , · · · , X4
bzw. Y1 , · · · , Y6 jeweils die gleiche stetige Verteilungsfunktion F bzw. G besitzen. Man
überprüfe die Hypothese H0 : F = G gegen HA : F 6= G zum Niveau α = 0.05 durch
Anwenden des
(a) Zweistichproben-Tests von Wilcoxon-Mann-Whitney (U-Test)
(b) Run-Tests von Wald und Wolfowitz.
11.2. (Lehn 174) Bei der Messung der Reaktionszeiten von 15 Autofahrern einer bestimmten
Altersklasse und 13 Autofahrern einer anderen Altersklasse ergaben sich die folgenden
(jeweils der Größe nach geordneten) Werte in Sekunden:
xi (Altersklasse I)
yi (Altersklasse II)
0.214 0.236
0.238
0.241
0.249
0.250
0.251
0.259 0.267
0.269
0.273
0.280
0.281
0.296
0.204 0.210
0.215
0.228
0.229
0.240
0.242
0.248 0.255
0.258
0.276
0.283
0.253
0.247
Es wird angenommen, dass die angegebenen Messwerte x1 , · · · , x15 , y1 , · · · , y13 eine Realisierung unabhängiger Zufallsvariablen X1 , · · · , X15 , Y1 , · · · , Y13 sind und dass X1 , · · · , X15
bzw. Y1 , · · · , Y13 jeweils die gleiche stetige Verteilungsfunktion F bzw. G besitzen. Man
überprüfe die Hypothese H0 : F = G gegen HA : F 6= G zum Niveau α = 0.05 durch
Anwenden des
(a) Zweistichproben-Tests von Wilcoxon-Mann-Whitney (U-Test)
(b) Run-Tests von Wald und Wolfowitz.
28
12
Lineare Regression
12.1. (Brannert Futschik 7.8) Der Zusammenhang zwischen Vorbereitungszeit und erreichten
Punkten bei einer Statistik-Prüfung soll ermittelt werden. Dazu wurden von 5 Stundenten
die folgenden Daten erhoben:
Vorbereitungszeit (in Std.)
Punkte
4
6
9
7
12
45 62
88
94
85
(a) Schätzen Sie die Regressionsgerade y = β0 + β1 x.
(b) Berechnen Sie die Standardabweichung der Residuen.
(c) Wie groß ist das Bestimmtheitsmaß.
(d) Berechnen Sie ein 95%− Konfidenzintervall für β1 (i.e. den Anstieg der Regressionsgeraden). Deutet das Konfidenzintervall auf einen Zusammenhang zwischen
Vorbereitungszeit und Punktezahl hin?
12.2. (Brannerth Futschick) Eltern möchten oft wissen, wie groß ihr Kind einmal werden wird.
Um festzustellen, ob solche Prognosen (basierend auf der Körpergröße im Alter von 2
Jahren) möglich sind, wurden folgende Daten erhoben:
Größe mit 2 Jahren
99
76
81
86
89
91
91
76
Größe als Erwachsener 180
160
160
170
172
173
178
163
(a) Schätzen Sie die Regressionsgerade y = β0 + β1 x.
(b) Angenommen ein Kind ist mit 2 Jahren 88 cm groß. Geben Sie eine Prognose für
die Körpergröße im Erwachsenenalter an. Berechnen Sie weiters ein 95% Konfidenzintervall zur Prognose.
12.3. In einem Regressionsmodell wurde der Zusammenhang zwischen Übergewicht (Y ) und
Süßigkeitenkonsum (X) untersucht. Dabei beschreibt X die Anzahl der Tage pro Woche
an denen die Befragten Süßigkeiten konsumierten.
Folgende Ergebnisse sind bekannt: Es wurden insgesamt 7 Personen befragt, deren Süßigkeitskonsum
durch die Ausprägungen x1 = 1, x2 = 2, x3 = 3, x4 = 4, x5 = 5, x6 = 6, x7 = 7 gegeben
ist. Die geschätzten Regressionskoeffizienten sind durch b0 = −1.2, b1 = 2.1 gegeben, die
Standardabweichung der Residuen beträgt se = 2.1.
(a) Berechnen Sie die Standardabweichung des Koeffizienten b1 .
(b) Testen Sie zum Niveau α = 0.05 ob der Süßigkeitenkonsum zur Erklärung von
Übergewicht beiträgt.
29
(c) Welches Übergewicht haben typischerweise im Mittel Personen, die an 3 Tagen pro
Woche Süßigkeiten konsumieren? Berechnen Sie ein 95%− Konfidenzintervall.
12.4. (Lehn 183) Im statistischen Jahrbuch für Deutschland des Jahres 1986 finden sich folgende
Angaben über das durchschnittliche Heiratsalter von Männern und Frauen, die zum ersten
Mal heiraten:
Jahr xi (Männer yi (Frauen)
1 1971
26.0
23.7
2 1972
25.6
23.0
3 1973
25.5
22.9
4 1974
25.6
22.9
5 1975
25.3
22.7
6 1976
25.6
22.9
7 1977
25.7
22.9
8 1978
25.9
23.1
9 1979
26.0
23.2
10 1980
26.1
23.4
11 1981
26.3
23.6
12 1982
26.6
23.8
13 1983
26.9
24.1
14 1984
27.0
24.4
Es wird angenommen, dass die Durchschnittswerte yi des Erstheitazsalters von Frauen
durch unabhängige normalverteilte Zufallsvariable Yi , i = 1, · · · , 14 beschrieben werden
können. Ferner sei vorausgesetzt, dass diese Zufallsvariablen die gleiche Varianz σ 2 besitzen und die Erwartungswerte E(Yi ) von der Form E(Yi ) = axi + b sind, wobei xi das
zugehörige durchschnittliche Erstheiratsalter der Männer im i−ten Jahr ist.
(a) Man berechne geeignete Schätzwerte für die unbekannten Parameter a, b, und σ 2 .
(b) Ist die Nullhypothese b = 0 (i.e. das erwartete Durchschnittsalter der Frauen ist
proportional zum Durchschnittsalter der Männer) auf dem 90%− Niveau zu verwerfen?
12.5. (Hartung Heine 11.1) Dem Jahresgutachten zur gesamtwirtschaftlichen Entwicklung von
BUSINESSLAND ist nachfolgende Tabelle entnommen. Diese gibt Aufschluss über die
Ersparnisse von privaten Haushalten sowie deren verfügbare Einkünfte in den Jahren
1996-2005 (in Millionen Geldeinheiten). Normalverteilung kann vorausgesetzt werden.
30
i
Jahr
verfügbares
Ersparnisse
Einkommen xi
yi
1 1996
34.2
2.8
2 1997
40.8
4.1
3 1998
42.5
4.5
4 1999
47.3
4.3
5 2000
50.1
4.9
6 2001
52.6
5.8
7 2002
56.9
7.0
8 2003
61.4
7.7
9 2004
73.5
8.1
10 2005
76.7
8.8
(a) Es wird vermutet, dass die Ersparnisse annährend linear vom verfügbaren Einkommen abhängen. Schätzen Sie die Parameter der linearen Einfachregression mittels
der Methode der kleinsten Quadrate und stellen Sie die auf diese Weise erhaltene
Gerade gemeinsam mit den Ursprungsdaten in einem Diagramm dar.
(b) Schätzen Sie die Fehlervarianz und geben Sie für diese ein 90%−Konfidenzintervall
an.
(c) Beurteilen Sie die Güte der Anpassung, die die Regression unter (a) erzielt, anhand
des Bestimmtheitsmasses.
(d) Bestimmen Sie zum Niveau 90% Konfigenzintervalle für das Absolutglied und den
Steigungsparameter der Regressionsgeraden.
(e) Geben Sie eine Prognose für die Ersparnisse der privaten Haushalte ab, wenn mit
einem verfügbaren Einkommen von x0 = 80 Millionen GE gerechnet werden kann.
(f) Berechnen Sie
i. ein Konfidenzintervall zum Niveau α = 0.95 für die erwarteten Ersparnisse bei
einem verfügbaren Einkommen von x0 = 80 Millionen GE.
ii. ein Prognoseintervall mit Trefferwahrscheinlichkeit α = 0.95 für die prognostizierten Ersparnisse y0 bei einem verfügbaren Einkommen von x0 = 80 Millionen GE.
(g) Zeichnen Sie Konfidenz- und Prognosestreifen zum Niveau 0.95 gemeinsam mit der
im Aufgabenteil (a) ermittelten Regressionsgeraden in ein Diagramm. Erstellen Sie
zuvor eine Wertetabelle (z.B mit Excel).
31
12.6. (Hartung Heine 11.1) Die Verkaufszahlen in einer Boutique für Bademoden unterliegen
gewissen saisonalen Einflüssen. In folgender Tabelle ist die Anzahl der verkauften Badeanzüge
für 7 Zeitpunkte festgehalten.
t
0
1
2
3
4
5
6
yt
25 40
46
29
12 6
17
Im Weiteren sollen entsprechende Normalverteilungsannahmen getroffen werden.
(a) Bestimmen Sie nach der Methode der kleinsten Quadrate Schätzwerte b0 und b1 ,
wenn angenomen werden kann, dass sich die Verkaufszahlen für Badeanzüge durch
den Ansatz
ŷt = b0 + b1 sin t
erklären lassen, und berechnen Sie das zugehörige Bestimmtheitsmass.
(b) Testen Sie zum 5% Niveau, ob das Absolutglied der Regressionsfunktion signifikant
kleiner als 27 ist.
(c) Besteht zum 10% Niveau eine signifikante Abweichung des Steigungsparameters der
Regressionsfunktion vom Wert 20?
12.7. In einer Grazer Universitäts-Frauenklinik wurden die Länge L und der Kopfumfang U
neugeborener Knaben gemessen:
L
51 47
52
48
52
52
50
48
54
50
U
34 35
36
34
37
36
35
33
38
34
(i) Betrachten Sie die Körperlänge L als unabhängige Variable, und den Kopfumfang
U als abhängige Variable. Bestimmen Sie die entsprechende Regressionsgerade.
(ii) Vertauschen Sie nun die Rollen von L und U , i.e. die Körperlänge ist nun die
abhängige Variable, die durch den Kopfumfang K bestimmt ist. Berechnen Sie die
entsprechende Regressionsgerade und vergleichen Sie das Ergebnis mit (i).
(iii) Berechnen Sie das Bestimmtheitsmaß. Ist es wesentlich, welche der Variablen die
unabhängige bzw. abhängige Variable ist?
13
Mehrfache Regression
13.1. (Fu/Bra 8.16) Ein Statistiker hat für einige Restaurants gleichen Typs den wöchentlichen
Umsatz y (in 1000 US$), das Durchschnittsjahreseinkommen x1 (in 1000 US$) und die
Populationsgröße x2 (in 1000 Personen) der Regionen, in denen sich die Lokale befinden,
32
erfragt. Anhand der Daten von n = 11 Restaurants errechnet er folgende Regressionsgerade
ŷ = −9.02 + 0.768x1 + 0.176x2 .
Weiters ist bekannt:
• Gesamtabweichungsquadratsumme SQT =
• Residuenquadratsumme SQR =
P11
2
i=1 ei
P11
i=1 (yi
− ȳ)2 = 364.91
= 130.12
• Standardabweichungen der Regressionskoeffizienten:
sb1 = 0.204,
sb2 = 0.084.
(a) Wie groß ist das Bestimmtheitsmass dieser Mehrfachregression?
(b) Welcher Test steht mit dem Bestimmtheitsmass in Verbindung? Führen Sie ihn
durch und interpretieren Sie das Ergebnis. (Wählen Sie selbst ein Signifikanzniveau.)
(c) Berechnen Sie das 95%−Konfidenzintervall für den Koeffizienten der zur Populationsgröße gehört.
(d) Ist der Einfluß der Populationsgröße signifikant? (α = 0.05).
13.2. (Fu/Bra 8.17) Im folgenden finden Sie die Ergebnisse einer Mehrfachregression zur Erklärung
der Obdachlosenrate Y (Prozent der Bevölkerung) durch die unabhängigen Variablen
• Arbeitslosenrate X1 (Prozent der Erwerbsfähigen)
• durchschnittliche Lebenshaltungskosten X2 (Prozent des Bruttoeinkommens).
Die Regression wurde mit einer Stichprobe von n = 21 vergleichbar großen Städten
berechnet.
k
Variable
Koeffizient bk
0
Konstante
-0.018
1
X1
0.097
2
X2
Standardabweichung sbk
0.027
0.002
Die Stichprobe hatte eine durchschnittliche Obdachlosenrate ȳ bzw. Standardabweichung
sY von
ȳ =
21
1 X
21 i=1
yi = 1.518%,
sY
33
v
u
21
u 1 X
=t
(yi − ȳ)2 = 0.189%
20 i=1
Die erklärte Abweichungsquadratsumme beträgt
SQE =
21
X
(ŷi − ȳ)2 = 0.521
i=1
Die durchschnittliche Arbeitslosenrate der Stichprobe betrug 7.986%. Die über alle Städte
der Stichprobe gemittelten Lebenshaltungskosten betrugen 71.472%.
(a) Bestimmen Sie den fehlenden Regressionskoeffizienten und schätzen Sie die Obdachlosenrate in einer Stadt mit einer Arbeitslosenrate von 9% und durchschnittlichen Lebenshaltungskosten von 70%.
(b) Berechnen Sie das Bestimmtheitsmass.
(c) In welchem statistischen Test spielt das Bestimmtheitsmaß eine Rolle? Formulieren
Sie Null- und Alternativhypothese dieses Tests und führen Sie ihn durch. Interpretieren Sie Ihr Ergebnis! (α = 0.01.)
(d) Berechnen Sie ein 99%− Konfidentintervall für den Koeffizienten der Arbeitslosenrate.
(e) Hat die Arbeitslosenrate einen signifikanten Einfluß auf die Obdachlosenrate Y ?
Testen Sie auf dem Niveau α = 0.01.
13.3. (Fu/Bra 8.18) Um die Koeffizienten des Modells
y = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x4 + zu schätzen, wurden 30 Beobachtungen gesammelt, mit folgendem Ergebnis:
Source of
Degress of
Variation
Freedom
Regression
4
126.3
31.58
Residual
25
269.1
11.70
Total
29
395.4
Sum of
Mean
Squares Squares
Testen Sie (mit α = 0.01) die folgende Hypothese
H0 : β1 = β2 = β3 = β4 = 0 vs. H1 : βi 6= 0 für mindestens ein i ∈ {1, 2, 3, 4}.
14
Varianzanalyse
14.1. (Lehn 177) Vier Bauern haben ungefähr gleichaltrige Mastrinder.
Die Anzahl der Rinder auf den Bauernhöfen sowie die Gewichtszunahme (in kg) sind in
folgender Tabelle zusammengefasst:
34
Anzahl Rinder bei Bauer
Gewichtszunahme (in kg)
7
A
7.2 5.0
5.5
4.4
5.2
3.8
5.4
9
B
5.1 3.6
5.6
7.1
1.7
5.3
7.4
6.6
8
C
3.4 4.3
4.5
7.0
4.2
3.5
5.8
1.9
8
D
1.4 2.0
2.5
1.6
4.9
2.3
2.6
1.8
5.7
Unter geeigneten Normalverteilungsannahmen teste man zum Niveau α = 5% die Annahme, dass die Mastfütterungsmethoden der vier Bauern gleichwertig sind.
14.2. (Lehn 178) Während der Fussballweltmeisterschaft 1982 in Spanien ermittelte der medizinische Betreuer einer Mannschaft folgende Gewichtsverluste einiger Feldspieler bei den
3 Vorrundenspielen:
Anzahl Spieler
Spiel
Gewichtsabnahme (in kg)
n1 = 6
Spiel 1 1.86
1.84
1.97
1.75
1.83
n2 = 5
Spiel 2 1.67
1.98
1.77
1.85
2.01
n3 = 7
Spiel 3 1.61
1.76
1.73
1.82
1.74
1.88
1.68
1.69
Es bezeichne xij den Gewichtsverlust des j−ten Spielers beim i−ten Spiel (1 ≤ j ≤
ni , i = 1, 2, 3). Unter der Annahme, dass die Messergebnisse xij eine Realisierung von
unabhängigen, für gleiches i identisch N (µi , σ 2 )− verteilten Zufallsvariablen Xij sind,
teste man anhand dieser Daten mit Hilfe eines geeigneten Verfahrens zum Niveau α = 5%
die Annahme der Gleichheit des mittleren Gewichtsverlustes in allen Vorrundenspielen.
14.3. Es soll untersucht werden, ob der Erfolg bei einer Prüfung für SoziologInnen vom benützten
Lehrbuch abhängt. Dazu wurden für 3 gängige Lehrbücher jeweils 20 Studierende ausgewählt und deren Prüfungsergebnisse (auf einer Skala von 0-100) ermittelt. Die aus der
Erhebung ermittelten Kennzahlen sind in folgender Tabelle zusammengefasst:
Ergebnisse
x̄
s2
A
66
12
B
70
14
C
72
10
Lehrbuch
(i) Sind diese 3 Lehrbücher unterschiedlich effizient? Testen Sie zu Niveau α = 0.05.
(ii) Nachträglich erfahren Sie, dass Lehrbuch A an einer anderen Universität als die
Bücher B und C verwendet wurden. Beeinflußt diese Information Ihre unter (i)
gemachte Aussage?
35
14.4. Ergänzen Sie folgende Varianzanalysetabelle
Source of var.
Sum of sqares
Between groups
Within groups
df
mean sq.
4
20
F
200
Total
39
(i) Gibt es signifikante Unterschiede der Gruppen bzgl. der Mittelwerte? (α = 0.01)
(ii) Wieviele Beobachtungen pro Gruppe und wieviele Gruppen gibt es, unter der Annahme gleicher Beobachtungszahlen je Gruppe?
14.5. Vier Benzinmarken wurden hinsichtlich Verunreinigungen untersucht. Es wurden jeweils
bei ni Tankstellen Proben genommen. Dabei ergab sich folgendes:
mittlere
Standard-
Marke
ni
Verunreinigung abweichung
A
6
1.8
0.15
B
8
0.9
0.25
C
10
1.4
0.10
D
5
1.6
0.06
(i) Erstellen Sie eine Varianzanalysentabelle.
(ii) Gibt es einen signifikanten Unterschied zwischen den Marken? (α = 0.05)
14.6. Drei verschiedene Kopierer sollen bezüglich Tonerverbrauch (in Litern pro 100 000 Kopien)
verglichen werden. Von jeder Marke wurden 5 Kopierer getestet und folgende Verbrauchswerte gemessen:
Marke A Marke B Marke C
3.5
4.6
2.8
4.2
5.2
2.6
2.7
5.4
2.1
2.9
5.1
3.1
3.7
3.4
3.5
(i) Testet Sie zum Nivea α = 0.05 ob es signifikante Verbrauchsunterschiede zwischen
den Kopierermarken gibt.
(ii) Wenn es nur zwei Marken zu vergleichen gäbe, welchen Test könnten Sie dann alternativ anwenden?
36
(iii) Welche Modellannahmen hat der Test aus (i)?
14.7. Drei verschiedene Medikamente A1 , A2 und A3 wurden bei der Behandlung von 2 Typen
von Krankheiten B1 und B2 verwendet. Für den Behandlungserfolg wurden Masszahlen
erhoben, die in folgender Tabelle zusammengefasst sind:
Mittel A1
Krankheit B1
Krankheit B2
6
5
12 18
Mittel A2
Mittel A3
6 4
2
5
8 8 7
9
2
3
7
16 15
13
(i) Welches Mittel scheint am effizientesten? Welches am wenigsten effizient?
(ii) Deuten die Daten darauf hin, dass eine der beiden Krankheiten schwerer zu behandeln ist?
(iii) Führen Sie eine Varianzanalyse durch.
Können die Unterschiede zwischen den
Krankheiten bzw. zwischen den Medikamenten auf Zufall zurückgeführt werden?
Liegt Wechselwirkung vor? (α = 0.05)
14.8. In einem Land kommt es zu einem Konjunkturaufschwung. Es soll geprüft werden, ob
drei bestimmte Branchen vom Aufschwung in gleicher Weise profitieren. Weiters stellt
sich die Frage, ob der Aufschwung kleine Betriebe anders betrifft als große Betriebe.
Dazu wurden aus den drei Branchen jeweils ein kleiner und ein großer Betrieb zufällig
ausgewählt und folgende prozentuelle Gewinnveränderungen erhoben:
Betriebsgröße
Branche
klein
groß
Metallindustrie
3.5
-0.2
Textilindustrie
5.4
4.2
Handel
8.6
9.4
(i) Prüfen Sie, ob die Branchen vom Aufschwung unterschiedlich profitieren (α = 0.05).
(ii) Prüfen Sie, ob kleine Betriebe vom Aufschwung gleich stark wie große Betriebe
profitieren (α = 0.05).
(iii) Welche Modellannahmen haben Sie beim Prüfen obiger Hypothesen getroffen?
37
References
[1] Baier, B. and Burtscher K., Übungen ”Angewandte Mathematik und Statistik I & II” für
SoziologInnen, (UB II 1,280.561)
[2] Bleymüller, Gehlert, Gülicher, Statistik für Wirtschaftswissenschaftler, Verlag Vahlen.
[3] Brannath, Werner, Futschik, Andreas:
Statistik im Studium der Wirtschaftswis-
senschaften, WUV Studienbücher Wirtschaftswissenschaften, 2007.
[4] Coulter, Philip B., Measuring Inequality, 1989.
[5] Deutler, Schaffranek, Steinmetz, Statistik Übungen im wirtschaftswissenschaftlichen
Grundstudium, Springer Verlag, (UB I 1,099.713)
[6] Gnoss, Müller, Zwerenz, Übungen zur Statistik (deskriptive & induktive Statistik), Verlag
f. Wirtschaftsskripten, (UB I 1,099.906)
[7] Hartung,J. und Heine B., Statistik-Übungen, deskriptive Statistik, Oldenburg-Verlag,
München, Wien, (UB I 1,095.003)
[8] Hartung,J. und Heine B., Statistik-Übungen, induktive Statistik, 2004, Oldenburg-Verlag,
München, Wien, (UB I 1,095.003)
[9] Lehn, Jürgen, Wegmann, Helmut, Rettig, Stefan: Aufgabensammlung zur Einführung in
die Statistik, Teubner Verlag, Stuttgart, 2001, (UB I 1,445.036)
38