Wahrscheinlichkeitstheorie und Statistik

Wahrscheinlichkeitstheorie
und Statistik (wst)
Prof. Dr. Marcel Steiner-Curtis
10. November 2015
Prof. Dr. Marcel Steiner-Curtis
FHNW Fachhochschule Nordwestschweiz
Hochschule für Technik
Bahnhofstrasse 6
CH-5210 Windisch
[email protected]
www.fhnw.ch/personenseiten/marcel.steiner/
Liebe Studierende
Zum Fachhochschulstudium eines jeden Ingenieurs gehört heutzutage ein Kurs über Wahrscheinlichkeitsrechnung und Statistik – kurz Stochastik genannt. Die heutigen Anforderungen
des Berufslebens sind mannigfaltig: Einerseits basieren moderne (Software)-Anwendungen auf
stochastischen Modellen mit denen Unsicherheiten und zufällige Schwankungen beschrieben
werden. Andererseits müssen Sie in der Lage sein, grosse und zum Teil unübersichtliche Datenmengen grafisch darzustellen und zu analysieren. Einfachste stochastische Modelle und die
Grafische Aufbereitung von Daten lernen Sie in diesem Kurs kennen. Mit der Analyse von
Daten werden Sie im Kurs über Statistische Datenanalyse, [15], vertraut gemacht.
Mein Ziel ist es, Ihnen die Stochastik näher zu bringen, so dass Sie das Gefühl erhalten,
etwas Nützliches zu lernen, um es später auch anwenden zu können. Dies geht leider nicht
ohne Ihren persönlichen Effort. Das Motto muss auch hier heissen: Übung macht den Meister. Ich erwarte von Ihnen, dass Sie zusätzlich zu den Vorlesungsstunden noch etwa gleich
viel Zeit zu Hause für die Übungen und die Nacharbeit des Kurses aufwenden. Einige Aufgaben und Lösungen können Sie vom Active Directory der Hochschule für Technik, FHNW
herunterladen.
Das Skriptum basiert im Wesentlichen auf dem Stochastik-Skriptum (vgl. [3]) meines
Vorgängers Peter Gschwind, der an der Fachhochschule beider Basel während mehr als dreissig
Jahren als Dozent tätig war. Hiermit möchte ich Peter herzlich danken, dass er mir auch auf
diesem Gebiet seine Erfahrungen in Form seines Skriptum weitergegeben hat. Weiter habe
ich einige Teile (vor allem Kapitel 2) zum Teil wortwörtlich und zum Teil gekürzt aus dem
Stochastik-Skriptum (vgl. [4]) von Thomas Heim übernommen.
Sie sind nicht mehr die ersten Studierenden, die mit diesem Skriptum arbeiten. Urteilen Sie nicht zu hart über den Autor (und die vorangehenden Leser), wenn Sie Fehler und
Ungereimtheiten finden, sondern teilen Sie mir diese bitte mit.
10. November 2015, Marcel Steiner-Curtis
i
ii
Inhaltsverzeichnis
Liebe Studierende
i
Inhaltsverzeichnis
iii
1 Einführung
1.1
Was ist Stochastik? . . . . . . . . . . . .
1.2
Einige Anwendungsgebiete der Statistik
1.3
Zur Arbeitsweise in der Statistik . . . .
1.4
Grundbegiffe der Statistik . . . . . . . .
2 Beschreibende Statistik
2.1
Umgang mit Datenmaterial . . . . . .
2.2
Datensätze . . . . . . . . . . . . . . . .
2.3
Häufigkeitsverteilung . . . . . . . . . .
2.3.1 Häufigkeitstabellen . . . . . . .
2.3.2 Histogramme . . . . . . . . . .
2.3.3 Kreisdiagramme . . . . . . . .
2.4
Lageparameter . . . . . . . . . . . . .
2.4.1 Mittelwert . . . . . . . . . . . .
2.4.2 Median und Quartile . . . . . .
2.4.3 Optimumseigenschaften . . . .
2.5
Formparameter . . . . . . . . . . . . .
2.5.1 Standardabweichung . . . . . .
2.5.2 Quartile und Ausreissergrenzen
2.6
Summarische Datendarstellung . . . .
2.6.1 Box- und Whiskersplot . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Zufall und Ereignis
3.1
Zufall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2
Zufallsexperimente und Ereignisse . . . . . . . . . . . . . . . . . . .
3.3
Verknüpfung von Ereignissen . . . . . . . . . . . . . . . . . . . . .
3.4
Zusammengesetzte Versuche, Produktregel . . . . . . . . . . . . . .
3.5
Permutationen, Variationen, Kombinationen . . . . . . . . . . . . .
3.5.1 Permutationen . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.2 Geordnete Stichprobe mit Zurücklegen . . . . . . . . . . . .
3.5.3 Geordnete Stichprobe ohne Zurücklegen - Variation . . . . .
3.5.4 Ungeordnete Stichprobe ohne Zurücklegen - Kombinationen
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
2
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
6
6
6
7
8
9
9
10
11
13
13
15
15
15
.
.
.
.
.
.
.
.
.
17
17
17
18
21
23
23
23
24
24
iv
4 Wahrscheinlichkeit
4.1
Theoretische Wahrscheinlichkeit . . . . . . . . . . . . .
4.2
Experimentelle Wahrscheinlichkeit . . . . . . . . . . .
4.3
Monte-Carlo-Methoden . . . . . . . . . . . . . . . . . .
4.4
Wahrscheinlichkeit von zusammengesetzten Ereignissen
4.4.1 Der Additionssatz . . . . . . . . . . . . . . . .
4.4.2 Der Multiplikationssatz . . . . . . . . . . . . .
Inhaltsverzeichnis
.
.
.
.
.
.
29
29
32
34
36
36
37
5 Zufallsgrössen und Wahrscheinlichkeitsverteilungen
5.1
Diskrete und stetige Zufallsgrössen . . . . . . . . . . . . . . . . . . . . . . .
43
43
6 Diskrete Zufallsgrössen und Verteilungen
6.1
Erwartungswert und Varianz . . . . . . . . . . . . . . . . . .
6.2
Die Binomialverteilung . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Definition und Eigenschaften der Binomialverteilung .
6.2.2 Erwartungswert und Varianz der Binomialverteilung .
6.2.3 Die Binomialverteilung beim Testen von Hypothesen .
6.3
Die Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . .
6.3.1 Poissonverteilung als Grenzfall der Binomialverteilung
6.3.2 Erwartungswert und Varianz der Poissonverteilung . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
49
49
51
51
54
56
59
59
60
7 Stetige Zufallsgrössen und Verteilungen
7.1
Stetige Zufallsgrössen und Wahrscheinlichkeitsdichten . . . . .
7.1.1 Die Gleichverteilung . . . . . . . . . . . . . . . . . . . .
7.1.2 Erwartungswert und Varianz . . . . . . . . . . . . . . .
7.2
Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . .
7.2.1 Die standardisierte Normalverteilung . . . . . . . . . . .
7.2.2 Die Normalverteilung mit den Parametern µ und σ 2 . .
7.2.3 Transformation auf die standardisierte Normalverteilung
7.2.4 Quantile der standardisierten Normalverteilung . . . . .
7.2.5 Anwendung der Normalverteilung in der Fehlerrechnung
7.3
Normalverteilung als Grenzfall der Binomialverteilung . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
63
64
67
68
68
70
71
72
73
77
8 Statistische Tests
8.1
Das Prinzip des statistischen Tests . . . . . . . . . . . . . . . . . . . . . . .
8.2
Einseitiger und zweiseitiger Test . . . . . . . . . . . . . . . . . . . . . . . . .
8.3
Mögliche Fehler bei statistischen Tests . . . . . . . . . . . . . . . . . . . . .
81
81
83
85
9 Prüfen von Erwartungswerten (Parametertests)
9.1
Problemstellung der technischen Statistik . . . . . . . . . . . . . . . . .
9.2
Einstichproben-t-Test, Student-t-Test . . . . . . . . . . . . . . . . . . . .
9.2.1 Vertrauensintervall für den Erwartungswert . . . . . . . . . . . .
9.2.2 Ungefähr erforderlicher Stichprobenumfang . . . . . . . . . . . .
9.3
Vergleich zweier Mittelwerte unverbundener Stichproben . . . . . . . . .
9.3.1 Zweistichproben-t-Test bei unbekannten aber gleichen Varianzen
9.3.2 Zweistichproben-t-Test bei unbekannten Varianzen . . . . . . . .
9.4
Paarweiser Vergleich bei verbundenen Stichproben . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
89
89
90
94
96
96
97
99
100
v
10 Regressionsrechnung
103
10.1 Regressionsgerade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
10.2 Allgemeine Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
11 Regressionsanalyse
11.1 Allgemeines . . . . . . . . . . . . .
11.2 Regressionsgerade . . . . . . . . . .
11.3 Regressionsanalyse einer Geraden .
11.4 Regressionsanalyse zweier Geraden
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
113
113
115
116
119
A Mathematische Hilfsmittel
123
A.1 Rechnen mit dem Summenzeichen . . . . . . . . . . . . . . . . . . . . . . . 123
A.2 Die Regeln von de Morgan . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
A.3 Die Gausssche Fehlerfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . 126
Tafeln
128
Literaturverzeichnis
133
Index
135
vi
Inhaltsverzeichnis
Kapitel 1
Einführung
1.1
Was ist Stochastik?
Der Begriff Stochastik1 befasst sich mit der Beschreibung und Untersuchung von Vorgängen
und Ereignissen aus allen Lebensbereichen, die zufällig oder vom Zufall beeinflusst sind, und
zwar im Sinne von nicht vorhersagbar oder nicht exakt vorhersagbar.
Dabei kann die Ursache der Ungewissheit von sehr unterschiedlicher Art sein. Im Allgemeinen
handelt es sich um die prinzipielle oder faktische Unmöglichkeit einer exakten Voraussage, wie
etwa bei der Frage nach dem künftigen Kundenverhalten oder der langfristigen Wettervorhersage. Es kann aber auch die Unsicherheit des Beobachters bei einem bereits eingetretenen
Ereignis sein, wie etwa der aktuelle Warenbestand (bei unvollständiger Information) oder die
Spielkartenwerte in der Hand des Mitspielers.
Die mathematische Stochastik befasst sich mit der mathematischen Beschreibung und Untersuchung von Ereignissen, zeitlichen Entwicklungen bzw. räumlichen Strukturen, die vom
Zufall beeinflusst werden. Solche Ereignisse, Entwicklungen bzw. Strukturen werden oft durch
Daten dokumentiert, für deren Analyse die Statistik2 - ein Teilgebiet der Stochastik - geeignete Methoden bereitstellt.
1.2
Einige Anwendungsgebiete der Statistik
Anwendungsgebiete der Statistik sind die Industrie und die Technik, die Physik, die Meteorologie, die Geodäsie, die Medizin, die Botanik und Zoologie, die Landwirtschaft, das Verkehrswesen und viele weitere. In jedem dieser Gebiete ist die Anwendungsmöglichkeit der Statistik meist sehr vielgestalt. Beispielsweise bedienen wir uns in der Industrie und Wirtschaft
statistischer Methoden bei der Materialprüfung, der Fertigungssteuerung und -regelung, der
End- und Abnahmekontrolle, der Entwicklung, der Personalauswahl, der Markt- und Produktforschung oder der Planung von Versuchen. Zahlreiche Firmen haben in letzter Zeit für
derartige Zwecke besondere statistische Abteilungen eingerichtet oder stehen wenigstens in
enger Verbindung mit statistischen Büros, denen die auftretenden Probleme zur Bearbeitung
übertragen werden. Heute werden bei den meisten statistischen Untersuchungen Computer
eingesetzt.
1
stochazomai griech. στ oχάζoµαι: zielen, vermuten, erraten. Das Adjektiv stochastisch bedeutet soviel wie
zufallsbeeinflusst und ist schon seit langem, zuerst wohl in der Physik, für zufällige Erscheinungen in Gebrauch.
2
status lat. Beschreibung des Zustandes eines Gemeinwesens wie der Bevölkerungsgrösse.
1
2
Kapitel 1. Einführung
1.3
Zur Arbeitsweise in der Statistik
Trotz der grossen Heterogenität der Anwendungsgebiete der Statistik besteht deren statistische Bearbeitung im Allgemeinen aus denselben Schritten. Wir illustrieren diese Schritte
durch ein einfaches Beispiel.
Wir wollen die Lebensdauer der in den Räumlichkeiten der Fachhochschule verwendeten Neonröhren untersuchen.
1. Formulierung des Problems. Wir entschliessen uns, die durchschnittliche Lebensdauer von Neonröhren eines bestimmten Typs und Fabrikats zu messen. In einem Langzeitversuch unterwerfen wir eine Neonröhre einem klar definierten Ein- und Ausschaltzyklus. Diesen Versuch führen wir so lange durch, bis die Neonröhre als defekt angesehen
werden muss. Dies ergibt uns die Lebensdauer einer Neonröhre.
2. Planung des Experiments. Hätten alle Neonröhren dieselbe Lebensdauer, so brauchten wir nur eine einzige zu betrachten und deren Lebensdauer zu bestimmen. Dann käme
die Statistik überhaupt nicht ins Spiel. Nun zeigt aber die Erfahrung, dass die Lebensdauer von Neonröhre zu Neonröhre variiert. Wir sollten nun eigentlich alle Neonröhren
hernehmen und untersuchen. Dies wäre aber unmöglich, da bei der Bestimmung der Lebensdauer die Neonröhre zerstört wird und somit keine Neonröhren für unseren Alltag
zur Verfügung stehen würden. Ausserdem würde eine solche Vollprüfung zu viel kosten
und sehr viel Zeit in Anspruch nehmen. Eine Neonröhre ist zu wenig, alle sind zu viel.
Wir entschliessen uns also für den goldenen Mittelweg: Wir greifen einige Neonröhren
ganz zufällig heraus und bestimmen deren Lebensdauer.
3. Ausführung des Experimentes. Wir führen unseren Plan durch. Der genannte Vorgang des zufälligen Auswählens und Messens wird in der Statistik als ein Zufallsexperiment bezeichnet. Der Einfachheit halber wählen wir nur 11 Neonröhren aus und
messen deren Lebensdauer. Wir erhalten dabei die der Grösse nach sortierten Werte
x1
24
x2
39
x3
45
x4
51
x5
55
x6
62
x7
64
x8
65
x9
67
x10
76
x11
123
[in Monaten]. Diese Werte werden als Stichprobe aus der Grundgesamtheit aller
möglichen Messwerte bezeichnet, die bei der Ausführung des Experiments denkbar sind.
Ihre Anzahl n = 11 heisst der Stichprobenumfang.
4. Beschreibung der experimentellen Daten. Bei umfangreichen Untersuchungen,
bei denen viele Zahlenwerte anfallen, müssen wir nun dafür sorgen, diese in eine übersichtliche Form (Tabelle, grafische Darstellung) zu bringen (siehe Kapitel 2). Im Falle
unserer Stichprobe entscheiden wir uns für die Darstellung der 11 Lebensdauern auf einer einfachen Zeitskala und für einen Box- und Whiskersplot, siehe Abbildung 1.3.i.
Zusätzlich berechnen wir zwei Lageparameter, nämlich die durchschnittliche Lebensdauer
x̄ =
1
671
(24 + 39 + 45 + 51 + 55 + 62 + 64 + 65 + 67 + 76 + 123) =
= 61.0
11
11
und die Standardabweichung
s = 25.25,
1.4. Grundbegiffe der Statistik
b
x1
b
b
b
3
b
x2 x3 x4 x5
x6 x8
b bb b
x7 x9
b
b
x10
x11
b
|
|
0 Aunten = 22
|
Q0.25 = 45
x
e = 62
| |
Q0.75 = 67
|
Aoben = 100
Ausreisser
|
Abbildung 1.3.i: Box- und Whiskersplot der Lebensdauermessung von 11 Neonröhren (siehe
Kapitel 2.6.1).
die ein Mass dafür ist, wie sehr die Stichprobenwerte um den Mittelwert streuen.
5. Schluss von der Stichprobe auf die Grundgesamtheit. Aus der Stichprobe schliessen wir, dass die Grundgesamtheit aller Neonröhren etwa die durchschnittliche Lebensdauer 61 Monate hat. Es ist möglich, die Genauigkeit dieses Näherungswertes abzuschätzen. Dieser Schluss ist insofern nicht ganz unproblematisch, da eine Neonröhre
eine sehr grosse Lebensdauer von 123 Monaten hatte. Dieser Messwert verzerrt uns die
ganze Analyse (ersichtlich in der grossen Streuung der Messwerte), und wir täten eventuell gut daran, diesen als Ausreisser zu kennzeichnen. Wir beobachten zudem, dass
nach etwa 72 Monaten die meisten Neonröhren kaputt gegangen sind.
Können wir die Zuverlässigkeit unseres Näherungswertes für die Lebensdauer verbessern? Ja, indem wir den Stichprobenumfang vergrössern. Es ist aber auch klar, dass
diese Verbesserung durch erhöhte Kosten und grösseren Zeitbedarf erkauft wird.
Warum und wie wir derartige Schlüsse von der Stichprobe auf die zugehörige Grundgesamtheit ziehen können, ist der Inhalt der schliessenden (induktiven) Statistik,
die wir in der anschliessenden Vorlesung über Statistische Datenanalyse, [15], behandeln
werden. Wir sollten uns auch klar machen, dass es vollkommene sichere Schlüsse von
einer Stichprobe auf Grundgesamtheit nicht gibt.
1.4
Grundbegiffe der Statistik
In der Statistik unterscheiden wir zwei wichtige Begriffe:
• Grundgesamtheit nennen wir eine Menge von Elementen, die auf gewisse Merkmale
hin untersucht werden sollen. Wir können darunter eine Gesamtheit gleichartiger Elemente verstehen, z.B. alle Stücke einer bestimmten Produktion oder alle Messwerte
einer Messreihe, die bei ständiger Wiederholung desselben Versuchs auftreten können.
Die Anzahl der Elemente einer Grundgesamtheit kann sehr gross, sogar unendlich sein.
• Um nicht die gesamte Grundgesamtheit auf die betreffenden Merkmale hin untersuchen
zu müssen, entnehmen wir ihr eine endliche Teilmenge, eine so genannte Stichprobe3 .
3
Das Wort stammt aus der Verhüttung von Eisenerz des ausgehenden Mittelalters. Die Hüttenleute haben
aus dem Schmelzofen eine zufällige Probe genommen, indem Sie mit einem Probelöffel in das flüssige Eisenerz
hinein stachen und so einen Stich heraus nahmen, um dessen Reinheit und Schmelzzustand zu überprüfen.
4
Kapitel 1. Einführung
Erfolgt die Auswahl zufallsgemäss, d.h., jedes Element der Grundgesamtheit muss die
gleiche Chance haben, ausgewählt zu werden, dann sprechen wir von einer zufälligen
Stichprobe. Die zufällige Auswahl kann durch Mischen oder blindes Ziehen bzw. durch
Festlegung der auszuwählenden Elemente mit Hilfe von Zufallszahlen erfolgen.
Kapitel 2
Beschreibende Statistik
Die Aufgabe der beschreibenden (deskriptiven) Statistik besteht darin, eine gegebene
Stichprobe zu untersuchen und zu beschreiben. Dies kann mittels so genannter Lageparameter
(z. B. Mittelwert, Standardabweichung) oder grafisch geschehen. Mit Hilfe der beschreibenden
Statistik erhalten wir aber immer nur Aussagen über die vorliegende Stichprobe.
2.1
Umgang mit Datenmaterial
Die erste Aufgabe der beschreibenden Statistik besteht im sinnvollen Umgang mit Daten.
Einige wichtige Punkte, die vor der Verarbeitung der Daten abgeklärt werden müssen:
• Falls die Daten von anderen bereit gestellt wurden, überlegen wir uns zuerst: Was wurde
eigentlich gemessen und warum? Wie wurden die Daten erhalten?
• Bei selbstständiger Datenbeschaffung stellt sich die Frage: Wie viele Messwerte werden
benötigt? Unter welchen Bedingungen soll gemessen werden?
• Sind die Daten vorhanden, so prüfen wir ihre Struktur: Sind es genug Daten? Sind
alle Daten nötig? Hat es Ausreisser? Welche Variablen sind naturgegeben, welche sind
beeinflussbar? Welche Variablen sind unabhängig, welche abhängig?
Daten werden nach drei Typen klassifiziert:
1. Stetige oder metrische Grössen, wie etwa Längen und Massen.
2. Diskrete Grössen, z.B. die Anzahl von Produktionsfehlern.
3. Qualitative Merkmale, etwa Haarfarbe oder Wohnort.
Aufgabe
Aufgabe 2.1.1. Zu welchen Kategorien von Daten gehören die folgenden Grössen? Windgeschwindigkeit, Sonnenscheindauer am Monatsletzten, Anzahl Regentage im April, Luftdruck,
Staustunden am Gotthard, Anzahl Lastwagen durch den Belchentunnel, Zivilstand, steuerbares Einkommen, abgeschlossene Schulbildung.
5
6
Kapitel 2. Beschreibende Statistik
2.2
Datensätze
Soll ein bestimmtes Merkmal eines Objekts statistisch analysiert werden, so beginnen wir mit
dem Aufstellen eines Datensatzes. Der Datensatz ist der Ausgangspunkt für alle weiteren
Analysen.
Bezieht sich ein Datensatz nur auf eine einzige Eigenschaft, so sprechen wir von eindimensionalen Daten. Als Gegensatz bilden zum Beispiel die Wertepaare (Grösse, Gewicht) einer
Gruppe von Menschen einen zweidimensionalen Datensatz, solche werden wir in diesem Kurs
nicht betrachten.
Beispiel 2.2.1. Der folgende (eindimensionale) Datensatz zeigt die Zugfestigkeit [in N mm−2 ]
von 50 zufällig ausgewählten Proben aus einer Charge Walzdraht:
404
411
383
386
413
422
401
396
390
371
388
418
369
386
387
411
427
418
405
411
399
408
400
392
349
412
399
402
426
417
378
392
390
393
402
384
424
392
383
403
373
387
414
390
389
367
396
391
407
408
Zunächst halten wir die sehr wichtige Erkenntnis fest, dass die rohen Daten zwar alle Information enthalten, diese aber (oft) nicht ersichtlich sind! Denken Sie an diesen Grundsatz, wenn Sie bei einer Präsentation Ihren Standpunkt mit harten Fakten untermauern wollen. Eine Tabelle mit 50 Zahlen gehört vermutlich in ein Messprotokoll, aber sie hat keine
Überzeugungskraft. Die dafür benötigte Interpretation der Daten ergibt sich erst aus ihrer
sinnvollen Komprimierung. Eine extreme Form der Datenkomprimierung besteht in der ausschliesslichen Angabe des Mittelwertes, im obigen Beispiel 397.28 N mm −2 . Einen Datensatz
allein durch diese eine Zahl zu repräsentieren ist selten sinnvoll. Leider ist dies oft üblich,
aber meistens sehr unbefriedigend, da die Variabilität der Daten nicht zur Geltung kommt.
2.3
Häufigkeitsverteilung
Leicht zu interpretierende Darstellungen der Variabilität von Daten sind Häufigkeitstabellen,
Histogramme und Kreisdiagramme.
2.3.1
Häufigkeitstabellen
Bei diskreten oder qualitativen Daten bieten sich Häufigkeitstabellen natürlich an.
Beispiel 2.3.1. Anzahl schwerer Störungen an Baumaschinen pro Tag. Bei der Untersuchung von Betriebsstörung von Baumaschinen an insgesamt 100 Betriebstagen ergaben sich die
folgenden tabellarisch dargestellten Resultate:
i
hi
0
48
1
38
2
10
3
4
Dabei bezeichnen i die Anzahl Störungen pro Tag und hi die Anzahl der Tage mit i Störungen.
Zur Kontrolle erhalten wir
3
X
hi = 100.
i=0
2.3. Häufigkeitsverteilung
7
Für stetige Daten ist eine Klasseneinteilung sinnvoll. Bei der Wahl der Klassen oder Intervalle besteht einige Freiheit. Zweckmässigerweise legen wir die Grenzen auf runde Zahlen. Die
Anzahl k der Intervalle soll sicher nicht grösser sein als die Hälfte des Stichprobenumfangs n,
aber auch nicht so klein, dass fast alle Daten in nur ein oder zwei Klassen fallen. Ein Richtwert
für die Anzahl Klassen k ist
√
k ≈ n,
aufgerundet auf die nächste ganze Zahl. Dies ist eher als untere Grenze zu betrachten.
Die Klassenbreite d ist dann von der Grössenordnung
d≈
xmax − xmin
,
k
wobei xmax und xmin den grössten und den kleinsten Wert der Daten bezeichnen. Wegen
der bevorzugten Wahl von runden Zahlen als Intervallgrenzen ist diese Beziehung aber nur
näherungsweise erfüllt.
Die Intervalle selbst werden halboffen gewählt. Dabei ist es üblich, die auf die Intervallgrenzen
fallenden Daten immer konsistent der rechts liegenden (grösseren) Klasse zuzuordnen, so dass
die i-te Klasse als Intervall [ai , ai+1 [ für i ∈ {1, . . . , k} aufgefasst wird.
Beispiel
2.3.2. Für die 50 Zugfestigkeitswerte aus Beispiel 2.2.1 ergibt sich auf diese Weise
√
k ≈ 50 = 7.071. Damit wir schöne Klassen mit einer Spannweite von d = 10 bilden können,
wählen wir 9 Klassen. Wir erhalten somit eine Häufigkeitstabelle für die Zugfestigkeitswerte.
Klasse i
1
2
3
4
5
6
7
8
9
2.3.2
[ai , ai+1 [ in N mm−2
[345, 355[
[355, 365[
[365, 375[
[375, 385[
[385, 395[
[395, 405[
[405, 415[
[415, 425[
[425, 435[
Anzahl hi
1
0
4
4
14
11
9
5
2
Histogramme
Selbst mit nur mehr als 50 Zahlen ist die Häufigkeitstabelle noch nicht besonders attraktiv.
Schneller zu erfassen ist eine grafische Darstellung. Häufigkeitstabellen lassen sich direkt als
Histogramme (Säulendiagramme, engl. Bar charts) darstellen (siehe Abbildungen 2.3.i und
2.3.ii): Dabei wird auf der Ordinate die Anzahl hi gegen die Klassen i, bzw. gegen die zugehörigen Intervalle, auf der Abszisse aufgetragen. Die Höhe der Säulen ist proportional zur
Häufigkeit hi des Auftretens eines Wertes in der Klasse i. Auf den ersten Blick erkennen wir,
dass die Häufigkeiten in den beiden Beispielen deutlich verschieden sind. Diese beiden Typen
von Diagrammen werden uns immer wieder begegnen.
Beim Erstellen einer Häufigkeitstabelle für die Zugfestigkeiten haben wir bereits eine gewisse
Datenreduktion vorgenommen. Aus der Tabelle oder dem entsprechenden Histogramm können
die einzelnen Messwerte nicht mehr rekonstruiert werden, nur ihre Klassenhäufigkeiten sind
erhalten geblieben.
Histogramme sind statistische Näherungen für Dichtefunktionen, die wir in späteren Kapiteln
kennen lernen werden. Sie helfen bei der Auswahl geeigneter Modelle zur Datenverarbeitung.
Kapitel 2. Beschreibende Statistik
50
8
14
40
12
30
10
8
20
6
10
4
2
0
0
0
1
2
3
4
340
Abbildung 2.3.i: Histogramm der Betriebstörungen von Baumaschinen aus Beispiel 2.3.1
360
380
400
420
440
Abbildung 2.3.ii: Histogramm der Zugfestigkeit einer Charge Walzdraht aus Beispiel 2.2.1
Am Histogramm können wir mit einem Blick feststellen, ob die Daten in etwa normalverteilt
sind, das heisst, ob das Histogramm die berühmte Glockenform der Normalverteilung hat.
Vergleichen Sie dazu auch die beiden Histogramme in Abbildungen 2.3.i und 2.3.ii.
2.3.3
Kreisdiagramme
Zur Darstellung der Häufigkeitsverteilung von qualitativen Daten eignen sich Kreisdiagramme
(engl. Pie Charts) ausgezeichnet.
Beispiel 2.3.3. Die Zusammensetzung einer Kapitalanlage mit niedrigem Risiko und grosser Liquidität kann wie folgt gewählt werden: 45% Obligationen, 40% Sparkapital und 15%
Aktien. Diesen Sachverhalt können wir am einfachsten mit einem Kreisdiagramm grafisch
darstellen (siehe Abbildung 2.3.iii).
Obligationen
45%
15%
40%
Aktien
Sparkapital
Abbildung 2.3.iii: Kreisdiagramm. Die Flächenanteile der Sektoren sind zu den Anteilen proportional.
2.4. Lageparameter
9
Aufgaben
Aufgabe 2.3.1. Der folgende Datensatz stellt die Schalldämmzahl [in db] von 10 cm starken
Gibsdielenwänden bei 400 Hz dar.
25
24
27
24
24
23
23
28
26
Erstellen Sie eine Häufigkeitstabelle und ein Histogramm.
Aufgabe 2.3.2. Erstellen Sie eine Häufigkeitstabelle und ein Histogramm der Zugfestigkeitsdaten in Beispiel 2.2.1 mit einer Klassenbreite von d = 5 N mm−2 .
Aufgabe 2.3.3. Erstellen Sie ein Kreisdiagramm aus dem das Verhältnis der Anzahl Studentinnen zur Anzahl Studenten in Ihrer Klasse aufgezeigt wird.
2.4
Lageparameter
Lageparameter charakterisieren in zusammenfassender Weise die Verteilung von Datenwerten.
Wichtige Beispiele dafür sind verschiedene Mittelwerte, sowie der Median.
2.4.1
Mittelwert
Das mittlere Verhalten der Daten wird durch den Mittelwert x̄ charakterisiert. Für den Datensatz {x1 , . . . , xn } wird damit meistens das arithmetische Mittel
n
1X
x̄ =
xi
n
i=1
gemeint. Das arithmetische Mittel ist jedoch nicht für jedes Problem angebracht, wie die
folgenden zwei Beispiele zeigen:
1. Durchschnittsgeschwindigkeit: Ein Automobilist fährt auf einer 60 km langen Strecke
die ersten s1 = 20 km mit der Geschwindigkeit v1 = 40 km h−1 , die nächsten s2 = 20 km
mit v2 = 120 km h−1 und die letzten s3 = 20 km mit v3 = 80 km h−1 . Obwohl die drei
Teilstücke gleich lang sind, ergibt sich die Durchschnittsgeschwindigkeit nicht aus dem
arithmetischen Mittel va = 13 (40 + 120 + 80) km h−1 = 80 km h−1 . Wir müssen vielmehr
ausrechnen, wie viel Zeit für die einzelnen Strecken verbraucht wurde, also die Stunden
pro Kilometer vsii . Die Durchschnittsgeschwindigkeit ergibt sich dann als Gesamtstrecke
dividiert durch Gesamtzeit
3
X
si
v̄ =
i=1
3
X
si
i=1
in unserem Fall v̄ = 65.45 km h−1 .
,
vi
Erfahrungsgemäss drückt die kleinste Geschwindigkeit den Durchschnitt also stärker,
als die grösste ihn anhebt. Wegen der in unserem Beispiel gleich langen Teilstrecken
10
Kapitel 2. Beschreibende Statistik
erhalten wir die Durchschnittsgeschwindigkeit in der speziellen Form
n
1
1X 1
=
.
x̄h
n
xi
i=1
Diese Art von Mittelwert wird als harmonisches Mittel bezeichnet, und es gilt: Der
Kehrwert des Mittelwerts ist der Mittelwert der Kehrwerte.
2. Durchschnittsrendite: Ein Aktienkapital K wird über mehrere Jahre bei schwankenden
Börsenkursen angelegt. Die Jahresrendite beträgt im ersten Jahr r1 = 8.5%, im zweiten
Jahr r2 = 12.2% und im dritten Jahr resultiert ein Verlust von r3 = −4.5%. Wiederum
ist die effektive Durchschnittsrendite nicht einfach das arithmetische Mittel der drei
einzelnen Jahresrenditen. Das Endkapital ergibt sich vielmehr als
K0 = K(1 + r1 )(1 + r2 )(1 + r3 ),
was bei dreijähriger Investitionsdauer mit der Durchschnittsrendite r̄ als K ′ = K(1+ r̄)3
aufzufassen ist. Der durchschnittliche Zinsfaktor ergibt sich zu 1.0515, entsprechend
einer effektiven Jahresrendite von r̄ = 5.15%. Zum Vergleich beträgt das arithmetischen
Mittel ra = 5.4%. Die hier vorliegende Art von Mittelwert
1
n
x̄g = (x1 · · · xn ) =
n
Y
!1
n
xi
i=1
wird als geometrisches Mittel bezeichnet. Weil beim Logarithmieren aus Produkten Summen werden, ist leicht einzusehen, dass für das geometrische Mittel gilt: Der
Logarithmus des Mittelwerts ist der Mittelwert der Logarithmen.
Den bisher besprochenen Arten von Mittelwerten ist gemeinsam, dass sie bei der Auswertung jeden einzelnen Datenwert in der gleichen Form berücksichtigen, entweder direkt, als
Kehrwert, oder mit seinem Logarithmus. Dieses Vorgehen ist zwar nahe liegend, hat aber
auch einen Ernst zu nehmenden Nachteil. Fügen wir nämlich zu unserem Datensatz von 50
Zugfestigkeitswerten (siehe Beispiel 2.2.1) nur den einen sehr grossen Wert 1408 N mm−2 hinzu, der vermutlich auf einem Messfehler beruht, so verändert sich das arithmetische Mittel
von urpsrünglich 397.28 N mm −2 auf 417.1 N mm−2 . Das arithmetische Mittel ist also nicht
robust gegenüber Ausreissern, was seinen Nutzen als summarischen Lageparameter beträchtlich mindert.
2.4.2
Median und Quartile
Ein Lageparameter, der gegenüber Ausreissern robust ist, ist der Median x
e. Darunter verstehen wir den Datenwert in der Mitte. Um ihn zu ermitteln, müssen wir eine bei den bisherigen
Beispielen mehrfach stillschweigend vorgenommene Massnahme verdeutlichen: Schon beim
Erstellen einer Häufigkeitstabelle, eines Histogramms werden die Datenwerte automatisch
der Grösse nach sortiert. Dazu ordnen wir die Stichprobenwerte {x1 , . . . , xn } des originalen
Datensatzes der aufsteigenden Grösse nach
x(1) ≤ · · · ≤ x(i) ≤ · · · ≤ x(n) .
2.4. Lageparameter
11
Dann ist der Median oder Zentralwert der Stichprobe durch

x n+1
wenn n ungerade
( )
x
e = 1 2
 x n +x n
wenn n gerade.
2
( +1)
( )
2
2
gegeben. Es handelt sich dabei um den mittelsten Zahlenwert der geordneten Stichprobe.
Im geordneten Datensatz sind natürlich Maximum und Minimum einfach die Werte an den
Grenzen,
xmin = x(1) und xmax = x(n) .
Für die Analyse der Verteilung der Daten sind ferner die empirischen Quartile oder Viertelwerte Q0.25 und Q0.75 nützlich. Während der Median die Mitte des Datensatzes charakterisiert, kennzeichnen Q0.75 das obere und Q0.25 das untere Viertel. Oberhalb von Q0.75 liegen
etwa 25% der Datenwerte, unterhalb von Q0.25 ebenfalls etwa 25%.
Beispiel 2.4.1. Es sei die folgende Stichprobe gegeben.
5.3
3.8
4.0
19.5
5.0
4.9
2.2
4.1
3.1
5.5
Wir bilden den Median indem wir die Stichprobe der Grösse nach ordnen
2.2
3.1
3.8
4.0
4.1
4.9
5.0
5.3
5.5
19.5
und x(5) = 4.1 und x(6) = 4.9 ablesen. Dann ist der Median x
e = 12 (4.1 + 4.9) = 4.5. Im
Gegensatz dazu beträgt das arithmetische Mittel x̄ = 5.74. Wir stellen also fest, dass der
extrem grosse Wert 19.5 das arithmetische Mittel stark vergrössert, den Median aber nicht
beeinflusst.
Weiter lesen wir xmin = 2.2 und xmax = 19.5 ab.
Die empirischen Quartile betragen Q0.25 ≈ 3.8 und Q0.75 ≈ 5.3.
2.4.3
Optimumseigenschaften
Als summarische Kenngrösse für den gesamten Datensatz soll der Mittelwert oder der Median
die Daten {x1 , . . . , xn } in gewisser Weise optimal repräsentieren. Eine mögliche Forderung an
einen solchen optimalen Lageparameter könnte sein: Wähle als optimalen Repräsentanten x
diejenige Zahl, für die die Summe der betragsmässigen Abweichungen minimal ist
n
X
i=1
|xi − x| → min .
Diese Eigenschaft hat tatsächlich der Median, also x = x
e.
Eine andere Forderung bestünde in der Minimierung der quadrierten Abweichungen
n
X
(xi − x)2 → min .
i=1
Mit Hilfe der Differenzialrechnung können wir leicht zeigen, dass diese Eigenschaft vom arithmetischen Mittel erfüllt wird, also x = x̄. Der Mittelwert x̄ ist der beste Repräsentant der
Daten im Sinne der Methode der kleinsten Quadrate, die uns in anderen Vorlesungen
(z.B. Analysis IV, [14]) wieder begegnen wird.
12
Kapitel 2. Beschreibende Statistik
Aufgaben
Aufgabe 2.4.1. Zeigen
Sie, dass für einen gegebenen Datensatz {x1 , . . . , xn } das arithmeti1 Pn
schen Mittel x = n i=1 xi die Funktion
f (x) =
n
X
i=1
minimiert.
(xi − x)2
Aufgabe 2.4.2 (Fakultativ). Zeigen Sie, dass für einen gegebenen Datensatz {x1 , . . . , xn }
der Median x = x
e die Funktion
n
X
f (x) =
|xi − x|
i=1
minimiert.
Lösungen
Lösung 2.4.1. Bestimmen Sie die Abszisse des Scheitelpunktes der quadratischen Polynomfunktion
n
X
f (x) =
(xi − x)2
i=1
n
X
=
(x2i − 2xi x + x2 )
i=1
=
n
X
x2i
i=1
=
n
X
i=1
−
n
X
2xi x +
i=1
x2i − 2x
n
X
n
X
x2
i=1
xi + nx2 .
i=1
Lösung 2.4.2. Bei einem Minimum hat die Funktion f eine horizontale Tangente. Also
bestimmen wir die erste Ableitung1 der Funktion f und setzen diese gleich null. Es gilt
bekanntlich (|x|)′ = sgn(x), wobei sgn die Vorzeichenfunktion bezeichnet. Also folgt
′
f (x) = −
n
X
i=1
sgn(xi − x) = 0.
P
Ist xi > P
x, dann zählt die Summe ni=1 sgn(xi − x) eins dazu, sonst eins ab. Somit wird die
Summe ni=1 sgn(xi − x) genau dann null, wenn oberhalb x genau gleich viele xi liegen wie
unterhalb.
Für ungerade n hat f eine eindeutige horizontale Tangente beim Median x = x
e. Es sei
x(1) ≤ · · · ≤ x(i) ≤ · · · ≤ x(n) der der Grösse nach geordnete Datensatz. Für gerade n hat f
h
i
für alle x ∈ x( n ) , x( n +1) eine horizontale Tangente. Der Median x
e = 12 x( n ) + x( n +1)
2
2
2
2
ist das arithmetische Mittel der beiden Intervallgrenzen.
Aus geometrischen Gründen ist ersichtlich, dass Sattelpunkt oder Maximum ausgeschlossen
sind.
1
Achtung: Die Funktion f ist an den Stellen x ∈ {x1 , . . . , xn } nicht differenzierbar. Wieso?
2.5. Formparameter
2.5
13
Formparameter
Ausser dem optimalen Repräsentanten für den Datensatz {x1 , . . . , xn } sollten wir auch eine Grösse angeben, die in summarischer Form die Schwankungen der Daten, ihre Streuung
um den Mittelwert oder Median, charakterisieren. Die einfachste Grösse dieser Art ist die
Spannweite
∆ = xmax − xmin
2.5.1
Standardabweichung
Meistens benutzen wir die empirische Varianz2
n
1 X
s =
(xi − x̄)2
n−1
2
i=1
Sie heisst auch mittlere quadratische Abweichung, denn es wird eine Art Mittelwert der
quadrierten Abweichungen gebildet. Die Grösse s2 charakterisiert die Abweichung der Daten
von ihrem Mittelwert. Grosses s2 bedeutet, dass die Einzeldaten stark vom Mittelwert abweichen (um den Mittelwert streuen). Da die Varianz die quadrierte Masseinheit der Datenwerte
hat, benutzen wir als Variabilitätskenngrösse oft s, die Wurzel aus der Varianz. Wir nennen
s die Standardabweichung.
Zur Berechnung der Stichprobenstreuung brauchen wir den Mittelwert nicht im Voraus zu
kennen. Ausquadrieren der einzelnen Summanden zeigt, dass gilt
n
1 X
s =
(xi − x̄)2
n−1
2
i=1
=
1
n−1
1
=
n−1
1
=
n−1
1
=
n−1
1
=
n−1
n
X
(x2i − 2xi x̄ + x̄2 )
i=1
n
X
i=1
n
X
x2i − 2x̄
x2i
i=1
n
X
i=1
n
X
xi + nx̄2
i=1
− 2x̄ · nx̄ + nx̄
x2i − nx̄2
x2i
i=1
n
X
2
!
1
−
n(n − 1)
n
X
i=1
!
!
xi
!2
.
Wir müssen also nur die Summe der Datenwerte, die Summe ihrer Quadrate und die Anzahl
der Datenwerte zurückbehalten. Wird ein weiterer Datenwert hinzugefügt, so erhöhen wir die
2
In der Literatur findet sich auch die Formel
s2 =
n
1X
(xi − x̄)2 .
n i=1
Für die Anwendung ist diese Unterscheidung zwecklos, denn als Faustregel muss gelten: Falls es darauf ankommt, ob durch n − 1 oder n geteilt werden muss, dann ist die Stichprobe sowieso zu klein. . .
14
Kapitel 2. Beschreibende Statistik
Anzahl n um 1, addieren den Datenwert und sein Quadrat zu den entsprechenden Summen,
und erhalten den neuen Mittelwert und die neue Varianz.
Aufgaben
Aufgabe 2.5.1. Mittelwert und Standardabweichung einer Stichprobe von 45 Längenmessungen ergaben sich zu x̄ ± s = (12.3 ± 1.8) mm.
a. Wie gross ist die Summe der Datenwerte?
b. Wie gross ist die Summe der Quadrate der Datenwerte?
Aufgabe 2.5.2. Ein Datensatz vom Umfang n habe den Mittelwert x̄ = 3.84 und die Standardabweichung s = 0.960. Wird der Datenwert xn+1 = 2.50 zum Datensatz hinzugefügt, so
ändert sich der Mittelwert zu x̄′ = 3.82.
a. Wie gross ist n?
b. Wie viel beträgt die Standardabweichung s′ für den erweiterten Datensatz?
Lösungen
Lösung 2.5.1.
a. 553.5 mm
b. 6950.61 mm 2
Lösung 2.5.2.
a. n = 66
b. Es sei n′ = n + 1. Entwickeln Sie die Formel
n′
1 X
s = ′
(xi − x̄′ )2
n −1
′2
i=1
n
2 1
1X
=
(xi − x̄) + (x̄ − x̄′ ) + (xn+1 − x̄′ )2
n
n
i=1
n
n
n
X
1X
1X
1
2
′ 1
=
(xi − x̄) + 2(x̄ − x̄ )
(xi − x̄) +
(x̄ − x̄′ )2 + (xn+1 − x̄′ )2
n
n
n
n
i=1
i=1
i=1
n−1 2
1
=
s + 0 + (x̄ − x̄′ )2 + (xn+1 − x̄′ )2 .
n
n
Damit ergibt sich die neue Standardabweichung s′ = 0.967.
2.6. Summarische Datendarstellung
2.5.2
15
Quartile und Ausreissergrenzen
Zusammen mit dem Median haben wir die Quartile eingeführt, die mit der Verteilung der
Daten verknüpft sind. Aus ihnen ergibt sich die Quartilsweite
dQ = Q0.75 − Q0.25 .
Aus den Quartilen und der Quartilsweite können wir auch sinnvolle Ausreissergrenzen definieren
Aunten = Q0.25 − 1.5 dQ und Aoben = Q0.75 + 1.5 dQ .
Datenwerte, die ausserhalb des Intervalls ]Aunten , Aoben [ liegen, können mit einer gewissen
Berechtigung als extreme Werte angesehen werden und somit als Ausreisser identifiziert
werden.
2.6
Summarische Datendarstellung
Eine (eher minimale) summarische Darstellung eines Datensatzes gibt nur den Mittelwert x̄
und die Standardabweichung s mit der korrekten Masseinheit der Daten an
x̄ ± s
[Masseinheit].
Meistens ist es auch angezeigt, zusätzlich mindestens den Stichprobenumfang n anzugeben.
2.6.1
Box- und Whiskersplot
Eine ausführlichere Darstellung der Variabilität von Daten erhalten wir mit dem so genannten
Box- und Whiskersplot3 , siehe Abbildung 2.6.i.
Haben wir einen Datensatz mit mindestens zehn Beobachtungen (Faustregel), dann können
wir einen solchen Plot erstellen. Dabei wird über einer Achse, die die Werte des Datensatzes
abdeckt, ein Kasten vom unteren Quartil Q0.25 bis zum oberen Q0.75 gezeichnet. In diesem
Kasten zeigt eine weitere Linie den Median x
e an, und T-Balken4 (so genannte Whiskers)
bezeichnen die Ausreissergrenzen Aunten und Aoben . Eventuell auftretende Ausreisser werden
dann individuell mit • eingetragen.
b
|
Aunten
|
|
Q0.25 x
e
|
Q0.75
|
|
Aoben Ausreisser
Abbildung 2.6.i: Box- und Whiskersplot
Der eigentliche Zweck eines solchen Box- und Whiskersplots besteht darin, dass damit sehr
schnell verschiedene Datensätze verglichen werden können, etwa die Resultate verschiedener
Stichproben oder verschiedener Gruppen von Probanden.
3
whiskers engl. das Schnurrhaar einer Katze (vgl. Katzen würden Whiskas kaufen!“)
”
Die Regel für die Längen der T-Balken ist ist je nach Literatur verschieden. Auch üblich ist es, die grösste
Beobachtung, die kleiner ist als Aoben (resp. die kleinste Beobachtung, die grösser ist als Aunten ) als Ende des
T-Balkens zu definieren (vgl. [13]).
4
16
Kapitel 2. Beschreibende Statistik
Aufgabe
Aufgabe 2.6.1. Erstellen Sie einen Box- und Whiskersplot für die 50 Zugfestigkeitswerte
aus Beispiel 2.2.1. Entscheiden Sie weiter, ob der Datensatz Ausreisser hat.
Kapitel 3
Zufall und Ereignis
3.1
Zufall
Wir sprechen von Zufall, wenn ein Ereignis nicht notwendig oder nicht beabsichtigt auftritt.
Umgangssprachlich wird ein Ereignis auch als zufällig bezeichnet, wenn es nicht absehbar, vorhersagbar oder berechenbar ist. Zufälligkeit und Unberechenbarkeit oder Unvorhersagbarkeit
sind jedoch nicht dasselbe.
3.2
Zufallsexperimente und Ereignisse
Unter einem Zufallsexperiment verstehen wir einen Vorgang,
(a) der gedanklich beliebig oft wiederholbar und
(b) dessen Ausgang innerhalb einer Menge möglicher Ergebnisse ungewiss (zufällig)
ist.
Der Begriff Zufallsexperiment ist offensichtlich eine mathematische Idealisierung. Häufig wird
es nicht möglich sein, den gleichen Versuch im wörtlichen Sinn beliebig oft zu wiederholen,
sondern nur ähnliche Versuche sehr viele Male.
Zu jedem Zufallsexperiment gehört eine Menge S der sämtlichen Ausfallsmöglichkeiten (diese
werden auch Stichprobenwerte genannt), die auftreten können. Die Menge S heisst Stichprobenraum. Sie kann endlich oder unendlich viele Elemente haben.
Beispiel 3.2.1. Einige Zufallsexperimente und deren Stichprobenräume S.
(a) Beim Werfen einer Münze ist S = {Kopf, Zahl}, und beim Würfel ist S = {1, 2, 3, 4, 5, 6}.
(b) Bei der Ziehung der Lottozahlen ist S = {1, 2, 3, . . . , 45}. Beim Ziehen einer Kugel aus einer Urne mit r roten und s schwarzen Kugeln ist S = {Kugel ist rot, Kugel ist schwarz}.
(c) Messung biologischer Masszahlen, z.B. beim Bestimmen des Alters in einer Population
von Lebewesen besteht S aus allen Alter der Population.
(d) Bei der Messung einer physikalischen Grösse wie Temperatur oder Masse besteht S aus
allen möglichen Messwerten.
17
18
Kapitel 3. Zufall und Ereignis
Betrachten wir nun einen beliebigen Versuch, so verstehen wir unter dem Begriff Ereignis
eine Teilmenge des Stichprobenraums S.
Beispiel 3.2.2. Einige Beispiele von Ereignissen.
(a) Beim Werfen einer Münze interessieren wir uns für das Ereignis, dass die Münze “Kopf”
anzeigt, also A = {Kopf} ⊂ S = {Kopf, Zahl}.
(b) Beim Werfen eines Würfels interessieren wir uns für die Ereignisse B = {1, 3, 5}, die
Augenzahl ist ungerade; oder C = {5, 6}, die Augenzahl ist grösser als vier.
(c) Beim Ziehen einer Kugel aus einer Urne mit r roten und s schwarzen Kugeln interessieren
wir uns für das Ereignis: die Kugel ist rot.
Ein Ereignis ist ein möglicher Ausfall eines Versuchs. Er kann eintreten oder nicht.
Der Stichprobenraum S kann als spezielles Ereignis aufgefasst werden: das so genannt sichere
Ereignis. Beim Werfen eines Würfels ist das sichere Ereignis die Menge aller Augenzahlen
S = {1, 2, 3, 4, 5, 6}.
Andererseits wird ein Ereignis, das überhaupt nicht eintreten kann, unmögliches Ereignis
genannt und mit ∅ bezeichnet. Beispielsweise ist es unmöglich mit einem herkömmlichen
Würfel eine gerade und eine ungerade Augenzahl zu würfeln.
3.3
Verknüpfung von Ereignissen
Aus gegebenen Ereignissen können durch Verknüpfung kompliziertere zusätzliche Ereignisse
gebildet werden.
(a) Die und-Verknüpfung A ∩ B ist die Menge der Ereignisse, die sowohl in A als auch in
B sind (vgl. Abbildung 3.3.i), vgl. Durchschnittsmenge.
S
A
A∩B
B
Abbildung 3.3.i: Die und-Verknüpfung A ∩ B
Beispiel 3.3.1. Eine Zahl kleiner als 4 zu würfeln, wird mit dem Ereignis A = {1, 2, 3}
und eine Zahl grösser als 2 zu würfeln mit dem Ereignis B = {3, 4, 5, 6} gekennzeichnet.
Das Ereignis eine Zahl kleiner als 4 und grösser als 2 zu würfeln, ist demzufolge
A ∩ B = {3}.
(b) Die oder-Verknüpfung A ∪ B ist die Menge der Ereignisse, die entweder in A, in B oder
in A und B sind (vgl. Abbildung 3.3.ii), vgl. Vereinigungsmenge.
Beispiel 3.3.2. Eine Zahl grösser als 3 zu würfeln, wird mit dem Ereignis A = {4, 5, 6}
und eine ungerade Zahl zu würfeln mit dem Ereignis B = {1, 3, 5} gekennzeichnet. Das
Ereignis eine Zahl grösser als 3 oder eine ungerade Zahl zu würfeln, ist demzufolge
A ∪ B = {1, 3, 4, 5, 6}.
3.3. Verknüpfung von Ereignissen
S
A
19
A∪B
B
Abbildung 3.3.ii: Die oder-Verknüpfung A ∪ B
(c) Das Gegenereignis Ā zu einem Ereignis A tritt genau dann ein, wenn A nicht eintritt
und ist die Menge aller Ereignisse, die nicht zu A gehören (vgl. Abbildung 3.3.iii).
Ā
S
A
Abbildung 3.3.iii: Das Gegenereignis Ā
Wie wir sofort sehen, gilt Ā = S − A.
Beispiel 3.3.3. Eine Zahl kleiner oder gleich 2 zu würfeln, wird mit dem Ereignis
A = {1, 2} gekennzeichnet. Das Ereignis nicht eine Zahl kleiner oder gleich 2 zu würfeln,
ist demzufolge
Ā = {3, 4, 5, 6}.
Aufgaben
Aufgabe 3.3.1. Eine elektrische Schaltung habe folgende Gestalt: Ist der Schalter a auf
cba
cbb1
bcb2
bcb3
Abbildung 3.3.iv: Elektrische Schaltung
Unterbruch, dann liegt das Ereignis A vor. Sind die Schalter b1 resp. b2 resp. b3 auf Unterbruch,
dann liegen die Ereignisse B1 resp. B2 resp. B3 vor. Es sind die Ausdrücke für die Ereignisse
C und C̄ anzugeben, wobei C die Unterbrechung des Stromkreises bedeute.
Aufgabe 3.3.2. Drei Bits werden über einen digitalen Nachrichtenwesen übertragen. Jedes
Bit kann verfälscht oder richtig empfangen werden.
a. Geben Sie die Menge aller möglichen Ereignisse an. Wie viele Elemente enthält sie?
b. Es sei Ai = {i-tes Bit ist verfälscht}, wobei i ∈ {1, 2, 3}. Geben Sie A1 an.
20
Kapitel 3. Zufall und Ereignis
c. Stellen Sie die folgenden Ereignisse mit Hilfe von Mengenoperationen mit den Ai dar:
B1 = {alle Bits sind verfälscht},
B2 = {mindestens ein Bit ist verfälscht},
B3 = {genau ein Bit ist verfälscht}.
d. Beschreiben Sie verbal folgende Ereignisse:
C1 = A1 ∩ (A2 ∩ A3 ),
C2 = (Ā1 ∩ A2 ∩ A3 ) ∪ (A1 ∩ Ā2 ∩ A3 ) ∪ (A1 ∩ A2 ∩ Ā3 ).
Aufgabe 3.3.3. Was bedeuten A ∪ A und A ∩ Ā?
Aufgabe 3.3.4. Wann gilt die Gleichung A ∩ B = A?
Aufgabe 3.3.5. Das Ereignis A liege vor, wenn von vier Werkstücken mindestens eines
Ausschuss ist, B trifft ein, sobald mindestens zwei der vier Werkstücke Ausschuss sind. Was
bedeuten die Ereignisse Ā und B̄?
Aufgabe 3.3.6. Das Ereignis A liege vor, wenn von drei geprüften Geräten mindestens eines
Ausschuss ist. Das Ereignis B trifft ein, wenn alle drei Geräte einwandfrei sind. Was bedeuten
die Ereignisse A ∪ B und A ∩ B?
Aufgabe 3.3.7. Zwei Schachspieler spielen eine Partie. A bedeute: es siegt der erste Spieler.
B bedeute: es siegt der zweite Spieler. Welches Ereignis müssen wir noch zu den beiden
hinzufügen, um das sichere Ereignis zu erhalten?
Aufgabe 3.3.8. Eine Anlage besteht aus zwei Kesseln und einer Maschine. Ist die Maschine
intakt, dann liege das Ereignis A vor. Ist der erste (resp. zweite) Kessel arbeitsfähig, so liege
das Ereignis B1 (resp. B2 ) vor. Es bezeichne C das Ereignis: die Anlage ist arbeitsfähig, die
gewährleistet ist, wenn die Maschine und mindestens ein Kessel intakt sind. Drücken Sie die
Ereignisse C und C̄ durch die Ereignisse A, B1 und B2 aus.
Aufgabe 3.3.9. Ein Gerät besteht aus zwei Blöcken vom Typ A und drei Blöcken vom Typ
B. Es bezeichne A1 (resp. A2 ) das Ereignis: der erste (resp. zweite) Block vom Typ A ist
intakt. Es bezeichne B1 (resp. B2 , B3 ) das Ereignis: der erste (resp. zweite, dritte) Block
vom Typ B ist intakt. Das Gerät arbeitet, bezeichnet mit Ereignis C, wenn mindestens ein
Block vom Typ A und nicht weniger als zwei Blöcke vom Typ B intakt sind. Drücken Sie die
Ereignisse C und C̄ durch die Ereignisse A1 , A2 und B1 , B2 , B3 aus.
Lösungen
Lösung 3.3.1. Es bedeutet zum Beispiel {(0, 1, 0, 1)}, dass die Schalter a unterbrochen, b1 , b3
geschlossen und b2 unterbrochen sind. Dann gilt
C = A ∪ (B1 ∩ B2 ∩ B3 ) = {(0, ∗, ∗, ∗), (1, 0, 0, 0) : wobei ∗ ∈ {0, 1}}
C̄ = Ā ∩ (B̄1 ∪ B̄2 ∪ B̄3 )
= {(1, 1, 1, 1), (1, 1, 1, 0), (1, 1, 0, 1), (1, 0, 1, 1), (1, 1, 0, 0), (1, 0, 1, 0), (1, 0, 0, 1)}
unter Ausnutzung der Regeln von de Morgan (siehe Kapitel A.2).
3.4. Zusammengesetzte Versuche, Produktregel
21
Lösung 3.3.2.
a. {(V, V, V ), (V, V, R), (V, R, V ), (R, V, V ), (V, R, R), (R, V, R), (R, R, V ), (R, R, R)}
Die Menge besteht aus 23 = 8 Elemente
b. A1 = {(V, V, V ), (V, V, R), (V, R, V ), (V, R, R)}
c. B1 = A1 ∩ A2 ∩ A3 ,
B2 = A1 ∪ A2 ∪ A3 und
B3 = (A1 ∩ Ā2 ∩ Ā3 ) ∪ (Ā1 ∩ A2 ∩ Ā3 ) ∪ (Ā1 ∩ Ā2 ∩ A3 ).
d. Das Ereignis C1 bedeutet: Erstes Bit verfälscht und von den anderen höchstens eines
verfälscht.
Das Ereignis C2 bedeutet: Genau ein Bit richtig.
Lösung 3.3.3. A ∪ A = A und A ∩ Ā = ∅
Lösung 3.3.4. A ∩ B = A impliziert A ⊆ B.
Lösung 3.3.5. Das Ereignis Ā bedeutet, dass keine Werkstück Ausschuss ist. Das Ereignis
B̄ bedeutet, dass höchstens ein Werkstück Ausschuss ist.
Lösung 3.3.6. Das Ereignis A∪B = S bedeutet, dass alles möglich ist. Das Ereignis A∩B = ∅
bedeutet, dass nichts möglich ist.
Lösung 3.3.7. Remis1
Lösung 3.3.8. C = A ∩ (B1 ∪ B2 ) und C̄ = Ā ∪ (B̄1 ∩ B̄2 )
Lösung 3.3.9.
C = (A1 ∪ A2 ) ∩ ((B1 ∩ B2 ) ∪ (B2 ∩ B3 ) ∪ (B3 ∩ B1 ))
C̄ = (Ā1 ∩ Ā2 ) ∪ ((B̄1 ∪ B̄2 ) ∩ (B̄2 ∪ B̄3 ) ∩ (B̄3 ∪ B̄1 ))
3.4
Zusammengesetzte Versuche, Produktregel
Im Folgenden betrachten wir Versuche, die aus Teilversuchen zusammengesetzt sind. Für das
Weitere ist es wichtig, eine vollständige Übersicht über die Anzahl der möglichen Ausfälle bei
solchen zusammengesetzten Versuchen zu erhalten.
Beispiel 3.4.1. Wenn wir zwei Mal hintereinander einen Würfel werfen, handelt es sich dabei
um einen zusammengesetzten Versuch. Es treten folgende Möglichkeiten auf:
1. Wurf hat 6 Möglichkeiten mit Stichprobenraum S1 = {1, 2, 3, 4, 5, 6}
2. Wurf hat 6 Möglichkeiten mit Stichprobenraum S2 = {1, 2, 3, 4, 5, 6}
1
Kann ein Spieler keinen regelgemässen Zug mehr ausführen und steht sein König nicht im Schach, so
spricht man von einem Patt, die Partie endet in diesem Fall remis (unentschieden). Ein Spiel endet auch
dann remis, wenn es durch keine Zugkombination und ungeschicktestem Spiel des Gegners mehr möglich ist,
Matt zu setzen, wenn sich die beiden Spieler darauf einigen, wenn 50 Züge lang keine Figur geschlagen und
kein Bauer bewegt wurde und ein Spieler dies reklamiert, bei dreimaliger Wiederholung derselben Stellung
mit demselben Spieler am Zug und den gleichen Zugmöglichkeiten, wenn ein Spieler dies reklamiert, wenn die
Zeit beider Spieler abgelaufen ist und es nicht nachweisbar ist, wer die Zeit zuerst überschritten hat. Quelle:
http://de.wikipedia.org
22
Kapitel 3. Zufall und Ereignis
Eine vollständige Übersicht erhalten wir mit einem Ereignisbaum.
1. Teilversuch
2. Teilversuch
1
2
3
123456 123456
4
123456
5
6
123456 123456 123456
Dieser Ereignisbaum stellt dar, dass zu jeder Zahl im ersten Teilversuch jede Zahl im zweiten Teilversuch kombiniert werden kann. Daraus ergeben sich 6 · 6 = 36 Möglichkeiten von
verschiedenen Ausfällen beim zusammengesetzten Versuch. Der Stichprobenraum beim zweimaligen Würfeln ist demzufolge
S = {(1, 1), (1, 2), (1, 3), . . . , (1, 6), (2, 1), (2, 2), (2, 3), . . . , (6, 6)}.
Beispiel 3.4.2. Wenn wir vier Mal hintereinander eine Münze werfen, haben wir bei jedem
Wurf die Möglichkeit Kopf K oder Zahl Z zu erhalten.
Eine vollständige Übersicht erhalten wir wiederum mit dem Ereignisbaum.
1. Teilversuch
K
2. Teilversuch
K
3. Teilversuch
4. Teilversuch
Z
Z
K
K
Z
Z
K
K
K
Z
K
Z
Z
K
Z
K
Z
K
Z
Z
K
K
Z
K
Z
Z
K
Z
Aus diesem Ereignisbaum ergeben sich 2 · 2 · 2 · 2 = 24 = 16 Ausfallsmöglichkeiten beim
zusammengesetzten Versuch. Der Stichprobenraum ist demzufolge
S = {(K, K, K, K), (K, K, K, Z), (K, K, Z, K), . . . , (Z, Z, Z, Z)}.
Dieses Prinzip lässt sich verallgemeineren.
Produktregel
Besteht ein zusammengesetzter Versuch aus m unabhängigen Teilversuchen mit jeweils
n1 , n2 , n3 , . . . , nm
Ausfallsmöglichkeiten, so besitzt der zusammengesetzte Versuch
n1 · n2 · n3 · · · nm
mögliche Ausfälle.
3.5. Permutationen, Variationen, Kombinationen
3.5
3.5.1
23
Permutationen, Variationen, Kombinationen
Permutationen
Haben wir eine Anzahl verschiedener Ziffern oder Buchstaben oder allgemeiner Zeichen, so
können wir uns fragen, auf wie viele Arten wir diese zu einem Wort anordnen können.
Beispiel 3.5.1. Gegeben seien die Ziffern 1, 2, 3, 4 und 5. Nun haben wir fünf Plätze mit fünf
Zeichen auszufüllen. Die Aufgabe wird auf die Produktregel zurückgeführt. Das Setzen eines
Zeichens auf einen Platz stellt einen Teilversuch dar.
1. Teilversuch 1 5 Möglichkeiten
2. Teilversuch 1 2 4 Möglichkeiten
3. Teilversuch 1 3 2 3 Möglichkeiten
4. Teilversuch 4 1 3 2 2 Möglichkeiten
5. Teilversuch 4 1 3
5
2 1 Möglichkeit
Beim 1. Teilversuch sind noch alle Plätze frei, und wir haben genau fünf Möglichkeiten die
erste Ziffer 1 zu setzen; beim 2. Teilversuch bleiben noch vier Möglichkeiten offen, die zweite
Ziffer 2 zu setzen; etc. Beim letzten 5. Teilversuch haben wir keine Wahlmöglichkeit mehr
offen und sind gezwungen die Ziffer 5 auf den freien Platz zu setzen.
Die Produktregel ergibt nun
P (5) = 1 · 2 · 3 · 4 · 5 = 5! = 120
Ausfallsmöglichkeiten. Wir können somit 5 verschiedene Zahlen auf 5! Arten anordnen oder,
wie wir auch sagen, permutieren (vertauschen), so dass jeweils verschiedene 5-stellige Zahlen
entstehen.
Allgemein ergibt sich in völlig analoger Art die Permutation von n Elementen. Es ist möglich
n Elemente auf
P (n) = n!
verschiedene Möglichkeiten anzuordnen.
3.5.2
Geordnete Stichprobe mit Zurücklegen
Wir betrachten ein typisches Beispiel.
Beispiel 3.5.2. Es seien n nummerierte Lose in einer Urne. Es werde k mal ein Los gezogen
und dessen Nummer notiert. Dann wird das Los wieder in die Urne gelegt. Wir erhalten somit
als Ereignis eine Anzahl von k Nummern in einer bestimmten Reihenfolge. Wie viele Ausfälle
verschiedener Art sind möglich?
1. Teilversuch
2. Teilversuch
3. Teilversuch
..
.
..
.
..
.
...
...
...
..
.
..
.
..
.
n Möglichkeiten
n Möglichkeiten
n Möglichkeiten
..
.
k. Teilversuch
...
n Möglichkeiten
Bei allen k Teilversuchen haben wir n Wahlmöglichkeiten. Die Produktregel ergibt nun
V (k, n) = nk
Ausfallsmöglichkeiten.
24
Kapitel 3. Zufall und Ereignis
3.5.3
Geordnete Stichprobe ohne Zurücklegen - Variation
In dieser Situation sprechen wir auch von Variation von n Elementen zur k-ten Klasse.
Der Versuch läuft analog wie in Kapitel 3.5.2, mit der Ausnahme, dass die Lose nicht zurückgelegt werden. Wir haben also k Teilversuche mit n, dann mit n − 1, n − 2, . . . , n − k + 1
Ausfallsmöglichkeiten. Die Produktregel ergibt in diesem Fall
V (k, n) = n(n − 1)(n − 2) · · · (n − k + 1) =
n!
(n − k)!
Ausfallsmöglichkeiten.
3.5.4
Ungeordnete Stichprobe ohne Zurücklegen - Kombinationen
In dieser Situation sprechen wir auch von Kombinationen von n Elementen zur k-ten Klasse.
Ein typisches Beispiel zu dieser Art Stichprobe ist folgendes: Es seien n Kugeln gleicher
Farbe in einer Urne, und es werden k Kugeln ohne Zurücklegen gezogen. Da die Kugeln nicht
unterscheidbar sind, kann keine Reihenfolge berücksichtigt werden.
Dieser Fall ergibt sich aus dem Fall in Kapitel 3.5.3, wenn wir die Reihenfolge nicht berücksichtigen. Das bedeutet, dass wir die Anzahl der möglichen Anordnungen von k Elementen,
d.h. k! Möglichkeiten, unberücksichtigt lassen müssen. Die Anzahl der möglichen Ausfälle
reduziert sich also um diesen Faktor. Wir erhalten in diesem Fall
n!
n
=
C(k, n) =
k!(n − k)!
k
Ausfallsmöglichkeiten.
Aufgaben
Aufgabe 3.5.1. Eine Autonummer bestehe in der folgenden Reihenfolge aus
a. einem Buchstaben und zwei Ziffern,
b. zwei Buchstaben und zwei Ziffern,
c. zwei Buchstaben und drei Ziffern.
Wie viele Autonummern sind jeweils möglich? (Das Alphabet hat 26 Buchstaben und Autonummern mit den Zeichenfolgen 00 (resp. 000 in Aufgabe (c)) sind auszuschliessen.)
Aufgabe 3.5.2. Auf wie viele Arten kann ein Totozettel bei 13 Partien ausgefüllt werden?
Aufgabe 3.5.3. Frau Meier hat 4 Kleider, 3 Hüte und 5 Paar Schuhe. Auf wie viele Arten
kann sie sich zum Ausgehen anziehen, wenn alles zueinander passt und das Tragen eines Hutes
a. Pflicht,
b. freiwillig
ist?
3.5. Permutationen, Variationen, Kombinationen
25
Aufgabe 3.5.4. Ein Würfel wird 3 mal geworfen. Wie viele mögliche Ausfälle hat der Versuch?
Aufgabe 3.5.5. Ein Münze wird 8 mal geworfen. Welcher Bruchteil der möglichen Ausfälle
enthält Kopf und Zahl gleich oft?
Aufgabe 3.5.6. Gegeben seien die folgenden 15 Zeichen.
a. a1 , a2 , a3 , a4 , b1 , b2 , b3 , b4 , b5 , c1 , c2 , c3 , c4 , c5 , c6
b. a, a, a, a, b1 , b2 , b3 , b4 , b5 , c1 , c2 , c3 , c4 , c5 , c6
c. a, a, a, a, b, b, b, b, b, c1 , c2 , c3 , c4 , c5 , c6
d. a, a, a, a, b, b, b, b, b, c, c, c, c, c, c
Wie viele Anordnungen gibt es jeweils?
Aufgabe 3.5.7. Mit den Ziffern 1 bis 9 soll eine 4-stellige Zahl gebildet werden. Auf wie
viele Arten geht dies, wenn Ziffernwiederholungen
a. erlaubt,
b. verboten
sind?
Aufgabe 3.5.8. Auf wie viele Arten können die Buchstaben der Wörter
a. BERLIN
b. PFEFFER
c. MISSISSIPPI
d. OBERRHEINDAMPFSCHIFFFAHRTSKAPITÄNSMÜTZE
permutiert werden?
Aufgabe 3.5.9. Auf wie viele unterscheidbare Arten können 16 Felder eingefärbt werden?
a. Wenn jedes Feld nach freier Wahl schwarz oder weiss gefärbt wird?
b. Wenn 8 Felder weiss und 8 Felder schwarz gefärbt werden?
c. Wenn 2 Felder weiss, 4 schwarz und 10 rot gefärbt werden?
d. Wenn jedes Feld mit einer anderen von 16 Farben gefärbt wird?
Aufgabe 3.5.10. Eine Klasse hat 15 Fussballspieler, einer davon heisst Klaus. Auf wie viele
Arten kann eine Mannschaft von 11 Spielern
a. mit Klaus,
b. ohne Klaus
zusammengestellt werden.
26
Kapitel 3. Zufall und Ereignis
Aufgabe 3.5.11. Aus n Personen ist ein Ausschuss von r, wobei 0 < r < n, Personen und
im Ausschuss ein Vorsitzender zu wählen. Auf wie viele Arten geht dies?
Aufgabe 3.5.12. Wie viele Personen befinden sich in einer Gesellschaft, wenn beim Anstossen 253 mal die Gläser klirren?
Aufgabe 3.5.13. Wie viele Wurfbilder gibt es beim Kegeln prinzipiell?
Aufgabe 3.5.14. Wie viele Möglichkeiten gibt es, die 36 Jasskarten auf vier Spieler A, B,
C und D zu verteilen?
Aufgabe 3.5.15. Wie viele Spielverteilungen gibt es beim Schieber, bei denen ein Spieler
alle vier Bauern erhält?
Aufgabe 3.5.16. Herr Meier hat 7 Sorten Wein im Keller. Für eine Party benötigt er 3
Flaschen Wein von derselben Sorte. Die Sorte selbst ist ihm gleichgültig. Wegen eines Defektes
an der Kellerbeleuchtung muss er die Flaschen im Dunkeln heraus greifen. Wie viele Flaschen
muss er mindestens aus dem Keller mitnehmen, damit sicher drei Flaschen von der gleichen
Sorte darunter sind?
Aufgabe 3.5.17. In einem Parlament sind 3 Parteien vertreten: 60 Liberale, 40 Konservative
und 30 Sozialisten.
a. Wie viele zehner-Kommissionen lassen sich mit dem Verteilschlüssel fünf-drei-zwei bilden?
b. Wie viele siebner-Kommissionen lassen sich mit dem Verteilschlüssel drei-zwei-zwei bilden?
Aufgabe 3.5.18. Wie viele dreistellige Zahlen aus lauter verschiedenen Ziffern gibt es im
Dezimalsystem?
Aufgabe 3.5.19. Wie viele echte (ohne führende Nullen) siebenstellige Zahlen können aus
den Ziffern 1, 2, 3, 3, 0, 0, 0 gebildet werden?
Aufgabe 3.5.20. Wie viele Möglichkeiten gibt es, mindestens eine Sechs zu erhalten, wenn
gleichzeitig fünf Würfel geworfen werden?
Aufgabe 3.5.21. Wie viele aller möglichen Tippreihen beim Toto mit 13 Partien enthalten
k richtige?
Lösungen
Lösung 3.5.1.
a. 2 574
b. 66 924
c. 675 324
Lösung 3.5.2. 1 594 323
3.5. Permutationen, Variationen, Kombinationen
Lösung 3.5.3.
a. 60
b. 80
Lösung 3.5.4. 216
Lösung 3.5.5. 70 : 256
Lösung 3.5.6.
a. 1 307 674 368 000
b. 54 486 432 000
c. 454 053 600
d. 630 630
Lösung 3.5.7.
a. 6 561
b. 3 024
Lösung 3.5.8.
a. 720
b. 420
c. 34 650
d. 379 511 635 419 893 750 000 000 000 000 000 000 000 ≈ 3.795 · 1038
Lösung 3.5.9.
a. 65 536
b. 12 870
c. 120 120
d. 20 922 789 888 000
Lösung 3.5.10.
a. 1 001
b. 364
Lösung 3.5.11. N = r
Lösung 3.5.12. 23
n
r
Möglichkeiten
27
28
Kapitel 3. Zufall und Ereignis
Lösung 3.5.13. Ein Kegelspiel hat in der Regel 9 Kegel, also gibt es 512 verschiedene Wurfbilder.
Lösung 3.5.14. 21 452 752 266 265 320 000 ≈ 21 · 1018
Lösung 3.5.15. 45 888 240 141 744 000 ≈ 46 · 1015
Lösung 3.5.16. Er wählt 15 Flaschen.
Lösung 3.5.17.
a. 23 472 486 273 600 ≈ 23 · 1012
b. 11 610 846 000 ≈ 12 · 109
Lösung 3.5.18. 648
Lösung 3.5.19. 240
Lösung 3.5.20. 4 651
Lösung 3.5.21. Die Anzahl Gewinnmöglichkeiten bei k richtigen beträgt
13 k 13−k
G(k) =
1 2
.
k
P
13 k 13−k
Zur Kontrolle gilt 13
= (1 + 2)13 = 313 , vgl. Lösung 3.5.2.
k=0 k 1 2
Kapitel 4
Wahrscheinlichkeit
4.1
Theoretische Wahrscheinlichkeit
Die theoretische Wahrscheinlichkeit ergibt sich aus der rein gedanklichen Analyse der
verschiedenen Ausfallsmöglichkeiten bei einem gegebenen Versuch. Ist von vornherein klar,
dass alle Möglichkeiten die gleiche Chance haben aufzutreten, so lässt sich sofort angeben,
wie gross das Verhältnis des betrachteten Ereignisses zu allen Ereignissen in bezug auf die
Möglichkeit des Auftretens ist. Dazu bilden wir den Quotienten der Anzahl der günstigen
Ausfälle zur Anzahl der möglichen Ausfälle. Wir erhalten damit eine Zahl, die in Bezug auf ein
bestimmtes Ereignis angibt, wie gross seine Chance, d.h. wie gross die Wahrscheinlichkeit
ist, dass das Ereignis eintrifft. Wir definieren deshalb die Wahrscheinlichkeit eines Ereignisses
durch
g
Anzahl der günstigen Fälle
= .
p=
Anzahl der möglichen Fälle
m
Beispiel 4.1.1. Wie gross ist die Wahrscheinlichkeit, beim Würfeln eine Sechs zu erhalten?
Es gibt m = 6 mögliche Fälle und g = 1 günstige Fälle. Damit ist die Wahrscheinlichkeit
1
p= .
6
Beispiel 4.1.2. Wie gross ist die Wahrscheinlichkeit, beim Werfen einer Münze Kopf zu
erhalten? Es gibt m = 2 mögliche Fälle und g = 1 günstige Fälle. Damit ist die Wahrscheinlichkeit
1
p= .
2
Beispiel 4.1.3. Gegeben seien 10 Nüsse, davon seien 3 verdorben. Wie gross ist die Wahr-
scheinlichkeit, dass zwei gute Nüsse mit einem Griff genommen werden? Es gibt m = 10
2
mögliche Fälle und g = 72 günstige Fälle. Damit ist die Wahrscheinlichkeit
7
7
2
= .
p = 10
15
2
Beispiel 4.1.4. Beim Schweizer Zahlenlotto 6 aus 45 gibt es für den Sechser einen einzigen
günstigen Fall, bei 45
6 = 8 145 060 möglichen Fällen. Die Gewinnchancen für einen Sechser
sind also
1
p=
= 0.000 000 123.
8 145 060
29
30
Kapitel 4. Wahrscheinlichkeit
Aufgaben
Aufgabe 4.1.1. Wie gross ist die Wahrscheinlichkeit
a. aus einer Urne mit 100 Gewinnlosen und 400 Nieten einen Gewinn zu ziehen?
b. aus 36 Jasskarten ein As zu ziehen?
c. mit einem idealen Würfel mehr als 2 zu würfeln?
Aufgabe 4.1.2. Wie gross ist die Wahrscheinlichkeit, bei sechsmaligem Würfeln mit einem
idealen Würfel
a. keine Sechs,
b. lauter verschiedene Augenzahlen
zu erhalten?
Aufgabe 4.1.3. Von 10 Nüssen seien 4 verdorben. Wie gross ist die Wahrscheinlichkeit, mit
einem Griff blindlings 3 gute heraus zu greifen?
Aufgabe 4.1.4. Wie gross ist die Wahrscheinlichkeit, dass 7 beliebige Schüler an 7 verschiedenen Wochentagen geboren sind, wenn angenommen wird, dass alle Wochentage gleichberechtigt sind?
Aufgabe 4.1.5. Wie gross ist die Wahrscheinlichkeit, dass bei 4 Würfen mit einem symmetrischen Würfel mindestens einmal eine Sechs auftritt?
Aufgabe 4.1.6. Unter 20 Glühbirnen sind 6 unbrauchbar. Es werden 6 geprüft. Wie gross
ist die Wahrscheinlichkeit, dabei 6 gute zu finden?
Aufgabe 4.1.7. Wie gross ist die Wahrscheinlichkeit, dass eine Familie mit n Kindern genau
k Mädchen hat, wenn Knaben und Mädchengeburten gleich wahrscheinlich sind?
Aufgabe 4.1.8. Ein Kartenspiel enthalte 36 Karten von vier verschiedenen Farben. Nach
Herausziehen und Zurücklegen einer Karte des Spiels wird das Spiel neu gemischt, und es
wird noch einmal eine Karte gezogen. Bestimmen Sie die Wahrscheinlichkeit dafür, dass beide
Karten von der gleichen Farbe sind.
Aufgabe 4.1.9. Ein Buchstabenschloss besitze fünf um eine Achse drehbare Ringscheiben, von denen jede in sechs Sektoren mit verschiedenen Buchstaben eingeteilt ist. Das
Schloss öffnet sich nur in dem Falle, wo jede Ringscheibe eine bestimmte Lage bezüglich des
Schlosskörpers einnimmt. Bestimmen Sie die Wahrscheinlichkeit für das Öffnen des Schlosses,
wenn eine beliebige Buchstabenkombination eingestellt wird.
Aufgabe 4.1.10. Zehn Bücher werden willkürlich in ein Regal gestellt. Bestimmen Sie die
Wahrscheinlichkeit dafür, dass dabei drei bestimmte Bücher nebeneinander gestellt werden?
Aufgabe 4.1.11. Fünf Strecken seien gegeben, deren Länge jeweils 1, 3, 5, 7, 9 Einheiten
betragen. Bestimmen Sie die Wahrscheinlichkeit dafür, dass mit drei aus den fünf willkürlich
ausgewählten Strecken ein Dreieck gebildet werden kann.
4.1. Theoretische Wahrscheinlichkeit
31
Aufgabe 4.1.12. Von zehn Losen gewinnen zwei. Bestimmen Sie die Wahrscheinlichkeit
dafür, dass sich unter fünf willkürlich ausgewählten Losen
a. genau ein Gewinnlos befindet.
b. beide Gewinnlose befinden.
c. mindestens ein Gewinnlos befindet.
Aufgabe 4.1.13. Es liegen m + n Lose vor, unter denen n Gewinnlose sind. Es werden k
Lose auf einmal gezogen. Bestimmen Sie die Wahrscheinlichkeit dafür, dass sich unter den k
Losen genau s Gewinnlose befinden.
Aufgabe 4.1.14. Zur Verringerung der Spielanzahl werden 2n Mannschaften in zwei gleich
grosse Gruppen eingeteilt. Bestimmen Sie die Wahrscheinlichkeit dafür, dass die beiden spielstärksten Mannschaften
a. in verschiedenen Gruppen
b. in der gleichen Gruppe
sind.
Aufgabe 4.1.15. In einer Sendung von Maschinenteilen seien n einwandfreie und m minderwertige. Wie gross ist die Wahrscheinlichkeit, dass wenn beim heraus greifen von einer Anzahl
Teile die ersten k Teile einwandfrei sind, dann auch das (k + 1)-te Teil einwandfrei ist?
Lösungen
Lösung 4.1.1.
a. p =
1
5
b. p =
1
9
c. p =
2
3
Lösung 4.1.2.
a. p = 0.335
b. p = 0.015
Lösung 4.1.3. p = 0.167
Lösung 4.1.4. p = 0.006
Lösung 4.1.5. p = 0.518
Lösung 4.1.6. p = 0.077
Lösung 4.1.7. p =
Lösung 4.1.8. p =
(nk)
2n
1
4
32
Kapitel 4. Wahrscheinlichkeit
Lösung 4.1.9. p = 0.00013
Lösung 4.1.10. p =
1
15
Lösung 4.1.11. p = 0.3
Lösung 4.1.12.
a. p =
5
9
b. p =
2
9
c. p =
7
9
n
m
Lösung 4.1.13. Es gibt m = m+n
mögliche Ausfälle und genau g = k−s
k
s Möglichkeiten
m
für s Gewinnlose. Dabei zählt der Faktor k−s
die Möglichkeiten, k − s Nieten zu haben; und
der Faktor ns zählt die Möglichkeiten, s Treffer zu haben. Damit folgt
n
m
p(s) =
Lösung 4.1.14.
a. p =
.
n
2n−1
b. q = 1 − p =
n−1
2n−1
Lösung 4.1.15. p =
4.2
k−s s
m+n
k
n−k
n+m−k
Experimentelle Wahrscheinlichkeit
Betrachten wir die relative Häufigkeit der Ausfälle Kopf beim Münzenwerfen bei steigender
Wurfzahl. So zeigt sich, dass bei einer fairen Münze etwa die Hälfte aller Ausfälle Kopf
zeigen. Wir erhalten somit einen Wert 12 als eine Art Grenzwert der empirischen relativen
Häufigkeit (siehe Abbildung 4.2.i). Dieser Wert kann als Eigenschaft der Münze aufgefasst
werden, wie Gewicht und Farbe. Das experimentelle Bestimmen der relativen Häufigkeiten
heisst Simulation.
Allgemeine Formulierung der experimentellen Wahrscheinlichkeit
Gegeben sei ein Stichprobenraum S = {s1 , s2 , . . . , sn } eines Versuchs. Zu jedem Ausfall si ∈ S
gehört eine relative Häufigkeit
h(si ) =
Anzahl des Auftretens von si
Anzahl Versuche N
seines Auftretens. Dabei gilt
0 ≤ h(si ) ≤ 1
und
h(s1 ) + · · · + h(sn ) = 1.
Betrachten wir nun ein spezielles Ereignis A = {si1 , si2 , . . . , sik } ⊆ S, so erhalten wir die
relative Häufigkeit des Eintretens von A mit
h(A) = h(si1 ) + h(si2 ) + · · · + h(sik ).
33
0.0
0.2
0.4
h(Kopf)
0.6
0.8
1.0
4.2. Experimentelle Wahrscheinlichkeit
0
20
40
60
80
100
Anzahl Würfe
Abbildung 4.2.i: Beim Werfen einer fairen Münze strebt die relative Häufigkeit h(Kopf) des
Auftretens von Kopf mit steigender Anzahl Würfe gegen 12 .
Ferner gilt allgemein
h(S) = 1
und
h(∅) = 0.
Nehmen wir nun grosse Werte für die Anzahl Versuche N , so weichen im Allgemeinen die h
nicht viel von den entsprechenden Wahrscheinlichkeiten ab. Es gilt
P
lim h(si ) = p(si ) = pi .
N →+∞
P
Dabei ist zu beachten, dass lim nicht einen gewöhnlichen Grenzwert darstellt, sondern einen
Grenzwert in Wahrscheinlichkeit, d.h. die Wahrscheinlichkeit, dass h(si ) gegen pi strebt, strebt
mit N → +∞ gegen 1.
Beispiel 4.2.1. Beim Würfelwerfen hätten wir zum Beispiel A = {1, 3, 5} und demzufolge
wäre
h(A) = h(1) + h(3) + h(5)
und damit im Grenzübergang
p(A) = p(1) + p(3) + p(5) =
1 1 1
1
+ + = .
6 6 6
2
Aus den Eigenschaften der relativen Häufigkeit erhalten wir die der Wahrscheinlichkeit. Für
einen Ausfall s ∈ S bezeichne p(s) die Wahrscheinlichkeit für dessen Auftreten. Die Zuordnung
s 7−→ p(s)
heisst Wahrscheinlichkeitsverteilung.
Beispiel 4.2.2. Der Versuch bestehe aus einmaligem Würfeln mit einem symmetrischen
Würfel. Die Wahrscheinlichkeit der einzelnen Ausfälle seien:
34
Kapitel 4. Wahrscheinlichkeit
Ausfälle
Wahrscheinlickeiten
1
2
3
4
5
6
1
6
1
6
1
6
1
6
1
6
1
6
Die Wahrscheinlichkeitsverteilung ist eine Funktion, die jedem Ereignis eine Wahrscheinlichkeit im Intervall [0, 1] zuordnet, so dass die Summe aller Wahrscheinlichkeiten eins ergibt.
Axiome der Wahrscheinlichkeit
Es sei S = {s1 , s2 , . . . , sn } der Stichprobenraum. Die folgenden Eigenschaften werden als
Axiome der Wahrscheinlichkeit genommen.
1. 0 ≤ p(si ) ≤ 1 für alle si ∈ S
2. p(S) = p(s1 ) + · · · + p(sn ) = 1
3. p(A) = p(si1 ) + p(si2 ) + · · · + p(sik ) für eine Teilmenge A = {si1 , si2 , . . . , sik } von S
Die Axiome der Wahrscheinlichkeit wurden zum ersten Mal von Andrey Nikolaevich Kolmogoroff, 1903-1987, formuliert (siehe Abbildung 4.2.ii).
Abbildung 4.2.ii: Andrey Nikolaevich Kolmogoroff, 1903-1987
4.3
Monte-Carlo-Methoden
Die experimentelle Wahrscheinlichkeit, d.h. die Wahrscheinlichkeit als eine Art Grenzwert
der relativen Häufigkeit eines Ereignisses, hat in den letzten Jahren stark an Bedeutung
gewonnen. Durch den Einsatz von Computern lässt sich schnell und relativ einfach die relative
Häufigkeit von simulierbaren, also auf dem Rechner mathematisch durchführbaren Ereignissen
bestimmen. Die Zahl der Versuche kann sehr hoch angesetzt werden, so dass wir stabile
Aussagen über die betreffende Wahrscheinlichkeit machen können. Solche Methoden werden
Monte-Carlo-Methoden genannt. Sie haben in den meisten Bereichen der Technik und der
Wissenschaft Einzug gehalten.
An einem einfachen Beispiel wollen wir das prinzipielle Vorgehen erläutern.
Beispiel 4.3.1. Wir wollen das bestimmte Integral
Z a
A=
f (x)dx
0
4.3. Monte-Carlo-Methoden
35
berechnen.
Geometrisch handelt es sich um die Berechnung der Masszahl der Fläche unter der Kurve
y = f (x) über dem Intervall [0, a] (siehe Abbildung 4.3.i). Wir bestimmen eine Anzahl N
y
b
Q
Pi (xi , yi )
b
A
y = f (x)
a
x
Abbildung 4.3.i: Masszahl der Fläche unter der Kurve y = f (x) über dem Intervall [0, a]
zufälliger Punkte P1 (x1 , y1 ), . . . , PN (xN , yN ) im Rechteck Q = [0, a] × [0, b].
Das geschieht mit Hilfe von Zufallszahlen, die wir auf jedem Rechner zur Verfügung haben.
Wir wählen eine erste Zufallszahl x1 im Intervall [0, a] und eine zweite Zufallszahl y1 in [0, b].
Dies ergibt uns einen ersten zufälligen Punkt P1 (x1 , y1 ) im Rechteck Q. Dieses Prozedere
führen wir nun N mal durch. Dann haben wir N zufällige Punkte P1 (x1 , y1 ), . . . , PN (xN , yN )
bestimmt, die zufällig verteilt im Rechteck Q liegen. Einige Punkte werden nun oberhalb der
Kurve y = f (x) und andere unterhalb dieser liegen.
Die Wahrscheinlichkeit, dass ein Punkt in der Fläche mit der gesuchten Masszahl liegt, ist
p=
A
.
area(Q)
Bestimmen wir N zufällige Punkte, ist die relative Häufigkeit
h=
n
N
der n Punkte, die in der zu berechnenden Fläche liegen, zur gesamten Zahl N eine gute
Schätzung für p. Daraus lässt sich A näherungsweise berechnen
A = p · area(Q) ≈
n
area(Q).
N
Wir haben somit nur rechnerisch zu bestimmen, ob ein Punkt Pi (xi , yi ) eine Ordinate
yi < f (xi )
hat. Trifft dies zu, muss ein Zähler um eins erhöht werden. Sind alle N Punkte getestet, dann
n
ergibt sich das gesuchte Verhältnis N
.
Nach dieser Methode lassen sich auch mehrfache Integrale näherungsweise berechnen.
Monte-Carlo-Methoden sind im Allgemeinen sehr einfach durchzuführen. Allerdings ist ihre
Genauigkeit für kleine
√ Versuchszahlen N gering. Die Genauigkeit in diesem Beispiel erhöht
sich proportional zu N . Das heisst, um eine Dezimalstelle zu gewinnen, braucht es 100 mal
mehr Versuche.
36
4.4
4.4.1
Kapitel 4. Wahrscheinlichkeit
Wahrscheinlichkeit von zusammengesetzten Ereignissen
Der Additionssatz
Satz 4.4.1 (Additionssatz). Sind die Ereignisse A und B elementfremd, d.h., es gilt A∩B =
∅, dann gilt für die Wahrscheinlichkeiten
p(A ∪ B) = p(A) + p(B).
Sind sie nicht elementfremd, dann gilt die allgemeinere Version
p(A ∪ B) = p(A) + p(B) − p(A ∩ B).
Die folgenden Beispiele illustrieren den Additionssatz.
Beispiel 4.4.1 (Geometrische Wahrscheinlichkeit). Wir schiessen zufällig auf eine rechteckige
Zielscheibe (vgl. Abbildung 4.4.i) und fragen nach der Wahrscheinlichkeit, entweder die Fläche
A oder B zu treffen.
S
A
A∩B
B
Abbildung 4.4.i: Geometrische Wahrscheinlichkeit
Die Wahrscheinlichkeit p(A) ins Gebiet A zu treffen ist nichts anderes als das Verhältnis des
Flächeninhalts von A zum gesamten Flächeninhalt von S und analog für die Fläche B. Somit
folgt
area(A)
area(B)
p(A) =
und p(B) =
.
area(S)
area(S)
Mit dem Additionssatz 4.4.1 folgt nun
p(A ∪ B) = p(A) + p(B) − p(A ∩ B) =
area(A) + area(B) − area(A ∩ B)
.
area(S)
Wir sehen, dass die Fläche des Durchschnittes abgezogen werden muss, da sie sonst doppelt
gezählt würde.
Beispiel 4.4.2. Wir werfen einen fairen Würfel und betrachten die Ereignisse A = {1, 3, 5}
und B = {1, 2, 3}. Es gilt A ∪ B = {1, 2, 3, 5} und A ∩ B = {1, 3}. Uns interessiert die
Wahrscheinlichkeit dafür, dass das Ereignis A ∪ B eintritt. Wir erhalten also mit Hilfe des
Additionssatzes
p(A ∪ B) = p(A) + p(B) − p(A ∩ B)
1 1 1
1 1
1 1 1
=
+ +
+
+ +
−
+
6 6 6
6 6 6
6 6
4
= .
6
4.4. Wahrscheinlichkeit von zusammengesetzten Ereignissen
37
Beispiel 4.4.3. Ist Ā das Gegenereignis von A, also A ∪ Ā = S und A ∩ Ā = ∅, dann gilt mit
dem Additionssatz 4.4.1
p(A) + p(Ā) = p(A ∪ Ā) = p(S) = 1
oder etwas anders geschrieben
p(Ā) = 1 − p(A).
4.4.2
(4.4.a)
Der Multiplikationssatz
Oft sind Ereignisse aus unabhängigen Teilereignissen zusammengesetzt, deren Wahrscheinlichkeiten mit der bekannten Formel berechnet werden können, falls die Ausfälle gleich wahrscheinlich sind, oder, im anderen Fall, simuliert werden können. Wie berechnet sich die Wahrscheinlichkeit zusammengesetzter Ereignisse?
Die Analyse führen wir an Hand eines einfachen Beispiels durch.
Beispiel 4.4.4. Der Versuch bestehe aus einmaligem Würfeln mit zwei unsymmetrischen
Würfeln. Wir erhalten somit zwei unabhängige Teilversuche. Die Wahrscheinlichkeit der einzelnen Ausfälle seien:
mit
6
X
i=1
pi =
Ausfälle beim 1. Würfel
Wahrscheinlickeiten
1
p1
2
p2
3
p3
4
p4
5
p5
6
p6
Ausfälle beim 2. Würfel
Wahrscheinlickeiten
1
q1
2
q2
3
q3
4
q4
5
q5
6
q6
6
X
qi = 1,
i=1
wobei 0 ≤ pi , qi ≤ 1 für alle i ∈ {1, 2, 3, 4, 5, 6}.
Die Wahrscheinlichkeit des zusammengesetzten Versuchs seien nun
Ausfälle bei zwei Würfeln
Wahrscheinlickeiten
(1, 1)
p11
(1, 2)
p12
(1, 3)
p13
···
···
(6, 5)
p65
(6, 6)
p66
auch hier gilt
6 X
6
X
i=1 j=1
pij = 1,
wobei 0 ≤ pij ≤ 1 für alle i, j ∈ {1, 2, 3, 4, 5, 6}.
Wie lassen sich nun die pij aus den pi und qi berechnen?
Dazu benutzen wir die experimentelle Wahrscheinlichkeit als Grenzwert der relativen Häufigkeit. Betrachten wir einmal das spezielle Ereignis {(3, 4)}:
• Wie viele Dreier erhalten wir ungefähr bei N Würfen mit dem ersten Würfel? – Antwort:
ungefähr N p3 .
• Wie viele Vierer erhalten wir ungefähr bei N Würfen in diesen N p3 Würfen mit dem
zweiten Würfel? – Antwort: ungefähr N p3 · q4 .
38
Kapitel 4. Wahrscheinlichkeit
Die relative Häufigkeit für das Ereignis {(3, 4)} ist demzufolge ungefähr p3 · q4 . Somit ist es
nahe liegend p34 = p3 · q4 zu setzen. Allgemein gilt dann offenbar
pij = pi · qj für alle i, j ∈ {1, 2, 3, 4, 5, 6}.
Dieses Resultat lässt sich ohne weiteres auf kompliziertere Ereignisse verallgemeinern. Dabei
erhalten wir den so genannten Multiplikationssatz.
Satz 4.4.2 (Multiplikationssatz). Besteht ein zusammengesetzter Versuch aus mehreren
Teilversuchen und beziehen sich die Ereignisse A1 , . . . , Ai , . . . , An nur auf den jeweils i-ten
Teilversuch, dann gilt
p(A1 ∩ · · · ∩ An ) = p(A1 ) · · · p(An ).
Beispiel 4.4.5. Wie gross ist die Wahrscheinlichkeit, mit einem idealen Würfel fünf mal
hintereinander eine Sechs zu würfeln?
Es sei
Ai = {i-ter Wurf ist eine Sechs} wobei i ∈ {1, 2, 3, 4, 5}.
Dann ist das Ereignis fünf mal eine Sechs zu würfeln gleich A1 ∩ · · · ∩ A5 = {(6, 6, 6, 6, 6)}
und hat die Wahrscheinlichkeit
p(A1 ∩ · · · ∩ A5 ) = p(A1 ) · · · p(A5 ) =
1 1 1 1 1
1
· · · · = 5 = 0.00013.
6 6 6 6 6
6
Einige Anwendungen des Multiplikationssatzes für typische Versuche:
Beispiel 4.4.6. Wir betrachten einen Versuch mit zwei möglichen Ausfällen:
• Erfolg mit Wahrscheinlichkeit p(Erfolg) = p ∈ [0, 1].
• Misserfolg mit Wahrscheinlichkeit p(Misserfolg) = q = 1 − p ∈ [0, 1].
Nach dem Multiplikationssatz
a. treten n Erfolge bei n Versuchen mit der Wahrscheinlichkeit pn auf;
b. treten n Misserfolge bei n Versuchen mit der Wahrscheinlichkeit q n = (1 − p)n auf;
c. tritt mindestens ein Erfolg mit der Wahrscheinlichkeit 1 − (1 − p)n auf; und
d. tritt der erste Erfolg bei der n-ten Wiederholung mit Wahrscheinlichkeit (1 − p)n−1 p
auf.
Aufgaben
Aufgabe 4.4.1. Ein symmetrischer Würfel wird sechs mal geworfen. Wie gross ist die Wahrscheinlichkeit, dass
a. jedes Mal eine gerade Zahl,
b. kein Sechs,
c. weder eine Fünf noch eine Sechs
4.4. Wahrscheinlichkeit von zusammengesetzten Ereignissen
39
erscheint?
Aufgabe 4.4.2. Wie gross ist die Wahrscheinlichkeit, mit einem symmetrischen Würfel bei
zwei Würfen mindestens einmal eine Sechs zu erhalten?
Aufgabe 4.4.3. Aus einem Kartenspiel mit 36 Karten wird eine Karte gezogen und, wenn
diese wieder eingemischt ist, eine zweite. Wie gross ist die Wahrscheinlichkeit, dass die erste
Karte ein As und die zweite eine Königskarte ist?
Aufgabe 4.4.4. Ein Geldstück wird zweimal geworfen. Wie gross ist die Wahrscheinlichkeit
a. genau einmal Kopf zu werfen,
b. zweimal Kopf zu werfen,
c. mindestens einmal Kopf zu werfen?
Aufgabe 4.4.5. Die Wahrscheinlichkeit, dass in einem gewissen Gebiet eine Ölbohrung
fündig wird, sei p = 0.1. Mit welcher Wahrscheinlichkeit haben 10 Bohrungen mindestens
einen Erfolg?
Aufgabe 4.4.6. Auf einem Abschnitt AB einer Moto-Cross-Bahn befinden sich 12 Hindernisse, wovon jedes mit der Wahrscheinlichkeit p = 0.1 ein Anhalten des Rennfahrers verursacht.
Die Wahrscheinlichkeit dafür, dass ein Rennfahrer von B bis C nicht anhalten muss, sei
q = 0.7. Bestimmen Sie die Wahrscheinlichkeit, dass zwischen A und C kein Anhalten nötig
ist.
Aufgabe 4.4.7. Wie gross ist die Wahrscheinlichkeit, dass sich vier Betriebsunfälle bei einer
fünftage-Woche rein zufällig am Montag ereignen?
Aufgabe 4.4.8. Ein Schuss trifft das Ziel mit der Wahrscheinlichkeit p = 0.5. Wie viele
Schüsse sind nötig, um mit 99% Wahrscheinlichkeit mindestens einmal zu treffen?
Aufgabe 4.4.9. Die Herren A, B und C treffen eine fliegende Tontaube mit der Wahrscheinlichkeit pA = 0.5, pB = 23 und pC = 0.75. Eine Tontaube fliegt vorbei, und sie schiessen alle
gleichzeitig. Wie gross ist die Wahrscheinlichkeit, dass die Taube getroffen wird?
Aufgabe 4.4.10. Ein Gerät besteht aus drei Teilen A, B und C, die alle dieselbe Wahrscheinlichkeit q haben, während eines Tages zu versagen. Das Gerät fällt genau dann aus,
wenn
a. mindestens ein Teil versagt,
b. alle drei Teile ausfallen.
Wie gross ist die Wahrscheinlichkeit, dass das Gerät den ganzen Tag arbeitet?
Aufgabe 4.4.11. Ein Flugzeug hat an jedem Flügel zwei Motoren. Die Wahrscheinlichkeit,
dass ein Motor beim Flug über den Atlantik versagt, sei q. Wie gross ist die Wahrscheinlichkeit,
dass es über dem Ozean abstürzt, wenn
a. für einen Flug mindestens zwei Motoren funktionieren müssen,
b. an jedem Flügel mindestens ein Motor intakt sein muss?
40
Kapitel 4. Wahrscheinlichkeit
Aufgabe 4.4.12. Damit ein zu bauender Apparat richtig funktioniert, müssen vier verschiedene einwandfreie Teilstücke A, B, C und D richtig zusammengebaut werden. Für jedes dieser
vier Teilstücke bestehe die Wahrscheinlichkeit von 2% nicht einwandfrei zu sein. In 1% aller
Fälle werden die vier Teilstücke nicht richtig zusammengebaut. Wie gross ist die Wahrscheinlichkeit, dass ein so gebauter Apparat bei der ersten Kontrolle richtig arbeitet?
Aufgabe 4.4.13. Eine aus 100 Produkten bestehende Serie testen wir durch eine Stichprobe.
Die Serie ist unbrauchbar, wenn unter 5 ausgewählten Produkten mindestens eines Ausschuss
ist. Wie gross ist die Wahrscheinlichkeit für die Unbrauchbarkeit der gegebenen Serie, wenn
diese 5% ausschüssige Produkte enthält?
Aufgabe 4.4.14. Bei jedem Versuch trete ein bestimmtes Ereignis mit der Wahrscheinlichkeit
p = 0.2 ein. Die Versuche werden solange nacheinander durchgeführt, bis dieses Ereignis
eintrifft. Wie gross ist die Wahrscheinlichkeit, dass vier oder mehr Versuche gemacht werden
müssen?
Aufgabe 4.4.15. Mittels zweier Technologien können bestimmte Produkte hergestellt werden. Bei der ersten durchläuft ein Werkstück drei Arbeitsgänge, bei denen mit den Wahrscheinlichkeiten 0.1, 0.2 und 0.3 Ausschuss entsteht. Die zweite Technologie umfasst zwei
Arbeitsgänge, die beide mit der Wahrscheinlichkeit 0.3 Ausschuss liefern. Nach der Produktion werden die Produkte bei beiden Verfahren entsprechend ihrer Qualität in zwei Klassen
eingeteilt. In der ersten Technologie besteht die Wahrscheinlichkeit 0.9, dass ein Produkt in die
erste Qualitätsklasse kommt, in der zweiten 0.8. Bestimmen Sie, welche dieser Technologien
die grössere Wahrscheinlichkeit für die Herstellung von Produkten der ersten Qualitätsklasse
besitzt.
Aufgabe 4.4.16. Die Wahrscheinlichkeit dafür, dass ein beliebiges Werkstück nach mechanischer (resp. thermischer) Bearbeitung Ausschuss ergibt, ist pmech (resp. ptherm ). Die Wahrscheinlichkeit dafür, dass sich die Mängel dieser fehlerhaften Stücke nicht beseitigen lassen,
betrage qmech (resp. qtherm ).
a. Welche Anzahl von Werkstücken müssen nach der mechanischen Bearbeitung mindestens zur Verfügung sein, damit mit der Wahrscheinlichkeit 0.9 nach der thermischen
Bearbeitung mindestens eines noch einwandfrei ist? Zählen Sie unter die einwandfreien
auch die fehlerhaften Stücke, die sich weiter verarbeiten lassen.
b. Wie gross ist die Wahrscheinlichkeit dafür, dass mindestens eines von drei Produkten
nach Durchlaufen der mechanischen und thermischen Bearbeitung Ausschuss ist?
Lösungen
Lösung 4.4.1.
a. 0.0156
b. 0.3349
c. 0.0878
Lösung 4.4.2. 0.3056
4.4. Wahrscheinlichkeit von zusammengesetzten Ereignissen
41
Lösung 4.4.3. 0.0123
Lösung 4.4.4.
a. 0.5
b. 0.25
c. 0.75
Lösung 4.4.5. 0.6513
Lösung 4.4.6. 0.1977
Lösung 4.4.7. 0.0016
Lösung 4.4.8. n ≥ 7
Lösung 4.4.9. 0.9583
Lösung 4.4.10.
a. P (Gerät arbeitet) = (1 − q)3
b. P (Gerät arbeitet) = 1 − q 3
Lösung 4.4.11.
a. P (Absturz) = q 4 + 4(1 − q)q 3
b. P (Absturz) = q 4 + 4(1 − q)q 3 + 2(1 − q)2 q 2
Lösung 4.4.12. 0.9131
Lösung 4.4.13. 0.2262
Lösung 4.4.14. 0.512
Lösung 4.4.15. Die erste Technologie besitzt die grössere Wahrscheinlichkeit für die Herstellung von Produkten der ersten Qualitätsklasse.
Lösung 4.4.16.
a. n ≥
log(0.1)
log(ptherm · qtherm )
b. P (mindestens eines Ausschuss) = 1 − (1 − pmech · qmech )3 (1 − ptherm · qtherm )3
42
Kapitel 4. Wahrscheinlichkeit
Kapitel 5
Zufallsgrössen und
Wahrscheinlichkeitsverteilungen
5.1
Diskrete und stetige Zufallsgrössen
Betrachten wir einen Versuch mit dem Stichprobenraum S = {s1 , s2 , . . . , sn }. Jedem Ausfall
si von S sei eine reelle Zahl zugeordnet
X : S −→ R
si 7−→ X(si ) = xi
Die Zuordnung X wird in der Statistik Zufallsgrösse oder Zufallsvariable genannt.1
Die Zufallsgrösse X, die die Werte x1 , . . . , xn annehmen kann, wird durch die Angabe ihrer Wahrscheinlichkeiten charakterisiert. Jedem Ausfall si aus dem Stichprobenraum S,
respektive X(si ) = xi , entspricht eine Wahrscheinlichkeit
pi = P (X = xi ) ∈ [0, 1]
als Funktion2 von xi aufgefasst. Dabei gilt
n
X
i=1
pi =
n
X
P (X = xi ) = 1.
i=1
Die Funktion
xi 7−→ P (X = xi )
heisst Wahrscheinlichkeitsverteilung der Zufallsgrösse X.
Beispiel 5.1.1. Wir betrachten den symmetrischen Würfel mit dem Stichprobenraum S =
{1, 2, 3, 4, 5, 6}. In diesem Fall setzen wir
X(si ) = i für alle i ∈ {1, 2, 3, 4, 5, 6}.
1
Zufallsgrössen werden im Allgemeinen mit grossen lateinischen Buchstaben X, Y, Z, . . . und die Werte, die
sie annehmen, mit kleinen lateinischen Buchstaben x, y, z, . . . bezeichnet.
2
Die Symbolik pi = P (X = xi ) wird wie folgt gelesen: Die Wahrscheinlichkeit, dass die Zufallsgrösse X den
Wert xi annimmt, ist pi .
43
44
Kapitel 5. Zufallsgrössen und Wahrscheinlichkeitsverteilungen
Die Wahrscheinlichkeitsverteilung ist bekanntlich
pi = P (X = xi ) =
1
6
für alle i ∈ {1, 2, 3, 4, 5, 6}.
Als Tabelle dargestellt ergibt sich:
xi
P (X = xi )
1
2
3
4
5
6
1
6
1
6
1
6
1
6
1
6
1
6
Beispiel 5.1.2. Wir betrachten einen unsymmetrischen Würfel mit dem Stichprobenraum
S = {1, 2, 3, 4, 5, 6}. In diesem Fall setzen wir wiederum
X(si ) = i für alle i ∈ {1, 2, 3, 4, 5, 6}.
Damit folgt
xi
P (X = xi )
1
p1
mit
2
p2
6
X
3
p3
4
p4
5
p5
6
p6
pi = 1
i=1
(vgl. Abbildung 5.1.i).
Oft geben wir nicht die Wahrscheinlichkeiten einzeln an, sondern die Wahrscheinlichkeitssumme von links. Damit erhalten wir die so genannte Verteilungsfunktion oder Summenfunktion (vgl. Abbildung 5.1.ii).
xi
k
X
P (X ≤ xi ) =
P (X = xi )
i=1
1
p1
2
p1 + p2
3
4
···
5
6
6
X
pi = 1
i=1
Allgemein ist die Verteilungsfunktion F einer diskreten Zufallsgrösse durch
X
F (x) = P (X ≤ x) =
pi
alle i mit xi ≤x
gegeben. Die Summation erfolgt über alle pi , für die xi höchstens gleich x ist. Die Verteilungsfunktion F ist eine monoton wachsende Treppenfunktion mit Sprüngen der Höhe pi an den
Stellen xi .
Die soweit beschriebenen Zufallsgrössen heissen diskrete Zufallsgrössen, da sie nur ganz bestimmte, getrennt liegende Zahlenwerte annehmen. Eine andere Art Zufallsgrössen sind die
so genannt stetigen Zufallsgrössen. Diese nehmen als Werte sämtliche Zahlen eines ganzen
Intervalls an, zum Beispiel alle reellen Zahlen R oder alle Zahlen im Intervall [−1, 1]. Die stetigen Zufallsgrössen haben vor allem bei Messprozessen eine grosse Bedeutung. Die diskreten
treten vorwiegend bei Zählprozessen auf.
An Hand eines einprägsamen Beispiels betrachten wir den Unterschied zwischen einer diskreten und einer stetigen Zufallsgrösse:
5.1. Diskrete und stetige Zufallsgrössen
45
pi = P (X = xi )
F (x) = P (X ≤ xi )
1
p1 + p2 + p3 + p 4 + p5 + p6
1
p1 + p2 + p3 + p4 + p5
p1 + p2 + p3 + p4
p1 + p2 + p 3
p1 + p2
p2
p3
p6
p4
p1
1
p5
2
3
4
p1
5
6
xi
Abbildung 5.1.i: Wahrscheinlichkeitsverteilung des unsymmetrischen Würfels
1
2
3
4
5
6
xi
Abbildung 5.1.ii: Verteilungsfunktion des
unsymmetrischen Würfels
Beispiel 5.1.3. Der Stichprobenraum S sei die Menge aller Studierenden einer Klasse. Die
Zufallsgrösse X ordne nun jedem Studierenden s die Länge in Zentimeter seines rechten Fusses
zu. In diesem Fall können alle Fusslängen im Intervall [5 cm, 40 cm] angenommen werden. Die
Fusslängen einer Klasse sind also stetig verteilt.
Fragen wir nun aber nach der jeweiligen Schuhnummer der Studierenden, so erhalten wir nur
Werte in der Menge {34, 34 12 , 36, . . . , 46, 46 12 }. Die Schuhnummern einer Klasse sind somit
diskret verteilt. Je nach dem welches Merkmal betrachtet wird, kann also eine Stichprobe zu
einer diskreten oder stetigen Verteilung führen.
Aufgaben
Aufgabe 5.1.1. Die Trefferwahrscheinlichkeit für einen Basketball in den gegnerischen Korb
sei bei jedem Wurf 0.3. Bestimmen Sie die Wahrscheinlichkeitsverteilung und die Verteilungsfunktion der zufälligen Trefferzahl X bei zwei Würfen.
Aufgabe 5.1.2. Ein Versuch bestehe aus drei unabhängigen Münzwürfen. Bei jedem Wurf
liegt Kopf mit der Wahrscheinlichkeit 0.5 oben. Bestimmen Sie Wahrscheinlichkeitsverteilung
und die Verteilungsfunktion für die Anzahl X des Eintreffens von Kopf.
Aufgabe 5.1.3. Eine Familie habe fünf Kinder. Wir betrachten die Anzahl der Mädchen als
Werte einer Zufallsgrösse X, dabei sind Zwillinge ausgeschlossen. Bestimmen Sie die Wahrscheinlichkeitsverteilung von X.
Aufgabe 5.1.4. Eine Zielscheibe bestehe aus einem Kreis Nr. 1 und zwei Ringen mit den
Nummern 2 und 3. Ein Treffer in den Kreis Nr. 1 liefert 10 Punkte, ein Treffer in den Ring Nr.
46
Kapitel 5. Zufallsgrössen und Wahrscheinlichkeitsverteilungen
2 liefert 5 Punkte und ein Treffer in den Ring Nr. 3 liefert 1 Punkt. Die Trefferwahrscheinlichkeiten betragen entsprechend 50%, 30% und 20%. Bestimmen Sie die Wahrscheinlichkeitsverteilung für die Summe X der erreichten Punkte bei drei Treffern auf die Zielscheibe.
Fehlschüsse werden nicht berücksichtigt.
Aufgabe 5.1.5. Die Zuverlässigkeit von fünf Geräten wird hintereinander überprüft. Jedes
Gerät wird nur dann geprüft, wenn das vorhergehende zuverlässig war. Bestimmen Sie die
Wahrscheinlichkeitsverteilung der Anzahl X der geprüften Geräte, wenn jedes Gerät mit der
Wahrscheinlichkeit 0.9 die Prüfung besteht.
Aufgabe 5.1.6. Es seien n Rohlinge für ein Werkstück vorhanden. Die Wahrscheinlichkeit
für die Herstellung eines brauchbaren Stücks aus einem Rohling betrage p.
a. Bestimmen Sie die Wahrscheinlichkeitsverteilung der Anzahl X Rohlinge, die nach der
Herstellung des ersten brauchbaren Werkstücks übrig bleiben.
b. Bestimmen Sie die Wahrscheinlichkeitsverteilung für die Anzahl X der verwendeten
Rohlinge.
Lösungen
Lösung 5.1.1. Wahrscheinlichkeitsverteilung und die Verteilungsfunktion der zufälligen Trefferzahl X = k.
k
P (X = k)
k
X
P (X = i)
0
0.49
1
0.42
2
0.09
0.49
0.91
1.00
i=0
Lösung 5.1.2. Wahrscheinlichkeitsverteilung und die Verteilungsfunktion für die Anzahl
X = k.
k
P (X = k)
k
X
P (X = i)
0
0.125
1
0.375
2
0.375
3
0.125
0.125
0.500
0.875
1.000
i=0
Lösung 5.1.3. Wahrscheinlichkeitsverteilung der Anzahl Mädchen X = k.
k
P (X = k)
0
0.03125
1
0.15625
2
0.31250
3
0.31250
4
0.15625
5
0.03125
Lösung 5.1.4. Wahrscheinlichkeitsverteilung für die Summe X = n der erreichten Punkte
bei drei Treffern.
n Punkte
P (X = n)
3
0.008
7
0.036
11
0.054
12
0.060
15
0.027
16
0.180
20
0.135
Beachten Sie, dass zur Kontrolle
X
n∈{mögliche Punkte bei 3 Würfen}
gelten muss.
P (X = n) = 1
21
0.150
25
0.225
30
0.125
5.1. Diskrete und stetige Zufallsgrössen
47
Lösung 5.1.5. Wahrscheinlichkeitsverteilung der Anzahl X = x der geprüften Geräte.
1
0.1000
x
p
2
0.0900
3
0.0810
4
0.0729
5
0.6561
Lösung 5.1.6.
a. Es bezeichne X = k die Anzahl Rohlinge, die übrig bleiben.
k
P (X = k)
0
(1 − p)n−1
1
(1 − p)n−2 p
2
(1 − p)n−3 p
...
···
n−1
p
Zur Kontrolle muss
n−1
X
k=0
P (X = k) = (1 − p)n−1 + (1 − p)n−2 p + (1 − p)n−3 p + · · · + p
= (1 − p)n−1 + p (1 − p)n−2 + (1 − p)n−3 + · · · + 1
= (1 − p)n−1 + p
=1
1 − (1 − p)n−1
1 − (1 − p)
gelten.
b. Es bezeichne X = k die Anzahl der verwendeten Rohlinge.
k
P (X = k)
1
p
2
p(1 − p)
3
p(1 − p)2
4
p(1 − p)3
...
···
n
(1 − p)n−1
Zur Kontrolle muss
n
X
k=1
P (X = k) = p + p(1 − p) + p(1 − p)2 + · · · + (1 − p)n−1
= p 1 + (1 − p)1 + (1 − p)2 + · · · + (1 − p)n−2 + (1 − p)n−1
=p
=1
gelten.
1 − (1 − p)n−1
+ (1 − p)n−1
1 − (1 − p)
48
Kapitel 5. Zufallsgrössen und Wahrscheinlichkeitsverteilungen
Kapitel 6
Diskrete Zufallsgrössen und
Verteilungen
6.1
Erwartungswert und Varianz
Analog wie bei empirischen Stichproben können wir bei Wahrscheinlichkeitsverteilungen charakterisierende Parameter definieren.
Es seien x1 , . . . , xn die Werte einer Zufallsgrösse X, die mit den entsprechenden Wahrscheinlichkeiten p1 , . . . , pn auftreten. Dann können wir eine Art Lageparameter für die Werte der
diskreten Zufallsgrösse definieren, den so genannten Erwartungswert der diskreten Zufallsgrösse
µ = E(X) =
n
X
(6.1.a)
xi p i .
i=1
Analog lässt sich ein Formparameter definieren, die so genannte Varianz oder Streuung der
diskreten Zufallsgrösse
n
n
X
X
2
2
σ = Var(X) = E (X − µ) =
(xi − µ) pi =
x2i pi − µ2 .
2
i=1
(6.1.b)
i=1
Die (positive) Quadratwurzel σ heisst Standardabweichung.
Beispiel 6.1.1. Betrachten wir wieder einmal den symmetrischen Würfel. Es ist bekanntlich
xi = i und pi = 16 für alle i ∈ {1, 2, 3, 4, 5, 6}. Dann erhalten wir für den Erwartungswert
E(X) =
6
X
i=1
=1·
i·
1
6
1
1
1
1
1
1
21
+2· +3· +4· +5· +6· =
6
6
6
6
6
6
6
= 3.5
49
50
Kapitel 6. Diskrete Zufallsgrössen und Verteilungen
und für die Varianz
n
X
1
(i − µ)2
Var(X) =
6
i=1
1
1
1
1
1
1
= (1 − 3.5)2 + (2 − 3.5)2 + (3 − 3.5)2 + (4 − 3.5)2 + (5 − 3.5)2 + (6 − 3.5)2
6
6
6
6
6
6
= 2.92.
Die Standardabweichung beträgt demzufolge σ = 1.71.
Aufgaben
Aufgabe 6.1.1. Eine Klasse habe die folgende Altersgliederung:
Alter xi
Häufigkeit hi
15
2
16
7
17
13
18
3
Bestimmen Sie die Wahrscheinlichkeitsverteilung für das Alter X eines zufällig heraus gegriffenen Schülers und berechnen Sie den Erwartungswert und die Varianz.
Aufgabe 6.1.2. Eine Münze werde vier mal geworfen, und es bezeichne X die Anzahl Kopf.
Bestimmen Sie die Wahrscheinlichkeitsverteilung von X, den Erwartungswert und die Varianz.
Aufgabe 6.1.3. Bestimmen Sie den Erwartungswert und die Varianz der Aufgabe 5.1.4.
Aufgabe 6.1.4. Eine Zufallsgrösse X habe die folgende Verteilung (Gleichverteilung):
xi
pi
1
2
1
n
1
n
···
···
n
1
n
Bestimmen Sie den Erwartungswert und die Varianz.
Aufgabe 6.1.5. Es sei X die Augenzahl eines symmetrischen Würfels und Y = X 2 . Bestimmen Sie E(Y ). Welche Bedeutung hat die Zufallsgrösse Y .
Aufgabe 6.1.6. Es sei X eine Zufallsgrösse auf dem Stichprobenraum S. Ihre Wahrscheinlichkeitsverteilung sei P (X = xi ) = pi . Ferner seien a und b zwei reelle Parameter. Beweisen
Sie die Beziehung
E(aX + b) = aE(X) + b.
Lösungen
Lösung 6.1.1. Wahrscheinlichkeitsverteilung für das Alter X = xi eines zufällig heraus
gegriffenen Schülers.
Alter xi
P (X = xi )
15
0.08
16
0.28
17
0.52
18
.12
E(X) = 16.68 und Var(X) = 0.618
Lösung 6.1.2. Wahrscheinlichkeitsverteilung der Anzahl Kopf X = k.
6.2. Die Binomialverteilung
k
P (X = k)
51
0
0.0625
1
0.2500
2
0.3750
3
0.2500
4
0.0625
E(X) = 2.0 und Var(X) = 1.0
Lösung 6.1.3. E(X) = 20.1 und Var(X) = 38.4
Lösung 6.1.4. Benutzen Sie Beispiel A.1.1(b) und (c), dann folgt E(X) =
n2 −1
12 .
n+1
2
und Var(X) =
Lösung 6.1.5. E(Y ) = 15.1667
Lösung 6.1.6. Setzen Sie aX + b direkt in die Definition des Erwartungswertes ein.
6.2
6.2.1
Die Binomialverteilung
Definition und Eigenschaften der Binomialverteilung
Die Binomialverteilung beschäftigt sich mit Ereignissen, bei denen zwei alternative Ausgänge
auftreten können, wie zum Beispiel Münzwurf (Kopf oder Zahl, gleich wahrscheinlich) oder
beim Werfen eines Würfels (6 oder keine 6 geworfen, ungleich wahrscheinlich). Wir betrachten
also einen Versuch mit zwei möglichen Ausfällen:
• Erfolg mit Wahrscheinlichkeit p ∈ [0, 1].
• Misserfolg mit Wahrscheinlichkeit q = 1 − p ∈ [0, 1].
Dieser Versuch werde n mal durchgeführt. Es sei X die Zufallsgrösse, deren Werte x ∈ N0 die
Anzahl Erfolge bei n Versuchen bedeute. Wir bestimmen nun die Wahrscheinlichkeitsverteilung von X.
Bei n Versuchen gibt es genau nx Anordnungen mit x Erfolgen und n−x Misserfolgen. Damit
erhalten wir die Binomialverteilung
n x n−x
n x
P (X = x) =
p q
=
p (1 − p)n−x ,
x
x
wobei x ∈ N0 . Die Wahrscheinlichkeitsverteilung hat somit folgende Form:
x
0
1
···
P (X = x)
qn
npq n−1
···
x
n x n−x
p q
x
···
n−1
n
···
npn−1 q
pn
Um die zum Teil recht mühsamen Berechnungen der Wahrscheinlichkeiten zu vereinfachen, bedienen wir uns Taschenrechner oder Computer, in Excel benutzen wir den Befehl BINOMVERT.
Beispiel 6.2.1. Zwei Spieler A und B spielen Tischtennis. Der bessere Spieler A gewinnt
mit der Wahrscheinlichkeit von 60%. Unentschieden sei ausgeschlossen. Sieger des Turniers
(3 Spiele) ist der Spieler, der die Mehrzahl der Spiele gewonnen hat.
Es bezeichne X die Zufallsgrösse, die als Werte die Anzahl der von A gewonnenen Spiele habe.
Dann ist n = 3, p = 0.6 und q = 0.4.
52
Kapitel 6. Diskrete Zufallsgrössen und Verteilungen
p
p
pn
q
pn−1 q
p
pn−2 q 2
q
pn−3 q 3
p
q
q
p
p
px q n−x
q
px−1 q n−x+1
p
q
q
p
p
q
q
1
2
···
p
p3 q n−3
q
p2 q n−2
p
pq n−1
q
qn
n−1
n
Abbildung 6.2.i: Wahrscheinlichkeitsbaum der Binomialverteilung mit Erfolgs- p und Misserfolgswahrscheinlichkeit q = 1 − p.
Wie gross ist die Wahrscheinlichkeit, dass der schlechtere Spieler das Turnier gewinnt? Wir
erhalten
P (X ≤ 1) = P (X = 0) + P (X = 1)
3 1 2
3 0 3
p q
=
p q +
1
0
= 0.43 + 3 · 0.6 · 0.42 = 0.352.
Folgerung: In diesem Fall werden etwa 35% aller Turniere vom schlechteren Spieler gewonnen.
Bemerkung 6.2.1. Aus der Analysis (vgl. Analysis I, [14]) kennen wir den Binomischen
Satz
n X
n x n−x
n
(a + b) =
a b
.
(6.2.a)
x
x=0
Wir berechnen die Wahrscheinlichkeit, dass X die Werte 0, 1, 2, . . . , n − 1 oder n (das sichere
6.2. Die Binomialverteilung
53
Ereignis) annimmt
P (X ≤ n) =
=
n
X
P (X = x)
x=0
n X
x=0
n x
p (1 − p)n−x
x
= (p + (1 − p))n = 1.
Die Polynome fx,n (p) = nx px (1−p)n−x in der Variablen p werden Bernstein Polynome genannt und finden bei den so genannten Bézier-Kurven ihre Anwendung (vgl. Aufgabe 6.2.4).
Aufgaben
Aufgabe 6.2.1. Machen Sie sich die Verhältnisse bei der Binomialverteilung klar, indem Sie
Histogramme für die folgenden speziellen Fälle zeichnen:
a. n = 3 und p = q
b. n = 3 und p = 0.25
c. n = 8 und p = 0.9
Aufgabe 6.2.2. Jedes Mitglied eines Komitees mit 9 Mitgliedern kommt mit der Wahrscheinlichkeit von 0.5 zur Versammlung. Wie gross ist die Wahrscheinlichkeit, dass eine zweidrittelsMehrheit, d.h. sechs oder mehr, anwesend ist
Aufgabe 6.2.3. Jemand wettet, dass er bei 12 Würfen einer Münze genau 6 mal Zahl erziele.
Wie gross ist die Gewinnwahrscheinlichkeit?
Aufgabe 6.2.4. Betrachten Sie in der Formel
n x
fx,n (p) =
p (1 − p)n−x
x
die Wahrscheinlichkeit p als Variable und x und n als Konstanten.
a. Stellen Sie die Bernstein-Polynome f0,4 , f1,4 , . . . , f4,4 im Intervall [0, 1] grafisch dar.
b. Stellen Sie die Bernstein-Polynome f0,10 , f1,10 , . . . , f10,10 im Intervall [0, 1] grafisch dar.
c. Für welchen Wert von p besitzt das Bernstein Polynom fx,n den grössten Wert? Vergleichen Sie mit Ihren Grafiken.
Lösungen
Lösung 6.2.1. Siehe Excelfile: Lösung 6.2.1 Binomialverteilung.xls
Lösung 6.2.2. P (X ≥ 6) = 0.2539
Lösung 6.2.3. P (X = 6) = 0.2256
54
Kapitel 6. Diskrete Zufallsgrössen und Verteilungen
Lösung 6.2.4.
a. Abbildung 6.2.ii
b. Abbildung 6.2.iii
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
x
n
1.0
c. p =
0.0
0.2
0.4
Abbildung 6.2.ii:
f0,4 , f1,4 , . . . , f4,4
6.2.2
0.6
0.8
1.0
0.0
Bernstein-Polynome
0.2
0.4
0.6
0.8
1.0
Abbildung 6.2.iii: Bernstein-Polynome
f0,10 , f1,10 , . . . , f10,10
Erwartungswert und Varianz der Binomialverteilung
Diese beiden Parameter, und das gilt für alle Wahrscheinlichkeitsverteilungen, können wir
mit Hilfe der so genannten erzeugenden Funktion relativ einfach herleiten, ohne die ganze
Summationen zur Berechnung des Erwartungswertes und der Varianz ausführen zu müssen.
Es bleibt allerdings das Problem offen, wie wir im Allgemeinen die entsprechende erzeugende
Funktion finden, die zu einer bestimmten Wahrscheinlichkeitsverteilung gehört.
Nach dem Binomischen Satz (vgl. Analysis I, [14]) gilt
n
f (t) = (q + pt) =
n X
n
x=0
x
q n−x px tx .
Die Funktion f ist die erzeugende Funktion der Binomialverteilung.
Wir berechnen die erste Ableitung der erzeugenden Funktion
′
n−1
f (t) = n(q + pt)
n
X
n n−x x x−1
p=
x
q
p t
x
x=0
und werten sie an der Stelle t = 1 aus
′
n−1
f (1) = n(q + p)
n
n
n
X
X
n n−x x X
p=
x
q
p =
xP (X = x) =
xpx
x
x=0
x=0
x=0
6.2. Die Binomialverteilung
55
Da p + q = 1 ist, folgt mit Hilfe der Definition des Erwartungswertes für diskrete Verteilungen
(Formel 6.1.a), dass der Erwartungswert einer binomialverteilten Zufallsgrösse
µ = E(X) = np
beträgt.
Analog bestimmen wir die Varianz. Wir berechnen die zweite Ableitung der erzeugenden
Funktion
n
X
n n−x x x−2
′′
n−2 2
f (t) = n(n − 1)(q + pt)
p =
x(x − 1)
q
p t
x
x=0
und werten sie wieder an der Stelle t = 1 aus
f ′′ (1) = n(n − 1)(q + p)n−2 p2 =
=
n n−x x
x(x − 1)
q
p
x
x=0
n
X
n
X
x=0
=
n
X
x=0
=
=
n
X
x=0
n
X
x=0
x(x − 1)P (X = x)
x2 P (X = x) −
x2 p x −
n
X
n
X
xP (X = x)
x=0
xpx
x=0
x2 px − µ.
Da p + q = 1 und mit µ = np folgt für die linke Seite der obigen Gleichung, dass
n(n − 1)p2 = n2 p2 − np2 = µ2 − µp.
Mit
der Definition der Varianz für diskrete Verteilungen (Formel 6.1.b), i.e. σ 2 =
Pn Hilfe
2
2
i=1 xi pi − µ , folgern wir für die rechte Seite
n
X
x=0
x2 px − µ = σ 2 + µ2 − µ.
Da die linke und rechte Seite gleich sein müssen, erhalten wir die Gleichung
µ2 − µp = σ 2 + µ2 − µ,
die wir nach
σ 2 = µ − µp = µ(1 − p) = np(1 − p)
umformen.
Die Varianz oder Streuung einer binomialverteilten Zufallsgrösse X beträgt demzufolge
σ 2 = Var(X) = npq.
Die Standardabweichung der binomialverteilten Zufallsgrösse beträgt σ =
√
npq.
56
Kapitel 6. Diskrete Zufallsgrössen und Verteilungen
6.2.3
Die Binomialverteilung beim Testen von Hypothesen
Das folgende Beispiel zeigt eine Anwendung der Binomialverteilung beim Testen einer Hypothese. Dabei ist das Vorgehen typisch für die Ausführung eines statistischen Tests. Bei
anderen Verteilungen würde nur die Verteilung ändern, nicht aber das grundsätzliche Vorgehen (vgl. Vorlesung über Statistische Datenanalyse, [15]). Wir können deshalb dieses Beispiel
als Prototyp für einen statistischen Test überhaupt sehen.
Beispiel 6.2.2. Wir befassen uns mit der Frage: Kann ein neugeborenes Huhn Formen unterscheiden?
Um dies zu entscheiden, werden dem Huhn “Körner” aus Papier vorgelegt. Die Hälfte der
Körner (aus Papier) besteht aus kleinen Dreiecken und die andere Hälfte aus Kreisen. Nun
lassen wir das Huhn 20 mal picken. Das Ergebnis unserer Untersuchung zeigt, dass das Huhn
5 mal ein Dreieck und 15 mal ein Kreis gepickt hat. Wir hegen deshalb die Vermutung, dass
das Huhn Kreise bevorzugt. Diese Vermutung wollen wir nun testen.
Die Aufgabenstellung ist eine Fragestellung der Binomialverteilung, wenn wir Kreis als Erfolg
mit Wahrscheinlichkeit p und Dreieck als Misserfolg mit Wahrscheinlichkeit q auffassen.
Es sei X die Zufallsgrösse, deren Werte x ∈ N0 die Anzahl der Kreise bei n = 20 “Körnern”
sind. Die Wahrscheinlichkeitsverteilung der Zufallsgrösse X ist dann durch die folgende Tabelle gegeben:
x
0
px
q 20
1
20
pq 19
1
2
20 2 18
p q
2
3
20 3 17
p q
3
···
···
19
20 19
p q
19
20
p20
Zur Durchführung des Tests formulieren wir zwei sich ausschliessende Hypothesen:
Nullhypothese
H0 : p = q = 12 , d.h., das Huhn unterscheidet keine Formen.
Das Histogramm in Abbildung 6.2.iv ist richtig.
Alternativhypothese H1 : p > q, d.h., das Huhn zieht Kreise vor.
Das Histogramm in Abbildung 6.2.v ist möglich.
Das Anliegen eines statistischen Tests zur Prüfung von H0 gegen H1 ist es, eine Entscheidung
darüber zu treffen, ob die aus einer konkreten Stichprobe entnommenen Angaben zur aufgestellten Hypothese H0 im Widerspruch stehen oder nicht, d.h., ob H0 abzulehnen ist oder
nicht. Falls die Hypothese H1 gilt, so muss nicht unbedingt das wirkliche Histogramm, d.h.
die Wahrscheinlichkeitsverteilung, so einseitig sein wie in Abbildung 6.2.v. Es könnte p auch
nur wenig grösser sein als q.
Nun berechnen wir unter der Voraussetzung der Nullhypothese H0 , d.h. p = q = 12 , die
Wahrscheinlichkeit
20 X
20 x 20−x
P (15 ≤ X ≤ 20) =
p q
x
x=15
20 X
20 1
=
x 220
x=15
= 0.021.
6.2. Die Binomialverteilung
57
P (X = x)
P (X = x)
0.20
0.20
0.15
0.15
0.10
0.10
0.05
0.05
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
x
Abbildung 6.2.iv: Histogramm der Verteilung der Anzahl Kreise, sofern das Huhn
keine Formen unterscheiden kann, also bei
p = q = 0.5.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
x
Abbildung 6.2.v: Histogramm der Verteilung der Anzahl Kreise, sofern das Huhn
Kreise mit einer Wahrscheinlichkeit von
p = 0.75 den Dreiecken vorzieht.
Somit besteht unter der Voraussetzung der Nullhypothese H0 nur eine Wahrscheinlichkeit
von etwa 2.1%, dass das Huhn 15 oder mehr Kreise nimmt. Die Wahrscheinlichkeit für dieses
Ereignis ist unter der Voraussetzung der Nullhypothese sehr klein.
Hat aber das Histogramm das Aussehen wie in Abbildung 6.2.v oder auch weniger asymmetrisch, so wird die Wahrscheinlichkeit für ein solches Ereignis wesentlich grösser und dies
in Abhängigkeit von p. Wir folgern deshalb: Die Nullhypothese ist zu verwerfen und H1 ist
anzunehemn. Die berechnete Wahrscheinlichkeit von P (15 ≤ X ≤ 20) = 2.1% stellt dann bei
diesem Schluss die Irrtumswahrscheinlichkeit dar.
Im Allgemeinen müssen wir uns entscheiden, wann eine berechnete Abweichung zur Ablehnung der Nullhypothese führen soll. Dazu wird eine Schranke α ∈ ]0, 1[, das so genannte Signifikanzniveau, gewählt. Ist die berechnete Wahrscheinlichkeit der Abweichung kleiner als
das Signifikanzniveau, so wird die Nullhypothese abgelehnt, sonst angenommen. Die zulässige
Grösse des Signifikanzniveaus α hängt stark vom Fachgebiet ab und ist eine Vereinbarungssache. Häufig verwendete Niveaus sind α = 0.01, 0.05 und 0.1.
Das Prinzip eines statistischen Tests oder Signifikanztest lässt sich in folgenden Schritten
zusammenfassen:
1. Aufstellen der Nullhypothese H0 und der Alternativhypothese H1 und Vorgabe
des Signifikanzniveaus α.
2. Berechnung der Wahrscheinlichkeit des Ereignisses unter der Voraussetzung der
Nullhypothese H0 .
3. Statistischer Schluss: Ist die berechnete Wahrscheinlichkeit kleiner als das Signifikanzniveau α, so wird H0 abgelehnt, sonst wird H0 angenommen.
Wir sagen dann: Die Nullhypothese wird auf dem Signifikanzniveau α verworfen (resp. angenommen). Nur wenn wir die Nullhypothese verwerfen, geben wir die Irrtumswahrscheinlichkeit
an.
58
Kapitel 6. Diskrete Zufallsgrössen und Verteilungen
Aufgaben
Formulieren Sie jeweils die Null- und Alternativhypothese und den problemorientierten statistischen Schluss in Worten.
Aufgabe 6.2.5. Bei einem Würfel ist die Wahrscheinlichkeit für eine Sechs p = 16 . Fritz hat
den Verdacht, dass bei Hans’ Würfel p > 16 ist. Er prüft ihn und erhält
a. zwei Sechsen in drei Würfen,
b. drei Sechsen in fünf Würfen.
Kann er die Nullhypothese H0 : p =
1
6
auf dem Signifikanzniveau 5% verwerfen?
Aufgabe 6.2.6. Jemand behauptet, aussersinnliche Wahrnehmungen zu besitzen. Um diese
Behauptung zu überprüfen, wird das Glücksrad (siehe Abbildung 6.2.vi) zehn mal gedreht.
Die Versuchsperson errät sieben Ausfälle richtig. Formulieren Sie eine Nullhypothese und
p=
1
3
p=
A
1
3
C
B
p=
1
3
Abbildung 6.2.vi: Glücksrad
untersuchen Sie, ob sie auf dem Signifikanzniveau 5% zu verwerfen ist?
Aufgabe 6.2.7. Ein Arzt behauptet, dass er eine alternative Methode besitze, mit der er mit
80% Wahrscheinlichkeit, das Geschlecht eines Kindes Monate vor der Geburt bestimmen kann.
Um seine Behauptung zu testen, wird folgende Entscheidungsregel verwendet: Wir lassen den
Arzt 14 Voraussagen treffen. Wenn die Anzahl der Erfolge X grösser oder gleich 11 ist, wollen
wir seine Behauptung akzeptieren. Wenn hingegen X < 11 ist, wird sie verworfen. Wie gross
ist die Wahrscheinlichkeit, dass
a. seine Methode verworfen wird, falls sie wertlos ist, d.h. wenn H0 : p = 12 ?
b. seine Methode verworfen wird, obwohl er recht, d.h. wenn H0 : p = 45 ?
Das Signifikanzniveau betrage 5%.
Lösungen
Lösung 6.2.5.
a. Unter der Voraussetzung der Nullhypothese H0 : p = 16 besteht nur eine Wahrscheinlichkeit von etwa 7.4%, dass der Würfel in drei Versuchen 2 oder 3 Sechsen zeigt: Nullhypothese annehmen.
6.3. Die Poissonverteilung
59
b. Unter der Voraussetzung der Nullhypothese H0 : p = 16 besteht nur eine Wahrscheinlichkeit von etwa 3.6%, dass der Würfel in fünf Versuchen 3, 4 oder 5 Sechsen zeigt:
Nullhypothese ablehnen.
Lösung 6.2.6. Unter der Voraussetzung der Nullhypothese H0 : p = 13 besteht nur eine
Wahrscheinlichkeit von etwa 2.0%, dass die Person sieben oder mehr Mal richtig tippt: Nullhypothese ablehnen.
Lösung 6.2.7.
a. Unter der Voraussetzung der Nullhypothese H0 : p = 12 besteht nur eine Wahrscheinlichkeit von etwa 2.9%, dass er recht hat: Nullhypothese ablehnen.
b. Unter der Voraussetzung der Nullhypothese H0 : p = 45 besteht nur eine Wahrscheinlichkeit von etwa 69.8%, dass er recht hat: Nullhypothese annehmen. Obwohl er recht
hat, besteht die Wahrscheinlichkeit von 30.2%, ihn als Lügner abzustempeln.
6.3
Die Poissonverteilung
Bei vielen Anwendungen, die eigentlich mit der Binomialverteilung zusammenhängen, ist die
Erfolgswahrscheinlichkeit p beim einzelnen Experiment klein, das heisst, der Erfolg ist ein
seltenes Ereignis. Gleichzeitig ist die Anzahl n der Ausführungen sehr gross. In einem solchen
Fall approximieren wir die Binomialverteilung durch die Poissonverteilung.
6.3.1
Poissonverteilung als Grenzfall der Binomialverteilung
Die Poissonverteilung ergibt sich, wenn n so gegen unendlich strebt, dass der Erwartungswert
µ = np
gegen einen endlichen Wert strebt. Das heisst wir können in der Binomialverteilung p =
und q = 1 − nµ setzen. Dann erhalten wir
n x n−x
P (X = x) =
p q
x
n(n − 1)(n − 2) · · · (n − x + 1) µ x µ n−x
=
1−
x!
n
n
µx µ n n(n − 1)(n − 2) · · · (n − x + 1) µ −x
=
1−
·
1
−
x
x!
n
n
n x
n
µ
µ
1
2
x−1
µ −x
=
1−
·
1−
1−
··· 1 −
· 1−
.
x!
n
n
n
n
n
µ
n
Denken wir daran, dass hier µ und x feste gegebene Zahlen sind, während dem n gegen
unendlich strebt. Wir erhalten einerseits
µ n
lim 1 −
= e−µ
n→+∞
n
und andererseits
1
2
x−1
µ −x
lim
1−
1−
··· 1 −
· 1−
= (1 · 1 · · · 1) · 1 = 1
n→+∞
n
n
n
n
60
Kapitel 6. Diskrete Zufallsgrössen und Verteilungen
und damit die Grenzverteilung
µx −µ
e .
x!
Die entstandene Verteilung heisst Poissonverteilung mit dem positiven Parameter µ und
x ∈ N0 .
Da die Poissonverteilung ein Grenzfall der Binomialverteilung ist, kann je nach Genauigkeitsansprüchen für etwa p ≤ 0.1 und n ≥ 100 statt der Binomialverteilung auch die Poissonverteilung verwendet werden.
Es gibt aber auch Aufgaben, die typische Aufgaben der Poissonverteilung selbst sind. Immer
dann, wenn ein Versuch zwei Ausfallsmöglichkeiten hat und keine endliche Anzahl n von
Versuchen gegeben ist, ist die Poissonverteilung anzuwenden. Eine durchschnittliche Anzahl
Erfolge, der Erwartungswert µ, muss dann gegeben sein.
In der praktischen Anwendung finden sich zahlreiche Beispiele für das Auftreten poissonverteilter Zufallsgrössen. So kann die Anzahl der auf einer Kreuzung innerhalb einer festen
Zeitspanne (eine Minute) vorbeifahrender Fahrradfahrer als poissonverteilt angesehen werden. Die Wahrscheinlichkeit dafür, dass in einer Minute genau x Fahrradfahrer vorbeifahren,
wenn die Anzahl der vorbeifahrenden Fahrradfahrer je Minute im Durchschnitt µ beträgt, ist
x
dann durch µx! e−µ gegeben. Weitere Beispiele für poissonverteilte Zufallsgrössen sind:
P (X = x) =
• Die Anzahl der innerhalb einer kurzen Zeitspanne zerfallenden Atome eines radioaktiven
Präparats.
• In einer Spinnerei die Anzahl der Fadenbrüche innerhalb einer vorgegebenen Zeitspanne
bei einer bestimmten Garnsorte.
• Die Anzahl der während einer festen Zeit beobachteten Sternschnuppen.
Dass die Poissonverteilung eine Wahrscheinlichkeitsverteilung ist, lässt sich mit Hilfe der
Reihenentwicklung der Exponentialfunktion einsehen.
∞
X
x=0
P (X = x) =
∞
X
µx
x=0
x!
−µ
e
−µ
=e
∞
X
µx
x=0
x!
= e−µ eµ = 1
Der Stichprobenraum der Poissonverteilung ist die Menge S = N0 .
Um die zum Teil recht mühsamen Berechnungen der Wahrscheinlichkeiten zu vereinfachen,
bedienen wir uns Taschenrechner oder Computer, in Excel benutzen wir den Befehl POISSON.
6.3.2
Erwartungswert und Varianz der Poissonverteilung
Der Erwartungswert der Poissonverteilung ergibt einerseits sich aus der Konstruktion als
Grenzfall der Binomialverteilung zu µ und andererseits durch direkte Berechnung mit Hilfe
von Formel 6.1.a
E(X) =
∞
X
x=0
−µ
x · P (X = x) = e
∞
∞
X
X
µx−1
µx
−µ
µ
=e µ
= e−µ eµ µ = µ.
(x − 1)!
x!
x=1
x=0
Die Varianz oder Streuung der Poissonverteilung folgt aus folgender Überlegung: Bekanntlich ist die Varianz der Binomialverteilung Var(X) = npq. Zur Herleitung der Poissonverteilung betrachteten wir den Grenzübergang n → +∞ unter Berücksichtigung, dass das Produkt
6.3. Die Poissonverteilung
61
µ = np gegen einen endlichen Wert strebte. Damit folgt im Grenzübergang
µ
Var(X) = lim npq = lim µ 1 −
= µ.
n→+∞
n→+∞
n
Somit folgt für die Standardabweichung der Poissonverteilung
σ=
√
µ.
Bei der Poissonverteilung sind Erwartungswert und Varianz gleich dem Parameter µ.
Beispiel 6.3.1. Die Wahrscheinlichkeit dafür, dass ein Produkt einem Qualitätstest nicht
genügt, betrage p = 0.001. Wir bestimmen die Wahrscheinlichkeit, dass von 5000 Produkten
mindestens zwei die Prüfung nicht überstehen.
Diese Aufgabe ist eigentlich eine Aufgabe der Binomialverteilung. Sie kann aber wegen dem
kleinen p und dem grossen n näherungsweise als Aufgabe der Poissonverteilung betrachtet
werden.
Es sei n = 5000, p = 0.001 also µ = np = 5, und X bezeichne die Anzahl Waren, die die
Prüfung nicht bestehen. Dann gilt
P (X < 2) = P (X = 0) + P (X = 1) =
50 −5 51 −5
e + e = 6e−5 = 0.04,
0!
1!
also P (X ≥ 2) = 1 − P (X < 2) = 0.96.
Aufgaben
Aufgabe 6.3.1. Zeichnen Sie je ein Histogramm für die Poissonverteilung mit µ = 2 und
µ = 8.
Aufgabe 6.3.2. Die Wahrscheinlichkeit dafür, dass ein Teilnehmer im Verlaufe einer Stunde
bei einer Telefonzentrale anruft, betrage 1%. Die Zentrale bedient 300 Teilnehmer. Wie gross
ist die Wahrscheinlichkeit, dass während einer Stunde genau vier Teilnehmer anrufen?
Aufgabe 6.3.3. Eine Firma stellt gleichartige Zubehörteile für Kraftfahrzeuge in grosser Zahl
her. Wir wissen, dass im Mittel 0.5% fehlerhaft sind. Wie gross ist die Wahrscheinlichkeit,
dass die Lieferung von 1000 genau 10 schadhafte Stücke enthält?
Aufgabe 6.3.4. Wie gross ist die Wahrscheinlichkeit, dass von einer Gruppe mit 730 Personen wenigstens drei am Oster- oder Pfingstsonntag geboren sind, wenn die Geburtstage
zufällig verteilt sind?
Aufgabe 6.3.5. Eine Stadt hat durchschnittlich zwei schwere Unfälle pro Woche. Wie gross
ist die Wahrscheinlichkeit für mehr als fünf Unfälle in einer Woche?
Aufgabe 6.3.6. In einem Hafen laufen wöchentlich im Mittel fünf Lastschiffe ein. Wie gross
ist die Wahrscheinlichkeit, dass dieser Mittelwert nächste Woche übertroffen wird?
Aufgabe 6.3.7. Dozent Steiner macht durchschnittlich zwei Fehler pro getippte LATEX-Seite.
Wie gross ist die Wahrscheinlichkeit, dass eine Seite fehlerfrei ist?
62
Kapitel 6. Diskrete Zufallsgrössen und Verteilungen
Aufgabe 6.3.8. Ein Prozent der Bevölkerung ist farbenblind. Welchen Umfang muss eine
Stichprobe mindestens haben, damit sie mit 95%-iger Wahrscheinlichkeit mindestens eine
farbenblinde Person hat?
Aufgabe 6.3.9. Die Wahrscheinlichkeit, dass ein Fluggast, der einen Platz reserviert hat,
nicht zum Flug erscheint, beträgt vier Prozent. Die Fluggesellschaft weiss dies und verkauft
75 für 73 verfügbare Plätze.
Wie gross ist die Wahrscheinlichkeit, dass alle Plätze besetzt sind und niemand auf den
nächsten Flug warten muss?
a. Lösen Sie die Aufgabe exakt mit einer Binomialverteilung.
b. Lösen Sie die Aufgabe mit einer Poissonnäherung.
Aufgabe 6.3.10. Nach der Beobachtung von Rutherford und Geiger gibt eine radioaktive
Substanz im Verlaufe von 7.5 s im Mittel 3.87 α-Teilchen ab. Bestimmen Sie die Wahrscheinlichkeit dafür, dass diese Substanz während einer Sekunde mindestens ein α-Teilchen emittiert.
Aufgabe 6.3.11. Eine Firma verkauft Saatgut in Päckchen von 1000 Samenkörnern verpackt.
Die Firma gibt an, dass durchschnittlich zwei Körner, die nicht der Sorte des Saatgutes
angehören, in einem Päckchen zu erwarten sind. Eine Stichprobe ergibt aber 6 Fremdkörner.
Formulieren Sie eine problembezogene Nullhypothese und untersuchen Sie, ob sie auf dem
Signifikanzniveau 5% abgelehnt werden kann.
Lösungen
Lösung 6.3.1. Siehe Excelfile: Lösung 6.3.1 Poissonverteilung.xls
Lösung 6.3.2. P (X = 4) = 0.1680
Lösung 6.3.3. P (X = 10) = 0.0181
Lösung 6.3.4. P (X ≥ 3) = 0.7619
Lösung 6.3.5. P (X > 5) = 0.0166
Lösung 6.3.6. P (X > 5) = 0.3840
Lösung 6.3.7. Die Antwort “unmöglich” ist frech! P (X = 0) = 0.1353.
Lösung 6.3.8. n ≥ 300
Lösung 6.3.9.
a. P (X = 73) = 0.2255.
b. P (X = 73) = 0.2240.
Lösung 6.3.10. P (X ≥ 1) = 0.4031
Lösung 6.3.11. Unter der Voraussetzung der Nullhypothese H0 : µ = 2 besteht nur eine
Wahrscheinlichkeit von etwa 1.7%, dass ein Päckchen 6 oder mehr Fremdkörner enthält: Da
eine solche Abweichung von der Nullhypothese nicht mit Zufall erklärt werden kann, wird die
Nullhypothese auf dem Niveau von 5% abgelehnt.
Kapitel 7
Stetige Zufallsgrössen und
Verteilungen
Die Zahlenwerte, die eine stetige Zufallsgrösse X annehmen kann, sind über ein ganzes Intervall I verteilt, welches beschränkt oder unbeschränkt sein kann. Die Wahrscheinlichkeitsverteilung kann nun nicht mehr als Liste angegeben werden. Zu jedem möglichen Wert x ∈ I
wird der Wert f (x) Wahrscheinlichkeitsdichte f angegeben. Es kann nur davon gesprochen
werden, dass x mit einer bestimmten Wahrscheinlichkeit in einem gewissen Teilintervall des
Intervalls I liegt.
7.1
Stetige Zufallsgrössen und Wahrscheinlichkeitsdichten
Beispiele von stetigen Zufallsgrössen sind viele physikalische Messungen. Wir können uns die
Verhältnisse bei stetigen Zufallsgrössen plausibel machen, wenn wir die Werte der diskreten
Zufallsgrösse beliebig zusammenrücken lassen. Aus den einzelnen Strecken, die im Histogramm
einer solchen auftreten, wird bei einer stetigen Zufallsgrösse eine Fläche, die durch die xAchse und die Kurve y = f (x) der so genannten Wahrscheinlichkeitsdichte f begrenzt
wird (siehe Abbildung 7.1.i). Dabei entspricht die Wahrscheinlichkeit, dass die Zufallsgrösse
y
y = f (x)
P
a
x1
x2 b
x
Abbildung 7.1.i: Wahrscheinlichkeitsdichte
X einen Wert zwischen x1 und x2 gerade der Masszahl der Fläche unter der Kurve y = f (x)
63
64
Kapitel 7. Stetige Zufallsgrössen und Verteilungen
über dem Intervall [x1 , x2 ] ⊆ [a, b], das heisst
P (x1 ≤ X ≤ x2 ) =
Z
x2
f (x) dx.
x1
Für die Verteilungsfunktion F einer stetigen Zufallsgrösse X, die jeden Wert in einem
bestimmten Intervall annehmen kann, gilt
Z x
Z x
F (x) = P (X ≤ x) =
f (x) dx =
f (t) dt.
a
a
Die nichtnegative Funktion f heisst Wahrscheinlichkeitsdichte von X. Wir stellen die
wichtigsten Eigenschaften der Funktionen F und f zusammen. Im Folgenden sei das Intervall I = ]−∞, ∞[. Bei einem (einseitig) beschränkten Intervall sind die Integrationsgrenzen
entsprechend abzuändern.
1. Die Funktion F ist stetig, monoton wachsend mit F (−∞) = 0 und F (+∞) = 1.
2. Der Gesamtflächeninhalt unter der Wahrscheinlichkeitsdichtekurve ist gleich 1, d.h.
Z ∞
f (x) dx = 1.
−∞
3. Es gilt
d
dx F (x)
= F ′ (x) = f (x) für alle x ∈ R.
4. Die Wahrscheinlichkeit ein Ereignis zwischen x1 und x2 zu erhalten, beträgt
Z x2
P (x1 ≤ X ≤ x2 ) =
f (x) dx = F (x2 ) − F (x1 ).
x1
y
1
F (x)
f (x)
x
x
Abbildung 7.1.ii: Verteilungsfunktion F und Wahrscheinlichkeitsdichte F ′ = f .
7.1.1
Die Gleichverteilung
Wir betrachten die Wahrscheinlichkeitsdichte
1 wenn 0 ≤ x ≤ 1
f (x) =
0 sonst.
7.1. Stetige Zufallsgrössen und Wahrscheinlichkeitsdichten
y
65
y
y = f (x)
1
1
y = F (x)
P
x1
x2 1
x
1
Abbildung 7.1.iii: Die Wahrscheinlichkeitsdichte der Gleichverteilung
x
Abbildung 7.1.iv: Die Verteilungsfunktion
der Gleichverteilung
Hierbei handelt es sich um die so genannte Gleichverteilung im Intervall I = [0, 1] (siehe
Abbildung 7.1.iii).
Natürlich gilt auch bei der Gleichverteilung die Normierungsbedingung (2) aus Kapitel 7.1,
d.h.
Z 1
Z ∞
f (x) dx =
1 dx = 1.
−∞
0
Die Wahrscheinlichkeit, dass die Zufallsgrösse X einen Wert zwischen x1 und x2 annimmt
beträgt
Z x2
Z x2
f (x) dx =
1 dx = x2 − x1 .
P (x1 ≤ X ≤ x2 ) =
x1
x1
Die Verteilungsfunktion ergibt sich hier zu

 0 wenn x < 0
F (x) =
x wenn 0 ≤ x ≤ 1

1 wenn 1 < x
(vgl. Abbildung 7.1.iv).
Aufgaben
Aufgabe 7.1.1. Es sei die Funktion
f (x) =
ax wenn 0 ≤ x ≤ 1
0
sonst
gegeben, wobei a ein positiver Parameter bezeichnet.
a. Bestimmen Sie den Parameter a so, dass f auf dem Intervall I = [0, 1] eine Wahrscheinlichkeitsdichte ist.
b. Berechnen Sie die Verteilungsfunktion F zu f und veranschaulichen Sie sich diese Funktionen in einem Grafen.
66
Kapitel 7. Stetige Zufallsgrössen und Verteilungen
c. Berechnen Sie die folgenden Wahrscheinlichkeiten für eine stetige Zufallsgrösse, die
gemäss dem obigen f verteilt ist und interpretieren Sie die Resultate geometrisch:
P
1
3
≤X≤
3
4
,
P
1
X≤
2
und
P
3
≤X .
4
Aufgabe 7.1.2. Es sei die Funktion
f (x) =
a
1 + x2
gegeben, wobei a ein positiver Parameter bezeichnet.
a. Bestimmen Sie den Parameter a so, dass f auf dem Intervall I = R eine Wahrscheinlichkeitsdichte ist.
b. Berechnen Sie die Verteilungsfunktion F zu f und veranschaulichen Sie sich diese Funktionen in einem Grafen.
c. Berechnen Sie die folgenden Wahrscheinlichkeiten für eine stetige Zufallsgrösse, die
gemäss dem obigen f verteilt ist:
P
1
0≤X≤
2
,
P
1
X≤−
4
und
P
3
≤X .
2
Lösungen
Lösung 7.1.1.
a. a = 2
b.
c. P
1
3
≤X≤
3
4
Lösung 7.1.2.
a. a =

 0 wenn x < 0
F (x) =
x2 wenn 0 ≤ x ≤ 1

1 wenn 1 < x
= 0.451, P X ≤
1
2
= 0.25 und P
3
4
≤ X = 0.438
1
π
+
1
π
c. P 0 ≤ X ≤
1
2
b. F (x) =
1
2
arctan(x)
= 0.148, P X ≤ − 14 = 0.422 und P
3
2
≤ X = 0.187
7.1. Stetige Zufallsgrössen und Wahrscheinlichkeitsdichten
7.1.2
67
Erwartungswert und Varianz
Mit Hilfe der Analogie, dass der Summe bei einer diskreten Zufallsgrösse ein Integral bei einer
stetigen Zufallsgrösse entspricht erhalten wir die Beziehung für den Erwartungswert und die
Varianz.
Im Folgenden sei das Intervall I = ]−∞, ∞[. Bei einem (einseitig) beschränkten Intervall
sind die Integrationsgrenzen entsprechend abzuändern. Der Erwartungswert der stetigen
Zufallsgrösse X beträgt
Z
µ = E(X) =
∞
xf (x) dx,
−∞
die Varianz oder Streuung ist
2
2
σ = Var(X) = E (X − µ)
=
Z
∞
−∞
2
(x − µ) f (x) dx =
Z
∞
−∞
x2 f (x) dx − µ2 .
Beispiel 7.1.1. Wir betrachten noch einmal die Gleichverteilung aus Kapitel 7.1.1. Der
Erwartungswert ergibt sich folgendermassen
µ = E(X) =
Z
∞
xf (x) dx =
−∞
Z
1
0
und die Varianz
σ2 =
Z
∞
−∞
(x − µ)2 f (x) dx =
Die Standardabweichung ist also σ =
Z
0
1
1
x−
2
2
1
x2 1
x · 1 dx =
=
2 0 2
1
· 1 dx =
3
1
√
.
2 3
1
x−
2
3 1
1
= .
12
0
Aufgaben
Aufgabe 7.1.3. Es sei die Funktion
f (x) =
2x wenn 0 ≤ x ≤ 1
0 sonst
gegeben. Berechnen Sie den Erwartungswert und die Varianz.
Aufgabe 7.1.4. Es sei die Funktion
f (x) =
2 1
π 1 + x2
für x ∈ [−1, 1] gegeben. Berechnen Sie den Erwartungswert und die Varianz.
Lösungen
Lösung 7.1.3. µ =
2
3
und σ 2 =
Lösung 7.1.4. µ = 0 und σ 2 =
1
18
4
π
−1
68
7.2
Kapitel 7. Stetige Zufallsgrössen und Verteilungen
Die Normalverteilung
Die bekannteste und bei allen Problemen der Statistik am häufigsten verwendete Verteilung
einer stetigen Zufallsgrösse ist die Gausssche Normalverteilung.
7.2.1
Die standardisierte Normalverteilung
Die standardisierte Normalverteilung besitzt eine Dichtefunktion der Form
z2
1
f (z) = ϕ(z, 0, 1) = √ e− 2
2π
für − ∞ < z < ∞.
Es sei Z eine standardnormalverteilte Zufallsgrösse, dann schreiben wir Z ∼ N (0, 1).
ϕ(z, 0, 1)
1
−1
1
0
1
z
Abbildung 7.2.i: Die Wahrscheinlichkeitsdichte ϕ(z, 0, 1) der standardisierten Normalverteilung
Natürlich gilt auch bei der standardisierten Normalverteilung die Normierungsbedingung (2)
aus Kapitel 7.1.
In der Tat: Aus Gründen der Symmetrie der Wahrscheinlichkeitsdichte gilt
Z ∞
Z ∞
Z ∞
z2
z2
1
2
f (z) dz = √
e− 2 dz = √
e− 2 dz.
2π −∞
2π 0
−∞
√
2
Wir substituieren u2 = z2 also dz = 2 du. Es folgt1
√
Z ∞
2
√ 2 Z ∞ −u2
√ 2
2
π
− z2
√
e
dz = 2 √
e
du = 2 √
= 1.
2π 0
2π 0
2π 2
Da der Integrand keine elementare Stammfunktion besitzt, benutzen wir zur expliziten Berechnung solcher Integrale meistens Tabellen oder einen Computer, z.B. in Excel mit dem
Befehl NORMVERT oder STANDNORMVERT. Mit Tafel T.1 lassen sich alle Aufgabenstellungen
zur standardisierten Normalverteilung lösen. Sie enthält die Werte für das bestimmte Integral
Z z
z2
1
P (Z ≤ z) = Φ(z, 0, 1) = √
e− 2 dz
2π −∞
in Funktion von z ∈ R (siehe Abbildung 7.2.ii). Ferner gilt, wie entsprechend bei allen Wahr1
Das folgende bestimmte Integral, dessen Berechnung schwierig ist, da es keine elementare Stammfunktion
besitzt, kann in Kapitel A.3 gefunden werden
√
Z ∞
2
π
e−u du =
.
2
0
Es dient zur weiteren Berechnung der auftretenden Integrale.
7.2. Die Normalverteilung
69
ϕ(z, 0, 1)
Φ(z, 0, 1)
0
z
z
Abbildung 7.2.ii: Verteilung Φ(z, 0, 1) der standardisierten Normalverteilung N (0, 1)
scheinlichkeitsverteilungen: Die Wahrscheinlichkeit dafür, dass die standardnormalverteilte
Zufallsgrösse Z ∼ N (0, 1) Werte zwischen z1 und z2 annimmt, beträgt
Z z2
z2
1
P (z1 ≤ Z ≤ z2 ) = √
e− 2 dz = Φ(z2 , 0, 1) − Φ(z1 , 0, 1).
2π z1
Beispiel 7.2.1. Es sei Z ∼ N (0, 1) eine standardnormalverteilte Zufallsgrösse. Wir berechnen
die Wahrscheinlichkeit
Z 2.45
z2
1
P (1 ≤ Z ≤ 2.45) = √
e− 2 dz = Φ(2.45, 0, 1) − Φ(1, 0, 1).
2π 1
In der Tafel T.1 finden wir Φ(1, 0, 1) = 0.8413 und Φ(2.45, 0, 1) = 0.9929. Also folgt durch
Subtraktion die gesuchte Wahrscheinlichkeit
P (1 ≤ Z ≤ 2.45) = 0.9929 − 0.8413 = 0.1516.
Bemerkung 7.2.1. Natürlich gilt Φ(−∞, 0, 1) = 0 und Φ(+∞, 0, 1) = 1. Wieso?
Aufgaben
Aufgabe 7.2.1. Bestimmen Sie die folgenden Wahrscheinlichkeiten einer standardisierten
Normalverteilung, d.h. Z ∼ N (0, 1).
a. Ein-σ-Bereich: P (−1 ≤ Z ≤ 1)
b. Zwei-σ-Bereich: P (−2 ≤ Z ≤ 2)
c. Drei-σ-Bereich: P (−3 ≤ Z ≤ 3)
d. P (Z ≤ 1)
e. P (|Z| ≥ 12 )
f. P (−3 ≤ Z ≤ 1)
Aufgabe 7.2.2. Beweisen Sie, dass die standardisierte Normalverteilung den Erwartungswert
µ = 0 und die Varianz σ 2 = 1 besitzt.
70
Kapitel 7. Stetige Zufallsgrössen und Verteilungen
Lösungen
Lösung 7.2.1.
a. P (−1 ≤ Z ≤ 1) = 0.6827
b. P (−2 ≤ Z ≤ 2) = 0.9545
c. P (−3 ≤ Z ≤ 3) = 0.9973
d. P (Z ≤ 1) = 0.8413
e. P (|Z| ≥ 12 ) = 0.6171
f. P (−3 ≤ Z ≤ 1) = 0.8400
Lösung 7.2.2. Benutzen Sie das bestimmte Integral
7.2.2
R∞
0
2
e−u du =
√
π
2 .
Die Normalverteilung mit den Parametern µ und σ 2
Die stetige Zufallsgrösse X, die alle reellen Werte zwischen −∞ und +∞ annehmen kann,
besitzt eine Normalverteilung mit den Parametern µ und σ 2 , wenn ihre Dichte durch
(x−µ)2
1
f (x) = ϕ(x, µ, σ 2 ) = √
e− 2σ2
2πσ 2
für − ∞ < x < ∞
gegeben ist. Symbolisch schreiben wir X ∼ N (µ, σ 2 ). Bei bekannten Werten µ und σ ist die
Gestalt der Dichtefunktion völlig bestimmt (siehe Abbildung 7.2.iii).
ϕ(x, µ, σ 2 )
σ
µ−σ
σ
µ
µ+σ
x
Abbildung 7.2.iii: Die Wahrscheinlichkeitsdichte ϕ(x, µ, σ 2 ) der Normalverteilung mit den
Parametern µ und σ 2
Tragen wir die Dichte ϕ in Abhängigkeit von x in ein kartesisches Koordinatensystem ein,
so ergibt sich die bekannte Gestalt der Gaussschen Glockenkurve. Das Maximum von ϕ
liegt bei x = µ und beträgt √ 1 2 . Die Dichte ist symmetrisch bezüglich x = µ und nähert
2πσ
sich für x → ±∞ asymptotisch der x-Achse. Die Wendepunkte liegen bei x = µ ± σ. Damit
ist die Glockenkurve um so höher und steiler, je kleiner σ ist.
Die Verteilungsfunktion erhalten wir durch Integration der Dichte
Z x
(x−µ)2
1
2
F (x) = Φ(x, µ, σ ) = √
e− 2σ2 dx.
2πσ 2 −∞
7.2. Die Normalverteilung
71
Für obiges Integral gibt es keine elementare Stammfunktion, dies ist aber kein Problem, da
für die Anwendungen stets Tafeln oder Computerprogramme (z.B. Excel) verwendet werden
können.
Bemerkung 7.2.2. Natürlich gilt Φ(−∞, µ, σ 2 ) = 0 und Φ(+∞, µ, σ 2 ) = 1. Wieso?
Durch eine Massstabsänderung auf der Koordinatenachse und einer Nullpunktverschiebung
auf der x-Achse
x−µ
z=
σ
kann von der Normalverteilung mit den Parametern µ und σ 2 zur standardisierte Normalverteilung mit den Parametern µ = 0 und σ 2 = 1 übergegangen werden.
Der Erwartungswert und die Varianz oder Streuung der normalverteilten Zufallsgrösse
X beträgt
E(X) = µ und Var(X) = σ 2 .
Die Parameter der Normalverteilung lassen sich damit leicht deuten: µ ist der Erwartungswert
der Zufallsgrösse X und σ 2 die Varianz.
7.2.3
Transformation auf die standardisierte Normalverteilung
Zur konkreten Berechnung von Wahrscheinlichkeiten bei der Normalverteilung mit den Parametern µ und σ 2 benutzen wir einen Computer oder die Tafel T.1 für die standardisierte
Normalverteilung, nachdem wir die Grenzen des interessierenden Intervalls transformiert
haben. Der ganze Rechnungsablauf stellt nichts anderes dar, als eine Substitution eines Integrals. Es gilt nämlich mit der Substitution
z=
x−µ
σ
die Beziehung (siehe Abbildung 7.2.iv)
Z x2
(x−µ)2
1
P (x1 ≤ X ≤ x2 ) = √
e− 2σ2 dx = Φ(x2 , µ, σ 2 ) − Φ(x1 , µ, σ 2 )
2πσ 2 x1
Z x2 −µ
σ
z2
1
=√
e− 2 dz = Φ x2σ−µ , 0, 1 − Φ x1σ−µ , 0, 1
2π x1σ−µ
und im Falle von unbeschränkten Intervallen (siehe Abbildungen 7.2.v und 7.2.vi)
P (X ≤ x2 ) = Φ(x2 , µ, σ 2 ) = Φ x2σ−µ , 0, 1 ,
P (x1 ≤ X) = 1 − P (X < x1 ) = 1 − Φ(x1 , µ, σ 2 ) = 1 − Φ x1σ−µ , 0, 1 .
Die letzte Beziehung folgt direkt aus der Symmetrie der Normalverteilung bezüglich x = µ
und der Normierung des gesamten Flächeninhalts unter der Glockenkurve auf Eins. Die explizite Berechnung der gesuchten Wahrscheinlichkeiten wird also so durchgeführt, dass aus den
Grenzen x1 und x2 (diese können x1 = −∞ und/oder x2 = ∞ betragen) die entsprechenden
z1 =
x1 − µ
σ
und
z2 =
x2 − µ
σ
berechnet werden und dann mit Hilfe von Tafel T.1 wie in Kapitel 7.2.1 vorgegangen wird.
72
Kapitel 7. Stetige Zufallsgrössen und Verteilungen
ϕ(x, µ, σ 2 )
P (x1 ≤ X ≤ x2 )
x1
x2
x
Abbildung 7.2.iv: Die Wahrscheinlichkeit P (x1 ≤ X ≤ x2 ) = Φ(x2 , µ, σ 2 ) − Φ(x1 , µ, σ 2 )
ϕ(x, µ, σ 2 )
ϕ(x, µ, σ 2 )
P (X ≤ x2 )
P (x1 ≤ X)
x2
x
x1
Abbildung 7.2.v: Die Wahrscheinlichkeit
P (X ≤ x2 ) = Φ(x2 , µ, σ 2 ).
x
Abbildung 7.2.vi: Die Wahrscheinlichkeit
P (x1 ≤ X) = 1 − Φ(x1 , µ, σ 2 )
Beispiel 7.2.2. Es sei X ∼ N (2, 4) eine normalverteilte Zufallsgrösse mit den Parametern
µ = 2 und σ 2 = 4. Wir berechnen die Wahrscheinlichkeit
Z 2.45
(x−2)2
1
P (1 ≤ X ≤ 2.45) = √
e− 2·4 dx.
2π · 4 1
Also folgt mit der Transformation
z1 =
1−2
= −0.5
2
und
z2 =
2.45 − 2
= 0.225,
2
dass
P (1 ≤ X ≤ 2.45) = P (−0.5 ≤ Z ≤ 0.225) = Φ(0.225, 0, 1) − Φ(−0.5, 0, 1).
In der Tafel T.1 finden wir Φ(−0.5, 0, 1) = 1−Φ(0.5, 0, 1) = 0.3085 und Φ(0.225, 0, 1) = 0.5890.
Also folgt durch Subtraktion die gesuchte Wahrscheinlichkeit
P (1 ≤ X ≤ 2.45) = 0.5890 − 0.3085 = 0.2805.
7.2.4
Quantile der standardisierten Normalverteilung
Wichtig im Hinblick auf statistische Hypothesentests ist die umgekehrte Frage nach den
Schranken, bis zu denen die von der Zufallsgrösse angenommenen Werte mit einer vorgegebenen Wahrscheinlichkeit liegen müssen.
7.2. Die Normalverteilung
73
Es sei q ∈ ]0, 1[ und Z ∼ N (0, 1) standardnormalverteilt. Dann suchen wir zq ∈ R so, dass
P (Z ≤ zq ) = q
gilt (siehe Abbildung 7.2.vii). Wegen der Symmetrie der Dichte der standardisierten Normalverteilung befindet sich eine gleich grosse Fläche links von zq wie rechts von z1−q , so dass
z1−q = −zq
gilt. Wir nennen zq das q-Quantil oder q-Perzentil der standardisierten Normalverteilung.
ϕ(z, 0, 1)
q
0
1−q
zq
z
Abbildung 7.2.vii: Das q-Quantil zq der standardisierten Normalverteilung N (0, 1). Es gilt
z1−q = −zq .
Je nach Problemstellung betrachten wir dabei
1. einseitige Quantile: Bis zu welchem Wert zα sind alle Werte mit Wahrscheinlichkeit
α zu erwarten? Hier wird nach dem Argument zα gefragt, für das die Fläche unter der
Dichtekurve von −∞ bis zα gerade gleich α wird, d.h.
P (Z ≤ zα ) = α
(siehe Abbildung 7.2.viii).
h
i
2. zweiseitige Quantile: Innerhalb von welchem Intervall z α2 , z1− α2 sind alle Werte mit
Wahrscheinlichkeit 1 − α zu erwarten, d.h.
P Z ≤ z α2 und z1− α2 ≤ Z = 1 − α
(siehe Abbildung 7.2.ix).
Einige häufig benutzte Quantile finden sich in Tafel T.2. Diese lassen sich auch mit einem
Computerprogramm leicht berechnen, z.B. in Excel mit dem Befehl NORMINV.
7.2.5
Anwendung der Normalverteilung in der Fehlerrechnung
Die Normalverteilung wurde von Carl Friedrich Gauss (siehe Abbildung 7.2.x) im Jahre 1809
im Zusammenhang mit seiner Theorie der Beobachtungsfehler entdeckt. Sie wird daher auch
Fehlerkurve genannt. Führen wir in der Praxis wiederholt Messungen an ein und demselben
Gegenstand, etwa der Länge eines Stabes oder Durchmessers einer Welle durch, so ergibt
bekanntlich nicht jede Messung den gleichen Wert. Die erhaltenen Werte weisen kleinere oder
74
Kapitel 7. Stetige Zufallsgrössen und Verteilungen
ϕ(z, 0, 1)
ϕ(z, 0, 1)
1−α
1−α
α
2
α
zα
0
z
Abbildung 7.2.viii: Einseitiges Quantil zα
der Standardnormalverteilung
z α2
α
2
0
z1− α2
z
Abbildung 7.2.ix: Zweiseitige Quantile z α2
und z1− α2 der Standardnormalverteilung
Abbildung 7.2.x: Carl Friedrich Gauss, 1777-1855
grössere Abweichungen voneinander und von einem bestimmten “wahren” Wert, dem Mittelwert, auf. Diese Abweichungen oder Beobachtungsfehler haben verschiedene Ursachen, wie
zum Beispiel Schwankungen der Raumtemperatur, Einflüsse der Umgebung auf das Messgerät, Ungenauigkeiten der Messskala, Wechsel im Prüfpersonal usw. Nach ihrer Herkunft
unterscheiden wir zwischen systematischen und zufälligen Fehlern. Die groben Fehler (z.B.
Ablesefehler oder defekte Instrumente) schliessen wir von vornherein aus, da sie im Prinzip
vermeidbar sind.
1. Systematische Fehler: Systematische Fehler sind oft nicht vermeidbar. Zu ihnen
gehören Nullpunktsverschiebungen oder Skalenfehler. Die Ursache kann bei Mängeln
an den Instrumenten liegen. Systematische Fehler können meistens beseitigt werden.
2. Zufällige Fehler: Sie ergeben sich aus dem Zusammenwirken zahlreicher Fehlerursachen, die vom Beobachter nicht erfasst oder beseitigt werden können. Zufällige Fehler
sind unvermeidbar. Sie entstehen zum Beispiel aus Mängeln des Beobachters, Witterungseinflüssen, Erschütterungen, Ablagerung von Staub usw. Solche Einflüsse ergeben
Zufälligkeiten. Solche zufällige Fehler, Zufallsgrössen, verursachen bei Messungen Abweichungen nach beiden Seiten vom wahren Wert. Sprechweise: Die Messwerte streuen.
Mit Hilfe der Theorie der Grenzwertsätze können Verteilungen für diese zufälligen Fehler
gefunden werden. In den meisten Fällen, wo durch additive Überlagerung einer grossen Anzahl
voneinander unabhängiger, zufälliger Effekte entstehen, wobei jeder dieser Effekte nur einen
unbedeutenden Einfluss auf den zufälligen Gesamtfehler hat, ergibt sich als Grenzverteilung
7.2. Die Normalverteilung
75
die Normalverteilung. Diesem Sachverhalt liegt der Zentrale Grenzwertsatz zu Grunde,
der aussagt, dass unter bestimmten Bedingungen jede Summe (unabhängiger) Zufallsgrössen
näherungsweise normalverteilt ist. Aus diesem Grund können in den meisten praktischen
Anwendungsfälle die Beobachtungsfehler bei Messvorgängen wenigstens näherungsweise als
normalverteilt angesehen werden.
Aufgaben
Aufgabe 7.2.3. Berechnen Sie
a. die Wahrscheinlichkeit P (−4 ≤ X ≤ 8) wenn X ∼ N (2, 4);
b. die Wahrscheinlichkeit P (2 ≤ X) wenn X ∼ N (1, 9);
c. die Wahrscheinlichkeit P (|X| ≤ 1) wenn X ∼ N (−1, 16).
Aufgabe 7.2.4. Ein Werkstück besitze die gewünschte Qualität, wenn die Abweichung seiner Masse von den Nennwerten dem Absolutbetrag nach 3.45 mm nicht überschreiten. Die
zufällige Abweichungen der Abmessungen von ihren Nennwerten seien normalverteilt mit der
Standardabweichung σ = 3 mm. Systematische Abweichungen liegen nicht vor. Bestimmen
Sie die mittlere Anzahl Werkstücke mit der gewünschten Qualität, wenn 24 Werkstücke hergestellt werden.
Aufgabe 7.2.5. Eine Maschine stellt Metallplatten mit der mittleren Dicke µ = 8.00 mm
und der Standardabweichung σ = 0.05 mm her. Für die leicht schwankende Plattendicke gelte
die Normalverteilung.
a. Mit wie viel Prozent Ausschuss ist zu rechnen, wenn die Dicke nicht über 8.10 mm liegen
soll?
b. Mit wie viel Prozent Ausschuss ist zu rechnen, wenn die Dicke zwischen 7.92 mm und
8.08 mm liegen soll?
c. Welche Abweichung von 8.00 mm ist noch erlaubt bei höchstens 5% Ausschuss?
Aufgabe 7.2.6. Eine Maschine stellt Metallplatten mit der mittleren Dicke µ = 8.00 mm
und der Standardabweichung σ = 0.05 mm her. Für die leicht schwankende Plattendicke gelte
die Normalverteilung.
a. Welche beidseitige Abweichung ∆x vom Mittelwert µ = 8.00 mm müsste zugelassen
werden, damit der Ausschuss nicht mehr als 4% beträgt?
b. Wie viel Prozent Ausschuss sind zu erwarten, wenn die Platten nicht dünner als 7.95 mm
und nicht dicker als 8.12 mm sein sollen?
Aufgabe 7.2.7. In einer Ebene liegen im Abstand L = 10 cm zwei parallele Geraden g1
und g2 , dabei ist g2 die y-Achse. Auf diese Ebene werfen wir Kreisscheiben mit dem Radius
R = 8 cm. Die Lage der Kreismittelpunkte kann, wenn wir von der y-Richtung absehen, als
normalverteilt in x-Richtung gelten, wobei das Streuzentrum auf der Geraden h liegt und
die Standardabweichung σ = 10 cm beträgt. Der Abstand der beiden Geraden h und g2 sei
b = 5 cm. Die Anordnung der Geraden sei von links nach rechts, zuerst g1 , dann g2 und h.
Bestimmen Sie die Wahrscheinlichkeit, dass bei einem Wurf der Kreis
76
Kapitel 7. Stetige Zufallsgrössen und Verteilungen
a. mindestens eine der Geraden g1 und g2 teilweise überdeckt.
b. beide Geraden teilweise überdeckt.
Aufgabe 7.2.8. Eine Abfüllmaschine füllt ein Erzeugnis in Dosen. Das Nettogewicht einer Dose ist eine normalverteilte Zufallsgrösse. Die Standardabweichung, als Mass für die
Präzision mit der die Maschine arbeitet, sei 8 g. Auf welchen Mittelwert ist die Maschine
einzustellen, wenn höchstens 5% aller Dosen weniger als 250 g enthalten sollen?
Aufgabe 7.2.9. Bei der Herstellung von Kondensatoren sei die Kapazität eine normalverteilte Zufallsgrösse mit µ = 5 µF und σ = 0.02 µF. Welcher Ausschussanteil ist zu erwarten,
wenn die Kapazität
a. mindestens 4.98 µF betragen soll?
b. höchstens 5.05 µF betragen soll?
c. um maximal 0.03 µF vom Sollwert µ = 5 µF abweichen darf?
Aufgabe 7.2.10. Der Durchmesser X von serienmässig gefertigten Kugeln sei normalverteilt.
Von zwei Sieben weist das eine Löcher mit einem Durchmesser von 10 mm auf, das andere
solche mit einem Durchmesser von 13 mm. Damit werden die Wahrscheinlichkeiten
P (X ≤ 10 mm) = 0.1736
und
P (X ≥ 13 mm) = 0.1446
bestimmt. Wie lauten die Parameter µ und σ der Verteilung von X?
Aufgabe 7.2.11. Es sei X ∼ N (µ, σ 2 )-verteilt mit µ = 8 und σ = 3. Bestimmen Sie x so,
dass P (x ≤ X ≤ 10) = 0.7 ist.
Lösungen
Lösung 7.2.3.
a. P (−4 ≤ X ≤ 8) = 0.9973
b. P (2 ≤ X) = 0.3694
c. P (|X| ≤ 1) = 0.1915
Lösung 7.2.4. n = 18 Stück
Lösung 7.2.5.
a. P (8.10 mm ≤ X) = 2.3%
b. P (X ≤ 7.92 mm und 8.08 mm ≤ X) = 11.0%
c. ±0.098 mm
Lösung 7.2.6.
a. ∆x = ±0.1027 mm
7.3. Normalverteilung als Grenzfall der Binomialverteilung
77
b. P (X ≤ 7.95 mm und 8.12 mm ≤ X) = 16.7%
Lösung 7.2.7.
a. P (−18 cm ≤ X ≤ 8 cm) = 0.6072
b. P (−8 cm ≤ X ≤ −2 cm) = 0.1452
Lösung 7.2.8. µ = 263.2 g
Lösung 7.2.9.
a. 1 − P (4.98 µF ≤ X) = 15.9%
b. 1 − P (X ≤ 5.05 µF) = 0.6%
c. P (|X − 5.00 µF| ≥ 0.03 µF) = 13.4%
Lösung 7.2.10. Beachten Sie, dass der Durchmesser zwischen 10 mm und 13 mm liegen muss.
Dann folgt µ = 11.41 mm und σ = 1.5 mm.
Lösung 7.2.11. x = 2.9915
7.3
Normalverteilung als Grenzfall der Binomialverteilung
Die Binomialverteilung kann gemäss Kapitel 6.3.1 für kleine Erfolgswahrscheinlichkeiten p und
grosse Versuchsanzahl n durch die Poissonverteilung angenähert werden. Ist p nicht klein, so
können wir eine andere Näherung benützen: die Normalverteilung.
Es handelt sich dabei um einen Spezialfall des Zentralen Grenzwertsatzes, dem so genannten Grenzwertsatz von de Moivre und Laplace. Dieser besagt, dass eine binomialverteilte Zufallsgrösse X mit Erwartungswert E(X) = np und Varianz Var(X) = np(1 − p),
näherungsweise normalverteilt mit den Parametern
µ = np
und
σ 2 = np(1 − p)
ist. Danach können wir für eine binomialverteilte Zufallsgrösse X für grosses n die Näherungsformel
!
!
x2 − np
x1 − np
P (x1 ≤ X ≤ x2 ) ≈ Φ p
, 0, 1 − Φ p
, 0, 1
(7.3.a)
np(1 − p)
np(1 − p)
verwenden. In der Literatur wird diese Näherung als Faustregel für
9
n>
p(1 − p)
empfohlen2 .
Dieser Grenzübergang bedeutet geometrisch, dass sich dass Histogramm der Binomialverteilung immer mehr der Normalverteilung annähert (siehe Abbildungen 7.3.i und 7.3.ii). Der
Beweis dieser Aussage finden Sie in jedem anständigen Lehrbuch über mathematische Statistik, zum Beispiel in [1].
2
Wenn die Faustregel nicht erfüllt ist, dann können wir mit einer so genannten Stetigkeitskorrektur
arbeiten, d.h.
!
!
x2 + 12 − np
x1 − 12 − np
P (x1 ≤ X ≤ x2 ) ≈ Φ p
, 0, 1 − Φ p
, 0, 1
np(1 − p)
np(1 − p)
Die Korrekturen ± 21 in den Transformationsformeln müssen vor allem bei kleinen Werten von σ 2 = np(1 − p)
verwendet werden. Sie stammen aus der Annäherung des Flächeninhalts durch Rechtecke.
78
Kapitel 7. Stetige Zufallsgrössen und Verteilungen
P (X = x)
P (X = x)
0.15
0.15
0.10
0.10
0.05
0.05
5
10
15
20
25
30
35
40
45
50
x
Abbildung 7.3.i: Histogramm der Binomialverteilung bei p = q = 0.5 und n =
50 und die Approximation mit der Normalverteilung mit den Parametern µ =
25 und σ = 3.536. Die Faustregel n >
9
p(1−p) = 36 ist erfüllt.
5
10
15
20
25
30
35
40
45
50
x
Abbildung 7.3.ii: Histogramm der Binomialverteilung bei p = 0.75, q = 0.25
und n = 50 und die Approximation mit
der Normalverteilung mit den Parametern
µ = 37.5 und σ = 3.062. Die Faustregel
9
= 48 ist erfüllt.
n > p(1−p)
Beispiel 7.3.1 (Galtonsches Brett). Mit Hilfe eines Zufallsapparates von Francis Galton
(siehe Abbildung 7.3.iii), des so genannten Galtonschen Brettes, können wir die Normalverteilung experimentell erzeugen.
Wir lassen kleine Kugeln durch ein System von Nägeln, die gemäss der Abbildung 7.3.iv angeordnet sind, hindurch rollen und in n + 1 Fächer, die nach der n-ten Nagelreihe angebracht
sind, fallen.
Abbildung 7.3.iii: Francis Galton, 18221911
Abbildung 7.3.iv: Galtonsches Brett, Bild
aus [6]
Wir erhalten stets eine Verteilung der Kugeln auf die Fächer, die sich durch eine Glockenkurve darstellen lässt. Wieso? Wir verfolgen eine Kugel auf ihrem Weg. Sie möge nach anstossen
an einem Nagel der ersten Reihe den Weg links wählen, nach dem Anstossen an einem Nagel
der zweiten Reihe nochmals links, dann rechts, links, usw. Das Fach, das sie zuunterst erreichen wird, ist nun offenbar durch diese Aufeinanderfolge von links und rechts, total n Mal,
bestimmt. Diesen Vorgang können wir auch so charakterisieren: Wenn die Kugel den Weg
links einschlägt, notieren wir 0, wenn sie den Weg rechts einschlägt, notieren wir 1. Dann ist
7.3. Normalverteilung als Grenzfall der Binomialverteilung
79
ihr Fach durch 0 + 0 + 1 + 0 + · · · , also durch eine Summe von n zufälligen Grössen, die alle
nur die Werte Null oder Eins - jedes Mal mit der Wahrscheinlichkeit 12 - annehmen können.
Diese Summen, und damit die Kugeln in den Fächern, sind nach dem Grenzwertsatz von de
Moivre und Laplace normalverteilt (siehe Abbildung 7.3.iv).
Aufgaben
Aufgabe 7.3.1. Eine Fabrik produziert Präzisonswerkstücke, die mit einer Wahrscheinlichkeit p = 0.001 defekt sind. Wie gross ist die Wahrscheinlichkeit, dass eine Lieferung von
n = 500 Werkstücken mindestens 2 unbrauchbare Werkstücke enthält.
a. Rechnen Sie genau mit einer Binomialverteilung.
b. Approximieren Sie mit einer Poissonverteilung.
c. Approximieren Sie mit einer Normalverteilung.
Aufgabe 7.3.2. In einem Land werden stündlich im Mittel 25 Kinder geboren. Wie gross ist
die Wahrscheinlichkeit, dass die Zahl unter 20 sinkt.
Lösungen
Lösung 7.3.1.
a. PBinom (2 ≤ X) = 0.09013
b. PPoisson (2 ≤ X) ≈ 0.09020
9
c. Da 500 > p(1−p)
= 9009 nicht erfüllt ist, müssen wir die Stetigkeitskorrektur benutzen
und erhalten PNorm (2 ≤ X) ≈ 0.07855. (Im Gegensatz dazu würden wir das unbrauchbare Resultat PNorm (2 ≤ X) ≈ 0.016903 ohne Stetigkeitskorrektur erhalten.)
Lösung 7.3.2. Die Anzahl der stündlichen Geburten besitzt Poissonverteilung mit µ = 25
und σ = 5. Es folgt PPoisson (X ≤ 19) = 0.1336.
Wegen dem relativ grossen Erwartungswert kann die Normalverteilung als Näherung verwendet werden. Es folgt PNorm (X ≤ 19) ≈ 0.1357 (mit Stetigkeitskorrektur).
80
Kapitel 7. Stetige Zufallsgrössen und Verteilungen
Kapitel 8
Statistische Tests
Statistische Tests dienen dazu, an Hand von Stichproben Annahmen (sog. Hypothesen1 )
über das Verteilungsgesetz in der Grundgesamtheit zu überprüfen. Oft existiert über die
unbekannte Verteilungsfunktion F oder ihre unbekannten Parameter, wie zum Beispiel µ und
σ 2 bei der Normalverteilung oder p bei der Binomialverteilung, eine bestimmte Vorstellung.
Diese wird in Gestalt einer Nullhypothese, die mit H0 bezeichnet wird, ausgedrückt. Wird
auch eine die Nullhypothese ausschliessende Alternative betrachtet, so bezeichnen wir diese
Alternativhypothese mit H1 . Das Anliegen eines statistischen Tests zur Prüfung von H0
gegen H1 ist es, eine Entscheidung darüber zu treffen, ob die aus einer konkreten Stichprobe
entnommenen Angaben zur aufgestellten Hypothese H0 im Widerspruch stehen oder nicht,
d.h., ob H0 abzulehnen ist oder nicht.
8.1
Das Prinzip des statistischen Tests
Wir beginnen mit einem ausführlichen Einführungsbeispiel, bei dem wir den Parameter p der
Binomialverteilung einem statistischen Test unterziehen.
Beispiel 8.1.1. Bei 12000 Würfen eines Würfels wurden x = 2107 Sechsen gezählt. Ist dieser
Würfel unsymmetrisch, d.h. werden Sechsen bevorzugt gewürfelt?
Uns scheint die Anzahl Sechsen ein bisschen zu gross. Da es aber in den modernen Natur- und
Ingenieurwissenschaften nicht erlaubt ist, aus dem Bauch Gefühle zu äussern, benötigen wir
einen rigorosen statistischen Test, um unseren Eindruck wissenschaftlich zu belegen. Dazu
bezeichnen wir mit X die Zufallsgrösse der Anzahl “Sechsen” unter n = 12000 Würfen,
und mit p die Wahrscheinlichkeit mit dem betrachteten Würfel eine “Sechs” zu würfeln.
Anschliessend formulieren wir zwei sich ausschliessende Hypothesen:
Nullhypothese
H0 : p = 16 , d.h., der Würfel ist symmetrisch.
Alternativhypothese H1 : p > 16 , d.h., es werden Sechsen bevorzugt gewürfelt.
Beachten Sie, dass sich die Hypothesen gegenseitig ausschliessen und sich nur auf die Ereignisse “Sechs” oder “nicht Sechs” beziehen. Wie die anderen Augenzahlen ausfallen ist nicht
von Belang.
Unter der Voraussetzung der Nullhypothese H0 berechnen wir nun den Erwartungswert
E(X) = np = 12000 ·
1
1
6
= 2000.
Hypothese enthält die Wörter hypo-thesis = das Unter-Gestellte.
81
82
Kapitel 8. Statistische Tests
In unserem Experiment stellen wir eine Abweichung vom Erwartungswert
x − E(X) = 2107 − 2000 = 107
fest. Nun bestimmen wir die Wahrscheinlichkeit P (2107 ≤ X) einer so grossen oder grösseren
Abweichung vom Erwartungswert. Dazu benutzen wir den Grenzwertsatz von de Moivre
und Laplace (vgl. Gleichung (7.3.a)), d.h., wir approximieren2 die Binomialverteilung mit
einer Normalverteilung mit den Parametern
µ = np = 12000 ·
1
6
= 2000
und
σ 2 = np(1 − p) = 12000 ·
1
6
·
5
6
= 1666 23 .
Wir erhalten nun mit Tafel T.1


2107 − 2000
P (2107 ≤ X) ≈ 1 − Φ  q
, 0, 1 = 1 − Φ (2.621, 0, 1)
2
1666 3
= 1 − 0.9956 = 0.0044.
Die Wahrscheinlichkeit unter der Voraussetzung der Nullhypothese mindestens so viel Abweichung vom Erwartungswert zu erhalten, ist somit ausserordentlich klein. Dies erlaubt uns,
die Nullhypothese abzulehnen. Die Irrtumswahrscheinlichkeit dieses Schlusses entspricht
dem berechneten Wert P (2107 ≤ X) ≈ 0.0044.
Im Allgemeinen müssen wir uns entscheiden, wann eine berechnete Abweichung zur Ablehnung der Nullhypothese führen soll. Dazu wird eine Schranke α ∈ ]0, 1[, das so genannte Signifikanzniveau, gewählt. Ist die berechnete Wahrscheinlichkeit der Abweichung kleiner als
das Signifikanzniveau, so wird die Nullhypothese abgelehnt, sonst angenommen. Die zulässige
Grösse des Signifikanzniveaus α hängt stark vom Fachgebiet ab und ist eine Vereinbarungssache. Häufig verwendete Niveaus sind α = 0.01, 0.05 und 0.1.
Das Prinzip eines statistischen Tests oder Signifikanztest lässt sich in folgenden Schritten
zusammenfassen:
1. Aufstellen der Nullhypothese H0 und der Alternativhypothese H1 und Vorgabe
des Signifikanzniveaus α.
2. Bestimmen eines Ablehnungsbereichs in Abhängigkeit von α, für den die Wahrscheinlichkeit, dass die Stichprobenfunktion Werte aus dem Ablehnungsbereich annimmt,
höchstens gleich α ist.
3. Berechnung der Testgrösse aus der vorliegenden konkreten Stichprobe.
4. Statistischer Schluss: Liegt die Testgrösse im Ablehnungsbereichs, so wird H0 abgelehnt, sonst wird H0 angenommen.
2
Die Approximation ist erlaubt, da die Faustregel np(1 − p) = 1666 23 > 9 erfüllt ist.
8.2. Einseitiger und zweiseitiger Test
8.2
83
Einseitiger und zweiseitiger Test
In Beispiel 8.1.1 haben wir uns für die Abweichung vom Erwartungswert (nach einer Seite)
interessiert. Im Gegensatz dazu können wir auch Abweichungen nach beiden Seiten Beachtung schenken. In allen Fällen gehen wir von der Nullhypothese H0 : µ = µ0 aus. Für die
Alternativhypothese H1 bieten sich nun die nachfolgenden Möglichkeiten an, die je nach Aufgabenstellung angewandt werden müssen.
1. Zweiseitiger Test H1 : µ 6= µ0 . Zur Konstruktion des Ablehnungsbereiches wird der
Flächeninhalt α symmetrisch auf beiden Seiten der Kurve aufgeteilt, und es ergibt sich
einen zweiseitigen Ablehnungsbereich mit den beiden kritischen Grössen z α2 und z1− α2 .
Die Abweichung zwischen dem Stichprobenparameter und dem hypothetischen Wert µ0
1−α
α
2
α
2
µ0
z α2
Ablehnungsbereich
z1− α2
Annahmebereich
z
Ablehnungsbereich
Abbildung 8.2.i: H1 : µ 6= µ0 , zweiseitige
Fragestellung mit den kritischen Grössen
z α2 und z1− α2 .
wird nur dem Absolutbetrag nach beurteilt.
2. Einseitiger Test H1 : µ > µ0 (resp. H1 : µ < µ0 ). Zur Konstruktion des Ablehnungsbereiches wird der Flächeninhalt α nur auf einer Seite der Kurve abgeschnitten, und
es ergibt sich einen einseitigen Ablehnungsbereich mit der kritischen Grösse zα (resp.
z1−α ). Die damit verbundene einseitige Fragestellung liegt dann vor, wenn nur Abwei-
1−α
1−α
α
α
zα
Ablehnungsbereich
µ0
µ0
z
Annahmebereich
Abbildung 8.2.ii: H1 : µ < µ0 , einseitige untere Fragestellung mit der kritischen
Grösse zα .
Annahmebereich
z1−α
z
Ablehnungsbereich
Abbildung 8.2.iii: H1 : µ > µ0 , einseitige obere Fragestellung mit der kritischen
Grösse z1−α .
84
Kapitel 8. Statistische Tests
chungen nach einer Seite interessieren, d.h., wenn es zum Beispiel darauf ankommt zu
beurteilen, ob ein Stichprobenparameter nicht zu gross ist, während einem zu kleinen
Stichprobenparameter keine Bedeutung beigemessen wird. Hier müssen also grosse positive (resp. negative) Abweichungen zu einer Ablehnung der Nullhypothese führen.
Ob eine Hypothese mit einem zweiseitigen oder einseitigen Test zu prüfen ist, hängt vom
praktischen Problem ab und wird vor Testbeginn festgelegt. Sind keine Vorkenntnisse über
die Richtung der möglichen Abweichungen vorhanden, so wird ein zweiseitiger Test verwendet.
Ist von vornherein einer der Fälle µ > µ0 oder µ < µ0 ausgeschlossen, so wird ein einseitiger
Test zur Anwendung kommen.
Beispiel 8.2.1 (z-Test). Letztes Jahr waren 75% der SBB-Fahrgäste Inhaber von Halbtaxabonnementen. Bei einer kürzlich durchgeführten Fahrgastbefragung gaben 270 von 350 Befragten an, dass sie ein Halbtaxabonnement besitzen. Hat sich der Anteil der Besitzer von
Halbtaxabonnementen wesentlich verändert? Das Signifikanzniveau sei α = 10%.
Um diese Frage zu beantworten, führen wir einen statistischen Test nach obigem Prinzip
durch: Es sei p = 0.75 der relative Anteil von Halbtaxabonnementbesitzer im letzten Jahr.
Nun formulieren wir die Null- und Alternativhypothesen für einen statistischen Test:
H0 : p = 0.75, d.h., die Anzahl Halbtaxabonnementbesitzer ist gleich wie letztes Jahr.
H1 : p 6= 0.75, d.h., die Anzahl Halbtaxabonnementbesitzer hat sich verändert.
Es handelt sich hier um einen so genannten zweiseitigen Test, da hier die Alternativhypothese nur Werte p 6= 0.75 zulässt. Weiter beschreibe die Zufallsgrösse X die Anzahl der
Halbtaxabonnementbesitzer unter den n = 350 befragten Fahrgästen. Die Zufallsgrösse X
ist binomialverteilt. Wir berechnen den Erwartungswert und die Varianz unter Annahme der
Nullhypothese H0
E(X) = np = 262.5
und
Var(X) = np(1 − p) = 65.625.
Es stellt sich also die Frage, ob sich die Zahl der gezählten 270 Halbtaxabonnementbesitzer
signifikant vom Erwartungswert E(X) = 262.5 unterscheidet.
Weil np(1 − p) = 65.625 > 9 können wir die Binomialverteilung mit einer Normalverteilung
mit den Parametern µ = 262.5 und σ 2 = 65.625 approximieren (vgl. Grenzwertsatz von de
Moivre und Laplace, Gleichung (7.3.a)).
Durch eine Massstabsänderung auf der Koordinatenachse und einer Nullpunktverschiebung
auf der x-Achse
x−µ
z=
σ
kann von der Normalverteilung mit den Parametern µ und σ 2 zur standardisierte Normalverteilung mit den Parametern µ = 0 und σ 2 = 1 übergegangen werden.
Da es sich hier um einen zweiseitigen Test handelt, verteilen wir α = 0.10 = 0.05 + 0.05
gleichmässig auf beiden Seiten der Standardnormalverteilung (vgl. Abbildung 8.2.iv). Aus
der Beziehung
P (Z ≤ z0.05 ) = Φ (z0.05 , 0, 1) = 0.05
bestimmen wir mit Tafel T.2 oder einem Computerprogramm (z.B. Excel) die untere kritische
Grösse z0.05 = −1.645, d.h. das 0.05-Quantil z0.05 der Standardnormalverteilung; und aus der
Beziehung
P (z0.95 ≤ Z) = 1 − Φ (z0.95 , 0, 1) = 0.05
8.3. Mögliche Fehler bei statistischen Tests
85
0.90
0.05
z0.05
Ablehnungsbereich
0.05
0
z
Annahmebereich
z0.95
z
Ablehnungsbereich
Abbildung 8.2.iv: Bestimmung des 0.05-Quantils z0.05 = −1.645 und des 0.95-Quantils z0.95 =
1.645 bei der Standardnormalverteilung bei einer zweiseitigen Fragestellung. Die Testgrösse
z = 0.926 liegt im Annahmebereich, damit wird die Nullhypothese angenommen.
bestimmen wir die obere kritische Grösse z0.95 = 1.645, d.h. das 0.95-Quantil z0.95 der Standardnormalverteilung. Da die Standardnormalverteilung symmetrisch bezüglich µ = 0 ist,
folgt z0.95 = −z0.05 .
Die Berechnung der Testgrösse aus den vorliegenden Angaben ergibt
z=
270 − µ
270 − 262.5
= √
= 0.926.
σ
65.625
Es gilt nun z0.05 = −1.645 < z = 0.926 < z0.95 = 1.645, d.h., die Testgrösse z liegt im
Annahmebereich und somit lautet der statistische Schluss:
Wir nehmen die Nullhypothese auf dem Niveau 10% an. Der Anteil der Besitzer von Halbtaxabonnementen hat sich nicht signifikant verändert.
Hierbei handelt es sich um einen so genannten z-Test.
8.3
Mögliche Fehler bei statistischen Tests
Am Ende eines statistischen Tests fällen wir immer einen statistischen Schluss, der dabei
zugunsten der Nullhypothese H0 oder der Alternativhypothese H1 ausfällt. In beiden Fällen
werden gewisse Rückschlüsse von einer Stichprobe auf die entsprechende Grundgesamtheit gezogen. Dabei müssen wir unbedingt bedenken, dass es absolut sichere Schlüsse grundsätzlich
nicht gibt. Bei einer Testentscheidung besteht immer eine bestimmte Wahrscheinlichkeit dafür,
dass die getroffene Entscheidung falsch ist. Dabei werden zwei Arten von Fehlern unterschieden:
Definition 8.3.1.
a. Ein Fehler 1. Art liegt vor, wenn eine richtige Nullhypothese H0 abgelehnt wird.
b. Ein Fehler 2. Art liegt vor, wenn eine falsche Nullhypothese H0 nicht abgelehnt wird.
Die Wahrscheinlichkeit für einen Fehler 1. Art entspricht der Irrtumswahrscheinlichkeit, für
welche wir das Signifikanzniveau α vorgegeben haben. Die Wahrscheinlichkeit für einen Fehler
2. Art wird mit β bezeichnet.
86
Kapitel 8. Statistische Tests
1−α
1−α
α
µ0
α
z1−α
z
µ0
z1−α
z
Ablehnungsbereich
Annahmebereich
Abbildung 8.3.ii: Es sei H0 richtig: Da
z ≥ z1−α wird die Nullhypothese abgelehnt. Dies ist die falsche Entscheidung
(Fehler 1. Art), welche mit einer Wahrscheinlichkeit von α getroffen wird.
β α
β α
z1−α
µ1
z
µ0
µ1
z1−α
z
z
z
Annahmebereich
1−β
1−α
1−β
1−α
Ablehnungsbereich
Annahmebereich
Abbildung 8.3.i: Es sei H0 richtig: Da
z < z1−α wird die Nullhypothese angenommen. Dies ist die richtige Entscheidung, welche mit einer Wahrscheinlichkeit
von 1 − α getroffen wird.
µ0
z
z
Ablehnungsbereich
Abbildung 8.3.iii: Es sei H0 falsch, H1
richtig, d.h., die gestrichelte Dichte ist die
richtige: Da z < z1−α wird die Nullhypothese angenommen. Dies ist die falsche
Entscheidung (Fehler 2. Art), welche
mit einer Wahrscheinlichkeit von β getroffen wird.
Annahmebereich
Ablehnungsbereich
Abbildung 8.3.iv: Es sei H0 falsch, H1
richtig, d.h., die gestrichelte Dichte ist die
richtige: Da z ≥ z1−α wird die Nullhypothese abgelehnt. Dies ist die richtige Entscheidung, welche mit einer Wahrscheinlichkeit (so genannte Trennschärfe) von
1 − β getroffen wird.
Wir erläutern nun die möglichen Fälle an Hand eines einseitigen Tests, bei dem die Nullhypothese H0 : µ = µ0 gegen die Alternativhypothese H1 : µ > µ0 getestet wird. Dabei bezeichnet
µ den zu testenden unbekannten Parameter der Verteilung.
Als Trennschärfe oder Macht eines Tests bezeichnen wir die Wahrscheinlichkeit 1−β mit der
die Nullhypothese abgelehnt wird, wenn sie tatsächlich nicht stimmt (vgl. Abbildung 8.3.iv).
Trennschärfe = P (Entscheidung H0 nicht anzunehmen | H1 sei richtig) = 1 − β
In der Praxis sind wir bestrebt, die Fehler 1. und 2. Art (d.h. gleichzeitig α und β) möglichst
klein zu halten. Dazu betrachten wir die Abbildungen 8.3.iv und 8.3.iii und stellen fest, dass
eine Verkleinerung von α (Verschiebung der kritischen Grösse z1−α nach rechts) automatisch
eine Vergrösserung von β nach sich zieht und umgekehrt. Entscheiden wir uns im konkreten
Fall für ein kleines α und damit für ein kleines Risiko eine an sich richtige Nullhypothese
8.3. Mögliche Fehler bei statistischen Tests
87
abzulehnen, dann nehmen wir gleichzeitig ein deutlich erhöhtes Risiko für einen Fehler 2. Art
in Kauf. Wir müssen also von Fall zu Fall entscheiden, welcher der beiden Fehler letztendlich
die grösseren Konsequenzen hat. Soll gleichwohl das Risiko für einen Fehler 2. Art, d.h. β, verringert werden, ohne gleichzeitig die Wahrscheinlichkeit α für einen Fehler 1. Art vergrössern
zu müssen, so bleibt uns nur die Vergrösserung des Stichprobenumfangs3 (Verbesserung der
Trennschärfe des Tests).
In Abbildung 8.3.iii sehen wir zusätzlich, dass die Wahrscheinlichkeit β einen Fehler 2. Art
zu begehen, wesentlich von der Alternativhypothese H1 , d.h. Lage von µ1 , abhängt. Diesen funktionalen Zusammenhang zwischen β und µ1 wird als Operationscharakteristik
bezeichnet.
Aufgaben
Formulieren Sie jeweils die Null- und Alternativhypothese und den problemorientierten statistischen Schluss in Worten.
Aufgabe 8.3.1. Wir würfeln mit einem Würfel. Bei 20 Würfen erhalten wir 9 Sechsen. Ist
der Würfel gezinkt, d.h., werden bevorzugt Sechsen gewürfelt? Das Signifikanzniveau ist 5%.
Aufgabe 8.3.2. In 10000 Würfen zeigte eine Münze 5150 mal Zahl. Mit welcher Wahrscheinlichkeit können wir behaupten, dass sie unsymmetrisch ist, d.h. bevorzugt Zahl geworfen wird?
Das Signifikanzniveau ist 5%.
Aufgabe 8.3.3. Bei einer Umfrage vor einer Wahl sagten 285 der 2000 befragten Personen,
sie würden nicht zur Wahl gehen. Nachdem in der Zwischenzeit ein medienintensiver Wahlkampf stattfand, betrug die tatsächliche Wahlbeteiligung 88.5%. Kann daraus mit 99%-iger
Sicherheit geschlossen werden, dass in der Zwischenzeit Personen, die ursprünglich nicht zur
Wahl gehen wollten, umgestimmt wurden?
Aufgabe 8.3.4. Unter 3000 in einer Klinik neugeborenen Kindern befanden sich 1578 Knaben. Testen Sie mit einer Irrtumswahrscheinlichkeit α = 0.01 die Hypothesen
H0 : P (Knabengeburt) = 0.5
H1 : P (Knabengeburt) 6= 0.5
Formulieren Sie den entsprechenden statistischen Schluss.
Aufgabe 8.3.5. Eine Multiple-Choice-Prüfung bestehe aus 100 Einzelfragen, wobei bei jeder
Frage in zufälliger Reihenfolge 4 Antworten angegeben sind, wovon genau eine richtig ist. Der
Prüfling darf jeweils nur eine Antwort ankreuzen. Wieviel richtig angekreuzte Antworten
müssen zum Bestehen der Prüfung mindestens verlangt werden, damit die Prüfung durch
(zufälliges Ankreuzen) höchstens mit Wahrscheinlichkeit
a. 0.05
b. 0.01
c. 0.001
d. 0.0001
bestanden werden kann?
3
Dabei werden die Verteilungen schlanker und somit α und β gleichzeitig kleiner.
88
Kapitel 8. Statistische Tests
Lösungen
Lösung 8.3.1. Eine Approximation mit der Normalverteilung ist wegen np(1−p) = 2.778 ≤ 9
nicht erlaubt. Wir berechnen mit der Binomialverteilung exakt die Irrtumswahrscheinlichkeit
P (9 ≤ X) = 1 − P (X ≤ 8) = 0.00284.
Lösung 8.3.2. Die Wahrscheinlichkeit einer so grossen oder grösseren Abweichung nach oben
ist P (5150 ≤ X) = 0.0013. Also ist die Münze unsymmetrisch.
Lösung 8.3.3. Es hätten höchsten x1−α = 264 Personen nicht zur Wahl gehen dürfen, damit
die Hypothese angenommen werden könnte.
Lösung 8.3.4. Der Annahmebereich ist ]1430, 1571[, also H0 ablehnen.
Lösung 8.3.5. Die Ablehnungsgrenzen sind:
a. n1−0.05 = 33
b. n1−0.01 = 36
c. n1−0.001 = 39
d. n1−0.0001 = 42
Kapitel 9
Prüfen von Erwartungswerten
(Parametertests)
9.1
Problemstellung der technischen Statistik
Die meisten Fragestellungen der angewandten Statistik führen auf den Vergleich von zwei oder
mehreren normalverteilten Grundgesamtheiten. Da eine Normalverteilung durch die beiden
Parameter µ und σ 2 vollständig definiert ist, bedeutet dies, dass wir herausfinden müssen, ob
die entsprechenden Parameter bei zwei normalverteilten Grundgesamtheiten übereinstimmen
oder nicht.
Beispiel 9.1.1. Gegeben seien zwei Maschinen des gleichen Typs. Beide produzieren Produkte von einer bestimmten gleichen Art. Produzieren sie Produkte aus der gleichen Grundgesamtheit oder nicht? Das heisst, arbeiten sie gleich genau, ist also die Varianz identisch
und sind sie auf den gleichen Sollwert eingestellt, d.h., ist der Erwartungswert der beiden
Grundgesamtheiten gleich?
Fragestellung der Statistik
• Gegeben: Zwei normalverteilte Grundgesamtheiten mit den Parametern µ1 , σ12 und
µ2 , σ22 .
• Frage: Sind die beiden Grundgesamtheiten identisch, d.h., gilt µ1 = µ2 und σ12 = σ22 ?
• Vorgehen der Statistik zur Beantwortung dieser Frage: Jeder Grundgesamtheit entnehmen wir je eine Stichprobe S1 und S2 , dann berechnen wir aus diesen Stichproben
die geschätzten Parameter x̄1 , s22 und s21 , x̄2 , vergleichen sie in einem statistischen Test
und schliessen die Grundgesamtheiten sind gleich oder nicht.
In einigen Fällen kann bereits vorausgesetzt werden, dass zum Beispiel µ1 = µ2 ist, so dass
ein Test auf σ12 = σ22 durchzuführen ist. Oder die Varianzen sind gleich, und die Gleichheit
der Erwartungswerte wird getestet. Je nach Problemstellung ist ein bestimmter Test durchzufüren.
In den bisherigen Betrachtungen in Kapitel 8 war zur Prüfung der Hypothese H0 : µ = µ0
für die Berechnung der Testgrösse die Kenntnis der Varianz σ 2 in der Grundgesamtheit erforderlich. Dazu sind umfangreiche Voruntersuchungen notwendig, oder wir ersetzen für einen
grossen Stichprobenumfang σ 2 durch die geschätzte Stichprobenvarianz s2 . Welche Testgrösse
89
90
Kapitel 9. Prüfen von Erwartungswerten (Parametertests)
können wir nun bei kleinen Stichprobenumfängen zur Prüfung der Hypothese H0 : µ = µ0
heranziehen, wenn σ 2 nicht als Erfahrungswert vorliegt?
Beim Prüfen von Erwartungswerten gibt es mehrere verschieden Problemstellungen. Diese
wollen wir nun untersuchen.
9.2
Einstichproben-t-Test, Student-t-Test
Beim Einstichproben-t-Test oder Student-t-Test ist der Erwartungswert µ der Grundgesamtheit G bekannt und es sind folgende Voraussetzungen zu beachten:
1. Die normalverteilte Grundgesamtheit G hat den bekannten Erwartungswert µ und die
unbekannte Varianz σ 2 .
2. Es sind zufällig N Stichprobenwerte x1 , . . . , xN aus einer normalverteilten Grundgesamtheit gewählt.
Wir wollen nun wissen, ob die gewählte Stichprobe der N Werte x1 , . . . , xN aus der Grundgesamtheit G mit dem Erwartungswert µ stammt. Dazu berechnen wir den geschätzten
Mittelwert
N
1 X
x̄ =
xi
N
i=1
und vergleichen ihn mit dem bekannten Erwartungswert µ der Grundgesamtheit G, indem
wir folgende alternativen Hypothese aufstellen.
H0 : µ = x̄, d.h., Stichprobe stammt aus der Grundgesamtheit G mit Erwartungswert µ.
H1 : µ 6= x̄, d.h., Stichprobe stammt aus einer anderen Grundgesamtheit.
Zur Beantwortung dieser Fragestellung machen wir nun folgende gedankliche Konstruktion,
die typisch ist für die statistische Denkweise: Wir betrachten die Gesamtheit aller zufälligen
Stichproben mit N Werten x1 , . . . , xN aus einer normalen Grundgesamtheit mit Erwartungswert µ und unbekannter Varianz. Zu jeder Stichprobe berechnen wir aus den Werten
x1 , . . . , xN den geschätzten Mittelwert x̄ und die geschätzte Varianz
N
s2 =
1 X
(xi − x̄)2
N −1
i=1
und daraus die Testgrösse
x̄ − µ √
N.
s
Der Wert der Testgrösse t wird umso grösser,
t=
(9.2.a)
• je grösser die Abweichung des geschätzten Mittelwerts x̄ vom Erwartungswert µ ist,
• je grösser der Stichprobenumfang N gewählt ist und
• je kleiner die geschätzte Varianz s2 ist, d.h., je weniger die Stichprobenwerte um den
Mittelwert streuen.
9.2. Einstichproben-t-Test, Student-t-Test
91
Für jede Stichprobe erhalten wir nun einen anderen Wert für t und demzufolge wieder eine
Wahrscheinlichkeitsverteilung. Ist die Zufallsgrösse X normalverteilt, so gehorcht die neue
Zufallsgrösse
X − µ√
N
T =
s
einer sogenannten Student-t-Verteilung mit n = N − 1 Freiheitsgraden, die nicht mehr
der Normalverteilung entspricht1 .
Der Ablehnungsbereich für die Nullhypothese H0 bei einem gegebenen Signifikanzniveau α
ist für die zweiseitige Fragestellung durch die kritischen Grössen tn,1− α2 und tn, α2 = −tn,1− α2
gegeben. Die kritischen Grössen lassen sich für die zweiseitige Fragestellung aus der Beziehung
P |T | ≥ tn,1− α2 = α
mit Hilfe von Tafel T.3 oder einem Computerprogramm (z.B. Excel) ermitteln. Jetzt ziehen
fn (t)
1−α
α
2
α
2
tn, α2 = −tn,1− α2
Ablehnungsbereich
tn,1− α2
Annahmebereich
t
Ablehnungsbereich
Abbildung 9.2.i: Kritische Grössen tn, α2 und tn,1− α2 beim Student-t-Test, mit tn, α2 = −tn,1− α2 .
wir den statistischen Schluss (hier für die zweiseitige Fragestellung):
• Ist die Testgrösse |t| < tn,1− α2 , dann wird die Nullhypothese H0 angenommen, d.h.,
Abweichungen vom idealen Wert t = 0 sind zufälliger Natur. Die Stichprobe stammt
somit mit einer Irrtumswahrscheinlichkeit von 1 − α aus der Grundgesamtheit mit dem
Erwartungswert µ.
• Ist die Testgrösse |t| ≥ tn,1− α2 , dann wird die Nullhypothese H0 auf dem Signifikanzniveau α abgelehnt. Die Stichprobe stammt demnach aus einer anderen Grundgesamtheit.
Der Student-t-Test ist gegenüber Abweichungen von der Voraussetzung (1), dass die Grundgesamtheit G normalverteilt sein muss, ziemlich unempfindlich. Der Student-t-Test ist ein so
genannt robuster Test.
Beispiel 9.2.1. Es sei die folgende Stichprobe mit zehn Werten gegeben:
5
1
-5
7
4
15
-7
5
10
18
16
Dass die Summe X +Y zweier gleich verteilter Zufallsvariablen X und Y nicht mehr der gleichen Verteilung
wie die der Summanden gehorchen muss, sehen wir an folgendem Beispiel: Ein einzelner Würfel hat für jede
Augenzahl die gleiche Wahrscheinlichkeit. Betrachten wir nun die Summe der Augenzahlen zweier Würfel, so
stellen wir fest, dass die Summe 7 viel häufiger ist als 2 oder 12. Dies wird zum Beispiel beim berühmten
Gesellschaftsspiel Die Siedler von Catan von Klaus Teuber ausgenutzt.
92
Kapitel 9. Prüfen von Erwartungswerten (Parametertests)
Uns interessiert nun, ob die Stichprobe aus einer Grundgesamtheit mit Erwartungswert µ = 0
und unbekannter Varianz stammt oder nicht. Es handelt sich dabei um einen zweiseitigen
Student-t-Test, da wir nur wissen wollen, ob der Mittelwert x̄ gleich oder ungleich von µ = 0
ist. Dazu wollen wir für die zweiseitige Fragestellung die folgende Nullhypothese gegen die
Alternative testen:
H0 : µ = 0, d.h., Stichprobe stammt aus Grundgesamtheit mit Erwartungswert µ = 0.
H1 : µ 6= 0, d.h., Stichprobe stammt aus anderer Grundgesamtheit.
Wir identifizieren den Stichprobenumfang mit N = 10 und berechnen x̄ = 6.80 und s2 =
70.18. Die Nullhypothese besagt in diesem Fall, dass das Mittel x̄ = 6.80 rein zufällig, auswahlbedingt, vom erwarteten theoretischen Wert µ = 0 abweicht. Da hier der Erwartungswert µ = 0 der Grundgesamtheit bekannt und die Varianz unbekannt ist, benutzen wir einen
Student-t-Test mit n = N − 1 = 9 Freiheitsgraden, um obige Hypothese zu untersuchen. Wir
berechnen die Testgrösse
6.80 − 0 √
x̄ − µ √
N= √
10 = 2.567.
(9.2.b)
t=
s
70.18
Zum Signifikanzniveau α = 0.05 bestimmen wir nun die kritische Grösse t9,1−0.025 = 2.262 für
die zweiseitige Fragestellung.
Nun führen wir den statistischen Schluss durch: Es gilt |t| = 2.567 ≥ t9,1−0.025 = 2.262,
also wird die Nullhypothese H0 abgelehnt. Das Mittel x̄ = 6.80 weicht somit wesentlich vom
theoretischen Wert µ = 0 ab.
Bemerkungen:
• Falls das Signifikanzniveau kleiner gewählt würde, z.B. α = 0.01, dann ergäbe sich ein
kritischer Wert von t9,1−0.005 = 3.250 und es ergäbe keine signifikante Abweichung mehr.
Es ist deshalb wichtig, dass immer bei einem statistischen Schluss das Signifikanzniveau
angegeben wird, damit alle wissen, was von der Aussage zu halten ist.
• Auch wenn die Nullhypothese abgelehnt werden kann, besteht, wie wir bereits in Kapitel 8.3 gesehen haben, eine gewisse Wahrscheinlichkeit, dass wir einen falschen Schluss
ziehen. Die Wahrscheinlichkeit, dass ein berechneter Wert von t unter der Voraussetzung
der Nullhypothese so extrem wird, ist bekanntlich nicht null, sondern nur klein. Beim
Ablehnen der Nullhypothese müssen wir also auch eine Irrtumswahrscheinlichkeit angeben. Sie entspricht der Wahrscheinlichkeit, die besteht, dass der Wert der Testgrösse
t rein zufällig so extrem herauskommt. Sie ist also kleiner als das gewählte Signifikanzniveau.
• Kann hingegen die Nullhypothese nicht abgelehnt werden, so besteht trotzdem eine
gewisse Wahrscheinlichkeit, dass eine signifikante Abweichung vorliegt. Wir sprechen
vom Risiko für einen Fehler 2. Art.
Die Student-t-Verteilung
Die von W. S. Gosset (1876-1937) (vgl. Abbildung 9.2.iii) gefundene Student-t-Verteilung
mit n = N − 1 Freiheitsgraden hat die Wahrscheinlichkeitsdichte
− n+1
2
t2
fn (t) = cn 1 +
für t ∈ R,
n
9.2. Einstichproben-t-Test, Student-t-Test
93
Γ( n+1 )
2
2
wobei cn = √nπ Γ(
n eine nur von der Anzahl Freiheitsgraden n abhängige Konstante ist. Der
)
2
Erwartungswert und die Varianz oder Streuung einer mit n Freiheitsgraden Student-tverteilten Zufallsgrösse T beträgt
E(T ) = 0
für n > 1
Wie bei jeder Verteilung gilt auch hier
und
Var(T ) =
R∞
−∞ fn (t) dt
n
n−2
für n > 2.
= 1.
0.4
0.3
0.2
0.1
–6
–4
–2
0
2
4
6
x
Abbildung 9.2.ii: Die Student-t-Verteilung (schwarze Kurven) für verschiedene Freiheitsgrade
n. Die Kurven ähneln denen der standardisierten Normalverteilung (graue Kurve), stimmen
aber erst für grosse n einigermassen überein.
Die Dichte der Student-t-Verteilung ist symmetrisch bezüglich des Nullpunktes t = 0. Sie
hat einen um so flacheren Verlauf, je kleiner n ist, und strebt für n → ∞ gegen die Dichte
der standardisierten Normalverteilung N (0, 1). Das q-Quantil der Student-t-Verteilung mit
n Freiheitsgraden wird mit tn,q bezeichnet und ist vertafelt (vgl. Tafel T.3). Das q-Quantil
tn,q kann aus der Beziehung
P (T ≤ tn,q ) = q
bestimmt werden. Da die Dichte symmetrisch ist, gilt für das (1 − q)-Quantil tn,1−q = −tn,q .
Aufgaben
Aufgabe 9.2.1. Durch Messung wurden die Längen von fünf Wellen bestimmt. Es wurden
8, 9, 11, 10, 10 Einheiten gemessen. Weicht der Mittelwert signifikant von µ = 10E ab? Das
Signifikanzniveau ist 1%.
Aufgabe 9.2.2. Bei einem Spannvorgang wurde bisher mit einem Vorgabewert von 135s
gerechnet. Eine Zeitaufnahme lieferte bei N = 32 aufgenommenen Zeiten für diesen Teilvorgang einen mittleren Zeitbedarf in der Höhe von x̄ = 128s bei einer Standardabweichung von
2
R∞
Es ist Γ(x) = 0 tx−1 e−t dt die Gammafunktion, die die Fakultät auf reelle Zahlen verallgemeinert. Es
gilt Γ(1) = 1 und Γ(n) = (n − 1)! für alle n ∈ N.
94
Kapitel 9. Prüfen von Erwartungswerten (Parametertests)
Abbildung 9.2.iii: William Sealey Gosset (1876-1937), der bei Guinness als Bierbrauer
beschäftigt war, veröffentlichte im Jahr 1908 die t-Verteilung zum Mittelwertsvergleich. Da er
damit den Malzgehalt verschiedener Getreidesorten untersuchte, war seine Firma von einer
Veröffentlichung nicht begeistert. Daher publizierte er seinen t-Test (t vom engl. test) unter
dem Pseudonym “Student”, was dem Test den Namen “Student-t-Test” eingebracht hat.
s = 4.7s. Kann aus dem Unterschied zwischen 135s und 128s darauf geschlossen werden, dass
der wahre jedoch unbekannte mittlere Zeitbedarf für diesen Teilvorgang generell nicht bei
135s liegt? Das Signifikanzniveau ist 1%.
Aufgabe 9.2.3. Auf vier Äckern von je 40 Aren konnte der Ertrag von Kartoffeln durch
neuartige Behandlung um 0.55, 0.30, 1.52, 0.68 Tonnen gesteigert werden. Ist diese Behandlungsmethode wirksamer als frühere? Das Signifikanzniveau ist 1%.
Aufgabe 9.2.4. Es werden die Zugriffszeiten bei einem bestimmten Produktionsprozess untersucht. Folgende Stichprobe [in Sekunden] wurde ermittelt. Sind diese Zeiten wirklich von
0.4 Sekunden verschieden? Das Signifikanzniveau ist 1%.
0.23
0.43
0.54
0.62
9.2.1
0.23
0.43
0.54
0.65
0.23
0.43
0.54
0.65
0.30
0.43
0.54
0.65
0.32
0.45
0.54
0.67
0.32
0.45
0.54
0.67
0.34
0.45
0.56
0.68
0.34
0.45
0.56
0.76
0.34
0.45
0.56
0.76
Vertrauensintervall für den Erwartungswert
Aus einer gegebenen Stichprobe können wir gewisse Parameter wie Mittelwert oder Varianz schätzen (berechnen). Hierbei fehlen aber noch Genauigkeitsangaben zu den berechneten
Werten, und vielleicht möchten wir auch wissen, wie die Genauigkeit vom Stichprobenumfang
abhängt. Dazu dienen die Intervallschätzungen, das sind aus der Stichprobe berechnete Intervalle, in denen der wahre, aber unbekannt Wert mit grosser Wahrscheinlichkeit zu erwarten
ist. Solche Intervalle heissen Vertrauens- oder Konfidenzintervalle.
Haben wir eine Stichprobe x1 , . . . , xN vom Umfang N aus einer normalverteilten Grundgesamtheit genommen, so interessieren wir uns für ein Vertrauensintervall des unbekannten
Erwartungswertes µ der normalverteilten Grundgesamtheit. Dazu schätzen (berechnen) wir
vorerst den Mittelwert
N
1 X
x̄ =
xi
N
i=1
9.2. Einstichproben-t-Test, Student-t-Test
und die Varianz
95
N
1 X
s =
(xi − x̄)2
N −1
2
i=1
aus der Stichprobe. Nun können wir Vertrauens- oder Konfidenzgrenzen für den unbekannten Wert µ angeben, innerhalb welchen der wahre Erwartungswert mit einer gewissen
vorgegebenen Wahrscheinlichkeit γ liegt. Aus der vorgegebenen Vertrauenswahrscheinlichkeit γ = 1 − α bestimmen wir die kritische Grösse tn,1− α2 der Student-t-Verteilung mit
n = N − 1 Freiheitsgraden. Beachten Sie, dass wir den Flächeninhalt α auf beiden Seiten unter der Student-t-Verteilung gleichmässig verteilen, d.h. zweiseitige Fragestellung. Wir suchen
also alle möglichen µ, so dass
√ α
P |T | < tn,1− α2 = P X̄−µ
N
<
t
=1−α
n,1−
s
2
√ gilt. Nun können wir die Ungleichung x̄−µ
N < tn,1− α2 nach µ umformen und erhalten das
s
Vertrauensintervall für den unbekannten Erwartungswert µ durch
tn,1− α
tn,1− α
x̄ − √ 2 s ≤ µ ≤ x̄ + √ 2 s.
N
N
Je grösser der Stichprobenumfang N ist, desto kleiner wird das Vertrauensintervall. Wollen
wir also genaue Aussagen über den unbekannten Mittelwert machen, so sind wir gezwungen
den Stichprobenumfang N möglichst gross zu wählen.
Das Vertrauensintervall kann wie folgt interpretiert werden: von 100 aus Stichproben derselben
Grundgesamtheit mit dem unbekannten Erwartungswert µ berechneten Vertrauensintervallen
überdecken im Mittel γ · 100 = (1 − α) · 100 den wahren Erwartungswert µ.
Beispiel 9.2.2. Es sei eine Stichprobe vom Umfang N = 10 mit geschätztem Mittelwert
x̄ = 5 und Standardabweichung s = 0.2 gegeben. In welchem Intervall liegt nun der wahre
aber unbekannte Erwartungswert µ der normalverteilten Grundgesamtheit? Dazu berechnen
wir zur Vertrauenswahrscheinlichkeit γ = 0.95 die kritische Grösse t9,1−0.025 = 2.262 der
Student-t-Verteilung. Damit ergibt sich das gesuchte Vertrauensintervall
2.262
2.262
5 − √ 0.2 ≤ µ ≤ 5 + √ 0.2,
10
10
also 4.86 ≤ µ ≤ 5.14 mit 95% Wahrscheinlichkeit.
Aufgaben
Aufgabe 9.2.5. An Hand einer Stichprobe von 10 auf einem Drehautomaten bearbeiteten
Wellen soll ein Vertrauensintervall zur Vertrauenswahrscheinlichkeit 0.99 für den Erwartungswert µ der Grundgesamtheit der Abweichungen des Wellendurchmessers von der Mitte des
Toleranzfeldes bestimmt werden. Folgende Abweichungen [in Mikrometer] der ist-Masse von
der Mitte des Toleranzfeldes sind festgestellt worden:
2
1
-2
3
a. Verwenden Sie die Normalverteilung!
2
4
-2
5
3
4
96
Kapitel 9. Prüfen von Erwartungswerten (Parametertests)
b. Verwenden Sie die Student-t-Verteilung!
Aufgabe 9.2.6. Gegeben sei wieder die Stichprobe aus Aufgabe 9.2.4 der Zugriffszeiten. In
welchem Vertrauensintervall zur Vertrauenswahrscheinlichkeit 0.99 liegt der wirkliche Wert
des Mittels der Zugriffszeiten?
9.2.2
Ungefähr erforderlicher Stichprobenumfang
Wirtschaftliche und rationelle Arbeitsweise erfordern die Angabe des Arbeitsaufwandes, um
bestimmte Genauigkeiten bei Mess- und Analysenergebnissen zu erziehlen. So ist es etwa
wichtig, abzuschätzen, wie gross der Stichprobenumfang bei einem statistischen Test ungefähr
sein muss, um eine bestimmte Zuverlässigkeit der Aussage zu erhalten.
Mit Hilfe der Testgrösse t (vgl. Gleichung (9.2.a)) lässt sich eine solche ungefähre Abschätzung
machen. Formen wir die Gleichung (9.2.a) nach N um, so erhalten wir
N=
t2 s 2
.
(x̄ − µ)2
(9.2.c)
Wir geben uns einen bestimmten Toleranzbereich ∆µ = |x̄ − µ| vor. Ist zusätzlich die Varianz
s2 aus Voruntersuchungen etwa in Form einer oberen Schranke bekannt, so können wir für den
Stichprobenumfang N einen ungefähren Wert abschätzen, indem wir einen Durchschnittswert
für t = tn,1− α2 ≈ 2 bei einer Vertrauenswahrscheinlichkeit γ = 1 − α einsetzen. Wir erhalten
damit einen ungefähren Stichprobenumfang
N ≈4
s2
.
∆µ2
Es sei hier ausdrücklich gesagt, dass diese Abschätzung nur einen ungefähren3 Wert für den
Stichprobenumfang liefert.
Aufgabe
Aufgabe 9.2.7. Der Kupfergehalt einer Partie Schwefelkies-Abbrände (Fe3 O3 Hüttrückstände) soll auf ∆µ = ±0.05% Cu genau bestimmt werden. Zur Bestimmung von s wurden 24
Proben genommen und getrennt analysiert. Es ergaben sich x̄ = 2.034% Cu und s = 0.271%
Cu. Wie viele Proben sind etwa zu nehmen?
9.3
Vergleich zweier Mittelwerte unverbundener Stichproben
Im Folgenden wollen wir wir den Vergleich zweier Mittelwerte aus normalverteilten Grundgesamtheiten anstellen. Wir unterscheiden die beiden Fälle, wenn die unbekannten Varianzen
der normalverteilten Grundgesamtheit gleich oder ungleich sind.
3
Die rechte Seite der Gleichung (9.2.c) hängt via der kritischen Grösse tn,1− α2 auch noch von n = N − 1
ab. Somit liesse sich der Stichprobenumfang N nur iterativ bestimmen. Wir umgehen das Problem indem wir
einen Durchschnittswert für t einsetzten.
9.3. Vergleich zweier Mittelwerte unverbundener Stichproben
9.3.1
97
Zweistichproben-t-Test bei unbekannten aber gleichen Varianzen
Beispiel 9.3.1 (Parallelklassen). An einer Fachhochschule werden eine Klasse A von 25
Studierenden und eine Parallelklasse B von 28 Studierenden vom gleichen Dozenten in Mathematik unterrichtet. Der Dozent gestaltet jeweils den Unterricht in beiden Klassen gleich.
Demzufolge wurden die beiden Klassen gleichzeitig zur gleichen Klausur aufgeboten. Die erreichten Notendurchschnitte waren x̄A = 3.9 und x̄B = 4.2 und die Standardabweichungen
betrugen je sA = sB = 1. Der Dozent stellt sich nun sofort die Frage, ob die B-Klasse
signifikant besser als die A-Klasse sei. Was denken Sie?
Beim Zweistichproben-t-Test sind folgende Voraussetzungen zu beachten:
1. Die normalverteilten Grundgesamtheiten G1 und G2 haben die unbekannten Erwartungswerte µ1 und µ2 und die unbekannten aber gleichen4 Varianzen σ12 = σ22 = σ 2 ,
so genannt homoskedastischer Fall. Der Wert von σ 2 braucht jedoch nicht bekannt
zu sein.
2. Es sind zufällig zwei Stichproben x1 , . . . , xN1 und y1 , . . . , yN2 aus den normalverteilten
Grundgesamtheiten G1 und G2 gewählt.
Wir wollen nun wissen, ob sich die Mittelwerte x̄ und ȳ der gewählten Stichproben signifikant voneinander unterscheiden um herauszufinden, ob die Stichproben aus der gleichen
Grundgesamtheit stammen. Dazu formulieren wir die beiden alternativen Hypothesen
H0 : µ1 = µ2 , d.h., Stichproben stammen aus der gleichen Grundgesamtheit.
H1 : µ1 6= µ2 , d.h., Stichproben stammen aus unterschiedlichen Grundgesamtheiten.
Um diese Frage zu beantworten berechnen wir die geschätzten Mittelwerte
x̄ =
N1
1 X
xi
N1
und
ȳ =
i=1
N2
1 X
yi
N2
i=1
und die geschätzten Varianzen
N
s21
1
X
1
=
(xi − x̄)2
N1 − 1
N
und
s22
i=1
2
X
1
=
(yi − ȳ)2
N2 − 1
i=1
und daraus das gewogene Mittel der Varianzen
s2 =
(N1 − 1)s21 + (N2 − 1)s22
.
N1 + N2 − 2
Mit diesen Werten berechnen wir nun die Testgrösse
r
x̄ − ȳ
N1 N2
t=
,
s
N1 + N2
(9.3.a)
welche unter den obigen Voraussetzungen und der Nullhypothese einer Student-t-Verteilung
mit n = N1 + N2 − 2 Freiheitsgraden genügt. Damit können wir nun nach Vorgabe eines
Signifikanzniveaus α die kritische Grösse tn,1− α2 für die zweiseitige Fragestellung bestimmen.
Danach ziehen wir wieder den statistischen Schluss:
4
Die Gleichheit der Varianzen in den Grundgesamtheiten kann mit einem χ2 -Test überprüft werden. Ist
diese Gleichheit nicht erfüllt, so haben wir ein so genanntes Behrens-Fisher-Problem (vgl. Kapitel 9.3.2).
98
Kapitel 9. Prüfen von Erwartungswerten (Parametertests)
• Ist die Testgrösse |t| < tn,1− α2 , dann wird die Nullhypothese H0 angenommen, d.h., die
Unterschiede zwischen x̄ und ȳ sind zufälliger Natur.
• Ist die Testgrösse |t| ≥ tn,1− α2 , dann wird die Nullhypothese H0 auf dem Signifikanzniveau α abgelehnt.
Sind im Falle unabhängiger Stichproben ihre Umfänge gleich, gilt also N1 = N2 = N , so
vereinfacht sich die Testgrösse (9.3.a) zu
x̄ − ȳ √
N.
t= p 2
s1 + s22
Der Zweistichproben-t-Test ist auch dann anwendbar, wenn die Grundgesamtheiten nicht
normalverteilt, ihre Verteilungen aber nicht allzu unsymmetrisch sind.
Beispiel 9.3.2. Gegeben seien die Messreihen x = {1, 2, 3, 2, 1} und y = {2, 2, 4, 1} aus normalverteilten Grundgesamtheiten. Wir testen unter der Voraussetzung σ12 = σ22 die Gleichheit der Erwartungswerte. Dazu stellen wir die geeigneten Hypothesen auf und berechnen
die geschätzten Mittelwerte x̄ = 1.8 und ȳ = 2.25 und das gewogene Mittel der Varianzen
s2 = 1.079. Die Anzahl Freiheitsgrade ist n = 5 + 4 − 2 = 7. Daraus berechnen wir die
Testgrösse t = 0.646. Zum Signifikanzniveau α = 0.05 bestimmen wir für die zweiseitige Fragestellung den kritischen Wert t7,1−0.025 = 2.365.
Nun führen wir den statistischen Schluss durch: Es gilt |t| = 0.646 < t7,1−0.025 = 2.365,
also wird die Nullhypothese H0 angenommen. Die Mittelwerte x̄ = 1.8 und ȳ = 2.25 weichen
demzufolge nur unwesentlich, zufallsbedingt, voneinander ab. Dieses eventuell überraschende
Resultat ist erstens auf die grossen Varianzen und zweitens auf die sehr kleinen Stichprobenumfänge zurückzuführen.
Aufgaben
Aufgabe 9.3.1. Stammen die drei Messreihen x, y und z unter der Voraussetzung σx2 = σy2 =
σz2 aus der gleichen normalverteilten Grundgesamtheit? Das Signifikanzniveau ist α = 1%.
x
y
z
18.0
27.0
21.5
14.5
34.0
20.5
13.5
20.5
19.0
12.5
29.5
24.5
23.0
20.0
16.0
24.0
28.0
13.0
21.0
20.0
20.0
17.0
26.5
16.5
18.5
22.0
17.5
9.5
24.5
19.0
14.0
34.0
35.5
19.0
Aufgabe 9.3.2. Der durchschnittliche Verbrauch eines bestimmten Hilfsstoffes in zwei vergleichbaren Filialen einer Unternehmung soll geprüft werden. Dazu wurde der Verbrauch
während einer Anzahl Tage bei beiden Filialen ermittelt. Es ergaben sich die folgenden Stichproben. Kann statistisch erhärtet werden, dass die eine Filiale signifikant mehr von dem
entsprechenden Hilfsstoff verbraucht? Das Signifikanzniveau sei α = 1%.
x
y
1.5
8.8
3.4
5.5
6.6
5.5
3.5
4.5
4.5
6.6
6.4
5.4
2.6
7.1
6.6
5.6
7.8
6.6
4.9
8.3
5.5
6.6
6.6
5.5
6.8
3.6
7.7
6.1
7.7
8.8
4.9
7.6
8.8
8.3
5.5
8.8
6.2
7.7
4.7
5.5
7.7
9.9
5.8
4.9
6.3
7.3
6.6
7.7
6.4
5.9
8.8
6.6
9.3. Vergleich zweier Mittelwerte unverbundener Stichproben
9.3.2
99
Zweistichproben-t-Test bei unbekannten Varianzen
Im Falle ungleicher Varianzen der Grundgesamtheiten σ12 6= σ22 , oder bei Ablehnung der
Hypothese über die Gleichheit der Varianzen σ12 und σ22 durch einen geeigneten Test kann
zur Prüfung der Hypothese H0 : µ1 = µ2 ein von B. L. Welch (1947) vorgeschlagener
Näherungstest verwendet werden. Diese Aufgabenstellung wird als Behrens-Fisher-Problem
bezeichnet.
Beispiel 9.3.3 (Markenjeans). Wir haben zwei Lieferungen von Markenjeans vom gleichen
Importeur. Dieser behauptet, beide Lieferungen seien in den USA hergestellt worden. Wir
vermuten aber, dass eine Lieferung aus Fernost mit schlechter Qualität stammt. Wie können
wir unsere Vermutung überprüfen? Zum Beispiel, indem wir ein Qualitätsmerkmal (z.B.
Reisfestigkeit der Jeans nach 20 Mal waschen) bestimmen und von diesem Merkmal den
Mittelwert für beide Lieferungen bilden und diese Mittelwerte mit einem unverbundenen
Zweistichproben-t-Test untersuchen. Da wir vermuten, dass die Lieferungen aus zwei verschiedenen Fabriken stammen, müssen wir davon ausgehen, dass die Varianzen verschieden
sein könnten.
Beim Behrens-Fisher-Problem sind folgende Voraussetzungen zu beachten:
1. Die normalverteilten Grundgesamtheiten G1 und G2 haben die unbekannten Erwartungswerte µ1 und µ2 und die unbekannten Varianzen σ12 und σ22 , so genannt heteroskedastischer Fall.
2. Es sind zufällig zwei Stichproben x1 , . . . , xN1 und y1 , . . . , yN2 aus den normalverteilten
Grundgesamtheiten G1 und G2 gewählt.
Wir wollen nun wissen, ob sich die Mittelwerte x̄ und ȳ der gewählten Stichproben signifikant voneinander unterscheiden um herauszufinden, ob die Stichproben aus der gleichen
Grundgesamtheit stammen. Dazu formulieren wir die beiden alternativen Hypothesen:
H0 : µ1 = µ2 , d.h., Stichproben stammen aus der gleichen Grundgesamtheit.
H1 : µ1 6= µ2 , d.h., Stichproben stammen aus unterschiedlichen Grundgesamtheiten.
Um diese Frage zu beantworten berechnen wir die geschätzten Mittelwerte
x̄ =
N1
1 X
xi
N1
und
ȳ =
i=1
N2
1 X
yi
N2
i=1
und die geschätzten Varianzen
N
s21 =
N
1
X
1
(xi − x̄)2
N1 − 1
und
s22 =
i=1
und daraus die gewogene Varianz
s2 =
2
X
1
(yi − ȳ)2
N2 − 1
i=1
s21
s2
+ 2.
N1 N2
Wir stellen fest, dass die gewogene Varianz s2 anders berechnet wird, als im Fall gleicher
Varianzen (vgl. Gleichung (9.3.a)). Mit diesen Werten berechnen wir nun die Testgrösse
t=
x̄ − ȳ
.
s
(9.3.b)
100
Kapitel 9. Prüfen von Erwartungswerten (Parametertests)
Die Testgrösse t gehorcht wiederum einer Student-t-Verteilung mit
n=
$
1
c2
N1 −1
+
(1−c)2
N2 −1
%
mit
c=
s21
N1
s21
N1
+
s22
N2
Freiheitsgraden, wobei ⌊ . ⌋ die Abrundungsfunktion bezeichnet. Damit können wir nun nach
Vorgabe eines Signifikanzniveaus α die kritische Grösse tn,1− α2 für die zweiseitige Fragestellung
bestimmen und den statistischen Schluss ziehen:
• Ist die Testgrösse |t| < tn,1− α2 , dann wird die Nullhypothese H0 angenommen.
• Ist die Testgrösse |t| ≥ tn,1− α2 , dann wird die Nullhypothese H0 auf dem Signifikanzniveau α abgelehnt.
Aufgabe
Aufgabe 9.3.3. Mit zwei verschiedenen Holzwerkstoffbindemitteln A und B werden Spanplatten hergestellt. Mit dem Bindemittel A erhalten wir 10 Prüfkörper, mit dem Mittel B
deren 12. Alle Prüfkörper werden einem Querzugfestigkeitstest unterworfen. Folgende Werte
wurden gemessen:
A
B
0.745
0.745
0.824
0.686
0.804
1.049
0.863
1.059
0.873
0.873
0.814
0.834
0.804
0.735
0.794
0.971
0.804
0.932
0.745
0.932
0.843
0.873
Sind die beiden Bindemittel gleichwertig? Das Signifikanzniveau ist α = 1%.
9.4
Paarweiser Vergleich bei verbundenen Stichproben
Oft stehen wir in der Praxis vor der Aufgabe, Unterschiede zwischen zwei verschiedenen
Produktionsverfahren, Behandlungsmethoden, Messgeräten, Messmethoden oder Laboranten
miteinander zu vergleichen. Zu diesem Zweck werden mit beiden Verfahren an denselben
Einheiten Messungen des Merkmals durchgeführt und paarweise verglichen. Folgendes Beispiel
soll zur näheren Erläuterung dienen.
Beispiel 9.4.1. Zwei verschiedene Messmethoden für Widerstände sollen miteinander verglichen werden. Vergleichsmessungen an fünf Widerständen ergaben das folgende Messprotokoll:
i
1. Methode: xi [in Ω]
2. Methode: yi [in Ω]
1
100.5
98.2
2
102.4
99.1
3
104.3
102.4
4
101.5
101.1
5
98.4
96.2
Wir wollen wissen, ob beide Messmethoden als gleichwertig angesehen werden können oder
ob die beobachteten Abweichungen signifikant sind.
Um diese Aufgabe zu bewältigen, verwenden wir einen paarweisen Vergleichstest, bei dem
folgende Voraussetzungen zu beachten sind:
1. Die normalverteilten Grundgesamtheiten G1 und G2 haben die unbekannten Erwartungswerte µ1 und µ2 und die unbekannten aber gleichen Varianzen σ12 = σ22 = σ 2 . Der
Wert von σ 2 braucht jedoch nicht bekannt zu sein.
9.4. Paarweiser Vergleich bei verbundenen Stichproben
101
2. Es sind zufällig zwei verbundene Stichproben x1 , . . . , xN und y1 , . . . , yN aus den normalverteilten Grundgesamtheiten G1 und G2 gewählt, d.h., xi lässt sich mit yi vergleichen.
Wir wollen nun wissen, ob sich die verbundenen Messwerte xi und yi signifikant voneinander
unterscheiden. Dazu berechnen wir aus den paarweise zusammengehörigen Messwerten die
Differenzen
di = xi − yi für alle i ∈ {1, . . . , N }
Diese Reihe der Differenzen di wird als Stichprobe vom Umfang N aus einer normalverteilten
Grundgesamtheit mit dem Erwartungswert µd und der im Allgemeinen unbekannten Varianz
σd2 aufgefasst. Die Untersuchung einer signifikanten Abweichung entspricht der Prüfung der
alternativen Hypothesen:
H0 : µd = 0, d.h. im Mittel kein Unterschied zwischen den verbundenen Messwerten.
H1 : µd 6= 0, d.h. im Mittel Unterschied zwischen den verbundenen Messwerten.
Damit können wir den in Kapitel 9.2 beschriebenen Einstichproben-t-Test mit der Testgrösse
t=
d¯ − µd √
d¯ √
N=
N,
sd
sd
(9.4.a)
verwenden, wobei
N
1 X
d¯ =
di
N
N
und
s2d =
i=1
1 X
¯2
(di − d)
N −1
i=1
das arithmetische Mittel und die geschätzte Varianz der Differenzenreihe bedeutet. Die Testgrösse t gehorcht einer Student-t-Verteilung mit n = N −1 Freiheitsgraden. Damit können wir
nun nach Vorgabe eines Signifikanzniveaus α die kritische Grösse tn,1− α2 für die zweiseitige
Fragestellung bestimmen und den statistischen Schluss ziehen:
• Ist die Testgrösse |t| < tn,1− α2 , dann wird die Nullhypothese H0 angenommen, d.h., die
Messwerte unterscheiden sich nur zufällig.
• Ist die Testgrösse |t| ≥ tn,1− α2 , dann wird die Nullhypothese H0 auf dem Signifikanzniveau α abgelehnt.
Aufgaben
Aufgabe 9.4.1. Es soll untersucht werden, ob zwei Laboranten vergleichbare Ergebnisse bei
der Bestimmung des Leimungsgrades von Papieren mit einem bestimmten Test liefern. Beide
Laboranten haben 8 verschiedene Papiersorten gemessen. Das Signifikanzniveau ist α = 1%.
Sorte
Labor A
Labor B
1
18.60
18.58
2
27.60
27.37
3
27.50
27.27
4
25.00
24.64
5
24.50
24.10
6
26.80
26.33
7
29.70
29.33
8
26.50
26.63
Aufgabe 9.4.2. Die folgenden Zahlenpaare sind entstanden aus Messungen von spezifischen
Gewichten einer Anzahl Materialien durch zwei Experimentatoren. Vergleichen Sie sie paarweise. Sind die beiden Messreihen gleichwertig? Das Signifikanzniveau ist α = 1%.
102
Kapitel 9. Prüfen von Erwartungswerten (Parametertests)
Paar
x
y
1
3.3
3.2
2
3.2
3.4
3
3.8
3.5
4
3.4
3.2
5
3.5
3.2
6
3.4
3.4
7
3.4
3.4
8
3.6
3.2
9
3.9
3.3
10
3.8
3.1
Paar
x
y
11
3.6
3.0
12
3.3
3.5
13
3.4
3.4
14
3.5
3.2
15
3.8
3.2
16
3.8
3.5
17
3.3
3.2
18
3.2
3.5
19
3.2
3.1
20
3.5
3.0
Kapitel 10
Regressionsrechnung
Problemstellung: Gegeben sei eine empirisch vorliegende, d.h. durch eine Anzahl Messpunkte gegebene Funktion. Gesucht wird eine Funktion f , die diese Funktion nach der Gaussschen
Methode der kleinsten Quadrate am besten annähert.
Das Prinzip der Regressionsrechnung wird auch als Gausssche Methode der kleinsten
Quadrate (MKQ) bezeichnet oder unter dem Begriff Ausgleichsrechnung zusammengefasst. Es geht auf Carl Friedrich Gauss, 1777-1855, zürück.
Abbildung 10.0.i: Carl Friedrich Gauss, 1777-1855
10.1
Regressionsgerade
Gegeben sei eine Punktewolke von n Punkten Pi (xi , yi ). Gesucht ist die Gerade mit der
Gleichung y = ax+b, die diese Punktewolke im Sinne von Gauss möglichst gut annähert. Dies
bedeutet, dass die Gerade, d.h. a und b, so gewählt wird, dass die so genannte Fehlerquadratsumme
n
X
∆yi2 ,
S(a, b) =
i=1
die Summe der quadratischen Abweichungen von den gegebenen Punkten minimal ist. Für
103
104
Kapitel 10. Regressionsrechnung
y
b
Pi (xi , yi )
b
b
∆yi
b
b
y = ax + b
b
x
Abbildung 10.1.i: Regressionsgerade
die Fehlerquadratsumme erhalten wir
S(a, b) =
n
X
i=1
(yi − axi − b)2 .
Sie ist zu minimalisieren, also berechnen wir die ersten partiellen Ableitungen und setzen sie
gleich null
n
X
(yi − axi − b)xi = 0,
Sa (a, b) = −2
i=1
n
X
Sb (a, b) = −2
(yi − axi − b) = 0.
i=1
Dies ergibt das lineare Gleichungssystem in den Variablen a und b
a
n
X
x2i + b
i=1
n
X
xi =
i=1
a
n
X
xi + bn =
i=1
n
X
i=1
n
X
xi y i ,
(10.1.a)
yi ,
(10.1.b)
i=1
welches mit der Cramerschen Regel (vgl. [9] Seiten 86ff) die Lösung
 n

n
X
X
xi y i
xi 



i=1
i=1


det  X
n
n
n
n

X
X
X


yi
n
n
xi y i −
xi
yi
a=

i=1
n
X
x2i


i=1
det 
n
 X

xi
i=1
n
X
 =
xi 

i=1


n 
i=1
n
X
n
i=1
x2i −
i=1
i=1
!2
n
X
xi
i=1
10.1. Regressionsgerade
und

b=
n
X
105
x2i


i=1
det 
n
 X

xi
 i=1
n
X
x2i


i=1
det 
n
 X

xi
n
X

xi y i 



y 
i=1
n
X
i=1
n
X
i
 =
n
X
i=1
xi 



n 
i=1
i=1
x2i
n
X
i=1
n
n
X
i=1
yi −
n
X
x2i −
xi
n
X
xi y i
i=1
i=1
!2
n
X
xi
i=1
ergibt. Der Koeffizient a heisst Regressionskoeffizient und b die Regressionskonstante.
Aus der Gleichung (10.1.b) entnehmen wir, dass der Schwerpunkt
!
n
n
1X
1X
P (x̄, ȳ) = P
xi ,
yi
n
n
i=1
i=1
der Punktewolke auf der Geraden y = ax + b liegt.
Die Frage stellt sich nun wiederum, ob es sich bei der gefundenen Lösung um ein Extremum
oder einen Sattelpunkt handelt. Um dies abzuklären, berechnen wir die zweiten partiellen
Ableitungen der Funktion S
Saa (a, b) = 2
n
X
x2i
i=1
Sbb (a, b) = 2n
n
X
Sab (a, b) = Sba (a, b) = 2
xi
i=1
und betrachten
2
Saa (a, b) · Sbb (a, b) − Sab (a, b) = 4n
n
X
i=1
x2i
−4
n
X
i=i
xi
!2
.
Wir benutzen die Cauchy-Schwarzsche Ungleichung
|h~u, ~v i| ≤ |~u| · |~v |,
die in Komponenten ausgeschrieben die folgende Form hat
!2
n
n
n
X
X
X
2
ui vi
≤
ui
vi2 .
i=1
i=1
i=1
Wenn die Vektoren ~u und ~v parallel sind, dann gilt die Gleichheit in der Cauchy-Schwarzschen
Ungleichung.
Mit der Setzung u1 = 1, . . . , un = 1 und v1 = x1 , . . . , vn = xn folgt
!2
n
n
X
X
xi
>n
x2i ,
i=i
i=1
106
Kapitel 10. Regressionsrechnung
da die Vektoren ~u und ~v nicht parallel sind. Damit ergibt sich die hinreichende Bedingung
!2
n
n
X
X
Saa (a, b) · Sbb (a, b) − Sab (a, b)2 = 4n
x2i − 4
xi
>0
i=1
für einen Extrempunkt. Da Saa (a, b) = 2
Minimum.
Pn
2
i=1 xi
i=i
> 0 gilt, handelt es sich in der Tat um ein
Achtung bei Datenmaterial mit Ausreissern!
Die Ausgleichsrechnung ist sehr anfällig auf Ausreisser (vgl. Abbildungen 10.1.ii und 10.1.iii).
Deshalb sollten wir immer grösste Vorsicht walten lassen und die Stichprobe zuerst auf Ausreisser untersuchen. Dies kann entweder grafisch oder mit dem Ausreissertest nach Grubbs
geschehen.
y
y
b
c
b
b
b
b
b
b
b
b
b
b
b
b
b
c
b
x
x
Abbildung 10.1.ii: Eine falsche Regressionsgerade wegen einem Ausreisser
10.2
Abbildung 10.1.iii: Eine vorgetäuschte
Abhängigkeit wegen einem Ausreisser
Allgemeine Regression
Gegeben seien n Punkte P1 (x1 , y1 ), . . . , Pn (xn , yn ). Gesucht ist eine Funktion f der Form
f (x) =
m
X
k=1
ak fk (x) = a1 f1 (x) + · · · + am fm (x), wobei m < n.
Die m Funktionen f1 , . . . , fm sind vorgegebene Funktionen in analytischer Form, wie zum
Beispiel x2 , sin(x) oder x1 . Die Koeffizienten a1 , . . . , am werden so bestimmt, dass die Fehlerquadratsumme
n
n
X
X
S(a1 , . . . , am ) =
(f (xi ) − yi )2 =
∆yi2
i=1
i=1
bezüglich der n Punkte Pi minimal wird. Dies stellt eine Verallgemeinerung der bereits besprochenen Methode der kleinsten Quadrate dar. Für a1 = a, a2 = b und f1 (x) = x, f2 (x) = 1
ergibt sich der der Spezialfall einer Ausgleichsgeraden. Wir wollen also die Fehlerquadratsumme
!2
n
n
m
X
X
X
S(a1 , . . . , am ) =
(f (xi ) − yi )2 =
ak fk (xi ) − yi
i=1
i=1
k=1
10.2. Allgemeine Regression
107
y
b
b
b
f (xi )
b
y = f (x)
b
b
b
∆yi
b
bP
b
i (xi , yi )
b
b
xi
x
Abbildung 10.2.i: Allgemeine Approximation mit minimalem quadratischen Fehler.
minimieren, dazu berechnen wir alle ersten partiellen Ableitungen
Sa1 (a1 , . . . , am ) = 2
n
m
X
X
i=1
..
.
Sam (a1 , . . . , am ) = 2
k=1
n
m
X
X
i=1
k=1
ak fk (xi ) − yi
ak fk (xi ) − yi
!
!
f1 (xi ) = 0,
..
.
fm (xi ) = 0.
Dies ergibt ein lineares Gleichungssystem mit m Gleichungen für die m unbekannten Koeffizienten a1 , . . . , am .
n
m
X
X
i=1
k=1
n
m
X
X
i=1
k=1
!
ak fk (xi ) f1 (xi ) =
!
n
m
X
X
i=1
..
.
ak fk (xi ) fm (xi ) =
k=1
n
m
X
X
i=1
k=1
!
ak fk (xi )f1 (xi )
!
ak fk (xi )fm (xi )
=
n
X
yi f1 (xi ),
n
X
yi fm (xi ).
i=1
..
.
=
i=1
108
Kapitel 10. Regressionsrechnung
Jetzt sollen die Summenbildungen vertauscht werden1 . Wir erhalten
!
!
m
n
m
n
n
X
X
X
X
X
ak fk (xi )f1 (xi ) =
ak
fk (xi )f1 (xi ) =
yi f1 (xi ),
k=1
i=1
m
n
X
X
k=1
i=1
k=1
!
ak fk (xi )fm (xi )
i=1
i=1
..
.
=
m
X
n
X
ak
!
fk (xi )fm (xi )
i=1
k=1
..
.
n
X
=
yi fm (xi )
i=1
und ausführlich geschrieben
a1
n
X
!
f1 (xi )f1 (xi )
i=1
a1
n
X
!
f1 (xi )fm (xi )
i=1
+ · · · + am
+ · · · + am
n
X
i=1
n
X
i=1
!
fm (xi )f1 (xi )
!
fm (xi )fm (xi )
=
n
X
yi f1 (xi ),
i=1
..
.
=
(10.2.a)
n
X
yi fm (xi ).
i=1
Beim linearen Gleichungssystem (10.2.a) handelt es sich um das so genannte Normalgleichungssystem der Ausgleichsrechnung. Dieses lässt sich auch mit Hilfe vom Matrizen schreiben
 n
 n


n
X
X
X
f1 (xi )f1 (xi ) · · ·
fm (xi )f1 (xi )  
yi f1 (xi ) 

 




a1
i=1
 i=1

 i=1







..
.
.
.
.
.
.
.
.

· . =
 . (10.2.b)
.
.
.
.

 n


n
n
 X



X
X
a
m


f1 (xi )fm (xi ) · · ·
fm (xi )fm (xi ) 
yi fm (xi ) 
i=1
i=1
i=1
In abkürzender Schreibweise können wir das obige lineare Normalgleichungssystem (10.2.b)
gemäss
A~a = ~b
(10.2.c)
schreiben, wobei die m gesuchten unbekannten Koeffizienten a1 , . . . , am zum Vektor ~a zusammengefasst wurden. Die Koeffizienten
Akj =
n
X
fk (xi )fj (xi ),
i=1
k, j ∈ {1, . . . , m}
1
Wir betrachten dazu ein vereinfachtes Beispiel von Doppelsummen und der Vertauschung von Summenzeichen
!
3
2
X
X
aik = (a11 + a12 ) + (a21 + a22 ) + (a31 + a32 )
i=1
k=1
= (a11 + a21 + a31 ) + (a12 + a22 + a32 )
!
2
3
X
X
=
aik .
k=1
i=1
10.2. Allgemeine Regression
109
der symmetrischen (m × m)-Matrix A und die Koeffizienten
n
X
bk =
yi fk (xi ),
i=1
k ∈ {1, . . . , m}.
des Störvektors ~b berechnen wir aus den Koordinaten der gegebenen Punkte. Damit lassen sich
nun die gesuchten Koeffizienten a1 , . . . , am durch lösen des linearen Normalgleichungssystems
(10.2.c) berechnen. Bei grossem m geschieht dies mittels Computer. Damit ist das gegebene
Problem im Prinzip gelöst.
Beispiel 10.2.1. Eine Punktmenge sei durch eine Funktion der Form
f (x) = ax + b sin(x)
[x im Bogenmass]
im Gaussschen Sinne zu approximieren. Die folgenden 8 Punkte P1 , . . . , P8 seien tabellarisch
gegeben
1
0
0.0
i
xi
yi
2
1
0.2
Wir minimieren
S(a, b) =
3
2
1.1
8
X
i=1
4
3
2.9
5
4
4.8
6
5
6.0
7
6
6.3
8
7
6.3
(axi + b sin(xi ) − yi )2 ,
dazu berechnen wir die ersten partiellen Ableitungen
Sa (a, b) = 2
Sb (a, b) = 2
8
X
i=1
8
X
i=1
(axi + b sin(xi ) − yi ) xi = 0,
(axi + b sin(xi ) − yi ) sin(xi ) = 0.
Dies ergibt das lineare Gleichungssystem2 mit zwei Gleichungen für die zwei unbekannten
Koeffizienten a und b.
8
X
ax2i +
i=1
8
X
8
X
bxi sin(xi ) =
i=1
8
X
b sin2 (xi ) =
8
X
xi sin(xi ) =
axi sin(xi ) +
i=1
8
X
y i xi ,
i=1
i=1
8
X
yi sin(xi )
8
X
y i xi ,
i=1
oder
a
8
X
i=1
a
8
X
i=1
2
x2i + b
i=1
8
X
xi sin(xi ) + b
i=1
sin2 (xi ) =
i=1
8
X
(10.2.d)
yi sin(xi ).
i=1
Dieses lineare Gleichungssystem hätte sich auch direkt aus dem linearen Normalgleichungssystem (10.2.a)
durch Einsetzen von n = 8, m = 2 und a1 = a, a2 = b und f1 (x) = x, f2 (x) = sin(x) ergeben.
110
Kapitel 10. Regressionsrechnung
Daraus lassen sich die gesuchten Koeffizienten a und b berechnen. Dieses Normalgleichungssystem lässt sich wiederum mit Hilfe einer Matrizengleichung schreiben




8
8
8
X
X
X
x2i
xi sin(xi )  
y i xi






i=1
i=1
i=1

· a =
.
8
8
8
 X



X
b
X




xi sin(xi )
sin2 (xi )
yi sin(xi )
i=1
i=1
i=1
Aus den Koordinaten der gegebenen 8 Punkte P1 (x1 , y1 ), . . . , P8 (x8 , y8 ) lassen sich die Koeffizienten dieses Normalgleichungssystems numerisch berechnen. Wir erhalten3
8
X
8
X
x2i = 140,
i=1
8
X
sin2 (xi ) = 3.5568,
i=1
8
X
i=1
8
X
xi yi = 142.2,
i=1
i=1
xi sin(xi ) = −1.8160,
yi sin(xi ) = −5.4297.
Damit ergibt sich das zu lösende lineare Normalgleichungssystem
140
−1.8160
a
142.2
·
=
−1.8160 3.5568
b
−5.4297
mit der Lösung4 a = 1.0026 und b = −1.0147. Die gesuchte Ausgleichsfunktion ist also durch
f (x) = 1.0026x − 1.0147 sin(x)
3
4
x im Bogenmass
Wir könnten auch mit der Cramerschen Regel (vgl. [9], Seiten 86ff) die Lösung


8
8
X
X
yi x i
xi sin(xi ) 



i=1
i=1

det 
8
8
8
8
8
8
 X

X
X
X
X
X


2
yi sin(xi )
sin (xi )
x i yi
sin2 (xi ) −
yi sin(xi )
xi sin(xi )
i=1
a=
i=1
8
X

x2i


i=1
det 
8
 X

xi sin(xi )
i=1
und
8
X

b=
x2i


i=1
det 
8
 X

xi sin(xi )
i=1
8
X

x2i


i=1
det 
8
 X

xi sin(xi )
i=1
8
X
 =
i=1
xi sin(xi ) 




2
sin (xi )
i=1
8
X
i=1
8
X
i=1
i=1
8
X
2
xi
i=1
i=1
8
X
2
sin (xi ) −
xi sin(xi )
i=1
!2
i=1
8
X
yi x i
i=1
8
X
i=1
8
X
yi sin(xi )






 =
xi sin(xi ) 




2
sin (xi )
i=1
8
X
8
X
x2i
i=1
8
X
i=1
8
X
i=1
x2i
yi sin(xi ) −
8
X
i=1
i=1
direkt aus dem Normalgleichungssystem (10.2.d) explizit berechnen.
2
8
X
xi sin(xi )
i=1
sin (xi ) −
8
X
i=1
8
X
x i yi
i=1
xi sin(xi )
!2
.
10.2. Allgemeine Regression
111
gegeben.
Die berechneten Werte im Vergleich zu den gegebenen ergeben sich zu:
i
xi
yi
f (xi )
1
0
0.0
0.0000
2
1
0.2
0.1488
3
2
1.1
1.0825
4
3
2.9
2.8646
5
4
4.8
4.7783
6
5
6.0
5.9860
7
6
6.3
6.2991
8
7
6.3
6.3526
Aufgaben
Aufgabe 10.2.1. In einem Wald sind die Durchmesser x1 , . . . , xn und die dazu gehörigen
Höhen y1 , . . . , yn von n Bäumen gemessen worden, so dass n empirische Zahlenpaare (x1 , y1 ),
. . . , (xn , yn ) gegeben sind. Durch die Punkte kann am ehesten eine passende logarithmische
Ausgleichskurve gelegt werden. Bestimmen Sie diese Funktion in der Form
f (x) = a log10 (x) + b.
Numerisches Beispiel: P1 (1, 1), P2 (2, 2), P3 (4, 2.5)
Aufgabe 10.2.2. Bestimmen Sie die beste Funktion der Form
f (x) = ax2 + be−x
zu den folgenden Punkten:
i
xi
yi
1
0
-1.0
2
1
1.6
3
2
7.9
4
3
17.9
5
4
32.0
Aufgabe 10.2.3. Bestimmen Sie die beste Funktion der Form
f (x) = a + bx + c sin(x)
[x im Bogenmass]
zu den folgenden Punkten:
i
xi
yi
1
0
1.0000
2
1
1.1585
3
2
2.0907
4
3
3.8589
Aufgabe 10.2.4. Bestimmen Sie die beste Funktion der Form
f (x) = a + bx2 + c sin(x) + d cos(x)
[x im Bogenmass]
zu den folgenden Punkten:
i
xi
yi
1
-2
-3.7416
2
-1
1.2391
3
0
4.0000
4
1
2.9221
5
2
-1.9230
6
3
-8.8389
Lösungen
Lösung 10.2.1. a = 2.491 und b = 1.083
Lösung 10.2.2. a = 1.999897 und b = −1.007806
Lösung 10.2.3. a = 0.9999968, b = 1.00001021 und c = −1.0000318
Lösung 10.2.4. a = 2.0000, b = −1.0000, c = 1.0000 und d = 1.9999
112
Kapitel 10. Regressionsrechnung
Kapitel 11
Regressionsanalyse
Die Regressionsanalyse behandelt folgendes Problem: Aus den Realisierungen einer Zufallsgrösse X sollen wahrscheinlichkeitstheoretische Aussagen, d.h., Vorhersagen über die Werte
einer zweiten Zufallsgrösse Y gemacht werden. Dabei sind natürlich nur dann sinnvolle Vorhersagen möglich, wenn die beiden Zufallsgrössen X und Y abhängig sind, wenn also eine
Verbindung zwischen X und Y besteht.
11.1
Allgemeines
Beispiel 11.1.1. Der Bremsweg eines bestimmten Autos hängt wesentlich von der Geschwindigkeit ab, die das Auto unmittelbar vor dem Bremsbeginn erreicht hat. Diese Geschwindigkeit
bestimmt jedoch den Bremsweg nicht eindeutig, weil er durch viele weitere Grössen beeinflusst
wird, z.B. durch den Zustand der Bremsen und Reifen, die Strassenbeschaffenheit, das Ladegewicht und das Verhalten des Fahrers während des Bremsvorgangs. Werden bei konstanter
Geschwindigkeit x mehrere Bremsversuche unternommen, so erhalten wir im Allgemeinen
verschiedene Bremswege als Realisierungen einer Zufallsvariable Y (x). Zu jedem Geschwindigkeitswert x gehört also eine Zufallsvariable Y (x). Aus Erfahrung ist bekannt, dass der
erwartete Bremsweg und die Streuung der Bremswege mit wachsender Geschwindigkeit x
grösser werden. Es gilt die Faustregel “grössere Geschwindigkeit gleich längerer Bremsweg”.
Aus der Geschwindigkeit können also keine deterministischen, sondern nur wahrscheinlichkeitstheoretische Aussagen über den Bremsweg gemacht werden. Diesen Zusammenhang
können wir mit einer Regression beschreiben.
Die Regressionsanalyse gibt uns Auskunft darüber, wie gut die angepasste Kurve zur Realität passt, d.h., ob das gewählte Modell (z.B. linear, polynomial oder exponentiel) ein angepasstes ist.
Beispiel 11.1.2. Im Gegensatz zu Beispiel 11.1.1 ist der Zusammenhang zwischen der Seitenlänge x eines Quadrates und dessen Flächeninhalt y ein deterministischer. Es gilt die
funktionale Beziehung y = x2 . Durch die Vorgabe einer Seitenlänge x ist also der Flächeninhalt
y = x2 eindeutig bestimmt.
Wir unterscheiden zwei Arten von Variablen:
1. Nichtstochastische Variablen, die fest vorgegeben sind, wie Stützpunkte, Klassenmitten oder Messpunkte (z.B. Geschwindigkeit vor Bremsbeginn in Beispiel 11.1.1).
Diese werden im Allgemeinen mit x bezeichnet.
113
114
Kapitel 11. Regressionsanalyse
2. Stochastische Variablen, die meistens einer Normalverteilung gehorchen (z.B. Bremsweg in Beispiel 11.1.1). Diese werden im Allgemeinen mit y bezeichnet.
b
y
b
b
b
ȳi
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
xi
x
Abbildung 11.1.i: Nichtstochastische Variablen in x-Richtung und im Allgemeinen normalverteilte stochastische Variablen in y-Richtung
Der Zusammenhang des durchschnittlichen Wertes ȳ von y je Messpunkt mit den verschiedenen Messpunkten der nichtstochastischen Variablen x heisst Regression. Im Folgenden
nehmen wir an, dass die stochastischen Variablen y einer Normalverteilung mit den Parametern µ und σ 2 gehorchen. Im Wesentlichen gibt es drei typische Fälle der Regression:
1. Kein Zusammenhang zwischen x und y, d.h., die y-Werte sind unabhängig von den
x-Werten (vgl. Abbildung 11.1.ii).
2. Linearer Zusammenhang zwischen x und y, d.h., die Verbindungslinie der Mittelwerte ȳ der einzelnen Verteilungen liegen alle auf einer Geraden, der so genannten Regressionsgeraden (vgl. Abbildung 11.1.iii). Die Regressionsgerade ist der geometrische
Ort der wahrscheinlichsten Werte von y je Messpunkt x.
3. Nichtlinearer Zusammenhang zwischen x und y, d.h., die Verbindungslinie der Mittelwerte ȳ der einzelnen Verteilungen liegen z.B. auf einer polynomialen (Grad mindestens zwei), exponentiellen oder logarithmischen Kurve (vgl. Abbildung 11.1.iv).
y
y
ȳ7
ȳ6
ȳ1
b
ȳ2
b
ȳ3
b
ȳ4
b
ȳ5
b
ȳ6
b
ȳ7
b
ȳ5
y = ax + b
ȳ4
ȳ3
ȳ2
y = const
ȳ1
x1
x2
x3
x4
x5
x6
x7
x
Abbildung 11.1.ii: Kein Zusammenhang
zwischen x und y.
b
b
b
b
b
b
b
x1
x2
x3
x4
x5
x6
x7
x
Abbildung 11.1.iii: Linearer Zusammenhang zwischen x und y
11.2. Regressionsgerade
115
y
ȳ6
ȳ5
ȳ4
y = f (x)
ȳ3
ȳ2
ȳ1
ȳ7
b
b
b
b
b
b
b
x2
x1
x4
x3
x5
x6
x7
x
Abbildung 11.1.iv: Nichtlinearer Zusammenhang zwischen x und y
In der Praxis sind meistens nicht so viele Messpunkte vorhanden, dass für viele Werte von
x annähernde Normalverteilungen entstehen. Es steht meistens eine mehr oder weniger beschränkte Stichprobe pro Messpunkt zur Verfügung, die von Messpunkt zu Messpunkt anders
sein kann.
11.2
Regressionsgerade
Gegeben sei eine Punktewolke von N Punkten P1 (x1 , y1 ), . . . , PN (xN , yN ). Gesucht ist die
Gerade mit der Gleichung y = ax + b, die diese Punktewolke im Sinne von Gauss möglichst
gut annähert. Dies bedeutet, dass die Konstanten a und b der Geraden so gewählt werden,
dass die so genannte Fehlerquadratsumme
S(a, b) =
N
X
∆yi2
i=1
N
X
=
(yi − axi − b)2 ,
i=1
die Summe der senkrechten quadratischen Abweichungen von den gegebenen Punkten zur Geraden minimal ist. Sie ist zu minimieren, also berechnen wir die ersten partiellen Ableitungen
b
y
b
Pi (xi , yi )
b
b
∆yi
b
b
b
b
b
b
b
b
b
b
y = ax + b
b
b
x
Abbildung 11.2.i: Regressionsgerade
116
Kapitel 11. Regressionsanalyse
und setzen diese gleich null
N
X
(yi − axi − b)xi = 0
Sa (a, b) = −2
Sb (a, b) = −2
und
i=1
N
X
i=1
(yi − axi − b) = 0.
Dies ergibt das lineare Gleichungssystem in den Variablen a und b
a
N
X
x2i
+b
i=1
N
X
xi =
i=1
N
X
xi y i
und
i=1
a
N
X
xi + bN =
i=1
N
X
(11.2.a)
yi ,
i=1
welches die Lösung
N
a=
N
X
i=1
N
xi y i −
N
X
i=1
x2i
−
N
X
xi
i=1
N
X
i=1
N
X
yi
i=1
xi
!2
und
b=
N
X
x2i
i=1
N
X
i=1
N
n
X
yi −
x2i
i=1
−
N
X
xi
i=1
N
X
i=1
N
X
xi y i
i=1
xi
!2
hat. Der Koeffizient a heisst Regressionskoeffizient und b die Regressionskonstante. Aus
der zweiten Gleichung (11.2.a) entnehmen wir, dass der Schwerpunkt
P (x̄, ȳ) = P
N
N
1 X
1 X
xi ,
yi
N
N
i=1
i=1
!
der Punktewolke auf der Regressionsgeraden y = ax + b liegt.
11.3
Regressionsanalyse einer Geraden
Wir sollten folgendes Problem bei der Regressionsrechnung nicht aus den Augen verlieren:
Da die Punkte um die Regressionsgerade mehr oder weniger streuen, enthalten sowohl der
Regressionskoeffizient a als auch die Regressionskonstante b eine gewisse Unsicherheit. Die
Frage stellt sich nun, ab welcher Grösse des Regressionskoeffizienten a von einem wirklichen
Einfluss der Grösse x auf die Grösse y gesprochen werden kann, d.h., ist die Regressionsgerade
signifikant von einer zur x-Achse parallelen Geraden verschieden.
Eine Berücksichtigung der Variable x ist nur dann sinnvoll, wenn die Veränderung von y
nicht rein zufällig auf ein Veränderung von x erfolgt. Mit Hilfe eines statistischen Tests, der
so genannten Regressionsanalyse, wollen wir nun diese Abhängigkeit quantifizieren.
Es seien also N Messpunkte P1 (x1 , y1 ), . . . , PN (xN , yN ) gegeben, dabei bezeichnet x die nichtstochastische und y die stochastische Variable. Nach der Methode der kleinsten Quadrate (vgl.
Kapitel 11.2) wurde eine beste Gerade Y = ax + b an diese Punktewolke angepasst.
Über den Regressionskoeffizienten a stellen wir nun eine Annahme in Form einer statistischen
Hypothese auf.
H0 : a = 0, d.h., es besteht keine Abhängigkeit zwischen x und y.
H1 : a 6= 0, d.h., es besteht eine Abhängigkeit zwischen x und y.
11.3. Regressionsanalyse einer Geraden
117
Zur Beantwortung dieser Fragestellung berechnen wir aus den Koordinaten der N Punkte
P1 (x1 , y1 ), . . . , PN (xN , yN ) die (theoretischen) Werte
Yi = axi + b
und damit die folgenden Grössen
N
s2x
N
1 X
mit x̄ =
xi ,
N
1 X
=
(xi − x̄)2
N −1
s2y =
1
N −2
i=1
N
X
i=1
i=1
(yi − Yi )2 =
und aus diesen die Testgrösse
tReg =
√
1
N −2
N −1
N
X
i=1
(yi − (axi + b))2
sx
a.
sy
(11.3.a)
Zur quantitativen Beurteilung der Abhängigkeit der Variablen y von der Grösse x sind folgende Gesichtspunkt massgebend:
• Die Varianz s2x der unabhängigen x-Werte um den Mittelwert x̄. Grosse Streuung in
x-Richtung gibt Sicherheit für die Aussage. Für die Praxis heisst das, es muss dafür
gesorgt werden, dass die Grössen xi über ein möglichst grossen Bereich vorhanden sind.
• Die Restvarianz s2y der Punkte um die Gerade, d.h. die Fehlerquadratsumme in yRichtung. Kleine Streuungen in y-Richtung ergeben eine Zuverlässigkeit der Aussage.
Die Testgrösse tReg ist Student-t-verteilt mit n = N − 2 Freiheitsgraden. Das Testverfahren
für die Nullhypothese kann dann folgendermassen formuliert werden: Nach Wahl eines Signifikanzniveaus α ermitteln wir mit Hilfe von Tafel T.3 oder einem Computerprogramm den
kritischen Wert tn,1− α2 bei einer zweiseitigen Fragestellung. Dann ziehen wir den statistischen Schluss:
• Ist die Testgrösse |tReg | < tn,1− α2 , dann wird die Nullhypothese H0 angenommen, d.h.,
es besteht keine signifikante Abhängigkeit zwischen x und y.
• Ist die Testgrösse |tReg | ≥ tn,1− α2 , dann wird die Nullhypothese H0 auf dem Signifikanzniveau α abgelehnt, d.h., es besteht eine signifikante Abhängigkeit.
Beispiel 11.3.1. Die Abhängigkeit der stochastischen Variablen y von der Grösse x soll
untersucht werden. Die folgenden Messwerte liegen vor.
xi
yi
0
9
1
8
3
7
4
5
5
5
6
3
7
3
8
1
Kann von einer signifikanten Abhängigkeit gesprochen werden? Wir wählen das Signifikanzniveau α = 0.001. Aus dem vorliegenden Datenmaterial berechnen wir vorerst die Regressionsgerade mit der Methode der kleinsten Quadrate
y = −0.9595 x + 9.2027.
Nun wollen wir mit der Regressionsanalyse überprüfen, ob a = −0.9595 eine signifikante
Abhängigkeit darstellt. Dazu berechnen wir s2x = 7.9286 und s2y = 0.2973 und daraus die
118
Kapitel 11. Regressionsanalyse
Testgrösse tReg = −13.1092, wobei N = 8 ist. Zum Signifikanzniveau 0.1% bestimmen wir
aus Tafel T.3 oder einem Computerprogramm den kritischen Wert t6,0.9995 = 5.9587.
Da |tReg | = 13.1092 ≥ t6,0.9995 = 5.9587 gilt, wird die Nullhypothese abgelehnt. D.h., x
hat einen wesentlichen Einfluss auf y oder anders ausgedrückt, der Regressionskoeffizient
a = −0.9595 ist signifikant von Nullverschieden.
Beispiel 11.3.2 (Meeresspiegel in Venedig). Die folgende Messreihe zeigt den jährlichen
maximalen Meeresspiegel1 [in cm] in Venedig für die Jahre von 1931 bis 1981.
xi
yi
xi
yi
xi
yi
xi
yi
1931
103
1944
106
1957
119
1970
123
1932
78
1945
105
1958
124
1971
122
1933
121
1946
136
1959
118
1972
120
1934
116
1947
126
1960
145
1973
114
1935
115
1948
132
1961
122
1974
96
1936
147
1949
104
1962
114
1975
125
1937
119
1950
117
1963
118
1976
124
1938
114
1951
151
1964
107
1977
120
1939
89
1952
116
1965
110
1978
132
1940
102
1953
107
1966
194
1979
166
1941
99
1954
112
1967
138
1980
134
1942
91
1955
97
1968
144
1981
138
1943
97
1956
95
1969
138
Ist die Zunahme des Meeresspiegels in Venedig über diese Periode signifikant? Das Signifikanzniveau sei 5%.
Die Regressionsgerade lautet
y = 0.57 x − 989.38.
Mit der Regressionsanalyse überprüfen wir, ob die Steigung a = 0.57 signifikant von Nullverschieden ist. Dazu berechnen wir s2x = 221.00 und s2y = 346.70 und daraus die Testgrösse
tReg = 3.20, wobei N = 51 ist. Zum Signifikanzniveau 5% bestimmen wir aus Tafel T.3 oder
einem Computerprogramm den kritischen Wert t49,0.975 = 2.01.
Da |tReg | = 3.20 ≥ t49,0.975 = 2.01 gilt, wird die Nullhypothese abgelehnt. Das heisst, der
Anstieg des Meeresspiegels in Venedig in den Jahren 1931 bis 1981 ist real.
Aufgaben
Aufgabe 11.3.1. Die Abhängigkeit der stochastischen Variablen y von der Grösse x soll
untersucht werden. Die folgenden Messwerte liegen vor.
xi
yi
1
1
2
1
5
4
8
3
10
6
Kann von einer signifikanten Abhängigkeit gesprochen werden? Das Signifikanzniveau ist 1%.
Aufgabe 11.3.2. Die Abhängigkeit der stochastischen Variablen y von der Grösse x soll
untersucht werden. Die folgenden Messwerte liegen vor.
xi
yi
xi
yi
1.1
2.0
4.6
0.8
1.2
1.9
5.1
0.8
1.4
1.8
6.3
0.7
1.6
1.8
7.8
0.6
1.7
1.7
8.3
0.5
1.9
1.7
9.4
0.4
2.0
1.6
10.3
0.3
2.3
1.5
10.5
0.2
2.7
1.5
10.7
0.2
2.8
1.4
11.0
0.1
2.9
1.3
11.6
0.4
3.3
1.2
11.9
0.1
3.8
1.1
12.0
0.0
4.0
0.9
12.6
-0.1
Kann von einer signifikanten Abhängigkeit gesprochen werden? Das Signifikanzniveau ist 1%.
1
Der aufmerksame Leser wird realisieren, dass der steigende Meeresspiegel nicht auf ein Ansteigen des
Wassers in der Adria zurückzuführen ist, sondern auf das Sinken der Markierung an der der Meeresspiegel in
Venedig abgelesen wird.
11.4. Regressionsanalyse zweier Geraden
11.4
119
Regressionsanalyse zweier Geraden
In der Praxis kommt es oft vor, dass zwei Stichproben der Umfänge N1 und N2 mit den
Messpunkten P11 (x11 , y11 ), . . . , P1N1 (x1N1 , y1N1 ) und P21 (x21 , y21 ), . . . , P2N2 (x2N2 , y2N2 ) gegeben sind. Daraus lassen sich mit der Methode der kleinsten Quadrate (vgl. Kapitel 11.2) zwei
Regressionsgeraden
y = a1 x + b1 und y = a2 x + b2 .
berechnen. Es interessiert, ob die beiden Regressionsgeraden nur zufällig voneinander abweichen.
y
b
b
bc
y = a2 x + b2
b
b
c
b
c
b
c
b
b
b
b
b
b
bc
bc
bc
y = a1 x + b1
bc
b
x
Abbildung 11.4.i: Regressionsanalyse zweier Geraden. Unterscheiden sich die beiden Gereaden
signifikant, d.h., sind die Steigungen oder die y-Achsenabschnitte verschieden?
Prüfung der Regressionskoeffizienten
Dazu stellen wir die alternativen Hypothesen auf.
Ha,0 : a1 = a2 , d.h., gleiche Steigungen der beiden Regressionsgeraden.
Ha,1 : a1 6= a2 , d.h., verschiedene Steigungen der beiden Regressionsgeraden.
Zur Beantwortung dieser Fragestellung berechnen wir aus den zwei gegebenen Stichproben
P11 (x11 , y11 ), . . ., P1N1 (x1N1 , y1N1 ) und P21 (x21 , y21 ), . . . , P2N2 (x2N2 , y2N2 ) die Grössen
x̄1 =
N1
1 X
x1i
N1
und
i=1
x̄2 =
N2
1 X
x2i
N2
i=1
und
N
s2x1
1
X
1
=
(x1i − x̄1 )2
N1 − 1
N
und
s2x2
i=1
2
X
1
=
(x2i − x̄2 )2
N2 − 1
(11.4.a)
i=1
und
N
s2y1
1
X
1
=
(y1i − (ax1i + b))2
N1 − 2
i=1
N
und
s2y2
2
X
1
=
(y2i − (ax2i + b))2 (11.4.b)
N2 − 2
i=1
120
Kapitel 11. Regressionsanalyse
und damit
s2a
(N1 − 2)s2y1 + (N2 − 2)s2y2
=
N1 + N2 − 4
1
1
+
2
(N1 − 1)sx1
(N2 − 1)s2x2
.
Aus diesen Grössen entsteht dann schlussendlich die Testgrösse
ta =
a1 − a2
.
sa
(11.4.c)
Die Testgrösse ta ist Student-t-verteilt mit n = N1 + N2 − 4 Freiheitsgraden. Nach Wahl
eines Signifikanzniveaus α ermitteln wir mit Hilfe von Tafel T.3 oder einem Computerprogramm den kritischen Wert tn,1− α2 bei einer zweiseitigen Fragestellung. Dann ziehen wir den
statistischen Schluss:
• Ist die Testgrösse |ta | < tn,1− α2 , dann wird die Nullhypothese Ha,0 angenommen, d.h.,
es besteht kein signifikanter Unterschied zwischen den Steigungen der beiden Regressionsgeraden.
• Ist die Testgrösse |ta | ≥ tn,1− α2 , dann wird die Nullhypothese Ha,0 auf dem Signifikanzniveau α abgelehnt, d.h., die beiden Regressionsgeraden haben signifikant verschiedene
Steigungen.
Wird die Nullhypothese nicht abgelehhnt, so müssen wir zur Untersuchung der Gleichheit
der beiden Regressionsgeraden auch noch die Regressionskonstanten auf einen signifikanten
Unterschied hin untersuchen. Dies geschieht abermals mit einem statistischen Test und einer
geeigneten Testgrösse.
Prüfung der Regressionskonstanten
Dazu stellen wir die alternativen Hypothesen auf.
Hb,0 : b1 = b2 , d.h., gleiche y-Achsenabschnitte der beiden Regressionsgeraden.
Hb,1 : b1 6= b2 , d.h., verschiedene y-Achsenabschnitte der beiden Regressionsgeraden.
Zur Beantwortung dieser Fragestellung berechnen wir aus den Messpunkten die Grössen (vgl.
Gleichungen (11.4.a) und (11.4.b)) s2x1 , s2x2 und s2y1 , s2y2 und
s2b
(N1 − 2)s2y1 + (N2 − 2)s2y2
=
N1 + N2 − 4
x̄21
x̄22
1
1
+
+
+
2
2
(N1 − 1)sx1
(N2 − 1)sx2
N1 N2
.
Aus diesen Grössen entsteht dann schlussendlich die Testgrösse
tb =
b1 − b2
.
sb
(11.4.d)
Die Testgrösse tb ist Student-t-verteilt mit n = N1 + N2 − 4 Freiheitsgraden. Nach Wahl
eines Signifikanzniveaus α ermitteln wir mit Hilfe von Tafel T.3 oder einem Computerprogramm den kritischen Wert tn,1− α2 bei einer zweiseitigen Fragestellung. Dann ziehen wir den
statistischen Schluss:
11.4. Regressionsanalyse zweier Geraden
121
• Ist die Testgrösse |tb | < tn,1− α2 , dann wird die Nullhypothese Hb,0 angenommen, d.h.,
es besteht kein signifikanter Unterschied zwischen den y-Achsenabschnitten der beiden
Regressionsgeraden.
• Ist die Testgrösse |tb | ≥ tn,1− α2 , dann wird die Nullhypothese Hb,0 auf dem Signifikanzniveau α abgelehnt, d.h., die beiden Regressionsgeraden haben signifikant verschiedene
y-Achsenabschnitte.
Haben wir beide Nullhypothesen Ha,0 und Hb,0 angenommen, so können wir davon ausgehen,
dass sich die beiden Regressionsgeraden nur zufällig voneinander unterscheiden.
Aufgaben
Aufgabe 11.4.1. Es soll untersucht werden, ob die Steigungen und die y-Achsenabschnitte
der beiden Ausgleichsgeraden, die durch das folgende Datenmaterial gegeben sind, signifikant
voneinander verschieden sind. Das Signifikanzniveau ist 10%.
x1i
y1i
1 2 5 8 10
1 1 4 3 6
x2i
y2i
3 4 5 6 7 8
1 1 1 7 6 7
Aufgabe 11.4.2. Es soll untersucht werden, ob die beiden Ausgleichsgeraden, die durch das
folgende Datenmaterial gegeben sind, signifikant voneinander verschieden sind. Das Signifikanzniveau ist 5%.
x1i
y1i
1 2 5 8 10 12 14 18
1 1 4 3 6 9 8 13
x2i
y2i
3 4 5 6 7 8 9 10 11 12
1 1 1 7 6 7 8 9 14 15
Aufgabe 11.4.3. Es soll untersucht werden, ob die beiden Ausgleichsgeraden, die durch das
folgende Datenmaterial gegeben sind, signifikant voneinander verschieden sind. Das Signifikanzniveau ist 1%.
x1i
y1i
x1i
y1i
1.0
7.0
4.0
4.0
1.3
6.9
4.1
3.9
1.4
6.7
4.2
3.7
1.6
6.5
4.4
3.4
1.7
6.3
4.8
3.2
1.9
5.4
5.4
2.9
2.0
5.4
5.8
2.8
2.1
5.3
6.1
2.8
2.4
5.2
6.3
2.7
2.6
5.1
7.3
2.5
2.7
5.0
7.4
2.3
2.9
4.9
8.5
2.1
3.0 3.3 3.6 3.7 3.9
4.8 4.6 4.4 4.3 4.2
8.6
2.0
x2i
y2i
x2i
y2i
1.4
10.0
3.3
5.1
1.4
9.4
3.5
4.7
1.5
9.3
3.6
4.2
1.6
9.4
3.7
3.7
1.7
8.6
3.9
3.4
1.8
8.5
4.2
2.8
1.9
8.4
4.6
2.5
2.0
8.2
4.8
2.1
2.1
8.1
4.9
1.8
2.3
7.9
5.0
1.6
2.5
7.5
5.1
1.3
2.6
7.0
5.7
1.0
2.6
6.9
5.8
0.5
2.7
6.3
6.0
0.0
2.7
6.2
6.7
-0.5
2.9 3.0
5.9 5.3
7.0
-1.0
122
Kapitel 11. Regressionsanalyse
Anhang A
Mathematische Hilfsmittel
A.1
Rechnen mit dem Summenzeichen
In der Statistik und in der Wahrscheinlichkeitsrechnung treffen wir oft auf Zahlenmengen,
zum Beispiel in Form von Datensätzen, die zum Teil sehr viele Elemente enthalten können.
Diese wollen wir effizient verarbeiten können. Die Einzeldaten können wir uns in jedem Fall
nummeriert vorstellen, sie bilden also eine Zahlenfolge. Die Nummerierung erfolgt mit den
natürlichen Zahlen N. Jedes Element erhält zu seiner Nummerierung eine Ordnungszahl als
Index
ai mit i ∈ {1, . . . , n}.
Im Falle einer endlichen Stichprobe bleibt n dabei endlich. Es kann aber auch vorkommen,
dass die Zahlenfolge auch unendlich lang sein kann, in diesem Fall haben wir n → +∞.
Zur Verarbeitung des Datenmaterials benötigen wir häufig nicht nur die Elemente der Zahlenfolge einzeln, sondern auch die Gesamtsumme aller Elemente oder die Summe all ihrer
Quadrate. Um die Schreibarbeit zu vereinfachen, verwenden wir für solche Summen endlicher
Reihen das Summenzeichen
n
X
i=1
ai = a1 + a2 + · · · + ai−1 + ai + ai+1 + · · · + an−1 + an
= a1 + · · · + an .
Dabei sprechen wir von der Summe aller ai von i = 1 bis n. Der Index i ist dabei eine
Laufvariable, die nur innerhalb der Summe Bedeutung hat, genau gleich wie die Integrationsvariable x in einem bestimmten Integral.
Beispiel A.1.1.
a.
n
X
i=1
1 = 1 + 1 + ··· + 1 = n
b. Es gilt die Formel
S=
n
X
i=1
i = 1 + 2 + ··· + n =
123
1
n(n + 1).
2
124
Anhang A. Mathematische Hilfsmittel
Beweis. Wir schreiben
1
+
2
+
3
+ ···
n
+ (n − 1) + (n − 2) + · · ·
(n + 1) + (n + 1) + (n + 1) + · · ·
+
+ (n − 1) +
n
= S
+
2
+
1
= S
+ (n + 1) + (n + 1) = 2 S
Also folgt 2S = n(n + 1) und damit die Behauptung.
c. Es gilt
n
X
i=1
i2 = 12 + 22 · · · + n2 =
1
n(n + 1)(2n + 1).
6
Der Beweis dieser Formel gelingt mittels einer vollständigen Induktion, siehe Aufgabe A.1.3. Für eine explizite Herleitung siehe [14], Summenformeln spezieller endlicher
Reihen.
Rechenregeln für endliche Summen
Es sei k eine reelle Konstante, dann gilt
a.
n
X
k = nk,
i=1
b.
n
X
kai = k
n
X
(ai + bi ) =
n
X
ai+1 −
i=1
c.
n
X
i=1
d.
ai ,
i=1
i=1
n
X
ai +
i=1
n
X
i=1
n
X
bi und
i=1
ai = an+1 − a1 . Es handelt sich dabei um eine Teleskopsumme.
Aufgaben
Aufgabe A.1.1. Schreiben Sie folgende Reihen mit dem Summensymbol.
a. 14 + 24 + 34 + 44 + 54 + 64 + 74
b. 20 + 21 + 22 + 23 + 24 + 25
c. 1 +
1
2
+
1
3
+
1
4
+
1
5
+
1
6
1
2
2
3
+
3
4
−
4
5
+
5
6
−
6
7
d.
−
+
1
7
+
1
8
Aufgabe A.1.2. Schreiben Sie gliedweise und berechnen Sie.
a.
6
X
i=2
2i
A.2. Die Regeln von de Morgan
b.
10
X
125
i2
i=6
c.
9
X
(−1)i
i=1
d.
6
X
k=1
cos
kπ
6
Aufgabe A.1.3. Beweisen Sie die Formel (c) in Beispiel A.1.1 mit vollständiger Induktion.
Aufgabe A.1.4. Beweisen Sie die Rechenregeln für endliche Summen.
Aufgabe A.1.5. Beweisen Sie die Formel
n
n
n
n
X
X
X
X
2
2
2
2
(λai + µbi ) = λ
ai + 2λµ
ai bi + µ
b2i .
i=1
i=1
i=1
i=1
Lösungen
Lösung A.1.1.
P7 4
a.
i=1 i
P6
i−1
b.
i=1 2
P8 1
c.
i=1 i
P6
i+1 i
d.
i=1 (−1)
i+1
Lösung A.1.2.
a. 40
b. 330
c. −1
d. −1
Lösung A.1.3. Vergleichen Sie das entsprechende Kapitel in [14].
Lösung A.1.4. Summen ausschreiben, neu ordnen und zusammenfassen – fertig.
Lösung A.1.5. Summen ausschreiben, neu ordnen und zusammenfassen – fertig.
A.2
Die Regeln von de Morgan
Es seien A und B zwei Ereignisse (Mengen), dann gelten die Regeln von de Morgan:
A∪B = A∩B
A∩B = A∪B
126
Anhang A. Mathematische Hilfsmittel
Aufgabe
Aufgabe A.2.1. Beweisen Sie die Regeln von de Morgan.
Lösung
Lösung A.2.1. Der Beweis läuft grafisch, indem Sie die Mengen A und B in allgemeiner
Lage zeichnen.
A.3
Die Gausssche Fehlerfunktion
Es gibt Funktionen, die keine elementaren Stammfunktionen besitzen. Das berühmteste Beispiel ist sicher die Wahrscheinlichkeitsdichte der (standardisierten) Normalverteilung
z2
1
f (z) = ϕ(z, 0, 1) = √ e− 2
2π
für − ∞ < z < ∞.
Gleichwohl ist es möglich das bestimmte Integral
√
Z ∞
π
−u2
I=
e
du =
.
2
0
(1.3.a)
zu berechnen.
In der Tat: Wir betrachten
2
I =
=
=
=
Z
∞
Z0 ∞
−u2
Z
∞
∞
2
e−u du
Z0 ∞
e−v dv
e
e
dudv
e−(u
2 +v 2 )
−u2
e
0
Z ∞Z
0
du ·
e
Z
du ·
2
0
−u2 −v2
0
∞Z ∞
0
dudv.
0
Dieses Doppelintegral lässt sich nun mit der Substitution u = r cos(ϕ) und u = r sin(ϕ) lösen
das heisst, wir verwenden Polarkoordinaten. Dabei müssen wir beachten, dass dudv = rdrdϕ
(vgl. Analysis IV, [14]. Also folgt
Z ∞Z ∞
2
2
2
e−(u +v ) dudv
I =
0
=
Z
π
2
0
=
Z
π
2
0
=
Z
0
π
= .
4
π
2
Z
0
∞
2
e−r rdrdϕ
0
1 −r2 ∞
− e dϕ
2
0
1
dϕ
2
A.3. Die Gausssche Fehlerfunktion
√
p
Damit folgt sofort, dass I = π4 = 2π .
Ein weiteres Integral, die so genannte Gausssche Fehlerfunktion1
Z x
Z x
1
2
2
−u2
erf(x) = √
e
du = √
e−u du
π −x
π 0
127
(1.3.b)
treffen wir auch häufig an. Wir bemerken, dass im Exponenten des Integranden der Faktor 12 fehlt. Mit der Substitution u = √12 z wird der Faktor wieder eingeführt, aber dabei
transformiert sich auch das Argument der Funktion.
Der Zusammenhang mit der Verteilungsfunktion der Standardnormalverteilung
Z z
u2
1
F (z) = Φ(z, 0, 1) = √
e− 2 du
2π −∞
ist durch
1
1 1
Φ(z, 0, 1) = + erf √ z
2 2
2
respektive
√
erf(x) = 2 Φ( 2x, 0, 1) − 1
gegeben.
1
erf steht für das engl. er ror f unction: Fehlerfunktion
128
Anhang A. Mathematische Hilfsmittel
Tafeln
T.1
T.2
T.3
Verteilungsfunktion Φ(z, 0, 1) der standardisierten Normalverteilung . . . .
Quantile zq der standardisierten Normalverteilung . . . . . . . . . . . . . .
Quantile tn,q der Student-t-Verteilung mit n Freiheitsgraden . . . . . . . . .
130
131
132
Die nachfolgenden Tafeln wurden alle mit Hilfe von Excel berechnet.
Aufgabe
Aufgabe T.1. Fertigen Sie selber mit Hilfe eines Computerprogrammes (z.B. Excel) die
nachfolgenden Tafeln an.
129
130
Tafeln
ϕ(z, 0, 1)
Φ(z, 0, 1)
0
z
z
Tabelle T.1: Verteilung Φ(z, 0, 1) der standardisierten Normalverteilung N (0, 1)
z
0.0
0.1
0.2
0.3
0.4
0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.04
0.5160
0.5557
0.5948
0.6331
0.6700
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.5
0.6
0.7
0.8
0.9
0.6915
0.7257
0.7580
0.7881
0.8159
0.6950
0.7291
0.7611
0.7910
0.8186
0.6985
0.7324
0.7642
0.7939
0.8212
0.7019
0.7357
0.7673
0.7967
0.8238
0.7054
0.7389
0.7704
0.7995
0.8264
0.7088
0.7422
0.7734
0.8023
0.8289
0.7123
0.7454
0.7764
0.8051
0.8315
0.7157
0.7486
0.7794
0.8078
0.8340
0.7190
0.7517
0.7823
0.8106
0.8365
0.7224
0.7549
0.7852
0.8133
0.8389
1.0
1.1
1.2
1.3
1.4
0.8413
0.8643
0.8849
0.9032
0.9192
0.8438
0.8665
0.8869
0.9049
0.9207
0.8461
0.8686
0.8888
0.9066
0.9222
0.8485
0.8708
0.8907
0.9082
0.9236
0.8508
0.8729
0.8925
0.9099
0.9251
0.8531
0.8749
0.8944
0.9115
0.9265
0.8554
0.8770
0.8962
0.9131
0.9279
0.8577
0.8790
0.8980
0.9147
0.9292
0.8599
0.8810
0.8997
0.9162
0.9306
0.8621
0.8830
0.9015
0.9177
0.9319
1.5
1.6
1.7
1.8
1.9
0.9332
0.9452
0.9554
0.9641
0.9713
0.9345
0.9463
0.9564
0.9649
0.9719
0.9357
0.9474
0.9573
0.9656
0.9726
0.9370
0.9484
0.9582
0.9664
0.9732
0.9382
0.9495
0.9591
0.9671
0.9738
0.9394
0.9505
0.9599
0.9678
0.9744
0.9406
0.9515
0.9608
0.9686
0.9750
0.9418
0.9525
0.9616
0.9693
0.9756
0.9429
0.9535
0.9625
0.9699
0.9761
0.9441
0.9545
0.9633
0.9706
0.9767
2.0
2.1
2.2
2.3
2.4
0.9772
0.9821
0.9861
0.9893
0.9918
0.9778
0.9826
0.9864
0.9896
0.9920
0.9783
0.9830
0.9868
0.9898
0.9922
0.9788
0.9834
0.9871
0.9901
0.9925
0.9793
0.9838
0.9875
0.9904
0.9927
0.9798
0.9842
0.9878
0.9906
0.9929
0.9803
0.9846
0.9881
0.9909
0.9931
0.9808
0.9850
0.9884
0.9911
0.9932
0.9812
0.9854
0.9887
0.9913
0.9934
0.9817
0.9857
0.9890
0.9916
0.9936
2.5
2.6
2.7
2.8
2.9
0.9938
0.9953
0.9965
0.9974
0.9981
0.9940
0.9955
0.9966
0.9975
0.9982
0.9941
0.9956
0.9967
0.9976
0.9982
0.9943
0.9957
0.9968
0.9977
0.9983
0.9945
0.9959
0.9969
0.9977
0.9984
0.9946
0.9960
0.9970
0.9978
0.9984
0.9948
0.9961
0.9971
0.9979
0.9985
0.9949
0.9962
0.9972
0.9979
0.9985
0.9951
0.9963
0.9973
0.9980
0.9986
0.9952
0.9964
0.9974
0.9981
0.9986
3.0
3.1
3.2
3.3
3.4
0.9987
0.9990
0.9993
0.9995
0.9997
0.9987
0.9991
0.9993
0.9995
0.9997
0.9987
0.9991
0.9994
0.9995
0.9997
0.9988
0.9991
0.9994
0.9996
0.9997
0.9988
0.9992
0.9994
0.9996
0.9997
0.9989
0.9992
0.9994
0.9996
0.9997
0.9989
0.9992
0.9994
0.9996
0.9997
0.9989
0.9992
0.9995
0.9996
0.9997
0.9990
0.9993
0.9995
0.9996
0.9997
0.9990
0.9993
0.9995
0.9997
0.9998
3.5
3.6
3.7
3.8
3.9
0.9998
0.9998
0.9999
0.9999
1.0000
0.9998
0.9998
0.9999
0.9999
1.0000
0.9998
0.9999
0.9999
0.9999
1.0000
0.9998
0.9999
0.9999
0.9999
1.0000
0.9998
0.9999
0.9999
0.9999
1.0000
0.9998
0.9999
0.9999
0.9999
1.0000
0.9998
0.9999
0.9999
0.9999
1.0000
0.9998
0.9999
0.9999
0.9999
1.0000
0.9998
0.9999
0.9999
0.9999
1.0000
0.9998
0.9999
0.9999
0.9999
1.0000
Tafeln
131
ϕ(z, 0, 1)
q
0
1−q
zq
z
Tabelle T.2: Die q-Quantile zq der standardisierten Normalverteilung N (0, 1). Es gilt
z1−q = −zq .
q
0.50
0.51
0.52
0.53
0.54
0.55
0.56
0.57
0.58
0.59
0.000
0.000
0.025
0.050
0.075
0.100
0.126
0.151
0.176
0.202
0.228
0.001
0.003
0.028
0.053
0.078
0.103
0.128
0.154
0.179
0.204
0.230
0.002
0.005
0.030
0.055
0.080
0.105
0.131
0.156
0.181
0.207
0.233
0.003
0.008
0.033
0.058
0.083
0.108
0.133
0.159
0.184
0.210
0.235
0.004
0.010
0.035
0.060
0.085
0.111
0.136
0.161
0.187
0.212
0.238
0.005
0.013
0.038
0.063
0.088
0.113
0.138
0.164
0.189
0.215
0.240
0.006
0.015
0.040
0.065
0.090
0.116
0.141
0.166
0.192
0.217
0.243
0.007
0.018
0.043
0.068
0.093
0.118
0.143
0.169
0.194
0.220
0.246
0.008
0.020
0.045
0.070
0.095
0.121
0.146
0.171
0.197
0.222
0.248
0.009
0.023
0.048
0.073
0.098
0.123
0.148
0.174
0.199
0.225
0.251
0.60
0.61
0.62
0.63
0.64
0.65
0.66
0.67
0.68
0.69
0.253
0.279
0.305
0.332
0.358
0.385
0.412
0.440
0.468
0.496
0.256
0.282
0.308
0.335
0.361
0.388
0.415
0.443
0.470
0.499
0.259
0.285
0.311
0.337
0.364
0.391
0.418
0.445
0.473
0.502
0.261
0.287
0.313
0.340
0.366
0.393
0.421
0.448
0.476
0.504
0.264
0.290
0.316
0.342
0.369
0.396
0.423
0.451
0.479
0.507
0.266
0.292
0.319
0.345
0.372
0.399
0.426
0.454
0.482
0.510
0.269
0.295
0.321
0.348
0.375
0.402
0.429
0.457
0.485
0.513
0.272
0.298
0.324
0.350
0.377
0.404
0.432
0.459
0.487
0.516
0.274
0.300
0.327
0.353
0.380
0.407
0.434
0.462
0.490
0.519
0.277
0.303
0.329
0.356
0.383
0.410
0.437
0.465
0.493
0.522
0.70
0.71
0.72
0.73
0.74
0.75
0.76
0.77
0.78
0.79
0.524
0.553
0.583
0.613
0.643
0.674
0.706
0.739
0.772
0.806
0.527
0.556
0.586
0.616
0.646
0.678
0.710
0.742
0.776
0.810
0.530
0.559
0.589
0.619
0.650
0.681
0.713
0.745
0.779
0.813
0.533
0.562
0.592
0.622
0.653
0.684
0.716
0.749
0.782
0.817
0.536
0.565
0.595
0.625
0.656
0.687
0.719
0.752
0.786
0.820
0.539
0.568
0.598
0.628
0.659
0.690
0.722
0.755
0.789
0.824
0.542
0.571
0.601
0.631
0.662
0.693
0.726
0.759
0.793
0.827
0.545
0.574
0.604
0.634
0.665
0.697
0.729
0.762
0.796
0.831
0.548
0.577
0.607
0.637
0.668
0.700
0.732
0.765
0.800
0.834
0.550
0.580
0.610
0.640
0.671
0.703
0.736
0.769
0.803
0.838
0.80
0.81
0.82
0.83
0.84
0.85
0.86
0.87
0.88
0.89
0.842
0.878
0.915
0.954
0.994
1.036
1.080
1.126
1.175
1.227
0.845
0.882
0.919
0.958
0.999
1.041
1.085
1.131
1.180
1.232
0.849
0.885
0.923
0.962
1.003
1.045
1.089
1.136
1.185
1.237
0.852
0.889
0.927
0.966
1.007
1.049
1.094
1.141
1.190
1.243
0.856
0.893
0.931
0.970
1.011
1.054
1.098
1.146
1.195
1.248
0.860
0.896
0.935
0.974
1.015
1.058
1.103
1.150
1.200
1.254
0.863
0.900
0.938
0.978
1.019
1.063
1.108
1.155
1.206
1.259
0.867
0.904
0.942
0.982
1.024
1.067
1.112
1.160
1.211
1.265
0.871
0.908
0.946
0.986
1.028
1.071
1.117
1.165
1.216
1.270
0.874
0.912
0.950
0.990
1.032
1.076
1.122
1.170
1.221
1.276
0.90
0.91
0.92
0.93
0.94
0.95
0.96
0.97
0.98
0.99
1.282
1.341
1.405
1.476
1.555
1.645
1.751
1.881
2.054
2.326
1.287
1.347
1.412
1.483
1.563
1.655
1.762
1.896
2.075
2.366
1.293
1.353
1.419
1.491
1.572
1.665
1.774
1.911
2.097
2.409
1.299
1.359
1.426
1.499
1.580
1.675
1.787
1.927
2.120
2.457
1.305
1.366
1.433
1.506
1.589
1.685
1.799
1.943
2.144
2.512
1.311
1.372
1.440
1.514
1.598
1.695
1.812
1.960
2.170
2.576
1.317
1.379
1.447
1.522
1.607
1.706
1.825
1.977
2.197
2.652
1.323
1.385
1.454
1.530
1.616
1.717
1.838
1.995
2.226
2.748
1.329
1.392
1.461
1.538
1.626
1.728
1.852
2.014
2.257
2.878
1.335
1.398
1.468
1.546
1.635
1.739
1.866
2.034
2.290
3.090
132
Tafeln
fn (t)
q
1−q
0
tn,q
t
Tabelle T.3: q-Quantile tn,q der Student-t-Verteilung mit n Freiheitsgraden. Da die Dichte
symmetrisch ist, gilt tn,1−q = −tn,q .
n
1
2
3
4
5
6
7
8
9
0.9000
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
0.9500
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
0.9750
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
q
0.9900
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
0.9950
63.656
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
0.9990
318.289
22.328
10.214
7.173
5.894
5.208
4.785
4.501
4.297
0.9995
636.578
31.600
12.924
8.610
6.869
5.959
5.408
5.041
4.781
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
4.144
4.025
3.930
3.852
3.787
3.733
3.686
3.646
3.610
3.579
4.587
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.883
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
3.552
3.527
3.505
3.485
3.467
3.450
3.435
3.421
3.408
3.396
3.850
3.819
3.792
3.768
3.745
3.725
3.707
3.689
3.674
3.660
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
1.310
1.303
1.299
1.296
1.294
1.292
1.291
1.697
1.684
1.676
1.671
1.667
1.664
1.662
2.042
2.021
2.009
2.000
1.994
1.990
1.987
2.457
2.423
2.403
2.390
2.381
2.374
2.368
2.750
2.704
2.678
2.660
2.648
2.639
2.632
3.385
3.307
3.261
3.232
3.211
3.195
3.183
3.646
3.551
3.496
3.460
3.435
3.416
3.402
30
40
50
60
70
80
90
100
150
200
300
400
500
600
800
1000
1.290
1.287
1.286
1.284
1.284
1.283
1.283
1.283
1.282
1.660
1.655
1.653
1.650
1.649
1.648
1.647
1.647
1.646
1.984
1.976
1.972
1.968
1.966
1.965
1.964
1.963
1.962
2.364
2.351
2.345
2.339
2.336
2.334
2.333
2.331
2.330
2.626
2.609
2.601
2.592
2.588
2.586
2.584
2.582
2.581
3.174
3.145
3.131
3.118
3.111
3.107
3.104
3.100
3.098
3.390
3.357
3.340
3.323
3.315
3.310
3.307
3.303
3.300
100
150
200
300
400
500
600
800
1000
∞
1.282
1.645
1.960
2.326
2.576
3.090
3.291
∞
Literaturverzeichnis
[1] K. Bosch, Großes Lehrbuch der Statistik, Oldenburg Verlag, München, 1996.
[2] K. Bosch, Elementare Einführung in die Wahrscheinlichkeitsrechnung, 7. Auflage,
Vieweg Studium-Basiswissen, 2000.
[3] P. Gschwind, Stochastik, Skriptum FHBB, Version 00, 2000.
[4] T. Heim, Stochastik, Skriptum FHBB, 2003.
[5] A. Hoffmann, B. Marx und W. Vogt, Mathematik für Ingenieure 2. Vektoranalysis,
Integraltransformationen, Differenzialgleichungen, Stochastik - Theorie und Numerik,
Pearson Studium, 2006.
[6] R. Ineichen, Stochastik - Einführung in die elementare Statistik und Wahrscheinlichkeitsrechnung, 9. Auflage, Raeber-Verlag, Luzern, 1996.
[7] U. Krengel, Einführung in die Wahrscheinlichkeitstheorie und Statistik, 6. Auflage,
Vieweg Studium-Aufbaukurs Mathematik, 2000.
[8] E. Kreyszig, Statistische Methoden und ihre Anwendungen, Vandenhoeck & Ruprecht,
6. Auflage, 1977.
[9] L. Papula, Mathematik für Ingenieure und Naturwissenschaftler, Band 2, 10. Auflage,
Viewegs Fachbücher der Technik, 2001.
[10] L. Papula, Mathematik für Ingenieure und Naturwissenschaftler, Band 3, 4. Auflage,
Viewegs Fachbücher der Technik, 2001.
[11] J. A. Rice, Mathematical Statistics and Data Analysis, 2nd Edition, Duxbury Press,
1995.
[12] S. M. Ross, Initiation aux probabilités, Presses polytechniques et universitaires romandes, 1999.
[13] W. A. Stahel, Statistische Datenanalyse, 4. Auflage, Viewegs Fachbücher der Technik,
2002.
[14] M. Steiner-Curtis, Analysis I - IV, Skriptum FHNW, 2015.
[15] M. Steiner-Curtis, Datenanalyse, Skriptum FHNW, 2015.
[16] R. Storm, Wahrscheinlichkeitsrechnung, mathematische Statistik und statistische Qualitätskontrolle, 11. Auflage, Fachbuchverlag Leipzig, 2001.
133
134
Literaturverzeichnis
[17] B. L. van der Warden, Mathematische Statistik, 3. Auflage, Springer-Verlag, Berlin,
1973.
Index
Additionssatz, 36
Alternativhypothese, 56, 81
Approximation, 106
arithmetische Mittel, 9
Ausgleichs
-kurve, 106
Ausreisser, 10, 15
Ausreissergrenzen, 15
Axiome
der Wahrscheinlichkeit, 34
von Kolmogoroff, 34
Poissonverteilung, 60
stetig, 67
stetige Zufallsgrösse, 67
Student-t-Verteilung, 93
erzeugende Funktion, 54
Excel
BINOMVERT, 51
NORMINV, 73
NORMVERT, 68
POISSON, 60
STANDNORMVERT, 68
Bézier-Kurven, 53
Bar Chart, 7
Behrens-Fisher-Problem, 99
Bernstein Polynome, 53
BINOMVERT, 51
Boxplot, 2, 15
Fehler
1. Art, 85
2. Art, 85
grobe, 74
systematische, 74
zufällige, 74
Fehlerfunktion, 127
Fehlerkurve, 73
Fehlerquadratsumme, 103, 106, 115
Formparameter, 13
Freiheitsgrade
Student-t-Test, 91
Student-t-Verteilung, 92
Carl Friedrich Gauss, 1777-1855, 74, 103
Cramersche Regel, 104
Daten
diskrete, 5
metrische, 5
qualitative, 5
stetige, 5
Datensatz, 6
Durchschnittsmenge, 18
Galton Francis, 1822-1911, 78
Galtonsches Brett, 78
Gammafunktion, 93
Gausssche
Fehlerfunktion, 127
Glockenkurve, 70
Normalverteilung, 68
Gegenereignis, 19
geometrisches Mittel, 10
Gleichungssystem
lineares, 107
Gleichverteilung, 50, 64
Gosset William Sealey, 1876-1937, 94
Einstichproben-t-Test, 90
Ereignis, 18
sicheres, 18
unmögliches, 18
Ereignisbaum, 22
Error Function, 127
Erwartungswert, 49
Binomialverteilung, 55
diskret, 49
Normalverteilung, 71
135
136
Grenzwertsatz
von de Moivre und Laplace, 77
zentraler, 75
Grundgesamtheit, 2, 3
Häufigkeitstabellen, 6
Häufigkeitsverteilung, 6
harmonisches Mittel, 10
heteroskedastisch, 99
Histogramm, 7
homoskedastisch, 97
Hypothese, 56, 81
Hypothesentest, 56
Intervallschätzungen, 94
Irrtumswahrscheinlichkeit, 57, 82
Klassenbreite, 7
Klasseneinteilung, 7
Kolmogoroff N. Andrey, 1903-1987, 34
Kombinationen, 24
Komplementärmenge, 19
Konfidenzintervall
Einstichproben-t-Test, 94
Erwartungswert, 94
Student-t-Test, 94
Kreisdiagramm, 8
Index
NORMINV, 73
NORMVERT, 68
Nullhypothese, 56, 81
oder, 18
Operationscharakteristik, 87
Optimumseigenschaften, 11
Paarweiser Vergleich
zweier Mittelwerte, 100
Permutationen, 23
permutieren, 23
Perzentil, 72
q-Perzentil, 72
Pie Chart, 8
POISSON, 60
Poissonverteilung, 59
Prüfen
von Erwartungswerten, 89
Produktregel, 22
Quantil, 72
einseitig, 73
Student-t-Verteilung, 93
zweiseitig, 73
q-Quantil, 72
Quartile, 10, 15
Quartilsweite, 15
Lageparameter, 2, 9
Macht eines Tests, 86
Median, 10
Methode der kleinsten Quadrate, 11, 103,
115
Mittel
arithmetische, 9
geometrisches, 10
harmonisches, 10
Mittelwert, 9
geschätzt, 90, 97, 99
MKQ, 103, 115
Monte-Carlo-Methoden, 34
Multiplikationssatz, 37, 38
Normalgleichungssystem, 108
Normalverteilung, 68
standardisierte, 68, 71
Transformation, 71
Regel
von Cramer, 104
Regeln von de Morgan, 125
Regression, 114
Regressions
-funktion, 106
-gerade, 103, 114, 115
-koeffizient, 105, 116
-konstante, 105, 116
Regressionsanalyse, 113
einer Geraden, 116
zweier Geraden, 119
Regressionsrechnung, 103
Remis, 21
Restvarianz, 117
robust, 10, 91
Säulendiagramm, 7
Schach
Index
Remis, 21
σ-Bereich, 69
Signifikanzniveau, 57, 82
Signifikanztest, 57, 82
Simulation, 32
Spannweite, 13
Standardabweichung, 13, 49
Binomialverteilung, 55
Poissonverteilung, 61
standardisierte Normalverteilung, 68
STANDNORMVERT, 68
Statistik
beschreibende, 5
deskriptive, 5
induktive, 3
schliessende, 3
statistischen Tests, 57, 82
Statistischer Test, 81
statistischer Test, 56
Stetigkeitskorrektur, 77
Stichprobe, 2, 3
zufällige, 4
Stichprobenraum, 17
Stichprobenumfang, 2
erforderlicher, 96
Stochastik, 1
Streuung
Binomialverteilung, 55
diskret, 49
diskrete Zufallsgrösse, 49
Normalverteilung, 71
Poissonverteilung, 60
stetig, 67
stetige Zufallsgrösse, 67
Student-t-Verteilung, 93
Student-t-Test, 90
Student-t-Verteilung, 92
Summenfunktion, 44
Summenzeichen, 123
vertauschen, 108
t-Verteilung, 92
Tafeln, 128
Quantile der standardisierten Normalverteilung, 131
standardisierte Normalverteilung, 130
Student-t-Verteilung, 132
137
Teleskopsumme, 124
Test, 56
Einstichproben-t-, 90
t-, 90
z-, 85
Zweistichproben-t-, 96
Testen einer Hypothese, 56
Testgrösse, 82
Regressionsanalyse, 117
Regressionskoeffizienten, 120
Regressionskonstanten, 120
Student-t-Test, 90
Trennschärfe eines Tests, 86
und, 18
Ungleichung
Cauchy-Schwarz, 105
Variable
nichtstochastisch, 113
stochastisch, 114
Varianz
Binomialverteilung, 55
diskret, 49
diskrete Zufallsgrösse, 49
geschätzt, 90, 97, 99
gewogene Mittel der, 97
Normalverteilung, 71
Poissonverteilung, 60
stetig, 67
stetige Zufallsgrösse, 67
Student-t-Verteilung, 93
Variation, 24
Vereinigungsmenge, 18
Verteilung
Binomial-, 51
Gleich-, 64
Normal-, 68
Poisson-, 59
Student-t, 92
t-, 92
Verteilungsfunktion, 44, 64
Vertrauensintervall
Einstichproben-t-Test, 94
Erwartungswert, 94
Student-t-Test, 94
Vertrauenswahrscheinlichkeit, 95
138
Viertelwerte, 11
Wahrscheinlichkeit, 29, 43
experimentelle, 32
theoretische, 29
Wahrscheinlichkeitsdichte, 63, 64
Wahrscheinlichkeitsverteilung, 33, 43
Whiskersplot, 2, 15
z-Test, 85
Zahlenlotto, 29
Zentralwert, 11
Zufall, 17
Zufallsexperiment, 2, 17
Zufallsgrösse, 43
diskret, 44
stetig, 44, 63
Zufallsvariable, 43
Zufallszahlen, 35
zusammengesetzter Versuch, 21
Zweistichproben-t-Test, 96
unbekannte Varianzen, 99
unbekannten gleiche Varianzen, 97
Index

Download Report