Wahrscheinlichkeitstheorie und Statistik

Wahrscheinlichkeitstheorie
und Statistik (wst)
Prof. Dr. Marcel Steiner-Curtis
10. November 2015
Prof. Dr. Marcel Steiner-Curtis
FHNW Fachhochschule Nordwestschweiz
Hochschule für Technik
Bahnhofstrasse 6
CH-5210 Windisch
[email protected]
www.fhnw.ch/personenseiten/marcel.steiner/
Liebe Studierende
Zum Fachhochschulstudium eines jeden Ingenieurs gehört heutzutage ein Kurs über Wahrscheinlichkeitsrechnung und Statistik – kurz Stochastik genannt. Die heutigen Anforderungen
des Berufslebens sind mannigfaltig: Einerseits basieren moderne (Software)-Anwendungen auf
stochastischen Modellen mit denen Unsicherheiten und zufällige Schwankungen beschrieben
werden. Andererseits müssen Sie in der Lage sein, grosse und zum Teil unübersichtliche Datenmengen grafisch darzustellen und zu analysieren. Einfachste stochastische Modelle und die
Grafische Aufbereitung von Daten lernen Sie in diesem Kurs kennen. Mit der Analyse von
Daten werden Sie im Kurs über Statistische Datenanalyse, [15], vertraut gemacht.
Mein Ziel ist es, Ihnen die Stochastik näher zu bringen, so dass Sie das Gefühl erhalten,
etwas Nützliches zu lernen, um es später auch anwenden zu können. Dies geht leider nicht
ohne Ihren persönlichen Effort. Das Motto muss auch hier heissen: Übung macht den Meister. Ich erwarte von Ihnen, dass Sie zusätzlich zu den Vorlesungsstunden noch etwa gleich
viel Zeit zu Hause für die Übungen und die Nacharbeit des Kurses aufwenden. Einige Aufgaben und Lösungen können Sie vom Active Directory der Hochschule für Technik, FHNW
herunterladen.
Das Skriptum basiert im Wesentlichen auf dem Stochastik-Skriptum (vgl. [3]) meines
Vorgängers Peter Gschwind, der an der Fachhochschule beider Basel während mehr als dreissig
Jahren als Dozent tätig war. Hiermit möchte ich Peter herzlich danken, dass er mir auch auf
diesem Gebiet seine Erfahrungen in Form seines Skriptum weitergegeben hat. Weiter habe
ich einige Teile (vor allem Kapitel 2) zum Teil wortwörtlich und zum Teil gekürzt aus dem
Stochastik-Skriptum (vgl. [4]) von Thomas Heim übernommen.
Sie sind nicht mehr die ersten Studierenden, die mit diesem Skriptum arbeiten. Urteilen Sie nicht zu hart über den Autor (und die vorangehenden Leser), wenn Sie Fehler und
Ungereimtheiten finden, sondern teilen Sie mir diese bitte mit.
10. November 2015, Marcel Steiner-Curtis
i
ii
Inhaltsverzeichnis
Liebe Studierende
i
Inhaltsverzeichnis
iii
1 Einführung
1.1
Was ist Stochastik? . . . . . . . . . . . .
1.2
Einige Anwendungsgebiete der Statistik
1.3
Zur Arbeitsweise in der Statistik . . . .
1.4
Grundbegiffe der Statistik . . . . . . . .
2 Beschreibende Statistik
2.1
Umgang mit Datenmaterial . . . . . .
2.2
Datensätze . . . . . . . . . . . . . . . .
2.3
Häufigkeitsverteilung . . . . . . . . . .
2.3.1 Häufigkeitstabellen . . . . . . .
2.3.2 Histogramme . . . . . . . . . .
2.3.3 Kreisdiagramme . . . . . . . .
2.4
Lageparameter . . . . . . . . . . . . .
2.4.1 Mittelwert . . . . . . . . . . . .
2.4.2 Median und Quartile . . . . . .
2.4.3 Optimumseigenschaften . . . .
2.5
Formparameter . . . . . . . . . . . . .
2.5.1 Standardabweichung . . . . . .
2.5.2 Quartile und Ausreissergrenzen
2.6
Summarische Datendarstellung . . . .
2.6.1 Box- und Whiskersplot . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Zufall und Ereignis
3.1
Zufall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2
Zufallsexperimente und Ereignisse . . . . . . . . . . . . . . . . . . .
3.3
Verknüpfung von Ereignissen . . . . . . . . . . . . . . . . . . . . .
3.4
Zusammengesetzte Versuche, Produktregel . . . . . . . . . . . . . .
3.5
Permutationen, Variationen, Kombinationen . . . . . . . . . . . . .
3.5.1 Permutationen . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.2 Geordnete Stichprobe mit Zurücklegen . . . . . . . . . . . .
3.5.3 Geordnete Stichprobe ohne Zurücklegen - Variation . . . . .
3.5.4 Ungeordnete Stichprobe ohne Zurücklegen - Kombinationen
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
2
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
6
6
6
7
8
9
9
10
11
13
13
15
15
15
.
.
.
.
.
.
.
.
.
17
17
17
18
21
23
23
23
24
24
iv
4 Wahrscheinlichkeit
4.1
Theoretische Wahrscheinlichkeit . . . . . . . . . . . . .
4.2
Experimentelle Wahrscheinlichkeit . . . . . . . . . . .
4.3
Monte-Carlo-Methoden . . . . . . . . . . . . . . . . . .
4.4
Wahrscheinlichkeit von zusammengesetzten Ereignissen
4.4.1 Der Additionssatz . . . . . . . . . . . . . . . .
4.4.2 Der Multiplikationssatz . . . . . . . . . . . . .
Inhaltsverzeichnis
.
.
.
.
.
.
29
29
32
34
36
36
37
5 Zufallsgrössen und Wahrscheinlichkeitsverteilungen
5.1
Diskrete und stetige Zufallsgrössen . . . . . . . . . . . . . . . . . . . . . . .
43
43
6 Diskrete Zufallsgrössen und Verteilungen
6.1
Erwartungswert und Varianz . . . . . . . . . . . . . . . . . .
6.2
Die Binomialverteilung . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Definition und Eigenschaften der Binomialverteilung .
6.2.2 Erwartungswert und Varianz der Binomialverteilung .
6.2.3 Die Binomialverteilung beim Testen von Hypothesen .
6.3
Die Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . .
6.3.1 Poissonverteilung als Grenzfall der Binomialverteilung
6.3.2 Erwartungswert und Varianz der Poissonverteilung . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
49
49
51
51
54
56
59
59
60
7 Stetige Zufallsgrössen und Verteilungen
7.1
Stetige Zufallsgrössen und Wahrscheinlichkeitsdichten . . . . .
7.1.1 Die Gleichverteilung . . . . . . . . . . . . . . . . . . . .
7.1.2 Erwartungswert und Varianz . . . . . . . . . . . . . . .
7.2
Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . .
7.2.1 Die standardisierte Normalverteilung . . . . . . . . . . .
7.2.2 Die Normalverteilung mit den Parametern µ und σ 2 . .
7.2.3 Transformation auf die standardisierte Normalverteilung
7.2.4 Quantile der standardisierten Normalverteilung . . . . .
7.2.5 Anwendung der Normalverteilung in der Fehlerrechnung
7.3
Normalverteilung als Grenzfall der Binomialverteilung . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
63
64
67
68
68
70
71
72
73
77
8 Statistische Tests
8.1
Das Prinzip des statistischen Tests . . . . . . . . . . . . . . . . . . . . . . .
8.2
Einseitiger und zweiseitiger Test . . . . . . . . . . . . . . . . . . . . . . . . .
8.3
Mögliche Fehler bei statistischen Tests . . . . . . . . . . . . . . . . . . . . .
81
81
83
85
9 Prüfen von Erwartungswerten (Parametertests)
9.1
Problemstellung der technischen Statistik . . . . . . . . . . . . . . . . .
9.2
Einstichproben-t-Test, Student-t-Test . . . . . . . . . . . . . . . . . . . .
9.2.1 Vertrauensintervall für den Erwartungswert . . . . . . . . . . . .
9.2.2 Ungefähr erforderlicher Stichprobenumfang . . . . . . . . . . . .
9.3
Vergleich zweier Mittelwerte unverbundener Stichproben . . . . . . . . .
9.3.1 Zweistichproben-t-Test bei unbekannten aber gleichen Varianzen
9.3.2 Zweistichproben-t-Test bei unbekannten Varianzen . . . . . . . .
9.4
Paarweiser Vergleich bei verbundenen Stichproben . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
89
89
90
94
96
96
97
99
100
v
10 Regressionsrechnung
103
10.1 Regressionsgerade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
10.2 Allgemeine Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
11 Regressionsanalyse
11.1 Allgemeines . . . . . . . . . . . . .
11.2 Regressionsgerade . . . . . . . . . .
11.3 Regressionsanalyse einer Geraden .
11.4 Regressionsanalyse zweier Geraden
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
113
113
115
116
119
A Mathematische Hilfsmittel
123
A.1 Rechnen mit dem Summenzeichen . . . . . . . . . . . . . . . . . . . . . . . 123
A.2 Die Regeln von de Morgan . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
A.3 Die Gausssche Fehlerfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . 126
Tafeln
128
Literaturverzeichnis
133
Index
135
vi
Inhaltsverzeichnis
Kapitel 1
Einführung
1.1
Was ist Stochastik?
Der Begriff Stochastik1 befasst sich mit der Beschreibung und Untersuchung von Vorgängen
und Ereignissen aus allen Lebensbereichen, die zufällig oder vom Zufall beeinflusst sind, und
zwar im Sinne von nicht vorhersagbar oder nicht exakt vorhersagbar.
Dabei kann die Ursache der Ungewissheit von sehr unterschiedlicher Art sein. Im Allgemeinen
handelt es sich um die prinzipielle oder faktische Unmöglichkeit einer exakten Voraussage, wie
etwa bei der Frage nach dem künftigen Kundenverhalten oder der langfristigen Wettervorhersage. Es kann aber auch die Unsicherheit des Beobachters bei einem bereits eingetretenen
Ereignis sein, wie etwa der aktuelle Warenbestand (bei unvollständiger Information) oder die
Spielkartenwerte in der Hand des Mitspielers.
Die mathematische Stochastik befasst sich mit der mathematischen Beschreibung und Untersuchung von Ereignissen, zeitlichen Entwicklungen bzw. räumlichen Strukturen, die vom
Zufall beeinflusst werden. Solche Ereignisse, Entwicklungen bzw. Strukturen werden oft durch
Daten dokumentiert, für deren Analyse die Statistik2 - ein Teilgebiet der Stochastik - geeignete Methoden bereitstellt.
1.2
Einige Anwendungsgebiete der Statistik
Anwendungsgebiete der Statistik sind die Industrie und die Technik, die Physik, die Meteorologie, die Geodäsie, die Medizin, die Botanik und Zoologie, die Landwirtschaft, das Verkehrswesen und viele weitere. In jedem dieser Gebiete ist die Anwendungsmöglichkeit der Statistik meist sehr vielgestalt. Beispielsweise bedienen wir uns in der Industrie und Wirtschaft
statistischer Methoden bei der Materialprüfung, der Fertigungssteuerung und -regelung, der
End- und Abnahmekontrolle, der Entwicklung, der Personalauswahl, der Markt- und Produktforschung oder der Planung von Versuchen. Zahlreiche Firmen haben in letzter Zeit für
derartige Zwecke besondere statistische Abteilungen eingerichtet oder stehen wenigstens in
enger Verbindung mit statistischen Büros, denen die auftretenden Probleme zur Bearbeitung
übertragen werden. Heute werden bei den meisten statistischen Untersuchungen Computer
eingesetzt.
1
stochazomai griech. στ oχάζoµαι: zielen, vermuten, erraten. Das Adjektiv stochastisch bedeutet soviel wie
zufallsbeeinflusst und ist schon seit langem, zuerst wohl in der Physik, für zufällige Erscheinungen in Gebrauch.
2
status lat. Beschreibung des Zustandes eines Gemeinwesens wie der Bevölkerungsgrösse.
1
2
Kapitel 1. Einführung
1.3
Zur Arbeitsweise in der Statistik
Trotz der grossen Heterogenität der Anwendungsgebiete der Statistik besteht deren statistische Bearbeitung im Allgemeinen aus denselben Schritten. Wir illustrieren diese Schritte
durch ein einfaches Beispiel.
Wir wollen die Lebensdauer der in den Räumlichkeiten der Fachhochschule verwendeten Neonröhren untersuchen.
1. Formulierung des Problems. Wir entschliessen uns, die durchschnittliche Lebensdauer von Neonröhren eines bestimmten Typs und Fabrikats zu messen. In einem Langzeitversuch unterwerfen wir eine Neonröhre einem klar definierten Ein- und Ausschaltzyklus. Diesen Versuch führen wir so lange durch, bis die Neonröhre als defekt angesehen
werden muss. Dies ergibt uns die Lebensdauer einer Neonröhre.
2. Planung des Experiments. Hätten alle Neonröhren dieselbe Lebensdauer, so brauchten wir nur eine einzige zu betrachten und deren Lebensdauer zu bestimmen. Dann käme
die Statistik überhaupt nicht ins Spiel. Nun zeigt aber die Erfahrung, dass die Lebensdauer von Neonröhre zu Neonröhre variiert. Wir sollten nun eigentlich alle Neonröhren
hernehmen und untersuchen. Dies wäre aber unmöglich, da bei der Bestimmung der Lebensdauer die Neonröhre zerstört wird und somit keine Neonröhren für unseren Alltag
zur Verfügung stehen würden. Ausserdem würde eine solche Vollprüfung zu viel kosten
und sehr viel Zeit in Anspruch nehmen. Eine Neonröhre ist zu wenig, alle sind zu viel.
Wir entschliessen uns also für den goldenen Mittelweg: Wir greifen einige Neonröhren
ganz zufällig heraus und bestimmen deren Lebensdauer.
3. Ausführung des Experimentes. Wir führen unseren Plan durch. Der genannte Vorgang des zufälligen Auswählens und Messens wird in der Statistik als ein Zufallsexperiment bezeichnet. Der Einfachheit halber wählen wir nur 11 Neonröhren aus und
messen deren Lebensdauer. Wir erhalten dabei die der Grösse nach sortierten Werte
x1
24
x2
39
x3
45
x4
51
x5
55
x6
62
x7
64
x8
65
x9
67
x10
76
x11
123
[in Monaten]. Diese Werte werden als Stichprobe aus der Grundgesamtheit aller
möglichen Messwerte bezeichnet, die bei der Ausführung des Experiments denkbar sind.
Ihre Anzahl n = 11 heisst der Stichprobenumfang.
4. Beschreibung der experimentellen Daten. Bei umfangreichen Untersuchungen,
bei denen viele Zahlenwerte anfallen, müssen wir nun dafür sorgen, diese in eine übersichtliche Form (Tabelle, grafische Darstellung) zu bringen (siehe Kapitel 2). Im Falle
unserer Stichprobe entscheiden wir uns für die Darstellung der 11 Lebensdauern auf einer einfachen Zeitskala und für einen Box- und Whiskersplot, siehe Abbildung 1.3.i.
Zusätzlich berechnen wir zwei Lageparameter, nämlich die durchschnittliche Lebensdauer
x̄ =
1
671
(24 + 39 + 45 + 51 + 55 + 62 + 64 + 65 + 67 + 76 + 123) =
= 61.0
11
11
und die Standardabweichung
s = 25.25,
1.4. Grundbegiffe der Statistik
b
x1
b
b
b
3
b
x2 x3 x4 x5
x6 x8
b bb b
x7 x9
b
b
x10
x11
b
|
|
0 Aunten = 22
|
Q0.25 = 45
x
e = 62
| |
Q0.75 = 67
|
Aoben = 100
Ausreisser
|
Abbildung 1.3.i: Box- und Whiskersplot der Lebensdauermessung von 11 Neonröhren (siehe
Kapitel 2.6.1).
die ein Mass dafür ist, wie sehr die Stichprobenwerte um den Mittelwert streuen.
5. Schluss von der Stichprobe auf die Grundgesamtheit. Aus der Stichprobe schliessen wir, dass die Grundgesamtheit aller Neonröhren etwa die durchschnittliche Lebensdauer 61 Monate hat. Es ist möglich, die Genauigkeit dieses Näherungswertes abzuschätzen. Dieser Schluss ist insofern nicht ganz unproblematisch, da eine Neonröhre
eine sehr grosse Lebensdauer von 123 Monaten hatte. Dieser Messwert verzerrt uns die
ganze Analyse (ersichtlich in der grossen Streuung der Messwerte), und wir täten eventuell gut daran, diesen als Ausreisser zu kennzeichnen. Wir beobachten zudem, dass
nach etwa 72 Monaten die meisten Neonröhren kaputt gegangen sind.
Können wir die Zuverlässigkeit unseres Näherungswertes für die Lebensdauer verbessern? Ja, indem wir den Stichprobenumfang vergrössern. Es ist aber auch klar, dass
diese Verbesserung durch erhöhte Kosten und grösseren Zeitbedarf erkauft wird.
Warum und wie wir derartige Schlüsse von der Stichprobe auf die zugehörige Grundgesamtheit ziehen können, ist der Inhalt der schliessenden (induktiven) Statistik,
die wir in der anschliessenden Vorlesung über Statistische Datenanalyse, [15], behandeln
werden. Wir sollten uns auch klar machen, dass es vollkommene sichere Schlüsse von
einer Stichprobe auf Grundgesamtheit nicht gibt.
1.4
Grundbegiffe der Statistik
In der Statistik unterscheiden wir zwei wichtige Begriffe:
• Grundgesamtheit nennen wir eine Menge von Elementen, die auf gewisse Merkmale
hin untersucht werden sollen. Wir können darunter eine Gesamtheit gleichartiger Elemente verstehen, z.B. alle Stücke einer bestimmten Produktion oder alle Messwerte
einer Messreihe, die bei ständiger Wiederholung desselben Versuchs auftreten können.
Die Anzahl der Elemente einer Grundgesamtheit kann sehr gross, sogar unendlich sein.
• Um nicht die gesamte Grundgesamtheit auf die betreffenden Merkmale hin untersuchen
zu müssen, entnehmen wir ihr eine endliche Teilmenge, eine so genannte Stichprobe3 .
3
Das Wort stammt aus der Verhüttung von Eisenerz des ausgehenden Mittelalters. Die Hüttenleute haben
aus dem Schmelzofen eine zufällige Probe genommen, indem Sie mit einem Probelöffel in das flüssige Eisenerz
hinein stachen und so einen Stich heraus nahmen, um dessen Reinheit und Schmelzzustand zu überprüfen.
4
Kapitel 1. Einführung
Erfolgt die Auswahl zufallsgemäss, d.h., jedes Element der Grundgesamtheit muss die
gleiche Chance haben, ausgewählt zu werden, dann sprechen wir von einer zufälligen
Stichprobe. Die zufällige Auswahl kann durch Mischen oder blindes Ziehen bzw. durch
Festlegung der auszuwählenden Elemente mit Hilfe von Zufallszahlen erfolgen.
Kapitel 2
Beschreibende Statistik
Die Aufgabe der beschreibenden (deskriptiven) Statistik besteht darin, eine gegebene
Stichprobe zu untersuchen und zu beschreiben. Dies kann mittels so genannter Lageparameter
(z. B. Mittelwert, Standardabweichung) oder grafisch geschehen. Mit Hilfe der beschreibenden
Statistik erhalten wir aber immer nur Aussagen über die vorliegende Stichprobe.
2.1
Umgang mit Datenmaterial
Die erste Aufgabe der beschreibenden Statistik besteht im sinnvollen Umgang mit Daten.
Einige wichtige Punkte, die vor der Verarbeitung der Daten abgeklärt werden müssen:
• Falls die Daten von anderen bereit gestellt wurden, überlegen wir uns zuerst: Was wurde
eigentlich gemessen und warum? Wie wurden die Daten erhalten?
• Bei selbstständiger Datenbeschaffung stellt sich die Frage: Wie viele Messwerte werden
benötigt? Unter welchen Bedingungen soll gemessen werden?
• Sind die Daten vorhanden, so prüfen wir ihre Struktur: Sind es genug Daten? Sind
alle Daten nötig? Hat es Ausreisser? Welche Variablen sind naturgegeben, welche sind
beeinflussbar? Welche Variablen sind unabhängig, welche abhängig?
Daten werden nach drei Typen klassifiziert:
1. Stetige oder metrische Grössen, wie etwa Längen und Massen.
2. Diskrete Grössen, z.B. die Anzahl von Produktionsfehlern.
3. Qualitative Merkmale, etwa Haarfarbe oder Wohnort.
Aufgabe
Aufgabe 2.1.1. Zu welchen Kategorien von Daten gehören die folgenden Grössen? Windgeschwindigkeit, Sonnenscheindauer am Monatsletzten, Anzahl Regentage im April, Luftdruck,
Staustunden am Gotthard, Anzahl Lastwagen durch den Belchentunnel, Zivilstand, steuerbares Einkommen, abgeschlossene Schulbildung.
5
6
Kapitel 2. Beschreibende Statistik
2.2
Datensätze
Soll ein bestimmtes Merkmal eines Objekts statistisch analysiert werden, so beginnen wir mit
dem Aufstellen eines Datensatzes. Der Datensatz ist der Ausgangspunkt für alle weiteren
Analysen.
Bezieht sich ein Datensatz nur auf eine einzige Eigenschaft, so sprechen wir von eindimensionalen Daten. Als Gegensatz bilden zum Beispiel die Wertepaare (Grösse, Gewicht) einer
Gruppe von Menschen einen zweidimensionalen Datensatz, solche werden wir in diesem Kurs
nicht betrachten.
Beispiel 2.2.1. Der folgende (eindimensionale) Datensatz zeigt die Zugfestigkeit [in N mm−2 ]
von 50 zufällig ausgewählten Proben aus einer Charge Walzdraht:
404
411
383
386
413
422
401
396
390
371
388
418
369
386
387
411
427
418
405
411
399
408
400
392
349
412
399
402
426
417
378
392
390
393
402
384
424
392
383
403
373
387
414
390
389
367
396
391
407
408
Zunächst halten wir die sehr wichtige Erkenntnis fest, dass die rohen Daten zwar alle Information enthalten, diese aber (oft) nicht ersichtlich sind! Denken Sie an diesen Grundsatz, wenn Sie bei einer Präsentation Ihren Standpunkt mit harten Fakten untermauern wollen. Eine Tabelle mit 50 Zahlen gehört vermutlich in ein Messprotokoll, aber sie hat keine
Überzeugungskraft. Die dafür benötigte Interpretation der Daten ergibt sich erst aus ihrer
sinnvollen Komprimierung. Eine extreme Form der Datenkomprimierung besteht in der ausschliesslichen Angabe des Mittelwertes, im obigen Beispiel 397.28 N mm −2 . Einen Datensatz
allein durch diese eine Zahl zu repräsentieren ist selten sinnvoll. Leider ist dies oft üblich,
aber meistens sehr unbefriedigend, da die Variabilität der Daten nicht zur Geltung kommt.
2.3
Häufigkeitsverteilung
Leicht zu interpretierende Darstellungen der Variabilität von Daten sind Häufigkeitstabellen,
Histogramme und Kreisdiagramme.
2.3.1
Häufigkeitstabellen
Bei diskreten oder qualitativen Daten bieten sich Häufigkeitstabellen natürlich an.
Beispiel 2.3.1. Anzahl schwerer Störungen an Baumaschinen pro Tag. Bei der Untersuchung von Betriebsstörung von Baumaschinen an insgesamt 100 Betriebstagen ergaben sich die
folgenden tabellarisch dargestellten Resultate:
i
hi
0
48
1
38
2
10
3
4
Dabei bezeichnen i die Anzahl Störungen pro Tag und hi die Anzahl der Tage mit i Störungen.
Zur Kontrolle erhalten wir
3
X
hi = 100.
i=0
2.3. Häufigkeitsverteilung
7
Für stetige Daten ist eine Klasseneinteilung sinnvoll. Bei der Wahl der Klassen oder Intervalle besteht einige Freiheit. Zweckmässigerweise legen wir die Grenzen auf runde Zahlen. Die
Anzahl k der Intervalle soll sicher nicht grösser sein als die Hälfte des Stichprobenumfangs n,
aber auch nicht so klein, dass fast alle Daten in nur ein oder zwei Klassen fallen. Ein Richtwert
für die Anzahl Klassen k ist
√
k ≈ n,
aufgerundet auf die nächste ganze Zahl. Dies ist eher als untere Grenze zu betrachten.
Die Klassenbreite d ist dann von der Grössenordnung
d≈
xmax − xmin
,
k
wobei xmax und xmin den grössten und den kleinsten Wert der Daten bezeichnen. Wegen
der bevorzugten Wahl von runden Zahlen als Intervallgrenzen ist diese Beziehung aber nur
näherungsweise erfüllt.
Die Intervalle selbst werden halboffen gewählt. Dabei ist es üblich, die auf die Intervallgrenzen
fallenden Daten immer konsistent der rechts liegenden (grösseren) Klasse zuzuordnen, so dass
die i-te Klasse als Intervall [ai , ai+1 [ für i ∈ {1, . . . , k} aufgefasst wird.
Beispiel
2.3.2. Für die 50 Zugfestigkeitswerte aus Beispiel 2.2.1 ergibt sich auf diese Weise
√
k ≈ 50 = 7.071. Damit wir schöne Klassen mit einer Spannweite von d = 10 bilden können,
wählen wir 9 Klassen. Wir erhalten somit eine Häufigkeitstabelle für die Zugfestigkeitswerte.
Klasse i
1
2
3
4
5
6
7
8
9
2.3.2
[ai , ai+1 [ in N mm−2
[345, 355[
[355, 365[
[365, 375[
[375, 385[
[385, 395[
[395, 405[
[405, 415[
[415, 425[
[425, 435[
Anzahl hi
1
0
4
4
14
11
9
5
2
Histogramme
Selbst mit nur mehr als 50 Zahlen ist die Häufigkeitstabelle noch nicht besonders attraktiv.
Schneller zu erfassen ist eine grafische Darstellung. Häufigkeitstabellen lassen sich direkt als
Histogramme (Säulendiagramme, engl. Bar charts) darstellen (siehe Abbildungen 2.3.i und
2.3.ii): Dabei wird auf der Ordinate die Anzahl hi gegen die Klassen i, bzw. gegen die zugehörigen Intervalle, auf der Abszisse aufgetragen. Die Höhe der Säulen ist proportional zur
Häufigkeit hi des Auftretens eines Wertes in der Klasse i. Auf den ersten Blick erkennen wir,
dass die Häufigkeiten in den beiden Beispielen deutlich verschieden sind. Diese beiden Typen
von Diagrammen werden uns immer wieder begegnen.
Beim Erstellen einer Häufigkeitstabelle für die Zugfestigkeiten haben wir bereits eine gewisse
Datenreduktion vorgenommen. Aus der Tabelle oder dem entsprechenden Histogramm können
die einzelnen Messwerte nicht mehr rekonstruiert werden, nur ihre Klassenhäufigkeiten sind
erhalten geblieben.
Histogramme sind statistische Näherungen für Dichtefunktionen, die wir in späteren Kapiteln
kennen lernen werden. Sie helfen bei der Auswahl geeigneter Modelle zur Datenverarbeitung.
Kapitel 2. Beschreibende Statistik
50
8
14
40
12
30
10
8
20
6
10
4
2
0
0
0
1
2
3
4
340
Abbildung 2.3.i: Histogramm der Betriebstörungen von Baumaschinen aus Beispiel 2.3.1
360
380
400
420
440
Abbildung 2.3.ii: Histogramm der Zugfestigkeit einer Charge Walzdraht aus Beispiel 2.2.1
Am Histogramm können wir mit einem Blick feststellen, ob die Daten in etwa normalverteilt
sind, das heisst, ob das Histogramm die berühmte Glockenform der Normalverteilung hat.
Vergleichen Sie dazu auch die beiden Histogramme in Abbildungen 2.3.i und 2.3.ii.
2.3.3
Kreisdiagramme
Zur Darstellung der Häufigkeitsverteilung von qualitativen Daten eignen sich Kreisdiagramme
(engl. Pie Charts) ausgezeichnet.
Beispiel 2.3.3. Die Zusammensetzung einer Kapitalanlage mit niedrigem Risiko und grosser Liquidität kann wie folgt gewählt werden: 45% Obligationen, 40% Sparkapital und 15%
Aktien. Diesen Sachverhalt können wir am einfachsten mit einem Kreisdiagramm grafisch
darstellen (siehe Abbildung 2.3.iii).
Obligationen
45%
15%
40%
Aktien
Sparkapital
Abbildung 2.3.iii: Kreisdiagramm. Die Flächenanteile der Sektoren sind zu den Anteilen proportional.
2.4. Lageparameter
9
Aufgaben
Aufgabe 2.3.1. Der folgende Datensatz stellt die Schalldämmzahl [in db] von 10 cm starken
Gibsdielenwänden bei 400 Hz dar.
25
24
27
24
24
23
23
28
26
Erstellen Sie eine Häufigkeitstabelle und ein Histogramm.
Aufgabe 2.3.2. Erstellen Sie eine Häufigkeitstabelle und ein Histogramm der Zugfestigkeitsdaten in Beispiel 2.2.1 mit einer Klassenbreite von d = 5 N mm−2 .
Aufgabe 2.3.3. Erstellen Sie ein Kreisdiagramm aus dem das Verhältnis der Anzahl Studentinnen zur Anzahl Studenten in Ihrer Klasse aufgezeigt wird.
2.4
Lageparameter
Lageparameter charakterisieren in zusammenfassender Weise die Verteilung von Datenwerten.
Wichtige Beispiele dafür sind verschiedene Mittelwerte, sowie der Median.
2.4.1
Mittelwert
Das mittlere Verhalten der Daten wird durch den Mittelwert x̄ charakterisiert. Für den Datensatz {x1 , . . . , xn } wird damit meistens das arithmetische Mittel
n
1X
x̄ =
xi
n
i=1
gemeint. Das arithmetische Mittel ist jedoch nicht für jedes Problem angebracht, wie die
folgenden zwei Beispiele zeigen:
1. Durchschnittsgeschwindigkeit: Ein Automobilist fährt auf einer 60 km langen Strecke
die ersten s1 = 20 km mit der Geschwindigkeit v1 = 40 km h−1 , die nächsten s2 = 20 km
mit v2 = 120 km h−1 und die letzten s3 = 20 km mit v3 = 80 km h−1 . Obwohl die drei
Teilstücke gleich lang sind, ergibt sich die Durchschnittsgeschwindigkeit nicht aus dem
arithmetischen Mittel va = 13 (40 + 120 + 80) km h−1 = 80 km h−1 . Wir müssen vielmehr
ausrechnen, wie viel Zeit für die einzelnen Strecken verbraucht wurde, also die Stunden
pro Kilometer vsii . Die Durchschnittsgeschwindigkeit ergibt sich dann als Gesamtstrecke
dividiert durch Gesamtzeit
3
X
si
v̄ =
i=1
3
X
si
i=1
in unserem Fall v̄ = 65.45 km h−1 .
,
vi
Erfahrungsgemäss drückt die kleinste Geschwindigkeit den Durchschnitt also stärker,
als die grösste ihn anhebt. Wegen der in unserem Beispiel gleich langen Teilstrecken
10
Kapitel 2. Beschreibende Statistik
erhalten wir die Durchschnittsgeschwindigkeit in der speziellen Form
n
1
1X 1
=
.
x̄h
n
xi
i=1
Diese Art von Mittelwert wird als harmonisches Mittel bezeichnet, und es gilt: Der
Kehrwert des Mittelwerts ist der Mittelwert der Kehrwerte.
2. Durchschnittsrendite: Ein Aktienkapital K wird über mehrere Jahre bei schwankenden
Börsenkursen angelegt. Die Jahresrendite beträgt im ersten Jahr r1 = 8.5%, im zweiten
Jahr r2 = 12.2% und im dritten Jahr resultiert ein Verlust von r3 = −4.5%. Wiederum
ist die effektive Durchschnittsrendite nicht einfach das arithmetische Mittel der drei
einzelnen Jahresrenditen. Das Endkapital ergibt sich vielmehr als
K0 = K(1 + r1 )(1 + r2 )(1 + r3 ),
was bei dreijähriger Investitionsdauer mit der Durchschnittsrendite r̄ als K ′ = K(1+ r̄)3
aufzufassen ist. Der durchschnittliche Zinsfaktor ergibt sich zu 1.0515, entsprechend
einer effektiven Jahresrendite von r̄ = 5.15%. Zum Vergleich beträgt das arithmetischen
Mittel ra = 5.4%. Die hier vorliegende Art von Mittelwert
1
n
x̄g = (x1 · · · xn ) =
n
Y
!1
n
xi
i=1
wird als geometrisches Mittel bezeichnet. Weil beim Logarithmieren aus Produkten Summen werden, ist leicht einzusehen, dass für das geometrische Mittel gilt: Der
Logarithmus des Mittelwerts ist der Mittelwert der Logarithmen.
Den bisher besprochenen Arten von Mittelwerten ist gemeinsam, dass sie bei der Auswertung jeden einzelnen Datenwert in der gleichen Form berücksichtigen, entweder direkt, als
Kehrwert, oder mit seinem Logarithmus. Dieses Vorgehen ist zwar nahe liegend, hat aber
auch einen Ernst zu nehmenden Nachteil. Fügen wir nämlich zu unserem Datensatz von 50
Zugfestigkeitswerten (siehe Beispiel 2.2.1) nur den einen sehr grossen Wert 1408 N mm−2 hinzu, der vermutlich auf einem Messfehler beruht, so verändert sich das arithmetische Mittel
von urpsrünglich 397.28 N mm −2 auf 417.1 N mm−2 . Das arithmetische Mittel ist also nicht
robust gegenüber Ausreissern, was seinen Nutzen als summarischen Lageparameter beträchtlich mindert.
2.4.2
Median und Quartile
Ein Lageparameter, der gegenüber Ausreissern robust ist, ist der Median x
e. Darunter verstehen wir den Datenwert in der Mitte. Um ihn zu ermitteln, müssen wir eine bei den bisherigen
Beispielen mehrfach stillschweigend vorgenommene Massnahme verdeutlichen: Schon beim
Erstellen einer Häufigkeitstabelle, eines Histogramms werden die Datenwerte automatisch
der Grösse nach sortiert. Dazu ordnen wir die Stichprobenwerte {x1 , . . . , xn } des originalen
Datensatzes der aufsteigenden Grösse nach
x(1) ≤ · · · ≤ x(i) ≤ · · · ≤ x(n) .
2.4. Lageparameter
11
Dann ist der Median oder Zentralwert der Stichprobe durch

x n+1
wenn n ungerade
( )
x
e = 1 2
 x n +x n
wenn n gerade.
2
( +1)
( )
2
2
gegeben. Es handelt sich dabei um den mittelsten Zahlenwert der geordneten Stichprobe.
Im geordneten Datensatz sind natürlich Maximum und Minimum einfach die Werte an den
Grenzen,
xmin = x(1) und xmax = x(n) .
Für die Analyse der Verteilung der Daten sind ferner die empirischen Quartile oder Viertelwerte Q0.25 und Q0.75 nützlich. Während der Median die Mitte des Datensatzes charakterisiert, kennzeichnen Q0.75 das obere und Q0.25 das untere Viertel. Oberhalb von Q0.75 liegen
etwa 25% der Datenwerte, unterhalb von Q0.25 ebenfalls etwa 25%.
Beispiel 2.4.1. Es sei die folgende Stichprobe gegeben.
5.3
3.8
4.0
19.5
5.0
4.9
2.2
4.1
3.1
5.5
Wir bilden den Median indem wir die Stichprobe der Grösse nach ordnen
2.2
3.1
3.8
4.0
4.1
4.9
5.0
5.3
5.5
19.5
und x(5) = 4.1 und x(6) = 4.9 ablesen. Dann ist der Median x
e = 12 (4.1 + 4.9) = 4.5. Im
Gegensatz dazu beträgt das arithmetische Mittel x̄ = 5.74. Wir stellen also fest, dass der
extrem grosse Wert 19.5 das arithmetische Mittel stark vergrössert, den Median aber nicht
beeinflusst.
Weiter lesen wir xmin = 2.2 und xmax = 19.5 ab.
Die empirischen Quartile betragen Q0.25 ≈ 3.8 und Q0.75 ≈ 5.3.
2.4.3
Optimumseigenschaften
Als summarische Kenngrösse für den gesamten Datensatz soll der Mittelwert oder der Median
die Daten {x1 , . . . , xn } in gewisser Weise optimal repräsentieren. Eine mögliche Forderung an
einen solchen optimalen Lageparameter könnte sein: Wähle als optimalen Repräsentanten x
diejenige Zahl, für die die Summe der betragsmässigen Abweichungen minimal ist
n
X
i=1
|xi − x| → min .
Diese Eigenschaft hat tatsächlich der Median, also x = x
e.
Eine andere Forderung bestünde in der Minimierung der quadrierten Abweichungen
n
X
(xi − x)2 → min .
i=1
Mit Hilfe der Differenzialrechnung können wir leicht zeigen, dass diese Eigenschaft vom arithmetischen Mittel erfüllt wird, also x = x̄. Der Mittelwert x̄ ist der beste Repräsentant der
Daten im Sinne der Methode der kleinsten Quadrate, die uns in anderen Vorlesungen
(z.B. Analysis IV, [14]) wieder begegnen wird.
12
Kapitel 2. Beschreibende Statistik
Aufgaben
Aufgabe 2.4.1. Zeigen
Sie, dass für einen gegebenen Datensatz {x1 , . . . , xn } das arithmeti1 Pn
schen Mittel x = n i=1 xi die Funktion
f (x) =
n
X
i=1
minimiert.
(xi − x)2
Aufgabe 2.4.2 (Fakultativ). Zeigen Sie, dass für einen gegebenen Datensatz {x1 , . . . , xn }
der Median x = x
e die Funktion
n
X
f (x) =
|xi − x|
i=1
minimiert.
Lösungen
Lösung 2.4.1. Bestimmen Sie die Abszisse des Scheitelpunktes der quadratischen Polynomfunktion
n
X
f (x) =
(xi − x)2
i=1
n
X
=
(x2i − 2xi x + x2 )
i=1
=
n
X
x2i
i=1
=
n
X
i=1
−
n
X
2xi x +
i=1
x2i − 2x
n
X
n
X
x2
i=1
xi + nx2 .
i=1
Lösung 2.4.2. Bei einem Minimum hat die Funktion f eine horizontale Tangente. Also
bestimmen wir die erste Ableitung1 der Funktion f und setzen diese gleich null. Es gilt
bekanntlich (|x|)′ = sgn(x), wobei sgn die Vorzeichenfunktion bezeichnet. Also folgt
′
f (x) = −
n
X
i=1
sgn(xi − x) = 0.
P
Ist xi > P
x, dann zählt die Summe ni=1 sgn(xi − x) eins dazu, sonst eins ab. Somit wird die
Summe ni=1 sgn(xi − x) genau dann null, wenn oberhalb x genau gleich viele xi liegen wie
unterhalb.
Für ungerade n hat f eine eindeutige horizontale Tangente beim Median x = x
e. Es sei
x(1) ≤ · · · ≤ x(i) ≤ · · · ≤ x(n) der der Grösse nach geordnete Datensatz. Für gerade n hat f
h
i
für alle x ∈ x( n ) , x( n +1) eine horizontale Tangente. Der Median x
e = 12 x( n ) + x( n +1)
2
2
2
2
ist das arithmetische Mittel der beiden Intervallgrenzen.
Aus geometrischen Gründen ist ersichtlich, dass Sattelpunkt oder Maximum ausgeschlossen
sind.
1
Achtung: Die Funktion f ist an den Stellen x ∈ {x1 , . . . , xn } nicht differenzierbar. Wieso?
2.5. Formparameter
2.5
13
Formparameter
Ausser dem optimalen Repräsentanten für den Datensatz {x1 , . . . , xn } sollten wir auch eine Grösse angeben, die in summarischer Form die Schwankungen der Daten, ihre Streuung
um den Mittelwert oder Median, charakterisieren. Die einfachste Grösse dieser Art ist die
Spannweite
∆ = xmax − xmin
2.5.1
Standardabweichung
Meistens benutzen wir die empirische Varianz2
n
1 X
s =
(xi − x̄)2
n−1
2
i=1
Sie heisst auch mittlere quadratische Abweichung, denn es wird eine Art Mittelwert der
quadrierten Abweichungen gebildet. Die Grösse s2 charakterisiert die Abweichung der Daten
von ihrem Mittelwert. Grosses s2 bedeutet, dass die Einzeldaten stark vom Mittelwert abweichen (um den Mittelwert streuen). Da die Varianz die quadrierte Masseinheit der Datenwerte
hat, benutzen wir als Variabilitätskenngrösse oft s, die Wurzel aus der Varianz. Wir nennen
s die Standardabweichung.
Zur Berechnung der Stichprobenstreuung brauchen wir den Mittelwert nicht im Voraus zu
kennen. Ausquadrieren der einzelnen Summanden zeigt, dass gilt
n
1 X
s =
(xi − x̄)2
n−1
2
i=1
=
1
n−1
1
=
n−1
1
=
n−1
1
=
n−1
1
=
n−1
n
X
(x2i − 2xi x̄ + x̄2 )
i=1
n
X
i=1
n
X
x2i − 2x̄
x2i
i=1
n
X
i=1
n
X
xi + nx̄2
i=1
− 2x̄ · nx̄ + nx̄
x2i − nx̄2
x2i
i=1
n
X
2
!
1
−
n(n − 1)
n
X
i=1
!
!
xi
!2
.
Wir müssen also nur die Summe der Datenwerte, die Summe ihrer Quadrate und die Anzahl
der Datenwerte zurückbehalten. Wird ein weiterer Datenwert hinzugefügt, so erhöhen wir die
2
In der Literatur findet sich auch die Formel
s2 =
n
1X
(xi − x̄)2 .
n i=1
Für die Anwendung ist diese Unterscheidung zwecklos, denn als Faustregel muss gelten: Falls es darauf ankommt, ob durch n − 1 oder n geteilt werden muss, dann ist die Stichprobe sowieso zu klein. . .
14
Kapitel 2. Beschreibende Statistik
Anzahl n um 1, addieren den Datenwert und sein Quadrat zu den entsprechenden Summen,
und erhalten den neuen Mittelwert und die neue Varianz.
Aufgaben
Aufgabe 2.5.1. Mittelwert und Standardabweichung einer Stichprobe von 45 Längenmessungen ergaben sich zu x̄ ± s = (12.3 ± 1.8) mm.
a. Wie gross ist die Summe der Datenwerte?
b. Wie gross ist die Summe der Quadrate der Datenwerte?
Aufgabe 2.5.2. Ein Datensatz vom Umfang n habe den Mittelwert x̄ = 3.84 und die Standardabweichung s = 0.960. Wird der Datenwert xn+1 = 2.50 zum Datensatz hinzugefügt, so
ändert sich der Mittelwert zu x̄′ = 3.82.
a. Wie gross ist n?
b. Wie viel beträgt die Standardabweichung s′ für den erweiterten Datensatz?
Lösungen
Lösung 2.5.1.
a. 553.5 mm
b. 6950.61 mm 2
Lösung 2.5.2.
a. n = 66
b. Es sei n′ = n + 1. Entwickeln Sie die Formel
n′
1 X
s = ′
(xi − x̄′ )2
n −1
′2
i=1
n
2 1
1X
=
(xi − x̄) + (x̄ − x̄′ ) + (xn+1 − x̄′ )2
n
n
i=1
n
n
n
X
1X
1X
1
2
′ 1
=
(xi − x̄) + 2(x̄ − x̄ )
(xi − x̄) +
(x̄ − x̄′ )2 + (xn+1 − x̄′ )2
n
n
n
n
i=1
i=1
i=1
n−1 2
1
=
s + 0 + (x̄ − x̄′ )2 + (xn+1 − x̄′ )2 .
n
n
Damit ergibt sich die neue Standardabweichung s′ = 0.967.
2.6. Summarische Datendarstellung
2.5.2
15
Quartile und Ausreissergrenzen
Zusammen mit dem Median haben wir die Quartile eingeführt, die mit der Verteilung der
Daten verknüpft sind. Aus ihnen ergibt sich die Quartilsweite
dQ = Q0.75 − Q0.25 .
Aus den Quartilen und der Quartilsweite können wir auch sinnvolle Ausreissergrenzen definieren
Aunten = Q0.25 − 1.5 dQ und Aoben = Q0.75 + 1.5 dQ .
Datenwerte, die ausserhalb des Intervalls ]Aunten , Aoben [ liegen, können mit einer gewissen
Berechtigung als extreme Werte angesehen werden und somit als Ausreisser identifiziert
werden.
2.6
Summarische Datendarstellung
Eine (eher minimale) summarische Darstellung eines Datensatzes gibt nur den Mittelwert x̄
und die Standardabweichung s mit der korrekten Masseinheit der Daten an
x̄ ± s
[Masseinheit].
Meistens ist es auch angezeigt, zusätzlich mindestens den Stichprobenumfang n anzugeben.
2.6.1
Box- und Whiskersplot
Eine ausführlichere Darstellung der Variabilität von Daten erhalten wir mit dem so genannten
Box- und Whiskersplot3 , siehe Abbildung 2.6.i.
Haben wir einen Datensatz mit mindestens zehn Beobachtungen (Faustregel), dann können
wir einen solchen Plot erstellen. Dabei wird über einer Achse, die die Werte des Datensatzes
abdeckt, ein Kasten vom unteren Quartil Q0.25 bis zum oberen Q0.75 gezeichnet. In diesem
Kasten zeigt eine weitere Linie den Median x
e an, und T-Balken4 (so genannte Whiskers)
bezeichnen die Ausreissergrenzen Aunten und Aoben . Eventuell auftretende Ausreisser werden
dann individuell mit • eingetragen.
b
|
Aunten
|
|
Q0.25 x
e
|
Q0.75
|
|
Aoben Ausreisser
Abbildung 2.6.i: Box- und Whiskersplot
Der eigentliche Zweck eines solchen Box- und Whiskersplots besteht darin, dass damit sehr
schnell verschiedene Datensätze verglichen werden können, etwa die Resultate verschiedener
Stichproben oder verschiedener Gruppen von Probanden.
3
whiskers engl. das Schnurrhaar einer Katze (vgl. Katzen würden Whiskas kaufen!“)
”
Die Regel für die Längen der T-Balken ist ist je nach Literatur verschieden. Auch üblich ist es, die grösste
Beobachtung, die kleiner ist als Aoben (resp. die kleinste Beobachtung, die grösser ist als Aunten ) als Ende des
T-Balkens zu definieren (vgl. [13]).
4
16
Kapitel 2. Beschreibende Statistik
Aufgabe
Aufgabe 2.6.1. Erstellen Sie einen Box- und Whiskersplot für die 50 Zugfestigkeitswerte
aus Beispiel 2.2.1. Entscheiden Sie weiter, ob der Datensatz Ausreisser hat.
Kapitel 3
Zufall und Ereignis
3.1
Zufall
Wir sprechen von Zufall, wenn ein Ereignis nicht notwendig oder nicht beabsichtigt auftritt.
Umgangssprachlich wird ein Ereignis auch als zufällig bezeichnet, wenn es nicht absehbar, vorhersagbar oder berechenbar ist. Zufälligkeit und Unberechenbarkeit oder Unvorhersagbarkeit
sind jedoch nicht dasselbe.
3.2
Zufallsexperimente und Ereignisse
Unter einem Zufallsexperiment verstehen wir einen Vorgang,
(a) der gedanklich beliebig oft wiederholbar und
(b) dessen Ausgang innerhalb einer Menge möglicher Ergebnisse ungewiss (zufällig)
ist.
Der Begriff Zufallsexperiment ist offensichtlich eine mathematische Idealisierung. Häufig wird
es nicht möglich sein, den gleichen Versuch im wörtlichen Sinn beliebig oft zu wiederholen,
sondern nur ähnliche Versuche sehr viele Male.
Zu jedem Zufallsexperiment gehört eine Menge S der sämtlichen Ausfallsmöglichkeiten (diese
werden auch Stichprobenwerte genannt), die auftreten können. Die Menge S heisst Stichprobenraum. Sie kann endlich oder unendlich viele Elemente haben.
Beispiel 3.2.1. Einige Zufallsexperimente und deren Stichprobenräume S.
(a) Beim Werfen einer Münze ist S = {Kopf, Zahl}, und beim Würfel ist S = {1, 2, 3, 4, 5, 6}.
(b) Bei der Ziehung der Lottozahlen ist S = {1, 2, 3, . . . , 45}. Beim Ziehen einer Kugel aus einer Urne mit r roten und s schwarzen Kugeln ist S = {Kugel ist rot, Kugel ist schwarz}.
(c) Messung biologischer Masszahlen, z.B. beim Bestimmen des Alters in einer Population
von Lebewesen besteht S aus allen Alter der Population.
(d) Bei der Messung einer physikalischen Grösse wie Temperatur oder Masse besteht S aus
allen möglichen Messwerten.
17
18
Kapitel 3. Zufall und Ereignis
Betrachten wir nun einen beliebigen Versuch, so verstehen wir unter dem Begriff Ereignis
eine Teilmenge des Stichprobenraums S.
Beispiel 3.2.2. Einige Beispiele von Ereignissen.
(a) Beim Werfen einer Münze interessieren wir uns für das Ereignis, dass die Münze “Kopf”
anzeigt, also A = {Kopf} ⊂ S = {Kopf, Zahl}.
(b) Beim Werfen eines Würfels interessieren wir uns für die Ereignisse B = {1, 3, 5}, die
Augenzahl ist ungerade; oder C = {5, 6}, die Augenzahl ist grösser als vier.
(c) Beim Ziehen einer Kugel aus einer Urne mit r roten und s schwarzen Kugeln interessieren
wir uns für das Ereignis: die Kugel ist rot.
Ein Ereignis ist ein möglicher Ausfall eines Versuchs. Er kann eintreten oder nicht.
Der Stichprobenraum S kann als spezielles Ereignis aufgefasst werden: das so genannt sichere
Ereignis. Beim Werfen eines Würfels ist das sichere Ereignis die Menge aller Augenzahlen
S = {1, 2, 3, 4, 5, 6}.
Andererseits wird ein Ereignis, das überhaupt nicht eintreten kann, unmögliches Ereignis
genannt und mit ∅ bezeichnet. Beispielsweise ist es unmöglich mit einem herkömmlichen
Würfel eine gerade und eine ungerade Augenzahl zu würfeln.
3.3
Verknüpfung von Ereignissen
Aus gegebenen Ereignissen können durch Verknüpfung kompliziertere zusätzliche Ereignisse
gebildet werden.
(a) Die und-Verknüpfung A ∩ B ist die Menge der Ereignisse, die sowohl in A als auch in
B sind (vgl. Abbildung 3.3.i), vgl. Durchschnittsmenge.
S
A
A∩B
B
Abbildung 3.3.i: Die und-Verknüpfung A ∩ B
Beispiel 3.3.1. Eine Zahl kleiner als 4 zu würfeln, wird mit dem Ereignis A = {1, 2, 3}
und eine Zahl grösser als 2 zu würfeln mit dem Ereignis B = {3, 4, 5, 6} gekennzeichnet.
Das Ereignis eine Zahl kleiner als 4 und grösser als 2 zu würfeln, ist demzufolge
A ∩ B = {3}.
(b) Die oder-Verknüpfung A ∪ B ist die Menge der Ereignisse, die entweder in A, in B oder
in A und B sind (vgl. Abbildung 3.3.ii), vgl. Vereinigungsmenge.
Beispiel 3.3.2. Eine Zahl grösser als 3 zu würfeln, wird mit dem Ereignis A = {4, 5, 6}
und eine ungerade Zahl zu würfeln mit dem Ereignis B = {1, 3, 5} gekennzeichnet. Das
Ereignis eine Zahl grösser als 3 oder eine ungerade Zahl zu würfeln, ist demzufolge
A ∪ B = {1, 3, 4, 5, 6}.
3.3. Verknüpfung von Ereignissen
S
A
19
A∪B
B
Abbildung 3.3.ii: Die oder-Verknüpfung A ∪ B
(c) Das Gegenereignis Ā zu einem Ereignis A tritt genau dann ein, wenn A nicht eintritt
und ist die Menge aller Ereignisse, die nicht zu A gehören (vgl. Abbildung 3.3.iii).
Ā
S
A
Abbildung 3.3.iii: Das Gegenereignis Ā
Wie wir sofort sehen, gilt Ā = S − A.
Beispiel 3.3.3. Eine Zahl kleiner oder gleich 2 zu würfeln, wird mit dem Ereignis
A = {1, 2} gekennzeichnet. Das Ereignis nicht eine Zahl kleiner oder gleich 2 zu würfeln,
ist demzufolge
Ā = {3, 4, 5, 6}.
Aufgaben
Aufgabe 3.3.1. Eine elektrische Schaltung habe folgende Gestalt: Ist der Schalter a auf
cba
cbb1
bcb2
bcb3
Abbildung 3.3.iv: Elektrische Schaltung
Unterbruch, dann liegt das Ereignis A vor. Sind die Schalter b1 resp. b2 resp. b3 auf Unterbruch,
dann liegen die Ereignisse B1 resp. B2 resp. B3 vor. Es sind die Ausdrücke für die Ereignisse
C und C̄ anzugeben, wobei C die Unterbrechung des Stromkreises bedeute.
Aufgabe 3.3.2. Drei Bits werden über einen digitalen Nachrichtenwesen übertragen. Jedes
Bit kann verfälscht oder richtig empfangen werden.
a. Geben Sie die Menge aller möglichen Ereignisse an. Wie viele Elemente enthält sie?
b. Es sei Ai = {i-tes Bit ist verfälscht}, wobei i ∈ {1, 2, 3}. Geben Sie A1 an.
20
Kapitel 3. Zufall und Ereignis
c. Stellen Sie die folgenden Ereignisse mit Hilfe von Mengenoperationen mit den Ai dar:
B1 = {alle Bits sind verfälscht},
B2 = {mindestens ein Bit ist verfälscht},
B3 = {genau ein Bit ist verfälscht}.
d. Beschreiben Sie verbal folgende Ereignisse:
C1 = A1 ∩ (A2 ∩ A3 ),
C2 = (Ā1 ∩ A2 ∩ A3 ) ∪ (A1 ∩ Ā2 ∩ A3 ) ∪ (A1 ∩ A2 ∩ Ā3 ).
Aufgabe 3.3.3. Was bedeuten A ∪ A und A ∩ Ā?
Aufgabe 3.3.4. Wann gilt die Gleichung A ∩ B = A?
Aufgabe 3.3.5. Das Ereignis A liege vor, wenn von vier Werkstücken mindestens eines
Ausschuss ist, B trifft ein, sobald mindestens zwei der vier Werkstücke Ausschuss sind. Was
bedeuten die Ereignisse Ā und B̄?
Aufgabe 3.3.6. Das Ereignis A liege vor, wenn von drei geprüften Geräten mindestens eines
Ausschuss ist. Das Ereignis B trifft ein, wenn alle drei Geräte einwandfrei sind. Was bedeuten
die Ereignisse A ∪ B und A ∩ B?
Aufgabe 3.3.7. Zwei Schachspieler spielen eine Partie. A bedeute: es siegt der erste Spieler.
B bedeute: es siegt der zweite Spieler. Welches Ereignis müssen wir noch zu den beiden
hinzufügen, um das sichere Ereignis zu erhalten?
Aufgabe 3.3.8. Eine Anlage besteht aus zwei Kesseln und einer Maschine. Ist die Maschine
intakt, dann liege das Ereignis A vor. Ist der erste (resp. zweite) Kessel arbeitsfähig, so liege
das Ereignis B1 (resp. B2 ) vor. Es bezeichne C das Ereignis: die Anlage ist arbeitsfähig, die
gewährleistet ist, wenn die Maschine und mindestens ein Kessel intakt sind. Drücken Sie die
Ereignisse C und C̄ durch die Ereignisse A, B1 und B2 aus.
Aufgabe 3.3.9. Ein Gerät besteht aus zwei Blöcken vom Typ A und drei Blöcken vom Typ
B. Es bezeichne A1 (resp. A2 ) das Ereignis: der erste (resp. zweite) Block vom Typ A ist
intakt. Es bezeichne B1 (resp. B2 , B3 ) das Ereignis: der erste (resp. zweite, dritte) Block
vom Typ B ist intakt. Das Gerät arbeitet, bezeichnet mit Ereignis C, wenn mindestens ein
Block vom Typ A und nicht weniger als zwei Blöcke vom Typ B intakt sind. Drücken Sie die
Ereignisse C und C̄ durch die Ereignisse A1 , A2 und B1 , B2 , B3 aus.
Lösungen
Lösung 3.3.1. Es bedeutet zum Beispiel {(0, 1, 0, 1)}, dass die Schalter a unterbrochen, b1 , b3
geschlossen und b2 unterbrochen sind. Dann gilt
C = A ∪ (B1 ∩ B2 ∩ B3 ) = {(0, ∗, ∗, ∗), (1, 0, 0, 0) : wobei ∗ ∈ {0, 1}}
C̄ = Ā ∩ (B̄1 ∪ B̄2 ∪ B̄3 )
= {(1, 1, 1, 1), (1, 1, 1, 0), (1, 1, 0, 1), (1, 0, 1, 1), (1, 1, 0, 0), (1, 0, 1, 0), (1, 0, 0, 1)}
unter Ausnutzung der Regeln von de Morgan (siehe Kapitel A.2).
3.4. Zusammengesetzte Versuche, Produktregel
21
Lösung 3.3.2.
a. {(V, V, V ), (V, V, R), (V, R, V ), (R, V, V ), (V, R, R), (R, V, R), (R, R, V ), (R, R, R)}
Die Menge besteht aus 23 = 8 Elemente
b. A1 = {(V, V, V ), (V, V, R), (V, R, V ), (V, R, R)}
c. B1 = A1 ∩ A2 ∩ A3 ,
B2 = A1 ∪ A2 ∪ A3 und
B3 = (A1 ∩ Ā2 ∩ Ā3 ) ∪ (Ā1 ∩ A2 ∩ Ā3 ) ∪ (Ā1 ∩ Ā2 ∩ A3 ).
d. Das Ereignis C1 bedeutet: Erstes Bit verfälscht und von den anderen höchstens eines
verfälscht.
Das Ereignis C2 bedeutet: Genau ein Bit richtig.
Lösung 3.3.3. A ∪ A = A und A ∩ Ā = ∅
Lösung 3.3.4. A ∩ B = A impliziert A ⊆ B.
Lösung 3.3.5. Das Ereignis Ā bedeutet, dass keine Werkstück Ausschuss ist. Das Ereignis
B̄ bedeutet, dass höchstens ein Werkstück Ausschuss ist.
Lösung 3.3.6. Das Ereignis A∪B = S bedeutet, dass alles möglich ist. Das Ereignis A∩B = ∅
bedeutet, dass nichts möglich ist.
Lösung 3.3.7. Remis1
Lösung 3.3.8. C = A ∩ (B1 ∪ B2 ) und C̄ = Ā ∪ (B̄1 ∩ B̄2 )
Lösung 3.3.9.
C = (A1 ∪ A2 ) ∩ ((B1 ∩ B2 ) ∪ (B2 ∩ B3 ) ∪ (B3 ∩ B1 ))
C̄ = (Ā1 ∩ Ā2 ) ∪ ((B̄1 ∪ B̄2 ) ∩ (B̄2 ∪ B̄3 ) ∩ (B̄3 ∪ B̄1 ))
3.4
Zusammengesetzte Versuche, Produktregel
Im Folgenden betrachten wir Versuche, die aus Teilversuchen zusammengesetzt sind. Für das
Weitere ist es wichtig, eine vollständige Übersicht über die Anzahl der möglichen Ausfälle bei
solchen zusammengesetzten Versuchen zu erhalten.
Beispiel 3.4.1. Wenn wir zwei Mal hintereinander einen Würfel werfen, handelt es sich dabei
um einen zusammengesetzten Versuch. Es treten folgende Möglichkeiten auf:
1. Wurf hat 6 Möglichkeiten mit Stichprobenraum S1 = {1, 2, 3, 4, 5, 6}
2. Wurf hat 6 Möglichkeiten mit Stichprobenraum S2 = {1, 2, 3, 4, 5, 6}
1
Kann ein Spieler keinen regelgemässen Zug mehr ausführen und steht sein König nicht im Schach, so
spricht man von einem Patt, die Partie endet in diesem Fall remis (unentschieden). Ein Spiel endet auch
dann remis, wenn es durch keine Zugkombination und ungeschicktestem Spiel des Gegners mehr möglich ist,
Matt zu setzen, wenn sich die beiden Spieler darauf einigen, wenn 50 Züge lang keine Figur geschlagen und
kein Bauer bewegt wurde und ein Spieler dies reklamiert, bei dreimaliger Wiederholung derselben Stellung
mit demselben Spieler am Zug und den gleichen Zugmöglichkeiten, wenn ein Spieler dies reklamiert, wenn die
Zeit beider Spieler abgelaufen ist und es nicht nachweisbar ist, wer die Zeit zuerst überschritten hat. Quelle:
http://de.wikipedia.org
22
Kapitel 3. Zufall und Ereignis
Eine vollständige Übersicht erhalten wir mit einem Ereignisbaum.
1. Teilversuch
2. Teilversuch
1
2
3
123456 123456
4
123456
5
6
123456 123456 123456
Dieser Ereignisbaum stellt dar, dass zu jeder Zahl im ersten Teilversuch jede Zahl im zweiten Teilversuch kombiniert werden kann. Daraus ergeben sich 6 · 6 = 36 Möglichkeiten von
verschiedenen Ausfällen beim zusammengesetzten Versuch. Der Stichprobenraum beim zweimaligen Würfeln ist demzufolge
S = {(1, 1), (1, 2), (1, 3), . . . , (1, 6), (2, 1), (2, 2), (2, 3), . . . , (6, 6)}.
Beispiel 3.4.2. Wenn wir vier Mal hintereinander eine Münze werfen, haben wir bei jedem
Wurf die Möglichkeit Kopf K oder Zahl Z zu erhalten.
Eine vollständige Übersicht erhalten wir wiederum mit dem Ereignisbaum.
1. Teilversuch
K
2. Teilversuch
K
3. Teilversuch
4. Teilversuch
Z
Z
K
K
Z
Z
K
K
K
Z
K
Z
Z
K
Z
K
Z
K
Z
Z
K
K
Z
K
Z
Z
K
Z
Aus diesem Ereignisbaum ergeben sich 2 · 2 · 2 · 2 = 24 = 16 Ausfallsmöglichkeiten beim
zusammengesetzten Versuch. Der Stichprobenraum ist demzufolge
S = {(K, K, K, K), (K, K, K, Z), (K, K, Z, K), . . . , (Z, Z, Z, Z)}.
Dieses Prinzip lässt sich verallgemeineren.
Produktregel
Besteht ein zusammengesetzter Versuch aus m unabhängigen Teilversuchen mit jeweils
n1 , n2 , n3 , . . . , nm
Ausfallsmöglichkeiten, so besitzt der zusammengesetzte Versuch
n1 · n2 · n3 · · · nm
mögliche Ausfälle.
3.5. Permutationen, Variationen, Kombinationen
3.5
3.5.1
23
Permutationen, Variationen, Kombinationen
Permutationen
Haben wir eine Anzahl verschiedener Ziffern oder Buchstaben oder allgemeiner Zeichen, so
können wir uns fragen, auf wie viele Arten wir diese zu einem Wort anordnen können.
Beispiel 3.5.1. Gegeben seien die Ziffern 1, 2, 3, 4 und 5. Nun haben wir fünf Plätze mit fünf
Zeichen auszufüllen. Die Aufgabe wird auf die Produktregel zurückgeführt. Das Setzen eines
Zeichens auf einen Platz stellt einen Teilversuch dar.
1. Teilversuch 1 5 Möglichkeiten
2. Teilversuch 1 2 4 Möglichkeiten
3. Teilversuch 1 3 2 3 Möglichkeiten
4. Teilversuch 4 1 3 2 2 Möglichkeiten
5. Teilversuch 4 1 3
5
2 1 Möglichkeit
Beim 1. Teilversuch sind noch alle Plätze frei, und wir haben genau fünf Möglichkeiten die
erste Ziffer 1 zu setzen; beim 2. Teilversuch bleiben noch vier Möglichkeiten offen, die zweite
Ziffer 2 zu setzen; etc. Beim letzten 5. Teilversuch haben wir keine Wahlmöglichkeit mehr
offen und sind gezwungen die Ziffer 5 auf den freien Platz zu setzen.
Die Produktregel ergibt nun
P (5) = 1 · 2 · 3 · 4 · 5 = 5! = 120
Ausfallsmöglichkeiten. Wir können somit 5 verschiedene Zahlen auf 5! Arten anordnen oder,
wie wir auch sagen, permutieren (vertauschen), so dass jeweils verschiedene 5-stellige Zahlen
entstehen.
Allgemein ergibt sich in völlig analoger Art die Permutation von n Elementen. Es ist möglich
n Elemente auf
P (n) = n!
verschiedene Möglichkeiten anzuordnen.
3.5.2
Geordnete Stichprobe mit Zurücklegen
Wir betrachten ein typisches Beispiel.
Beispiel 3.5.2. Es seien n nummerierte Lose in einer Urne. Es werde k mal ein Los gezogen
und dessen Nummer notiert. Dann wird das Los wieder in die Urne gelegt. Wir erhalten somit
als Ereignis eine Anzahl von k Nummern in einer bestimmten Reihenfolge. Wie viele Ausfälle
verschiedener Art sind möglich?
1. Teilversuch
2. Teilversuch
3. Teilversuch
..
.
..
.
..
.
...
...
...
..
.
..
.
..
.
n Möglichkeiten
n Möglichkeiten
n Möglichkeiten
..
.
k. Teilversuch
...
n Möglichkeiten
Bei allen k Teilversuchen haben wir n Wahlmöglichkeiten. Die Produktregel ergibt nun
V (k, n) = nk
Ausfallsmöglichkeiten.
24
Kapitel 3. Zufall und Ereignis
3.5.3
Geordnete Stichprobe ohne Zurücklegen - Variation
In dieser Situation sprechen wir auch von Variation von n Elementen zur k-ten Klasse.
Der Versuch läuft analog wie in Kapitel 3.5.2, mit der Ausnahme, dass die Lose nicht zurückgelegt werden. Wir haben also k Teilversuche mit n, dann mit n − 1, n − 2, . . . , n − k + 1
Ausfallsmöglichkeiten. Die Produktregel ergibt in diesem Fall
V (k, n) = n(n − 1)(n − 2) · · · (n − k + 1) =
n!
(n − k)!
Ausfallsmöglichkeiten.
3.5.4
Ungeordnete Stichprobe ohne Zurücklegen - Kombinationen
In dieser Situation sprechen wir auch von Kombinationen von n Elementen zur k-ten Klasse.
Ein typisches Beispiel zu dieser Art Stichprobe ist folgendes: Es seien n Kugeln gleicher
Farbe in einer Urne, und es werden k Kugeln ohne Zurücklegen gezogen. Da die Kugeln nicht
unterscheidbar sind, kann keine Reihenfolge berücksichtigt werden.
Dieser Fall ergibt sich aus dem Fall in Kapitel 3.5.3, wenn wir die Reihenfolge nicht berücksichtigen. Das bedeutet, dass wir die Anzahl der möglichen Anordnungen von k Elementen,
d.h. k! Möglichkeiten, unberücksichtigt lassen müssen. Die Anzahl der möglichen Ausfälle
reduziert sich also um diesen Faktor. Wir erhalten in diesem Fall
n!
n
=
C(k, n) =
k!(n − k)!
k
Ausfallsmöglichkeiten.
Aufgaben
Aufgabe 3.5.1. Eine Autonummer bestehe in der folgenden Reihenfolge aus
a. einem Buchstaben und zwei Ziffern,
b. zwei Buchstaben und zwei Ziffern,
c. zwei Buchstaben und drei Ziffern.
Wie viele Autonummern sind jeweils möglich? (Das Alphabet hat 26 Buchstaben und Autonummern mit den Zeichenfolgen 00 (resp. 000 in Aufgabe (c)) sind auszuschliessen.)
Aufgabe 3.5.2. Auf wie viele Arten kann ein Totozettel bei 13 Partien ausgefüllt werden?
Aufgabe 3.5.3. Frau Meier hat 4 Kleider, 3 Hüte und 5 Paar Schuhe. Auf wie viele Arten
kann sie sich zum Ausgehen anziehen, wenn alles zueinander passt und das Tragen eines Hutes
a. Pflicht,
b. freiwillig
ist?
3.5. Permutationen, Variationen, Kombinationen
25
Aufgabe 3.5.4. Ein Würfel wird 3 mal geworfen. Wie viele mögliche Ausfälle hat der Versuch?
Aufgabe 3.5.5. Ein Münze wird 8 mal geworfen. Welcher Bruchteil der möglichen Ausfälle
enthält Kopf und Zahl gleich oft?
Aufgabe 3.5.6. Gegeben seien die folgenden 15 Zeichen.
a. a1 , a2 , a3 , a4 , b1 , b2 , b3 , b4 , b5 , c1 , c2 , c3 , c4 , c5 , c6
b. a, a, a, a, b1 , b2 , b3 , b4 , b5 , c1 , c2 , c3 , c4 , c5 , c6
c. a, a, a, a, b, b, b, b, b, c1 , c2 , c3 , c4 , c5 , c6
d. a, a, a, a, b, b, b, b, b, c, c, c, c, c, c
Wie viele Anordnungen gibt es jeweils?
Aufgabe 3.5.7. Mit den Ziffern 1 bis 9 soll eine 4-stellige Zahl gebildet werden. Auf wie
viele Arten geht dies, wenn Ziffernwiederholungen
a. erlaubt,
b. verboten
sind?
Aufgabe 3.5.8. Auf wie viele Arten können die Buchstaben der Wörter
a. BERLIN
b. PFEFFER
c. MISSISSIPPI
d. OBERRHEINDAMPFSCHIFFFAHRTSKAPITÄNSMÜTZE
permutiert werden?
Aufgabe 3.5.9. Auf wie viele unterscheidbare Arten können 16 Felder eingefärbt werden?
a. Wenn jedes Feld nach freier Wahl schwarz oder weiss gefärbt wird?
b. Wenn 8 Felder weiss und 8 Felder schwarz gefärbt werden?
c. Wenn 2 Felder weiss, 4 schwarz und 10 rot gefärbt werden?
d. Wenn jedes Feld mit einer anderen von 16 Farben gefärbt wird?
Aufgabe 3.5.10. Eine Klasse hat 15 Fussballspieler, einer davon heisst Klaus. Auf wie viele
Arten kann eine Mannschaft von 11 Spielern
a. mit Klaus,
b. ohne Klaus
zusammengestellt werden.
26
Kapitel 3. Zufall und Ereignis
Aufgabe 3.5.11. Aus n Personen ist ein Ausschuss von r, wobei 0 < r < n, Personen und
im Ausschuss ein Vorsitzender zu wählen. Auf wie viele Arten geht dies?
Aufgabe 3.5.12. Wie viele Personen befinden sich in einer Gesellschaft, wenn beim Anstossen 253 mal die Gläser klirren?
Aufgabe 3.5.13. Wie viele Wurfbilder gibt es beim Kegeln prinzipiell?
Aufgabe 3.5.14. Wie viele Möglichkeiten gibt es, die 36 Jasskarten auf vier Spieler A, B,
C und D zu verteilen?
Aufgabe 3.5.15. Wie viele Spielverteilungen gibt es beim Schieber, bei denen ein Spieler
alle vier Bauern erhält?
Aufgabe 3.5.16. Herr Meier hat 7 Sorten Wein im Keller. Für eine Party benötigt er 3
Flaschen Wein von derselben Sorte. Die Sorte selbst ist ihm gleichgültig. Wegen eines Defektes
an der Kellerbeleuchtung muss er die Flaschen im Dunkeln heraus greifen. Wie viele Flaschen
muss er mindestens aus dem Keller mitnehmen, damit sicher drei Flaschen von der gleichen
Sorte darunter sind?
Aufgabe 3.5.17. In einem Parlament sind 3 Parteien vertreten: 60 Liberale, 40 Konservative
und 30 Sozialisten.
a. Wie viele zehner-Kommissionen lassen sich mit dem Verteilschlüssel fünf-drei-zwei bilden?
b. Wie viele siebner-Kommissionen lassen sich mit dem Verteilschlüssel drei-zwei-zwei bilden?
Aufgabe 3.5.18. Wie viele dreistellige Zahlen aus lauter verschiedenen Ziffern gibt es im
Dezimalsystem?
Aufgabe 3.5.19. Wie viele echte (ohne führende Nullen) siebenstellige Zahlen können aus
den Ziffern 1, 2, 3, 3, 0, 0, 0 gebildet werden?
Aufgabe 3.5.20. Wie viele Möglichkeiten gibt es, mindestens eine Sechs zu erhalten, wenn
gleichzeitig fünf Würfel geworfen werden?
Aufgabe 3.5.21. Wie viele aller möglichen Tippreihen beim Toto mit 13 Partien enthalten
k richtige?
Lösungen
Lösung 3.5.1.
a. 2 574
b. 66 924
c. 675 324
Lösung 3.5.2. 1 594 323
3.5. Permutationen, Variationen, Kombinationen
Lösung 3.5.3.
a. 60
b. 80
Lösung 3.5.4. 216
Lösung 3.5.5. 70 : 256
Lösung 3.5.6.
a. 1 307 674 368 000
b. 54 486 432 000
c. 454 053 600
d. 630 630
Lösung 3.5.7.
a. 6 561
b. 3 024
Lösung 3.5.8.
a. 720
b. 420
c. 34 650
d. 379 511 635 419 893 750 000 000 000 000 000 000 000 ≈ 3.795 · 1038
Lösung 3.5.9.
a. 65 536
b. 12 870
c. 120 120
d. 20 922 789 888 000
Lösung 3.5.10.
a. 1 001
b. 364
Lösung 3.5.11. N = r
Lösung 3.5.12. 23
n
r
Möglichkeiten
27
28
Kapitel 3. Zufall und Ereignis
Lösung 3.5.13. Ein Kegelspiel hat in der Regel 9 Kegel, also gibt es 512 verschiedene Wurfbilder.
Lösung 3.5.14. 21 452 752 266 265 320 000 ≈ 21 · 1018
Lösung 3.5.15. 45 888 240 141 744 000 ≈ 46 · 1015
Lösung 3.5.16. Er wählt 15 Flaschen.
Lösung 3.5.17.
a. 23 472 486 273 600 ≈ 23 · 1012
b. 11 610 846 000 ≈ 12 · 109
Lösung 3.5.18. 648
Lösung 3.5.19. 240
Lösung 3.5.20. 4 651
Lösung 3.5.21. Die Anzahl Gewinnmöglichkeiten bei k richtigen beträgt
13 k 13−k
G(k) =
1 2
.
k
P
13 k 13−k
Zur Kontrolle gilt 13
= (1 + 2)13 = 313 , vgl. Lösung 3.5.2.
k=0 k 1 2
Kapitel 4
Wahrscheinlichkeit
4.1
Theoretische Wahrscheinlichkeit
Die theoretische Wahrscheinlichkeit ergibt sich aus der rein gedanklichen Analyse der
verschiedenen Ausfallsmöglichkeiten bei einem gegebenen Versuch. Ist von vornherein klar,
dass alle Möglichkeiten die gleiche Chance haben aufzutreten, so lässt sich sofort angeben,
wie gross das Verhältnis des betrachteten Ereignisses zu allen Ereignissen in bezug auf die
Möglichkeit des Auftretens ist. Dazu bilden wir den Quotienten der Anzahl der günstigen
Ausfälle zur Anzahl der möglichen Ausfälle. Wir erhalten damit eine Zahl, die in Bezug auf ein
bestimmtes Ereignis angibt, wie gross seine Chance, d.h. wie gross die Wahrscheinlichkeit
ist, dass das Ereignis eintrifft. Wir definieren deshalb die Wahrscheinlichkeit eines Ereignisses
durch
g
Anzahl der günstigen Fälle
= .
p=
Anzahl der möglichen Fälle
m
Beispiel 4.1.1. Wie gross ist die Wahrscheinlichkeit, beim Würfeln eine Sechs zu erhalten?
Es gibt m = 6 mögliche Fälle und g = 1 günstige Fälle. Damit ist die Wahrscheinlichkeit
1
p= .
6
Beispiel 4.1.2. Wie gross ist die Wahrscheinlichkeit, beim Werfen einer Münze Kopf zu
erhalten? Es gibt m = 2 mögliche Fälle und g = 1 günstige Fälle. Damit ist die Wahrscheinlichkeit
1
p= .
2
Beispiel 4.1.3. Gegeben seien 10 Nüsse, davon seien 3 verdorben. Wie gross ist die Wahr-
scheinlichkeit, dass zwei gute Nüsse mit einem Griff genommen werden? Es gibt m = 10
2
mögliche Fälle und g = 72 günstige Fälle. Damit ist die Wahrscheinlichkeit
7
7
2
= .
p = 10
15
2
Beispiel 4.1.4. Beim Schweizer Zahlenlotto 6 aus 45 gibt es für den Sechser einen einzigen
günstigen Fall, bei 45
6 = 8 145 060 möglichen Fällen. Die Gewinnchancen für einen Sechser
sind also
1
p=
= 0.000 000 123.
8 145 060
29
30
Kapitel 4. Wahrscheinlichkeit
Aufgaben
Aufgabe 4.1.1. Wie gross ist die Wahrscheinlichkeit
a. aus einer Urne mit 100 Gewinnlosen und 400 Nieten einen Gewinn zu ziehen?
b. aus 36 Jasskarten ein As zu ziehen?
c. mit einem idealen Würfel mehr als 2 zu würfeln?
Aufgabe 4.1.2. Wie gross ist die Wahrscheinlichkeit, bei sechsmaligem Würfeln mit einem
idealen Würfel
a. keine Sechs,
b. lauter verschiedene Augenzahlen
zu erhalten?
Aufgabe 4.1.3. Von 10 Nüssen seien 4 verdorben. Wie gross ist die Wahrscheinlichkeit, mit
einem Griff blindlings 3 gute heraus zu greifen?
Aufgabe 4.1.4. Wie gross ist die Wahrscheinlichkeit, dass 7 beliebige Schüler an 7 verschiedenen Wochentagen geboren sind, wenn angenommen wird, dass alle Wochentage gleichberechtigt sind?
Aufgabe 4.1.5. Wie gross ist die Wahrscheinlichkeit, dass bei 4 Würfen mit einem symmetrischen Würfel mindestens einmal eine Sechs auftritt?
Aufgabe 4.1.6. Unter 20 Glühbirnen sind 6 unbrauchbar. Es werden 6 geprüft. Wie gross
ist die Wahrscheinlichkeit, dabei 6 gute zu finden?
Aufgabe 4.1.7. Wie gross ist die Wahrscheinlichkeit, dass eine Familie mit n Kindern genau
k Mädchen hat, wenn Knaben und Mädchengeburten gleich wahrscheinlich sind?
Aufgabe 4.1.8. Ein Kartenspiel enthalte 36 Karten von vier verschiedenen Farben. Nach
Herausziehen und Zurücklegen einer Karte des Spiels wird das Spiel neu gemischt, und es
wird noch einmal eine Karte gezogen. Bestimmen Sie die Wahrscheinlichkeit dafür, dass beide
Karten von der gleichen Farbe sind.
Aufgabe 4.1.9. Ein Buchstabenschloss besitze fünf um eine Achse drehbare Ringscheiben, von denen jede in sechs Sektoren mit verschiedenen Buchstaben eingeteilt ist. Das
Schloss öffnet sich nur in dem Falle, wo jede Ringscheibe eine bestimmte Lage bezüglich des
Schlosskörpers einnimmt. Bestimmen Sie die Wahrscheinlichkeit für das Öffnen des Schlosses,
wenn eine beliebige Buchstabenkombination eingestellt wird.
Aufgabe 4.1.10. Zehn Bücher werden willkürlich in ein Regal gestellt. Bestimmen Sie die
Wahrscheinlichkeit dafür, dass dabei drei bestimmte Bücher nebeneinander gestellt werden?
Aufgabe 4.1.11. Fünf Strecken seien gegeben, deren Länge jeweils 1, 3, 5, 7, 9 Einheiten
betragen. Bestimmen Sie die Wahrscheinlichkeit dafür, dass mit drei aus den fünf willkürlich
ausgewählten Strecken ein Dreieck gebildet werden kann.
4.1. Theoretische Wahrscheinlichkeit
31
Aufgabe 4.1.12. Von zehn Losen gewinnen zwei. Bestimmen Sie die Wahrscheinlichkeit
dafür, dass sich unter fünf willkürlich ausgewählten Losen
a. genau ein Gewinnlos befindet.
b. beide Gewinnlose befinden.
c. mindestens ein Gewinnlos befindet.
Aufgabe 4.1.13. Es liegen m + n Lose vor, unter denen n Gewinnlose sind. Es werden k
Lose auf einmal gezogen. Bestimmen Sie die Wahrscheinlichkeit dafür, dass sich unter den k
Losen genau s Gewinnlose befinden.
Aufgabe 4.1.14. Zur Verringerung der Spielanzahl werden 2n Mannschaften in zwei gleich
grosse Gruppen eingeteilt. Bestimmen Sie die Wahrscheinlichkeit dafür, dass die beiden spielstärksten Mannschaften
a. in verschiedenen Gruppen
b. in der gleichen Gruppe
sind.
Aufgabe 4.1.15. In einer Sendung von Maschinenteilen seien n einwandfreie und m minderwertige. Wie gross ist die Wahrscheinlichkeit, dass wenn beim heraus greifen von einer Anzahl
Teile die ersten k Teile einwandfrei sind, dann auch das (k + 1)-te Teil einwandfrei ist?
Lösungen
Lösung 4.1.1.
a. p =
1
5
b. p =
1
9
c. p =
2
3
Lösung 4.1.2.
a. p = 0.335
b. p = 0.015
Lösung 4.1.3. p = 0.167
Lösung 4.1.4. p = 0.006
Lösung 4.1.5. p = 0.518
Lösung 4.1.6. p = 0.077
Lösung 4.1.7. p =
Lösung 4.1.8. p =
(nk)
2n
1
4
32
Kapitel 4. Wahrscheinlichkeit
Lösung 4.1.9. p = 0.00013
Lösung 4.1.10. p =
1
15
Lösung 4.1.11. p = 0.3
Lösung 4.1.12.
a. p =
5
9
b. p =
2
9
c. p =
7
9
n
m
Lösung 4.1.13. Es gibt m = m+n
mögliche Ausfälle und genau g = k−s
k
s Möglichkeiten
m
für s Gewinnlose. Dabei zählt der Faktor k−s
die Möglichkeiten, k − s Nieten zu haben; und
der Faktor ns zählt die Möglichkeiten, s Treffer zu haben. Damit folgt
n
m
p(s) =
Lösung 4.1.14.
a. p =
.
n
2n−1
b. q = 1 − p =
n−1
2n−1
Lösung 4.1.15. p =
4.2
k−s s
m+n
k
n−k
n+m−k
Experimentelle Wahrscheinlichkeit
Betrachten wir die relative Häufigkeit der Ausfälle Kopf beim Münzenwerfen bei steigender
Wurfzahl. So zeigt sich, dass bei einer fairen Münze etwa die Hälfte aller Ausfälle Kopf
zeigen. Wir erhalten somit einen Wert 12 als eine Art Grenzwert der empirischen relativen
Häufigkeit (siehe Abbildung 4.2.i). Dieser Wert kann als Eigenschaft der Münze aufgefasst
werden, wie Gewicht und Farbe. Das experimentelle Bestimmen der relativen Häufigkeiten
heisst Simulation.
Allgemeine Formulierung der experimentellen Wahrscheinlichkeit
Gegeben sei ein Stichprobenraum S = {s1 , s2 , . . . , sn } eines Versuchs. Zu jedem Ausfall si ∈ S
gehört eine relative Häufigkeit
h(si ) =
Anzahl des Auftretens von si
Anzahl Versuche N
seines Auftretens. Dabei gilt
0 ≤ h(si ) ≤ 1
und
h(s1 ) + · · · + h(sn ) = 1.
Betrachten wir nun ein spezielles Ereignis A = {si1 , si2 , . . . , sik } ⊆ S, so erhalten wir die
relative Häufigkeit des Eintretens von A mit
h(A) = h(si1 ) + h(si2 ) + · · · + h(sik ).
33
0.0
0.2
0.4
h(Kopf)
0.6
0.8
1.0
4.2. Experimentelle Wahrscheinlichkeit
0
20
40
60
80
100
Anzahl Würfe
Abbildung 4.2.i: Beim Werfen einer fairen Münze strebt die relative Häufigkeit h(Kopf) des
Auftretens von Kopf mit steigender Anzahl Würfe gegen 12 .
Ferner gilt allgemein
h(S) = 1
und
h(∅) = 0.
Nehmen wir nun grosse Werte für die Anzahl Versuche N , so weichen im Allgemeinen die h
nicht viel von den entsprechenden Wahrscheinlichkeiten ab. Es gilt
P
lim h(si ) = p(si ) = pi .
N →+∞
P
Dabei ist zu beachten, dass lim nicht einen gewöhnlichen Grenzwert darstellt, sondern einen
Grenzwert in Wahrscheinlichkeit, d.h. die Wahrscheinlichkeit, dass h(si ) gegen pi strebt, strebt
mit N → +∞ gegen 1.
Beispiel 4.2.1. Beim Würfelwerfen hätten wir zum Beispiel A = {1, 3, 5} und demzufolge
wäre
h(A) = h(1) + h(3) + h(5)
und damit im Grenzübergang
p(A) = p(1) + p(3) + p(5) =
1 1 1
1
+ + = .
6 6 6
2
Aus den Eigenschaften der relativen Häufigkeit erhalten wir die der Wahrscheinlichkeit. Für
einen Ausfall s ∈ S bezeichne p(s) die Wahrscheinlichkeit für dessen Auftreten. Die Zuordnung
s 7−→ p(s)
heisst Wahrscheinlichkeitsverteilung.
Beispiel 4.2.2. Der Versuch bestehe aus einmaligem Würfeln mit einem symmetrischen
Würfel. Die Wahrscheinlichkeit der einzelnen Ausfälle seien:
34
Kapitel 4. Wahrscheinlichkeit
Ausfälle
Wahrscheinlickeiten
1
2
3
4
5
6
1
6
1
6
1
6
1
6
1
6
1
6
Die Wahrscheinlichkeitsverteilung ist eine Funktion, die jedem Ereignis eine Wahrscheinlichkeit im Intervall [0, 1] zuordnet, so dass die Summe aller Wahrscheinlichkeiten eins ergibt.
Axiome der Wahrscheinlichkeit
Es sei S = {s1 , s2 , . . . , sn } der Stichprobenraum. Die folgenden Eigenschaften werden als
Axiome der Wahrscheinlichkeit genommen.
1. 0 ≤ p(si ) ≤ 1 für alle si ∈ S
2. p(S) = p(s1 ) + · · · + p(sn ) = 1
3. p(A) = p(si1 ) + p(si2 ) + · · · + p(sik ) für eine Teilmenge A = {si1 , si2 , . . . , sik } von S
Die Axiome der Wahrscheinlichkeit wurden zum ersten Mal von Andrey Nikolaevich Kolmogoroff, 1903-1987, formuliert (siehe Abbildung 4.2.ii).
Abbildung 4.2.ii: Andrey Nikolaevich Kolmogoroff, 1903-1987
4.3
Monte-Carlo-Methoden
Die experimentelle Wahrscheinlichkeit, d.h. die Wahrscheinlichkeit als eine Art Grenzwert
der relativen Häufigkeit eines Ereignisses, hat in den letzten Jahren stark an Bedeutung
gewonnen. Durch den Einsatz von Computern lässt sich schnell und relativ einfach die relative
Häufigkeit von simulierbaren, also auf dem Rechner mathematisch durchführbaren Ereignissen
bestimmen. Die Zahl der Versuche kann sehr hoch angesetzt werden, so dass wir stabile
Aussagen über die betreffende Wahrscheinlichkeit machen können. Solche Methoden werden
Monte-Carlo-Methoden genannt. Sie haben in den meisten Bereichen der Technik und der
Wissenschaft Einzug gehalten.
An einem einfachen Beispiel wollen wir das prinzipielle Vorgehen erläutern.
Beispiel 4.3.1. Wir wollen das bestimmte Integral
Z a
A=
f (x)dx
0
4.3. Monte-Carlo-Methoden
35
berechnen.
Geometrisch handelt es sich um die Berechnung der Masszahl der Fläche unter der Kurve
y = f (x) über dem Intervall [0, a] (siehe Abbildung 4.3.i). Wir bestimmen eine Anzahl N
y
b
Q
Pi (xi , yi )
b
A
y = f (x)
a
x
Abbildung 4.3.i: Masszahl der Fläche unter der Kurve y = f (x) über dem Intervall [0, a]
zufälliger Punkte P1 (x1 , y1 ), . . . , PN (xN , yN ) im Rechteck Q = [0, a] × [0, b].
Das geschieht mit Hilfe von Zufallszahlen, die wir auf jedem Rechner zur Verfügung haben.
Wir wählen eine erste Zufallszahl x1 im Intervall [0, a] und eine zweite Zufallszahl y1 in [0, b].
Dies ergibt uns einen ersten zufälligen Punkt P1 (x1 , y1 ) im Rechteck Q. Dieses Prozedere
führen wir nun N mal durch. Dann haben wir N zufällige Punkte P1 (x1 , y1 ), . . . , PN (xN , yN )
bestimmt, die zufällig verteilt im Rechteck Q liegen. Einige Punkte werden nun oberhalb der
Kurve y = f (x) und andere unterhalb dieser liegen.
Die Wahrscheinlichkeit, dass ein Punkt in der Fläche mit der gesuchten Masszahl liegt, ist
p=
A
.
area(Q)
Bestimmen wir N zufällige Punkte, ist die relative Häufigkeit
h=
n
N
der n Punkte, die in der zu berechnenden Fläche liegen, zur gesamten Zahl N eine gute
Schätzung für p. Daraus lässt sich A näherungsweise berechnen
A = p · area(Q) ≈
n
area(Q).
N
Wir haben somit nur rechnerisch zu bestimmen, ob ein Punkt Pi (xi , yi ) eine Ordinate
yi < f (xi )
hat. Trifft dies zu, muss ein Zähler um eins erhöht werden. Sind alle N Punkte getestet, dann
n
ergibt sich das gesuchte Verhältnis N
.
Nach dieser Methode lassen sich auch mehrfache Integrale näherungsweise berechnen.
Monte-Carlo-Methoden sind im Allgemeinen sehr einfach durchzuführen. Allerdings ist ihre
Genauigkeit für kleine
√ Versuchszahlen N gering. Die Genauigkeit in diesem Beispiel erhöht
sich proportional zu N . Das heisst, um eine Dezimalstelle zu gewinnen, braucht es 100 mal
mehr Versuche.
36
4.4
4.4.1
Kapitel 4. Wahrscheinlichkeit
Wahrscheinlichkeit von zusammengesetzten Ereignissen
Der Additionssatz
Satz 4.4.1 (Additionssatz). Sind die Ereignisse A und B elementfremd, d.h., es gilt A∩B =
∅, dann gilt für die Wahrscheinlichkeiten
p(A ∪ B) = p(A) + p(B).
Sind sie nicht elementfremd, dann gilt die allgemeinere Version
p(A ∪ B) = p(A) + p(B) − p(A ∩ B).
Die folgenden Beispiele illustrieren den Additionssatz.
Beispiel 4.4.1 (Geometrische Wahrscheinlichkeit). Wir schiessen zufällig auf eine rechteckige
Zielscheibe (vgl. Abbildung 4.4.i) und fragen nach der Wahrscheinlichkeit, entweder die Fläche
A oder B zu treffen.
S
A
A∩B
B
Abbildung 4.4.i: Geometrische Wahrscheinlichkeit
Die Wahrscheinlichkeit p(A) ins Gebiet A zu treffen ist nichts anderes als das Verhältnis des
Flächeninhalts von A zum gesamten Flächeninhalt von S und analog für die Fläche B. Somit
folgt
area(A)
area(B)
p(A) =
und p(B) =
.
area(S)
area(S)
Mit dem Additionssatz 4.4.1 folgt nun
p(A ∪ B) = p(A) + p(B) − p(A ∩ B) =
area(A) + area(B) − area(A ∩ B)
.
area(S)
Wir sehen, dass die Fläche des Durchschnittes abgezogen werden muss, da sie sonst doppelt
gezählt würde.
Beispiel 4.4.2. Wir werfen einen fairen Würfel und betrachten die Ereignisse A = {1, 3, 5}
und B = {1, 2, 3}. Es gilt A ∪ B = {1, 2, 3, 5} und A ∩ B = {1, 3}. Uns interessiert die
Wahrscheinlichkeit dafür, dass das Ereignis A ∪ B eintritt. Wir erhalten also mit Hilfe des
Additionssatzes
p(A ∪ B) = p(A) + p(B) − p(A ∩ B)
1 1 1
1 1
1 1 1
=
+ +
+
+ +
−
+
6 6 6
6 6 6
6 6
4
= .
6
4.4. Wahrscheinlichkeit von zusammengesetzten Ereignissen
37
Beispiel 4.4.3. Ist Ā das Gegenereignis von A, also A ∪ Ā = S und A ∩ Ā = ∅, dann gilt mit
dem Additionssatz 4.4.1
p(A) + p(Ā) = p(A ∪ Ā) = p(S) = 1
oder etwas anders geschrieben
p(Ā) = 1 − p(A).
4.4.2
(4.4.a)
Der Multiplikationssatz
Oft sind Ereignisse aus unabhängigen Teilereignissen zusammengesetzt, deren Wahrscheinlichkeiten mit der bekannten Formel berechnet werden können, falls die Ausfälle gleich wahrscheinlich sind, oder, im anderen Fall, simuliert werden können. Wie berechnet sich die Wahrscheinlichkeit zusammengesetzter Ereignisse?
Die Analyse führen wir an Hand eines einfachen Beispiels durch.
Beispiel 4.4.4. Der Versuch bestehe aus einmaligem Würfeln mit zwei unsymmetrischen
Würfeln. Wir erhalten somit zwei unabhängige Teilversuche. Die Wahrscheinlichkeit der einzelnen Ausfälle seien:
mit
6
X
i=1
pi =
Ausfälle beim 1. Würfel
Wahrscheinlickeiten
1
p1
2
p2
3
p3
4
p4
5
p5
6
p6
Ausfälle beim 2. Würfel
Wahrscheinlickeiten
1
q1
2
q2
3
q3
4
q4
5
q5
6
q6
6
X
qi = 1,
i=1
wobei 0 ≤ pi , qi ≤ 1 für alle i ∈ {1, 2, 3, 4, 5, 6}.
Die Wahrscheinlichkeit des zusammengesetzten Versuchs seien nun
Ausfälle bei zwei Würfeln
Wahrscheinlickeiten
(1, 1)
p11
(1, 2)
p12
(1, 3)
p13
···
···
(6, 5)
p65
(6, 6)
p66
auch hier gilt
6 X
6
X
i=1 j=1
pij = 1,
wobei 0 ≤ pij ≤ 1 für alle i, j ∈ {1, 2, 3, 4, 5, 6}.
Wie lassen sich nun die pij aus den pi und qi berechnen?
Dazu benutzen wir die experimentelle Wahrscheinlichkeit als Grenzwert der relativen Häufigkeit. Betrachten wir einmal das spezielle Ereignis {(3, 4)}:
• Wie viele Dreier erhalten wir ungefähr bei N Würfen mit dem ersten Würfel? – Antwort:
ungefähr N p3 .
• Wie viele Vierer erhalten wir ungefähr bei N Würfen in diesen N p3 Würfen mit dem
zweiten Würfel? – Antwort: ungefähr N p3 · q4 .
38
Kapitel 4. Wahrscheinlichkeit
Die relative Häufigkeit für das Ereignis {(3, 4)} ist demzufolge ungefähr p3 · q4 . Somit ist es
nahe liegend p34 = p3 · q4 zu setzen. Allgemein gilt dann offenbar
pij = pi · qj für alle i, j ∈ {1, 2, 3, 4, 5, 6}.
Dieses Resultat lässt sich ohne weiteres auf kompliziertere Ereignisse verallgemeinern. Dabei
erhalten wir den so genannten Multiplikationssatz.
Satz 4.4.2 (Multiplikationssatz). Besteht ein zusammengesetzter Versuch aus mehreren
Teilversuchen und beziehen sich die Ereignisse A1 , . . . , Ai , . . . , An nur auf den jeweils i-ten
Teilversuch, dann gilt
p(A1 ∩ · · · ∩ An ) = p(A1 ) · · · p(An ).
Beispiel 4.4.5. Wie gross ist die Wahrscheinlichkeit, mit einem idealen Würfel fünf mal
hintereinander eine Sechs zu würfeln?
Es sei
Ai = {i-ter Wurf ist eine Sechs} wobei i ∈ {1, 2, 3, 4, 5}.
Dann ist das Ereignis fünf mal eine Sechs zu würfeln gleich A1 ∩ · · · ∩ A5 = {(6, 6, 6, 6, 6)}
und hat die Wahrscheinlichkeit
p(A1 ∩ · · · ∩ A5 ) = p(A1 ) · · · p(A5 ) =
1 1 1 1 1
1
· · · · = 5 = 0.00013.
6 6 6 6 6
6
Einige Anwendungen des Multiplikationssatzes für typische Versuche:
Beispiel 4.4.6. Wir betrachten einen Versuch mit zwei möglichen Ausfällen:
• Erfolg mit Wahrscheinlichkeit p(Erfolg) = p ∈ [0, 1].
• Misserfolg mit Wahrscheinlichkeit p(Misserfolg) = q = 1 − p ∈ [0, 1].
Nach dem Multiplikationssatz
a. treten n Erfolge bei n Versuchen mit der Wahrscheinlichkeit pn auf;
b. treten n Misserfolge bei n Versuchen mit der Wahrscheinlichkeit q n = (1 − p)n auf;
c. tritt mindestens ein Erfolg mit der Wahrscheinlichkeit 1 − (1 − p)n auf; und
d. tritt der erste Erfolg bei der n-ten Wiederholung mit Wahrscheinlichkeit (1 − p)n−1 p
auf.
Aufgaben
Aufgabe 4.4.1. Ein symmetrischer Würfel wird sechs mal geworfen. Wie gross ist die Wahrscheinlichkeit, dass
a. jedes Mal eine gerade Zahl,
b. kein Sechs,
c. weder eine Fünf noch eine Sechs
4.4. Wahrscheinlichkeit von zusammengesetzten Ereignissen
39
erscheint?
Aufgabe 4.4.2. Wie gross ist die Wahrscheinlichkeit, mit einem symmetrischen Würfel bei
zwei Würfen mindestens einmal eine Sechs zu erhalten?
Aufgabe 4.4.3. Aus einem Kartenspiel mit 36 Karten wird eine Karte gezogen und, wenn
diese wieder eingemischt ist, eine zweite. Wie gross ist die Wahrscheinlichkeit, dass die erste
Karte ein As und die zweite eine Königskarte ist?
Aufgabe 4.4.4. Ein Geldstück wird zweimal geworfen. Wie gross ist die Wahrscheinlichkeit
a. genau einmal Kopf zu werfen,
b. zweimal Kopf zu werfen,
c. mindestens einmal Kopf zu werfen?
Aufgabe 4.4.5. Die Wahrscheinlichkeit, dass in einem gewissen Gebiet eine Ölbohrung
fündig wird, sei p = 0.1. Mit welcher Wahrscheinlichkeit haben 10 Bohrungen mindestens
einen Erfolg?
Aufgabe 4.4.6. Auf einem Abschnitt AB einer Moto-Cross-Bahn befinden sich 12 Hindernisse, wovon jedes mit der Wahrscheinlichkeit p = 0.1 ein Anhalten des Rennfahrers verursacht.
Die Wahrscheinlichkeit dafür, dass ein Rennfahrer von B bis C nicht anhalten muss, sei
q = 0.7. Bestimmen Sie die Wahrscheinlichkeit, dass zwischen A und C kein Anhalten nötig
ist.
Aufgabe 4.4.7. Wie gross ist die Wahrscheinlichkeit, dass sich vier Betriebsunfälle bei einer
fünftage-Woche rein zufällig am Montag ereignen?
Aufgabe 4.4.8. Ein Schuss trifft das Ziel mit der Wahrscheinlichkeit p = 0.5. Wie viele
Schüsse sind nötig, um mit 99% Wahrscheinlichkeit mindestens einmal zu treffen?
Aufgabe 4.4.9. Die Herren A, B und C treffen eine fliegende Tontaube mit der Wahrscheinlichkeit pA = 0.5, pB = 23 und pC = 0.75. Eine Tontaube fliegt vorbei, und sie schiessen alle
gleichzeitig. Wie gross ist die Wahrscheinlichkeit, dass die Taube getroffen wird?
Aufgabe 4.4.10. Ein Gerät besteht aus drei Teilen A, B und C, die alle dieselbe Wahrscheinlichkeit q haben, während eines Tages zu versagen. Das Gerät fällt genau dann aus,
wenn
a. mindestens ein Teil versagt,
b. alle drei Teile ausfallen.
Wie gross ist die Wahrscheinlichkeit, dass das Gerät den ganzen Tag arbeitet?
Aufgabe 4.4.11. Ein Flugzeug hat an jedem Flügel zwei Motoren. Die Wahrscheinlichkeit,
dass ein Motor beim Flug über den Atlantik versagt, sei q. Wie gross ist die Wahrscheinlichkeit,
dass es über dem Ozean abstürzt, wenn
a. für einen Flug mindestens zwei Motoren funktionieren müssen,
b. an jedem Flügel mindestens ein Motor intakt sein muss?
40
Kapitel 4. Wahrscheinlichkeit
Aufgabe 4.4.12. Damit ein zu bauender Apparat richtig funktioniert, müssen vier verschiedene einwandfreie Teilstücke A, B, C und D richtig zusammengebaut werden. Für jedes dieser
vier Teilstücke bestehe die Wahrscheinlichkeit von 2% nicht einwandfrei zu sein. In 1% aller
Fälle werden die vier Teilstücke nicht richtig zusammengebaut. Wie gross ist die Wahrscheinlichkeit, dass ein so gebauter Apparat bei der ersten Kontrolle richtig arbeitet?
Aufgabe 4.4.13. Eine aus 100 Produkten bestehende Serie testen wir durch eine Stichprobe.
Die Serie ist unbrauchbar, wenn unter 5 ausgewählten Produkten mindestens eines Ausschuss
ist. Wie gross ist die Wahrscheinlichkeit für die Unbrauchbarkeit der gegebenen Serie, wenn
diese 5% ausschüssige Produkte enthält?
Aufgabe 4.4.14. Bei jedem Versuch trete ein bestimmtes Ereignis mit der Wahrscheinlichkeit
p = 0.2 ein. Die Versuche werden solange nacheinander durchgeführt, bis dieses Ereignis
eintrifft. Wie gross ist die Wahrscheinlichkeit, dass vier oder mehr Versuche gemacht werden
müssen?
Aufgabe 4.4.15. Mittels zweier Technologien können bestimmte Produkte hergestellt werden. Bei der ersten durchläuft ein Werkstück drei Arbeitsgänge, bei denen mit den Wahrscheinlichkeiten 0.1, 0.2 und 0.3 Ausschuss entsteht. Die zweite Technologie umfasst zwei
Arbeitsgänge, die beide mit der Wahrscheinlichkeit 0.3 Ausschuss liefern. Nach der Produktion werden die Produkte bei beiden Verfahren entsprechend ihrer Qualität in zwei Klassen
eingeteilt. In der ersten Technologie besteht die Wahrscheinlichkeit 0.9, dass ein Produkt in die
erste Qualitätsklasse kommt, in der zweiten 0.8. Bestimmen Sie, welche dieser Technologien
die grössere Wahrscheinlichkeit für die Herstellung von Produkten der ersten Qualitätsklasse
besitzt.
Aufgabe 4.4.16. Die Wahrscheinlichkeit dafür, dass ein beliebiges Werkstück nach mechanischer (resp. thermischer) Bearbeitung Ausschuss ergibt, ist pmech (resp. ptherm ). Die Wahrscheinlichkeit dafür, dass sich die Mängel dieser fehlerhaften Stücke nicht beseitigen lassen,
betrage qmech (resp. qtherm ).
a. Welche Anzahl von Werkstücken müssen nach der mechanischen Bearbeitung mindestens zur Verfügung sein, damit mit der Wahrscheinlichkeit 0.9 nach der thermischen
Bearbeitung mindestens eines noch einwandfrei ist? Zählen Sie unter die einwandfreien
auch die fehlerhaften Stücke, die sich weiter verarbeiten lassen.
b. Wie gross ist die Wahrscheinlichkeit dafür, dass mindestens eines von drei Produkten
nach Durchlaufen der mechanischen und thermischen Bearbeitung Ausschuss ist?
Lösungen
Lösung 4.4.1.
a. 0.0156
b. 0.3349
c. 0.0878
Lösung 4.4.2. 0.3056
4.4. Wahrscheinlichkeit von zusammengesetzten Ereignissen
41
Lösung 4.4.3. 0.0123
Lösung 4.4.4.
a. 0.5
b. 0.25
c. 0.75
Lösung 4.4.5. 0.6513
Lösung 4.4.6. 0.1977
Lösung 4.4.7. 0.0016
Lösung 4.4.8. n ≥ 7
Lösung 4.4.9. 0.9583
Lösung 4.4.10.
a. P (Gerät arbeitet) = (1 − q)3
b. P (Gerät arbeitet) = 1 − q 3
Lösung 4.4.11.
a. P (Absturz) = q 4 + 4(1 − q)q 3
b. P (Absturz) = q 4 + 4(1 − q)q 3 + 2(1 − q)2 q 2
Lösung 4.4.12. 0.9131
Lösung 4.4.13. 0.2262
Lösung 4.4.14. 0.512
Lösung 4.4.15. Die erste Technologie besitzt die grössere Wahrscheinlichkeit für die Herstellung von Produkten der ersten Qualitätsklasse.
Lösung 4.4.16.
a. n ≥
log(0.1)
log(ptherm · qtherm )
b. P (mindestens eines Ausschuss) = 1 − (1 − pmech · qmech )3 (1 − ptherm · qtherm )3
42
Kapitel 4. Wahrscheinlichkeit
Kapitel 5
Zufallsgrössen und
Wahrscheinlichkeitsverteilungen
5.1
Diskrete und stetige Zufallsgrössen
Betrachten wir einen Versuch mit dem Stichprobenraum S = {s1 , s2 , . . . , sn }. Jedem Ausfall
si von S sei eine reelle Zahl zugeordnet
X : S −→ R
si 7−→ X(si ) = xi
Die Zuordnung X wird in der Statistik Zufallsgrösse oder Zufallsvariable genannt.1
Die Zufallsgrösse X, die die Werte x1 , . . . , xn annehmen kann, wird durch die Angabe ihrer Wahrscheinlichkeiten charakterisiert. Jedem Ausfall si aus dem Stichprobenraum S,
respektive X(si ) = xi , entspricht eine Wahrscheinlichkeit
pi = P (X = xi ) ∈ [0, 1]
als Funktion2 von xi aufgefasst. Dabei gilt
n
X
i=1
pi =
n
X
P (X = xi ) = 1.
i=1
Die Funktion
xi 7−→ P (X = xi )
heisst Wahrscheinlichkeitsverteilung der Zufallsgrösse X.
Beispiel 5.1.1. Wir betrachten den symmetrischen Würfel mit dem Stichprobenraum S =
{1, 2, 3, 4, 5, 6}. In diesem Fall setzen wir
X(si ) = i für alle i ∈ {1, 2, 3, 4, 5, 6}.
1
Zufallsgrössen werden im Allgemeinen mit grossen lateinischen Buchstaben X, Y, Z, . . . und die Werte, die
sie annehmen, mit kleinen lateinischen Buchstaben x, y, z, . . . bezeichnet.
2
Die Symbolik pi = P (X = xi ) wird wie folgt gelesen: Die Wahrscheinlichkeit, dass die Zufallsgrösse X den
Wert xi annimmt, ist pi .
43
44
Kapitel 5. Zufallsgrössen und Wahrscheinlichkeitsverteilungen
Die Wahrscheinlichkeitsverteilung ist bekanntlich
pi = P (X = xi ) =
1
6
für alle i ∈ {1, 2, 3, 4, 5, 6}.
Als Tabelle dargestellt ergibt sich:
xi
P (X = xi )
1
2
3
4
5
6
1
6
1
6
1
6
1
6
1
6
1
6
Beispiel 5.1.2. Wir betrachten einen unsymmetrischen Würfel mit dem Stichprobenraum
S = {1, 2, 3, 4, 5, 6}. In diesem Fall setzen wir wiederum
X(si ) = i für alle i ∈ {1, 2, 3, 4, 5, 6}.
Damit folgt
xi
P (X = xi )
1
p1
mit
2
p2
6
X
3
p3
4
p4
5
p5
6
p6
pi = 1
i=1
(vgl. Abbildung 5.1.i).
Oft geben wir nicht die Wahrscheinlichkeiten einzeln an, sondern die Wahrscheinlichkeitssumme von links. Damit erhalten wir die so genannte Verteilungsfunktion oder Summenfunktion (vgl. Abbildung 5.1.ii).
xi
k
X
P (X ≤ xi ) =
P (X = xi )
i=1
1
p1
2
p1 + p2
3
4
···
5
6
6
X
pi = 1
i=1
Allgemein ist die Verteilungsfunktion F einer diskreten Zufallsgrösse durch
X
F (x) = P (X ≤ x) =
pi
alle i mit xi ≤x
gegeben. Die Summation erfolgt über alle pi , für die xi höchstens gleich x ist. Die Verteilungsfunktion F ist eine monoton wachsende Treppenfunktion mit Sprüngen der Höhe pi an den
Stellen xi .
Die soweit beschriebenen Zufallsgrössen heissen diskrete Zufallsgrössen, da sie nur ganz bestimmte, getrennt liegende Zahlenwerte annehmen. Eine andere Art Zufallsgrössen sind die
so genannt stetigen Zufallsgrössen. Diese nehmen als Werte sämtliche Zahlen eines ganzen
Intervalls an, zum Beispiel alle reellen Zahlen R oder alle Zahlen im Intervall [−1, 1]. Die stetigen Zufallsgrössen haben vor allem bei Messprozessen eine grosse Bedeutung. Die diskreten
treten vorwiegend bei Zählprozessen auf.
An Hand eines einprägsamen Beispiels betrachten wir den Unterschied zwischen einer diskreten und einer stetigen Zufallsgrösse:
5.1. Diskrete und stetige Zufallsgrössen
45
pi = P (X = xi )
F (x) = P (X ≤ xi )
1
p1 + p2 + p3 + p 4 + p5 + p6
1
p1 + p2 + p3 + p4 + p5
p1 + p2 + p3 + p4
p1 + p2 + p 3
p1 + p2
p2
p3
p6
p4
p1
1
p5
2
3
4
p1
5
6
xi
Abbildung 5.1.i: Wahrscheinlichkeitsverteilung des unsymmetrischen Würfels
1
2
3
4
5
6
xi
Abbildung 5.1.ii: Verteilungsfunktion des
unsymmetrischen Würfels
Beispiel 5.1.3. Der Stichprobenraum S sei die Menge aller Studierenden einer Klasse. Die
Zufallsgrösse X ordne nun jedem Studierenden s die Länge in Zentimeter seines rechten Fusses
zu. In diesem Fall können alle Fusslängen im Intervall [5 cm, 40 cm] angenommen werden. Die
Fusslängen einer Klasse sind also stetig verteilt.
Fragen wir nun aber nach der jeweiligen Schuhnummer der Studierenden, so erhalten wir nur
Werte in der Menge {34, 34 12 , 36, . . . , 46, 46 12 }. Die Schuhnummern einer Klasse sind somit
diskret verteilt. Je nach dem welches Merkmal betrachtet wird, kann also eine Stichprobe zu
einer diskreten oder stetigen Verteilung führen.
Aufgaben
Aufgabe 5.1.1. Die Trefferwahrscheinlichkeit für einen Basketball in den gegnerischen Korb
sei bei jedem Wurf 0.3. Bestimmen Sie die Wahrscheinlichkeitsverteilung und die Verteilungsfunktion der zufälligen Trefferzahl X bei zwei Würfen.
Aufgabe 5.1.2. Ein Versuch bestehe aus drei unabhängigen Münzwürfen. Bei jedem Wurf
liegt Kopf mit der Wahrscheinlichkeit 0.5 oben. Bestimmen Sie Wahrscheinlichkeitsverteilung
und die Verteilungsfunktion für die Anzahl X des Eintreffens von Kopf.
Aufgabe 5.1.3. Eine Familie habe fünf Kinder. Wir betrachten die Anzahl der Mädchen als
Werte einer Zufallsgrösse X, dabei sind Zwillinge ausgeschlossen. Bestimmen Sie die Wahrscheinlichkeitsverteilung von X.
Aufgabe 5.1.4. Eine Zielscheibe bestehe aus einem Kreis Nr. 1 und zwei Ringen mit den
Nummern 2 und 3. Ein Treffer in den Kreis Nr. 1 liefert 10 Punkte, ein Treffer in den Ring Nr.
46
Kapitel 5. Zufallsgrössen und Wahrscheinlichkeitsverteilungen
2 liefert 5 Punkte und ein Treffer in den Ring Nr. 3 liefert 1 Punkt. Die Trefferwahrscheinlichkeiten betragen entsprechend 50%, 30% und 20%. Bestimmen Sie die Wahrscheinlichkeitsverteilung für die Summe X der erreichten Punkte bei drei Treffern auf die Zielscheibe.
Fehlschüsse werden nicht berücksichtigt.
Aufgabe 5.1.5. Die Zuverlässigkeit von fünf Geräten wird hintereinander überprüft. Jedes
Gerät wird nur dann geprüft, wenn das vorhergehende zuverlässig war. Bestimmen Sie die
Wahrscheinlichkeitsverteilung der Anzahl X der geprüften Geräte, wenn jedes Gerät mit der
Wahrscheinlichkeit 0.9 die Prüfung besteht.
Aufgabe 5.1.6. Es seien n Rohlinge für ein Werkstück vorhanden. Die Wahrscheinlichkeit
für die Herstellung eines brauchbaren Stücks aus einem Rohling betrage p.
a. Bestimmen Sie die Wahrscheinlichkeitsverteilung der Anzahl X Rohlinge, die nach der
Herstellung des ersten brauchbaren Werkstücks übrig bleiben.
b. Bestimmen Sie die Wahrscheinlichkeitsverteilung für die Anzahl X der verwendeten
Rohlinge.
Lösungen
Lösung 5.1.1. Wahrscheinlichkeitsverteilung und die Verteilungsfunktion der zufälligen Trefferzahl X = k.
k
P (X = k)
k
X
P (X = i)
0
0.49
1
0.42
2
0.09
0.49
0.91
1.00
i=0
Lösung 5.1.2. Wahrscheinlichkeitsverteilung und die Verteilungsfunktion für die Anzahl
X = k.
k
P (X = k)
k
X
P (X = i)
0
0.125
1
0.375
2
0.375
3
0.125
0.125
0.500
0.875
1.000
i=0
Lösung 5.1.3. Wahrscheinlichkeitsverteilung der Anzahl Mädchen X = k.
k
P (X = k)
0
0.03125
1
0.15625
2
0.31250
3
0.31250
4
0.15625
5
0.03125
Lösung 5.1.4. Wahrscheinlichkeitsverteilung für die Summe X = n der erreichten Punkte
bei drei Treffern.
n Punkte
P (X = n)
3
0.008
7
0.036
11
0.054
12
0.060
15
0.027
16
0.180
20
0.135
Beachten Sie, dass zur Kontrolle
X
n∈{mögliche Punkte bei 3 Würfen}
gelten muss.
P (X = n) = 1
21
0.150
25
0.225
30
0.125
5.1. Diskrete und stetige Zufallsgrössen
47
Lösung 5.1.5. Wahrscheinlichkeitsverteilung der Anzahl X = x der geprüften Geräte.
1
0.1000
x
p
2
0.0900
3
0.0810
4
0.0729
5
0.6561
Lösung 5.1.6.
a. Es bezeichne X = k die Anzahl Rohlinge, die übrig bleiben.
k
P (X = k)
0
(1 − p)n−1
1
(1 − p)n−2 p
2
(1 − p)n−3 p
...
···
n−1
p
Zur Kontrolle muss
n−1
X
k=0
P (X = k) = (1 − p)n−1 + (1 − p)n−2 p + (1 − p)n−3 p + · · · + p
= (1 − p)n−1 + p (1 − p)n−2 + (1 − p)n−3 + · · · + 1
= (1 − p)n−1 + p
=1
1 − (1 − p)n−1
1 − (1 − p)
gelten.
b. Es bezeichne X = k die Anzahl der verwendeten Rohlinge.
k
P (X = k)
1
p
2
p(1 − p)
3
p(1 − p)2
4
p(1 − p)3
...
···
n
(1 − p)n−1
Zur Kontrolle muss
n
X
k=1
P (X = k) = p + p(1 − p) + p(1 − p)2 + · · · + (1 − p)n−1
= p 1 + (1 − p)1 + (1 − p)2 + · · · + (1 − p)n−2 + (1 − p)n−1
=p
=1
gelten.
1 − (1 − p)n−1
+ (1 − p)n−1
1 − (1 − p)
48
Kapitel 5. Zufallsgrössen und Wahrscheinlichkeitsverteilungen
Kapitel 6
Diskrete Zufallsgrössen und
Verteilungen
6.1
Erwartungswert und Varianz
Analog wie bei empirischen Stichproben können wir bei Wahrscheinlichkeitsverteilungen charakterisierende Parameter definieren.
Es seien x1 , . . . , xn die Werte einer Zufallsgrösse X, die mit den entsprechenden Wahrscheinlichkeiten p1 , . . . , pn auftreten. Dann können wir eine Art Lageparameter für die Werte der
diskreten Zufallsgrösse definieren, den so genannten Erwartungswert der diskreten Zufallsgrösse
µ = E(X) =
n
X
(6.1.a)
xi p i .
i=1
Analog lässt sich ein Formparameter definieren, die so genannte Varianz oder Streuung der
diskreten Zufallsgrösse
n
n
X
X
2
2
σ = Var(X) = E (X − µ) =
(xi − µ) pi =
x2i pi − µ2 .
2
i=1
(6.1.b)
i=1
Die (positive) Quadratwurzel σ heisst Standardabweichung.
Beispiel 6.1.1. Betrachten wir wieder einmal den symmetrischen Würfel. Es ist bekanntlich
xi = i und pi = 16 für alle i ∈ {1, 2, 3, 4, 5, 6}. Dann erhalten wir für den Erwartungswert
E(X) =
6
X
i=1
=1·
i·
1
6
1
1
1
1
1
1
21
+2· +3· +4· +5· +6· =
6
6
6
6
6
6
6
= 3.5
49
50
Kapitel 6. Diskrete Zufallsgrössen und Verteilungen
und für die Varianz
n
X
1
(i − µ)2
Var(X) =
6
i=1
1
1
1
1
1
1
= (1 − 3.5)2 + (2 − 3.5)2 + (3 − 3.5)2 + (4 − 3.5)2 + (5 − 3.5)2 + (6 − 3.5)2
6
6
6
6
6
6
= 2.92.
Die Standardabweichung beträgt demzufolge σ = 1.71.
Aufgaben
Aufgabe 6.1.1. Eine Klasse habe die folgende Altersgliederung:
Alter xi
Häufigkeit hi
15
2
16
7
17
13
18
3
Bestimmen Sie die Wahrscheinlichkeitsverteilung für das Alter X eines zufällig heraus gegriffenen Schülers und berechnen Sie den Erwartungswert und die Varianz.
Aufgabe 6.1.2. Eine Münze werde vier mal geworfen, und es bezeichne X die Anzahl Kopf.
Bestimmen Sie die Wahrscheinlichkeitsverteilung von X, den Erwartungswert und die Varianz.
Aufgabe 6.1.3. Bestimmen Sie den Erwartungswert und die Varianz der Aufgabe 5.1.4.
Aufgabe 6.1.4. Eine Zufallsgrösse X habe die folgende Verteilung (Gleichverteilung):
xi
pi
1
2
1
n
1
n
···
···
n
1
n
Bestimmen Sie den Erwartungswert und die Varianz.
Aufgabe 6.1.5. Es sei X die Augenzahl eines symmetrischen Würfels und Y = X 2 . Bestimmen Sie E(Y ). Welche Bedeutung hat die Zufallsgrösse Y .
Aufgabe 6.1.6. Es sei X eine Zufallsgrösse auf dem Stichprobenraum S. Ihre Wahrscheinlichkeitsverteilung sei P (X = xi ) = pi . Ferner seien a und b zwei reelle Parameter. Beweisen
Sie die Beziehung
E(aX + b) = aE(X) + b.
Lösungen
Lösung 6.1.1. Wahrscheinlichkeitsverteilung für das Alter X = xi eines zufällig heraus
gegriffenen Schülers.
Alter xi
P (X = xi )
15
0.08
16
0.28
17
0.52
18
.12
E(X) = 16.68 und Var(X) = 0.618
Lösung 6.1.2. Wahrscheinlichkeitsverteilung der Anzahl Kopf X = k.
6.2. Die Binomialverteilung
k
P (X = k)
51
0
0.0625
1
0.2500
2
0.3750
3
0.2500
4
0.0625
E(X) = 2.0 und Var(X) = 1.0
Lösung 6.1.3. E(X) = 20.1 und Var(X) = 38.4
Lösung 6.1.4. Benutzen Sie Beispiel A.1.1(b) und (c), dann folgt E(X) =
n2 −1
12 .
n+1
2
und Var(X) =
Lösung 6.1.5. E(Y ) = 15.1667
Lösung 6.1.6. Setzen Sie aX + b direkt in die Definition des Erwartungswertes ein.
6.2
6.2.1
Die Binomialverteilung
Definition und Eigenschaften der Binomialverteilung
Die Binomialverteilung beschäftigt sich mit Ereignissen, bei denen zwei alternative Ausgänge
auftreten können, wie zum Beispiel Münzwurf (Kopf oder Zahl, gleich wahrscheinlich) oder
beim Werfen eines Würfels (6 oder keine 6 geworfen, ungleich wahrscheinlich). Wir betrachten
also einen Versuch mit zwei möglichen Ausfällen:
• Erfolg mit Wahrscheinlichkeit p ∈ [0, 1].
• Misserfolg mit Wahrscheinlichkeit q = 1 − p ∈ [0, 1].
Dieser Versuch werde n mal durchgeführt. Es sei X die Zufallsgrösse, deren Werte x ∈ N0 die
Anzahl Erfolge bei n Versuchen bedeute. Wir bestimmen nun die Wahrscheinlichkeitsverteilung von X.
Bei n Versuchen gibt es genau nx Anordnungen mit x Erfolgen und n−x Misserfolgen. Damit
erhalten wir die Binomialverteilung
n x n−x
n x
P (X = x) =
p q
=
p (1 − p)n−x ,
x
x
wobei x ∈ N0 . Die Wahrscheinlichkeitsverteilung hat somit folgende Form:
x
0
1
···
P (X = x)
qn
npq n−1
···
x
n x n−x
p q
x
···
n−1
n
···
npn−1 q
pn
Um die zum Teil recht mühsamen Berechnungen der Wahrscheinlichkeiten zu vereinfachen, bedienen wir uns Taschenrechner oder Computer, in Excel benutzen wir den Befehl BINOMVERT.
Beispiel 6.2.1. Zwei Spieler A und B spielen Tischtennis. Der bessere Spieler A gewinnt
mit der Wahrscheinlichkeit von 60%. Unentschieden sei ausgeschlossen. Sieger des Turniers
(3 Spiele) ist der Spieler, der die Mehrzahl der Spiele gewonnen hat.
Es bezeichne X die Zufallsgrösse, die als Werte die Anzahl der von A gewonnenen Spiele habe.
Dann ist n = 3, p = 0.6 und q = 0.4.
52
Kapitel 6. Diskrete Zufallsgrössen und Verteilungen
p
p
pn
q
pn−1 q
p
pn−2 q 2
q
pn−3 q 3
p
q
q
p
p
px q n−x
q
px−1 q n−x+1
p
q
q
p
p
q
q
1
2
···
p
p3 q n−3
q
p2 q n−2
p
pq n−1
q
qn
n−1
n
Abbildung 6.2.i: Wahrscheinlichkeitsbaum der Binomialverteilung mit Erfolgs- p und Misserfolgswahrscheinlichkeit q = 1 − p.
Wie gross ist die Wahrscheinlichkeit, dass der schlechtere Spieler das Turnier gewinnt? Wir
erhalten
P (X ≤ 1) = P (X = 0) + P (X = 1)
3 1 2
3 0 3
p q
=
p q +
1
0
= 0.43 + 3 · 0.6 · 0.42 = 0.352.
Folgerung: In diesem Fall werden etwa 35% aller Turniere vom schlechteren Spieler gewonnen.
Bemerkung 6.2.1. Aus der Analysis (vgl. Analysis I, [14]) kennen wir den Binomischen
Satz
n X
n x n−x
n
(a + b) =
a b
.
(6.2.a)
x
x=0
Wir berechnen die Wahrscheinlichkeit, dass X die Werte 0, 1, 2, . . . , n − 1 oder n (das sichere
6.2. Die Binomialverteilung
53
Ereignis) annimmt
P (X ≤ n) =
=
n
X
P (X = x)
x=0
n X
x=0
n x
p (1 − p)n−x
x
= (p + (1 − p))n = 1.
Die Polynome fx,n (p) = nx px (1−p)n−x in der Variablen p werden Bernstein Polynome genannt und finden bei den so genannten Bézier-Kurven ihre Anwendung (vgl. Aufgabe 6.2.4).
Aufgaben
Aufgabe 6.2.1. Machen Sie sich die Verhältnisse bei der Binomialverteilung klar, indem Sie
Histogramme für die folgenden speziellen Fälle zeichnen:
a. n = 3 und p = q
b. n = 3 und p = 0.25
c. n = 8 und p = 0.9
Aufgabe 6.2.2. Jedes Mitglied eines Komitees mit 9 Mitgliedern kommt mit der Wahrscheinlichkeit von 0.5 zur Versammlung. Wie gross ist die Wahrscheinlichkeit, dass eine zweidrittelsMehrheit, d.h. sechs oder mehr, anwesend ist
Aufgabe 6.2.3. Jemand wettet, dass er bei 12 Würfen einer Münze genau 6 mal Zahl erziele.
Wie gross ist die Gewinnwahrscheinlichkeit?
Aufgabe 6.2.4. Betrachten Sie in der Formel
n x
fx,n (p) =
p (1 − p)n−x
x
die Wahrscheinlichkeit p als Variable und x und n als Konstanten.
a. Stellen Sie die Bernstein-Polynome f0,4 , f1,4 , . . . , f4,4 im Intervall [0, 1] grafisch dar.
b. Stellen Sie die Bernstein-Polynome f0,10 , f1,10 , . . . , f10,10 im Intervall [0, 1] grafisch dar.
c. Für welchen Wert von p besitzt das Bernstein Polynom fx,n den grössten Wert? Vergleichen Sie mit Ihren Grafiken.
Lösungen
Lösung 6.2.1. Siehe Excelfile: Lösung 6.2.1 Binomialverteilung.xls
Lösung 6.2.2. P (X ≥ 6) = 0.2539
Lösung 6.2.3. P (X = 6) = 0.2256
54
Kapitel 6. Diskrete Zufallsgrössen und Verteilungen
Lösung 6.2.4.
a. Abbildung 6.2.ii
b. Abbildung 6.2.iii
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
x
n
1.0
c. p =
0.0
0.2
0.4
Abbildung 6.2.ii:
f0,4 , f1,4 , . . . , f4,4
6.2.2
0.6
0.8
1.0
0.0
Bernstein-Polynome
0.2
0.4
0.6
0.8
1.0
Abbildung 6.2.iii: Bernstein-Polynome
f0,10 , f1,10 , . . . , f10,10
Erwartungswert und Varianz der Binomialverteilung
Diese beiden Parameter, und das gilt für alle Wahrscheinlichkeitsverteilungen, können wir
mit Hilfe der so genannten erzeugenden Funktion relativ einfach herleiten, ohne die ganze
Summationen zur Berechnung des Erwartungswertes und der Varianz ausführen zu müssen.
Es bleibt allerdings das Problem offen, wie wir im Allgemeinen die entsprechende erzeugende
Funktion finden, die zu einer bestimmten Wahrscheinlichkeitsverteilung gehört.
Nach dem Binomischen Satz (vgl. Analysis I, [14]) gilt
n
f (t) = (q + pt) =
n X
n
x=0
x
q n−x px tx .
Die Funktion f ist die erzeugende Funktion der Binomialverteilung.
Wir berechnen die erste Ableitung der erzeugenden Funktion
′
n−1
f (t) = n(q + pt)
n
X
n n−x x x−1
p=
x
q
p t
x
x=0
und werten sie an der Stelle t = 1 aus
′
n−1
f (1) = n(q + p)
n
n
n
X
X
n n−x x X
p=
x
q
p =
xP (X = x) =
xpx
x
x=0
x=0
x=0
6.2. Die Binomialverteilung
55
Da p + q = 1 ist, folgt mit Hilfe der Definition des Erwartungswertes für diskrete Verteilungen
(Formel 6.1.a), dass der Erwartungswert einer binomialverteilten Zufallsgrösse
µ = E(X) = np
beträgt.
Analog bestimmen wir die Varianz. Wir berechnen die zweite Ableitung der erzeugenden
Funktion
n
X
n n−x x x−2
′′
n−2 2
f (t) = n(n − 1)(q + pt)
p =
x(x − 1)
q
p t
x
x=0
und werten sie wieder an der Stelle t = 1 aus
f ′′ (1) = n(n − 1)(q + p)n−2 p2 =
=
n n−x x
x(x − 1)
q
p
x
x=0
n
X
n
X
x=0
=
n
X
x=0
=
=
n
X
x=0
n
X
x=0
x(x − 1)P (X = x)
x2 P (X = x) −
x2 p x −
n
X
n
X
xP (X = x)
x=0
xpx
x=0
x2 px − µ.
Da p + q = 1 und mit µ = np folgt für die linke Seite der obigen Gleichung, dass
n(n − 1)p2 = n2 p2 − np2 = µ2 − µp.
Mit
der Definition der Varianz für diskrete Verteilungen (Formel 6.1.b), i.e. σ 2 =
Pn Hilfe
2
2
i=1 xi pi − µ , folgern wir für die rechte Seite
n
X
x=0
x2 px − µ = σ 2 + µ2 − µ.
Da die linke und rechte Seite gleich sein müssen, erhalten wir die Gleichung
µ2 − µp = σ 2 + µ2 − µ,
die wir nach
σ 2 = µ − µp = µ(1 − p) = np(1 − p)
umformen.
Die Varianz oder Streuung einer binomialverteilten Zufallsgrösse X beträgt demzufolge
σ 2 = Var(X) = npq.
Die Standardabweichung der binomialverteilten Zufallsgrösse beträgt σ =
√
npq.
56
Kapitel 6. Diskrete Zufallsgrössen und Verteilungen
6.2.3
Die Binomialverteilung beim Testen von Hypothesen
Das folgende Beispiel zeigt eine Anwendung der Binomialverteilung beim Testen einer Hypothese. Dabei ist das Vorgehen typisch für die Ausführung eines statistischen Tests. Bei
anderen Verteilungen würde nur die Verteilung ändern, nicht aber das grundsätzliche Vorgehen (vgl. Vorlesung über Statistische Datenanalyse, [15]). Wir können deshalb dieses Beispiel
als Prototyp für einen statistischen Test überhaupt sehen.
Beispiel 6.2.2. Wir befassen uns mit der Frage: Kann ein neugeborenes Huhn Formen unterscheiden?
Um dies zu entscheiden, werden dem Huhn “Körner” aus Papier vorgelegt. Die Hälfte der
Körner (aus Papier) besteht aus kleinen Dreiecken und die andere Hälfte aus Kreisen. Nun
lassen wir das Huhn 20 mal picken. Das Ergebnis unserer Untersuchung zeigt, dass das Huhn
5 mal ein Dreieck und 15 mal ein Kreis gepickt hat. Wir hegen deshalb die Vermutung, dass
das Huhn Kreise bevorzugt. Diese Vermutung wollen wir nun testen.
Die Aufgabenstellung ist eine Fragestellung der Binomialverteilung, wenn wir Kreis als Erfolg
mit Wahrscheinlichkeit p und Dreieck als Misserfolg mit Wahrscheinlichkeit q auffassen.
Es sei X die Zufallsgrösse, deren Werte x ∈ N0 die Anzahl der Kreise bei n = 20 “Körnern”
sind. Die Wahrscheinlichkeitsverteilung der Zufallsgrösse X ist dann durch die folgende Tabelle gegeben:
x
0
px
q 20
1
20
pq 19
1
2
20 2 18
p q
2
3
20 3 17
p q
3
···
···
19
20 19
p q
19
20
p20
Zur Durchführung des Tests formulieren wir zwei sich ausschliessende Hypothesen:
Nullhypothese
H0 : p = q = 12 , d.h., das Huhn unterscheidet keine Formen.
Das Histogramm in Abbildung 6.2.iv ist richtig.
Alternativhypothese H1 : p > q, d.h., das Huhn zieht Kreise vor.
Das Histogramm in Abbildung 6.2.v ist möglich.
Das Anliegen eines statistischen Tests zur Prüfung von H0 gegen H1 ist es, eine Entscheidung
darüber zu treffen, ob die aus einer konkreten Stichprobe entnommenen Angaben zur aufgestellten Hypothese H0 im Widerspruch stehen oder nicht, d.h., ob H0 abzulehnen ist oder
nicht. Falls die Hypothese H1 gilt, so muss nicht unbedingt das wirkliche Histogramm, d.h.
die Wahrscheinlichkeitsverteilung, so einseitig sein wie in Abbildung 6.2.v. Es könnte p auch
nur wenig grösser sein als q.
Nun berechnen wir unter der Voraussetzung der Nullhypothese H0 , d.h. p = q = 12 , die
Wahrscheinlichkeit
20 X
20 x 20−x
P (15 ≤ X ≤ 20) =
p q
x
x=15
20 X
20 1
=
x 220
x=15
= 0.021.
6.2. Die Binomialverteilung
57
P (X = x)
P (X = x)
0.20
0.20
0.15
0.15
0.10
0.10
0.05
0.05
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
x
Abbildung 6.2.iv: Histogramm der Verteilung der Anzahl Kreise, sofern das Huhn
keine Formen unterscheiden kann, also bei
p = q = 0.5.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
x
Abbildung 6.2.v: Histogramm der Verteilung der Anzahl Kreise, sofern das Huhn
Kreise mit einer Wahrscheinlichkeit von
p = 0.75 den Dreiecken vorzieht.
Somit besteht unter der Voraussetzung der Nullhypothese H0 nur eine Wahrscheinlichkeit
von etwa 2.1%, dass das Huhn 15 oder mehr Kreise nimmt. Die Wahrscheinlichkeit für dieses
Ereignis ist unter der Voraussetzung der Nullhypothese sehr klein.
Hat aber das Histogramm das Aussehen wie in Abbildung 6.2.v oder auch weniger asymmetrisch, so wird die Wahrscheinlichkeit für ein solches Ereignis wesentlich grösser und dies
in Abhängigkeit von p. Wir folgern deshalb: Die Nullhypothese ist zu verwerfen und H1 ist
anzunehemn. Die berechnete Wahrscheinlichkeit von P (15 ≤ X ≤ 20) = 2.1% stellt dann bei
diesem Schluss die Irrtumswahrscheinlichkeit dar.
Im Allgemeinen müssen wir uns entscheiden, wann eine berechnete Abweichung zur Ablehnung der Nullhypothese führen soll. Dazu wird eine Schranke α ∈ ]0, 1[, das so genannte Signifikanzniveau, gewählt. Ist die berechnete Wahrscheinlichkeit der Abweichung kleiner als
das Signifikanzniveau, so wird die Nullhypothese abgelehnt, sonst angenommen. Die zulässige
Grösse des Signifikanzniveaus α hängt stark vom Fachgebiet ab und ist eine Vereinbarungssache. Häufig verwendete Niveaus sind α = 0.01, 0.05 und 0.1.
Das Prinzip eines statistischen Tests oder Signifikanztest lässt sich in folgenden Schritten
zusammenfassen:
1. Aufstellen der Nullhypothese H0 und der Alternativhypothese H1 und Vorgabe
des Signifikanzniveaus α.
2. Berechnung der Wahrscheinlichkeit des Ereignisses unter der Voraussetzung der
Nullhypothese H0 .
3. Statistischer Schluss: Ist die berechnete Wahrscheinlichkeit kleiner als das Signifikanzniveau α, so wird H0 abgelehnt, sonst wird H0 angenommen.
Wir sagen dann: Die Nullhypothese wird auf dem Signifikanzniveau α verworfen (resp. angenommen). Nur wenn wir die Nullhypothese verwerfen, geben wir die Irrtumswahrscheinlichkeit
an.
58
Kapitel 6. Diskrete Zufallsgrössen und Verteilungen
Aufgaben
Formulieren Sie jeweils die Null- und Alternativhypothese und den problemorientierten statistischen Schluss in Worten.
Aufgabe 6.2.5. Bei einem Würfel ist die Wahrscheinlichkeit für eine Sechs p = 16 . Fritz hat
den Verdacht, dass bei Hans’ Würfel p > 16 ist. Er prüft ihn und erhält
a. zwei Sechsen in drei Würfen,
b. drei Sechsen in fünf Würfen.
Kann er die Nullhypothese H0 : p =
1
6
auf dem Signifikanzniveau 5% verwerfen?
Aufgabe 6.2.6. Jemand behauptet, aussersinnliche Wahrnehmungen zu besitzen. Um diese
Behauptung zu überprüfen, wird das Glücksrad (siehe Abbildung 6.2.vi) zehn mal gedreht.
Die Versuchsperson errät sieben Ausfälle richtig. Formulieren Sie eine Nullhypothese und
p=
1
3
p=
A
1
3
C
B
p=
1
3
Abbildung 6.2.vi: Glücksrad
untersuchen Sie, ob sie auf dem Signifikanzniveau 5% zu verwerfen ist?
Aufgabe 6.2.7. Ein Arzt behauptet, dass er eine alternative Methode besitze, mit der er mit
80% Wahrscheinlichkeit, das Geschlecht eines Kindes Monate vor der Geburt bestimmen kann.
Um seine Behauptung zu testen, wird folgende Entscheidungsregel verwendet: Wir lassen den
Arzt 14 Voraussagen treffen. Wenn die Anzahl der Erfolge X grösser oder gleich 11 ist, wollen
wir seine Behauptung akzeptieren. Wenn hingegen X < 11 ist, wird sie verworfen. Wie gross
ist die Wahrscheinlichkeit, dass
a. seine Methode verworfen wird, falls sie wertlos ist, d.h. wenn H0 : p = 12 ?
b. seine Methode verworfen wird, obwohl er recht, d.h. wenn H0 : p = 45 ?
Das Signifikanzniveau betrage 5%.
Lösungen
Lösung 6.2.5.
a. Unter der Voraussetzung der Nullhypothese H0 : p = 16 besteht nur eine Wahrscheinlichkeit von etwa 7.4%, dass der Würfel in drei Versuchen 2 oder 3 Sechsen zeigt: Nullhypothese annehmen.
6.3. Die Poissonverteilung
59
b. Unter der Voraussetzung der Nullhypothese H0 : p = 16 besteht nur eine Wahrscheinlichkeit von etwa 3.6%, dass der Würfel in fünf Versuchen 3, 4 oder 5 Sechsen zeigt:
Nullhypothese ablehnen.
Lösung 6.2.6. Unter der Voraussetzung der Nullhypothese H0 : p = 13 besteht nur eine
Wahrscheinlichkeit von etwa 2.0%, dass die Person sieben oder mehr Mal richtig tippt: Nullhypothese ablehnen.
Lösung 6.2.7.
a. Unter der Voraussetzung der Nullhypothese H0 : p = 12 besteht nur eine Wahrscheinlichkeit von etwa 2.9%, dass er recht hat: Nullhypothese ablehnen.
b. Unter der Voraussetzung der Nullhypothese H0 : p = 45 besteht nur eine Wahrscheinlichkeit von etwa 69.8%, dass er recht hat: Nullhypothese annehmen. Obwohl er recht
hat, besteht die Wahrscheinlichkeit von 30.2%, ihn als Lügner abzustempeln.
6.3
Die Poissonverteilung
Bei vielen Anwendungen, die eigentlich mit der Binomialverteilung zusammenhängen, ist die
Erfolgswahrscheinlichkeit p beim einzelnen Experiment klein, das heisst, der Erfolg ist ein
seltenes Ereignis. Gleichzeitig ist die Anzahl n der Ausführungen sehr gross. In einem solchen
Fall approximieren wir die Binomialverteilung durch die Poissonverteilung.
6.3.1
Poissonverteilung als Grenzfall der Binomialverteilung
Die Poissonverteilung ergibt sich, wenn n so gegen unendlich strebt, dass der Erwartungswert
µ = np
gegen einen endlichen Wert strebt. Das heisst wir können in der Binomialverteilung p =
und q = 1 − nµ setzen. Dann erhalten wir
n x n−x
P (X = x) =
p q
x
n(n − 1)(n − 2) · · · (n − x + 1) µ x µ n−x
=
1−
x!
n
n
µx µ n n(n − 1)(n − 2) · · · (n − x + 1) µ −x
=
1−
·
1
−
x
x!
n
n
n x
n
µ
µ
1
2
x−1
µ −x
=
1−
·
1−
1−
··· 1 −
· 1−
.
x!
n
n
n
n
n
µ
n
Denken wir daran, dass hier µ und x feste gegebene Zahlen sind, während dem n gegen
unendlich strebt. Wir erhalten einerseits
µ n
lim 1 −
= e−µ
n→+∞
n
und andererseits
1
2
x−1
µ −x
lim
1−
1−
··· 1 −
· 1−
= (1 · 1 · · · 1) · 1 = 1
n→+∞
n
n
n
n
60
Kapitel 6. Diskrete Zufallsgrössen und Verteilungen
und damit die Grenzverteilung
µx −µ
e .
x!
Die entstandene Verteilung heisst Poissonverteilung mit dem positiven Parameter µ und
x ∈ N0 .
Da die Poissonverteilung ein Grenzfall der Binomialverteilung ist, kann je nach Genauigkeitsansprüchen für etwa p ≤ 0.1 und n ≥ 100 statt der Binomialverteilung auch die Poissonverteilung verwendet werden.
Es gibt aber auch Aufgaben, die typische Aufgaben der Poissonverteilung selbst sind. Immer
dann, wenn ein Versuch zwei Ausfallsmöglichkeiten hat und keine endliche Anzahl n von
Versuchen gegeben ist, ist die Poissonverteilung anzuwenden. Eine durchschnittliche Anzahl
Erfolge, der Erwartungswert µ, muss dann gegeben sein.
In der praktischen Anwendung finden sich zahlreiche Beispiele für das Auftreten poissonverteilter Zufallsgrössen. So kann die Anzahl der auf einer Kreuzung innerhalb einer festen
Zeitspanne (eine Minute) vorbeifahrender Fahrradfahrer als poissonverteilt angesehen werden. Die Wahrscheinlichkeit dafür, dass in einer Minute genau x Fahrradfahrer vorbeifahren,
wenn die Anzahl der vorbeifahrenden Fahrradfahrer je Minute im Durchschnitt µ beträgt, ist
x
dann durch µx! e−µ gegeben. Weitere Beispiele für poissonverteilte Zufallsgrössen sind:
P (X = x) =
• Die Anzahl der innerhalb einer kurzen Zeitspanne zerfallenden Atome eines radioaktiven
Präparats.
• In einer Spinnerei die Anzahl der Fadenbrüche innerhalb einer vorgegebenen Zeitspanne
bei einer bestimmten Garnsorte.
• Die Anzahl der während einer festen Zeit beobachteten Sternschnuppen.
Dass die Poissonverteilung eine Wahrscheinlichkeitsverteilung ist, lässt sich mit Hilfe der
Reihenentwicklung der Exponentialfunktion einsehen.
∞
X
x=0
P (X = x) =
∞
X
µx
x=0
x!
−µ
e
−µ
=e
∞
X
µx
x=0
x!
= e−µ eµ = 1
Der Stichprobenraum der Poissonverteilung ist die Menge S = N0 .
Um die zum Teil recht mühsamen Berechnungen der Wahrscheinlichkeiten zu vereinfachen,
bedienen wir uns Taschenrechner oder Computer, in Excel benutzen wir den Befehl POISSON.
6.3.2
Erwartungswert und Varianz der Poissonverteilung
Der Erwartungswert der Poissonverteilung ergibt einerseits sich aus der Konstruktion als
Grenzfall der Binomialverteilung zu µ und andererseits durch direkte Berechnung mit Hilfe
von Formel 6.1.a
E(X) =
∞
X
x=0
−µ
x · P (X = x) = e
∞
∞
X
X
µx−1
µx
−µ
µ
=e µ
= e−µ eµ µ = µ.
(x − 1)!
x!
x=1
x=0
Die Varianz oder Streuung der Poissonverteilung folgt aus folgender Überlegung: Bekanntlich ist die Varianz der Binomialverteilung Var(X) = npq. Zur Herleitung der Poissonverteilung betrachteten wir den Grenzübergang n → +∞ unter Berücksichtigung, dass das Produkt
6.3. Die Poissonverteilung
61
µ = np gegen einen endlichen Wert strebte. Damit folgt im Grenzübergang
µ
Var(X) = lim npq = lim µ 1 −
= µ.
n→+∞
n→+∞
n
Somit folgt für die Standardabweichung der Poissonverteilung
σ=
√
µ.
Bei der Poissonverteilung sind Erwartungswert und Varianz gleich dem Parameter µ.
Beispiel 6.3.1. Die Wahrscheinlichkeit dafür, dass ein Produkt einem Qualitätstest nicht
genügt, betrage p = 0.001. Wir bestimmen die Wahrscheinlichkeit, dass von 5000 Produkten
mindestens zwei die Prüfung nicht überstehen.
Diese Aufgabe ist eigentlich eine Aufgabe der Binomialverteilung. Sie kann aber wegen dem
kleinen p und dem grossen n näherungsweise als Aufgabe der Poissonverteilung betrachtet
werden.
Es sei n = 5000, p = 0.001 also µ = np = 5, und X bezeichne die Anzahl Waren, die die
Prüfung nicht bestehen. Dann gilt
P (X < 2) = P (X = 0) + P (X = 1) =
50 −5 51 −5
e + e = 6e−5 = 0.04,
0!
1!
also P (X ≥ 2) = 1 − P (X < 2) = 0.96.
Aufgaben
Aufgabe 6.3.1. Zeichnen Sie je ein Histogramm für die Poissonverteilung mit µ = 2 und
µ = 8.
Aufgabe 6.3.2. Die Wahrscheinlichkeit dafür, dass ein Teilnehmer im Verlaufe einer Stunde
bei einer Telefonzentrale anruft, betrage 1%. Die Zentrale bedient 300 Teilnehmer. Wie gross
ist die Wahrscheinlichkeit, dass während einer Stunde genau vier Teilnehmer anrufen?
Aufgabe 6.3.3. Eine Firma stellt gleichartige Zubehörteile für Kraftfahrzeuge in grosser Zahl
her. Wir wissen, dass im Mittel 0.5% fehlerhaft sind. Wie gross ist die Wahrscheinlichkeit,
dass die Lieferung von 1000 genau 10 schadhafte Stücke enthält?
Aufgabe 6.3.4. Wie gross ist die Wahrscheinlichkeit, dass von einer Gruppe mit 730 Personen wenigstens drei am Oster- oder Pfingstsonntag geboren sind, wenn die Geburtstage
zufällig verteilt sind?
Aufgabe 6.3.5. Eine Stadt hat durchschnittlich zwei schwere Unfälle pro Woche. Wie gross
ist die Wahrscheinlichkeit für mehr als fünf Unfälle in einer Woche?
Aufgabe 6.3.6. In einem Hafen laufen wöchentlich im Mittel fünf Lastschiffe ein. Wie gross
ist die Wahrscheinlichkeit, dass dieser Mittelwert nächste Woche übertroffen wird?
Aufgabe 6.3.7. Dozent Steiner macht durchschnittlich zwei Fehler pro getippte LATEX-Seite.
Wie gross ist die Wahrscheinlichkeit, dass eine Seite fehlerfrei ist?
62
Kapitel 6. Diskrete Zufallsgrössen und Verteilungen
Aufgabe 6.3.8. Ein Prozent der Bevölkerung ist farbenblind. Welchen Umfang muss eine
Stichprobe mindestens haben, damit sie mit 95%-iger Wahrscheinlichkeit mindestens eine
farbenblinde Person hat?
Aufgabe 6.3.9. Die Wahrscheinlichkeit, dass ein Fluggast, der einen Platz reserviert hat,
nicht zum Flug erscheint, beträgt vier Prozent. Die Fluggesellschaft weiss dies und verkauft
75 für 73 verfügbare Plätze.
Wie gross ist die Wahrscheinlichkeit, dass alle Plätze besetzt sind und niemand auf den
nächsten Flug warten muss?
a. Lösen Sie die Aufgabe exakt mit einer Binomialverteilung.
b. Lösen Sie die Aufgabe mit einer Poissonnäherung.
Aufgabe 6.3.10. Nach der Beobachtung von Rutherford und Geiger gibt eine radioaktive
Substanz im Verlaufe von 7.5 s im Mittel 3.87 α-Teilchen ab. Bestimmen Sie die Wahrscheinlichkeit dafür, dass diese Substanz während einer Sekunde mindestens ein α-Teilchen emittiert.
Aufgabe 6.3.11. Eine Firma verkauft Saatgut in Päckchen von 1000 Samenkörnern verpackt.
Die Firma gibt an, dass durchschnittlich zwei Körner, die nicht der Sorte des Saatgutes
angehören, in einem Päckchen zu erwarten sind. Eine Stichprobe ergibt aber 6 Fremdkörner.
Formulieren Sie eine problembezogene Nullhypothese und untersuchen Sie, ob sie auf dem
Signifikanzniveau 5% abgelehnt werden kann.
Lösungen
Lösung 6.3.1. Siehe Excelfile: Lösung 6.3.1 Poissonverteilung.xls
Lösung 6.3.2. P (X = 4) = 0.1680
Lösung 6.3.3. P (X = 10) = 0.0181
Lösung 6.3.4. P (X ≥ 3) = 0.7619
Lösung 6.3.5. P (X > 5) = 0.0166
Lösung 6.3.6. P (X > 5) = 0.3840
Lösung 6.3.7. Die Antwort “unmöglich” ist frech! P (X = 0) = 0.1353.
Lösung 6.3.8. n ≥ 300
Lösung 6.3.9.
a. P (X = 73) = 0.2255.
b. P (X = 73) = 0.2240.
Lösung 6.3.10. P (X ≥ 1) = 0.4031
Lösung 6.3.11. Unter der Voraussetzung der Nullhypothese H0 : µ = 2 besteht nur eine
Wahrscheinlichkeit von etwa 1.7%, dass ein Päckchen 6 oder mehr Fremdkörner enthält: Da
eine solche Abweichung von der Nullhypothese nicht mit Zufall erklärt werden kann, wird die
Nullhypothese auf dem Niveau von 5% abgelehnt.
Kapitel 7
Stetige Zufallsgrössen und
Verteilungen
Die Zahlenwerte, die eine stetige Zufallsgrösse X annehmen kann, sind über ein ganzes Intervall I verteilt, welches beschränkt oder unbeschränkt sein kann. Die Wahrscheinlichkeitsverteilung kann nun nicht mehr als Liste angegeben werden. Zu jedem möglichen Wert x ∈ I
wird der Wert f (x) Wahrscheinlichkeitsdichte f angegeben. Es kann nur davon gesprochen
werden, dass x mit einer bestimmten Wahrscheinlichkeit in einem gewissen Teilintervall des
Intervalls I liegt.
7.1
Stetige Zufallsgrössen und Wahrscheinlichkeitsdichten
Beispiele von stetigen Zufallsgrössen sind viele physikalische Messungen. Wir können uns die
Verhältnisse bei stetigen Zufallsgrössen plausibel machen, wenn wir die Werte der diskreten
Zufallsgrösse beliebig zusammenrücken lassen. Aus den einzelnen Strecken, die im Histogramm
einer solchen auftreten, wird bei einer stetigen Zufallsgrösse eine Fläche, die durch die xAchse und die Kurve y = f (x) der so genannten Wahrscheinlichkeitsdichte f begrenzt
wird (siehe Abbildung 7.1.i). Dabei entspricht die Wahrscheinlichkeit, dass die Zufallsgrösse
y
y = f (x)
P
a
x1
x2 b
x
Abbildung 7.1.i: Wahrscheinlichkeitsdichte
X einen Wert zwischen x1 und x2 gerade der Masszahl der Fläche unter der Kurve y = f (x)
63
64
Kapitel 7. Stetige Zufallsgrössen und Verteilungen
über dem Intervall [x1 , x2 ] ⊆ [a, b], das heisst
P (x1 ≤ X ≤ x2 ) =
Z
x2
f (x) dx.
x1
Für die Verteilungsfunktion F einer stetigen Zufallsgrösse X, die jeden Wert in einem
bestimmten Intervall annehmen kann, gilt
Z x
Z x
F (x) = P (X ≤ x) =
f (x) dx =
f (t) dt.
a
a
Die nichtnegative Funktion f heisst Wahrscheinlichkeitsdichte von X. Wir stellen die
wichtigsten Eigenschaften der Funktionen F und f zusammen. Im Folgenden sei das Intervall I = ]−∞, ∞[. Bei einem (einseitig) beschränkten Intervall sind die Integrationsgrenzen
entsprechend abzuändern.
1. Die Funktion F ist stetig, monoton wachsend mit F (−∞) = 0 und F (+∞) = 1.
2. Der Gesamtflächeninhalt unter der Wahrscheinlichkeitsdichtekurve ist gleich 1, d.h.
Z ∞
f (x) dx = 1.
−∞
3. Es gilt
d
dx F (x)
= F ′ (x) = f (x) für alle x ∈ R.
4. Die Wahrscheinlichkeit ein Ereignis zwischen x1 und x2 zu erhalten, beträgt
Z x2
P (x1 ≤ X ≤ x2 ) =
f (x) dx = F (x2 ) − F (x1 ).
x1
y
1
F (x)
f (x)
x
x
Abbildung 7.1.ii: Verteilungsfunktion F und Wahrscheinlichkeitsdichte F ′ = f .
7.1.1
Die Gleichverteilung
Wir betrachten die Wahrscheinlichkeitsdichte
1 wenn 0 ≤ x ≤ 1
f (x) =
0 sonst.
7.1. Stetige Zufallsgrössen und Wahrscheinlichkeitsdichten
y
65
y
y = f (x)
1
1
y = F (x)
P
x1
x2 1
x
1
Abbildung 7.1.iii: Die Wahrscheinlichkeitsdichte der Gleichverteilung
x
Abbildung 7.1.iv: Die Verteilungsfunktion
der Gleichverteilung
Hierbei handelt es sich um die so genannte Gleichverteilung im Intervall I = [0, 1] (siehe
Abbildung 7.1.iii).
Natürlich gilt auch bei der Gleichverteilung die Normierungsbedingung (2) aus Kapitel 7.1,
d.h.
Z 1
Z ∞
f (x) dx =
1 dx = 1.
−∞
0
Die Wahrscheinlichkeit, dass die Zufallsgrösse X einen Wert zwischen x1 und x2 annimmt
beträgt
Z x2
Z x2
f (x) dx =
1 dx = x2 − x1 .
P (x1 ≤ X ≤ x2 ) =
x1
x1
Die Verteilungsfunktion ergibt sich hier zu

 0 wenn x < 0
F (x) =
x wenn 0 ≤ x ≤ 1

1 wenn 1 < x
(vgl. Abbildung 7.1.iv).
Aufgaben
Aufgabe 7.1.1. Es sei die Funktion
f (x) =
ax wenn 0 ≤ x ≤ 1
0
sonst
gegeben, wobei a ein positiver Parameter bezeichnet.
a. Bestimmen Sie den Parameter a so, dass f auf dem Intervall I = [0, 1] eine Wahrscheinlichkeitsdichte ist.
b. Berechnen Sie die Verteilungsfunktion F zu f und veranschaulichen Sie sich diese Funktionen in einem Grafen.
66
Kapitel 7. Stetige Zufallsgrössen und Verteilungen
c. Berechnen Sie die folgenden Wahrscheinlichkeiten für eine stetige Zufallsgrösse, die
gemäss dem obigen f verteilt ist und interpretieren Sie die Resultate geometrisch:
P
1
3
≤X≤
3
4
,
P
1
X≤
2
und
P
3
≤X .
4
Aufgabe 7.1.2. Es sei die Funktion
f (x) =
a
1 + x2
gegeben, wobei a ein positiver Parameter bezeichnet.
a. Bestimmen Sie den Parameter a so, dass f auf dem Intervall I = R eine Wahrscheinlichkeitsdichte ist.
b. Berechnen Sie die Verteilungsfunktion F zu f und veranschaulichen Sie sich diese Funktionen in einem Grafen.
c. Berechnen Sie die folgenden Wahrscheinlichkeiten für eine stetige Zufallsgrösse, die
gemäss dem obigen f verteilt ist:
P
1
0≤X≤
2
,
P
1
X≤−
4
und
P
3
≤X .
2
Lösungen
Lösung 7.1.1.
a. a = 2
b.
c. P
1
3
≤X≤
3
4
Lösung 7.1.2.
a. a =

 0 wenn x < 0
F (x) =
x2 wenn 0 ≤ x ≤ 1

1 wenn 1 < x
= 0.451, P X ≤
1
2
= 0.25 und P
3
4
≤ X = 0.438
1
π
+
1
π
c. P 0 ≤ X ≤
1
2
b. F (x) =
1
2
arctan(x)
= 0.148, P X ≤ − 14 = 0.422 und P
3
2
≤ X = 0.187
7.1. Stetige Zufallsgrössen und Wahrscheinlichkeitsdichten
7.1.2
67
Erwartungswert und Varianz
Mit Hilfe der Analogie, dass der Summe bei einer diskreten Zufallsgrösse ein Integral bei einer
stetigen Zufallsgrösse entspricht erhalten wir die Beziehung für den Erwartungswert und die
Varianz.
Im Folgenden sei das Intervall I = ]−∞, ∞[. Bei einem (einseitig) beschränkten Intervall
sind die Integrationsgrenzen entsprechend abzuändern. Der Erwartungswert der stetigen
Zufallsgrösse X beträgt
Z
µ = E(X) =
∞
xf (x) dx,
−∞
die Varianz oder Streuung ist
2
2
σ = Var(X) = E (X − µ)
=
Z
∞
−∞
2
(x − µ) f (x) dx =
Z
∞
−∞
x2 f (x) dx − µ2 .
Beispiel 7.1.1. Wir betrachten noch einmal die Gleichverteilung aus Kapitel 7.1.1. Der
Erwartungswert ergibt sich folgendermassen
µ = E(X) =
Z
∞
xf (x) dx =
−∞
Z
1
0
und die Varianz
σ2 =
Z
∞
−∞
(x − µ)2 f (x) dx =
Die Standardabweichung ist also σ =
Z
0
1
1
x−
2
2
1
x2 1
x · 1 dx =
=
2 0 2
1
· 1 dx =
3
1
√
.
2 3
1
x−
2
3 1
1
= .
12
0
Aufgaben
Aufgabe 7.1.3. Es sei die Funktion
f (x) =
2x wenn 0 ≤ x ≤ 1
0 sonst
gegeben. Berechnen Sie den Erwartungswert und die Varianz.
Aufgabe 7.1.4. Es sei die Funktion
f (x) =
2 1
π 1 + x2
für x ∈ [−1, 1] gegeben. Berechnen Sie den Erwartungswert und die Varianz.
Lösungen
Lösung 7.1.3. µ =
2
3
und σ 2 =
Lösung 7.1.4. µ = 0 und σ 2 =
1
18
4
π
−1
68
7.2
Kapitel 7. Stetige Zufallsgrössen und Verteilungen
Die Normalverteilung
Die bekannteste und bei allen Problemen der Statistik am häufigsten verwendete Verteilung
einer stetigen Zufallsgrösse ist die Gausssche Normalverteilung.
7.2.1
Die standardisierte Normalverteilung
Die standardisierte Normalverteilung besitzt eine Dichtefunktion der Form
z2
1
f (z) = ϕ(z, 0, 1) = √ e− 2
2π
für − ∞ < z < ∞.
Es sei Z eine standardnormalverteilte Zufallsgrösse, dann schreiben wir Z ∼ N (0, 1).
ϕ(z, 0, 1)
1
−1
1
0
1
z
Abbildung 7.2.i: Die Wahrscheinlichkeitsdichte ϕ(z, 0, 1) der standardisierten Normalverteilung
Natürlich gilt auch bei der standardisierten Normalverteilung die Normierungsbedingung (2)
aus Kapitel 7.1.
In der Tat: Aus Gründen der Symmetrie der Wahrscheinlichkeitsdichte gilt
Z ∞
Z ∞
Z ∞
z2
z2
1
2
f (z) dz = √
e− 2 dz = √
e− 2 dz.
2π −∞
2π 0
−∞
√
2
Wir substituieren u2 = z2 also dz = 2 du. Es folgt1
√
Z ∞
2
√ 2 Z ∞ −u2
√ 2
2
π
− z2
√
e
dz = 2 √
e
du = 2 √
= 1.
2π 0
2π 0
2π 2
Da der Integrand keine elementare Stammfunktion besitzt, benutzen wir zur expliziten Berechnung solcher Integrale meistens Tabellen oder einen Computer, z.B. in Excel mit dem
Befehl NORMVERT oder STANDNORMVERT. Mit Tafel T.1 lassen sich alle Aufgabenstellungen
zur standardisierten Normalverteilung lösen. Sie enthält die Werte für das bestimmte Integral
Z z
z2
1
P (Z ≤ z) = Φ(z, 0, 1) = √
e− 2 dz
2π −∞
in Funktion von z ∈ R (siehe Abbildung 7.2.ii). Ferner gilt, wie entsprechend bei allen Wahr1
Das folgende bestimmte Integral, dessen Berechnung schwierig ist, da es keine elementare Stammfunktion
besitzt, kann in Kapitel A.3 gefunden werden
√
Z ∞
2
π
e−u du =
.
2
0
Es dient zur weiteren Berechnung der auftretenden Integrale.
7.2. Die Normalverteilung
69
ϕ(z, 0, 1)
Φ(z, 0, 1)
0
z
z
Abbildung 7.2.ii: Verteilung Φ(z, 0, 1) der standardisierten Normalverteilung N (0, 1)
scheinlichkeitsverteilungen: Die Wahrscheinlichkeit dafür, dass die standardnormalverteilte
Zufallsgrösse Z ∼ N (0, 1) Werte zwischen z1 und z2 annimmt, beträgt
Z z2
z2
1
P (z1 ≤ Z ≤ z2 ) = √
e− 2 dz = Φ(z2 , 0, 1) − Φ(z1 , 0, 1).
2π z1
Beispiel 7.2.1. Es sei Z ∼ N (0, 1) eine standardnormalverteilte Zufallsgrösse. Wir berechnen
die Wahrscheinlichkeit
Z 2.45
z2
1
P (1 ≤ Z ≤ 2.45) = √
e− 2 dz = Φ(2.45, 0, 1) − Φ(1, 0, 1).
2π 1
In der Tafel T.1 finden wir Φ(1, 0, 1) = 0.8413 und Φ(2.45, 0, 1) = 0.9929. Also folgt durch
Subtraktion die gesuchte Wahrscheinlichkeit
P (1 ≤ Z ≤ 2.45) = 0.9929 − 0.8413 = 0.1516.
Bemerkung 7.2.1. Natürlich gilt Φ(−∞, 0, 1) = 0 und Φ(+∞, 0, 1) = 1. Wieso?
Aufgaben
Aufgabe 7.2.1. Bestimmen Sie die folgenden Wahrscheinlichkeiten einer standardisierten
Normalverteilung, d.h. Z ∼ N (0, 1).
a. Ein-σ-Bereich: P (−1 ≤ Z ≤ 1)
b. Zwei-σ-Bereich: P (−2 ≤ Z ≤ 2)
c. Drei-σ-Bereich: P (−3 ≤ Z ≤ 3)
d. P (Z ≤ 1)
e. P (|Z| ≥ 12 )
f. P (−3 ≤ Z ≤ 1)
Aufgabe 7.2.2. Beweisen Sie, dass die standardisierte Normalverteilung den Erwartungswert
µ = 0 und die Varianz σ 2 = 1 besitzt.
70
Kapitel 7. Stetige Zufallsgrössen und Verteilungen
Lösungen
Lösung 7.2.1.
a. P (−1 ≤ Z ≤ 1) = 0.6827
b. P (−2 ≤ Z ≤ 2) = 0.9545
c. P (−3 ≤ Z ≤ 3) = 0.9973
d. P (Z ≤ 1) = 0.8413
e. P (|Z| ≥ 12 ) = 0.6171
f. P (−3 ≤ Z ≤ 1) = 0.8400
Lösung 7.2.2. Benutzen Sie das bestimmte Integral
7.2.2
R∞
0
2
e−u du =
√
π
2 .
Die Normalverteilung mit den Parametern µ und σ 2
Die stetige Zufallsgrösse X, die alle reellen Werte zwischen −∞ und +∞ annehmen kann,
besitzt eine Normalverteilung mit den Parametern µ und σ 2 , wenn ihre Dichte durch
(x−µ)2
1
f (x) = ϕ(x, µ, σ 2 ) = √
e− 2σ2
2πσ 2
für − ∞ < x < ∞
gegeben ist. Symbolisch schreiben wir X ∼ N (µ, σ 2 ). Bei bekannten Werten µ und σ ist die
Gestalt der Dichtefunktion völlig bestimmt (siehe Abbildung 7.2.iii).
ϕ(x, µ, σ 2 )
σ
µ−σ
σ
µ
µ+σ
x
Abbildung 7.2.iii: Die Wahrscheinlichkeitsdichte ϕ(x, µ, σ 2 ) der Normalverteilung mit den
Parametern µ und σ 2
Tragen wir die Dichte ϕ in Abhängigkeit von x in ein kartesisches Koordinatensystem ein,
so ergibt sich die bekannte Gestalt der Gaussschen Glockenkurve. Das Maximum von ϕ
liegt bei x = µ und beträgt √ 1 2 . Die Dichte ist symmetrisch bezüglich x = µ und nähert
2πσ
sich für x → ±∞ asymptotisch der x-Achse. Die Wendepunkte liegen bei x = µ ± σ. Damit
ist die Glockenkurve um so höher und steiler, je kleiner σ ist.
Die Verteilungsfunktion erhalten wir durch Integration der Dichte
Z x
(x−µ)2
1
2
F (x) = Φ(x, µ, σ ) = √
e− 2σ2 dx.
2πσ 2 −∞
7.2. Die Normalverteilung
71
Für obiges Integral gibt es keine elementare Stammfunktion, dies ist aber kein Problem, da
für die Anwendungen stets Tafeln oder Computerprogramme (z.B. Excel) verwendet werden
können.
Bemerkung 7.2.2. Natürlich gilt Φ(−∞, µ, σ 2 ) = 0 und Φ(+∞, µ, σ 2 ) = 1. Wieso?
Durch eine Massstabsänderung auf der Koordinatenachse und einer Nullpunktverschiebung
auf der x-Achse
x−µ
z=
σ
kann von der Normalverteilung mit den Parametern µ und σ 2 zur standardisierte Normalverteilung mit den Parametern µ = 0 und σ 2 = 1 übergegangen werden.
Der Erwartungswert und die Varianz oder Streuung der normalverteilten Zufallsgrösse
X beträgt
E(X) = µ und Var(X) = σ 2 .
Die Parameter der Normalverteilung lassen sich damit leicht deuten: µ ist der Erwartungswert
der Zufallsgrösse X und σ 2 die Varianz.
7.2.3
Transformation auf die standardisierte Normalverteilung
Zur konkreten Berechnung von Wahrscheinlichkeiten bei der Normalverteilung mit den Parametern µ und σ 2 benutzen wir einen Computer oder die Tafel T.1 für die standardisierte
Normalverteilung, nachdem wir die Grenzen des interessierenden Intervalls transformiert
haben. Der ganze Rechnungsablauf stellt nichts anderes dar, als eine Substitution eines Integrals. Es gilt nämlich mit der Substitution
z=
x−µ
σ
die Beziehung (siehe Abbildung 7.2.iv)
Z x2
(x−µ)2
1
P (x1 ≤ X ≤ x2 ) = √
e− 2σ2 dx = Φ(x2 , µ, σ 2 ) − Φ(x1 , µ, σ 2 )
2πσ 2 x1
Z x2 −µ
σ
z2
1
=√
e− 2 dz = Φ x2σ−µ , 0, 1 − Φ x1σ−µ , 0, 1
2π x1σ−µ
und im Falle von unbeschränkten Intervallen (siehe Abbildungen 7.2.v und 7.2.vi)
P (X ≤ x2 ) = Φ(x2 , µ, σ 2 ) = Φ x2σ−µ , 0, 1 ,
P (x1 ≤ X) = 1 − P (X < x1 ) = 1 − Φ(x1 , µ, σ 2 ) = 1 − Φ x1σ−µ , 0, 1 .
Die letzte Beziehung folgt direkt aus der Symmetrie der Normalverteilung bezüglich x = µ
und der Normierung des gesamten Flächeninhalts unter der Glockenkurve auf Eins. Die explizite Berechnung der gesuchten Wahrscheinlichkeiten wird also so durchgeführt, dass aus den
Grenzen x1 und x2 (diese können x1 = −∞ und/oder x2 = ∞ betragen) die entsprechenden
z1 =
x1 − µ
σ
und
z2 =
x2 − µ
σ
berechnet werden und dann mit Hilfe von Tafel T.1 wie in Kapitel 7.2.1 vorgegangen wird.
72
Kapitel 7. Stetige Zufallsgrössen und Verteilungen
ϕ(x, µ, σ 2 )
P (x1 ≤ X ≤ x2 )
x1
x2
x
Abbildung 7.2.iv: Die Wahrscheinlichkeit P (x1 ≤ X ≤ x2 ) = Φ(x2 , µ, σ 2 ) − Φ(x1 , µ, σ 2 )
ϕ(x, µ, σ 2 )
ϕ(x, µ, σ 2 )
P (X ≤ x2 )
P (x1 ≤ X)
x2
x
x1
Abbildung 7.2.v: Die Wahrscheinlichkeit
P (X ≤ x2 ) = Φ(x2 , µ, σ 2 ).
x
Abbildung 7.2.vi: Die Wahrscheinlichkeit
P (x1 ≤ X) = 1 − Φ(x1 , µ, σ 2 )
Beispiel 7.2.2. Es sei X ∼ N (2, 4) eine normalverteilte Zufallsgrösse mit den Parametern
µ = 2 und σ 2 = 4. Wir berechnen die Wahrscheinlichkeit
Z 2.45
(x−2)2
1
P (1 ≤ X ≤ 2.45) = √
e− 2·4 dx.
2π · 4 1
Also folgt mit der Transformation
z1 =
1−2
= −0.5
2
und
z2 =
2.45 − 2
= 0.225,
2
dass
P (1 ≤ X ≤ 2.45) = P (−0.5 ≤ Z ≤ 0.225) = Φ(0.225, 0, 1) − Φ(−0.5, 0, 1).
In der Tafel T.1 finden wir Φ(−0.5, 0, 1) = 1−Φ(0.5, 0, 1) = 0.3085 und Φ(0.225, 0, 1) = 0.5890.
Also folgt durch Subtraktion die gesuchte Wahrscheinlichkeit
P (1 ≤ X ≤ 2.45) = 0.5890 − 0.3085 = 0.2805.
7.2.4
Quantile der standardisierten Normalverteilung
Wichtig im Hinblick auf statistische Hypothesentests ist die umgekehrte Frage nach den
Schranken, bis zu denen die von der Zufallsgrösse angenommenen Werte mit einer vorgegebenen Wahrscheinlichkeit liegen müssen.
7.2. Die Normalverteilung
73
Es sei q ∈ ]0, 1[ und Z ∼ N (0, 1) standardnormalverteilt. Dann suchen wir zq ∈ R so, dass
P (Z ≤ zq ) = q
gilt (siehe Abbildung 7.2.vii). Wegen der Symmetrie der Dichte der standardisierten Normalverteilung befindet sich eine gleich grosse Fläche links von zq wie rechts von z1−q , so dass
z1−q = −zq
gilt. Wir nennen zq das q-Quantil oder q-Perzentil der standardisierten Normalverteilung.
ϕ(z, 0, 1)
q
0
1−q
zq
z
Abbildung 7.2.vii: Das q-Quantil zq der standardisierten Normalverteilung N (0, 1). Es gilt
z1−q = −zq .
Je nach Problemstellung betrachten wir dabei
1. einseitige Quantile: Bis zu welchem Wert zα sind alle Werte mit Wahrscheinlichkeit
α zu erwarten? Hier wird nach dem Argument zα gefragt, für das die Fläche unter der
Dichtekurve von −∞ bis zα gerade gleich α wird, d.h.
P (Z ≤ zα ) = α
(siehe Abbildung 7.2.viii).
h
i
2. zweiseitige Quantile: Innerhalb von welchem Intervall z α2 , z1− α2 sind alle Werte mit
Wahrscheinlichkeit 1 − α zu erwarten, d.h.
P Z ≤ z α2 und z1− α2 ≤ Z = 1 − α
(siehe Abbildung 7.2.ix).
Einige häufig benutzte Quantile finden sich in Tafel T.2. Diese lassen sich auch mit einem
Computerprogramm leicht berechnen, z.B. in Excel mit dem Befehl NORMINV.
7.2.5
Anwendung der Normalverteilung in der Fehlerrechnung
Die Normalverteilung wurde von Carl Friedrich Gauss (siehe Abbildung 7.2.x) im Jahre 1809
im Zusammenhang mit seiner Theorie der Beobachtungsfehler entdeckt. Sie wird daher auch
Fehlerkurve genannt. Führen wir in der Praxis wiederholt Messungen an ein und demselben
Gegenstand, etwa der Länge eines Stabes oder Durchmessers einer Welle durch, so ergibt
bekanntlich nicht jede Messung den gleichen Wert. Die erhaltenen Werte weisen kleinere oder
74
Kapitel 7. Stetige Zufallsgrössen und Verteilungen
ϕ(z, 0, 1)
ϕ(z, 0, 1)
1−α
1−α
α
2
α
zα
0
z
Abbildung 7.2.viii: Einseitiges Quantil zα
der Standardnormalverteilung
z α2
α
2
0
z1− α2
z
Abbildung 7.2.ix: Zweiseitige Quantile z α2
und z1− α2 der Standardnormalverteilung
Abbildung 7.2.x: Carl Friedrich Gauss, 1777-1855
grössere Abweichungen voneinander und von einem bestimmten “wahren” Wert, dem Mittelwert, auf. Diese Abweichungen oder Beobachtungsfehler haben verschiedene Ursachen, wie
zum Beispiel Schwankungen der Raumtemperatur, Einflüsse der Umgebung auf das Messgerät, Ungenauigkeiten der Messskala, Wechsel im Prüfpersonal usw. Nach ihrer Herkunft
unterscheiden wir zwischen systematischen und zufälligen Fehlern. Die groben Fehler (z.B.
Ablesefehler oder defekte Instrumente) schliessen wir von vornherein aus, da sie im Prinzip
vermeidbar sind.
1. Systematische Fehler: Systematische Fehler sind oft nicht vermeidbar. Zu ihnen
gehören Nullpunktsverschiebungen oder Skalenfehler. Die Ursache kann bei Mängeln
an den Instrumenten liegen. Systematische Fehler können meistens beseitigt werden.
2. Zufällige Fehler: Sie ergeben sich aus dem Zusammenwirken zahlreicher Fehlerursachen, die vom Beobachter nicht erfasst oder beseitigt werden können. Zufällige Fehler
sind unvermeidbar. Sie entstehen zum Beispiel aus Mängeln des Beobachters, Witterungseinflüssen, Erschütterungen, Ablagerung von Staub usw. Solche Einflüsse ergeben
Zufälligkeiten. Solche zufällige Fehler, Zufallsgrössen, verursachen bei Messungen Abweichungen nach beiden Seiten vom wahren Wert. Sprechweise: Die Messwerte streuen.
Mit Hilfe der Theorie der Grenzwertsätze können Verteilungen für diese zufälligen Fehler
gefunden werden. In den meisten Fällen, wo durch additive Überlagerung einer grossen Anzahl
voneinander unabhängiger, zufälliger Effekte entstehen, wobei jeder dieser Effekte nur einen
unbedeutenden Einfluss auf den zufälligen Gesamtfehler hat, ergibt sich als Grenzverteilung
7.2. Die Normalverteilung
75
die Normalverteilung. Diesem Sachverhalt liegt der Zentrale Grenzwertsatz zu Grunde,
der aussagt, dass unter bestimmten Bedingungen jede Summe (unabhängiger) Zufallsgrössen
näherungsweise normalverteilt ist. Aus diesem Grund können in den meisten praktischen
Anwendungsfälle die Beobachtungsfehler bei Messvorgängen wenigstens näherungsweise als
normalverteilt angesehen werden.
Aufgaben
Aufgabe 7.2.3. Berechnen Sie
a. die Wahrscheinlichkeit P (−4 ≤ X ≤ 8) wenn X ∼ N (2, 4);
b. die Wahrscheinlichkeit P (2 ≤ X) wenn X ∼ N (1, 9);
c. die Wahrscheinlichkeit P (|X| ≤ 1) wenn X ∼ N (−1, 16).
Aufgabe 7.2.4. Ein Werkstück besitze die gewünschte Qualität, wenn die Abweichung seiner Masse von den Nennwerten dem Absolutbetrag nach 3.45 mm nicht überschreiten. Die
zufällige Abweichungen der Abmessungen von ihren Nennwerten seien normalverteilt mit der
Standardabweichung σ = 3 mm. Systematische Abweichungen liegen nicht vor. Bestimmen
Sie die mittlere Anzahl Werkstücke mit der gewünschten Qualität, wenn 24 Werkstücke hergestellt werden.
Aufgabe 7.2.5. Eine Maschine stellt Metallplatten mit der mittleren Dicke µ = 8.00 mm
und der Standardabweichung σ = 0.05 mm her. Für die leicht schwankende Plattendicke gelte
die Normalverteilung.
a. Mit wie viel Prozent Ausschuss ist zu rechnen, wenn die Dicke nicht über 8.10 mm liegen
soll?
b. Mit wie viel Prozent Ausschuss ist zu rechnen, wenn die Dicke zwischen 7.92 mm und
8.08 mm liegen soll?
c. Welche Abweichung von 8.00 mm ist noch erlaubt bei höchstens 5% Ausschuss?
Aufgabe 7.2.6. Eine Maschine stellt Metallplatten mit der mittleren Dicke µ = 8.00 mm
und der Standardabweichung σ = 0.05 mm her. Für die leicht schwankende Plattendicke gelte
die Normalverteilung.
a. Welche beidseitige Abweichung ∆x vom Mittelwert µ = 8.00 mm müsste zugelassen
werden, damit der Ausschuss nicht mehr als 4% beträgt?
b. Wie viel Prozent Ausschuss sind zu erwarten, wenn die Platten nicht dünner als 7.95 mm
und nicht dicker als 8.12 mm sein sollen?
Aufgabe 7.2.7. In einer Ebene liegen im Abstand L = 10 cm zwei parallele Geraden g1
und g2 , dabei ist g2 die y-Achse. Auf diese Ebene werfen wir Kreisscheiben mit dem Radius
R = 8 cm. Die Lage der Kreismittelpunkte kann, wenn wir von der y-Richtung absehen, als
normalverteilt in x-Richtung gelten, wobei das Streuzentrum auf der Geraden h liegt und
die Standardabweichung σ = 10 cm beträgt. Der Abstand der beiden Geraden h und g2 sei
b = 5 cm. Die Anordnung der Geraden sei von links nach rechts, zuerst g1 , dann g2 und h.
Bestimmen Sie die Wahrscheinlichkeit, dass bei einem Wurf der Kreis
76
Kapitel 7. Stetige Zufallsgrössen und Verteilungen
a. mindestens eine der Geraden g1 und g2 teilweise überdeckt.
b. beide Geraden teilweise überdeckt.
Aufgabe 7.2.8. Eine Abfüllmaschine füllt ein Erzeugnis in Dosen. Das Nettogewicht einer Dose ist eine normalverteilte Zufallsgrösse. Die Standardabweichung, als Mass für die
Präzision mit der die Maschine arbeitet, sei 8 g. Auf welchen Mittelwert ist die Maschine
einzustellen, wenn höchstens 5% aller Dosen weniger als 250 g enthalten sollen?
Aufgabe 7.2.9. Bei der Herstellung von Kondensatoren sei die Kapazität eine normalverteilte Zufallsgrösse mit µ = 5 µF und σ = 0.02 µF. Welcher Ausschussanteil ist zu erwarten,
wenn die Kapazität
a. mindestens 4.98 µF betragen soll?
b. höchstens 5.05 µF betragen soll?
c. um maximal 0.03 µF vom Sollwert µ = 5 µF abweichen darf?
Aufgabe 7.2.10. Der Durchmesser X von serienmässig gefertigten Kugeln sei normalverteilt.
Von zwei Sieben weist das eine Löcher mit einem Durchmesser von 10 mm auf, das andere
solche mit einem Durchmesser von 13 mm. Damit werden die Wahrscheinlichkeiten
P (X ≤ 10 mm) = 0.1736
und
P (X ≥ 13 mm) = 0.1446
bestimmt. Wie lauten die Parameter µ und σ der Verteilung von X?
Aufgabe 7.2.11. Es sei X ∼ N (µ, σ 2 )-verteilt mit µ = 8 und σ = 3. Bestimmen Sie x so,
dass P (x ≤ X ≤ 10) = 0.7 ist.
Lösungen
Lösung 7.2.3.
a. P (−4 ≤ X ≤ 8) = 0.9973
b. P (2 ≤ X) = 0.3694
c. P (|X| ≤ 1) = 0.1915
Lösung 7.2.4. n = 18 Stück
Lösung 7.2.5.
a. P (8.10 mm ≤ X) = 2.3%
b. P (X ≤ 7.92 mm und 8.08 mm ≤ X) = 11.0%
c. ±0.098 mm
Lösung 7.2.6.
a. ∆x = ±0.1027 mm
7.3. Normalverteilung als Grenzfall der Binomialverteilung
77
b. P (X ≤ 7.95 mm und 8.12 mm ≤ X) = 16.7%
Lösung 7.2.7.
a. P (−18 cm ≤ X ≤ 8 cm) = 0.6072
b. P (−8 cm ≤ X ≤ −2 cm) = 0.1452
Lösung 7.2.8. µ = 263.2 g
Lösung 7.2.9.
a. 1 − P (4.98 µF ≤ X) = 15.9%
b. 1 − P (X ≤ 5.05 µF) = 0.6%
c. P (|X − 5.00 µF| ≥ 0.03 µF) = 13.4%
Lösung 7.2.10. Beachten Sie, dass der Durchmesser zwischen 10 mm und 13 mm liegen muss.
Dann folgt µ = 11.41 mm und σ = 1.5 mm.
Lösung 7.2.11. x = 2.9915
7.3
Normalverteilung als Grenzfall der Binomialverteilung
Die Binomialverteilung kann gemäss Kapitel 6.3.1 für kleine Erfolgswahrscheinlichkeiten p und
grosse Versuchsanzahl n durch die Poissonverteilung angenähert werden. Ist p nicht klein, so
können wir eine andere Näherung benützen: die Normalverteilung.
Es handelt sich dabei um einen Spezialfall des Zentralen Grenzwertsatzes, dem so genannten Grenzwertsatz von de Moivre und Laplace. Dieser besagt, dass eine binomialverteilte Zufallsgrösse X mit Erwartungswert E(X) = np und Varianz Var(X) = np(1 − p),
näherungsweise normalverteilt mit den Parametern
µ = np
und
σ 2 = np(1 − p)
ist. Danach können wir für eine binomialverteilte Zufallsgrösse X für grosses n die Näherungsformel
!
!
x2 − np
x1 − np
P (x1 ≤ X ≤ x2 ) ≈ Φ p
, 0, 1 − Φ p
, 0, 1
(7.3.a)
np(1 − p)
np(1 − p)
verwenden. In der Literatur wird diese Näherung als Faustregel für
9
n>
p(1 − p)
empfohlen2 .
Dieser Grenzübergang bedeutet geometrisch, dass sich dass Histogramm der Binomialverteilung immer mehr der Normalverteilung annähert (siehe Abbildungen 7.3.i und 7.3.ii). Der
Beweis dieser Aussage finden Sie in jedem anständigen Lehrbuch über mathematische Statistik, zum Beispiel in [1].
2
Wenn die Faustregel nicht erfüllt ist, dann können wir mit einer so genannten Stetigkeitskorrektur
arbeiten, d.h.
!
!
x2 + 12 − np
x1 − 12 − np
P (x1 ≤ X ≤ x2 ) ≈ Φ p
, 0, 1 − Φ p
, 0, 1
np(1 − p)
np(1 − p)
Die Korrekturen ± 21 in den Transformationsformeln müssen vor allem bei kleinen Werten von σ 2 = np(1 − p)
verwendet werden. Sie stammen aus der Annäherung des Flächeninhalts durch Rechtecke.
78
Kapitel 7. Stetige Zufallsgrössen und Verteilungen
P (X = x)
P (X = x)
0.15
0.15
0.10
0.10
0.05
0.05
5
10
15
20
25
30
35
40
45
50
x
Abbildung 7.3.i: Histogramm der Binomialverteilung bei p = q = 0.5 und n =
50 und die Approximation mit der Normalverteilung mit den Parametern µ =
25 und σ = 3.536. Die Faustregel n >
9
p(1−p) = 36 ist erfüllt.
5
10
15
20
25
30
35
40
45
50
x
Abbildung 7.3.ii: Histogramm der Binomialverteilung bei p = 0.75, q = 0.25
und n = 50 und die Approximation mit
der Normalverteilung mit den Parametern
µ = 37.5 und σ = 3.062. Die Faustregel
9
= 48 ist erfüllt.
n > p(1−p)
Beispiel 7.3.1 (Galtonsches Brett). Mit Hilfe eines Zufallsapparates von Francis Galton
(siehe Abbildung 7.3.iii), des so genannten Galtonschen Brettes, können wir die Normalverteilung experimentell erzeugen.
Wir lassen kleine Kugeln durch ein System von Nägeln, die gemäss der Abbildung 7.3.iv angeordnet sind, hindurch rollen und in n + 1 Fächer, die nach der n-ten Nagelreihe angebracht
sind, fallen.
Abbildung 7.3.iii: Francis Galton, 18221911
Abbildung 7.3.iv: Galtonsches Brett, Bild
aus [6]
Wir erhalten stets eine Verteilung der Kugeln auf die Fächer, die sich durch eine Glockenkurve darstellen lässt. Wieso? Wir verfolgen eine Kugel auf ihrem Weg. Sie möge nach anstossen
an einem Nagel der ersten Reihe den Weg links wählen, nach dem Anstossen an einem Nagel
der zweiten Reihe nochmals links, dann rechts, links, usw. Das Fach, das sie zuunterst erreichen wird, ist nun offenbar durch diese Aufeinanderfolge von links und rechts, total n Mal,
bestimmt. Diesen Vorgang können wir auch so charakterisieren: Wenn die Kugel den Weg
links einschlägt, notieren wir 0, wenn sie den Weg rechts einschlägt, notieren wir 1. Dann ist
7.3. Normalverteilung als Grenzfall der Binomialverteilung
79
ihr Fach durch 0 + 0 + 1 + 0 + · · · , also durch eine Summe von n zufälligen Grössen, die alle
nur die Werte Null oder Eins - jedes Mal mit der Wahrscheinlichkeit 12 - annehmen können.
Diese Summen, und damit die Kugeln in den Fächern, sind nach dem Grenzwertsatz von de
Moivre und Laplace normalverteilt (siehe Abbildung 7.3.iv).
Aufgaben
Aufgabe 7.3.1. Eine Fabrik produziert Präzisonswerkstücke, die mit einer Wahrscheinlichkeit p = 0.001 defekt sind. Wie gross ist die Wahrscheinlichkeit, dass eine Lieferung von
n = 500 Werkstücken mindestens 2 unbrauchbare Werkstücke enthält.
a. Rechnen Sie genau mit einer Binomialverteilung.
b. Approximieren Sie mit einer Poissonverteilung.
c. Approximieren Sie mit einer Normalverteilung.
Aufgabe 7.3.2. In einem Land werden stündlich im Mittel 25 Kinder geboren. Wie gross ist
die Wahrscheinlichkeit, dass die Zahl unter 20 sinkt.
Lösungen
Lösung 7.3.1.
a. PBinom (2 ≤ X) = 0.09013
b. PPoisson (2 ≤ X) ≈ 0.09020
9
c. Da 500 > p(1−p)
= 9009 nicht erfüllt ist, müssen wir die Stetigkeitskorrektur benutzen
und erhalten PNorm (2 ≤ X) ≈ 0.07855. (Im Gegensatz dazu würden wir das unbrauchbare Resultat PNorm (2 ≤ X) ≈ 0.016903 ohne Stetigkeitskorrektur erhalten.)
Lösung 7.3.2. Die Anzahl der stündlichen Geburten besitzt Poissonverteilung mit µ = 25
und σ = 5. Es folgt PPoisson (X ≤ 19) = 0.1336.
Wegen dem relativ grossen Erwartungswert kann die Normalverteilung als Näherung verwendet werden. Es folgt PNorm (X ≤ 19) ≈ 0.1357 (mit Stetigkeitskorrektur).
80
Kapitel 7. Stetige Zufallsgrössen und Verteilungen
Kapitel 8
Statistische Tests
Statistische Tests dienen dazu, an Hand von Stichproben Annahmen (sog. Hypothesen1 )
über das Verteilungsgesetz in der Grundgesamtheit zu überprüfen. Oft existiert über die
unbekannte Verteilungsfunktion F oder ihre unbekannten Parameter, wie zum Beispiel µ und
σ 2 bei der Normalverteilung oder p bei der Binomialverteilung, eine bestimmte Vorstellung.
Diese wird in Gestalt einer Nullhypothese, die mit H0 bezeichnet wird, ausgedrückt. Wird
auch eine die Nullhypothese ausschliessende Alternative betrachtet, so bezeichnen wir diese
Alternativhypothese mit H1 . Das Anliegen eines statistischen Tests zur Prüfung von H0
gegen H1 ist es, eine Entscheidung darüber zu treffen, ob die aus einer konkreten Stichprobe
entnommenen Angaben zur aufgestellten Hypothese H0 im Widerspruch stehen oder nicht,
d.h., ob H0 abzulehnen ist oder nicht.
8.1
Das Prinzip des statistischen Tests
Wir beginnen mit einem ausführlichen Einführungsbeispiel, bei dem wir den Parameter p der
Binomialverteilung einem statistischen Test unterziehen.
Beispiel 8.1.1. Bei 12000 Würfen eines Würfels wurden x = 2107 Sechsen gezählt. Ist dieser
Würfel unsymmetrisch, d.h. werden Sechsen bevorzugt gewürfelt?
Uns scheint die Anzahl Sechsen ein bisschen zu gross. Da es aber in den modernen Natur- und
Ingenieurwissenschaften nicht erlaubt ist, aus dem Bauch Gefühle zu äussern, benötigen wir
einen rigorosen statistischen Test, um unseren Eindruck wissenschaftlich zu belegen. Dazu
bezeichnen wir mit X die Zufallsgrösse der Anzahl “Sechsen” unter n = 12000 Würfen,
und mit p die Wahrscheinlichkeit mit dem betrachteten Würfel eine “Sechs” zu würfeln.
Anschliessend formulieren wir zwei sich ausschliessende Hypothesen:
Nullhypothese
H0 : p = 16 , d.h., der Würfel ist symmetrisch.
Alternativhypothese H1 : p > 16 , d.h., es werden Sechsen bevorzugt gewürfelt.
Beachten Sie, dass sich die Hypothesen gegenseitig ausschliessen und sich nur auf die Ereignisse “Sechs” oder “nicht Sechs” beziehen. Wie die anderen Augenzahlen ausfallen ist nicht
von Belang.
Unter der Voraussetzung der Nullhypothese H0 berechnen wir nun den Erwartungswert
E(X) = np = 12000 ·
1
1
6
= 2000.
Hypothese enthält die Wörter hypo-thesis = das Unter-Gestellte.
81
82
Kapitel 8. Statistische Tests
In unserem Experiment stellen wir eine Abweichung vom Erwartungswert
x − E(X) = 2107 − 2000 = 107
fest. Nun bestimmen wir die Wahrscheinlichkeit P (2107 ≤ X) einer so grossen oder grösseren
Abweichung vom Erwartungswert. Dazu benutzen wir den Grenzwertsatz von de Moivre
und Laplace (vgl. Gleichung (7.3.a)), d.h., wir approximieren2 die Binomialverteilung mit
einer Normalverteilung mit den Parametern
µ = np = 12000 ·
1
6
= 2000
und
σ 2 = np(1 − p) = 12000 ·
1
6
·
5
6
= 1666 23 .
Wir erhalten nun mit Tafel T.1


2107 − 2000
P (2107 ≤ X) ≈ 1 − Φ  q
, 0, 1 = 1 − Φ (2.621, 0, 1)
2
1666 3
= 1 − 0.9956 = 0.0044.
Die Wahrscheinlichkeit unter der Voraussetzung der Nullhypothese mindestens so viel Abweichung vom Erwartungswert zu erhalten, ist somit ausserordentlich klein. Dies erlaubt uns,
die Nullhypothese abzulehnen. Die Irrtumswahrscheinlichkeit dieses Schlusses entspricht
dem berechneten Wert P (2107 ≤ X) ≈ 0.0044.
Im Allgemeinen müssen wir uns entscheiden, wann eine berechnete Abweichung zur Ablehnung der Nullhypothese führen soll. Dazu wird eine Schranke α ∈ ]0, 1[, das so genannte Signifikanzniveau, gewählt. Ist die berechnete Wahrscheinlichkeit der Abweichung kleiner als
das Signifikanzniveau, so wird die Nullhypothese abgelehnt, sonst angenommen. Die zulässige
Grösse des Signifikanzniveaus α hängt stark vom Fachgebiet ab und ist eine Vereinbarungssache. Häufig verwendete Niveaus sind α = 0.01, 0.05 und 0.1.
Das Prinzip eines statistischen Tests oder Signifikanztest lässt sich in folgenden Schritten
zusammenfassen:
1. Aufstellen der Nullhypothese H0 und der Alternativhypothese H1 und Vorgabe
des Signifikanzniveaus α.
2. Bestimmen eines Ablehnungsbereichs in Abhängigkeit von α, für den die Wahrscheinlichkeit, dass die Stichprobenfunktion Werte aus dem Ablehnungsbereich annimmt,
höchstens gleich α ist.
3. Berechnung der Testgrösse aus der vorliegenden konkreten Stichprobe.
4. Statistischer Schluss: Liegt die Testgrösse im Ablehnungsbereichs, so wird H0 abgelehnt, sonst wird H0 angenommen.
2
Die Approximation ist erlaubt, da die Faustregel np(1 − p) = 1666 23 > 9 erfüllt ist.
8.2. Einseitiger und zweiseitiger Test
8.2
83
Einseitiger und zweiseitiger Test
In Beispiel 8.1.1 haben wir uns für die Abweichung vom Erwartungswert (nach einer Seite)
interessiert. Im Gegensatz dazu können wir auch Abweichungen nach beiden Seiten Beachtung schenken. In allen Fällen gehen wir von der Nullhypothese H0 : µ = µ0 aus. Für die
Alternativhypothese H1 bieten sich nun die nachfolgenden Möglichkeiten an, die je nach Aufgabenstellung angewandt werden müssen.
1. Zweiseitiger Test H1 : µ 6= µ0 . Zur Konstruktion des Ablehnungsbereiches wird der
Flächeninhalt α symmetrisch auf beiden Seiten der Kurve aufgeteilt, und es ergibt sich
einen zweiseitigen Ablehnungsbereich mit den beiden kritischen Grössen z α2 und z1− α2 .
Die Abweichung zwischen dem Stichprobenparameter und dem hypothetischen Wert µ0
1−α
α
2
α
2
µ0
z α2
Ablehnungsbereich
z1− α2
Annahmebereich
z
Ablehnungsbereich
Abbildung 8.2.i: H1 : µ 6= µ0 , zweiseitige
Fragestellung mit den kritischen Grössen
z α2 und z1− α2 .
wird nur dem Absolutbetrag nach beurteilt.
2. Einseitiger Test H1 : µ > µ0 (resp. H1 : µ < µ0 ). Zur Konstruktion des Ablehnungsbereiches wird der Flächeninhalt α nur auf einer Seite der Kurve abgeschnitten, und
es ergibt sich einen einseitigen Ablehnungsbereich mit der kritischen Grösse zα (resp.
z1−α ). Die damit verbundene einseitige Fragestellung liegt dann vor, wenn nur Abwei-
1−α
1−α
α
α
zα
Ablehnungsbereich
µ0
µ0
z
Annahmebereich
Abbildung 8.2.ii: H1 : µ < µ0 , einseitige untere Fragestellung mit der kritischen
Grösse zα .
Annahmebereich
z1−α
z
Ablehnungsbereich
Abbildung 8.2.iii: H1 : µ > µ0 , einseitige obere Fragestellung mit der kritischen
Grösse z1−α .
84
Kapitel 8. Statistische Tests
chungen nach einer Seite interessieren, d.h., wenn es zum Beispiel darauf ankommt zu
beurteilen, ob ein Stichprobenparameter nicht zu gross ist, während einem zu kleinen
Stichprobenparameter keine Bedeutung beigemessen wird. Hier müssen also grosse positive (resp. negative) Abweichungen zu einer Ablehnung der Nullhypothese führen.
Ob eine Hypothese mit einem zweiseitigen oder einseitigen Test zu prüfen ist, hängt vom
praktischen Problem ab und wird vor Testbeginn festgelegt. Sind keine Vorkenntnisse über
die Richtung der möglichen Abweichungen vorhanden, so wird ein zweiseitiger Test verwendet.
Ist von vornherein einer der Fälle µ > µ0 oder µ < µ0 ausgeschlossen, so wird ein einseitiger
Test zur Anwendung kommen.
Beispiel 8.2.1 (z-Test). Letztes Jahr waren 75% der SBB-Fahrgäste Inhaber von Halbtaxabonnementen. Bei einer kürzlich durchgeführten Fahrgastbefragung gaben 270 von 350 Befragten an, dass sie ein Halbtaxabonnement besitzen. Hat sich der Anteil der Besitzer von
Halbtaxabonnementen wesentlich verändert? Das Signifikanzniveau sei α = 10%.
Um diese Frage zu beantworten, führen wir einen statistischen Test nach obigem Prinzip
durch: Es sei p = 0.75 der relative Anteil von Halbtaxabonnementbesitzer im letzten Jahr.
Nun formulieren wir die Null- und Alternativhypothesen für einen statistischen Test:
H0 : p = 0.75, d.h., die Anzahl Halbtaxabonnementbesitzer ist gleich wie letztes Jahr.
H1 : p 6= 0.75, d.h., die Anzahl Halbtaxabonnementbesitzer hat sich verändert.
Es handelt sich hier um einen so genannten zweiseitigen Test, da hier die Alternativhypothese nur Werte p 6= 0.75 zulässt. Weiter beschreibe die Zufallsgrösse X die Anzahl der
Halbtaxabonnementbesitzer unter den n = 350 befragten Fahrgästen. Die Zufallsgrösse X
ist binomialverteilt. Wir berechnen den Erwartungswert und die Varianz unter Annahme der
Nullhypothese H0
E(X) = np = 262.5
und
Var(X) = np(1 − p) = 65.625.
Es stellt sich also die Frage, ob sich die Zahl der gezählten 270 Halbtaxabonnementbesitzer
signifikant vom Erwartungswert E(X) = 262.5 unterscheidet.
Weil np(1 − p) = 65.625 > 9 können wir die Binomialverteilung mit einer Normalverteilung
mit den Parametern µ = 262.5 und σ 2 = 65.625 approximieren (vgl. Grenzwertsatz von de
Moivre und Laplace, Gleichung (7.3.a)).
Durch eine Massstabsänderung auf der Koordinatenachse und einer Nullpunktverschiebung
auf der x-Achse
x−µ
z=
σ
kann von der Normalverteilung mit den Parametern µ und σ 2 zur standardisierte Normalverteilung mit den Parametern µ = 0 und σ 2 = 1 übergegangen werden.
Da es sich hier um einen zweiseitigen Test handelt, verteilen wir α = 0.10 = 0.05 + 0.05
gleichmässig auf beiden Seiten der Standardnormalverteilung (vgl. Abbildung 8.2.iv). Aus
der Beziehung
P (Z ≤ z0.05 ) = Φ (z0.05 , 0, 1) = 0.05
bestimmen wir mit Tafel T.2 oder einem Computerprogramm (z.B. Excel) die untere kritische
Grösse z0.05 = −1.645, d.h. das 0.05-Quantil z0.05 der Standardnormalverteilung; und aus der
Beziehung
P (z0.95 ≤ Z) = 1 − Φ (z0.95 , 0, 1) = 0.05
8.3. Mögliche Fehler bei statistischen Tests
85
0.90
0.05
z0.05
Ablehnungsbereich
0.05
0
z
Annahmebereich
z0.95
z
Ablehnungsbereich
Abbildung 8.2.iv: Bestimmung des 0.05-Quantils z0.05 = −1.645 und des 0.95-Quantils z0.95 =
1.645 bei der Standardnormalverteilung bei einer zweiseitigen Fragestellung. Die Testgrösse
z = 0.926 liegt im Annahmebereich, damit wird die Nullhypothese angenommen.
bestimmen wir die obere kritische Grösse z0.95 = 1.645, d.h. das 0.95-Quantil z0.95 der Standardnormalverteilung. Da die Standardnormalverteilung symmetrisch bezüglich µ = 0 ist,
folgt z0.95 = −z0.05 .
Die Berechnung der Testgrösse aus den vorliegenden Angaben ergibt
z=
270 − µ
270 − 262.5
= √
= 0.926.
σ
65.625
Es gilt nun z0.05 = −1.645 < z = 0.926 < z0.95 = 1.645, d.h., die Testgrösse z liegt im
Annahmebereich und somit lautet der statistische Schluss:
Wir nehmen die Nullhypothese auf dem Niveau 10% an. Der Anteil der Besitzer von Halbtaxabonnementen hat sich nicht signifikant verändert.
Hierbei handelt es sich um einen so genannten z-Test.
8.3
Mögliche Fehler bei statistischen Tests
Am Ende eines statistischen Tests fällen wir immer einen statistischen Schluss, der dabei
zugunsten der Nullhypothese H0 oder der Alternativhypothese H1 ausfällt. In beiden Fällen
werden gewisse Rückschlüsse von einer Stichprobe auf die entsprechende Grundgesamtheit gezogen. Dabei müssen wir unbedingt bedenken, dass es absolut sichere Schlüsse grundsätzlich
nicht gibt. Bei einer Testentscheidung besteht immer eine bestimmte Wahrscheinlichkeit dafür,
dass die getroffene Entscheidung falsch ist. Dabei werden zwei Arten von Fehlern unterschieden:
Definition 8.3.1.
a. Ein Fehler 1. Art liegt vor, wenn eine richtige Nullhypothese H0 abgelehnt wird.
b. Ein Fehler 2. Art liegt vor, wenn eine falsche Nullhypothese H0 nicht abgelehnt wird.
Die Wahrscheinlichkeit für einen Fehler 1. Art entspricht der Irrtumswahrscheinlichkeit, für
welche wir das Signifikanzniveau α vorgegeben haben. Die Wahrscheinlichkeit für einen Fehler
2. Art wird mit β bezeichnet.
86
Kapitel 8. Statistische Tests
1−α
1−α
α
µ0
α
z1−α
z
µ0
z1−α
z
Ablehnungsbereich
Annahmebereich
Abbildung 8.3.ii: Es sei H0 richtig: Da
z ≥ z1−α wird die Nullhypothese abgelehnt. Dies ist die falsche Entscheidung
(Fehler 1. Art), welche mit einer Wahrscheinlichkeit von α getroffen wird.
β α
β α
z1−α
µ1
z
µ0
µ1
z1−α
z
z
z
Annahmebereich
1−β
1−α
1−β
1−α
Ablehnungsbereich
Annahmebereich
Abbildung 8.3.i: Es sei H0 richtig: Da
z < z1−α wird die Nullhypothese angenommen. Dies ist die richtige Entscheidung, welche mit einer Wahrscheinlichkeit
von 1 − α getroffen wird.
µ0
z
z
Ablehnungsbereich
Abbildung 8.3.iii: Es sei H0 falsch, H1
richtig, d.h., die gestrichelte Dichte ist die
richtige: Da z < z1−α wird die Nullhypothese angenommen. Dies ist die falsche
Entscheidung (Fehler 2. Art), welche
mit einer Wahrscheinlichkeit von β getroffen wird.
Annahmebereich
Ablehnungsbereich
Abbildung 8.3.iv: Es sei H0 falsch, H1
richtig, d.h., die gestrichelte Dichte ist die
richtige: Da z ≥ z1−α wird die Nullhypothese abgelehnt. Dies ist die richtige Entscheidung, welche mit einer Wahrscheinlichkeit (so genannte Trennschärfe) von
1 − β getroffen wird.
Wir erläutern nun die möglichen Fälle an Hand eines einseitigen Tests, bei dem die Nullhypothese H0 : µ = µ0 gegen die Alternativhypothese H1 : µ > µ0 getestet wird. Dabei bezeichnet
µ den zu testenden unbekannten Parameter der Verteilung.
Als Trennschärfe oder Macht eines Tests bezeichnen wir die Wahrscheinlichkeit 1−β mit der
die Nullhypothese abgelehnt wird, wenn sie tatsächlich nicht stimmt (vgl. Abbildung 8.3.iv).
Trennschärfe = P (Entscheidung H0 nicht anzunehmen | H1 sei richtig) = 1 − β
In der Praxis sind wir bestrebt, die Fehler 1. und 2. Art (d.h. gleichzeitig α und β) möglichst
klein zu halten. Dazu betrachten wir die Abbildungen 8.3.iv und 8.3.iii und stellen fest, dass
eine Verkleinerung von α (Verschiebung der kritischen Grösse z1−α nach rechts) automatisch
eine Vergrösserung von β nach sich zieht und umgekehrt. Entscheiden wir uns im konkreten
Fall für ein kleines α und damit für ein kleines Risiko eine an sich richtige Nullhypothese
8.3. Mögliche Fehler bei statistischen Tests
87
abzulehnen, dann nehmen wir gleichzeitig ein deutlich erhöhtes Risiko für einen Fehler 2. Art
in Kauf. Wir müssen also von Fall zu Fall entscheiden, welcher der beiden Fehler letztendlich
die grösseren Konsequenzen hat. Soll gleichwohl das Risiko für einen Fehler 2. Art, d.h. β, verringert werden, ohne gleichzeitig die Wahrscheinlichkeit α für einen Fehler 1. Art vergrössern
zu müssen, so bleibt uns nur die Vergrösserung des Stichprobenumfangs3 (Verbesserung der
Trennschärfe des Tests).
In Abbildung 8.3.iii sehen wir zusätzlich, dass die Wahrscheinlichkeit β einen Fehler 2. Art
zu begehen, wesentlich von der Alternativhypothese H1 , d.h. Lage von µ1 , abhängt. Diesen funktionalen Zusammenhang zwischen β und µ1 wird als Operationscharakteristik
bezeichnet.
Aufgaben
Formulieren Sie jeweils die Null- und Alternativhypothese und den problemorientierten statistischen Schluss in Worten.
Aufgabe 8.3.1. Wir würfeln mit einem Würfel. Bei 20 Würfen erhalten wir 9 Sechsen. Ist
der Würfel gezinkt, d.h., werden bevorzugt Sechsen gewürfelt? Das Signifikanzniveau ist 5%.
Aufgabe 8.3.2. In 10000 Würfen zeigte eine Münze 5150 mal Zahl. Mit welcher Wahrscheinlichkeit können wir behaupten, dass sie unsymmetrisch ist, d.h. bevorzugt Zahl geworfen wird?
Das Signifikanzniveau ist 5%.
Aufgabe 8.3.3. Bei einer Umfrage vor einer Wahl sagten 285 der 2000 befragten Personen,
sie würden nicht zur Wahl gehen. Nachdem in der Zwischenzeit ein medienintensiver Wahlkampf stattfand, betrug die tatsächliche Wahlbeteiligung 88.5%. Kann daraus mit 99%-iger
Sicherheit geschlossen werden, dass in der Zwischenzeit Personen, die ursprünglich nicht zur
Wahl gehen wollten, umgestimmt wurden?
Aufgabe 8.3.4. Unter 3000 in einer Klinik neugeborenen Kindern befanden sich 1578 Knaben. Testen Sie mit einer Irrtumswahrscheinlichkeit α = 0.01 die Hypothesen
H0 : P (Knabengeburt) = 0.5
H1 : P (Knabengeburt) 6= 0.5
Formulieren Sie den entsprechenden statistischen Schluss.
Aufgabe 8.3.5. Eine Multiple-Choice-Prüfung bestehe aus 100 Einzelfragen, wobei bei jeder
Frage in zufälliger Reihenfolge 4 Antworten angegeben sind, wovon genau eine richtig ist. Der
Prüfling darf jeweils nur eine Antwort ankreuzen. Wieviel richtig angekreuzte Antworten
müssen zum Bestehen der Prüfung mindestens verlangt werden, damit die Prüfung durch
(zufälliges Ankreuzen) höchstens mit Wahrscheinlichkeit
a. 0.05
b. 0.01
c. 0.001
d. 0.0001
bestanden werden kann?
3
Dabei werden die Verteilungen schlanker und somit α und β gleichzeitig kleiner.
88
Kapitel 8. Statistische Tests
Lösungen
Lösung 8.3.1. Eine Approximation mit der Normalverteilung ist wegen np(1−p) = 2.778 ≤ 9
nicht erlaubt. Wir berechnen mit der Binomialverteilung exakt die Irrtumswahrscheinlichkeit
P (9 ≤ X) = 1 − P (X ≤ 8) = 0.00284.
Lösung 8.3.2. Die Wahrscheinlichkeit einer so grossen oder grösseren Abweichung nach oben
ist P (5150 ≤ X) = 0.0013. Also ist die Münze unsymmetrisch.
Lösung 8.3.3. Es hätten höchsten x1−α = 264 Personen nicht zur Wahl gehen dürfen, damit
die Hypothese angenommen werden könnte.
Lösung 8.3.4. Der Annahmebereich ist ]1430, 1571[, also H0 ablehnen.
Lösung 8.3.5. Die Ablehnungsgrenzen sind:
a. n1−0.05 = 33
b. n1−0.01 = 36
c. n1−0.001 = 39
d. n1−0.0001 = 42
Kapitel 9
Prüfen von Erwartungswerten
(Parametertests)
9.1
Problemstellung der technischen Statistik
Die meisten Fragestellungen der angewandten Statistik führen auf den Vergleich von zwei oder
mehreren normalverteilten Grundgesamtheiten. Da eine Normalverteilung durch die beiden
Parameter µ und σ 2 vollständig definiert ist, bedeutet dies, dass wir herausfinden müssen, ob
die entsprechenden Parameter bei zwei normalverteilten Grundgesamtheiten übereinstimmen
oder nicht.
Beispiel 9.1.1. Gegeben seien zwei Maschinen des gleichen Typs. Beide produzieren Produkte von einer bestimmten gleichen Art. Produzieren sie Produkte aus der gleichen Grundgesamtheit oder nicht? Das heisst, arbeiten sie gleich genau, ist also die Varianz identisch
und sind sie auf den gleichen Sollwert eingestellt, d.h., ist der Erwartungswert der beiden
Grundgesamtheiten gleich?
Fragestellung der Statistik
• Gegeben: Zwei normalverteilte Grundgesamtheiten mit den Parametern µ1 , σ12 und
µ2 , σ22 .
• Frage: Sind die beiden Grundgesamtheiten identisch, d.h., gilt µ1 = µ2 und σ12 = σ22 ?
• Vorgehen der Statistik zur Beantwortung dieser Frage: Jeder Grundgesamtheit entnehmen wir je eine Stichprobe S1 und S2 , dann berechnen wir aus diesen Stichproben
die geschätzten Parameter x̄1 , s22 und s21 , x̄2 , vergleichen sie in einem statistischen Test
und schliessen die Grundgesamtheiten sind gleich oder nicht.
In einigen Fällen kann bereits vorausgesetzt werden, dass zum Beispiel µ1 = µ2 ist, so dass
ein Test auf σ12 = σ22 durchzuführen ist. Oder die Varianzen sind gleich, und die Gleichheit
der Erwartungswerte wird getestet. Je nach Problemstellung ist ein bestimmter Test durchzufüren.
In den bisherigen Betrachtungen in Kapitel 8 war zur Prüfung der Hypothese H0 : µ = µ0
für die Berechnung der Testgrösse die Kenntnis der Varianz σ 2 in der Grundgesamtheit erforderlich. Dazu sind umfangreiche Voruntersuchungen notwendig, oder wir ersetzen für einen
grossen Stichprobenumfang σ 2 durch die geschätzte Stichprobenvarianz s2 . Welche Testgrösse
89
90
Kapitel 9. Prüfen von Erwartungswerten (Parametertests)
können wir nun bei kleinen Stichprobenumfängen zur Prüfung der Hypothese H0 : µ = µ0
heranziehen, wenn σ 2 nicht als Erfahrungswert vorliegt?
Beim Prüfen von Erwartungswerten gibt es mehrere verschieden Problemstellungen. Diese
wollen wir nun untersuchen.
9.2
Einstichproben-t-Test, Student-t-Test
Beim Einstichproben-t-Test oder Student-t-Test ist der Erwartungswert µ der Grundgesamtheit G bekannt und es sind folgende Voraussetzungen zu beachten:
1. Die normalverteilte Grundgesamtheit G hat den bekannten Erwartungswert µ und die
unbekannte Varianz σ 2 .
2. Es sind zufällig N Stichprobenwerte x1 , . . . , xN aus einer normalverteilten Grundgesamtheit gewählt.
Wir wollen nun wissen, ob die gewählte Stichprobe der N Werte x1 , . . . , xN aus der Grundgesamtheit G mit dem Erwartungswert µ stammt. Dazu berechnen wir den geschätzten
Mittelwert
N
1 X
x̄ =
xi
N
i=1
und vergleichen ihn mit dem bekannten Erwartungswert µ der Grundgesamtheit G, indem
wir folgende alternativen Hypothese aufstellen.
H0 : µ = x̄, d.h., Stichprobe stammt aus der Grundgesamtheit G mit Erwartungswert µ.
H1 : µ 6= x̄, d.h., Stichprobe stammt aus einer anderen Grundgesamtheit.
Zur Beantwortung dieser Fragestellung machen wir nun folgende gedankliche Konstruktion,
die typisch ist für die statistische Denkweise: Wir betrachten die Gesamtheit aller zufälligen
Stichproben mit N Werten x1 , . . . , xN aus einer normalen Grundgesamtheit mit Erwartungswert µ und unbekannter Varianz. Zu jeder Stichprobe berechnen wir aus den Werten
x1 , . . . , xN den geschätzten Mittelwert x̄ und die geschätzte Varianz
N
s2 =
1 X
(xi − x̄)2
N −1
i=1
und daraus die Testgrösse
x̄ − µ √
N.
s
Der Wert der Testgrösse t wird umso grösser,
t=
(9.2.a)
• je grösser die Abweichung des geschätzten Mittelwerts x̄ vom Erwartungswert µ ist,
• je grösser der Stichprobenumfang N gewählt ist und
• je kleiner die geschätzte Varianz s2 ist, d.h., je weniger die Stichprobenwerte um den
Mittelwert streuen.
9.2. Einstichproben-t-Test, Student-t-Test
91
Für jede Stichprobe erhalten wir nun einen anderen Wert für t und demzufolge wieder eine
Wahrscheinlichkeitsverteilung. Ist die Zufallsgrösse X normalverteilt, so gehorcht die neue
Zufallsgrösse
X − µ√
N
T =
s
einer sogenannten Student-t-Verteilung mit n = N − 1 Freiheitsgraden, die nicht mehr
der Normalverteilung entspricht1 .
Der Ablehnungsbereich für die Nullhypothese H0 bei einem gegebenen Signifikanzniveau α
ist für die zweiseitige Fragestellung durch die kritischen Grössen tn,1− α2 und tn, α2 = −tn,1− α2
gegeben. Die kritischen Grössen lassen sich für die zweiseitige Fragestellung aus der Beziehung
P |T | ≥ tn,1− α2 = α
mit Hilfe von Tafel T.3 oder einem Computerprogramm (z.B. Excel) ermitteln. Jetzt ziehen
fn (t)
1−α
α
2
α
2
tn, α2 = −tn,1− α2
Ablehnungsbereich
tn,1− α2
Annahmebereich
t
Ablehnungsbereich
Abbildung 9.2.i: Kritische Grössen tn, α2 und tn,1− α2 beim Student-t-Test, mit tn, α2 = −tn,1− α2 .
wir den statistischen Schluss (hier für die zweiseitige Fragestellung):
• Ist die Testgrösse |t| < tn,1− α2 , dann wird die Nullhypothese H0 angenommen, d.h.,
Abweichungen vom idealen Wert t = 0 sind zufälliger Natur. Die Stichprobe stammt
somit mit einer Irrtumswahrscheinlichkeit von 1 − α aus der Grundgesamtheit mit dem
Erwartungswert µ.
• Ist die Testgrösse |t| ≥ tn,1− α2 , dann wird die Nullhypothese H0 auf dem Signifikanzniveau α abgelehnt. Die Stichprobe stammt demnach aus einer anderen Grundgesamtheit.
Der Student-t-Test ist gegenüber Abweichungen von der Voraussetzung (1), dass die Grundgesamtheit G normalverteilt sein muss, ziemlich unempfindlich. Der Student-t-Test ist ein so
genannt robuster Test.
Beispiel 9.2.1. Es sei die folgende Stichprobe mit zehn Werten gegeben:
5
1
-5
7
4
15
-7
5
10
18
16
Dass die Summe X +Y zweier gleich verteilter Zufallsvariablen X und Y nicht mehr der gleichen Verteilung
wie die der Summanden gehorchen muss, sehen wir an folgendem Beispiel: Ein einzelner Würfel hat für jede
Augenzahl die gleiche Wahrscheinlichkeit. Betrachten wir nun die Summe der Augenzahlen zweier Würfel, so
stellen wir fest, dass die Summe 7 viel häufiger ist als 2 oder 12. Dies wird zum Beispiel beim berühmten
Gesellschaftsspiel Die Siedler von Catan von Klaus Teuber ausgenutzt.
92
Kapitel 9. Prüfen von Erwartungswerten (Parametertests)
Uns interessiert nun, ob die Stichprobe aus einer Grundgesamtheit mit Erwartungswert µ = 0
und unbekannter Varianz stammt oder nicht. Es handelt sich dabei um einen zweiseitigen
Student-t-Test, da wir nur wissen wollen, ob der Mittelwert x̄ gleich oder ungleich von µ = 0
ist. Dazu wollen wir für die zweiseitige Fragestellung die folgende Nullhypothese gegen die
Alternative testen:
H0 : µ = 0, d.h., Stichprobe stammt aus Grundgesamtheit mit Erwartungswert µ = 0.
H1 : µ 6= 0, d.h., Stichprobe stammt aus anderer Grundgesamtheit.
Wir identifizieren den Stichprobenumfang mit N = 10 und berechnen x̄ = 6.80 und s2 =
70.18. Die Nullhypothese besagt in diesem Fall, dass das Mittel x̄ = 6.80 rein zufällig, auswahlbedingt, vom erwarteten theoretischen Wert µ = 0 abweicht. Da hier der Erwartungswert µ = 0 der Grundgesamtheit bekannt und die Varianz unbekannt ist, benutzen wir einen
Student-t-Test mit n = N − 1 = 9 Freiheitsgraden, um obige Hypothese zu untersuchen. Wir
berechnen die Testgrösse
6.80 − 0 √
x̄ − µ √
N= √
10 = 2.567.
(9.2.b)
t=
s
70.18
Zum Signifikanzniveau α = 0.05 bestimmen wir nun die kritische Grösse t9,1−0.025 = 2.262 für
die zweiseitige Fragestellung.
Nun führen wir den statistischen Schluss durch: Es gilt |t| = 2.567 ≥ t9,1−0.025 = 2.262,
also wird die Nullhypothese H0 abgelehnt. Das Mittel x̄ = 6.80 weicht somit wesentlich vom
theoretischen Wert µ = 0 ab.
Bemerkungen:
• Falls das Signifikanzniveau kleiner gewählt würde, z.B. α = 0.01, dann ergäbe sich ein
kritischer Wert von t9,1−0.005 = 3.250 und es ergäbe keine signifikante Abweichung mehr.
Es ist deshalb wichtig, dass immer bei einem statistischen Schluss das Signifikanzniveau
angegeben wird, damit alle wissen, was von der Aussage zu halten ist.
• Auch wenn die Nullhypothese abgelehnt werden kann, besteht, wie wir bereits in Kapitel 8.3 gesehen haben, eine gewisse Wahrscheinlichkeit, dass wir einen falschen Schluss
ziehen. Die Wahrscheinlichkeit, dass ein berechneter Wert von t unter der Voraussetzung
der Nullhypothese so extrem wird, ist bekanntlich nicht null, sondern nur klein. Beim
Ablehnen der Nullhypothese müssen wir also auch eine Irrtumswahrscheinlichkeit angeben. Sie entspricht der Wahrscheinlichkeit, die besteht, dass der Wert der Testgrösse
t rein zufällig so extrem herauskommt. Sie ist also kleiner als das gewählte Signifikanzniveau.
• Kann hingegen die Nullhypothese nicht abgelehnt werden, so besteht trotzdem eine
gewisse Wahrscheinlichkeit, dass eine signifikante Abweichung vorliegt. Wir sprechen
vom Risiko für einen Fehler 2. Art.
Die Student-t-Verteilung
Die von W. S. Gosset (1876-1937) (vgl. Abbildung 9.2.iii) gefundene Student-t-Verteilung
mit n = N − 1 Freiheitsgraden hat die Wahrscheinlichkeitsdichte
− n+1
2
t2
fn (t) = cn 1 +
für t ∈ R,
n
9.2. Einstichproben-t-Test, Student-t-Test
93
Γ( n+1 )
2
2
wobei cn = √nπ Γ(
n eine nur von der Anzahl Freiheitsgraden n abhängige Konstante ist. Der
)
2
Erwartungswert und die Varianz oder Streuung einer mit n Freiheitsgraden Student-tverteilten Zufallsgrösse T beträgt
E(T ) = 0
für n > 1
Wie bei jeder Verteilung gilt auch hier
und
Var(T ) =
R∞
−∞ fn (t) dt
n
n−2
für n > 2.
= 1.
0.4
0.3
0.2
0.1
–6
–4
–2
0
2
4
6
x
Abbildung 9.2.ii: Die Student-t-Verteilung (schwarze Kurven) für verschiedene Freiheitsgrade
n. Die Kurven ähneln denen der standardisierten Normalverteilung (graue Kurve), stimmen
aber erst für grosse n einigermassen überein.
Die Dichte der Student-t-Verteilung ist symmetrisch bezüglich des Nullpunktes t = 0. Sie
hat einen um so flacheren Verlauf, je kleiner n ist, und strebt für n → ∞ gegen die Dichte
der standardisierten Normalverteilung N (0, 1). Das q-Quantil der Student-t-Verteilung mit
n Freiheitsgraden wird mit tn,q bezeichnet und ist vertafelt (vgl. Tafel T.3). Das q-Quantil
tn,q kann aus der Beziehung
P (T ≤ tn,q ) = q
bestimmt werden. Da die Dichte symmetrisch ist, gilt für das (1 − q)-Quantil tn,1−q = −tn,q .
Aufgaben
Aufgabe 9.2.1. Durch Messung wurden die Längen von fünf Wellen bestimmt. Es wurden
8, 9, 11, 10, 10 Einheiten gemessen. Weicht der Mittelwert signifikant von µ = 10E ab? Das
Signifikanzniveau ist 1%.
Aufgabe 9.2.2. Bei einem Spannvorgang wurde bisher mit einem Vorgabewert von 135s
gerechnet. Eine Zeitaufnahme lieferte bei N = 32 aufgenommenen Zeiten für diesen Teilvorgang einen mittleren Zeitbedarf in der Höhe von x̄ = 128s bei einer Standardabweichung von
2
R∞
Es ist Γ(x) = 0 tx−1 e−t dt die Gammafunktion, die die Fakultät auf reelle Zahlen verallgemeinert. Es
gilt Γ(1) = 1 und Γ(n) = (n − 1)! für alle n ∈ N.
94
Kapitel 9. Prüfen von Erwartungswerten (Parametertests)
Abbildung 9.2.iii: William Sealey Gosset (1876-1937), der bei Guinness als Bierbrauer
beschäftigt war, veröffentlichte im Jahr 1908 die t-Verteilung zum Mittelwertsvergleich. Da er
damit den Malzgehalt verschiedener Getreidesorten untersuchte, war seine Firma von einer
Veröffentlichung nicht begeistert. Daher publizierte er seinen t-Test (t vom engl. test) unter
dem Pseudonym “Student”, was dem Test den Namen “Student-t-Test” eingebracht hat.
s = 4.7s. Kann aus dem Unterschied zwischen 135s und 128s darauf geschlossen werden, dass
der wahre jedoch unbekannte mittlere Zeitbedarf für diesen Teilvorgang generell nicht bei
135s liegt? Das Signifikanzniveau ist 1%.
Aufgabe 9.2.3. Auf vier Äckern von je 40 Aren konnte der Ertrag von Kartoffeln durch
neuartige Behandlung um 0.55, 0.30, 1.52, 0.68 Tonnen gesteigert werden. Ist diese Behandlungsmethode wirksamer als frühere? Das Signifikanzniveau ist 1%.
Aufgabe 9.2.4. Es werden die Zugriffszeiten bei einem bestimmten Produktionsprozess untersucht. Folgende Stichprobe [in Sekunden] wurde ermittelt. Sind diese Zeiten wirklich von
0.4 Sekunden verschieden? Das Signifikanzniveau ist 1%.
0.23
0.43
0.54
0.62
9.2.1
0.23
0.43
0.54
0.65
0.23
0.43
0.54
0.65
0.30
0.43
0.54
0.65
0.32
0.45
0.54
0.67
0.32
0.45
0.54
0.67
0.34
0.45
0.56
0.68
0.34
0.45
0.56
0.76
0.34
0.45
0.56
0.76
Vertrauensintervall für den Erwartungswert
Aus einer gegebenen Stichprobe können wir gewisse Parameter wie Mittelwert oder Varianz schätzen (berechnen). Hierbei fehlen aber noch Genauigkeitsangaben zu den berechneten
Werten, und vielleicht möchten wir auch wissen, wie die Genauigkeit vom Stichprobenumfang
abhängt. Dazu dienen die Intervallschätzungen, das sind aus der Stichprobe berechnete Intervalle, in denen der wahre, aber unbekannt Wert mit grosser Wahrscheinlichkeit zu erwarten
ist. Solche Intervalle heissen Vertrauens- oder Konfidenzintervalle.
Haben wir eine Stichprobe x1 , . . . , xN vom Umfang N aus einer normalverteilten Grundgesamtheit genommen, so interessieren wir uns für ein Vertrauensintervall des unbekannten
Erwartungswertes µ der normalverteilten Grundgesamtheit. Dazu schätzen (berechnen) wir
vorerst den Mittelwert
N
1 X
x̄ =
xi
N
i=1
9.2. Einstichproben-t-Test, Student-t-Test
und die Varianz
95
N
1 X
s =
(xi − x̄)2
N −1
2
i=1
aus der Stichprobe. Nun können wir Vertrauens- oder Konfidenzgrenzen für den unbekannten Wert µ angeben, innerhalb welchen der wahre Erwartungswert mit einer gewissen
vorgegebenen Wahrscheinlichkeit γ liegt. Aus der vorgegebenen Vertrauenswahrscheinlichkeit γ = 1 − α bestimmen wir die kritische Grösse tn,1− α2 der Student-t-Verteilung mit
n = N − 1 Freiheitsgraden. Beachten Sie, dass wir den Flächeninhalt α auf beiden Seiten unter der Student-t-Verteilung gleichmässig verteilen, d.h. zweiseitige Fragestellung. Wir suchen
also alle möglichen µ, so dass
√ α
P |T | < tn,1− α2 = P X̄−µ
N
<
t
=1−α
n,1−
s
2
√ gilt. Nun können wir die Ungleichung x̄−µ
N < tn,1− α2 nach µ umformen und erhalten das
s
Vertrauensintervall für den unbekannten Erwartungswert µ durch
tn,1− α
tn,1− α
x̄ − √ 2 s ≤ µ ≤ x̄ + √ 2 s.
N
N
Je grösser der Stichprobenumfang N ist, desto kleiner wird das Vertrauensintervall. Wollen
wir also genaue Aussagen über den unbekannten Mittelwert machen, so sind wir gezwungen
den Stichprobenumfang N möglichst gross zu wählen.
Das Vertrauensintervall kann wie folgt interpretiert werden: von 100 aus Stichproben derselben
Grundgesamtheit mit dem unbekannten Erwartungswert µ berechneten Vertrauensintervallen
überdecken im Mittel γ · 100 = (1 − α) · 100 den wahren Erwartungswert µ.
Beispiel 9.2.2. Es sei eine Stichprobe vom Umfang N = 10 mit geschätztem Mittelwert
x̄ = 5 und Standardabweichung s = 0.2 gegeben. In welchem Intervall liegt nun der wahre
aber unbekannte Erwartungswert µ der normalverteilten Grundgesamtheit? Dazu berechnen
wir zur Vertrauenswahrscheinlichkeit γ = 0.95 die kritische Grösse t9,1−0.025 = 2.262 der
Student-t-Verteilung. Damit ergibt sich das gesuchte Vertrauensintervall
2.262
2.262
5 − √ 0.2 ≤ µ ≤ 5 + √ 0.2,
10
10
also 4.86 ≤ µ ≤ 5.14 mit 95% Wahrscheinlichkeit.
Aufgaben
Aufgabe 9.2.5. An Hand einer Stichprobe von 10 auf einem Drehautomaten bearbeiteten
Wellen soll ein Vertrauensintervall zur Vertrauenswahrscheinlichkeit 0.99 für den Erwartungswert µ der Grundgesamtheit der Abweichungen des Wellendurchmessers von der Mitte des
Toleranzfeldes bestimmt werden. Folgende Abweichungen [in Mikrometer] der ist-Masse von
der Mitte des Toleranzfeldes sind festgestellt worden:
2
1
-2
3
a. Verwenden Sie die Normalverteilung!
2
4
-2
5
3
4
96
Kapitel 9. Prüfen von Erwartungswerten (Parametertests)
b. Verwenden Sie die Student-t-Verteilung!
Aufgabe 9.2.6. Gegeben sei wieder die Stichprobe aus Aufgabe 9.2.4 der Zugriffszeiten. In
welchem Vertrauensintervall zur Vertrauenswahrscheinlichkeit 0.99 liegt der wirkliche Wert
des Mittels der Zugriffszeiten?
9.2.2
Ungefähr erforderlicher Stichprobenumfang
Wirtschaftliche und rationelle Arbeitsweise erfordern die Angabe des Arbeitsaufwandes, um
bestimmte Genauigkeiten bei Mess- und Analysenergebnissen zu erziehlen. So ist es etwa
wichtig, abzuschätzen, wie gross der Stichprobenumfang bei einem statistischen Test ungefähr
sein muss, um eine bestimmte Zuverlässigkeit der Aussage zu erhalten.
Mit Hilfe der Testgrösse t (vgl. Gleichung (9.2.a)) lässt sich eine solche ungefähre Abschätzung
machen. Formen wir die Gleichung (9.2.a) nach N um, so erhalten wir
N=
t2 s 2
.
(x̄ − µ)2
(9.2.c)
Wir geben uns einen bestimmten Toleranzbereich ∆µ = |x̄ − µ| vor. Ist zusätzlich die Varianz
s2 aus Voruntersuchungen etwa in Form einer oberen Schranke bekannt, so können wir für den
Stichprobenumfang N einen ungefähren Wert abschätzen, indem wir einen Durchschnittswert
für t = tn,1− α2 ≈ 2 bei einer Vertrauenswahrscheinlichkeit γ = 1 − α einsetzen. Wir erhalten
damit einen ungefähren Stichprobenumfang
N ≈4
s2
.
∆µ2
Es sei hier ausdrücklich gesagt, dass diese Abschätzung nur einen ungefähren3 Wert für den
Stichprobenumfang liefert.
Aufgabe
Aufgabe 9.2.7. Der Kupfergehalt einer Partie Schwefelkies-Abbrände (Fe3 O3 Hüttrückstände) soll auf ∆µ = ±0.05% Cu genau bestimmt werden. Zur Bestimmung von s wurden 24
Proben genommen und getrennt analysiert. Es ergaben sich x̄ = 2.034% Cu und s = 0.271%
Cu. Wie viele Proben sind etwa zu nehmen?
9.3
Vergleich zweier Mittelwerte unverbundener Stichproben
Im Folgenden wollen wir wir den Vergleich zweier Mittelwerte aus normalverteilten Grundgesamtheiten anstellen. Wir unterscheiden die beiden Fälle, wenn die unbekannten Varianzen
der normalverteilten Grundgesamtheit gleich oder ungleich sind.
3
Die rechte Seite der Gleichung (9.2.c) hängt via der kritischen Grösse tn,1− α2 auch noch von n = N − 1
ab. Somit liesse sich der Stichprobenumfang N nur iterativ bestimmen. Wir umgehen das Problem indem wir
einen Durchschnittswert für t einsetzten.
9.3. Vergleich zweier Mittelwerte unverbundener Stichproben
9.3.1
97
Zweistichproben-t-Test bei unbekannten aber gleichen Varianzen
Beispiel 9.3.1 (Parallelklassen). An einer Fachhochschule werden eine Klasse A von 25
Studierenden und eine Parallelklasse B von 28 Studierenden vom gleichen Dozenten in Mathematik unterrichtet. Der Dozent gestaltet jeweils den Unterricht in beiden Klassen gleich.
Demzufolge wurden die beiden Klassen gleichzeitig zur gleichen Klausur aufgeboten. Die erreichten Notendurchschnitte waren x̄A = 3.9 und x̄B = 4.2 und die Standardabweichungen
betrugen je sA = sB = 1. Der Dozent stellt sich nun sofort die Frage, ob die B-Klasse
signifikant besser als die A-Klasse sei. Was denken Sie?
Beim Zweistichproben-t-Test sind folgende Voraussetzungen zu beachten:
1. Die normalverteilten Grundgesamtheiten G1 und G2 haben die unbekannten Erwartungswerte µ1 und µ2 und die unbekannten aber gleichen4 Varianzen σ12 = σ22 = σ 2 ,
so genannt homoskedastischer Fall. Der Wert von σ 2 braucht jedoch nicht bekannt
zu sein.
2. Es sind zufällig zwei Stichproben x1 , . . . , xN1 und y1 , . . . , yN2 aus den normalverteilten
Grundgesamtheiten G1 und G2 gewählt.
Wir wollen nun wissen, ob sich die Mittelwerte x̄ und ȳ der gewählten Stichproben signifikant voneinander unterscheiden um herauszufinden, ob die Stichproben aus der gleichen
Grundgesamtheit stammen. Dazu formulieren wir die beiden alternativen Hypothesen
H0 : µ1 = µ2 , d.h., Stichproben stammen aus der gleichen Grundgesamtheit.
H1 : µ1 6= µ2 , d.h., Stichproben stammen aus unterschiedlichen Grundgesamtheiten.
Um diese Frage zu beantworten berechnen wir die geschätzten Mittelwerte
x̄ =
N1
1 X
xi
N1
und
ȳ =
i=1
N2
1 X
yi
N2
i=1
und die geschätzten Varianzen
N
s21
1
X
1
=
(xi − x̄)2
N1 − 1
N
und
s22
i=1
2
X
1
=
(yi − ȳ)2
N2 − 1
i=1
und daraus das gewogene Mittel der Varianzen
s2 =
(N1 − 1)s21 + (N2 − 1)s22
.
N1 + N2 − 2
Mit diesen Werten berechnen wir nun die Testgrösse
r
x̄ − ȳ
N1 N2
t=
,
s
N1 + N2
(9.3.a)
welche unter den obigen Voraussetzungen und der Nullhypothese einer Student-t-Verteilung
mit n = N1 + N2 − 2 Freiheitsgraden genügt. Damit können wir nun nach Vorgabe eines
Signifikanzniveaus α die kritische Grösse tn,1− α2 für die zweiseitige Fragestellung bestimmen.
Danach ziehen wir wieder den statistischen Schluss:
4
Die Gleichheit der Varianzen in den Grundgesamtheiten kann mit einem χ2 -Test überprüft werden. Ist
diese Gleichheit nicht erfüllt, so haben wir ein so genanntes Behrens-Fisher-Problem (vgl. Kapitel 9.3.2).
98
Kapitel 9. Prüfen von Erwartungswerten (Parametertests)
• Ist die Testgrösse |t| < tn,1− α2 , dann wird die Nullhypothese H0 angenommen, d.h., die
Unterschiede zwischen x̄ und ȳ sind zufälliger Natur.
• Ist die Testgrösse |t| ≥ tn,1− α2 , dann wird die Nullhypothese H0 auf dem Signifikanzniveau α abgelehnt.
Sind im Falle unabhängiger Stichproben ihre Umfänge gleich, gilt also N1 = N2 = N , so
vereinfacht sich die Testgrösse (9.3.a) zu
x̄ − ȳ √
N.
t= p 2
s1 + s22
Der Zweistichproben-t-Test ist auch dann anwendbar, wenn die Grundgesamtheiten nicht
normalverteilt, ihre Verteilungen aber nicht allzu unsymmetrisch sind.
Beispiel 9.3.2. Gegeben seien die Messreihen x = {1, 2, 3, 2, 1} und y = {2, 2, 4, 1} aus normalverteilten Grundgesamtheiten. Wir testen unter der Voraussetzung σ12 = σ22 die Gleichheit der Erwartungswerte. Dazu stellen wir die geeigneten Hypothesen auf und berechnen
die geschätzten Mittelwerte x̄ = 1.8 und ȳ = 2.25 und das gewogene Mittel der Varianzen
s2 = 1.079. Die Anzahl Freiheitsgrade ist n = 5 + 4 − 2 = 7. Daraus berechnen wir die
Testgrösse t = 0.646. Zum Signifikanzniveau α = 0.05 bestimmen wir für die zweiseitige Fragestellung den kritischen Wert t7,1−0.025 = 2.365.
Nun führen wir den statistischen Schluss durch: Es gilt |t| = 0.646 < t7,1−0.025 = 2.365,
also wird die Nullhypothese H0 angenommen. Die Mittelwerte x̄ = 1.8 und ȳ = 2.25 weichen
demzufolge nur unwesentlich, zufallsbedingt, voneinander ab. Dieses eventuell überraschende
Resultat ist erstens auf die grossen Varianzen und zweitens auf die sehr kleinen Stichprobenumfänge zurückzuführen.
Aufgaben
Aufgabe 9.3.1. Stammen die drei Messreihen x, y und z unter der Voraussetzung σx2 = σy2 =
σz2 aus der gleichen normalverteilten Grundgesamtheit? Das Signifikanzniveau ist α = 1%.
x
y
z
18.0
27.0
21.5
14.5
34.0
20.5
13.5
20.5
19.0
12.5
29.5
24.5
23.0
20.0
16.0
24.0
28.0
13.0
21.0
20.0
20.0
17.0
26.5
16.5
18.5
22.0
17.5
9.5
24.5
19.0
14.0
34.0
35.5
19.0
Aufgabe 9.3.2. Der durchschnittliche Verbrauch eines bestimmten Hilfsstoffes in zwei vergleichbaren Filialen einer Unternehmung soll geprüft werden. Dazu wurde der Verbrauch
während einer Anzahl Tage bei beiden Filialen ermittelt. Es ergaben sich die folgenden Stichproben. Kann statistisch erhärtet werden, dass die eine Filiale signifikant mehr von dem
entsprechenden Hilfsstoff verbraucht? Das Signifikanzniveau sei α = 1%.
x
y
1.5
8.8
3.4
5.5
6.6
5.5
3.5
4.5
4.5
6.6
6.4
5.4
2.6
7.1
6.6
5.6
7.8
6.6
4.9
8.3
5.5
6.6
6.6
5.5
6.8
3.6
7.7
6.1
7.7
8.8
4.9
7.6
8.8
8.3
5.5
8.8
6.2
7.7
4.7
5.5
7.7
9.9
5.8
4.9
6.3
7.3
6.6
7.7
6.4
5.9
8.8
6.6
9.3. Vergleich zweier Mittelwerte unverbundener Stichproben
9.3.2
99
Zweistichproben-t-Test bei unbekannten Varianzen
Im Falle ungleicher Varianzen der Grundgesamtheiten σ12 6= σ22 , oder bei Ablehnung der
Hypothese über die Gleichheit der Varianzen σ12 und σ22 durch einen geeigneten Test kann
zur Prüfung der Hypothese H0 : µ1 = µ2 ein von B. L. Welch (1947) vorgeschlagener
Näherungstest verwendet werden. Diese Aufgabenstellung wird als Behrens-Fisher-Problem
bezeichnet.
Beispiel 9.3.3 (Markenjeans). Wir haben zwei Lieferungen von Markenjeans vom gleichen
Importeur. Dieser behauptet, beide Lieferungen seien in den USA hergestellt worden. Wir
vermuten aber, dass eine Lieferung aus Fernost mit schlechter Qualität stammt. Wie können
wir unsere Vermutung überprüfen? Zum Beispiel, indem wir ein Qualitätsmerkmal (z.B.
Reisfestigkeit der Jeans nach 20 Mal waschen) bestimmen und von diesem Merkmal den
Mittelwert für beide Lieferungen bilden und diese Mittelwerte mit einem unverbundenen
Zweistichproben-t-Test untersuchen. Da wir vermuten, dass die Lieferungen aus zwei verschiedenen Fabriken stammen, müssen wir davon ausgehen, dass die Varianzen verschieden
sein könnten.
Beim Behrens-Fisher-Problem sind folgende Voraussetzungen zu beachten:
1. Die normalverteilten Grundgesamtheiten G1 und G2 haben die unbekannten Erwartungswerte µ1 und µ2 und die unbekannten Varianzen σ12 und σ22 , so genannt heteroskedastischer Fall.
2. Es sind zufällig zwei Stichproben x1 , . . . , xN1 und y1 , . . . , yN2 aus den normalverteilten
Grundgesamtheiten G1 und G2 gewählt.
Wir wollen nun wissen, ob sich die Mittelwerte x̄ und ȳ der gewählten Stichproben signifikant voneinander unterscheiden um herauszufinden, ob die Stichproben aus der gleichen
Grundgesamtheit stammen. Dazu formulieren wir die beiden alternativen Hypothesen:
H0 : µ1 = µ2 , d.h., Stichproben stammen aus der gleichen Grundgesamtheit.
H1 : µ1 6= µ2 , d.h., Stichproben stammen aus unterschiedlichen Grundgesamtheiten.
Um diese Frage zu beantworten berechnen wir die geschätzten Mittelwerte
x̄ =
N1
1 X
xi
N1
und
ȳ =
i=1
N2
1 X
yi
N2
i=1
und die geschätzten Varianzen
N
s21 =
N
1
X
1
(xi − x̄)2
N1 − 1
und
s22 =
i=1
und daraus die gewogene Varianz
s2 =
2
X
1
(yi − ȳ)2
N2 − 1
i=1
s21
s2
+ 2.
N1 N2
Wir stellen fest, dass die gewogene Varianz s2 anders berechnet wird, als im Fall gleicher
Varianzen (vgl. Gleichung (9.3.a)). Mit diesen Werten berechnen wir nun die Testgrösse
t=
x̄ − ȳ
.
s
(9.3.b)
100
Kapitel 9. Prüfen von Erwartungswerten (Parametertests)
Die Testgrösse t gehorcht wiederum einer Student-t-Verteilung mit
n=
$
1
c2
N1 −1
+
(1−c)2
N2 −1
%
mit
c=
s21
N1
s21
N1
+
s22
N2
Freiheitsgraden, wobei ⌊ . ⌋ die Abrundungsfunktion bezeichnet. Damit können wir nun nach
Vorgabe eines Signifikanzniveaus α die kritische Grösse tn,1− α2 für die zweiseitige Fragestellung
bestimmen und den statistischen Schluss ziehen:
• Ist die Testgrösse |t| < tn,1− α2 , dann wird die Nullhypothese H0 angenommen.
• Ist die Testgrösse |t| ≥ tn,1− α2 , dann wird die Nullhypothese H0 auf dem Signifikanzniveau α abgelehnt.
Aufgabe
Aufgabe 9.3.3. Mit zwei verschiedenen Holzwerkstoffbindemitteln A und B werden Spanplatten hergestellt. Mit dem Bindemittel A erhalten wir 10 Prüfkörper, mit dem Mittel B
deren 12. Alle Prüfkörper werden einem Querzugfestigkeitstest unterworfen. Folgende Werte
wurden gemessen:
A
B
0.745
0.745
0.824
0.686
0.804
1.049
0.863
1.059
0.873
0.873
0.814
0.834
0.804
0.735
0.794
0.971
0.804
0.932
0.745
0.932
0.843
0.873
Sind die beiden Bindemittel gleichwertig? Das Signifikanzniveau ist α = 1%.
9.4
Paarweiser Vergleich bei verbundenen Stichproben
Oft stehen wir in der Praxis vor der Aufgabe, Unterschiede zwischen zwei verschiedenen
Produktionsverfahren, Behandlungsmethoden, Messgeräten, Messmethoden oder Laboranten
miteinander zu vergleichen. Zu diesem Zweck werden mit beiden Verfahren an denselben
Einheiten Messungen des Merkmals durchgeführt und paarweise verglichen. Folgendes Beispiel
soll zur näheren Erläuterung dienen.
Beispiel 9.4.1. Zwei verschiedene Messmethoden für Widerstände sollen miteinander verglichen werden. Vergleichsmessungen an fünf Widerständen ergaben das folgende Messprotokoll:
i
1. Methode: xi [in Ω]
2. Methode: yi [in Ω]
1
100.5
98.2
2
102.4
99.1
3
104.3
102.4
4
101.5
101.1
5
98.4
96.2
Wir wollen wissen, ob beide Messmethoden als gleichwertig angesehen werden können oder
ob die beobachteten Abweichungen signifikant sind.
Um diese Aufgabe zu bewältigen, verwenden wir einen paarweisen Vergleichstest, bei dem
folgende Voraussetzungen zu beachten sind:
1. Die normalverteilten Grundgesamtheiten G1 und G2 haben die unbekannten Erwartungswerte µ1 und µ2 und die unbekannten aber gleichen Varianzen σ12 = σ22 = σ 2 . Der
Wert von σ 2 braucht jedoch nicht bekannt zu sein.
9.4. Paarweiser Vergleich bei verbundenen Stichproben
101
2. Es sind zufällig zwei verbundene Stichproben x1 , . . . , xN und y1 , . . . , yN aus den normalverteilten Grundgesamtheiten G1 und G2 gewählt, d.h., xi lässt sich mit yi vergleichen.
Wir wollen nun wissen, ob sich die verbundenen Messwerte xi und yi signifikant voneinander
unterscheiden. Dazu berechnen wir aus den paarweise zusammengehörigen Messwerten die
Differenzen
di = xi − yi für alle i ∈ {1, . . . , N }
Diese Reihe der Differenzen di wird als Stichprobe vom Umfang N aus einer normalverteilten
Grundgesamtheit mit dem Erwartungswert µd und der im Allgemeinen unbekannten Varianz
σd2 aufgefasst. Die Untersuchung einer signifikanten Abweichung entspricht der Prüfung der
alternativen Hypothesen:
H0 : µd = 0, d.h. im Mittel kein Unterschied zwischen den verbundenen Messwerten.
H1 : µd 6= 0, d.h. im Mittel Unterschied zwischen den verbundenen Messwerten.
Damit können wir den in Kapitel 9.2 beschriebenen Einstichproben-t-Test mit der Testgrösse
t=
d¯ − µd √
d¯ √
N=
N,
sd
sd
(9.4.a)
verwenden, wobei
N
1 X
d¯ =
di
N
N
und
s2d =
i=1
1 X
¯2
(di − d)
N −1
i=1
das arithmetische Mittel und die geschätzte Varianz der Differenzenreihe bedeutet. Die Testgrösse t gehorcht einer Student-t-Verteilung mit n = N −1 Freiheitsgraden. Damit können wir
nun nach Vorgabe eines Signifikanzniveaus α die kritische Grösse tn,1− α2 für die zweiseitige
Fragestellung bestimmen und den statistischen Schluss ziehen:
• Ist die Testgrösse |t| < tn,1− α2 , dann wird die Nullhypothese H0 angenommen, d.h., die
Messwerte unterscheiden sich nur zufällig.
• Ist die Testgrösse |t| ≥ tn,1− α2 , dann wird die Nullhypothese H0 auf dem Signifikanzniveau α abgelehnt.
Aufgaben
Aufgabe 9.4.1. Es soll untersucht werden, ob zwei Laboranten vergleichbare Ergebnisse bei
der Bestimmung des Leimungsgrades von Papieren mit einem bestimmten Test liefern. Beide
Laboranten haben 8 verschiedene Papiersorten gemessen. Das Signifikanzniveau ist α = 1%.
Sorte
Labor A
Labor B
1
18.60
18.58
2
27.60
27.37
3
27.50
27.27
4
25.00
24.64
5
24.50
24.10
6
26.80
26.33
7
29.70
29.33
8
26.50
26.63
Aufgabe 9.4.2. Die folgenden Zahlenpaare sind entstanden aus Messungen von spezifischen
Gewichten einer Anzahl Materialien durch zwei Experimentatoren. Vergleichen Sie sie paarweise. Sind die beiden Messreihen gleichwertig? Das Signifikanzniveau ist α = 1%.
102
Kapitel 9. Prüfen von Erwartungswerten (Parametertests)
Paar
x
y
1
3.3
3.2
2
3.2
3.4
3
3.8
3.5
4
3.4
3.2
5
3.5
3.2
6
3.4
3.4
7
3.4
3.4
8
3.6
3.2
9
3.9
3.3
10
3.8
3.1
Paar
x
y
11
3.6
3.0
12
3.3
3.5
13
3.4
3.4
14
3.5
3.2
15
3.8
3.2
16
3.8
3.5
17
3.3
3.2
18
3.2
3.5
19
3.2
3.1
20
3.5
3.0
Kapitel 10
Regressionsrechnung
Problemstellung: Gegeben sei eine empirisch vorliegende, d.h. durch eine Anzahl Messpunkte gegebene Funktion. Gesucht wird eine Funktion f , die diese Funktion nach der Gaussschen
Methode der kleinsten Quadrate am besten annähert.
Das Prinzip der Regressionsrechnung wird auch als Gausssche Methode der kleinsten
Quadrate (MKQ) bezeichnet oder unter dem Begriff Ausgleichsrechnung zusammengefasst. Es geht auf Carl Friedrich Gauss, 1777-1855, zürück.
Abbildung 10.0.i: Carl Friedrich Gauss, 1777-1855
10.1
Regressionsgerade
Gegeben sei eine Punktewolke von n Punkten Pi (xi , yi ). Gesucht ist die Gerade mit der
Gleichung y = ax+b, die diese Punktewolke im Sinne von Gauss möglichst gut annähert. Dies
bedeutet, dass die Gerade, d.h. a und b, so gewählt wird, dass die so genannte Fehlerquadratsumme
n
X
∆yi2 ,
S(a, b) =
i=1
die Summe der quadratischen Abweichungen von den gegebenen Punkten minimal ist. Für
103
104
Kapitel 10. Regressionsrechnung
y
b
Pi (xi , yi )
b
b
∆yi
b
b
y = ax + b
b
x
Abbildung 10.1.i: Regressionsgerade
die Fehlerquadratsumme erhalten wir
S(a, b) =
n
X
i=1
(yi − axi − b)2 .
Sie ist zu minimalisieren, also berechnen wir die ersten partiellen Ableitungen und setzen sie
gleich null
n
X
(yi − axi − b)xi = 0,
Sa (a, b) = −2
i=1
n
X
Sb (a, b) = −2
(yi − axi − b) = 0.
i=1
Dies ergibt das lineare Gleichungssystem in den Variablen a und b
a
n
X
x2i + b
i=1
n
X
xi =
i=1
a
n
X
xi + bn =
i=1
n
X
i=1
n
X
xi y i ,
(10.1.a)
yi ,
(10.1.b)
i=1
welches mit der Cramerschen Regel (vgl. [9] Seiten 86ff) die Lösung
 n

n
X
X
xi y i
xi 



i=1
i=1


det  X
n
n
n
n

X
X
X


yi
n
n
xi y i −
xi
yi
a=

i=1
n
X
x2i


i=1
det 
n
 X

xi
i=1
n
X
 =
xi 

i=1


n 
i=1
n
X
n
i=1
x2i −
i=1
i=1
!2
n
X
xi
i=1
10.1. Regressionsgerade
und

b=
n
X
105
x2i


i=1
det 
n
 X

xi
 i=1
n
X
x2i


i=1
det 
n
 X

xi
n
X

xi y i 



y 
i=1
n
X
i=1
n
X
i
 =
n
X
i=1
xi 



n 
i=1
i=1
x2i
n
X
i=1
n
n
X
i=1
yi −
n
X
x2i −
xi
n
X
xi y i
i=1
i=1
!2
n
X
xi
i=1
ergibt. Der Koeffizient a heisst Regressionskoeffizient und b die Regressionskonstante.
Aus der Gleichung (10.1.b) entnehmen wir, dass der Schwerpunkt
!
n
n
1X
1X
P (x̄, ȳ) = P
xi ,
yi
n
n
i=1
i=1
der Punktewolke auf der Geraden y = ax + b liegt.
Die Frage stellt sich nun wiederum, ob es sich bei der gefundenen Lösung um ein Extremum
oder einen Sattelpunkt handelt. Um dies abzuklären, berechnen wir die zweiten partiellen
Ableitungen der Funktion S
Saa (a, b) = 2
n
X
x2i
i=1
Sbb (a, b) = 2n
n
X
Sab (a, b) = Sba (a, b) = 2
xi
i=1
und betrachten
2
Saa (a, b) · Sbb (a, b) − Sab (a, b) = 4n
n
X
i=1
x2i
−4
n
X
i=i
xi
!2
.
Wir benutzen die Cauchy-Schwarzsche Ungleichung
|h~u, ~v i| ≤ |~u| · |~v |,
die in Komponenten ausgeschrieben die folgende Form hat
!2
n
n
n
X
X
X
2
ui vi
≤
ui
vi2 .
i=1
i=1
i=1
Wenn die Vektoren ~u und ~v parallel sind, dann gilt die Gleichheit in der Cauchy-Schwarzschen
Ungleichung.
Mit der Setzung u1 = 1, . . . , un = 1 und v1 = x1 , . . . , vn = xn folgt
!2
n
n
X
X
xi
>n
x2i ,
i=i
i=1
106
Kapitel 10. Regressionsrechnung
da die Vektoren ~u und ~v nicht parallel sind. Damit ergibt sich die hinreichende Bedingung
!2
n
n
X
X
Saa (a, b) · Sbb (a, b) − Sab (a, b)2 = 4n
x2i − 4
xi
>0
i=1
für einen Extrempunkt. Da Saa (a, b) = 2
Minimum.
Pn
2
i=1 xi
i=i
> 0 gilt, handelt es sich in der Tat um ein
Achtung bei Datenmaterial mit Ausreissern!
Die Ausgleichsrechnung ist sehr anfällig auf Ausreisser (vgl. Abbildungen 10.1.ii und 10.1.iii).
Deshalb sollten wir immer grösste Vorsicht walten lassen und die Stichprobe zuerst auf Ausreisser untersuchen. Dies kann entweder grafisch oder mit dem Ausreissertest nach Grubbs
geschehen.
y
y
b
c
b
b
b
b
b
b
b
b
b
b
b
b
b
c
b
x
x
Abbildung 10.1.ii: Eine falsche Regressionsgerade wegen einem Ausreisser
10.2
Abbildung 10.1.iii: Eine vorgetäuschte
Abhängigkeit wegen einem Ausreisser
Allgemeine Regression
Gegeben seien n Punkte P1 (x1 , y1 ), . . . , Pn (xn , yn ). Gesucht ist eine Funktion f der Form
f (x) =
m
X
k=1
ak fk (x) = a1 f1 (x) + · · · + am fm (x), wobei m < n.
Die m Funktionen f1 , . . . , fm sind vorgegebene Funktionen in analytischer Form, wie zum
Beispiel x2 , sin(x) oder x1 . Die Koeffizienten a1 , . . . , am werden so bestimmt, dass die Fehlerquadratsumme
n
n
X
X
S(a1 , . . . , am ) =
(f (xi ) − yi )2 =
∆yi2
i=1
i=1
bezüglich der n Punkte Pi minimal wird. Dies stellt eine Verallgemeinerung der bereits besprochenen Methode der kleinsten Quadrate dar. Für a1 = a, a2 = b und f1 (x) = x, f2 (x) = 1
ergibt sich der der Spezialfall einer Ausgleichsgeraden. Wir wollen also die Fehlerquadratsumme
!2
n
n
m
X
X
X
S(a1 , . . . , am ) =
(f (xi ) − yi )2 =
ak fk (xi ) − yi
i=1
i=1
k=1
10.2. Allgemeine Regression
107
y
b
b
b
f (xi )
b
y = f (x)
b
b
b
∆yi
b
bP
b
i (xi , yi )
b
b
xi
x
Abbildung 10.2.i: Allgemeine Approximation mit minimalem quadratischen Fehler.
minimieren, dazu berechnen wir alle ersten partiellen Ableitungen
Sa1 (a1 , . . . , am ) = 2
n
m
X
X
i=1
..
.
Sam (a1 , . . . , am ) = 2
k=1
n
m
X
X
i=1
k=1
ak fk (xi ) − yi
ak fk (xi ) − yi
!
!
f1 (xi ) = 0,
..
.
fm (xi ) = 0.
Dies ergibt ein lineares Gleichungssystem mit m Gleichungen für die m unbekannten Koeffizienten a1 , . . . , am .
n
m
X
X
i=1
k=1
n
m
X
X
i=1
k=1
!
ak fk (xi ) f1 (xi ) =
!
n
m
X
X
i=1
..
.
ak fk (xi ) fm (xi ) =
k=1
n
m
X
X
i=1
k=1
!
ak fk (xi )f1 (xi )
!
ak fk (xi )fm (xi )
=
n
X
yi f1 (xi ),
n
X
yi fm (xi ).
i=1
..
.
=
i=1
108
Kapitel 10. Regressionsrechnung
Jetzt sollen die Summenbildungen vertauscht werden1 . Wir erhalten
!
!
m
n
m
n
n
X
X
X
X
X
ak fk (xi )f1 (xi ) =
ak
fk (xi )f1 (xi ) =
yi f1 (xi ),
k=1
i=1
m
n
X
X
k=1
i=1
k=1
!
ak fk (xi )fm (xi )
i=1
i=1
..
.
=
m
X
n
X
ak
!
fk (xi )fm (xi )
i=1
k=1
..
.
n
X
=
yi fm (xi )
i=1
und ausführlich geschrieben
a1
n
X
!
f1 (xi )f1 (xi )
i=1
a1
n
X
!
f1 (xi )fm (xi )
i=1
+ · · · + am
+ · · · + am
n
X
i=1
n
X
i=1
!
fm (xi )f1 (xi )
!
fm (xi )fm (xi )
=
n
X
yi f1 (xi ),
i=1
..
.
=
(10.2.a)
n
X
yi fm (xi ).
i=1
Beim linearen Gleichungssystem (10.2.a) handelt es sich um das so genannte Normalgleichungssystem der Ausgleichsrechnung. Dieses lässt sich auch mit Hilfe vom Matrizen schreiben
 n
 n


n
X
X
X
f1 (xi )f1 (xi ) · · ·
fm (xi )f1 (xi )  
yi f1 (xi ) 

 




a1
i=1
 i=1

 i=1







..
.
.
.
.
.
.
.
.

· . =
 . (10.2.b)
.
.
.
.

 n


n
n
 X



X
X
a
m


f1 (xi )fm (xi ) · · ·
fm (xi )fm (xi ) 
yi fm (xi ) 
i=1
i=1
i=1
In abkürzender Schreibweise können wir das obige lineare Normalgleichungssystem (10.2.b)
gemäss
A~a = ~b
(10.2.c)
schreiben, wobei die m gesuchten unbekannten Koeffizienten a1 , . . . , am zum Vektor ~a zusammengefasst wurden. Die Koeffizienten
Akj =
n
X
fk (xi )fj (xi ),
i=1
k, j ∈ {1, . . . , m}
1
Wir betrachten dazu ein vereinfachtes Beispiel von Doppelsummen und der Vertauschung von Summenzeichen
!
3
2
X
X
aik = (a11 + a12 ) + (a21 + a22 ) + (a31 + a32 )
i=1
k=1
= (a11 + a21 + a31 ) + (a12 + a22 + a32 )
!
2
3
X
X
=
aik .
k=1
i=1
10.2. Allgemeine Regression
109
der symmetrischen (m × m)-Matrix A und die Koeffizienten
n
X
bk =
yi fk (xi ),
i=1
k ∈ {1, . . . , m}.
des Störvektors ~b berechnen wir aus den Koordinaten der gegebenen Punkte. Damit lassen sich
nun die gesuchten Koeffizienten a1 , . . . , am durch lösen des linearen Normalgleichungssystems
(10.2.c) berechnen. Bei grossem m geschieht dies mittels Computer. Damit ist das gegebene
Problem im Prinzip gelöst.
Beispiel 10.2.1. Eine Punktmenge sei durch eine Funktion der Form
f (x) = ax + b sin(x)
[x im Bogenmass]
im Gaussschen Sinne zu approximieren. Die folgenden 8 Punkte P1 , . . . , P8 seien tabellarisch
gegeben
1
0
0.0
i
xi
yi
2
1
0.2
Wir minimieren
S(a, b) =
3
2
1.1
8
X
i=1
4
3
2.9
5
4
4.8
6
5
6.0
7
6
6.3
8
7
6.3
(axi + b sin(xi ) − yi )2 ,
dazu berechnen wir die ersten partiellen Ableitungen
Sa (a, b) = 2
Sb (a, b) = 2
8
X
i=1
8
X
i=1
(axi + b sin(xi ) − yi ) xi = 0,
(axi + b sin(xi ) − yi ) sin(xi ) = 0.
Dies ergibt das lineare Gleichungssystem2 mit zwei Gleichungen für die zwei unbekannten
Koeffizienten a und b.
8
X
ax2i +
i=1
8
X
8
X
bxi sin(xi ) =
i=1
8
X
b sin2 (xi ) =
8
X
xi sin(xi ) =
axi sin(xi ) +
i=1
8
X
y i xi ,
i=1
i=1
8
X
yi sin(xi )
8
X
y i xi ,
i=1
oder
a
8
X
i=1
a
8
X
i=1
2
x2i + b
i=1
8
X
xi sin(xi ) + b
i=1
sin2 (xi ) =
i=1
8
X
(10.2.d)
yi sin(xi ).
i=1
Dieses lineare Gleichungssystem hätte sich auch direkt aus dem linearen Normalgleichungssystem (10.2.a)
durch Einsetzen von n = 8, m = 2 und a1 = a, a2 = b und f1 (x) = x, f2 (x) = sin(x) ergeben.
110
Kapitel 10. Regressionsrechnung
Daraus lassen sich die gesuchten Koeffizienten a und b berechnen. Dieses Normalgleichungssystem lässt sich wiederum mit Hilfe einer Matrizengleichung schreiben




8
8
8
X
X
X
x2i
xi sin(xi )  
y i xi






i=1
i=1
i=1

· a =
.
8
8
8
 X



X
b
X




xi sin(xi )
sin2 (xi )
yi sin(xi )
i=1
i=1
i=1
Aus den Koordinaten der gegebenen 8 Punkte P1 (x1 , y1 ), . . . , P8 (x8 , y8 ) lassen sich die Koeffizienten dieses Normalgleichungssystems numerisch berechnen. Wir erhalten3
8
X
8
X
x2i = 140,
i=1
8
X
sin2 (xi ) = 3.5568,
i=1
8
X
i=1
8
X
xi yi = 142.2,
i=1
i=1
xi sin(xi ) = −1.8160,
yi sin(xi ) = −5.4297.
Damit ergibt sich das zu lösende lineare Normalgleichungssystem
140
−1.8160
a
142.2
·
=
−1.8160 3.5568
b
−5.4297
mit der Lösung4 a = 1.0026 und b = −1.0147. Die gesuchte Ausgleichsfunktion ist also durch
f (x) = 1.0026x − 1.0147 sin(x)
3
4
x im Bogenmass
Wir könnten auch mit der Cramerschen Regel (vgl. [9], Seiten 86ff) die Lösung


8
8
X
X
yi x i
xi sin(xi ) 



i=1
i=1

det 
8
8
8
8
8
8
 X

X
X
X
X
X


2
yi sin(xi )
sin (xi )
x i yi
sin2 (xi ) −
yi sin(xi )
xi sin(xi )
i=1
a=
i=1
8
X

x2i


i=1
det 
8
 X

xi sin(xi )
i=1
und
8
X

b=
x2i


i=1
det 
8
 X

xi sin(xi )
i=1
8
X

x2i


i=1
det 
8
 X

xi sin(xi )
i=1
8
X
 =
i=1
xi sin(xi ) 




2
sin (xi )
i=1
8
X
i=1
8
X
i=1
i=1
8
X
2
xi
i=1
i=1
8
X
2
sin (xi ) −
xi sin(xi )
i=1
!2
i=1
8
X
yi x i
i=1
8
X
i=1
8
X
yi sin(xi )






 =
xi sin(xi ) 




2
sin (xi )
i=1
8
X
8
X
x2i
i=1
8
X
i=1
8
X
i=1
x2i
yi sin(xi ) −
8
X
i=1
i=1
direkt aus dem Normalgleichungssystem (10.2.d) explizit berechnen.
2
8
X
xi sin(xi )
i=1
sin (xi ) −
8
X
i=1
8
X
x i yi
i=1
xi sin(xi )
!2
.
10.2. Allgemeine Regression
111
gegeben.
Die berechneten Werte im Vergleich zu den gegebenen ergeben sich zu:
i
xi
yi
f (xi )
1
0
0.0
0.0000
2
1
0.2
0.1488
3
2
1.1
1.0825
4
3
2.9
2.8646
5
4
4.8
4.7783
6
5
6.0
5.9860
7
6
6.3
6.2991
8
7
6.3
6.3526
Aufgaben
Aufgabe 10.2.1. In einem Wald sind die Durchmesser x1 , . . . , xn und die dazu gehörigen
Höhen y1 , . . . , yn von n Bäumen gemessen worden, so dass n empirische Zahlenpaare (x1 , y1 ),
. . . , (xn , yn ) gegeben sind. Durch die Punkte kann am ehesten eine passende logarithmische
Ausgleichskurve gelegt werden. Bestimmen Sie diese Funktion in der Form
f (x) = a log10 (x) + b.
Numerisches Beispiel: P1 (1, 1), P2 (2, 2), P3 (4, 2.5)
Aufgabe 10.2.2. Bestimmen Sie die beste Funktion der Form
f (x) = ax2 + be−x
zu den folgenden Punkten:
i
xi
yi
1
0
-1.0
2
1
1.6
3
2
7.9
4
3
17.9
5
4
32.0
Aufgabe 10.2.3. Bestimmen Sie die beste Funktion der Form
f (x) = a + bx + c sin(x)
[x im Bogenmass]
zu den folgenden Punkten:
i
xi
yi
1
0
1.0000
2
1
1.1585
3
2
2.0907
4
3
3.8589
Aufgabe 10.2.4. Bestimmen Sie die beste Funktion der Form
f (x) = a + bx2 + c sin(x) + d cos(x)
[x im Bogenmass]
zu den folgenden Punkten:
i
xi
yi
1
-2
-3.7416
2
-1
1.2391
3
0
4.0000
4
1
2.9221
5
2
-1.9230
6
3
-8.8389
Lösungen
Lösung 10.2.1. a = 2.491 und b = 1.083
Lösung 10.2.2. a = 1.999897 und b = −1.007806
Lösung 10.2.3. a = 0.9999968, b = 1.00001021 und c = −1.0000318
Lösung 10.2.4. a = 2.0000, b = −1.0000, c = 1.0000 und d = 1.9999
112
Kapitel 10. Regressionsrechnung
Kapitel 11
Regressionsanalyse
Die Regressionsanalyse behandelt folgendes Problem: Aus den Realisierungen einer Zufallsgrösse X sollen wahrscheinlichkeitstheoretische Aussagen, d.h., Vorhersagen über die Werte
einer zweiten Zufallsgrösse Y gemacht werden. Dabei sind natürlich nur dann sinnvolle Vorhersagen möglich, wenn die beiden Zufallsgrössen X und Y abhängig sind, wenn also eine
Verbindung zwischen X und Y besteht.
11.1
Allgemeines
Beispiel 11.1.1. Der Bremsweg eines bestimmten Autos hängt wesentlich von der Geschwindigkeit ab, die das Auto unmittelbar vor dem Bremsbeginn erreicht hat. Diese Geschwindigkeit
bestimmt jedoch den Bremsweg nicht eindeutig, weil er durch viele weitere Grössen beeinflusst
wird, z.B. durch den Zustand der Bremsen und Reifen, die Strassenbeschaffenheit, das Ladegewicht und das Verhalten des Fahrers während des Bremsvorgangs. Werden bei konstanter
Geschwindigkeit x mehrere Bremsversuche unternommen, so erhalten wir im Allgemeinen
verschiedene Bremswege als Realisierungen einer Zufallsvariable Y (x). Zu jedem Geschwindigkeitswert x gehört also eine Zufallsvariable Y (x). Aus Erfahrung ist bekannt, dass der
erwartete Bremsweg und die Streuung der Bremswege mit wachsender Geschwindigkeit x
grösser werden. Es gilt die Faustregel “grössere Geschwindigkeit gleich längerer Bremsweg”.
Aus der Geschwindigkeit können also keine deterministischen, sondern nur wahrscheinlichkeitstheoretische Aussagen über den Bremsweg gemacht werden. Diesen Zusammenhang
können wir mit einer Regression beschreiben.
Die Regressionsanalyse gibt uns Auskunft darüber, wie gut die angepasste Kurve zur Realität passt, d.h., ob das gewählte Modell (z.B. linear, polynomial oder exponentiel) ein angepasstes ist.
Beispiel 11.1.2. Im Gegensatz zu Beispiel 11.1.1 ist der Zusammenhang zwischen der Seitenlänge x eines Quadrates und dessen Flächeninhalt y ein deterministischer. Es gilt die
funktionale Beziehung y = x2 . Durch die Vorgabe einer Seitenlänge x ist also der Flächeninhalt
y = x2 eindeutig bestimmt.
Wir unterscheiden zwei Arten von Variablen:
1. Nichtstochastische Variablen, die fest vorgegeben sind, wie Stützpunkte, Klassenmitten oder Messpunkte (z.B. Geschwindigkeit vor Bremsbeginn in Beispiel 11.1.1).
Diese werden im Allgemeinen mit x bezeichnet.
113
114
Kapitel 11. Regressionsanalyse
2. Stochastische Variablen, die meistens einer Normalverteilung gehorchen (z.B. Bremsweg in Beispiel 11.1.1). Diese werden im Allgemeinen mit y bezeichnet.
b
y
b
b
b
ȳi
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
xi
x
Abbildung 11.1.i: Nichtstochastische Variablen in x-Richtung und im Allgemeinen normalverteilte stochastische Variablen in y-Richtung
Der Zusammenhang des durchschnittlichen Wertes ȳ von y je Messpunkt mit den verschiedenen Messpunkten der nichtstochastischen Variablen x heisst Regression. Im Folgenden
nehmen wir an, dass die stochastischen Variablen y einer Normalverteilung mit den Parametern µ und σ 2 gehorchen. Im Wesentlichen gibt es drei typische Fälle der Regression:
1. Kein Zusammenhang zwischen x und y, d.h., die y-Werte sind unabhängig von den
x-Werten (vgl. Abbildung 11.1.ii).
2. Linearer Zusammenhang zwischen x und y, d.h., die Verbindungslinie der Mittelwerte ȳ der einzelnen Verteilungen liegen alle auf einer Geraden, der so genannten Regressionsgeraden (vgl. Abbildung 11.1.iii). Die Regressionsgerade ist der geometrische
Ort der wahrscheinlichsten Werte von y je Messpunkt x.
3. Nichtlinearer Zusammenhang zwischen x und y, d.h., die Verbindungslinie der Mittelwerte ȳ der einzelnen Verteilungen liegen z.B. auf einer polynomialen (Grad mindestens zwei), exponentiellen oder logarithmischen Kurve (vgl. Abbildung 11.1.iv).
y
y
ȳ7
ȳ6
ȳ1
b
ȳ2
b
ȳ3
b
ȳ4
b
ȳ5
b
ȳ6
b
ȳ7
b
ȳ5
y = ax + b
ȳ4
ȳ3
ȳ2
y = const
ȳ1
x1
x2
x3
x4
x5
x6
x7
x
Abbildung 11.1.ii: Kein Zusammenhang
zwischen x und y.
b
b
b
b
b
b
b
x1
x2
x3
x4
x5
x6
x7
x
Abbildung 11.1.iii: Linearer Zusammenhang zwischen x und y
11.2. Regressionsgerade
115
y
ȳ6
ȳ5
ȳ4
y = f (x)
ȳ3
ȳ2
ȳ1
ȳ7
b
b
b
b
b
b
b
x2
x1
x4
x3
x5
x6
x7
x
Abbildung 11.1.iv: Nichtlinearer Zusammenhang zwischen x und y
In der Praxis sind meistens nicht so viele Messpunkte vorhanden, dass für viele Werte von
x annähernde Normalverteilungen entstehen. Es steht meistens eine mehr oder weniger beschränkte Stichprobe pro Messpunkt zur Verfügung, die von Messpunkt zu Messpunkt anders
sein kann.
11.2
Regressionsgerade
Gegeben sei eine Punktewolke von N Punkten P1 (x1 , y1 ), . . . , PN (xN , yN ). Gesucht ist die
Gerade mit der Gleichung y = ax + b, die diese Punktewolke im Sinne von Gauss möglichst
gut annähert. Dies bedeutet, dass die Konstanten a und b der Geraden so gewählt werden,
dass die so genannte Fehlerquadratsumme
S(a, b) =
N
X
∆yi2
i=1
N
X
=
(yi − axi − b)2 ,
i=1
die Summe der senkrechten quadratischen Abweichungen von den gegebenen Punkten zur Geraden minimal ist. Sie ist zu minimieren, also berechnen wir die ersten partiellen Ableitungen
b
y
b
Pi (xi , yi )
b
b
∆yi
b
b
b
b
b
b
b
b
b
b
y = ax + b
b
b
x
Abbildung 11.2.i: Regressionsgerade
116
Kapitel 11. Regressionsanalyse
und setzen diese gleich null
N
X
(yi − axi − b)xi = 0
Sa (a, b) = −2
Sb (a, b) = −2
und
i=1
N
X
i=1
(yi − axi − b) = 0.
Dies ergibt das lineare Gleichungssystem in den Variablen a und b
a
N
X
x2i
+b
i=1
N
X
xi =
i=1
N
X
xi y i
und
i=1
a
N
X
xi + bN =
i=1
N
X
(11.2.a)
yi ,
i=1
welches die Lösung
N
a=
N
X
i=1
N
xi y i −
N
X
i=1
x2i
−
N
X
xi
i=1
N
X
i=1
N
X
yi
i=1
xi
!2
und
b=
N
X
x2i
i=1
N
X
i=1
N
n
X
yi −
x2i
i=1
−
N
X
xi
i=1
N
X
i=1
N
X
xi y i
i=1
xi
!2
hat. Der Koeffizient a heisst Regressionskoeffizient und b die Regressionskonstante. Aus
der zweiten Gleichung (11.2.a) entnehmen wir, dass der Schwerpunkt
P (x̄, ȳ) = P
N
N
1 X
1 X
xi ,
yi
N
N
i=1
i=1
!
der Punktewolke auf der Regressionsgeraden y = ax + b liegt.
11.3
Regressionsanalyse einer Geraden
Wir sollten folgendes Problem bei der Regressionsrechnung nicht aus den Augen verlieren:
Da die Punkte um die Regressionsgerade mehr oder weniger streuen, enthalten sowohl der
Regressionskoeffizient a als auch die Regressionskonstante b eine gewisse Unsicherheit. Die
Frage stellt sich nun, ab welcher Grösse des Regressionskoeffizienten a von einem wirklichen
Einfluss der Grösse x auf die Grösse y gesprochen werden kann, d.h., ist die Regressionsgerade
signifikant von einer zur x-Achse parallelen Geraden verschieden.
Eine Berücksichtigung der Variable x ist nur dann sinnvoll, wenn die Veränderung von y
nicht rein zufällig auf ein Veränderung von x erfolgt. Mit Hilfe eines statistischen Tests, der
so genannten Regressionsanalyse, wollen wir nun diese Abhängigkeit quantifizieren.
Es seien also N Messpunkte P1 (x1 , y1 ), . . . , PN (xN , yN ) gegeben, dabei bezeichnet x die nichtstochastische und y die stochastische Variable. Nach der Methode der kleinsten Quadrate (vgl.
Kapitel 11.2) wurde eine beste Gerade Y = ax + b an diese Punktewolke angepasst.
Über den Regressionskoeffizienten a stellen wir nun eine Annahme in Form einer statistischen
Hypothese auf.
H0 : a = 0, d.h., es besteht keine Abhängigkeit zwischen x und y.
H1 : a 6= 0, d.h., es besteht eine Abhängigkeit zwischen x und y.
11.3. Regressionsanalyse einer Geraden
117
Zur Beantwortung dieser Fragestellung berechnen wir aus den Koordinaten der N Punkte
P1 (x1 , y1 ), . . . , PN (xN , yN ) die (theoretischen) Werte
Yi = axi + b
und damit die folgenden Grössen
N
s2x
N
1 X
mit x̄ =
xi ,
N
1 X
=
(xi − x̄)2
N −1
s2y =
1
N −2
i=1
N
X
i=1
i=1
(yi − Yi )2 =
und aus diesen die Testgrösse
tReg =
√
1
N −2
N −1
N
X
i=1
(yi − (axi + b))2
sx
a.
sy
(11.3.a)
Zur quantitativen Beurteilung der Abhängigkeit der Variablen y von der Grösse x sind folgende Gesichtspunkt massgebend:
• Die Varianz s2x der unabhängigen x-Werte um den Mittelwert x̄. Grosse Streuung in
x-Richtung gibt Sicherheit für die Aussage. Für die Praxis heisst das, es muss dafür
gesorgt werden, dass die Grössen xi über ein möglichst grossen Bereich vorhanden sind.
• Die Restvarianz s2y der Punkte um die Gerade, d.h. die Fehlerquadratsumme in yRichtung. Kleine Streuungen in y-Richtung ergeben eine Zuverlässigkeit der Aussage.
Die Testgrösse tReg ist Student-t-verteilt mit n = N − 2 Freiheitsgraden. Das Testverfahren
für die Nullhypothese kann dann folgendermassen formuliert werden: Nach Wahl eines Signifikanzniveaus α ermitteln wir mit Hilfe von Tafel T.3 oder einem Computerprogramm den
kritischen Wert tn,1− α2 bei einer zweiseitigen Fragestellung. Dann ziehen wir den statistischen Schluss:
• Ist die Testgrösse |tReg | < tn,1− α2 , dann wird die Nullhypothese H0 angenommen, d.h.,
es besteht keine signifikante Abhängigkeit zwischen x und y.
• Ist die Testgrösse |tReg | ≥ tn,1− α2 , dann wird die Nullhypothese H0 auf dem Signifikanzniveau α abgelehnt, d.h., es besteht eine signifikante Abhängigkeit.
Beispiel 11.3.1. Die Abhängigkeit der stochastischen Variablen y von der Grösse x soll
untersucht werden. Die folgenden Messwerte liegen vor.
xi
yi
0
9
1
8
3
7
4
5
5
5
6
3
7
3
8
1
Kann von einer signifikanten Abhängigkeit gesprochen werden? Wir wählen das Signifikanzniveau α = 0.001. Aus dem vorliegenden Datenmaterial berechnen wir vorerst die Regressionsgerade mit der Methode der kleinsten Quadrate
y = −0.9595 x + 9.2027.
Nun wollen wir mit der Regressionsanalyse überprüfen, ob a = −0.9595 eine signifikante
Abhängigkeit darstellt. Dazu berechnen wir s2x = 7.9286 und s2y = 0.2973 und daraus die
118
Kapitel 11. Regressionsanalyse
Testgrösse tReg = −13.1092, wobei N = 8 ist. Zum Signifikanzniveau 0.1% bestimmen wir
aus Tafel T.3 oder einem Computerprogramm den kritischen Wert t6,0.9995 = 5.9587.
Da |tReg | = 13.1092 ≥ t6,0.9995 = 5.9587 gilt, wird die Nullhypothese abgelehnt. D.h., x
hat einen wesentlichen Einfluss auf y oder anders ausgedrückt, der Regressionskoeffizient
a = −0.9595 ist signifikant von Nullverschieden.
Beispiel 11.3.2 (Meeresspiegel in Venedig). Die folgende Messreihe zeigt den jährlichen
maximalen Meeresspiegel1 [in cm] in Venedig für die Jahre von 1931 bis 1981.
xi
yi
xi
yi
xi
yi
xi
yi
1931
103
1944
106
1957
119
1970
123
1932
78
1945
105
1958
124
1971
122
1933
121
1946
136
1959
118
1972
120
1934
116
1947
126
1960
145
1973
114
1935
115
1948
132
1961
122
1974
96
1936
147
1949
104
1962
114
1975
125
1937
119
1950
117
1963
118
1976
124
1938
114
1951
151
1964
107
1977
120
1939
89
1952
116
1965
110
1978
132
1940
102
1953
107
1966
194
1979
166
1941
99
1954
112
1967
138
1980
134
1942
91
1955
97
1968
144
1981
138
1943
97
1956
95
1969
138
Ist die Zunahme des Meeresspiegels in Venedig über diese Periode signifikant? Das Signifikanzniveau sei 5%.
Die Regressionsgerade lautet
y = 0.57 x − 989.38.
Mit der Regressionsanalyse überprüfen wir, ob die Steigung a = 0.57 signifikant von Nullverschieden ist. Dazu berechnen wir s2x = 221.00 und s2y = 346.70 und daraus die Testgrösse
tReg = 3.20, wobei N = 51 ist. Zum Signifikanzniveau 5% bestimmen wir aus Tafel T.3 oder
einem Computerprogramm den kritischen Wert t49,0.975 = 2.01.
Da |tReg | = 3.20 ≥ t49,0.975 = 2.01 gilt, wird die Nullhypothese abgelehnt. Das heisst, der
Anstieg des Meeresspiegels in Venedig in den Jahren 1931 bis 1981 ist real.
Aufgaben
Aufgabe 11.3.1. Die Abhängigkeit der stochastischen Variablen y von der Grösse x soll
untersucht werden. Die folgenden Messwerte liegen vor.
xi
yi
1
1
2
1
5
4
8
3
10
6
Kann von einer signifikanten Abhängigkeit gesprochen werden? Das Signifikanzniveau ist 1%.
Aufgabe 11.3.2. Die Abhängigkeit der stochastischen Variablen y von der Grösse x soll
untersucht werden. Die folgenden Messwerte liegen vor.
xi
yi
xi
yi
1.1
2.0
4.6
0.8
1.2
1.9
5.1
0.8
1.4
1.8
6.3
0.7
1.6
1.8
7.8
0.6
1.7
1.7
8.3
0.5
1.9
1.7
9.4
0.4
2.0
1.6
10.3
0.3
2.3
1.5
10.5
0.2
2.7
1.5
10.7
0.2
2.8
1.4
11.0
0.1
2.9
1.3
11.6
0.4
3.3
1.2
11.9
0.1
3.8
1.1
12.0
0.0
4.0
0.9
12.6
-0.1
Kann von einer signifikanten Abhängigkeit gesprochen werden? Das Signifikanzniveau ist 1%.
1
Der aufmerksame Leser wird realisieren, dass der steigende Meeresspiegel nicht auf ein Ansteigen des
Wassers in der Adria zurückzuführen ist, sondern auf das Sinken der Markierung an der der Meeresspiegel in
Venedig abgelesen wird.
11.4. Regressionsanalyse zweier Geraden
11.4
119
Regressionsanalyse zweier Geraden
In der Praxis kommt es oft vor, dass zwei Stichproben der Umfänge N1 und N2 mit den
Messpunkten P11 (x11 , y11 ), . . . , P1N1 (x1N1 , y1N1 ) und P21 (x21 , y21 ), . . . , P2N2 (x2N2 , y2N2 ) gegeben sind. Daraus lassen sich mit der Methode der kleinsten Quadrate (vgl. Kapitel 11.2) zwei
Regressionsgeraden
y = a1 x + b1 und y = a2 x + b2 .
berechnen. Es interessiert, ob die beiden Regressionsgeraden nur zufällig voneinander abweichen.
y
b
b
bc
y = a2 x + b2
b
b
c
b
c
b
c
b
b
b
b
b
b
bc
bc
bc
y = a1 x + b1
bc
b
x
Abbildung 11.4.i: Regressionsanalyse zweier Geraden. Unterscheiden sich die beiden Gereaden
signifikant, d.h., sind die Steigungen oder die y-Achsenabschnitte verschieden?
Prüfung der Regressionskoeffizienten
Dazu stellen wir die alternativen Hypothesen auf.
Ha,0 : a1 = a2 , d.h., gleiche Steigungen der beiden Regressionsgeraden.
Ha,1 : a1 6= a2 , d.h., verschiedene Steigungen der beiden Regressionsgeraden.
Zur Beantwortung dieser Fragestellung berechnen wir aus den zwei gegebenen Stichproben
P11 (x11 , y11 ), . . ., P1N1 (x1N1 , y1N1 ) und P21 (x21 , y21 ), . . . , P2N2 (x2N2 , y2N2 ) die Grössen
x̄1 =
N1
1 X
x1i
N1
und
i=1
x̄2 =
N2
1 X
x2i
N2
i=1
und
N
s2x1
1
X
1
=
(x1i − x̄1 )2
N1 − 1
N
und
s2x2
i=1
2
X
1
=
(x2i − x̄2 )2
N2 − 1
(11.4.a)
i=1
und
N
s2y1
1
X
1
=
(y1i − (ax1i + b))2
N1 − 2
i=1
N
und
s2y2
2
X
1
=
(y2i − (ax2i + b))2 (11.4.b)
N2 − 2
i=1
120
Kapitel 11. Regressionsanalyse
und damit
s2a
(N1 − 2)s2y1 + (N2 − 2)s2y2
=
N1 + N2 − 4
1
1
+
2
(N1 − 1)sx1
(N2 − 1)s2x2
.
Aus diesen Grössen entsteht dann schlussendlich die Testgrösse
ta =
a1 − a2
.
sa
(11.4.c)
Die Testgrösse ta ist Student-t-verteilt mit n = N1 + N2 − 4 Freiheitsgraden. Nach Wahl
eines Signifikanzniveaus α ermitteln wir mit Hilfe von Tafel T.3 oder einem Computerprogramm den kritischen Wert tn,1− α2 bei einer zweiseitigen Fragestellung. Dann ziehen wir den
statistischen Schluss:
• Ist die Testgrösse |ta | < tn,1− α2 , dann wird die Nullhypothese Ha,0 angenommen, d.h.,
es besteht kein signifikanter Unterschied zwischen den Steigungen der beiden Regressionsgeraden.
• Ist die Testgrösse |ta | ≥ tn,1− α2 , dann wird die Nullhypothese Ha,0 auf dem Signifikanzniveau α abgelehnt, d.h., die beiden Regressionsgeraden haben signifikant verschiedene
Steigungen.
Wird die Nullhypothese nicht abgelehhnt, so müssen wir zur Untersuchung der Gleichheit
der beiden Regressionsgeraden auch noch die Regressionskonstanten auf einen signifikanten
Unterschied hin untersuchen. Dies geschieht abermals mit einem statistischen Test und einer
geeigneten Testgrösse.
Prüfung der Regressionskonstanten
Dazu stellen wir die alternativen Hypothesen auf.
Hb,0 : b1 = b2 , d.h., gleiche y-Achsenabschnitte der beiden Regressionsgeraden.
Hb,1 : b1 6= b2 , d.h., verschiedene y-Achsenabschnitte der beiden Regressionsgeraden.
Zur Beantwortung dieser Fragestellung berechnen wir aus den Messpunkten die Grössen (vgl.
Gleichungen (11.4.a) und (11.4.b)) s2x1 , s2x2 und s2y1 , s2y2 und
s2b
(N1 − 2)s2y1 + (N2 − 2)s2y2
=
N1 + N2 − 4
x̄21
x̄22
1
1
+
+
+
2
2
(N1 − 1)sx1
(N2 − 1)sx2
N1 N2
.
Aus diesen Grössen entsteht dann schlussendlich die Testgrösse
tb =
b1 − b2
.
sb
(11.4.d)
Die Testgrösse tb ist Student-t-verteilt mit n = N1 + N2 − 4 Freiheitsgraden. Nach Wahl
eines Signifikanzniveaus α ermitteln wir mit Hilfe von Tafel T.3 oder einem Computerprogramm den kritischen Wert tn,1− α2 bei einer zweiseitigen Fragestellung. Dann ziehen wir den
statistischen Schluss:
11.4. Regressionsanalyse zweier Geraden
121
• Ist die Testgrösse |tb | < tn,1− α2 , dann wird die Nullhypothese Hb,0 angenommen, d.h.,
es besteht kein signifikanter Unterschied zwischen den y-Achsenabschnitten der beiden
Regressionsgeraden.
• Ist die Testgrösse |tb | ≥ tn,1− α2 , dann wird die Nullhypothese Hb,0 auf dem Signifikanzniveau α abgelehnt, d.h., die beiden Regressionsgeraden haben signifikant verschiedene
y-Achsenabschnitte.
Haben wir beide Nullhypothesen Ha,0 und Hb,0 angenommen, so können wir davon ausgehen,
dass sich die beiden Regressionsgeraden nur zufällig voneinander unterscheiden.
Aufgaben
Aufgabe 11.4.1. Es soll untersucht werden, ob die Steigungen und die y-Achsenabschnitte
der beiden Ausgleichsgeraden, die durch das folgende Datenmaterial gegeben sind, signifikant
voneinander verschieden sind. Das Signifikanzniveau ist 10%.
x1i
y1i
1 2 5 8 10
1 1 4 3 6
x2i
y2i
3 4 5 6 7 8
1 1 1 7 6 7
Aufgabe 11.4.2. Es soll untersucht werden, ob die beiden Ausgleichsgeraden, die durch das
folgende Datenmaterial gegeben sind, signifikant voneinander verschieden sind. Das Signifikanzniveau ist 5%.
x1i
y1i
1 2 5 8 10 12 14 18
1 1 4 3 6 9 8 13
x2i
y2i
3 4 5 6 7 8 9 10 11 12
1 1 1 7 6 7 8 9 14 15
Aufgabe 11.4.3. Es soll untersucht werden, ob die beiden Ausgleichsgeraden, die durch das
folgende Datenmaterial gegeben sind, signifikant voneinander verschieden sind. Das Signifikanzniveau ist 1%.
x1i
y1i
x1i
y1i
1.0
7.0
4.0
4.0
1.3
6.9
4.1
3.9
1.4
6.7
4.2
3.7
1.6
6.5
4.4
3.4
1.7
6.3
4.8
3.2
1.9
5.4
5.4
2.9
2.0
5.4
5.8
2.8
2.1
5.3
6.1
2.8
2.4
5.2
6.3
2.7
2.6
5.1
7.3
2.5
2.7
5.0
7.4
2.3
2.9
4.9
8.5
2.1
3.0 3.3 3.6 3.7 3.9
4.8 4.6 4.4 4.3 4.2
8.6
2.0
x2i
y2i
x2i
y2i
1.4
10.0
3.3
5.1
1.4
9.4
3.5
4.7
1.5
9.3
3.6
4.2
1.6
9.4
3.7
3.7
1.7
8.6
3.9
3.4
1.8
8.5
4.2
2.8
1.9
8.4
4.6
2.5
2.0
8.2
4.8
2.1
2.1
8.1
4.9
1.8
2.3
7.9
5.0
1.6
2.5
7.5
5.1
1.3
2.6
7.0
5.7
1.0
2.6
6.9
5.8
0.5
2.7
6.3
6.0
0.0
2.7
6.2
6.7
-0.5
2.9 3.0
5.9 5.3
7.0
-1.0
122
Kapitel 11. Regressionsanalyse
Anhang A
Mathematische Hilfsmittel
A.1
Rechnen mit dem Summenzeichen
In der Statistik und in der Wahrscheinlichkeitsrechnung treffen wir oft auf Zahlenmengen,
zum Beispiel in Form von Datensätzen, die zum Teil sehr viele Elemente enthalten können.
Diese wollen wir effizient verarbeiten können. Die Einzeldaten können wir uns in jedem Fall
nummeriert vorstellen, sie bilden also eine Zahlenfolge. Die Nummerierung erfolgt mit den
natürlichen Zahlen N. Jedes Element erhält zu seiner Nummerierung eine Ordnungszahl als
Index
ai mit i ∈ {1, . . . , n}.
Im Falle einer endlichen Stichprobe bleibt n dabei endlich. Es kann aber auch vorkommen,
dass die Zahlenfolge auch unendlich lang sein kann, in diesem Fall haben wir n → +∞.
Zur Verarbeitung des Datenmaterials benötigen wir häufig nicht nur die Elemente der Zahlenfolge einzeln, sondern auch die Gesamtsumme aller Elemente oder die Summe all ihrer
Quadrate. Um die Schreibarbeit zu vereinfachen, verwenden wir für solche Summen endlicher
Reihen das Summenzeichen
n
X
i=1
ai = a1 + a2 + · · · + ai−1 + ai + ai+1 + · · · + an−1 + an
= a1 + · · · + an .
Dabei sprechen wir von der Summe aller ai von i = 1 bis n. Der Index i ist dabei eine
Laufvariable, die nur innerhalb der Summe Bedeutung hat, genau gleich wie die Integrationsvariable x in einem bestimmten Integral.
Beispiel A.1.1.
a.
n
X
i=1
1 = 1 + 1 + ··· + 1 = n
b. Es gilt die Formel
S=
n
X
i=1
i = 1 + 2 + ··· + n =
123
1
n(n + 1).
2
124
Anhang A. Mathematische Hilfsmittel
Beweis. Wir schreiben
1
+
2
+
3
+ ···
n
+ (n − 1) + (n − 2) + · · ·
(n + 1) + (n + 1) + (n + 1) + · · ·
+
+ (n − 1) +
n
= S
+
2
+
1
= S
+ (n + 1) + (n + 1) = 2 S
Also folgt 2S = n(n + 1) und damit die Behauptung.
c. Es gilt
n
X
i=1
i2 = 12 + 22 · · · + n2 =
1
n(n + 1)(2n + 1).
6
Der Beweis dieser Formel gelingt mittels einer vollständigen Induktion, siehe Aufgabe A.1.3. Für eine explizite Herleitung siehe [14], Summenformeln spezieller endlicher
Reihen.
Rechenregeln für endliche Summen
Es sei k eine reelle Konstante, dann gilt
a.
n
X
k = nk,
i=1
b.
n
X
kai = k
n
X
(ai + bi ) =
n
X
ai+1 −
i=1
c.
n
X
i=1
d.
ai ,
i=1
i=1
n
X
ai +
i=1
n
X
i=1
n
X
bi und
i=1
ai = an+1 − a1 . Es handelt sich dabei um eine Teleskopsumme.
Aufgaben
Aufgabe A.1.1. Schreiben Sie folgende Reihen mit dem Summensymbol.
a. 14 + 24 + 34 + 44 + 54 + 64 + 74
b. 20 + 21 + 22 + 23 + 24 + 25
c. 1 +
1
2
+
1
3
+
1
4
+
1
5
+
1
6
1
2
2
3
+
3
4
−
4
5
+
5
6
−
6
7
d.
−
+
1
7
+
1
8
Aufgabe A.1.2. Schreiben Sie gliedweise und berechnen Sie.
a.
6
X
i=2
2i
A.2. Die Regeln von de Morgan
b.
10
X
125
i2
i=6
c.
9
X
(−1)i
i=1
d.
6
X
k=1
cos
kπ
6
Aufgabe A.1.3. Beweisen Sie die Formel (c) in Beispiel A.1.1 mit vollständiger Induktion.
Aufgabe A.1.4. Beweisen Sie die Rechenregeln für endliche Summen.
Aufgabe A.1.5. Beweisen Sie die Formel
n
n
n
n
X
X
X
X
2
2
2
2
(λai + µbi ) = λ
ai + 2λµ
ai bi + µ
b2i .
i=1
i=1
i=1
i=1
Lösungen
Lösung A.1.1.
P7 4
a.
i=1 i
P6
i−1
b.
i=1 2
P8 1
c.
i=1 i
P6
i+1 i
d.
i=1 (−1)
i+1
Lösung A.1.2.
a. 40
b. 330
c. −1
d. −1
Lösung A.1.3. Vergleichen Sie das entsprechende Kapitel in [14].
Lösung A.1.4. Summen ausschreiben, neu ordnen und zusammenfassen – fertig.
Lösung A.1.5. Summen ausschreiben, neu ordnen und zusammenfassen – fertig.
A.2
Die Regeln von de Morgan
Es seien A und B zwei Ereignisse (Mengen), dann gelten die Regeln von de Morgan:
A∪B = A∩B
A∩B = A∪B
126
Anhang A. Mathematische Hilfsmittel
Aufgabe
Aufgabe A.2.1. Beweisen Sie die Regeln von de Morgan.
Lösung
Lösung A.2.1. Der Beweis läuft grafisch, indem Sie die Mengen A und B in allgemeiner
Lage zeichnen.
A.3
Die Gausssche Fehlerfunktion
Es gibt Funktionen, die keine elementaren Stammfunktionen besitzen. Das berühmteste Beispiel ist sicher die Wahrscheinlichkeitsdichte der (standardisierten) Normalverteilung
z2
1
f (z) = ϕ(z, 0, 1) = √ e− 2
2π
für − ∞ < z < ∞.
Gleichwohl ist es möglich das bestimmte Integral
√
Z ∞
π
−u2
I=
e
du =
.
2
0
(1.3.a)
zu berechnen.
In der Tat: Wir betrachten
2
I =
=
=
=
Z
∞
Z0 ∞
−u2
Z
∞
∞
2
e−u du
Z0 ∞
e−v dv
e
e
dudv
e−(u
2 +v 2 )
−u2
e
0
Z ∞Z
0
du ·
e
Z
du ·
2
0
−u2 −v2
0
∞Z ∞
0
dudv.
0
Dieses Doppelintegral lässt sich nun mit der Substitution u = r cos(ϕ) und u = r sin(ϕ) lösen
das heisst, wir verwenden Polarkoordinaten. Dabei müssen wir beachten, dass dudv = rdrdϕ
(vgl. Analysis IV, [14]. Also folgt
Z ∞Z ∞
2
2
2
e−(u +v ) dudv
I =
0
=
Z
π
2
0
=
Z
π
2
0
=
Z
0
π
= .
4
π
2
Z
0
∞
2
e−r rdrdϕ
0
1 −r2 ∞
− e dϕ
2
0
1
dϕ
2
A.3. Die Gausssche Fehlerfunktion
√
p
Damit folgt sofort, dass I = π4 = 2π .
Ein weiteres Integral, die so genannte Gausssche Fehlerfunktion1
Z x
Z x
1
2
2
−u2
erf(x) = √
e
du = √
e−u du
π −x
π 0
127
(1.3.b)
treffen wir auch häufig an. Wir bemerken, dass im Exponenten des Integranden der Faktor 12 fehlt. Mit der Substitution u = √12 z wird der Faktor wieder eingeführt, aber dabei
transformiert sich auch das Argument der Funktion.
Der Zusammenhang mit der Verteilungsfunktion der Standardnormalverteilung
Z z
u2
1
F (z) = Φ(z, 0, 1) = √
e− 2 du
2π −∞
ist durch
1
1 1
Φ(z, 0, 1) = + erf √ z
2 2
2
respektive
√
erf(x) = 2 Φ( 2x, 0, 1) − 1
gegeben.
1
erf steht für das engl. er ror f unction: Fehlerfunktion
128
Anhang A. Mathematische Hilfsmittel
Tafeln
T.1
T.2
T.3
Verteilungsfunktion Φ(z, 0, 1) der standardisierten Normalverteilung . . . .
Quantile zq der standardisierten Normalverteilung . . . . . . . . . . . . . .
Quantile tn,q der Student-t-Verteilung mit n Freiheitsgraden . . . . . . . . .
130
131
132
Die nachfolgenden Tafeln wurden alle mit Hilfe von Excel berechnet.
Aufgabe
Aufgabe T.1. Fertigen Sie selber mit Hilfe eines Computerprogrammes (z.B. Excel) die
nachfolgenden Tafeln an.
129
130
Tafeln
ϕ(z, 0, 1)
Φ(z, 0, 1)
0
z
z
Tabelle T.1: Verteilung Φ(z, 0, 1) der standardisierten Normalverteilung N (0, 1)
z
0.0
0.1
0.2
0.3
0.4
0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.04
0.5160
0.5557
0.5948
0.6331
0.6700
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.5
0.6
0.7
0.8
0.9
0.6915
0.7257
0.7580
0.7881
0.8159
0.6950
0.7291
0.7611
0.7910
0.8186
0.6985
0.7324
0.7642
0.7939
0.8212
0.7019
0.7357
0.7673
0.7967
0.8238
0.7054
0.7389
0.7704
0.7995
0.8264
0.7088
0.7422
0.7734
0.8023
0.8289
0.7123
0.7454
0.7764
0.8051
0.8315
0.7157
0.7486
0.7794
0.8078
0.8340
0.7190
0.7517
0.7823
0.8106
0.8365
0.7224
0.7549
0.7852
0.8133
0.8389
1.0
1.1
1.2
1.3
1.4
0.8413
0.8643
0.8849
0.9032
0.9192
0.8438
0.8665
0.8869
0.9049
0.9207
0.8461
0.8686
0.8888
0.9066
0.9222
0.8485
0.8708
0.8907
0.9082
0.9236
0.8508
0.8729
0.8925
0.9099
0.9251
0.8531
0.8749
0.8944
0.9115
0.9265
0.8554
0.8770
0.8962
0.9131
0.9279
0.8577
0.8790
0.8980
0.9147
0.9292
0.8599
0.8810
0.8997
0.9162
0.9306
0.8621
0.8830
0.9015
0.9177
0.9319
1.5
1.6
1.7
1.8
1.9
0.9332
0.9452
0.9554
0.9641
0.9713
0.9345
0.9463
0.9564
0.9649
0.9719
0.9357
0.9474
0.9573
0.9656
0.9726
0.9370
0.9484
0.9582
0.9664
0.9732
0.9382
0.9495
0.9591
0.9671
0.9738
0.9394
0.9505
0.9599
0.9678
0.9744
0.9406
0.9515
0.9608
0.9686
0.9750
0.9418
0.9525
0.9616
0.9693
0.9756
0.9429
0.9535
0.9625
0.9699
0.9761
0.9441
0.9545
0.9633
0.9706
0.9767
2.0
2.1
2.2
2.3
2.4
0.9772
0.9821
0.9861
0.9893
0.9918
0.9778
0.9826
0.9864
0.9896
0.9920
0.9783
0.9830
0.9868
0.9898
0.9922
0.9788
0.9834
0.9871
0.9901
0.9925
0.9793
0.9838
0.9875
0.9904
0.9927
0.9798
0.9842
0.9878
0.9906
0.9929
0.9803
0.9846
0.9881
0.9909
0.9931
0.9808
0.9850
0.9884
0.9911
0.9932
0.9812
0.9854
0.9887
0.9913
0.9934
0.9817
0.9857
0.9890
0.9916
0.9936
2.5
2.6
2.7
2.8
2.9
0.9938
0.9953
0.9965
0.9974
0.9981
0.9940
0.9955
0.9966
0.9975
0.9982
0.9941
0.9956
0.9967
0.9976
0.9982
0.9943
0.9957
0.9968
0.9977
0.9983
0.9945
0.9959
0.9969
0.9977
0.9984
0.9946
0.9960
0.9970
0.9978
0.9984
0.9948
0.9961
0.9971
0.9979
0.9985
0.9949
0.9962
0.9972
0.9979
0.9985
0.9951
0.9963
0.9973
0.9980
0.9986
0.9952
0.9964
0.9974
0.9981
0.9986
3.0
3.1
3.2
3.3
3.4
0.9987
0.9990
0.9993
0.9995
0.9997
0.9987
0.9991
0.9993
0.9995
0.9997
0.9987
0.9991
0.9994
0.9995
0.9997
0.9988
0.9991
0.9994
0.9996
0.9997
0.9988
0.9992
0.9994
0.9996
0.9997
0.9989
0.9992
0.9994
0.9996
0.9997
0.9989
0.9992
0.9994
0.9996
0.9997
0.9989
0.9992
0.9995
0.9996
0.9997
0.9990
0.9993
0.9995
0.9996
0.9997
0.9990
0.9993
0.9995
0.9997
0.9998
3.5
3.6
3.7
3.8
3.9
0.9998
0.9998
0.9999
0.9999
1.0000
0.9998
0.9998
0.9999
0.9999
1.0000
0.9998
0.9999
0.9999
0.9999
1.0000
0.9998
0.9999
0.9999
0.9999
1.0000
0.9998
0.9999
0.9999
0.9999
1.0000
0.9998
0.9999
0.9999
0.9999
1.0000
0.9998
0.9999
0.9999
0.9999
1.0000
0.9998
0.9999
0.9999
0.9999
1.0000
0.9998
0.9999
0.9999
0.9999
1.0000
0.9998
0.9999
0.9999
0.9999
1.0000
Tafeln
131
ϕ(z, 0, 1)
q
0
1−q
zq
z
Tabelle T.2: Die q-Quantile zq der standardisierten Normalverteilung N (0, 1). Es gilt
z1−q = −zq .
q
0.50
0.51
0.52
0.53
0.54
0.55
0.56
0.57
0.58
0.59
0.000
0.000
0.025
0.050
0.075
0.100
0.126
0.151
0.176
0.202
0.228
0.001
0.003
0.028
0.053
0.078
0.103
0.128
0.154
0.179
0.204
0.230
0.002
0.005
0.030
0.055
0.080
0.105
0.131
0.156
0.181
0.207
0.233
0.003
0.008
0.033
0.058
0.083
0.108
0.133
0.159
0.184
0.210
0.235
0.004
0.010
0.035
0.060
0.085
0.111
0.136
0.161
0.187
0.212
0.238
0.005
0.013
0.038
0.063
0.088
0.113
0.138
0.164
0.189
0.215
0.240
0.006
0.015
0.040
0.065
0.090
0.116
0.141
0.166
0.192
0.217
0.243
0.007
0.018
0.043
0.068
0.093
0.118
0.143
0.169
0.194
0.220
0.246
0.008
0.020
0.045
0.070
0.095
0.121
0.146
0.171
0.197
0.222
0.248
0.009
0.023
0.048
0.073
0.098
0.123
0.148
0.174
0.199
0.225
0.251
0.60
0.61
0.62
0.63
0.64
0.65
0.66
0.67
0.68
0.69
0.253
0.279
0.305
0.332
0.358
0.385
0.412
0.440
0.468
0.496
0.256
0.282
0.308
0.335
0.361
0.388
0.415
0.443
0.470
0.499
0.259
0.285
0.311
0.337
0.364
0.391
0.418
0.445
0.473
0.502
0.261
0.287
0.313
0.340
0.366
0.393
0.421
0.448
0.476
0.504
0.264
0.290
0.316
0.342
0.369
0.396
0.423
0.451
0.479
0.507
0.266
0.292
0.319
0.345
0.372
0.399
0.426
0.454
0.482
0.510
0.269
0.295
0.321
0.348
0.375
0.402
0.429
0.457
0.485
0.513
0.272
0.298
0.324
0.350
0.377
0.404
0.432
0.459
0.487
0.516
0.274
0.300
0.327
0.353
0.380
0.407
0.434
0.462
0.490
0.519
0.277
0.303
0.329
0.356
0.383
0.410
0.437
0.465
0.493
0.522
0.70
0.71
0.72
0.73
0.74
0.75
0.76
0.77
0.78
0.79
0.524
0.553
0.583
0.613
0.643
0.674
0.706
0.739
0.772
0.806
0.527
0.556
0.586
0.616
0.646
0.678
0.710
0.742
0.776
0.810
0.530
0.559
0.589
0.619
0.650
0.681
0.713
0.745
0.779
0.813
0.533
0.562
0.592
0.622
0.653
0.684
0.716
0.749
0.782
0.817
0.536
0.565
0.595
0.625
0.656
0.687
0.719
0.752
0.786
0.820
0.539
0.568
0.598
0.628
0.659
0.690
0.722
0.755
0.789
0.824
0.542
0.571
0.601
0.631
0.662
0.693
0.726
0.759
0.793
0.827
0.545
0.574
0.604
0.634
0.665
0.697
0.729
0.762
0.796
0.831
0.548
0.577
0.607
0.637
0.668
0.700
0.732
0.765
0.800
0.834
0.550
0.580
0.610
0.640
0.671
0.703
0.736
0.769
0.803
0.838
0.80
0.81
0.82
0.83
0.84
0.85
0.86
0.87
0.88
0.89
0.842
0.878
0.915
0.954
0.994
1.036
1.080
1.126
1.175
1.227
0.845
0.882
0.919
0.958
0.999
1.041
1.085
1.131
1.180
1.232
0.849
0.885
0.923
0.962
1.003
1.045
1.089
1.136
1.185
1.237
0.852
0.889
0.927
0.966
1.007
1.049
1.094
1.141
1.190
1.243
0.856
0.893
0.931
0.970
1.011
1.054
1.098
1.146
1.195
1.248
0.860
0.896
0.935
0.974
1.015
1.058
1.103
1.150
1.200
1.254
0.863
0.900
0.938
0.978
1.019
1.063
1.108
1.155
1.206
1.259
0.867
0.904
0.942
0.982
1.024
1.067
1.112
1.160
1.211
1.265
0.871
0.908
0.946
0.986
1.028
1.071
1.117
1.165
1.216
1.270
0.874
0.912
0.950
0.990
1.032
1.076
1.122
1.170
1.221
1.276
0.90
0.91
0.92
0.93
0.94
0.95
0.96
0.97
0.98
0.99
1.282
1.341
1.405
1.476
1.555
1.645
1.751
1.881
2.054
2.326
1.287
1.347
1.412
1.483
1.563
1.655
1.762
1.896
2.075
2.366
1.293
1.353
1.419
1.491
1.572
1.665
1.774
1.911
2.097
2.409
1.299
1.359
1.426
1.499
1.580
1.675
1.787
1.927
2.120
2.457
1.305
1.366
1.433
1.506
1.589
1.685
1.799
1.943
2.144
2.512
1.311
1.372
1.440
1.514
1.598
1.695
1.812
1.960
2.170
2.576
1.317
1.379
1.447
1.522
1.607
1.706
1.825
1.977
2.197
2.652
1.323
1.385
1.454
1.530
1.616
1.717
1.838
1.995
2.226
2.748
1.329
1.392
1.461
1.538
1.626
1.728
1.852
2.014
2.257
2.878
1.335
1.398
1.468
1.546
1.635
1.739
1.866
2.034
2.290
3.090
132
Tafeln
fn (t)
q
1−q
0
tn,q
t
Tabelle T.3: q-Quantile tn,q der Student-t-Verteilung mit n Freiheitsgraden. Da die Dichte
symmetrisch ist, gilt tn,1−q = −tn,q .
n
1
2
3
4
5
6
7
8
9
0.9000
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
0.9500
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
0.9750
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
q
0.9900
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
0.9950
63.656
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
0.9990
318.289
22.328
10.214
7.173
5.894
5.208
4.785
4.501
4.297
0.9995
636.578
31.600
12.924
8.610
6.869
5.959
5.408
5.041
4.781
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
4.144
4.025
3.930
3.852
3.787
3.733
3.686
3.646
3.610
3.579
4.587
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.883
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
3.552
3.527
3.505
3.485
3.467
3.450
3.435
3.421
3.408
3.396
3.850
3.819
3.792
3.768
3.745
3.725
3.707
3.689
3.674
3.660
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
1.310
1.303
1.299
1.296
1.294
1.292
1.291
1.697
1.684
1.676
1.671
1.667
1.664
1.662
2.042
2.021
2.009
2.000
1.994
1.990
1.987
2.457
2.423
2.403
2.390
2.381
2.374
2.368
2.750
2.704
2.678
2.660
2.648
2.639
2.632
3.385
3.307
3.261
3.232
3.211
3.195
3.183
3.646
3.551
3.496
3.460
3.435
3.416
3.402
30
40
50
60
70
80
90
100
150
200
300
400
500
600
800
1000
1.290
1.287
1.286
1.284
1.284
1.283
1.283
1.283
1.282
1.660
1.655
1.653
1.650
1.649
1.648
1.647
1.647
1.646
1.984
1.976
1.972
1.968
1.966
1.965
1.964
1.963
1.962
2.364
2.351
2.345
2.339
2.336
2.334
2.333
2.331
2.330
2.626
2.609
2.601
2.592
2.588
2.586
2.584
2.582
2.581
3.174
3.145
3.131
3.118
3.111
3.107
3.104
3.100
3.098
3.390
3.357
3.340
3.323
3.315
3.310
3.307
3.303
3.300
100
150
200
300
400
500
600
800
1000
∞
1.282
1.645
1.960
2.326
2.576
3.090
3.291
∞
Literaturverzeichnis
[1] K. Bosch, Großes Lehrbuch der Statistik, Oldenburg Verlag, München, 1996.
[2] K. Bosch, Elementare Einführung in die Wahrscheinlichkeitsrechnung, 7. Auflage,
Vieweg Studium-Basiswissen, 2000.
[3] P. Gschwind, Stochastik, Skriptum FHBB, Version 00, 2000.
[4] T. Heim, Stochastik, Skriptum FHBB, 2003.
[5] A. Hoffmann, B. Marx und W. Vogt, Mathematik für Ingenieure 2. Vektoranalysis,
Integraltransformationen, Differenzialgleichungen, Stochastik - Theorie und Numerik,
Pearson Studium, 2006.
[6] R. Ineichen, Stochastik - Einführung in die elementare Statistik und Wahrscheinlichkeitsrechnung, 9. Auflage, Raeber-Verlag, Luzern, 1996.
[7] U. Krengel, Einführung in die Wahrscheinlichkeitstheorie und Statistik, 6. Auflage,
Vieweg Studium-Aufbaukurs Mathematik, 2000.
[8] E. Kreyszig, Statistische Methoden und ihre Anwendungen, Vandenhoeck & Ruprecht,
6. Auflage, 1977.
[9] L. Papula, Mathematik für Ingenieure und Naturwissenschaftler, Band 2, 10. Auflage,
Viewegs Fachbücher der Technik, 2001.
[10] L. Papula, Mathematik für Ingenieure und Naturwissenschaftler, Band 3, 4. Auflage,
Viewegs Fachbücher der Technik, 2001.
[11] J. A. Rice, Mathematical Statistics and Data Analysis, 2nd Edition, Duxbury Press,
1995.
[12] S. M. Ross, Initiation aux probabilités, Presses polytechniques et universitaires romandes, 1999.
[13] W. A. Stahel, Statistische Datenanalyse, 4. Auflage, Viewegs Fachbücher der Technik,
2002.
[14] M. Steiner-Curtis, Analysis I - IV, Skriptum FHNW, 2015.
[15] M. Steiner-Curtis, Datenanalyse, Skriptum FHNW, 2015.
[16] R. Storm, Wahrscheinlichkeitsrechnung, mathematische Statistik und statistische Qualitätskontrolle, 11. Auflage, Fachbuchverlag Leipzig, 2001.
133
134
Literaturverzeichnis
[17] B. L. van der Warden, Mathematische Statistik, 3. Auflage, Springer-Verlag, Berlin,
1973.
Index
Additionssatz, 36
Alternativhypothese, 56, 81
Approximation, 106
arithmetische Mittel, 9
Ausgleichs
-kurve, 106
Ausreisser, 10, 15
Ausreissergrenzen, 15
Axiome
der Wahrscheinlichkeit, 34
von Kolmogoroff, 34
Poissonverteilung, 60
stetig, 67
stetige Zufallsgrösse, 67
Student-t-Verteilung, 93
erzeugende Funktion, 54
Excel
BINOMVERT, 51
NORMINV, 73
NORMVERT, 68
POISSON, 60
STANDNORMVERT, 68
Bézier-Kurven, 53
Bar Chart, 7
Behrens-Fisher-Problem, 99
Bernstein Polynome, 53
BINOMVERT, 51
Boxplot, 2, 15
Fehler
1. Art, 85
2. Art, 85
grobe, 74
systematische, 74
zufällige, 74
Fehlerfunktion, 127
Fehlerkurve, 73
Fehlerquadratsumme, 103, 106, 115
Formparameter, 13
Freiheitsgrade
Student-t-Test, 91
Student-t-Verteilung, 92
Carl Friedrich Gauss, 1777-1855, 74, 103
Cramersche Regel, 104
Daten
diskrete, 5
metrische, 5
qualitative, 5
stetige, 5
Datensatz, 6
Durchschnittsmenge, 18
Galton Francis, 1822-1911, 78
Galtonsches Brett, 78
Gammafunktion, 93
Gausssche
Fehlerfunktion, 127
Glockenkurve, 70
Normalverteilung, 68
Gegenereignis, 19
geometrisches Mittel, 10
Gleichungssystem
lineares, 107
Gleichverteilung, 50, 64
Gosset William Sealey, 1876-1937, 94
Einstichproben-t-Test, 90
Ereignis, 18
sicheres, 18
unmögliches, 18
Ereignisbaum, 22
Error Function, 127
Erwartungswert, 49
Binomialverteilung, 55
diskret, 49
Normalverteilung, 71
135
136
Grenzwertsatz
von de Moivre und Laplace, 77
zentraler, 75
Grundgesamtheit, 2, 3
Häufigkeitstabellen, 6
Häufigkeitsverteilung, 6
harmonisches Mittel, 10
heteroskedastisch, 99
Histogramm, 7
homoskedastisch, 97
Hypothese, 56, 81
Hypothesentest, 56
Intervallschätzungen, 94
Irrtumswahrscheinlichkeit, 57, 82
Klassenbreite, 7
Klasseneinteilung, 7
Kolmogoroff N. Andrey, 1903-1987, 34
Kombinationen, 24
Komplementärmenge, 19
Konfidenzintervall
Einstichproben-t-Test, 94
Erwartungswert, 94
Student-t-Test, 94
Kreisdiagramm, 8
Index
NORMINV, 73
NORMVERT, 68
Nullhypothese, 56, 81
oder, 18
Operationscharakteristik, 87
Optimumseigenschaften, 11
Paarweiser Vergleich
zweier Mittelwerte, 100
Permutationen, 23
permutieren, 23
Perzentil, 72
q-Perzentil, 72
Pie Chart, 8
POISSON, 60
Poissonverteilung, 59
Prüfen
von Erwartungswerten, 89
Produktregel, 22
Quantil, 72
einseitig, 73
Student-t-Verteilung, 93
zweiseitig, 73
q-Quantil, 72
Quartile, 10, 15
Quartilsweite, 15
Lageparameter, 2, 9
Macht eines Tests, 86
Median, 10
Methode der kleinsten Quadrate, 11, 103,
115
Mittel
arithmetische, 9
geometrisches, 10
harmonisches, 10
Mittelwert, 9
geschätzt, 90, 97, 99
MKQ, 103, 115
Monte-Carlo-Methoden, 34
Multiplikationssatz, 37, 38
Normalgleichungssystem, 108
Normalverteilung, 68
standardisierte, 68, 71
Transformation, 71
Regel
von Cramer, 104
Regeln von de Morgan, 125
Regression, 114
Regressions
-funktion, 106
-gerade, 103, 114, 115
-koeffizient, 105, 116
-konstante, 105, 116
Regressionsanalyse, 113
einer Geraden, 116
zweier Geraden, 119
Regressionsrechnung, 103
Remis, 21
Restvarianz, 117
robust, 10, 91
Säulendiagramm, 7
Schach
Index
Remis, 21
σ-Bereich, 69
Signifikanzniveau, 57, 82
Signifikanztest, 57, 82
Simulation, 32
Spannweite, 13
Standardabweichung, 13, 49
Binomialverteilung, 55
Poissonverteilung, 61
standardisierte Normalverteilung, 68
STANDNORMVERT, 68
Statistik
beschreibende, 5
deskriptive, 5
induktive, 3
schliessende, 3
statistischen Tests, 57, 82
Statistischer Test, 81
statistischer Test, 56
Stetigkeitskorrektur, 77
Stichprobe, 2, 3
zufällige, 4
Stichprobenraum, 17
Stichprobenumfang, 2
erforderlicher, 96
Stochastik, 1
Streuung
Binomialverteilung, 55
diskret, 49
diskrete Zufallsgrösse, 49
Normalverteilung, 71
Poissonverteilung, 60
stetig, 67
stetige Zufallsgrösse, 67
Student-t-Verteilung, 93
Student-t-Test, 90
Student-t-Verteilung, 92
Summenfunktion, 44
Summenzeichen, 123
vertauschen, 108
t-Verteilung, 92
Tafeln, 128
Quantile der standardisierten Normalverteilung, 131
standardisierte Normalverteilung, 130
Student-t-Verteilung, 132
137
Teleskopsumme, 124
Test, 56
Einstichproben-t-, 90
t-, 90
z-, 85
Zweistichproben-t-, 96
Testen einer Hypothese, 56
Testgrösse, 82
Regressionsanalyse, 117
Regressionskoeffizienten, 120
Regressionskonstanten, 120
Student-t-Test, 90
Trennschärfe eines Tests, 86
und, 18
Ungleichung
Cauchy-Schwarz, 105
Variable
nichtstochastisch, 113
stochastisch, 114
Varianz
Binomialverteilung, 55
diskret, 49
diskrete Zufallsgrösse, 49
geschätzt, 90, 97, 99
gewogene Mittel der, 97
Normalverteilung, 71
Poissonverteilung, 60
stetig, 67
stetige Zufallsgrösse, 67
Student-t-Verteilung, 93
Variation, 24
Vereinigungsmenge, 18
Verteilung
Binomial-, 51
Gleich-, 64
Normal-, 68
Poisson-, 59
Student-t, 92
t-, 92
Verteilungsfunktion, 44, 64
Vertrauensintervall
Einstichproben-t-Test, 94
Erwartungswert, 94
Student-t-Test, 94
Vertrauenswahrscheinlichkeit, 95
138
Viertelwerte, 11
Wahrscheinlichkeit, 29, 43
experimentelle, 32
theoretische, 29
Wahrscheinlichkeitsdichte, 63, 64
Wahrscheinlichkeitsverteilung, 33, 43
Whiskersplot, 2, 15
z-Test, 85
Zahlenlotto, 29
Zentralwert, 11
Zufall, 17
Zufallsexperiment, 2, 17
Zufallsgrösse, 43
diskret, 44
stetig, 44, 63
Zufallsvariable, 43
Zufallszahlen, 35
zusammengesetzter Versuch, 21
Zweistichproben-t-Test, 96
unbekannte Varianzen, 99
unbekannten gleiche Varianzen, 97
Index