Stetige Zufallsgrößen
•
Darstellung durch Dichtefunktion f
b
P(a  X  b)   f ( x)dx
a
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
0.4
Verteilungsfunktion stetiger Zufallsgrößen
0.2
0.1
0.0
Dichte
0.3
:
-4
-2
0
x
b
2
4
P( X  b)  F (b)  
b

f ( x)dx
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Erwartungswert und Varianz stetiger
Zufallsgrößen
Ist
X
stetig mit Dichtefunktion
E( X )  


f x, so definiert man:
xf ( x)dx
Var ( X )  E (( X  E ( X )) )  
2


( x  E ( X )) 2 f ( x)dx
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Erwartungswert von linear transformierten
Zufallsgrößen
Für eine Zufallsvariable X gilt (mit beliebigen Konstanten a und b):
E (a  b  X )  a  b  E ( X )
Var (a  b  X )  b 2  Var ( X )
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Normalverteilung: Definition
Eine stetige Zufallsvariable X heißt normalverteilt mit den
2
Parametern  und  , kurz X~N  ,  2  , falls sie die
folgende Dichtefunktion besitzt:


2

1
1 (x  ) 
f X ( X ) :
 exp  

2

2  
 2

Erwartungswert
E( X )  
Varianz
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Var ( X )   2
Normalverteilung
X ~ N (; 2 )
Beschreibung: „Glockenkurve“
f ( x) 
1
e
 2
 0 , 5(
x 2
)

dt
Verteilungsfunktion
F ( x) 
1
 2

x

e
 0 , 5(
t  2
)

dt
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Anwendung der Normalverteilung
Die Normalverteilung dient als Verteilungsmodell
in vielen praktischen Fragestellungen, z.B. bei
•
•
•
•
Metrische Größen einer Population
Summen und Durchschnitte von Zufallsgrößen
Natürliche Variabilität
Messfehler
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Schwankungsbereiche der Normalverteilung
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Beispiel zur Normalverteilung
Bei 250 Katzen wurde der Creatinwert im Blut gemessen:
Studie:
Judit Zapirain Gastón et
al.
Prävalenzen des
felinen Herpesvirus-1
felinen Calicivirus und
von Chlamydophila felis
in
Mehrkatzenhaushalten
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Quantile der Normalverteilung: Beispiel
Es sei X eine normalverteilte Zufallsvariable mit
2
=10 und  =25.
Bestimmen Sie die folgenden Wahrscheinlichkeiten:
• P (X > 20)
• P (5 < X < 20)
• P (-2 < X < 15)
Beispiel: Fehler bei Messung
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
i.i.d. Zufallsgrößen
X 1 , X 2 ,..., X n seien unabhängig und identisch verteilt.
Man schreibt auch dafür: X 1 , X 2 ,..., X n i.i.d .
i.i.d. steht für „independent and identically distributed“.
Ist E ( X i ) 
so gilt:
 und Var ( X i )   2,
E ( X 1  X 2  ...  X n )  n
Var ( X 1  X 2  ...  X n )  n 2
1
E ( ( X 1  X 2  ... X n ))  
n
1
2
Var ( ( X 1  X 2  ...  X n )) 
n
n
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Grenzwertsätze
Bei einer Stichprobenziehung werden n Personen gefragt oder
n unabhängige Experimente durchgeführt. Man ordnet jedem
Versuch eine Zufallsgröße Xn zu. Die n Zufallsgrößen sind dann i.i.d.
Von Interesse ist dann u.a. die Verteilung des Stichprobenmittels
1
X : ( X 1  X 2  ...  X n )
n
•
Gesetz der großen Zahlen: Ist  der Erwartungswert einer ZG X, so
liegt das der Mittelwert
•
X
Zentraler Grenzwertsatz:
mit wachsendem n nahe bei 
X
ist für große n annähernd normalverteilt.
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Diskrete Wahrscheinlichkeitsmodelle
• Poisson-Verteilung: Zählen seltener Ereignisse
Wahrscheinlichkeitsfunktion
P( X  k ) 
k
k!
exp(  )
Beispiele: Zahl der Fischvergiftungen pro Zeiteinheit
Zahl der Spontantumoren pro Zeiteinheit
historisch: Zahl der Todesfälle durch Hufschlag pro Jahr und
Regiment
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Beispiel für Possion-Verteilung
Wahrscheinlichkeitsfunktion
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Lebensdauerverteilungen
• Exponentialverteilung
Beispiel: Lebensdauern
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Zusammenfassung: Verteilungen
• Wahrscheinlichkeitsmodelle dienen dazu, bestimmte (unsichere)
Phänomene zu charakterisieren.
• Das Wahrscheinlichkeitsmodell ist abhängig von der zu
charakterisierenden Größe.
In der Literatur gibt es eine Vielzahl solcher Verteilungen.
• Man unterscheidet diskrete und stetige Verteilungen
(Wahrscheinlichkeitsmodelle).
• Wichtige Kennzahlen von Verteilungen sind Erwartungswert und
Varianz.
• Verteilungen haben meist Parameter, die durch das Problem
gegeben sind, oder aus Daten geschätzt werden.
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Statistische Erhebungen
Bei der Erhebung von Daten unterscheidet man:
• Befragungen
z.B. Befragung der Landwirte über das Verhalten der Tiere im Stall
• Experimente
z.B. Versuch, welches Arzneimittel am besten zur Heilung führt
• Beobachtungen
Auftreten einer Krankheit
Erhebungen zu Tieren in einer Tierklinik
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Unterscheidungseinheiten / statistische Einheit /
Merkmalsträger
Individuen, die einer Erhebung zugrunde liegen
Beispiele:
• Einzelne Tiere
• Einzelne Herden
• Einzelne Landwirte
• Haushalte
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Merkmale (Variablen)
Eigenschaften Untersuchungseinheiten z.B.
• Krankheitsstatus
• Blutparameter
• Geschlecht
• Anzahl der Kühe (bei Untersuchungseinheit Landwirt)
Merkmalsausprägungen
mögliche Werte des Merkmals
• Messergebnisse / positive Zahlen
• krank / gesund
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Charakterisierung von Merkmalen
quantitative Merkmale unterscheiden sich durch ihre Größe
• Alter, Gewicht, Milchleistung, Temperatur, Anzahl Keime,
Schadstoffgehalt, …
qualitative Merkmale unterscheiden sich durch ihre Art
• Geschlecht, Namen, Rassen, Haltungsform
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Merkmalswerte
Die gemessenen, erfragten oder beobachteten Ausprägungen
des Untersuchungsmerkmals sind die Merkmalswerte. Sie
stellen die Daten der Erhebung dar.
• Wiederkauverhalten: z.B. in Stunden pro Tag
• Arzneimittel: Dosis 1, Dosis 2, Dosis 0 (Placebo)
• Befund: gesund, fraglich, erkrankt
• Keimzahlen: Anzahl in 1000
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Skalen
Metrische Skala: Die Werte unterliegen einer Rangfolge und die
Abstände zwischen den Werten der Skala lassen sich interpretieren.
•
Gewicht, Keimzahlen, Schadstoffmessung
Ordinalskala: Die Werte unterliegen einer Rangfolge, aber die Abstände zwischen den Werten der Skala lassen sich nicht interpretieren.
•
Bewertung (Noten), Gesundheitszustand
Nominalskala: Die Werte unterliegen keiner Rangfolge und sind nicht
Vergleichbar
•
Geschlecht, Rasse, Haltungsform
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Deskriptive Statistik
Ziel:
Beschreibung von Daten mit möglichst geringem
Informationsverlust
•
•
•
•
Eigenschaften und Strukturen sichtbar machen
Graphisch und durch Kennwerte
Eindimensional und mehrdimensional
Zunächst keine Schlüsse auf die Grundgesamtheit
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Rohdaten und Datenmatrix
Die Daten liegen in der Regel als Datenmatrix vor:
•
•
•
•
Zeilen entsprechen Untersuchungseinheiten
Spalten entsprechen Merkmalen
Elemente der Matrix sind die Merkmalsausprägungen
Fragen mit Mehrfachnennungen als Einzelne binäre Merkmale definieren
Hinweise zur Eingabe unter:
www.stat.uni-muenchen.de/stablab/Excel.html
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Beispiel: Daten zu Mastenten (Ausschnitt)
- Ändern -
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Eindimensionale Statistische Kennwerte
Lagemaßzahlen
•
•
•
•
Wo liegt die Masse der Daten?
Wo liegt die Mehrzahl der Daten?
Wo liegt die Mitte der Daten?
Welche Mehrmalsausprägung ist typisch für die
Häufigkeitsverteilung?
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Statistische Kennwerte
• Über welchen Bereich erstrecken sich
die Daten?
• Wie groß ist die Schwankung der
Ausprägungen?
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Eindimensionale Häufigkeitsverteilung
Hämatokrit
Gültig
Fehlend
Ges amt
35
36
37
38
39
40
41
42
43
44
Ges amt
Sys tem
Häufigkeit
3
7
3
9
16
18
12
5
6
1
80
40
120
Prozent
2,5
5,8
2,5
7,5
13,3
15,0
10,0
4,2
5,0
,8
66,7
33,3
100,0
Gültige
Prozente
3,8
8,8
3,8
11,3
20,0
22,5
15,0
6,3
7,5
1,3
100,0
Kumulierte
Prozente
3,8
12,5
16,3
27,5
47,5
70,0
85,0
91,3
98,8
100,0
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Der Modus
Definition: Häufigster Wert
Eigenschaften:
• oft nicht eindeutig
• nur bei gruppierten Daten oder bei Merkmalen mit wenigen
Ausprägungen sinnvoll
• stabil bei allen eindeutigen Transformationen
• geeignet für alle Skalenniveaus
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Beispiel Modus
Modus = 4
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Der Median
Definition: Wert für den gilt
50% der Daten sind kleiner oder gleich med
50% der Daten sind größer oder gleich med
med =
n 1

(k )
x
falls
k

ganze Zahl


2
1
 ( x ( k )  x ( h 1) ) falls k  n ganze Zahl

2
2
x (1)  x ( n )
sind geordnete Werte
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Eigenschaften des Median
•
•
•
•
anschaulich
stabil gegenüber monotonen Transformationen
geeignet für ordinale Daten
stabil gegenüber Ausreißern
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Beispiel Median
Hämatokrit
Gültig
Fehlend
Ges amt
35
36
37
38
39
40
41
42
43
44
Ges amt
Sys tem
Häufigkeit
3
7
3
9
16
18
12
5
6
1
80
40
120
Prozent
2,5
5,8
2,5
7,5
13,3
15,0
10,0
4,2
5,0
,8
66,7
33,3
100,0
Gültige
Prozente
3,8
8,8
3,8
11,3
20,0
22,5
15,0
6,3
7,5
1,3
100,0
Kumulierte
Prozente
3,8
12,5
16,3
27,5
47,5
70,0
85,0
91,3
98,8
100,0
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Statistiken
Hämatokrit
N
Gültig
Fehlend
Median
Modus
80
40
40,00
40
Das Quantil (Perzentil)
Definition: Wert für den gilt
Anteil p der Daten sind kleiner oder gleich xp
Anteil 1-p der Daten sind größer oder gleich xp

(k )

 x falls np keine ganze Zahl und k kleinsteZahl  np

1 (k )
( h 1)

(
x

x
) falls k  np ganze Zahl

2

Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Fünf-Punkte
Zusammenfassung
Minimum, 25%-Quantil, Median,75%-Quantil,Maximum
Hämatokrit
Gültig
Fehlend
Ges amt
35
36
37
38
39
40
41
42
43
44
Ges amt
Sys tem
Häufigkeit
3
7
3
9
16
18
12
5
6
1
80
40
120
Prozent
2,5
5,8
2,5
7,5
13,3
15,0
10,0
4,2
5,0
,8
66,7
33,3
100,0
Gültige
Prozente
3,8
8,8
3,8
11,3
20,0
22,5
15,0
6,3
7,5
1,3
100,0
Kumulierte
Prozente
3,8
12,5
16,3
27,5
47,5
70,0
85,0
91,3
98,8
100,0
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Statistiken
Hämatokrit
N
Gültig
Fehlend
Median
Perzentile 10
25
50
75
90
99
80
40
40,00
36,00
38,00
40,00
41,00
42,00
44,00
Der Mittelwert (arithmetisches Mittel)
1 n
x   xi
n i 1
• bekanntestes Lagemaß
• instabil gegen extreme Werte
• geeignet für Intervallskalierte Daten
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Beispiel Mittelwert
Hämatokrit
Gültig
Fehlend
Ges amt
Häufigkeit
3
7
3
9
16
18
12
5
6
1
80
40
120
35
36
37
38
39
40
41
42
43
44
Ges amt
Sys tem
Prozent
2,5
5,8
2,5
7,5
13,3
15,0
10,0
4,2
5,0
,8
66,7
33,3
100,0
Gültige
Prozente
3,8
8,8
3,8
11,3
20,0
22,5
15,0
6,3
7,5
1,3
100,0
Kumulierte
Prozente
3,8
12,5
16,3
27,5
47,5
70,0
85,0
91,3
98,8
100,0
Deskriptive Statistik
N
Hämatokrit
Gültige Werte
(Lis tenweise)
80
Minimum
35
Maximum
44
Mittelwert
39,48
80
Vorlesung Biometrie für Studierende
der Veterinärmedizin 16.11.2006
Standardab
weichung
2,093