MUSTERPRÜFUNGSTERMIN – ANGEWANDTE STATISTIK I

1
MUSTERPRÜFUNGSTERMIN – ANGEWANDTE STATISTIK I
Bitte stellen Sie ihre Ausführungen (wie lauten die Zufallsvariablen, welche Verteilungsfunktionen werden
angenommen, verwendete Formeln, Zwischenergebnisse, Endergebnis) strukturiert und nachvollziehbar dar! Es
wird empfohlen, die Berechnungen mit R durchzuführen!
Arbeitszeit: 60 Minuten
Beurteilung: Jede Teilaufgabe zählt gleich viel (2P), max. Punktezahl=18
4: (10.5, 12.5], 3: (12.5, 14.5], 2: (14.5, 16.5], 1: (16.5, 18]
1a. Ein Produkt wird vom Hersteller in Packungen von 40 Stück ausgeliefert. Im Rahmen der
Eingangskontrolle wird nach folgendem Plan geprüft: Es werden 5 Stück aus der gelieferten
Packung zufällig ausgewählt (ohne Zurücklegen) und auf Fehler überprüft. Ist kein Stück
fehlerhaft, wird die Packung angenommen, andernfalls zurückgeschickt. Wie groß ist die
Wahrscheinlichkeit, dass bei diesem Prüfplan die Packung angenommen wird, wenn sie 2 defekte
Stücke enthält?
1b. Bei einem diagnostischen Verfahren (Mammogaphie) ist bei Vorliegen der Erkrankung
(Brustkrebs) das Testergebnis mit 90%iger Wahrscheinlichkeit positiv. Wenn die Erkrankung nicht
vorliegt, fällt der Test mit 9%iger Wahrscheinlichkeit positiv aus. Die Erkrankung tritt in einer
Zielgruppe mit 1%iger Wahrscheinlichkeit auf. Mit welcher Wahrscheinlichkeit hat eine Frau mit
positivem Testergebnis tatsächlich Brustkrebs?
2. In einer Studie wurde ein neues Präparat eingesetzt.
a. Es wurden 200 Patienten mit dem Präparat therapiert, von denen 12 innerhalb von 4
Wochen verstarben. Man bestimme für die Sterbewahrscheinlichkeit p einen Schätzwert
und ein 95%-Konfidenzintervall.
2
b. Unter der Annahme, dass die Wirkstoffmenge X (in mg) im Präparat N(µ, σ )-verteilt ist mit
µ=2 und σ=0.5, bestimme man die Wahrscheinlichkeit, dass X einen Wert zwischen dem
unteren und oberen Quartil annimmt.
3. Die wiederholte Messung der Konzentration eines Wirkstoffes X ergab im Rahmen eines
Ringversuches für die Labors A und B die folgenden Werte (Angaben in mg/l).
Proben-Nr.
Labor A
Labor B
1
3.15
2.77
2
2.36
2.86
3
3.09
3.41
4
2.82
3.13
5
2.42
3.59
6
2.65
2.83
7
2.77
2.53
8
2.34
3.04
a. Man beschreibe die Messreihe des Labors A mit Hilfe der „5-Punkte-Zusammenfassung“
(kleinster Messwert, unteres Quartil, Median, oberes Quartil, größter Messwert) und
skizziere ein Boxplot. Erklären Sie mit eigenen Worten, was Sie unter dem Median und
dem Interquartilabstand einer Messreihe verstehen.
2
b. Man nehme an, dass die Messgröße X N(µ, σ )-verteilt ist und bestimme mit den
Messwerten des Labors B einen Schätzwert und ein 95%iges Konfidenzintervall für µ.
Was sagt dieses Konfidenzintervall über µ aus?
c. Man überprüfe, ob die Daten der Normalverteilungsannahme widersprechen (getrennt für
beide Labors).
d. Welche Anzahl von Messwiederholungen müsste in b. geplant werden, um eine
Schätzung des Mittelwerts mit einer Genauigkeit von ± 0.1 (d.h. einer halben Breite des
Konfidenzintervalls) und einer Sicherheit von 95% erwarten zu können? Man stelle ferner
die Abhängigkeit der Genauigkeit (halbe Intervalllänge) von der Sicherheit (1-α)
tabellarisch für die Werte 1-α=0.8, 0.85, 0.9, 0.95 dar.
e. Man bestimme mit den Messwerten des Labors A einen Schätzwert und ein 95%iges
Konfidenzintervall für σ.
1a.
2
MUSTERPRÜFUNGSTERMIN – ANGEWANDTE STATISTIK I
> # X = Anzahl der fehlerhaften Einheiten in der Prüfstichprobe
> N <- 40 # Umfang des Produktionsloses
> n <- 5 # Umfang der Prüfstichprobe
> a <- 2 # Anzahl der defekten Stücke im Produktionslos
> # N < 60 und n/N =1/8 > 0.1: Exaktes Verteilungsmodell ist anzuwenden!
> # Rechnung mit hypergeometrischer Verteilung
> P_an <- phyper(0, a, N-a, n); P_an
[1] 0.7628205
1b.
> P_krank <- 0.01 # Ws, dass Person krank (Prävalenz)
> P_gesund <- 1- P_krank # Ws, dass Person gesund
> Ppos_krank <- 0.9 # Ws, dass kranke Person testpositiv (Sensibilität)
> Ppos_gesund <- 0.09 # Ws, dass gesunde Person testpositiv
> # PPV = Ws, dass testpositive Person krank ist
> PPV <- Ppos_krank*P_krank/(Ppos_krank*P_krank + Ppos_gesund*P_gesund);
PPV
[1] 0.09174312
2a.
> # Clopper-Pearson
> n<- 200; m <- 12
> y <- m/n # Schätzwert
> alpha <- 0.05
> qu <- qf(alpha/2, 2*m, 2*(n-m+1))
> qo <- qf(1-alpha/2, 2*(m+1), 2*(n-m))
> pu <- m*qu/(n-m+1+m*qu); po <- (m+1)*qo/(n-m+(m+1)*qo)
> print(cbind(alpha, y, qu, qo, pu, po))
alpha
y
qu
qo
pu
po
[1,] 0.05 0.06 0.5103129 1.650911 0.03138395 0.1024618
> #
> # CI mit binom.test
> binom.test(m, n)
Exact binomial test
data: m and n
number of successes = 12, number of trials = 200, p-value < 2.2e-16
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.03138395 0.10246183
sample estimates:
probability of success
0.06
> # Näherungsweise Berechnung (Agresti-Coull)
> # Voraussetzung: ny(1-y) > 9 mit y=m/n
> n<- 200; m <- 12; y <- m/n
> y*n*(1-y) >9
[1] TRUE
> alpha <- 0.05; zq <- qnorm(1-alpha/2)
> mW <- (m+zq^2/2)/(n+zq^2); lA <- zq*sqrt(mW*(1-mW)/(n+zq^2))
> u <- mW-lA; o <- mW+lA
> print(cbind(y, u, o), digits=5)
y
u
o
[1,] 0.06 0.033664 0.10292
2b.
> X normalverteilt mit mu=2 und sigma=0.5
> mu <- 2; sigma <- 0.5
> a <-qnorm(0.25, mu, sigma); b <- qnorm(0.75, mu, sigma)
> P <- pnorm(b, mu, sigma)-pnorm(a, mu, sigma)
> print(cbind(a, b, P))
3
MUSTERPRÜFUNGSTERMIN – ANGEWANDTE STATISTIK I
a
b
P
[1,] 1.6628 2.3372 0.5
3a.
> xa <- c(3.15, 2.36, 3.09, 2.82, 2.42, 2.65, 2.77, 2.34)
> xmin <- min(xa); xmax <- max(xa)
> x025 <- quantile(xa, 0.25)[[1]]; x05 <- quantile(xa, 0.5)[[1]]
> x075 <- quantile(xa, 0.75)[[1]]; iqr <- x075-x025
> print(cbind(xmin, x025, x05, x075, xmax, iqr))
xmin x025 x05
x075 xmax
iqr
[1,] 2.34 2.405 2.71 2.8875 3.15 0.4825
> # oder mit Fünf-Punkte-Zusammenfassung
> fivenum(xa)
[1] 2.340 2.390 2.710 2.955 3.150
Median einer Messreihe:
Ungerader Stichprobenumfang: Mittlerer Messwert der nach aufsteigender
Größe angeordneten Messreihe
Gerader Stichprobenumfang: arithmetisches Mittel der beiden mittleren
Elemente der nach aufsteigender Größe angeordneten Messreihe
Interquartilabstand:
Differenz zwischen dem oberen und unteren Quartil
3b.
> xb <- c(2.77, 2.86, 3.41, 3.13, 3.59, 2.83, 2.53, 3.04)
> options(digits=4); n <- length(xb)
> xquerb <- mean(xb); sb <- sd(xb)
> print(cbind(n, xquerb, sb))
n xquerb
sb
[1,] 8
3.02 0.3492
> alpha <- 0.05; q <- qt(1-alpha/2, n-1)
> se <- sb/sqrt(n); d <- se*q
> u <- xquerb-d; o <- xquerb+d
> print(cbind(alpha, q, se, d, u, o))
alpha
q
se
d
u
o
[1,] 0.05 2.365 0.1235 0.292 2.728 3.312
> # CI mit t.test
> t.test(xb)
One Sample t-test
data: xb
t = 24.46, df = 7, p-value = 4.865e-08
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
2.728 3.312
sample estimates:
mean of x
3.02
Interpretation:
u und o sind Realisierungen von Zufallsvariablen, die mit
der vorgegebenen Wahrscheinlichkeit von 1-alpha=95% den (unbekannten)
Mittelwert mu einschließen.
3c.
> xa <- c(3.15, 2.36, 3.09, 2.82, 2.42, 2.65, 2.77, 2.34)
> xb <- c(2.77, 2.86, 3.41, 3.13, 3.59, 2.83, 2.53, 3.04)
> library(extRemes)
> par(mfrow=c(1, 2))
> xxa <- qqnorm(xa); xxa; qqline(xa)
lower
upper
qnorm data
1
NaN -0.38679018 -1.5341205 2.34
4
MUSTERPRÜFUNGSTERMIN – ANGEWANDTE STATISTIK I
2
3
4
5
6
7
8
>
1
2
3
4
5
6
7
8
NaN -0.06407369
-1.95073608 0.25193870
-1.03410207 0.59612990
-0.59612990 1.03410207
-0.25193870 1.95073608
0.06407369
NaN
0.38679018
NaN
xxb <- qqnorm(xb); xxb;
lower
upper
NaN -0.38679018
NaN -0.06407369
-1.95073608 0.25193870
-1.03410207 0.59612990
-0.59612990 1.03410207
-0.25193870 1.95073608
0.06407369
NaN
0.38679018
NaN
-0.8871466
-0.4887764
-0.1573107
0.1573107
0.4887764
0.8871466
1.5341205
qqline(xb)
qnorm
-1.5341205
-0.8871466
-0.4887764
-0.1573107
0.1573107
0.4887764
0.8871466
1.5341205
2.36
2.42
2.65
2.77
2.82
3.09
3.15
data
2.53
2.77
2.83
2.86
3.04
3.13
3.41
3.59
3d.
> # Approximation: t-Quantil durch z-Quantil (Voraussetz.: n!)
> xb <- c(2.77, 2.86, 3.41, 3.13, 3.59, 2.83, 2.53, 3.04)
> options(digits=4); sb <- sd(xb)
> d <- 0.1
> n_mindest <- (qnorm(1-alpha/2)*sb/d)^2
> print(n_mindest) # muss größer als 20 sein!
[1] 46.85
3e.
> xa <- c(3.15, 2.36, 3.09, 2.82, 2.42, 2.65, 2.77, 2.34)
> sigma_CI <- function(alpha, n, s2){
+
qu <- qchisq(1-alpha/2, n-1); qo <- qchisq(alpha/2, n-1)
+
u <- sqrt((n-1)*s2/qu); o <- sqrt((n-1)*s2/qo)
+
grenzen <- c(u, o)
+
return(grenzen)}
> # Labor A
> (sda <- sd(xa))
[1] 0.3162
> (grenzen_A <- sigma_CI(0.05, length(xa), var(xa)))
[1] 0.2091 0.6436