1 MUSTERPRÜFUNGSTERMIN – ANGEWANDTE STATISTIK I Bitte stellen Sie ihre Ausführungen (wie lauten die Zufallsvariablen, welche Verteilungsfunktionen werden angenommen, verwendete Formeln, Zwischenergebnisse, Endergebnis) strukturiert und nachvollziehbar dar! Es wird empfohlen, die Berechnungen mit R durchzuführen! Arbeitszeit: 60 Minuten Beurteilung: Jede Teilaufgabe zählt gleich viel (2P), max. Punktezahl=18 4: (10.5, 12.5], 3: (12.5, 14.5], 2: (14.5, 16.5], 1: (16.5, 18] 1a. Ein Produkt wird vom Hersteller in Packungen von 40 Stück ausgeliefert. Im Rahmen der Eingangskontrolle wird nach folgendem Plan geprüft: Es werden 5 Stück aus der gelieferten Packung zufällig ausgewählt (ohne Zurücklegen) und auf Fehler überprüft. Ist kein Stück fehlerhaft, wird die Packung angenommen, andernfalls zurückgeschickt. Wie groß ist die Wahrscheinlichkeit, dass bei diesem Prüfplan die Packung angenommen wird, wenn sie 2 defekte Stücke enthält? 1b. Bei einem diagnostischen Verfahren (Mammogaphie) ist bei Vorliegen der Erkrankung (Brustkrebs) das Testergebnis mit 90%iger Wahrscheinlichkeit positiv. Wenn die Erkrankung nicht vorliegt, fällt der Test mit 9%iger Wahrscheinlichkeit positiv aus. Die Erkrankung tritt in einer Zielgruppe mit 1%iger Wahrscheinlichkeit auf. Mit welcher Wahrscheinlichkeit hat eine Frau mit positivem Testergebnis tatsächlich Brustkrebs? 2. In einer Studie wurde ein neues Präparat eingesetzt. a. Es wurden 200 Patienten mit dem Präparat therapiert, von denen 12 innerhalb von 4 Wochen verstarben. Man bestimme für die Sterbewahrscheinlichkeit p einen Schätzwert und ein 95%-Konfidenzintervall. 2 b. Unter der Annahme, dass die Wirkstoffmenge X (in mg) im Präparat N(µ, σ )-verteilt ist mit µ=2 und σ=0.5, bestimme man die Wahrscheinlichkeit, dass X einen Wert zwischen dem unteren und oberen Quartil annimmt. 3. Die wiederholte Messung der Konzentration eines Wirkstoffes X ergab im Rahmen eines Ringversuches für die Labors A und B die folgenden Werte (Angaben in mg/l). Proben-Nr. Labor A Labor B 1 3.15 2.77 2 2.36 2.86 3 3.09 3.41 4 2.82 3.13 5 2.42 3.59 6 2.65 2.83 7 2.77 2.53 8 2.34 3.04 a. Man beschreibe die Messreihe des Labors A mit Hilfe der „5-Punkte-Zusammenfassung“ (kleinster Messwert, unteres Quartil, Median, oberes Quartil, größter Messwert) und skizziere ein Boxplot. Erklären Sie mit eigenen Worten, was Sie unter dem Median und dem Interquartilabstand einer Messreihe verstehen. 2 b. Man nehme an, dass die Messgröße X N(µ, σ )-verteilt ist und bestimme mit den Messwerten des Labors B einen Schätzwert und ein 95%iges Konfidenzintervall für µ. Was sagt dieses Konfidenzintervall über µ aus? c. Man überprüfe, ob die Daten der Normalverteilungsannahme widersprechen (getrennt für beide Labors). d. Welche Anzahl von Messwiederholungen müsste in b. geplant werden, um eine Schätzung des Mittelwerts mit einer Genauigkeit von ± 0.1 (d.h. einer halben Breite des Konfidenzintervalls) und einer Sicherheit von 95% erwarten zu können? Man stelle ferner die Abhängigkeit der Genauigkeit (halbe Intervalllänge) von der Sicherheit (1-α) tabellarisch für die Werte 1-α=0.8, 0.85, 0.9, 0.95 dar. e. Man bestimme mit den Messwerten des Labors A einen Schätzwert und ein 95%iges Konfidenzintervall für σ. 1a. 2 MUSTERPRÜFUNGSTERMIN – ANGEWANDTE STATISTIK I > # X = Anzahl der fehlerhaften Einheiten in der Prüfstichprobe > N <- 40 # Umfang des Produktionsloses > n <- 5 # Umfang der Prüfstichprobe > a <- 2 # Anzahl der defekten Stücke im Produktionslos > # N < 60 und n/N =1/8 > 0.1: Exaktes Verteilungsmodell ist anzuwenden! > # Rechnung mit hypergeometrischer Verteilung > P_an <- phyper(0, a, N-a, n); P_an [1] 0.7628205 1b. > P_krank <- 0.01 # Ws, dass Person krank (Prävalenz) > P_gesund <- 1- P_krank # Ws, dass Person gesund > Ppos_krank <- 0.9 # Ws, dass kranke Person testpositiv (Sensibilität) > Ppos_gesund <- 0.09 # Ws, dass gesunde Person testpositiv > # PPV = Ws, dass testpositive Person krank ist > PPV <- Ppos_krank*P_krank/(Ppos_krank*P_krank + Ppos_gesund*P_gesund); PPV [1] 0.09174312 2a. > # Clopper-Pearson > n<- 200; m <- 12 > y <- m/n # Schätzwert > alpha <- 0.05 > qu <- qf(alpha/2, 2*m, 2*(n-m+1)) > qo <- qf(1-alpha/2, 2*(m+1), 2*(n-m)) > pu <- m*qu/(n-m+1+m*qu); po <- (m+1)*qo/(n-m+(m+1)*qo) > print(cbind(alpha, y, qu, qo, pu, po)) alpha y qu qo pu po [1,] 0.05 0.06 0.5103129 1.650911 0.03138395 0.1024618 > # > # CI mit binom.test > binom.test(m, n) Exact binomial test data: m and n number of successes = 12, number of trials = 200, p-value < 2.2e-16 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.03138395 0.10246183 sample estimates: probability of success 0.06 > # Näherungsweise Berechnung (Agresti-Coull) > # Voraussetzung: ny(1-y) > 9 mit y=m/n > n<- 200; m <- 12; y <- m/n > y*n*(1-y) >9 [1] TRUE > alpha <- 0.05; zq <- qnorm(1-alpha/2) > mW <- (m+zq^2/2)/(n+zq^2); lA <- zq*sqrt(mW*(1-mW)/(n+zq^2)) > u <- mW-lA; o <- mW+lA > print(cbind(y, u, o), digits=5) y u o [1,] 0.06 0.033664 0.10292 2b. > X normalverteilt mit mu=2 und sigma=0.5 > mu <- 2; sigma <- 0.5 > a <-qnorm(0.25, mu, sigma); b <- qnorm(0.75, mu, sigma) > P <- pnorm(b, mu, sigma)-pnorm(a, mu, sigma) > print(cbind(a, b, P)) 3 MUSTERPRÜFUNGSTERMIN – ANGEWANDTE STATISTIK I a b P [1,] 1.6628 2.3372 0.5 3a. > xa <- c(3.15, 2.36, 3.09, 2.82, 2.42, 2.65, 2.77, 2.34) > xmin <- min(xa); xmax <- max(xa) > x025 <- quantile(xa, 0.25)[[1]]; x05 <- quantile(xa, 0.5)[[1]] > x075 <- quantile(xa, 0.75)[[1]]; iqr <- x075-x025 > print(cbind(xmin, x025, x05, x075, xmax, iqr)) xmin x025 x05 x075 xmax iqr [1,] 2.34 2.405 2.71 2.8875 3.15 0.4825 > # oder mit Fünf-Punkte-Zusammenfassung > fivenum(xa) [1] 2.340 2.390 2.710 2.955 3.150 Median einer Messreihe: Ungerader Stichprobenumfang: Mittlerer Messwert der nach aufsteigender Größe angeordneten Messreihe Gerader Stichprobenumfang: arithmetisches Mittel der beiden mittleren Elemente der nach aufsteigender Größe angeordneten Messreihe Interquartilabstand: Differenz zwischen dem oberen und unteren Quartil 3b. > xb <- c(2.77, 2.86, 3.41, 3.13, 3.59, 2.83, 2.53, 3.04) > options(digits=4); n <- length(xb) > xquerb <- mean(xb); sb <- sd(xb) > print(cbind(n, xquerb, sb)) n xquerb sb [1,] 8 3.02 0.3492 > alpha <- 0.05; q <- qt(1-alpha/2, n-1) > se <- sb/sqrt(n); d <- se*q > u <- xquerb-d; o <- xquerb+d > print(cbind(alpha, q, se, d, u, o)) alpha q se d u o [1,] 0.05 2.365 0.1235 0.292 2.728 3.312 > # CI mit t.test > t.test(xb) One Sample t-test data: xb t = 24.46, df = 7, p-value = 4.865e-08 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 2.728 3.312 sample estimates: mean of x 3.02 Interpretation: u und o sind Realisierungen von Zufallsvariablen, die mit der vorgegebenen Wahrscheinlichkeit von 1-alpha=95% den (unbekannten) Mittelwert mu einschließen. 3c. > xa <- c(3.15, 2.36, 3.09, 2.82, 2.42, 2.65, 2.77, 2.34) > xb <- c(2.77, 2.86, 3.41, 3.13, 3.59, 2.83, 2.53, 3.04) > library(extRemes) > par(mfrow=c(1, 2)) > xxa <- qqnorm(xa); xxa; qqline(xa) lower upper qnorm data 1 NaN -0.38679018 -1.5341205 2.34 4 MUSTERPRÜFUNGSTERMIN – ANGEWANDTE STATISTIK I 2 3 4 5 6 7 8 > 1 2 3 4 5 6 7 8 NaN -0.06407369 -1.95073608 0.25193870 -1.03410207 0.59612990 -0.59612990 1.03410207 -0.25193870 1.95073608 0.06407369 NaN 0.38679018 NaN xxb <- qqnorm(xb); xxb; lower upper NaN -0.38679018 NaN -0.06407369 -1.95073608 0.25193870 -1.03410207 0.59612990 -0.59612990 1.03410207 -0.25193870 1.95073608 0.06407369 NaN 0.38679018 NaN -0.8871466 -0.4887764 -0.1573107 0.1573107 0.4887764 0.8871466 1.5341205 qqline(xb) qnorm -1.5341205 -0.8871466 -0.4887764 -0.1573107 0.1573107 0.4887764 0.8871466 1.5341205 2.36 2.42 2.65 2.77 2.82 3.09 3.15 data 2.53 2.77 2.83 2.86 3.04 3.13 3.41 3.59 3d. > # Approximation: t-Quantil durch z-Quantil (Voraussetz.: n!) > xb <- c(2.77, 2.86, 3.41, 3.13, 3.59, 2.83, 2.53, 3.04) > options(digits=4); sb <- sd(xb) > d <- 0.1 > n_mindest <- (qnorm(1-alpha/2)*sb/d)^2 > print(n_mindest) # muss größer als 20 sein! [1] 46.85 3e. > xa <- c(3.15, 2.36, 3.09, 2.82, 2.42, 2.65, 2.77, 2.34) > sigma_CI <- function(alpha, n, s2){ + qu <- qchisq(1-alpha/2, n-1); qo <- qchisq(alpha/2, n-1) + u <- sqrt((n-1)*s2/qu); o <- sqrt((n-1)*s2/qo) + grenzen <- c(u, o) + return(grenzen)} > # Labor A > (sda <- sd(xa)) [1] 0.3162 > (grenzen_A <- sigma_CI(0.05, length(xa), var(xa))) [1] 0.2091 0.6436
© Copyright 2024 ExpyDoc