Es. 1.1 Un certo macchinario produce lotti di 100 pezzi ciascuno. Il numero di pezzi difettosi in 25 lotti ispezionati è 1, 5, 3, 1, 3, 2, 2, 1, 2, 5, 3, 0, 1, 4, 3, 7, 1, 3, 1, 7, 2, 1, 2, 4, 8 Costruire l’istogramma, determinare la media, la mediana, l’ottantesimo percentile, i quartili, la varianza campionaria, la deviazione standard della media e confrontare la distribuzione con la distribuzione normale. Sol. Costruisco l’istogramma 1 1 1 1 1 1 0 1 2 2 2 2 2 3 3 3 3 4 5 3 4 5 7 7 8 Determinare la media nei miei dati significa calcolare µX = 1 25 (1 + 5 + 3 + 1 + 3 + 2 + 2 + 1 + 2 + 5 + 3 + 0 +1 + 4 + 3 + 7 + 1 + 3 + 1 + 7 + 2 + 1 + 2 + 4 + 8) = 2, 88. La mediana é quel valore x t.c. P(X ≤ x) = 12 , nel nostro caso possiamo cercare di capire questa informazione dal campione e vedo che 13 valori sono minori o uguali a 2 e 12 valori sono maggiori di 2, quindi la mediana é 2. L’ottantesimo percentile é quel valore x t.c. P(X ≤ x) = 0, 8, nel nostro caso 20 valori sono minori o uguali a 4, ma anche strettamente minori di 5, quindi qualsiasi valore tra 4 e 5 soddisfa la rinchiesta e l’ottantesimo percentile viene scelto come 4+5 = 4, 5. 2 I quartili sono il venticinquesimo e il settantacinquesimo percentile, quindi sono i valori 1 per il venticinquesimo e 4 per il settantacinquesimo. I due quartili saranno utili per confrontare la distribuzione con la distribuzione normale. La varianza campionaria é 1 [(1 24 − 2, 88)2 + (5 − 2, 88)2 + (3 − 2, 88)2 + (1 − 2, 88)2 + (3 − 2, 88)2 +(2 − 2, 88)2 + (2 − 2, 88)2 + (1 − 2, 88)2 + (2 − 2, 88)2 + (5 − 2, 88)2 +(3 − 2, 88)2 + (0 − 2, 88)2 + (1 − 2, 88)2 + (4 − 2, 88)2 + (3 − 2, 88)2 +(7 − 2, 88)2 + (1 − 2, 88)2 + (3 − 2, 88)2 + (1 − 2, 88)2 + (7 − 2, 88)2 +(2 − 2, 88)2 + (1 − 2, 88)2 + (2 − 2, 88)2 + (4 − 2, 88)2 + (8 − 2, 88)2 ] = · · · = 4, 5267. s2X = 1 La deviazione standard della media invece é √ 4, 5267 sX = 0, 4255. sX = √ = 5 n Per confrontare il campione che abbiamo a disposizione con la distribuzione normale dobbiamo servirci della relazione che c’é per i quartili della normale di media µ e varianza σ 2 , ovvero il 25esimo percentile é µ − 0, 68σ e il 75esimo percentile é µ + 0, 68σ. Usiamo le stime che abbiamo fatto precedentemente per media e deviazione standard, cosí √ il 25esimo percentile dovrebbe essere 2, 88 − 0, √ 68 4, 5267 = 1, 43 e il 75esimo percentile dovrebbe essere 2, 88+0, 68 4, 5267 = 4, 43. Questa differenza con i valori ottenuti, la distanza tra media e mediana (nella distribuzione normale coincidono) e l’asimmetria dei dati fanno immaginare che non siano estratti da una popolazione gaussiana, anche se non posso escludere con sicurezza che invece siano derivati proprio da una popolazione normale. Es. 1.2 Per misurare accuratamente dei pesi viene usata una scala digitale. Sia X la variabile aleatoria che indica la misurazione fatta usando questa scala e si considerino i seguenti intervalli di valori di misurazione: A : peso supera i 20 grammi B : peso è inferiore o uguale a 15 grammi C : peso è compreso tra 15 e 24 grammi (estremi esclusi). Si conoscono le seguenti probabilità: P (X ∈ A) = 0.5, P (X ∈ B) = 0.3, P (X ∈ C) = 0.6 a) A e B sono mutuamente disgiunti? B e C? A e C? b) Descrivere Ac e determinarne la probabilità. c) Descrivere C c e determinarne la probabilità. d) Determinare P (15 < X ≤ 20). Sol. a) A e B sono disgiunti, B e C sono disgiunti, mentre C e A non lo sono. b) L’evento Ac si descrive come {il peso é minore o uguale a 20 grammi }. La probabilità é P(X ∈ Ac ) = P(X ∈ Ω − A) = 1 − P(X ∈ A) = 0, 5. 2 c) L’evento C c si descrive come {il peso é minore o uguale a 15 grammi } ∪ {il peso é maggiore o uguale a 24 grammi }. La probabilità é P(X ∈ C c ) = P(X ∈ Ω − C) = 1 − P(X ∈ C) = 0, 4. d) Per determinare P (15 < X ≤ 20) devo descrivere l’evento in questione, cioé l’evento {il peso é strettamente maggiore di 15 e minore o uguale a 20 }. Questo evento é equivalente a Ac − B, la cui probabilitá é P(X ∈ Ac − B) = P(X ∈ Ac ) − P(X ∈ B) = 0, 5 − 0, 3 = 0, 2. Es. 1.3 In un gioco televisivo viene messo in palio un 1 milione di euro. Per vincerlo il concorrente dovrà indovinare fra tre buste qual è quella che contiene l’assegno. Il concorrente sceglie a caso una busta; a questo punto il conduttore mostra una delle due buste che sa essere vuota, offrendo al concorrente di cambiare la propria busta con quella rimanente. Qual è la probabilità di vincere il premio conservando la prima busta scelta? Qual è la probabilità di vincere cambiando la busta? Qual è la probabilità di vincere se gioca a testa e croce fra le due strategie? Sol. - La prima strategia che consideriamo é quella in cui si conserva la busta scelta inizialmente. Per calcolare la probabilitá di vincita ho bisogno di considerare casi favorevoli e casi possibili, i casi possibili sono le tre possibili scelte della busta che il concorrente può fare all’inizio, mentre i casi favorevoli sono uno solo, ovvero il caso in cui il concorrente aveva scelto la busta vincente all’inizio, quindi P(V |senza cambiare) = 13 . - La seconda strategia che consideriamo é quella in cui si cambia la busta scelta inizialmente. Per calcolare la probabilitá di vincita i casi possibili sono sempre i tre precedenti, mentre i casi favorevoli sono due, cioé i casi in cui il concorrente aveva scelto la busta perdente all’inizio, perché in quel caso cambiando finirà sempre per scegliere la busta vincente (l’altra busta perdente é stata eliminata). Quindi P(V |cambiando) = 32 . - Per la terza strategia é necessario ricorrere alla formula delle probabilità totali. Immaginiamo che il concorrente scelga di cambiare 3 se esce testa. Voglio calcolare P(V ) = P(V |testa)P(testa) + P(V |croce)P(croce) = P(V |cambiando) 21 + P(V |senza cambiare) 21 = 23 12 + 13 12 = 12 . Es. 2.1 Sia X una variabile aleatoria con funzione di ripartizione: 0, se x < 0 1 2 x , se 0≤x<5 50 F (x) = 1 2 2 − x + 5 x − 1 se 5 ≤ x < 10 50 1 se x ≥ 10 a) Disegnare F . Quali valori può assumere la variabile aleatoria (continua) X? b) Mostrare che X ha densità e calcolarla. c) Calcolare il valore atteso di X e quello di X 2 . Sol. a) Vedo dalla funzione di ripartizione che P(X ≤ 0) = 0 e che P(X ≥ 10) = 1, cioé capisco che la v.a. X non può assumere nessun valore inferiore a zero e nessun valore superiore a 10, cioé X ∈ [0, 10]. 4 b) Noi sappiamo che se X ammette densità f , si ha F (x) = P(X ≤ Rx x) = −∞ f (t)dt, quindi f (x) = F 0 (x). Per capire se X ammette densità devo controllare se F é derivabile. 0 se x < 0 1 x se 0 ≤ x < 5 25 F 0 (x) = 2 1 x + se 5 ≤ x < 10 − 5 25 0 se x ≥ 10 c) Il valore atteso di X é Z Z E[X] = xf (x)dx = 5 0 R Il valore atteso di X 2 é Z Z 2 E[X] = x f (x)dx = x2 dx + 25 5 5 10 2 x 2x − + dx = · · · = 5. 25 5 Z 10 3 2x2 175 x3 x dx+ dx = · · · = . − + 25 25 5 6 5 0 R Z Es. 2.2 Sia f (x) = cx2 , per − 1 < x < 1. Determinare: 1) I valori di c per i quali f è una densità; 2) P (X > 0); 3) P (− 12 ≤ X ≤ 12 ), P (|X| ≤ 12 ) e P (|X| ≥ 21 ); 4) P (X < 0 oppure X > −1); 5) il valore y ∈ R tale che P (X > y) = 0.05. Sol. 1) Sto cercando i valori c ∈ R t.c. Z P(X ∈ R) = f (x)dx = 1. R Cerco quindi di risolvere Z 1 cx2 dx = 1 −1 e ottengo c = 23 . 2) P (X > 0) = 1 − P(X ≤ 0) = 1 − F (0) = 1 − 5 R0 3 2 x dx −1 2 = ··· = 1 2 3) P (− 12 ≤ X ≤ 12 ) = F ( 12 ) − F (− 21 ) = · · · = 18 . P (|X| ≤ 12 ) = P (− 12 ≤ X ≤ 12 ) = · · · = 12 . P (|X| ≥ 12 ) = 1 − P (|X| ≤ 21 ) = 87 . 4) P (X < 0 oppure X > − 12 ) = P(X ∈ (−∞, 0) ∪ (− 21 , +∞)) = P(X < 0) + P(X > − 12 ) − P(− 12 < X < 0) = · · · = 1 R1 5) Cerco y ∈ R tale che P (X > y) = y 23 x2 dx = 0, 05, quindi y ' 0, 965. Es. 2.3 Trovare la probabilità che in 5 lanci di un dado non truccato il 3 si presenti 1. mai 2. almeno una volta 3. quattro volte. Sol. Se considero quante volte appare il 3 in 5 lanci dello stesso dado sono di fronte ad una v.a. Binomiale in cui ho 5 prove di Bernoulli ognuna caratterizzata dalla probabilità p = P({appare il 3}) = 61 , cioé X ∼ B(5, 16 ). 1. Se il 3 non si presenta mai, significa che X = 0, quindi P(X = 0) = 5 0 0 5 1 5 ' 0, 4019 6 6 2. In questo caso l’evento "il 3 si presenta almeno una volta" é equivalente a X ≤ 1, P(X ≤ 1) = 1 − P(X = 0) ' 0, 5981 3. P(X = 4) = 5 4 1 4 6 5 1 6 ' 0, 0032. Es. 2.4 Un passeggero qualsiasi ha una probabilità p di non presentarsi all’imbarco, pertanto una compagnia aerea accetta N prenotazioni per un aereo con capienza n ( dove n ≤ N ). Qual è la probabilità che almeno un passeg1 gero con regolare prenotazione resti a terra? Supponendo che p = 10 , tale evento è più probabile nel caso N = 22, n = 20 oppure N = 11, n = 10? 6 Sol. In questo caso il numero di passeggeri che effettivamente si presentano all’imbarco é una v.a. binomiale con N prove e probabilitá di successo (1 − p), cioé X ∼ B(N, 1 − p). N almeno un X N = P(X ≥ n + 1) = passeggero P (1 − p)k pN −k . k k=n+1 rimane fuori 1 e quindi 1 − p = Consideriamo p = 10 Caso N = 22 e n = 20. 9 . 10 22 21 11 11 P(X > 20) = P(X = 21)+P(X = 22) = 9 10 21 22 1 9 921 31 22 + = . 22 10 10 1022 Caso N = 11 e n = 10. P(X > 10) = P(X = 11) = 9 10 11 = 911 . 1011 Confronto le probabilità rimanere rimanere ? P fuori con fuori con P < N = 11 e n = 10 N = 22 e n = 20 e con qualche calcolo ottengo che é veramente cosí, la probabilità é maggiore con N = 22 e n = 20. Es. 3.1 Il tempo necessario ad Adalberto per coprire il percorso casa-ufficio è una variabile aleatoria di legge normale. Se il tempo medio è di 30 minuti e la probabilità di coprire il percorso in più di 40 minuti è 0.1, quanto vale la probabilità di coprire il percorso in più di 50 minuti? Sol. Il problema mi dice che T ∼ N (30, σ 2 ) e so che qualsiasi v.a. normale può essere scritta come T = σZ + µ dove Z ∼ N (0, 1), quindi in questo caso T = σZ + µ. Io so che P(T ≥ 40) = 0, 1 e posso capire quanto vale σ. 10 P(T ≤ 40) = P(σZ + 30 ≤ 40) = P(Z ≤ ) = 0, 9, σ servendomi delle tavole della normale standard so che il quantile di 0,9 é q0,9 ' 1, 2816, quindi 10 ' 1, 2816 e σ ' 7, 8027. Ora posso σ tranquillamente calcolare la probabilità di coprire il percorso in più di 50 minuti, cioé 20 P(T ≥ 50) = P(7, 8027Z + 30 ≥ 50) = 1 − P(Z ≤ ) ' 0, 0052. 7, 8027 7 Es. 3.2 Assumendo che la probabilità che nasca un maschio sia 1/2, trovate la probabilità che in una famiglia con 4 figli ci sia 1) almeno un maschio; 2) almeno un maschio e una femmina. 3) Consideriamo ora 4000 famiglie con 4 figli. Quante ci si aspetterebbe che abbiano almeno un maschio e una femmina? Sol. 1) Per rispondere ai primi due punti devo considerare ogni famiglia come una v.a. Binomiale con n = 4 e p = 12 , cioé X ∼ B(4, 0.5). La probabilità che nasca almeno un maschio é 15 4 = 0, 9375. P(X ≤ 1) = 1 − P(X = 0) = 1 − (0, 5)4 = 0 16 2) In questo caso si ha che la probabilità che nascano almeno un maschio e una femmina é uguale a 1 meno la probabilitá che nascano solo maschi oppure solo femmine. P(1 ≤ X ≤ 3) = 1 − P(X = 4) − P(X = 0) = · · · = 7 8 3) Per questo caso devo invece considerare che le prove ripetute della v.a. binomiale sono le 4000 famiglie con 4 figli e che ognuna ha una probabilità di successo p = 78 , cioé Y ∼ B(4000, 78 ). Il problema mi chiede di calcolarne il valore atteso, per cui E[Y ] = np = 3500. Es. 3.3 Tra le 2 e le 4 del pomeriggio, in media, al minuto, il numero di chiamate telefoniche che arrivano ad un certo centralino è 2.5. Trovate la probabilità che, in un minuto, ci siano 1) zero 2) due 3) quattro o meno 4) più di sei chiamate telefoniche Sol. La v.a. che serve in questa situazione é una v.a. di Poisson con parametro λ = 2, 5, cioé Po(2, 5). Quindi per la probabilità serve la k formula P(X = k) = e−λ λk! . 8 1) P(X = 0) = e−λ = 0, 08208 2 2) P(X = 2) = e−λ λ2! = 0, 2565 P k 3) P(X ≤ 4) = 4k=0 e−λ λk! = · · · = 0, 8911 P k 4) P(X ≥ 6) = 1 − P(X ≤ 6) = 1 − 6k=0 e−λ λk! = · · · = 0, 0142 Es. 3.4 Secondo certe statistiche sugli USA, il numero medio annuo di annegamenti accidentali è di 3 su 100000 abitanti. Trovate la probabilità che, in una città con popolazione pari a 200000 abitanti, vi siano 1) due annegamenti accidentali all’anno 2) meno di tre annegamenti accidentali all’anno Sol. In questo caso la v.a. che modellizza il numero di annegamenti accidentali ogni 100000 é una Poisson di parametro λ = 3, cioé X ∼ Po(3). Se vogliamo occuparci del numero di annegamenti ogni 200000, questo sará dato dalla somma di due v.a. indipendenti distribuite come X e si avrá Y = X + X. Per le proprietá delle v.a. di Poisson, la somma di due Poisson indipendenti é ancora una Poisson il cui parametroo é la somma dei parametri, infatti Y ∼ Po(3 + 3) = Po(6). 2 1) P(Y = 2) = e−6 62! = 0, 04462. 2) P(Y < 3) = P(Y = 0)+P(Y = 1)+P(Y = 2) = e−6 1 + 6 + 0, 06197. 62 2! = Es. 3.5 La percentuale di realizzazione nei tiri da due punti di un giocatore di pallacanestro è del 55%. Si calcoli la probabilità che segni non più di 50 punti in 50 tiri. Sol. In questo caso abbiamo una v.a. Binomiale con n = 50 e p = 0, 55, cioé X ∼ B(50, 0, 55). L’esercizio mi chiede di calcolare 25 X 50 P(2X ≤ 50) = P(X ≤ 25) = (0, 55)k (0, 45)50−k . k k=0 Vedo che il numero di addendi che devo calcolare é molto alto, quindi cerco un’approssimazione per la binomiale. Dato che sono verificate np = 27, 5 > 5 e n(1 − p) = 22, 5 > 5, scelgo l’approssimazione con una normale Y ∼ N (27, 5, 12, 375). P(X ≤ 25) ' correz. di cont. perché passo da ' P(Y ≤ 25, 5) v.a. discreta a cont. 9 √ Uso il fatto di poter scrivere la normale Y = 12, 375Z + 27, 5, dove Z ∼ N (0, 1), quindi p P( 12, 375Z + 27, 5 ≤ 25) = · · · ' 1 − P(Z ≤ 0, 57) = 0, 28. Es. 4.1 Una ditta di trasporti internazionali possiede 100 tir dello stesso tipo. Ogni tir percorre una media di 600 km al giorno con una deviazione standard di 50 km. 1) Supponendo che i giorni lavorativi in un anno siano 340, quanti chilometri percorre mediamente un tir in un anno? 2) Una merce deve essere trasportata da un tir ad una distanza di 7000 km. Viene chiesto al titolare dopo quanti giorni dalla partenza avverrà la consegna. Che risposta deve dare il titolare affinché con probabilità almeno pari a 0.9 la merce arrivi a destinazione entro il tempo dichiarato? Sol. La v.a. Xi che indica lo spazio percorso dal tir i-esimo in un giorno ha media 600 km e varianza 2500 km2 ; tutte le Xi sono v.a. indipendenti e distribuite allo stesso modo. 1) P Lo spazio percorso da un tir in un anno si indica con la v.a. 340 i=1 Xi , che ha valore atteso " 340 # 340 340 X X X E E [Xi ] = 600 km = · · · = 204000 km Xi = i=1 i=1 i=1 2) Suppongo che il numero di P giorni di consegna sia n, lo spazio percorso in n giorni é Sn = ni=1 Xi . Voglio sapere quanto deve valere n affinché P(Sn ≥ 7000 km) ≥ 0, 9 Uso il TLC per cui una somma di v.a. indipendenti e identicamente distribuite di media µ e varianza σ 2 può essere approssimato con una normale N (nµ, nσ 2 ). Posso quindi scrivere l’approssimazione di Sn attraverso una normale standard, cioé √ Sn ' σ nZ + nµ, dove Z ∼ N (0, 1). Calcolo la probabilità √ 7000 − 600n √ P(Sn ≥ 7000) ' P(50 nZ+600n ≥ 7000) = P(Z ≥ ) ≥ 0, 9 50 n per cui P(Z ≤ 7000 − 600n √ ) ≤ 0, 1 50 n 10 Cerco sulle tavole il 10imo percentile q0,1 = −1, 28 (per trovarlo uso q0,9 = 1, 28 e le proprietà per cui q0,1 = −q1−0,1 ) e so che deve valere 7000 − 600n √ ≤ −1, 28 50 n da cui ottengo n ≥ 12, 02 ovvero n > 12, cioé n = 13 giorni. Es. 4.2 Il tempo di lavorazione di un pezzo meccanico è una variabile aleatoria di media µ = 2 minuti e deviazione standard σ = 0, 3 minuti. 1) In approssimazione normale, calcolare la probabilitá di effettuare la lavorazione di 150 pezzi in un tempo minore di 5 ore e 10 minuti. 2) In approssimazione normale, calcolare la probabilità che la media campionaria dei tempi di lavorazione relativa a 100 pezzi sia compresa tra 1 minuto e 55 secondi e 2 minuti e 10 secondi. 3) Quanti pezzi dobbiamo misurare per essere certi al 95% che la media dei loro tempi di lavorazione non differisca da 2 minuti per più di 4 secondi? Sol. I tempi di lavorazione dei singoli pezzi sono v.a. Xi indipendenti e identicamente distribuite. P 1) S150 = 150 i=1 Xi per il TLC può essere approssimata come N (150 · 20 , 150 · (0, 30 )2 ) = N (300, 13, 5), quindi posso scrivere S150 ' 3, 67Z + 300 con Z ∼ N (0, 1). P(s150 ≤ 3100 ) = P(3, 67Z+300 ≤ 3100 ) = P(Z ≤ 2, 72) = 0, 99676. P100 ¯ 100 = i=1 Xi che può es2) La media campionaria per 100 pezzi é X 100 0 2 σ sere approssimata con una normale N µ, √n = N 20 , 0,3 . 10 Posso quindi scrivere 0 ¯ 100 ' 0, 3 Z + 20 = in secondi = 1, 800 Z + 12000 X 10 con Z ∼ N (0, 1). ¯ 100 ≤ 13000 ) = · · · = P P(115 ≤ X 00 11 11500 − 12000 13000 − 12000 ≤ Z ≤ 1, 800 1, 800 = · · · ' 0, 9972 3) Voglio determinare n t.c. ¯ n − 20 | < 400 ) ≥ 0, 95 P(|X ¯ 100 con una normale N (20 , Come prima, posso approssimare X 00 ¯ 100 ' 18 √ Z + 12000 con Z ∼ N (0, 1). quindi X 0 0,3 √ n 2 n ¯ 100 − 120 ≤ 4 ) = · · · ' P P(−4 ≤ X 00 00 00 √ √ −400 n 400 n ≤Z≤ 1800 1800 √ 2 n ' 2P Z ≤ − 1 ≥ 0, 95 9 Quindi devo cercare il valore di n per cui √ 2 n P Z≤ ≥ 0, 975 9 √ √ cioé 2 9 n ≥ q0,975 = 1, 96. Di conseguenza n ≥ 8, 82 e n ≥ 77, 79, per cui il numero minimo di pezzi necessari é n = 78. Es. 5.1 La distanza d di una stella è calcolata come la media di una serie di misurazioni indipendenti e identicamente distribuite con media d e varianza 4. Quante osservazioni sono necessarie per essere sicuri al 95% che la media delle osservazioni approssimi d entro 0.5? Sol. Ogni misurazione Mi é una v.a. indipendente con media d e varianza 4, ¯ n può essere considerata se ho n misurazioni, la media campionaria M 4 come una normale N (d, n ); sto quindi cercando il valore n tale che ¯ n − d| < 0, 5) = 0.95. P(|M Sia Z ∼ N (0, 1), allora 2 √ P √ Z + d − d < 0, 5 = · · · = 2 · P(Z < 0, 25 n) − 1, n cioé √ P(Z < 0, 25 n) ≥ 0, 975. √ Uso le tavole per la normale per calcolare q0,975 = 1, 96 ≤ n ≥ 61, 46 per cui le misurazioni necessarie sono n ≥ 62. 12 n 4 e quindi ), Es. 5.2 In media in un paracadute su 1000 il paracadute principale è difettoso e non si apre durante il lancio. Un paracadutista professionista compie 4000 lanci nella sua carriera; indichiamo con X la variabile aleatoria che conta il numero di volte in cui il paracadute principale non si apre. 1) Se si approssima la distribuzione di X con una Normale, quanto vale la probabilità che il paracadute principale non si apra in almeno uno dei 4000 lanci? 2) Quanto vale la probabilità appena calcolata, se si approssima la distribuzione di X con una Poisson? 3) Quale delle due approssimazione è migliore e perchè? Sol. Il numero di volte in cui il paracadute principale non si apre durante la carriera di un paradutista professionista é una v.a. binomiale con 1 n = 4000 e p = 1000 1) Per l’approssimazione normale della binomiale, so che X ' Y dove Y ∼ N (np, np(1 − p) e in questo caso Y ∼ N (4, 3, 996). Devo calcolare P(X ≥ 1) = P(Y > 0), quindi per l’approssimazione normale e per la correzione di continuità 0, 5 − 4 ) · · · = P(Z ≤ 1, 75) = 0, 95994. P(X ≥ 1) ' P(Y ≥ 0, 5) = P(Z ≥ √ 3, 996 2) Per l’approssimazione poissoniana della binomiale uso il fatto che X ' W con W ∼ Po(np) = Po(4). Quindi in questo caso non serve la corr. ' 1−P(W = 0) = 1−e−4 = 0, 9816 P(X ≥ 1) = 1−P(X = 0) ' di cont. 3) Per capire quale sia l’approssimazione migliore mi basta guardare le condizioni necessarie applicare l’approssimazione normale, che sono np > 5 e n(1 − p) > 5 e in questo caso non sono soddisfatte, quindi capisco che l’approssimazione da preferire é quella poissoniana. Per supportare questa affermazione posso anche calcolare la probabilità esatta 4000 P(X ≥ 1) = 1 − P(X = 0) = 1 − (0, 999)4000 ' 0, 9817 0 e vedo che é decisamente più vicina a quella ottenuta con l’approssimazione poissoniana. 13 Es. 5.3 Sia (X1 , X2 , X3 ) un campione bernoulliano estratto da una popolazione X. Al fine di stimare la media µ della popolazione è stato proposto il seguente stimatore: 1 X1 + 3(X2 + X3 )? 12 1) Mostrare che T è uno stimatore distorto. T = 2) Si trovi la costante c tale che W = cT sia uno stimatore non distorto per µ. Sol. 1) Per mostrare se uno stimatore é distorto, devo calcolarne il valore atteso e controllare se é diverso dal valore che stima. 1 73 1 X1 + 3(X2 + X3 ) = E[X1 ]+3E[X2 ] = 3E[X3 ] = µ 6= µ. E 12 12 12 Questo significa che lo stimatore é effettivamente distorto. 2) Devo trovare c tale che E[W ] = µ. E[W ] = E[cT ] = c quindi c = 73 µ, 12 12 . 73 Es. 5.4 Il numero di elementi spuri in un litro di una soluzione prodotta in laboratorio è descritto da una variabile aleatoria X con media µ e varianza σ 2 . La produzione giornaliera sia di n confezioni da un litro l’una; il controllo viene effettuato prelevando m confezioni a caso tra . quelle prodotte. Sia β = m n 1) Si stimi, in approssimazione normale, la probabilità che la media del campione prelevato differisca dalla media vera di almeno ασ. 2) Si stimi, in approssimazione normale, la probabilità che la media del campione prelevato differisca dalla media della produzione giornaliera di almeno ασ. Sol. Pm ¯ m = i=1 Xi e in approssimazione nor1) La media del campione é X m 2 male possiamo considerare che sia una normale N (µ, σm ). σ ¯ m − µ ≥ ασ) = 1 − P( √ Z ≥ ασ) P(X m dove Z ∼ N (0, 1), quindi σ √ 1 − P( √ Z ≤ ασ) = · · · = 2 · (1 − P(Z ≤ σ m)). m 14 2) In questo caso voglio calcolare ¯n − X ¯ m ≥ ασ) P(X ¯ n −X ¯m. e per fare questo voglio capire che tipo di variabile é W = X X m n m m n X X X 1 1 1 1 1 1 X ¯ n −X ¯m = − X Xi + Xi − Xi = Xi + Xi n i=1 n i=m+1 m i=1 n m i=1 n i=m+1 m n X 1 (m − n) 1 X (n − m) · = Xi + Xi n m i=1 n (n − m) i=m+1 " # n m X 1 X (n − m) 1 − Xi = n n − m i=m+1 m i=1 che é una v.a. normale N (0, σ 2 (1−β) ). Allora la probabilità che m voglio calcolare é √ α m P(|W | ≥ ασ) = · · · = 2 · (1 − P(Z ≤ √ )). 1−β Es. 6.1 Si ritiene che la temperatura del corpo umano nella popolazione sana sia distribuita normalmente con media 36, 7o e deviazione standard 0, 32o . 1) Qual é la percentuale di persone sane la cui temperatura é superiore a 37o ? 2) Suppongo di definire la febbre nel seguente modo. ”Un individuo ha la febbre se la sua temperatura é superiore a T , dove T é quel valore della temperatura per cui esattamente il 5% della popolazione sana ha una temperatura maggiore di T .” Determinare T. Sol. 1) Indico la temperatura con la v.a. X ∼ N (36, 7o , (0, 32o )2 ). Cerco la probabilità P(X > 37) = P(0, 32Z+36, 7 > 37) = 1−P(Z < 37 − 36, 7 ) = · · · = 0, 17361 0, 32 e quindi la percentuale ceracta é 17, 36%. 2) Sto cercando quel valore T t.c. 0, 05 = P(X > T ). P(X > T ) = P(0, 32Z +36, 7 > T ) = 1−P(Z < 15 T − 36, 7 ) = 0, 05 0, 32 quindi devo porre T − 36, 7 = q0,95 ' 1, 65 0, 32 e ottengo T = 37, 228. Es. 6.2 Voglio confrontare la resistenza X di due tipi di tessuti impiegati ad uso industriale. Si hanno a disposizione i seguenti campioni. Campione Taglia camp. Media camp. Varianza camp. Tessuto A n = 10 Tessuto B m = 16 ¯ = 18900 X Y¯ = 18500 s2X¯ = 1600 s2Y¯ = 2500 Testare la differenza tra le medie con una significatività α = 0, 05. Sol. Devo fare un test di Student sulla differŞnza tra le medie di due campioni indipendenti, con ipotesi H0 : µX = µY H1 : µX 6= µY . Per fare questo mi servo della v.a. ¯ − Y¯ X t= q 2 s2 sX + nY2 n1 che, sotto l’ipotesi H0 é una t di Student con ν = n1 + n2 − 2 gradi di libertà; nel nostra caso sarà ν = 10 + 16 − 2 = 14. Cerco la regione critica del test nel caso del livello α = 0, 05, che é (−∞, −x] ∪ [x, ∞) dove x é tale che P(|t| ≥ x) = 0, 05. Cerco il valore x P(|t| ≥ x) = 1 − P(−x ≤ t ≤ x) = · · · = 2 − 2 · P(t ≤ x) = 0, 05 = 0, 975. Allora, siccome so che t sotto H0 é di quindi P(t ≤ x) = 2−α 2 student con 14 gradi di libertà cerco sulle tavole x = t0,975 (14) = 2, 063, quantile della t di student con 14 gdl. Quindi la regione critica é (−∞, −2, 063] ∪ [2, 063, ∞) A questo punto calcolo il valore di t nel nostro particolare caso, per vedere se appartiene alla regione critica e decidere se rifiutare o meno l’ipotesi nulla. ¯ − Y¯ X 18900 − 18500 t= q 2 = q = · · · = 22, 49 2 sY sX 1600 2500 + + n2 10 16 n1 16 Vedo che 22, 49 ∈ [2, 063, ∞), quindi appartiene alla regione critica e rifiuto l’ipotesi nulla H0 . Es. 6.3 Si sta sperimentando l’effetto sui suini dell’aggiunta di una miscela probiotica alla razione di cibo giornaliera, per vedere se influisce sull’aumento di peso giornaliero. Si somministra il probiotico a 10 suini e si confronta il loro incremento di peso medio giornaliero con un gruppo di confronto di 11 suini. Gruppo trattati Gruppo di controllo 637 639 659 646 650 641 641 650 640 635 650 633 631 637 642 638 640 634 626 636 640 1) Confrontare la differenza delle medie con un test di Student con tolleranza α = 0, 05. 2) Possiamo individuare il primo valore di tolleranza α per cui non posso più rifiutare l’ipotesi nulla? Sol. 1) Devo fare un test di Student sulla differenza delle medie per due campioni indipendenti, con ipotesi H0 : µX = µY H1 : µX 6= µY . dove X indica la popolazione trattata e Y la popolazione di controllo. Mi servo della v.a. ¯ − Y¯ X t= q 2 sX s2Y + n1 n2 che, sotto l’ipotesi H0 é una t di Student con ν = n1 + n2 − 2 = 10 + 11 − 2 = 19 gradi di libertà. Costruisco la regione critica (−∞, −x] ∪ [x, ∞) dove x é t.c. P(|t| ≥ x) = 0.05. P(|t| ≥ x) = 1 − P(−x ≤ t ≤ x) = · · · = 2 − 2 · P(t ≤ x) = 0, 05 17 = 0, 975. Allora, siccome so che t sotto quindi P(t ≤ x) = 2−α 2 H0 é di student con 19 gradi di libertà cerco sulle tavole x = t0,975 (19) = 2, 093, quantile della t di student con 19 gdl. Quindi la regione critica é (−∞, −2, 093] ∪ [2, 093, ∞) Per calcolare il valore di t ho bisogno di medie e variante campionarie. ¯ = 1 (637+639+659+646+650+641+641+650+640+635) = 643, 8 X 10 s2X = 1 ((637 9 − 643, 8)2 + (639 − 643, 8)2 + (659 − 643, 8)2 + (646 − 643, 8)2 + (650 − 643, 8)2 + (641 − 643, 8)2 + (641 − 643, 8)2 + (650 − 643, 8)2 + (640 − 643, 8)2 + (635 − 643, 8)2 ) = · · · = 56, 46 1 Y¯ = (650 + 633 + . . . ) = 637 11 s2Y = · · · = 40, 6 Quindi il valore t é ¯ − Y¯ X 643, 8 − 637 q t= q 2 = = · · · ' 2, 23 sX s2Y 40,6 56,46 + 11 + n2 10 n1 Vedo che t ' 2, 23 appartiene alla regione critica, quindi rifiuto l’ipotesi nulla H0 . 2) Per trovare il primo valore di tolleranza α per cui non posso più rifiutare l’ipotesi nulla devo osservare le tavole dei quantili della t di student nella riga che corrisponde ai nostri 19 gdl. Sapendo che t = 2, 23 vedo dalle tavole che il primo valore per cui t cade fuori dalla regione critica é x = 2, 539, che é il quantile t0,99 (19). Quindi il primo valore α per cui t cade fuori dalla regione critica é 1 − α2 = 0, 99, quindi α = 0, 02. Es. 7.1 Si sta conducendo un esperimento per valutare le capacità di mantenere l’equilibrio in 8 soggetti adulti e 8 soggetti giovani. I soggetti vengono fatti posizionare su una piattaforma che ne misura i movimenti. Il compito dei soggetti consiste nel cercare di mantenere l’equilibrio e premere il più velocemente possibile un pulsante appena sentono un rumore fastidioso, presentato in maniera casuale. La piattaforma misura 18 i movimenti in millimetri di spostamento di ogni individuo, registrati nella seguente tabella. Adulti Giovani 19 30 20 19 29 25 21 24 25 21 17 15 14 14 22 17 1) Ci sono differenze tra i due gruppi? Utilizzare il livello di significatività α = 0, 5%. 2) É possibile che questo risultato sia un errore? Che tipo di errore sarebbe? 3) Determinare il valore P . Sol. 1) Voglio fare un test di Student bilatero sulla differenza delle medie con ipotesi H0 : µX = µY H1 : µX 6= µY . La variabile aleatoria di cui mi servo é ¯ − Y¯ X , t= q 2 sX s2Y + n1 n2 che sotto H0 é di Student con ν = n1 +n2 −2 = 8+8−2 = 14 gradi di libertà. Cerco la regione critica della forma (−∞, −x] ∪ [x, ∞), dove x = t1−α/2 (ν) = t0,9975 (14) = 3, 326 e quindi (−∞, −3, 326]∪[3, 326, ∞). Per calcolare il valore t, devo ¯ s2 , Y¯ e s2 . ottenere dai dati i valori X, X Y ¯ = 1 (19 + 30 + 20 + . . . ) = 23, 375; X 8 Y¯ = · · · = 18, 125; s2X = 1 (19 − 23, 375)2 + (30 − 23, 375)2 + . . . = 16, 734; 7 19 s2Y = · · · = 14, 609. Calcolo il valore ¯ − Y¯ X 23, 375 − 18, 125 t= q 2 = q ' 2, 65 2 sX sY 16,734 14,609 + 8 + n2 8 n1 e vedo che t non appartiene alla regione critica, quindi devo accettare l’ipotesi nulla H0 . 2) Questo risultato potrebbe essere sbagliato, nel senso che il test non mi fa vedere una differenza che in realtà c’é. Questo é chiamato errore di seconda specie. 3) Il valore P é quella probabilità che realizza l’uguaglianza P(|t| ≥ 2, 65) = P . Sulle tavole non posso trovare esattamente la probabilità corrispondente a x = 2, 65, ma posso trovare i valori xˆ = 2, 624 e x¯ = 2, 976 che stanno subito sopra e sotto x. Da questi valori ricavo: - αmax t.c. P(t ≤ 2, 624) = 1 − αmax = 0, 99 2 e quindi αmax = 0, 02; - αmin t.c. P(t ≤ 2, 976) = 1 − αmin = 0, 995 2 e quindi αmin = 0, 01. Posso così dare una limitazione inferiore e una superiore al valore P , infatti αmin = 0, 01 < P < 0, 02 = αmax . Es. 8.1 Si vuole verificare se un conservante per alimentazione umana abbia effetti sui fattori di crescita. Divido un gruppo di 20 cavie adulte in due gruppi da 10 elementi ciascuno in modo casuale. Il primo gruppo si sottopone ad un regime di alimentazione contenente la sostanza da testare, mentre il secondo gruppo funziona come gruppo di controllo. Si misura l’aumento di peso degli individui nei due gruppi in un determinato intervallo di tempo. Si misura l’aumento di peso degli individui nei due gruppi in un determinato intervallo di tempo. Testare se la 20 sostanza causa un significativo aumento di peso con un livello di significatività α = 0, 01 e α = 0, 05, partendo dai seguenti dati. Gruppo di controllo Gruppo dei trattati ¯ = 168, 2 X 2 sX¯ = 130, 62 Y¯ = 177, 2 s2Y¯ = 71, 73 Sol. Voglio fare un test di Student unilatero sulla differenza delle medie con ipotesi H0 : µX = µY H1 : µX ≤ µY . La variabile aleatoria di cui mi servo é ¯ − Y¯ X , t= q 2 s2Y sX + n1 n2 che sotto H0 é di Student con ν = n1 + n2 − 2 = 20 − 2 = 18 gradi di libertà. Se H0 é verificata, inoltre, la media di t é zero, mentre se vale H1 la media di t é negativa, quindi la regione critica unilatera ha la forma (−∞, −x] con P(t ≤ −x) = α. -α = 0, 01 Costruisco la regione critica t.c. 1 − P(t ≤ x) = 0, 01 e x = t0,99 (18) = 2, 552. Controllo se t cade nella regione critica (−∞, −2, 552], ¯ − Y¯ X 168, 2 − 177, 2 t= q 2 =q = −2 2 sX sY 130,62 71,73 + + 10 10 n1 n2 non appartiene a (−∞, −2, 552], per cui non posso rifiutare H0 . -α = 0, 05 Se cambio il livello di significatività, ciò che cambia é solo la regione critica, che in questo caso é (−∞, −x] dove P(t ≤ −x) = α = 0, 05. Quindi con questo α si ha una regione critica (−∞, −t1−α/2 (ν)] = (−∞, −t0,95 (18)] = (−∞, −1, 734]. Con questa regione critica, t = −2 appartiene all’intervallo e posso rifiutare l’ipotesi nulla H0 . 21 Es. 8.2 L’etichetta delle bottiglie di champagne di un’azienda dichiara un contenuto di 730 ml. Il produttore decide di controllare questa affermazione e su 81 bottiglie esaminate riscontra una media campionaria ¯ = 726 ml ed una varianza campionaria s2¯ = 625. X X 1) Supponendo che la quantità di champagne contenuta in ogni bottiglia si possa modellizzare con una v.a. normale, si può concludere (al livello di significatività α = 5%) che in media le bottiglie contengono una quantità diversa da quella dichiarata? 2) Suppongo di voler confrontare questi dati con i dati di un’altra azienda produttrice di champagne che produce bottiglie da 730 ml. Prelevo da quest’azienda un campione di 41 bottiglie e registro una media campionaria Y¯ = 735 ml e varianza campionaria s2Y¯ = 760 ml2 . Posso concludere che la seconda azienda produce bottiglie con un contenuto maggiore della prima azienda? Sol. 1) Voglio fare un test di student sulla media, con le ipotesi H0 : µX = µ(= 730ml) H1 : µX 6= µ(= 730ml). Per fare il test faccio riferimento alla v.a. ¯ −µ X t= q 2 sδ n che é di Student con ν = n − 1 = 81 − 1 = 80 gradi di libertà. Costruisco la regione critica (−∞, −x] ∪ [x, ∞) con x tale che P(|t| ≥ x) = 0, 05 e quindi P(t ≤ x) = 0, 975 con x = t0,975 (80) = 1, 990. Calcolo il valore di t per capire se appartiene a (−∞, −1, 990] ∪ [1, 990, ∞). ¯ −µ X 726 − 730 ' −1, 44 t= q 2 = q sX n 625 81 non appartiene alla regione critica, quindi accetto H0 . 2) In questo caso ciò che voglio fare é un test di confronto tra le medie di due campioni e, in particolare, questo test dev’essere unilatero, con le ipotesi H0 : µX = µY H1 : µX ≤ µY . 22 La variabile che mi interessa ora é ¯ − Y¯ X , t= q 2 s2Y sX + n1 n2 che é di Student con ν = n1 + n2 − 2 = 81 + 41 − 2 = 120 gradi di libertà. Nel caso di questo test unilatero, la regione critica che costruisco ha la forma (−∞, −x] (infatti se l’ipotesi nulla non valesse, l’intervallo [x, ∞) avrebbe una probabilità ancora minore) dove x é t.c. P(t ≤ −x) = α. Trovo quindi P(x ≤ x) = 1 − α = 0, 95 e x = t0,95 (120) = 1, 657. Verifico se t appartiene o meno a (−∞, −1, 657], ¯ − Y¯ X 726 − 735 q t= q 2 = = −1, 757 sX s2Y 625 760 + 41 + n2 81 n1 appartiene alla regione critica e di conseguenza rifiuto l’ipotesi nulla H0 . Es. 8.3 L’altezza media delle reclute alla visita di leva nel 1970 era di 169 cm. 121 reclute vengono scelte a caso nel 1980 e da queste vengono trovate ¯ = 171 cm e una varianza campionaria s2¯ = una media campionaria X X 85. Si può affermare (al livello di significatività α = 5% ) che lÕaltezza media delle reclute é rimasta invariata? Dare delle maggiorazioni e delle minorazioni al valore di P . Sol. In questo caso voglio fare un test di student sulla media, con le ipotesi H0 : µX = µ(= 169cm) H1 : µX 6= µ(= 169cm). Voglio sfruttare il fatto che la v.a. ¯ −µ X t= q 2 sX n é di Student con ν = n − 1 = 121 − 1 = 120 gradi di libertà. Costruisco la regione critica della forma (−∞, −x] ∪ [x, ∞), dove x = t1−α/2 (ν) = t0,975 (120) = 1, 979 e quindi (−∞, −1, 979] ∪ [1, 979, ∞). 23 Calcolo il valore ¯ −µ 171 − 169 X t= q 2 = q ' 2, 386 sX n 85 121 e vedo che t ∈ regione critica, quindi posso rifiutare l’ipotesi nulla H0 e dire che c’è differenza significativa tra l’altezza media nel 1970 e quella nel 1980. Il valore P viene definito come quel valore che soddisfa P(|t| ≥ 2, 386) = P, quindi tale che P(t ≤ 2, 386) = 1 − P2 . Sulle tavole non posso trovare esattamente la probabilità corrispondente a x = 2, 386, ma posso trovare i valori xˆ = 2, 357 e x¯ = 2, 617 che stanno subito sopra e sotto x. Da questi valori ricavo: - αmax t.c. P(t ≤ 2, 357) = 1 − αmax = 0, 99 2 e quindi αmax = 0, 02; - αmin t.c. αmin P(t ≤ 2, 617) = 1 − = 0, 995 2 e quindi αmin = 0, 01. Posso così dare una limitazione inferiore e una superiore al valore P , infatti αmin = 0, 01 < P < 0, 02 = αmax . Es. 9.1 In uno studio medico si misura la pressione arteriosa a 8 individui prima e dopo l’assunzione di un determinato farmaco. I risultati registrati sono i seguenti. Individuo Press. prima Press. dopo I II III IV V VI VII VIII 200 174 198 170 179 182 193 209 191 170 177 167 159 151 176 183 24 Con un livello di significativà α = 0, 05 posso dire che il farmaco causa una variazione nella pressione arteriosa? Sol. Vorrei fare un test di student sulla differenza delle medie, con le seguenti ipotesi: H0 : µX = µY H1 : µX 6= µY Ci troviamo però nel caso di campioni accoppiati, infatti i due campioni che abbiamo a disposizione non sono indipendenti tra loro. Consideriamo quindi la differenza tra i valori δX,Y , ottenendo un unico campione dato dalle differenze calcolate. Individuo Press. prima Press. dopo Diff. tra prima e dopo I II III IV V VI VII VIII 200 174 198 170 179 182 193 209 191 170 177 167 159 151 176 183 9 4 21 3 20 31 17 26 δ¯X,Y = 16, 375 s2δX,Y = 105, 45 Sul campione ottenuto così faccio un test sulla media con le seguenti ipotesi: H00 : δX,Y = 0 H10 : δX,Y 6= 0 Per questo test ci serviremo della v.a. δ¯X,Y t= q 2 sδ n che, sotto l’ipotesi nulla H00 é t di student con ν = n − 1 = 7 gradi di libertà. Costruisco la regione critica (−∞, −x] ∪ [x, ∞) tale che P(|t| ≥ x) = α = 0, 05, quindi x = t0,975 (7) = 2, 364 e la regione critica é (−∞, −2, 364] ∪ [2, 364, ∞). Calcolo il valore δ¯X,Y 16, 375 t= q 2 = q ' 4, 511 105,45 8 sδ n 25 che appartiene alla regione critica e mi porta a rifiutare l’ipotesi nulla H00 . Es. 9.2 Qual é la probabilità che, effettuando un test di student sulla differenza delle medie di due campioni di taglia n = 10 con un livello di significatività α = 0, 05 non mi accorga di una differenza di δ = 4? Calcolare questa probabilità sapendo che la varianza del campione é nota ed é σ 2 = 6, 5. Sol. La probabilità di non vedere una differenza che in realtà c’é é l’errore di seconda specie β, devo quindi calcolarlo, sfruttando l’approssimazione normale per la t di Student. Per definizione β é β = P1 |t| ≤ q1−α/2 , dove q1−α/2 é quantile della normale standard proprio per l’approssimazione normale che abbiamo considerato. Nel nostro caso α = 0.05, quindi q1−α/2 = q0,975 = 1, 96 e si ha p p β = P Z ≤ 1, 96 − σδ n2 − P Z ≤ −1, 96 − σδ n2 ' P(Z ≤ −1, 55) = 1 − P(Z ≤ 1, 55) ' 0, 06 considerando che Z ∼ N (0, 1). Es. 9.3 Voglio effettuare un test statistico su due popolazioni di media sconosci2 uta e di varianza nota σX = σY2 = 4. Mi aspetto che la differenza tra le due medie sia |µX − µY | = 2 e voglio avere un livello di significatività α = 0, 01 e una potenza del test del 95%. Qual é la taglia minima del campione che devo scegliere per soddisfare queste richieste? Sol. In questo caso mi devo servire della formula n ¯'2 σ2 (q1−α/2 + q1−β )2 , δ2 che nel nostro caso diventa 4 n ¯ ' 2 (q0,995 + q0,95 )2 ' 35, 78 4 quindi la taglia minima del campione sarà n = 36. Es. 10.1 Due aziende producono lampadine da 75 watt, si vuole dare un intervallo di confidenza per la differenza tra la vita media in ore delle 26 lampadine di un’azienda rispetto a quelle dell’altra con una confidenza del 95%. I dati che si hanno a disposizione sono i seguenti. Azienda Taglia campione Media campion. Varianza camp. Az. 1 Az. 2 20 22 1014 997 25, 1 16, 3 1) Dare un intervallo di confidenza al 95% per la differenza delle medie. 2) Fare un test sulla differenza delle medie con livello di significatività 0, 05. Sol. 1) Se cerco un intervallo di confidenza al 95% per δµ = µX − µY , significa che sto cercando quell’intervallo I1−α t.c. P (δµ ∈ I1−α ) = 1 − α = 0, 95, quindi userò α = 1 − 0, 95 = 0, 05. Per cercare questo intervallo mi servo della variabile aleatoria t0 = ¯ − Y¯ − (µX − µY ) X q 2 sX s2Y¯ ¯ + n1 n2 che nel nostro caso é t di Student con ν = n1 +n2 −2 = 20+22−2 = 40 gradi di libertà. Userò il quantile t1− α2 (40), t.c. P(|t0 | ≤ t1− α2 (40)) = 1 − α, per scrivere l’intervallo s ¯ − Y¯ − t1− α (ν) I1−α = X 2 s s2X¯ s2Y¯ s2X¯ s2Y¯ ¯ − Y¯ + t1− α (ν) + ,X + . 2 n1 n2 n1 n2 Cerco sulle tavole t1− α2 (ν) = t1− 0,05 (40) = t0,975 (40) = 2, 021, 2 quindi sostituisco i valori numerici nella formula dell’intervallo e ottengo I0,95 = [14.15; 19.85] . 2) Mi viene richiesto un test con le seguenti ipotesi, H0 : µX = µY H1 : µX 6= µY . 27 Avendo già costruito l’intervallo di confidenza al 95% per la differenza delle medie, fare questo test con livello di significatività α = 0, 05 equivale al test con ipotesi H00 : δµ = 0 H10 : δµ 6= 0, per il quale − se 0 ∈ I1−α accetto H00 − se 0 ∈ / I1−α rifiuto H00 . In questo caso 0 ∈ / I0.95 , quindi posso rifiutare l’ipotesi nulla H00 e di conseguenza H0 . Es. 10.2 Nella produzione di semiconduttori non é possibile controllare esattamente la resistenza degli elementi prodotti. Supponiamo che vengano misurati i valori della resistenza per n = 81 semiconduttori, otte¯ = 1, 2 ed una varianza campionaria nendo una media campionaria X s2X¯ = 0, 4. 1) Determinare l’intervallo bilaterale di confidenza al 95% per la media della resistenza dei semiconduttori prodotti. 2) Al livello di significatività α = 5%, é possibile accettare l’ipotesi nulla H0 : µ = 1, 3 contro H1 : µ 6= 1, 3? Sol. 1) Se cerco un intervallo di confidenza al 95% per µX , significa che sto cercando quell’intervallo I1−α t.c. P (µX ∈ I1−α ) = 1 − α = 0, 95 quindi userò α = 1 − 0, 95 = 0, 05. Per cercare questo intervallo mi servo della variabile aleatoria t0 = ¯ − µX X q 2 sX ¯ n che nel nostro caso é t di Student con ν = n − 1 = 81 − 1 = 80 gradi di libertà. Userò il quantile t1− α2 (80), t.c. P(|t0 | ≤ t1− α2 (80)) = 1 − α, 28 per scrivere l’intervallo sX¯ ¯ sX¯ ¯ I1−α = X − t1− α2 (ν) √ , X + t1− α2 (ν) √ . n n Cerco sulle tavole t1− α2 (ν) = t1− 0,05 (80) = t0,975 (80) = 1, 990, 2 quindi sostituisco i valori numerici nella formula dell’intervallo e ottengo I0,95 = [1.06; 1.34] . 2) Mi viene richiesto un test con le seguenti ipotesi, H0 : µX = 1, 3 H1 : µX 6= 1, 3. Avendo già costruito l’intervallo di confidenza al 95% per la media, fare questo test con livello di significatività α = 0, 05 equivale a verificare se il valore 1, 3 cade o meno nell’intervallo di confidenza, cioé − se 1, 3 ∈ I1−α accetto H0 − se 1, 3 ∈ / I1−α rifiuto H0 . In questo caso 1, 3 ∈ I0.95 , quindi devo accettare l’ipotesi nulla H0 . Es. 10.3 In un’azienda si vuole verificare se il ”lavoro flessibile”, ovvero la possibilità per gli impiegati di svolgere parte del loro lavoro da casa, porta effettivamente un miglioramento della produttività. Per fare questo si seleziona un gruppo di 100 impiegati ai quali si consiglia la formula del lavoro flessibile e dopo un mese si misura quanti hanno portato a termine più progetti rispetto al mese precedente. Si misura la stessa quantità per un gruppo di controllo di 150 impiegati che continuano a svolgere i loro compiti esclusivamente in ufficio.I dati ottenuti sono i seguenti. Gruppo Taglia camp. Nr di miglioramenti rispetto al mese prec. Lavoro flessibile 100 Controllo 150 40 35 1) Usare il test Z con significatività α = 5% per testare se c’é differenza tra i due metodi di lavoro. Dare limitazioni per il valore di P . 2) Ripetere il test usando le tabelle di contingenza. 29 Sol. 1) Siamo nel caso di due campioni di variabili aleatorie Bernoulliane di parametri p1 e p2 e di taglie n1 e n2 rispettivamente. Mi viene richiesto di fare un test con le seguenti ipotesi H0 : p1 = p2 H1 : p1 6= p2 . Per fare il test d’ipotesi mi servo della variabile aleatoria pˆ1 − pˆ2 Z=r pˆ(1 − pˆ) n11 + 1 n2 , che quando valgono le condizioni ni pi > 5 e ni (1 − pi ) > 5 per i = 1, 2 e sotto l’ipotesi nulla H0 può essere considerata con legge +m2 2 1 , pˆ2 = m e pˆ = mn11 +n , normale standard N (0, 1). So che pˆ1 = m n1 n2 2 dove m1 e m2 sono il numero di successi nella prima e nella seconda 40 , popolazione rispettivamente, quindi nel nostro caso sono pˆ1 = 100 75 35 pˆ2 = 150 e pˆ = 250 . Devo costruire la regione critica (−∞, −x] ∪ [x, ∞) t.c. P(|Z| ≥ x) = α, cioé P(Z ≤ x) = 1 − α2 = 0, 975 e quindi x = q0,975 = 1, 96 quantile della normale standard. La regione critica é quindi (−∞, −1, 96] ∪ [1, 96, ∞). Calcolo Z per capire se appartiene o meno alla regione critica, pˆ1 − pˆ2 Z=r pˆ(1 − pˆ) n11 + 1 n2 40 35 − 150 100 q = = 2, 763, 75 175 250 ( ) 250 250 15000 di conseguenza vedo che Z ∈ regione critica, quindi rifiuto H0 . Per dare una limitazione al valore di P , considero il valore di Z solo fino alla seconda cifra decimale, in modo da poter facilmente trovare sulla tavole il valore P tale che P(|Z| ≥ 2, 76) ' P . Questo significa che 1− P ' P(Z ≤ 2, 76) = 0, 99711, 2 quindi P ' 0, 00578. 30 2) Scrivo le tabelle di contingenza, prima di tutto la tabella delle osservazioni: > ≤ lav. fless. O11 = 40 O12 = 60 100 gr. di controllo O21 = 35 O22 = 115 150 75 175 250 Per costruire la tabella dei valori attesi mi devo servire della prob75 , in modo da poter scrivere la tabella seguente. abilità p(>) = 250 > ≤ lav. fless. E11 = p(>)n1 = 30 E12 = 70 100 gr. di controllo E21 = p(>)n2 = 45 E22 = 105 150 75 175 250 Considero quindi r X c X (Oi,j − Ei,j )2 χ = , Ei,j i=1 j=1 2 che, sotto l’ipotesi nulla H0 , é una χ2 di ν = (c − 1)(r − 1) = 1 gradi di libertà. Cerco la regione critica [x, ∞) tale che P(χ2 (ν) ≥ x) = α = 0, 05, cioé x = χ21−α (ν) = χ20,95 (1) = 3, 841 e la regione critica é [3, 841, ∞). Calcolo infine il valore di χ2 per capire se appartiene o meno alla regione critica, χ2 = (40 − 30)2 (60 − 70)2 (35 − 45)2 (115 − 105)2 + + + = 11, 26. 30 70 45 105 χ2 = 11, 26 appartiene alla regione critica, quindi rifiuto l’ipotesi nulla H0 . 10.4 Un’indagine statistica vuole rilevare l’effetto dei diversi tipi di pubblicità sulle scelte dei consumatori, intervistandone un gran numero in riferimento alla pubblicità di un singolo prodotto. Tra 100 persone che hanno visto la pubblicità in TV, il 66% ha effettivamente comprato il prodotto. Tra 150 persone che hanno visto la pubblicità su internet, 99 hanno comprato il prodotto e tra 80 persone che hanno sentito la pubblicità in radio, il 45% lo ha comprato. Fare un test multiplo con livello α = 0, 05 per evidenziare le differenze tra i diversi tipi di pubblicità. 31 Sol. Prima di tutto faccio un test con ipotesi generiche H0 : ptv = pweb = pr H1 : ∃i, j t.c. pi 6= pj e per verificare queste ipotesi farò un test χ2 , per il quale costruisco le tabelle di contingenza. Osservazioni compra non compra radio O11 = 36 TV O21 = 66 web O31 = 99 O12 = 44 O22 = 34 O32 = 51 80 100 150 129 330 201 Attese compra non compra radio 80 201 ' 49 330 201 TV 100 330 ' 61 ' 91 web 150 201 330 201 31 39 59 80 100 150 129 330 Il test χ2 in questo caso userà una regione critica [x, ∞), dove x = χ21−α (ν) con ν = (r − 1)(c − 1) = 2 gradi di libertà, cioé x = χ20,95 (2) = 5, 991. Calcolo χ2 = = P2 (Oi,j −Ei,j )2 i=1 j=1 Ei,j 2 (36−49)2 (44−31)2 + + (66−61) 49 31 61 P3 + (34−39)2 39 + (99−91)2 91 + (51−59)2 59 = 11, 72 e osservo che χ2 = 11, 72 ∈ [5, 991, ∞), quindi rifiuto l’ipotesi nulla H0 e riconosco che c’é una differenza tra le probabilità di acquisto tra diversi tipi di pubblicità. Cerco anche delle limitazioni per il valore di P di questo test, per capire se abbia senso fare dei test multipli per capire dove sono le differenze. Sto cercando quel valore P tale che P(χ2 ≥ 11, 72) = P, sulle tavole vedo che 0, 995 ≤ P(χ2 ≤ 11, 72) ≤ 0, 999 quindi 0, 001 ≤ P ≤ 0, 005, per cui ha senso fare un test multiplo con un livello dato dalla correzione di Bonferroni α0 = α/2 = 0, 025 > 0, 005 > P. 32 Confronto prima le due popolazioni che sembrano più simili, ovvero quella di chi ha visto la pubblicità in TV e di chi l’ha vista su internet, con le ipotesi H0 : ptv = pweb H1 : ptv 6= pweb e ottenendo le seguenti tabelle. Osservazioni compra TV O11 = 66 web O21 = 99 non compra O12 = 34 O22 = 51 100 150 85 250 165 Attese compra TV 100 165 ' 66 250 165 web 150 250 ' 99 165 non compra 34 51 100 150 85 250 Capisco già, dalla tabella delle attese, di dover accettare l’ipotesi nulla H0 perché le due popolazioni sono caratterizzate dalla stessa probabilità, infatti il valore χ2 = 0 e sicuramente non appartiene alla regione critica, che in questo caso é [x, ∞) = [χ21−α0 (ν), ∞) = [χ20,975 (1), ∞) = [5, 024, ∞). Posso ora confrontare la popolazione ottenuta unendo le due precedenti (tanto sono caratterizzate dalla stessa probabilità) con quella di chi ha sentito la pubblicità in radio. H0 : ptv (= pweb ) = pr H1 : ptv (= pweb ) 6= pr In questo caso le tabelle di contingenza sono le seguenti. Osservazioni 33 compra TV e web O11 = 165 O21 = 36 radio 201 non compra O22 = 85 O22 = 44 250 80 129 330 Attese compra non compra TV e web radio 152 49 98 31 250 80 201 129 330 La regione critica é sempre [x, ∞) = [χ21−α0 (ν), ∞) = [χ20,975 (1), ∞) = [5, 024, ∞), mentre il valore di χ2 é χ2 = (165 − 152)2 (85 − 98)2 (36 − 49)2 (44 − 31)2 + + + = 11, 73 152 98 49 31 che appartiene alla regione critica e quindi mi spinge a rifiutare l’ipotesi nulla H0 . 34
© Copyright 2024 ExpyDoc