Es. 1.1 Un certo macchinario produce lotti di 100 pezzi ciascuno. Il

Es. 1.1 Un certo macchinario produce lotti di 100 pezzi ciascuno. Il numero di
pezzi difettosi in 25 lotti ispezionati è
1, 5, 3, 1, 3, 2, 2, 1, 2, 5, 3, 0, 1, 4, 3, 7, 1, 3, 1, 7, 2, 1, 2, 4, 8
Costruire l’istogramma, determinare la media, la mediana, l’ottantesimo
percentile, i quartili, la varianza campionaria, la deviazione standard
della media e confrontare la distribuzione con la distribuzione normale.
Sol. Costruisco l’istogramma
1
1
1
1
1
1
0 1
2
2
2
2
2
3
3
3
3 4 5
3 4 5
7
7 8
Determinare la media nei miei dati significa calcolare
µX =
1
25
(1 + 5 + 3 + 1 + 3 + 2 + 2 + 1 + 2 + 5 + 3 + 0
+1 + 4 + 3 + 7 + 1 + 3 + 1 + 7 + 2 + 1 + 2 + 4 + 8)
= 2, 88.
La mediana é quel valore x t.c. P(X ≤ x) = 12 , nel nostro caso possiamo cercare di capire questa informazione dal campione e vedo che 13
valori sono minori o uguali a 2 e 12 valori sono maggiori di 2, quindi la
mediana é 2.
L’ottantesimo percentile é quel valore x t.c. P(X ≤ x) = 0, 8, nel
nostro caso 20 valori sono minori o uguali a 4, ma anche strettamente
minori di 5, quindi qualsiasi valore tra 4 e 5 soddisfa la rinchiesta e
l’ottantesimo percentile viene scelto come 4+5
= 4, 5.
2
I quartili sono il venticinquesimo e il settantacinquesimo percentile,
quindi sono i valori 1 per il venticinquesimo e 4 per il settantacinquesimo. I due quartili saranno utili per confrontare la distribuzione con la
distribuzione normale.
La varianza campionaria é
1
[(1
24
− 2, 88)2 + (5 − 2, 88)2 + (3 − 2, 88)2 + (1 − 2, 88)2 + (3 − 2, 88)2
+(2 − 2, 88)2 + (2 − 2, 88)2 + (1 − 2, 88)2 + (2 − 2, 88)2 + (5 − 2, 88)2
+(3 − 2, 88)2 + (0 − 2, 88)2 + (1 − 2, 88)2 + (4 − 2, 88)2 + (3 − 2, 88)2
+(7 − 2, 88)2 + (1 − 2, 88)2 + (3 − 2, 88)2 + (1 − 2, 88)2 + (7 − 2, 88)2
+(2 − 2, 88)2 + (1 − 2, 88)2 + (2 − 2, 88)2 + (4 − 2, 88)2 + (8 − 2, 88)2 ]
= · · · = 4, 5267.
s2X =
1
La deviazione standard della media invece é
√
4, 5267
sX
= 0, 4255.
sX = √ =
5
n
Per confrontare il campione che abbiamo a disposizione con la distribuzione normale dobbiamo servirci della relazione che c’é per i quartili della normale di media µ e varianza σ 2 , ovvero il 25esimo percentile
é µ − 0, 68σ e il 75esimo percentile é µ + 0, 68σ. Usiamo le stime che
abbiamo fatto precedentemente per media e deviazione
standard, cosí
√
il 25esimo percentile dovrebbe essere 2, 88 − 0,
√ 68 4, 5267 = 1, 43 e il
75esimo percentile dovrebbe essere 2, 88+0, 68 4, 5267 = 4, 43. Questa
differenza con i valori ottenuti, la distanza tra media e mediana (nella
distribuzione normale coincidono) e l’asimmetria dei dati fanno immaginare che non siano estratti da una popolazione gaussiana, anche se non
posso escludere con sicurezza che invece siano derivati proprio da una
popolazione normale.
Es. 1.2 Per misurare accuratamente dei pesi viene usata una scala digitale. Sia
X la variabile aleatoria che indica la misurazione fatta usando questa
scala e si considerino i seguenti intervalli di valori di misurazione:
A : peso supera i 20 grammi
B : peso è inferiore o uguale a 15 grammi
C : peso è compreso tra 15 e 24 grammi (estremi esclusi).
Si conoscono le seguenti probabilità:
P (X ∈ A) = 0.5, P (X ∈ B) = 0.3, P (X ∈ C) = 0.6
a) A e B sono mutuamente disgiunti? B e C? A e C?
b) Descrivere Ac e determinarne la probabilità.
c) Descrivere C c e determinarne la probabilità.
d) Determinare P (15 < X ≤ 20).
Sol.
a) A e B sono disgiunti, B e C sono disgiunti, mentre C e A non lo
sono.
b) L’evento Ac si descrive come {il peso é minore o uguale a 20
grammi }. La probabilità é P(X ∈ Ac ) = P(X ∈ Ω − A) =
1 − P(X ∈ A) = 0, 5.
2
c) L’evento C c si descrive come {il peso é minore o uguale a 15
grammi } ∪ {il peso é maggiore o uguale a 24 grammi }. La
probabilità é P(X ∈ C c ) = P(X ∈ Ω − C) = 1 − P(X ∈ C) = 0, 4.
d) Per determinare P (15 < X ≤ 20) devo descrivere l’evento in
questione, cioé l’evento {il peso é strettamente maggiore di 15 e
minore o uguale a 20 }. Questo evento é equivalente a Ac − B,
la cui probabilitá é P(X ∈ Ac − B) = P(X ∈ Ac ) − P(X ∈ B) =
0, 5 − 0, 3 = 0, 2.
Es. 1.3 In un gioco televisivo viene messo in palio un 1 milione di euro. Per
vincerlo il concorrente dovrà indovinare fra tre buste qual è quella che
contiene l’assegno. Il concorrente sceglie a caso una busta; a questo
punto il conduttore mostra una delle due buste che sa essere vuota,
offrendo al concorrente di cambiare la propria busta con quella rimanente.
Qual è la probabilità di vincere il premio conservando la prima
busta scelta?
Qual è la probabilità di vincere cambiando la busta?
Qual è la probabilità di vincere se gioca a testa e croce fra le due
strategie?
Sol.
- La prima strategia che consideriamo é quella in cui si conserva la
busta scelta inizialmente. Per calcolare la probabilitá di vincita
ho bisogno di considerare casi favorevoli e casi possibili, i casi
possibili sono le tre possibili scelte della busta che il concorrente
può fare all’inizio, mentre i casi favorevoli sono uno solo, ovvero il
caso in cui il concorrente aveva scelto la busta vincente all’inizio,
quindi P(V |senza cambiare) = 13 .
- La seconda strategia che consideriamo é quella in cui si cambia la
busta scelta inizialmente. Per calcolare la probabilitá di vincita i
casi possibili sono sempre i tre precedenti, mentre i casi favorevoli
sono due, cioé i casi in cui il concorrente aveva scelto la busta perdente all’inizio, perché in quel caso cambiando finirà sempre per
scegliere la busta vincente (l’altra busta perdente é stata eliminata). Quindi P(V |cambiando) = 32 .
- Per la terza strategia é necessario ricorrere alla formula delle probabilità totali. Immaginiamo che il concorrente scelga di cambiare
3
se esce testa. Voglio calcolare
P(V ) = P(V |testa)P(testa) + P(V |croce)P(croce)
= P(V |cambiando) 21 + P(V |senza cambiare) 21
= 23 12 + 13 12 = 12 .
Es. 2.1 Sia X una variabile aleatoria con funzione di ripartizione:

0,
se x < 0


 1 2
x
,
se
0≤x<5
50
F (x) =
1 2
2
− x + 5 x − 1 se 5 ≤ x < 10


 50
1
se x ≥ 10
a) Disegnare F . Quali valori può assumere la variabile aleatoria (continua) X?
b) Mostrare che X ha densità e calcolarla.
c) Calcolare il valore atteso di X e quello di X 2 .
Sol.
a) Vedo dalla funzione di ripartizione che P(X ≤ 0) = 0 e che P(X ≥
10) = 1, cioé capisco che la v.a. X non può assumere nessun valore
inferiore a zero e nessun valore superiore a 10, cioé X ∈ [0, 10].
4
b) Noi sappiamo
che se X ammette densità f , si ha F (x) = P(X ≤
Rx
x) = −∞ f (t)dt, quindi f (x) = F 0 (x). Per capire se X ammette
densità devo controllare se F é derivabile.

0
se x < 0


 1
x
se 0 ≤ x < 5
25
F 0 (x) =
2
1
x
+
se 5 ≤ x < 10
−

5

 25
0
se x ≥ 10
c) Il valore atteso di X é
Z
Z
E[X] =
xf (x)dx =
5
0
R
Il valore atteso di X 2 é
Z
Z
2
E[X] =
x f (x)dx =
x2
dx +
25
5
5
10
2
x
2x
− + dx = · · · = 5.
25
5
Z 10 3
2x2
175
x3
x
dx+
dx = · · · =
.
− +
25
25
5
6
5
0
R
Z
Es. 2.2 Sia
f (x) = cx2 , per − 1 < x < 1.
Determinare:
1) I valori di c per i quali f è una densità;
2) P (X > 0);
3) P (− 12 ≤ X ≤ 12 ), P (|X| ≤ 12 ) e P (|X| ≥ 21 );
4) P (X < 0 oppure X > −1);
5) il valore y ∈ R tale che P (X > y) = 0.05.
Sol.
1) Sto cercando i valori c ∈ R t.c.
Z
P(X ∈ R) =
f (x)dx = 1.
R
Cerco quindi di risolvere
Z
1
cx2 dx = 1
−1
e ottengo c = 23 .
2) P (X > 0) = 1 − P(X ≤ 0) = 1 − F (0) = 1 −
5
R0
3 2
x dx
−1 2
= ··· =
1
2
3) P (− 12 ≤ X ≤ 12 ) = F ( 12 ) − F (− 21 ) = · · · = 18 .
P (|X| ≤ 12 ) = P (− 12 ≤ X ≤ 12 ) = · · · = 12 .
P (|X| ≥ 12 ) = 1 − P (|X| ≤ 21 ) = 87 .
4) P (X < 0 oppure X > − 12 ) = P(X ∈ (−∞, 0) ∪ (− 21 , +∞))
= P(X < 0) + P(X > − 12 ) − P(− 12 < X < 0) = · · · = 1
R1
5) Cerco y ∈ R tale che P (X > y) = y 23 x2 dx = 0, 05, quindi
y ' 0, 965.
Es. 2.3 Trovare la probabilità che in 5 lanci di un dado non truccato il 3 si
presenti
1. mai
2. almeno una volta
3. quattro volte.
Sol. Se considero quante volte appare il 3 in 5 lanci dello stesso dado sono
di fronte ad una v.a. Binomiale in cui ho 5 prove di Bernoulli ognuna
caratterizzata dalla probabilità p = P({appare il 3}) = 61 , cioé X ∼
B(5, 16 ).
1. Se il 3 non si presenta mai, significa che X = 0, quindi
P(X = 0) =
5
0
0 5
1
5
' 0, 4019
6
6
2. In questo caso l’evento "il 3 si presenta almeno una volta" é equivalente a X ≤ 1,
P(X ≤ 1) = 1 − P(X = 0) ' 0, 5981
3. P(X = 4) =
5
4
1 4
6
5 1
6
' 0, 0032.
Es. 2.4 Un passeggero qualsiasi ha una probabilità p di non presentarsi all’imbarco,
pertanto una compagnia aerea accetta N prenotazioni per un aereo con
capienza n ( dove n ≤ N ). Qual è la probabilità che almeno un passeg1
gero con regolare prenotazione resti a terra? Supponendo che p = 10
,
tale evento è più probabile nel caso N = 22, n = 20 oppure N = 11,
n = 10?
6
Sol. In questo caso il numero di passeggeri che effettivamente si presentano
all’imbarco é una v.a. binomiale con N prove e probabilitá di successo
(1 − p), cioé X ∼ B(N, 1 − p).


N
 almeno un 
X
N
 = P(X ≥ n + 1) =
passeggero
P
(1 − p)k pN −k .
k


k=n+1
rimane fuori
1
e quindi 1 − p =
Consideriamo p = 10
Caso N = 22 e n = 20.
9
.
10
22
21
11
11
P(X > 20) = P(X = 21)+P(X = 22) =
9
10
21
22
1
9
921 31
22
+
=
.
22
10
10
1022
Caso N = 11 e n = 10.
P(X > 10) = P(X = 11) =
9
10
11
=
911
.
1011
Confronto le probabilità




rimanere
rimanere




 ? P

fuori con
fuori con
P

 <


N = 11 e n = 10
N = 22 e n = 20
e con qualche calcolo ottengo che é veramente cosí, la probabilità é
maggiore con N = 22 e n = 20.
Es. 3.1 Il tempo necessario ad Adalberto per coprire il percorso casa-ufficio è
una variabile aleatoria di legge normale. Se il tempo medio è di 30
minuti e la probabilità di coprire il percorso in più di 40 minuti è 0.1,
quanto vale la probabilità di coprire il percorso in più di 50 minuti?
Sol. Il problema mi dice che T ∼ N (30, σ 2 ) e so che qualsiasi v.a. normale
può essere scritta come T = σZ + µ dove Z ∼ N (0, 1), quindi in questo
caso T = σZ + µ. Io so che P(T ≥ 40) = 0, 1 e posso capire quanto
vale σ.
10
P(T ≤ 40) = P(σZ + 30 ≤ 40) = P(Z ≤ ) = 0, 9,
σ
servendomi delle tavole della normale standard so che il quantile di
0,9 é q0,9 ' 1, 2816, quindi 10
' 1, 2816 e σ ' 7, 8027. Ora posso
σ
tranquillamente calcolare la probabilità di coprire il percorso in più di
50 minuti, cioé
20
P(T ≥ 50) = P(7, 8027Z + 30 ≥ 50) = 1 − P(Z ≤
) ' 0, 0052.
7, 8027
7
Es. 3.2 Assumendo che la probabilità che nasca un maschio sia 1/2, trovate la
probabilità che in una famiglia con 4 figli ci sia
1) almeno un maschio;
2) almeno un maschio e una femmina.
3) Consideriamo ora 4000 famiglie con 4 figli. Quante ci si aspetterebbe che abbiano almeno un maschio e una femmina?
Sol.
1) Per rispondere ai primi due punti devo considerare ogni famiglia
come una v.a. Binomiale con n = 4 e p = 12 , cioé X ∼ B(4, 0.5).
La probabilità che nasca almeno un maschio é
15
4
= 0, 9375.
P(X ≤ 1) = 1 − P(X = 0) = 1 −
(0, 5)4 =
0
16
2) In questo caso si ha che la probabilità che nascano almeno un maschio e una femmina é uguale a 1 meno la probabilitá che nascano
solo maschi oppure solo femmine.
P(1 ≤ X ≤ 3) = 1 − P(X = 4) − P(X = 0) = · · · =
7
8
3) Per questo caso devo invece considerare che le prove ripetute della
v.a. binomiale sono le 4000 famiglie con 4 figli e che ognuna ha una
probabilità di successo p = 78 , cioé Y ∼ B(4000, 78 ). Il problema
mi chiede di calcolarne il valore atteso, per cui
E[Y ] = np = 3500.
Es. 3.3 Tra le 2 e le 4 del pomeriggio, in media, al minuto, il numero di chiamate telefoniche che arrivano ad un certo centralino è 2.5. Trovate la
probabilità che, in un minuto, ci siano
1) zero
2) due
3) quattro o meno
4) più di sei chiamate telefoniche
Sol. La v.a. che serve in questa situazione é una v.a. di Poisson con
parametro λ = 2, 5, cioé Po(2, 5). Quindi per la probabilità serve la
k
formula P(X = k) = e−λ λk! .
8
1) P(X = 0) = e−λ = 0, 08208
2
2) P(X = 2) = e−λ λ2! = 0, 2565
P
k
3) P(X ≤ 4) = 4k=0 e−λ λk! = · · · = 0, 8911
P
k
4) P(X ≥ 6) = 1 − P(X ≤ 6) = 1 − 6k=0 e−λ λk! = · · · = 0, 0142
Es. 3.4 Secondo certe statistiche sugli USA, il numero medio annuo di annegamenti accidentali è di 3 su 100000 abitanti. Trovate la probabilità che,
in una città con popolazione pari a 200000 abitanti, vi siano
1) due annegamenti accidentali all’anno
2) meno di tre annegamenti accidentali all’anno
Sol. In questo caso la v.a. che modellizza il numero di annegamenti accidentali ogni 100000 é una Poisson di parametro λ = 3, cioé X ∼ Po(3).
Se vogliamo occuparci del numero di annegamenti ogni 200000, questo
sará dato dalla somma di due v.a. indipendenti distribuite come X e
si avrá Y = X + X. Per le proprietá delle v.a. di Poisson, la somma
di due Poisson indipendenti é ancora una Poisson il cui parametroo é
la somma dei parametri, infatti Y ∼ Po(3 + 3) = Po(6).
2
1) P(Y = 2) = e−6 62! = 0, 04462.
2) P(Y < 3) = P(Y = 0)+P(Y = 1)+P(Y = 2) = e−6 1 + 6 +
0, 06197.
62
2!
=
Es. 3.5 La percentuale di realizzazione nei tiri da due punti di un giocatore di
pallacanestro è del 55%. Si calcoli la probabilità che segni non più di
50 punti in 50 tiri.
Sol. In questo caso abbiamo una v.a. Binomiale con n = 50 e p = 0, 55,
cioé X ∼ B(50, 0, 55). L’esercizio mi chiede di calcolare
25 X
50
P(2X ≤ 50) = P(X ≤ 25) =
(0, 55)k (0, 45)50−k .
k
k=0
Vedo che il numero di addendi che devo calcolare é molto alto, quindi
cerco un’approssimazione per la binomiale. Dato che sono verificate
np = 27, 5 > 5 e n(1 − p) = 22, 5 > 5, scelgo l’approssimazione con una
normale Y ∼ N (27, 5, 12, 375).
P(X ≤ 25) '
correz. di cont.
perché passo da
' P(Y ≤ 25, 5)
v.a. discreta a cont.
9
√
Uso il fatto di poter scrivere la normale Y = 12, 375Z + 27, 5, dove
Z ∼ N (0, 1), quindi
p
P( 12, 375Z + 27, 5 ≤ 25) = · · · ' 1 − P(Z ≤ 0, 57) = 0, 28.
Es. 4.1 Una ditta di trasporti internazionali possiede 100 tir dello stesso tipo.
Ogni tir percorre una media di 600 km al giorno con una deviazione
standard di 50 km.
1) Supponendo che i giorni lavorativi in un anno siano 340, quanti
chilometri percorre mediamente un tir in un anno?
2) Una merce deve essere trasportata da un tir ad una distanza
di 7000 km. Viene chiesto al titolare dopo quanti giorni dalla
partenza avverrà la consegna. Che risposta deve dare il titolare
affinché con probabilità almeno pari a 0.9 la merce arrivi a destinazione entro il tempo dichiarato?
Sol. La v.a. Xi che indica lo spazio percorso dal tir i-esimo in un giorno ha
media 600 km e varianza 2500 km2 ; tutte le Xi sono v.a. indipendenti
e distribuite allo stesso modo.
1) P
Lo spazio percorso da un tir in un anno si indica con la v.a.
340
i=1 Xi , che ha valore atteso
" 340 #
340
340
X
X
X
E
E [Xi ] =
600 km = · · · = 204000 km
Xi =
i=1
i=1
i=1
2) Suppongo che il numero di P
giorni di consegna sia n, lo spazio
percorso in n giorni é Sn = ni=1 Xi . Voglio sapere quanto deve
valere n affinché
P(Sn ≥ 7000 km) ≥ 0, 9
Uso il TLC per cui una somma di v.a. indipendenti e identicamente distribuite di media µ e varianza σ 2 può essere approssimato con una normale N (nµ, nσ 2 ). Posso quindi scrivere
l’approssimazione
di Sn attraverso una normale standard, cioé
√
Sn ' σ nZ + nµ, dove Z ∼ N (0, 1). Calcolo la probabilità
√
7000 − 600n
√
P(Sn ≥ 7000) ' P(50 nZ+600n ≥ 7000) = P(Z ≥
) ≥ 0, 9
50 n
per cui
P(Z ≤
7000 − 600n
√
) ≤ 0, 1
50 n
10
Cerco sulle tavole il 10imo percentile q0,1 = −1, 28 (per trovarlo
uso q0,9 = 1, 28 e le proprietà per cui q0,1 = −q1−0,1 ) e so che deve
valere
7000 − 600n
√
≤ −1, 28
50 n
da cui ottengo n ≥ 12, 02 ovvero n > 12, cioé n = 13 giorni.
Es. 4.2 Il tempo di lavorazione di un pezzo meccanico è una variabile aleatoria
di media µ = 2 minuti e deviazione standard σ = 0, 3 minuti.
1) In approssimazione normale, calcolare la probabilitá di effettuare
la lavorazione di 150 pezzi in un tempo minore di 5 ore e 10 minuti.
2) In approssimazione normale, calcolare la probabilità che la media campionaria dei tempi di lavorazione relativa a 100 pezzi sia
compresa tra 1 minuto e 55 secondi e 2 minuti e 10 secondi.
3) Quanti pezzi dobbiamo misurare per essere certi al 95% che la
media dei loro tempi di lavorazione non differisca da 2 minuti per
più di 4 secondi?
Sol. I tempi di lavorazione dei singoli pezzi sono v.a. Xi indipendenti e
identicamente distribuite.
P
1) S150 = 150
i=1 Xi per il TLC può essere approssimata come N (150 ·
20 , 150 · (0, 30 )2 ) = N (300, 13, 5), quindi posso scrivere S150 '
3, 67Z + 300 con Z ∼ N (0, 1).
P(s150 ≤ 3100 ) = P(3, 67Z+300 ≤ 3100 ) = P(Z ≤ 2, 72) = 0, 99676.
P100 ¯ 100 = i=1 Xi che può es2) La media campionaria per 100 pezzi é X
100
0 2
σ
sere approssimata con una normale N µ, √n = N 20 , 0,3
.
10
Posso quindi scrivere
0
¯ 100 ' 0, 3 Z + 20 = in secondi = 1, 800 Z + 12000
X
10
con Z ∼ N (0, 1).
¯ 100 ≤ 13000 ) = · · · = P
P(115 ≤ X
00
11
11500 − 12000
13000 − 12000
≤
Z
≤
1, 800
1, 800
= · · · ' 0, 9972
3) Voglio determinare n t.c.
¯ n − 20 | < 400 ) ≥ 0, 95
P(|X
¯ 100 con una normale N (20 ,
Come prima, posso approssimare X
00
¯ 100 ' 18
√ Z + 12000 con Z ∼ N (0, 1).
quindi X
0
0,3
√
n
2
n
¯ 100 − 120 ≤ 4 ) = · · · ' P
P(−4 ≤ X
00
00
00
√
√ −400 n
400 n
≤Z≤
1800
1800
√ 2 n
' 2P Z ≤
− 1 ≥ 0, 95
9
Quindi devo cercare il valore di n per cui
√ 2 n
P Z≤
≥ 0, 975
9
√
√
cioé 2 9 n ≥ q0,975 = 1, 96. Di conseguenza n ≥ 8, 82 e n ≥ 77, 79,
per cui il numero minimo di pezzi necessari é n = 78.
Es. 5.1 La distanza d di una stella è calcolata come la media di una serie
di misurazioni indipendenti e identicamente distribuite con media d e
varianza 4. Quante osservazioni sono necessarie per essere sicuri al 95%
che la media delle osservazioni approssimi d entro 0.5?
Sol. Ogni misurazione Mi é una v.a. indipendente con media d e varianza 4,
¯ n può essere considerata
se ho n misurazioni, la media campionaria M
4
come una normale N (d, n ); sto quindi cercando il valore n tale che
¯ n − d| < 0, 5) = 0.95.
P(|M
Sia Z ∼ N (0, 1), allora
2
√
P √ Z + d − d < 0, 5 = · · · = 2 · P(Z < 0, 25 n) − 1,
n
cioé
√
P(Z < 0, 25 n) ≥ 0, 975.
√
Uso le tavole per la normale per calcolare q0,975 = 1, 96 ≤
n ≥ 61, 46 per cui le misurazioni necessarie sono n ≥ 62.
12
n
4
e quindi
),
Es. 5.2 In media in un paracadute su 1000 il paracadute principale è difettoso
e non si apre durante il lancio. Un paracadutista professionista compie
4000 lanci nella sua carriera; indichiamo con X la variabile aleatoria
che conta il numero di volte in cui il paracadute principale non si apre.
1) Se si approssima la distribuzione di X con una Normale, quanto
vale la probabilità che il paracadute principale non si apra in almeno uno dei 4000 lanci?
2) Quanto vale la probabilità appena calcolata, se si approssima la
distribuzione di X con una Poisson?
3) Quale delle due approssimazione è migliore e perchè?
Sol. Il numero di volte in cui il paracadute principale non si apre durante
la carriera di un paradutista professionista é una v.a. binomiale con
1
n = 4000 e p = 1000
1) Per l’approssimazione normale della binomiale, so che X ' Y dove
Y ∼ N (np, np(1 − p) e in questo caso Y ∼ N (4, 3, 996). Devo
calcolare P(X ≥ 1) = P(Y > 0), quindi per l’approssimazione
normale e per la correzione di continuità
0, 5 − 4
) · · · = P(Z ≤ 1, 75) = 0, 95994.
P(X ≥ 1) ' P(Y ≥ 0, 5) = P(Z ≥ √
3, 996
2) Per l’approssimazione poissoniana della binomiale uso il fatto che
X ' W con W ∼ Po(np) = Po(4). Quindi
in questo caso
non
serve la corr. ' 1−P(W = 0) = 1−e−4 = 0, 9816
P(X ≥ 1) = 1−P(X = 0) '
di cont.
3) Per capire quale sia l’approssimazione migliore mi basta guardare
le condizioni necessarie applicare l’approssimazione normale, che
sono np > 5 e n(1 − p) > 5 e in questo caso non sono soddisfatte,
quindi capisco che l’approssimazione da preferire é quella poissoniana. Per supportare questa affermazione posso anche calcolare
la probabilità esatta
4000
P(X ≥ 1) = 1 − P(X = 0) = 1 −
(0, 999)4000 ' 0, 9817
0
e vedo che é decisamente più vicina a quella ottenuta con l’approssimazione
poissoniana.
13
Es. 5.3 Sia (X1 , X2 , X3 ) un campione bernoulliano estratto da una popolazione
X. Al fine di stimare la media µ della popolazione è stato proposto il
seguente stimatore:
1
X1 + 3(X2 + X3 )?
12
1) Mostrare che T è uno stimatore distorto.
T =
2) Si trovi la costante c tale che W = cT sia uno stimatore non
distorto per µ.
Sol.
1) Per mostrare se uno stimatore é distorto, devo calcolarne il valore
atteso e controllare se é diverso dal valore che stima.
1
73
1
X1 + 3(X2 + X3 ) = E[X1 ]+3E[X2 ] = 3E[X3 ] = µ 6= µ.
E
12
12
12
Questo significa che lo stimatore é effettivamente distorto.
2) Devo trovare c tale che E[W ] = µ.
E[W ] = E[cT ] = c
quindi c =
73
µ,
12
12
.
73
Es. 5.4 Il numero di elementi spuri in un litro di una soluzione prodotta in
laboratorio è descritto da una variabile aleatoria X con media µ e
varianza σ 2 . La produzione giornaliera sia di n confezioni da un litro
l’una; il controllo viene effettuato prelevando m confezioni a caso tra
.
quelle prodotte. Sia β = m
n
1) Si stimi, in approssimazione normale, la probabilità che la media
del campione prelevato differisca dalla media vera di almeno ασ.
2) Si stimi, in approssimazione normale, la probabilità che la media del campione prelevato differisca dalla media della produzione
giornaliera di almeno ασ.
Sol.
Pm
¯ m = i=1 Xi e in approssimazione nor1) La media del campione é X
m
2
male possiamo considerare che sia una normale N (µ, σm ).
σ ¯ m − µ ≥ ασ) = 1 − P( √ Z ≥ ασ)
P(X
m dove Z ∼ N (0, 1), quindi
σ √
1 − P( √ Z ≤ ασ) = · · · = 2 · (1 − P(Z ≤ σ m)).
m
14
2) In questo caso voglio calcolare
¯n − X
¯ m ≥ ασ)
P(X
¯ n −X
¯m.
e per fare questo voglio capire che tipo di variabile é W = X
X
m
n
m
m
n
X
X
X
1
1
1
1
1
1 X
¯ n −X
¯m =
−
X
Xi +
Xi −
Xi =
Xi +
Xi
n i=1
n i=m+1
m i=1
n m i=1
n i=m+1
m
n
X
1
(m − n) 1 X
(n − m)
·
=
Xi +
Xi
n
m i=1
n
(n − m) i=m+1
"
#
n
m
X
1 X
(n − m)
1
−
Xi
=
n
n − m i=m+1 m i=1
che é una v.a. normale N (0, σ 2 (1−β)
). Allora la probabilità che
m
voglio calcolare é
√
α m
P(|W | ≥ ασ) = · · · = 2 · (1 − P(Z ≤ √
)).
1−β
Es. 6.1 Si ritiene che la temperatura del corpo umano nella popolazione sana sia
distribuita normalmente con media 36, 7o e deviazione standard 0, 32o .
1) Qual é la percentuale di persone sane la cui temperatura é superiore a 37o ?
2) Suppongo di definire la febbre nel seguente modo. ”Un individuo
ha la febbre se la sua temperatura é superiore a T , dove T é quel
valore della temperatura per cui esattamente il 5% della popolazione sana ha una temperatura maggiore di T .” Determinare
T.
Sol.
1) Indico la temperatura con la v.a. X ∼ N (36, 7o , (0, 32o )2 ). Cerco
la probabilità
P(X > 37) = P(0, 32Z+36, 7 > 37) = 1−P(Z <
37 − 36, 7
) = · · · = 0, 17361
0, 32
e quindi la percentuale ceracta é 17, 36%.
2) Sto cercando quel valore T t.c. 0, 05 = P(X > T ).
P(X > T ) = P(0, 32Z +36, 7 > T ) = 1−P(Z <
15
T − 36, 7
) = 0, 05
0, 32
quindi devo porre
T − 36, 7
= q0,95 ' 1, 65
0, 32
e ottengo T = 37, 228.
Es. 6.2 Voglio confrontare la resistenza X di due tipi di tessuti impiegati ad
uso industriale. Si hanno a disposizione i seguenti campioni.
Campione Taglia camp. Media camp. Varianza camp.
Tessuto A n = 10
Tessuto B m = 16
¯ = 18900
X
Y¯ = 18500
s2X¯ = 1600
s2Y¯ = 2500
Testare la differenza tra le medie con una significatività α = 0, 05.
Sol. Devo fare un test di Student sulla differŞnza tra le medie di due campioni indipendenti, con ipotesi
H0 : µX = µY
H1 : µX 6= µY .
Per fare questo mi servo della v.a.
¯ − Y¯
X
t= q 2
s2
sX
+ nY2
n1
che, sotto l’ipotesi H0 é una t di Student con ν = n1 + n2 − 2 gradi di
libertà; nel nostra caso sarà ν = 10 + 16 − 2 = 14. Cerco la regione
critica del test nel caso del livello α = 0, 05, che é (−∞, −x] ∪ [x, ∞)
dove x é tale che P(|t| ≥ x) = 0, 05. Cerco il valore x
P(|t| ≥ x) = 1 − P(−x ≤ t ≤ x) = · · · = 2 − 2 · P(t ≤ x) = 0, 05
= 0, 975. Allora, siccome so che t sotto H0 é di
quindi P(t ≤ x) = 2−α
2
student con 14 gradi di libertà cerco sulle tavole x = t0,975 (14) = 2, 063,
quantile della t di student con 14 gdl. Quindi la regione critica é
(−∞, −2, 063] ∪ [2, 063, ∞)
A questo punto calcolo il valore di t nel nostro particolare caso, per
vedere se appartiene alla regione critica e decidere se rifiutare o meno
l’ipotesi nulla.
¯ − Y¯
X
18900 − 18500
t= q 2
= q
= · · · = 22, 49
2
sY
sX
1600
2500
+
+ n2
10
16
n1
16
Vedo che 22, 49 ∈ [2, 063, ∞), quindi appartiene alla regione critica e
rifiuto l’ipotesi nulla H0 .
Es. 6.3 Si sta sperimentando l’effetto sui suini dell’aggiunta di una miscela probiotica alla razione di cibo giornaliera, per vedere se influisce sull’aumento
di peso giornaliero. Si somministra il probiotico a 10 suini e si confronta
il loro incremento di peso medio giornaliero con un gruppo di confronto
di 11 suini.
Gruppo trattati
Gruppo di controllo
637
639
659
646
650
641
641
650
640
635
650
633
631
637
642
638
640
634
626
636
640
1) Confrontare la differenza delle medie con un test di Student con
tolleranza α = 0, 05.
2) Possiamo individuare il primo valore di tolleranza α per cui non
posso più rifiutare l’ipotesi nulla?
Sol.
1) Devo fare un test di Student sulla differenza delle medie per due
campioni indipendenti, con ipotesi
H0 : µX = µY
H1 : µX 6= µY .
dove X indica la popolazione trattata e Y la popolazione di controllo. Mi servo della v.a.
¯ − Y¯
X
t= q 2
sX
s2Y
+
n1
n2
che, sotto l’ipotesi H0 é una t di Student con ν = n1 + n2 − 2 =
10 + 11 − 2 = 19 gradi di libertà. Costruisco la regione critica
(−∞, −x] ∪ [x, ∞) dove x é t.c. P(|t| ≥ x) = 0.05.
P(|t| ≥ x) = 1 − P(−x ≤ t ≤ x) = · · · = 2 − 2 · P(t ≤ x) = 0, 05
17
= 0, 975. Allora, siccome so che t sotto
quindi P(t ≤ x) = 2−α
2
H0 é di student con 19 gradi di libertà cerco sulle tavole x =
t0,975 (19) = 2, 093, quantile della t di student con 19 gdl. Quindi
la regione critica é
(−∞, −2, 093] ∪ [2, 093, ∞)
Per calcolare il valore di t ho bisogno di medie e variante campionarie.
¯ = 1 (637+639+659+646+650+641+641+650+640+635) = 643, 8
X
10
s2X =
1
((637
9
− 643, 8)2 + (639 − 643, 8)2 + (659 − 643, 8)2 + (646 − 643, 8)2 +
(650 − 643, 8)2 + (641 − 643, 8)2 + (641 − 643, 8)2 + (650 − 643, 8)2 +
(640 − 643, 8)2 + (635 − 643, 8)2 ) = · · · = 56, 46
1
Y¯ = (650 + 633 + . . . ) = 637
11
s2Y = · · · = 40, 6
Quindi il valore t é
¯ − Y¯
X
643, 8 − 637
q
t= q 2
=
= · · · ' 2, 23
sX
s2Y
40,6
56,46
+ 11
+ n2
10
n1
Vedo che t ' 2, 23 appartiene alla regione critica, quindi rifiuto
l’ipotesi nulla H0 .
2) Per trovare il primo valore di tolleranza α per cui non posso più
rifiutare l’ipotesi nulla devo osservare le tavole dei quantili della
t di student nella riga che corrisponde ai nostri 19 gdl. Sapendo
che t = 2, 23 vedo dalle tavole che il primo valore per cui t cade
fuori dalla regione critica é x = 2, 539, che é il quantile t0,99 (19).
Quindi il primo valore α per cui t cade fuori dalla regione critica
é 1 − α2 = 0, 99, quindi α = 0, 02.
Es. 7.1 Si sta conducendo un esperimento per valutare le capacità di mantenere
l’equilibrio in 8 soggetti adulti e 8 soggetti giovani. I soggetti vengono fatti posizionare su una piattaforma che ne misura i movimenti.
Il compito dei soggetti consiste nel cercare di mantenere l’equilibrio e
premere il più velocemente possibile un pulsante appena sentono un rumore fastidioso, presentato in maniera casuale. La piattaforma misura
18
i movimenti in millimetri di spostamento di ogni individuo, registrati
nella seguente tabella.
Adulti Giovani
19
30
20
19
29
25
21
24
25
21
17
15
14
14
22
17
1) Ci sono differenze tra i due gruppi? Utilizzare il livello di significatività α = 0, 5%.
2) É possibile che questo risultato sia un errore? Che tipo di errore
sarebbe?
3) Determinare il valore P .
Sol.
1) Voglio fare un test di Student bilatero sulla differenza delle medie
con ipotesi
H0 : µX = µY
H1 : µX 6= µY .
La variabile aleatoria di cui mi servo é
¯ − Y¯
X
,
t= q 2
sX
s2Y
+
n1
n2
che sotto H0 é di Student con ν = n1 +n2 −2 = 8+8−2 = 14 gradi
di libertà. Cerco la regione critica della forma (−∞, −x] ∪ [x, ∞),
dove
x = t1−α/2 (ν) = t0,9975 (14) = 3, 326
e quindi (−∞, −3, 326]∪[3, 326, ∞). Per calcolare il valore t, devo
¯ s2 , Y¯ e s2 .
ottenere dai dati i valori X,
X
Y
¯ = 1 (19 + 30 + 20 + . . . ) = 23, 375;
X
8
Y¯ = · · · = 18, 125;
s2X =
1
(19 − 23, 375)2 + (30 − 23, 375)2 + . . . = 16, 734;
7
19
s2Y = · · · = 14, 609.
Calcolo il valore
¯ − Y¯
X
23, 375 − 18, 125
t= q 2
= q
' 2, 65
2
sX
sY
16,734
14,609
+ 8
+ n2
8
n1
e vedo che t non appartiene alla regione critica, quindi devo accettare l’ipotesi nulla H0 .
2) Questo risultato potrebbe essere sbagliato, nel senso che il test non
mi fa vedere una differenza che in realtà c’é. Questo é chiamato
errore di seconda specie.
3) Il valore P é quella probabilità che realizza l’uguaglianza P(|t| ≥
2, 65) = P . Sulle tavole non posso trovare esattamente la probabilità corrispondente a x = 2, 65, ma posso trovare i valori xˆ = 2, 624
e x¯ = 2, 976 che stanno subito sopra e sotto x. Da questi valori
ricavo:
- αmax t.c.
P(t ≤ 2, 624) = 1 −
αmax
= 0, 99
2
e quindi αmax = 0, 02;
- αmin t.c.
P(t ≤ 2, 976) = 1 −
αmin
= 0, 995
2
e quindi αmin = 0, 01.
Posso così dare una limitazione inferiore e una superiore al valore
P , infatti
αmin = 0, 01 < P < 0, 02 = αmax .
Es. 8.1 Si vuole verificare se un conservante per alimentazione umana abbia
effetti sui fattori di crescita. Divido un gruppo di 20 cavie adulte in
due gruppi da 10 elementi ciascuno in modo casuale. Il primo gruppo
si sottopone ad un regime di alimentazione contenente la sostanza da
testare, mentre il secondo gruppo funziona come gruppo di controllo.
Si misura l’aumento di peso degli individui nei due gruppi in un determinato intervallo di tempo. Si misura l’aumento di peso degli individui
nei due gruppi in un determinato intervallo di tempo. Testare se la
20
sostanza causa un significativo aumento di peso con un livello di significatività α = 0, 01 e α = 0, 05, partendo dai seguenti dati.
Gruppo di controllo Gruppo dei trattati
¯ = 168, 2
X
2
sX¯ = 130, 62
Y¯ = 177, 2
s2Y¯ = 71, 73
Sol. Voglio fare un test di Student unilatero sulla differenza delle medie con
ipotesi
H0 : µX = µY
H1 : µX ≤ µY .
La variabile aleatoria di cui mi servo é
¯ − Y¯
X
,
t= q 2
s2Y
sX
+
n1
n2
che sotto H0 é di Student con ν = n1 + n2 − 2 = 20 − 2 = 18 gradi
di libertà. Se H0 é verificata, inoltre, la media di t é zero, mentre se
vale H1 la media di t é negativa, quindi la regione critica unilatera ha
la forma (−∞, −x] con P(t ≤ −x) = α.
-α = 0, 01 Costruisco la regione critica t.c.
1 − P(t ≤ x) = 0, 01
e x = t0,99 (18) = 2, 552. Controllo se t cade nella regione critica
(−∞, −2, 552],
¯ − Y¯
X
168, 2 − 177, 2
t= q 2
=q
= −2
2
sX
sY
130,62
71,73
+
+
10
10
n1
n2
non appartiene a (−∞, −2, 552], per cui non posso rifiutare H0 .
-α = 0, 05 Se cambio il livello di significatività, ciò che cambia é solo la regione critica, che in questo caso é (−∞, −x] dove P(t ≤ −x) =
α = 0, 05. Quindi con questo α si ha una regione critica
(−∞, −t1−α/2 (ν)] = (−∞, −t0,95 (18)] = (−∞, −1, 734].
Con questa regione critica, t = −2 appartiene all’intervallo e posso
rifiutare l’ipotesi nulla H0 .
21
Es. 8.2 L’etichetta delle bottiglie di champagne di un’azienda dichiara un contenuto di 730 ml. Il produttore decide di controllare questa affermazione e su 81 bottiglie esaminate riscontra una media campionaria
¯ = 726 ml ed una varianza campionaria s2¯ = 625.
X
X
1) Supponendo che la quantità di champagne contenuta in ogni bottiglia si possa modellizzare con una v.a. normale, si può concludere (al livello di significatività α = 5%) che in media le bottiglie
contengono una quantità diversa da quella dichiarata?
2) Suppongo di voler confrontare questi dati con i dati di un’altra
azienda produttrice di champagne che produce bottiglie da 730 ml.
Prelevo da quest’azienda un campione di 41 bottiglie e registro una
media campionaria Y¯ = 735 ml e varianza campionaria s2Y¯ = 760
ml2 . Posso concludere che la seconda azienda produce bottiglie
con un contenuto maggiore della prima azienda?
Sol.
1) Voglio fare un test di student sulla media, con le ipotesi
H0 : µX = µ(= 730ml)
H1 : µX 6= µ(= 730ml).
Per fare il test faccio riferimento alla v.a.
¯ −µ
X
t= q 2
sδ
n
che é di Student con ν = n − 1 = 81 − 1 = 80 gradi di libertà. Costruisco la regione critica (−∞, −x] ∪ [x, ∞) con x tale
che P(|t| ≥ x) = 0, 05 e quindi P(t ≤ x) = 0, 975 con x =
t0,975 (80) = 1, 990. Calcolo il valore di t per capire se appartiene
a (−∞, −1, 990] ∪ [1, 990, ∞).
¯ −µ
X
726 − 730
' −1, 44
t= q 2 = q
sX
n
625
81
non appartiene alla regione critica, quindi accetto H0 .
2) In questo caso ciò che voglio fare é un test di confronto tra le medie
di due campioni e, in particolare, questo test dev’essere unilatero,
con le ipotesi
H0 : µX = µY
H1 : µX ≤ µY .
22
La variabile che mi interessa ora é
¯ − Y¯
X
,
t= q 2
s2Y
sX
+
n1
n2
che é di Student con ν = n1 + n2 − 2 = 81 + 41 − 2 = 120 gradi
di libertà. Nel caso di questo test unilatero, la regione critica
che costruisco ha la forma (−∞, −x] (infatti se l’ipotesi nulla non
valesse, l’intervallo [x, ∞) avrebbe una probabilità ancora minore)
dove x é t.c. P(t ≤ −x) = α. Trovo quindi P(x ≤ x) = 1 − α =
0, 95 e x = t0,95 (120) = 1, 657.
Verifico se t appartiene o meno a (−∞, −1, 657],
¯ − Y¯
X
726 − 735
q
t= q 2
=
= −1, 757
sX
s2Y
625
760
+ 41
+ n2
81
n1
appartiene alla regione critica e di conseguenza rifiuto l’ipotesi
nulla H0 .
Es. 8.3 L’altezza media delle reclute alla visita di leva nel 1970 era di 169 cm.
121 reclute vengono scelte a caso nel 1980 e da queste vengono trovate
¯ = 171 cm e una varianza campionaria s2¯ =
una media campionaria X
X
85. Si può affermare (al livello di significatività α = 5% ) che lÕaltezza
media delle reclute é rimasta invariata? Dare delle maggiorazioni e
delle minorazioni al valore di P .
Sol. In questo caso voglio fare un test di student sulla media, con le ipotesi
H0 : µX = µ(= 169cm)
H1 : µX 6= µ(= 169cm).
Voglio sfruttare il fatto che la v.a.
¯ −µ
X
t= q 2
sX
n
é di Student con ν = n − 1 = 121 − 1 = 120 gradi di libertà. Costruisco
la regione critica della forma (−∞, −x] ∪ [x, ∞), dove
x = t1−α/2 (ν) = t0,975 (120) = 1, 979
e quindi (−∞, −1, 979] ∪ [1, 979, ∞).
23
Calcolo il valore
¯ −µ
171 − 169
X
t= q 2 = q
' 2, 386
sX
n
85
121
e vedo che t ∈ regione critica, quindi posso rifiutare l’ipotesi nulla H0 e
dire che c’è differenza significativa tra l’altezza media nel 1970 e quella
nel 1980.
Il valore P viene definito come quel valore che soddisfa
P(|t| ≥ 2, 386) = P,
quindi tale che P(t ≤ 2, 386) = 1 − P2 . Sulle tavole non posso trovare
esattamente la probabilità corrispondente a x = 2, 386, ma posso trovare
i valori xˆ = 2, 357 e x¯ = 2, 617 che stanno subito sopra e sotto x. Da
questi valori ricavo:
- αmax t.c.
P(t ≤ 2, 357) = 1 −
αmax
= 0, 99
2
e quindi αmax = 0, 02;
- αmin t.c.
αmin
P(t ≤ 2, 617) = 1 −
= 0, 995
2
e quindi αmin = 0, 01.
Posso così dare una limitazione inferiore e una superiore al valore P ,
infatti
αmin = 0, 01 < P < 0, 02 = αmax .
Es. 9.1 In uno studio medico si misura la pressione arteriosa a 8 individui prima
e dopo l’assunzione di un determinato farmaco. I risultati registrati
sono i seguenti.
Individuo Press. prima Press. dopo
I
II
III
IV
V
VI
VII
VIII
200
174
198
170
179
182
193
209
191
170
177
167
159
151
176
183
24
Con un livello di significativà α = 0, 05 posso dire che il farmaco causa
una variazione nella pressione arteriosa?
Sol. Vorrei fare un test di student sulla differenza delle medie, con le seguenti
ipotesi:
H0 : µX = µY
H1 : µX 6= µY
Ci troviamo però nel caso di campioni accoppiati, infatti i due campioni
che abbiamo a disposizione non sono indipendenti tra loro. Consideriamo quindi la differenza tra i valori δX,Y , ottenendo un unico campione
dato dalle differenze calcolate.
Individuo Press. prima Press. dopo Diff. tra prima e dopo
I
II
III
IV
V
VI
VII
VIII
200
174
198
170
179
182
193
209
191
170
177
167
159
151
176
183
9
4
21
3
20
31
17
26
δ¯X,Y = 16, 375
s2δX,Y = 105, 45
Sul campione ottenuto così faccio un test sulla media con le seguenti
ipotesi:
H00 : δX,Y = 0
H10 : δX,Y 6= 0
Per questo test ci serviremo della v.a.
δ¯X,Y
t= q 2
sδ
n
che, sotto l’ipotesi nulla H00 é t di student con ν = n − 1 = 7 gradi
di libertà. Costruisco la regione critica (−∞, −x] ∪ [x, ∞) tale che
P(|t| ≥ x) = α = 0, 05, quindi x = t0,975 (7) = 2, 364 e la regione critica
é (−∞, −2, 364] ∪ [2, 364, ∞). Calcolo il valore
δ¯X,Y
16, 375
t= q 2 = q
' 4, 511
105,45
8
sδ
n
25
che appartiene alla regione critica e mi porta a rifiutare l’ipotesi nulla
H00 .
Es. 9.2 Qual é la probabilità che, effettuando un test di student sulla differenza
delle medie di due campioni di taglia n = 10 con un livello di significatività α = 0, 05 non mi accorga di una differenza di δ = 4? Calcolare
questa probabilità sapendo che la varianza del campione é nota ed é
σ 2 = 6, 5.
Sol. La probabilità di non vedere una differenza che in realtà c’é é l’errore di
seconda specie β, devo quindi calcolarlo, sfruttando l’approssimazione
normale per la t di Student. Per definizione β é
β = P1 |t| ≤ q1−α/2 ,
dove q1−α/2 é quantile della normale standard proprio per l’approssimazione
normale che abbiamo considerato. Nel nostro caso α = 0.05, quindi
q1−α/2 = q0,975 = 1, 96 e si ha
p p β = P Z ≤ 1, 96 − σδ n2 − P Z ≤ −1, 96 − σδ n2
' P(Z ≤ −1, 55) = 1 − P(Z ≤ 1, 55) ' 0, 06
considerando che Z ∼ N (0, 1).
Es. 9.3 Voglio effettuare un test statistico su due popolazioni di media sconosci2
uta e di varianza nota σX
= σY2 = 4. Mi aspetto che la differenza tra le
due medie sia |µX − µY | = 2 e voglio avere un livello di significatività
α = 0, 01 e una potenza del test del 95%. Qual é la taglia minima del
campione che devo scegliere per soddisfare queste richieste?
Sol. In questo caso mi devo servire della formula
n
¯'2
σ2
(q1−α/2 + q1−β )2 ,
δ2
che nel nostro caso diventa
4
n
¯ ' 2 (q0,995 + q0,95 )2 ' 35, 78
4
quindi la taglia minima del campione sarà n = 36.
Es. 10.1 Due aziende producono lampadine da 75 watt, si vuole dare un intervallo di confidenza per la differenza tra la vita media in ore delle
26
lampadine di un’azienda rispetto a quelle dell’altra con una confidenza
del 95%. I dati che si hanno a disposizione sono i seguenti.
Azienda Taglia campione Media campion. Varianza camp.
Az. 1
Az. 2
20
22
1014
997
25, 1
16, 3
1) Dare un intervallo di confidenza al 95% per la differenza delle
medie.
2) Fare un test sulla differenza delle medie con livello di significatività
0, 05.
Sol.
1) Se cerco un intervallo di confidenza al 95% per δµ = µX − µY ,
significa che sto cercando quell’intervallo I1−α t.c.
P (δµ ∈ I1−α ) = 1 − α = 0, 95,
quindi userò α = 1 − 0, 95 = 0, 05. Per cercare questo intervallo
mi servo della variabile aleatoria
t0 =
¯ − Y¯ − (µX − µY )
X
q 2
sX
s2Y¯
¯
+
n1
n2
che nel nostro caso é t di Student con ν = n1 +n2 −2 = 20+22−2 =
40 gradi di libertà. Userò il quantile t1− α2 (40), t.c.
P(|t0 | ≤ t1− α2 (40)) = 1 − α,
per scrivere l’intervallo

s
¯ − Y¯ − t1− α (ν)
I1−α = X
2

s
s2X¯
s2Y¯
s2X¯
s2Y¯
¯ − Y¯ + t1− α (ν)
+ ,X
+ .
2
n1
n2
n1
n2
Cerco sulle tavole t1− α2 (ν) = t1− 0,05 (40) = t0,975 (40) = 2, 021,
2
quindi sostituisco i valori numerici nella formula dell’intervallo e
ottengo
I0,95 = [14.15; 19.85] .
2) Mi viene richiesto un test con le seguenti ipotesi,
H0 : µX = µY
H1 : µX 6= µY .
27
Avendo già costruito l’intervallo di confidenza al 95% per la differenza delle medie, fare questo test con livello di significatività
α = 0, 05 equivale al test con ipotesi
H00 : δµ = 0
H10 : δµ 6= 0,
per il quale
− se 0 ∈ I1−α accetto H00
− se 0 ∈
/ I1−α rifiuto H00 .
In questo caso 0 ∈
/ I0.95 , quindi posso rifiutare l’ipotesi nulla H00
e di conseguenza H0 .
Es. 10.2 Nella produzione di semiconduttori non é possibile controllare esattamente la resistenza degli elementi prodotti. Supponiamo che vengano
misurati i valori della resistenza per n = 81 semiconduttori, otte¯ = 1, 2 ed una varianza campionaria
nendo una media campionaria X
s2X¯ = 0, 4.
1) Determinare l’intervallo bilaterale di confidenza al 95% per la media della resistenza dei semiconduttori prodotti.
2) Al livello di significatività α = 5%, é possibile accettare l’ipotesi
nulla
H0 : µ = 1, 3
contro
H1 : µ 6= 1, 3?
Sol.
1) Se cerco un intervallo di confidenza al 95% per µX , significa che
sto cercando quell’intervallo I1−α t.c.
P (µX ∈ I1−α ) = 1 − α = 0, 95
quindi userò α = 1 − 0, 95 = 0, 05. Per cercare questo intervallo
mi servo della variabile aleatoria
t0 =
¯ − µX
X
q 2
sX
¯
n
che nel nostro caso é t di Student con ν = n − 1 = 81 − 1 = 80
gradi di libertà. Userò il quantile t1− α2 (80), t.c.
P(|t0 | ≤ t1− α2 (80)) = 1 − α,
28
per scrivere l’intervallo
sX¯ ¯
sX¯
¯
I1−α = X − t1− α2 (ν) √ , X + t1− α2 (ν) √ .
n
n
Cerco sulle tavole t1− α2 (ν) = t1− 0,05 (80) = t0,975 (80) = 1, 990,
2
quindi sostituisco i valori numerici nella formula dell’intervallo e
ottengo
I0,95 = [1.06; 1.34] .
2) Mi viene richiesto un test con le seguenti ipotesi,
H0 : µX = 1, 3
H1 : µX 6= 1, 3.
Avendo già costruito l’intervallo di confidenza al 95% per la media,
fare questo test con livello di significatività α = 0, 05 equivale a
verificare se il valore 1, 3 cade o meno nell’intervallo di confidenza,
cioé
− se 1, 3 ∈ I1−α accetto H0
− se 1, 3 ∈
/ I1−α rifiuto H0 .
In questo caso 1, 3 ∈ I0.95 , quindi devo accettare l’ipotesi nulla
H0 .
Es. 10.3 In un’azienda si vuole verificare se il ”lavoro flessibile”, ovvero la possibilità per gli impiegati di svolgere parte del loro lavoro da casa, porta
effettivamente un miglioramento della produttività. Per fare questo si
seleziona un gruppo di 100 impiegati ai quali si consiglia la formula
del lavoro flessibile e dopo un mese si misura quanti hanno portato a
termine più progetti rispetto al mese precedente. Si misura la stessa
quantità per un gruppo di controllo di 150 impiegati che continuano a
svolgere i loro compiti esclusivamente in ufficio.I dati ottenuti sono i
seguenti.
Gruppo
Taglia camp. Nr di miglioramenti rispetto al mese prec.
Lavoro flessibile 100
Controllo
150
40
35
1) Usare il test Z con significatività α = 5% per testare se c’é differenza tra i due metodi di lavoro. Dare limitazioni per il valore
di P .
2) Ripetere il test usando le tabelle di contingenza.
29
Sol.
1) Siamo nel caso di due campioni di variabili aleatorie Bernoulliane
di parametri p1 e p2 e di taglie n1 e n2 rispettivamente. Mi viene
richiesto di fare un test con le seguenti ipotesi
H0 : p1 = p2
H1 : p1 6= p2 .
Per fare il test d’ipotesi mi servo della variabile aleatoria
pˆ1 − pˆ2
Z=r
pˆ(1 − pˆ) n11 +
1
n2
,
che quando valgono le condizioni ni pi > 5 e ni (1 − pi ) > 5 per
i = 1, 2 e sotto l’ipotesi nulla H0 può essere considerata con legge
+m2
2
1
, pˆ2 = m
e pˆ = mn11 +n
,
normale standard N (0, 1). So che pˆ1 = m
n1
n2
2
dove m1 e m2 sono il numero di successi nella prima e nella seconda
40
,
popolazione rispettivamente, quindi nel nostro caso sono pˆ1 = 100
75
35
pˆ2 = 150 e pˆ = 250 .
Devo costruire la regione critica (−∞, −x] ∪ [x, ∞) t.c. P(|Z| ≥
x) = α, cioé P(Z ≤ x) = 1 − α2 = 0, 975 e quindi x = q0,975 = 1, 96
quantile della normale standard. La regione critica é quindi
(−∞, −1, 96] ∪ [1, 96, ∞).
Calcolo Z per capire se appartiene o meno alla regione critica,
pˆ1 − pˆ2
Z=r
pˆ(1 − pˆ) n11 +
1
n2
40
35
− 150
100
q
=
= 2, 763,
75 175 250
( )
250 250 15000
di conseguenza vedo che Z ∈ regione critica, quindi rifiuto H0 .
Per dare una limitazione al valore di P , considero il valore di Z
solo fino alla seconda cifra decimale, in modo da poter facilmente
trovare sulla tavole il valore P tale che P(|Z| ≥ 2, 76) ' P . Questo
significa che
1−
P
' P(Z ≤ 2, 76) = 0, 99711,
2
quindi P ' 0, 00578.
30
2) Scrivo le tabelle di contingenza, prima di tutto la tabella delle
osservazioni:
>
≤
lav. fless.
O11 = 40 O12 = 60 100
gr. di controllo O21 = 35 O22 = 115 150
75
175
250
Per costruire la tabella dei valori attesi mi devo servire della prob75
, in modo da poter scrivere la tabella seguente.
abilità p(>) = 250
>
≤
lav. fless.
E11 = p(>)n1 = 30 E12 = 70 100
gr. di controllo E21 = p(>)n2 = 45 E22 = 105 150
75
175
250
Considero quindi
r X
c
X
(Oi,j − Ei,j )2
χ =
,
Ei,j
i=1 j=1
2
che, sotto l’ipotesi nulla H0 , é una χ2 di ν = (c − 1)(r − 1) = 1
gradi di libertà. Cerco la regione critica [x, ∞) tale che P(χ2 (ν) ≥
x) = α = 0, 05, cioé x = χ21−α (ν) = χ20,95 (1) = 3, 841 e la regione
critica é [3, 841, ∞). Calcolo infine il valore di χ2 per capire se
appartiene o meno alla regione critica,
χ2 =
(40 − 30)2 (60 − 70)2 (35 − 45)2 (115 − 105)2
+
+
+
= 11, 26.
30
70
45
105
χ2 = 11, 26 appartiene alla regione critica, quindi rifiuto l’ipotesi
nulla H0 .
10.4 Un’indagine statistica vuole rilevare l’effetto dei diversi tipi di pubblicità sulle scelte dei consumatori, intervistandone un gran numero in
riferimento alla pubblicità di un singolo prodotto. Tra 100 persone che
hanno visto la pubblicità in TV, il 66% ha effettivamente comprato il
prodotto. Tra 150 persone che hanno visto la pubblicità su internet, 99
hanno comprato il prodotto e tra 80 persone che hanno sentito la pubblicità in radio, il 45% lo ha comprato. Fare un test multiplo con livello
α = 0, 05 per evidenziare le differenze tra i diversi tipi di pubblicità.
31
Sol. Prima di tutto faccio un test con ipotesi generiche
H0 : ptv = pweb = pr
H1 : ∃i, j t.c. pi 6= pj
e per verificare queste ipotesi farò un test χ2 , per il quale costruisco le
tabelle di contingenza.
Osservazioni
compra non compra
radio O11 = 36
TV
O21 = 66
web O31 = 99
O12 = 44
O22 = 34
O32 = 51
80
100
150
129
330
201
Attese
compra
non compra
radio 80 201
' 49
330
201
TV
100 330 ' 61
' 91
web 150 201
330
201
31
39
59
80
100
150
129
330
Il test χ2 in questo caso userà una regione critica [x, ∞), dove x =
χ21−α (ν) con ν = (r − 1)(c − 1) = 2 gradi di libertà, cioé x = χ20,95 (2) =
5, 991. Calcolo
χ2 =
=
P2 (Oi,j −Ei,j )2
i=1
j=1
Ei,j
2
(36−49)2
(44−31)2
+
+ (66−61)
49
31
61
P3
+
(34−39)2
39
+
(99−91)2
91
+
(51−59)2
59
= 11, 72
e osservo che χ2 = 11, 72 ∈ [5, 991, ∞), quindi rifiuto l’ipotesi nulla
H0 e riconosco che c’é una differenza tra le probabilità di acquisto tra
diversi tipi di pubblicità. Cerco anche delle limitazioni per il valore
di P di questo test, per capire se abbia senso fare dei test multipli
per capire dove sono le differenze. Sto cercando quel valore P tale che
P(χ2 ≥ 11, 72) = P, sulle tavole vedo che 0, 995 ≤ P(χ2 ≤ 11, 72) ≤
0, 999 quindi 0, 001 ≤ P ≤ 0, 005, per cui ha senso fare un test multiplo
con un livello dato dalla correzione di Bonferroni α0 = α/2 = 0, 025 >
0, 005 > P.
32
Confronto prima le due popolazioni che sembrano più simili, ovvero
quella di chi ha visto la pubblicità in TV e di chi l’ha vista su internet,
con le ipotesi
H0 : ptv = pweb
H1 : ptv 6= pweb
e ottenendo le seguenti tabelle.
Osservazioni
compra
TV O11 = 66
web O21 = 99
non compra
O12 = 34
O22 = 51
100
150
85
250
165
Attese
compra
TV 100 165
' 66
250
165
web 150 250 ' 99
165
non compra
34
51
100
150
85
250
Capisco già, dalla tabella delle attese, di dover accettare l’ipotesi nulla
H0 perché le due popolazioni sono caratterizzate dalla stessa probabilità, infatti il valore χ2 = 0 e sicuramente non appartiene alla regione
critica, che in questo caso é [x, ∞) = [χ21−α0 (ν), ∞) = [χ20,975 (1), ∞) =
[5, 024, ∞).
Posso ora confrontare la popolazione ottenuta unendo le due precedenti
(tanto sono caratterizzate dalla stessa probabilità) con quella di chi ha
sentito la pubblicità in radio.
H0 : ptv (= pweb ) = pr
H1 : ptv (= pweb ) 6= pr
In questo caso le tabelle di contingenza sono le seguenti.
Osservazioni
33
compra
TV e web O11 = 165
O21 = 36
radio
201
non compra
O22 = 85
O22 = 44
250
80
129
330
Attese
compra non compra
TV e web
radio
152
49
98
31
250
80
201
129
330
La regione critica é sempre [x, ∞) = [χ21−α0 (ν), ∞) = [χ20,975 (1), ∞) =
[5, 024, ∞), mentre il valore di χ2 é
χ2 =
(165 − 152)2 (85 − 98)2 (36 − 49)2 (44 − 31)2
+
+
+
= 11, 73
152
98
49
31
che appartiene alla regione critica e quindi mi spinge a rifiutare l’ipotesi
nulla H0 .
34