Universit`a degli Studi di Cagliari Soluzione prova

Universit`
a degli Studi di Cagliari
Soluzione prova scritta di Statistica del 9 giugno 2014
1. Nel diagramma ramo-foglia seguente `e riportata la durata delle chiamate ad un centralino telefonico di pubblica
utilit`a per un campione di osservazioni (il ramo indica il numero dei minuti, la foglia indica la frazione di minuto):
Ramo
1
2
3
4
5
6
7
8
Foglia
133477
5889
079
7
2
08
1
(a) Calcolare la media e lo scarto quadratico medio delle durata delle chiamate.
(b) Quale durata viene superata dal 35% delle chiamate?
(c) Rappresentare i dati mediante un istogramma utilizzando le classi: [1, 4), [4, 7), [7, 10]. A vostro parere
quale delle due rappresentazioni fornisce informazioni pi`
u dettagliate sulla forma della distribuzione?
(a) Detta X la durata media delle chiamate abbiamo:
X
x
¯=
xi ni /n = 60, 9/18 = 3.38
sX =
qX
(xi − x
ˆ)2 /(n − 1) =
p
71.505/17 = 2.04.
(b) La durata cercata occuper`
a la posizione numero 0.65(n + 1) = 0.65(19) = 12.35. Scorrendo le
osservazioni si ricava q0.65 = 3.7.
0.15
0.10
0.05
0.00
densità
0.20
0.25
(c) Sono entrambe rappresentazioni adeguate ma con n cos`ı piccolo il diagramma a foglia d`
a una
rappresentazione pi`
u fedele della forma della distribuzione.
2
4
6
8
10
durata chiamate
pagina 1 di ??
2. Il manager di un’azienda produttrice di aspirapolvere vuole conoscere i motivi per i quali alcuni consumatori si
sono lamentati dell’apparecchio acquistato. Gli viene sottoposta la seguente tabella:
Motivo reclamo
n. reclami
Difficile da usare
130
Si spegne da solo
15
Non pulisce bene
120
Rumorosit`a
15
Consumo eccessivo
5
(a) Riconoscere tipo e scala di misura della variabile “Motivo del reclamo“.
(b) Proporre un grafico che permetta di identificare i principali motivi di lamentela.
(c) Su quali cause bisognerebbe agire per ridurre dell’80% le richieste di rimborso?
(a) Si tratta di una variabile qualitativa con scala di misura nominale (non esiste un ordinamento
naturale delle modalit`
a).
100%
75%
50%
25%
sc
tr
sas
non p
du
0
0%
Cumulative Percentage
100 150 200 250
50
Frequency
(b) Il diagramma di Pareto:
(c) Il principio di Pareto afferma che in genere `e sufficiente agire sul 20% delle cause di difettosit`
a
per ridurre dell’80% la frequenza dei difetti. Nel caso in esame il principio `e effettivamente valido:
la difficolt`
a di utilizzo e la scarsa efficacia sono responsabili dell’87% delle lagnanze.
pagina 2 di ??
3. In una cesta ci sono due pacchi blu, con all’interno 200 e 2000 euro, e tre pacchi rossi con, all’interno 20, 60 e
120 euro.
(a) Si estraggono in blocco tre pacchi. Qual `e la probabilit`a che siano tutti e tre rossi?
(b) Si estraggono a caso due pacchi. Qual `e la probabilit`a che contengano complessivamente pi`
u di 150 euro?
(c) E’ stato estratto un pacco del valore di almeno 50 euro. Calcolare la probabilit`a che sia rosso.
(a) L’estrazione dei tre pacchi avviene senza reimmissione quindi ci sono 53 possibili esiti, da considerare equiprobabili. Di questi, uno solo corrisponde all’evento “i tre pacchi sono rossi“ e pertanto
la probabilit`
a di tale evento `e 15 = 0.1.
(3)
(Alternativamente: P (RRR) = P (1R)P (2R|1R)P (3R|1R ∩ 2R) = 3/5 · 2/4 · 1/3 = 1/10).
(b) In tutto sono 52 = 10 le possibili coppie di pacchi estraibili. Le coppie favorevoli al verificarsi
dell’evento considerato sono otto (tutte tranne le coppie (20, 60) e (20, 120). Ipotizzando le coppie
8
= 0.8.
equiprobabili la probabilit`
a richiesta `e quindi pari a 10
(c) P (Rosso|v > 50) =
p(v>50 ∩ Rosso)
p(v>50)
=
p(v>50 | Rosso)p(Rosso)
p(v>50)
=
2/3·3/5
4/5
= 0.5.
4. Il punteggio ottenuto dai partecipanti alla prima prova attitudinale di un concorso ha distribuzione N (50, 16)
(a) Qual `e la probabilit`
a che un partecipante scelto a caso ottenga nella prima prova un punteggio inferiore a
50?
(b) Mario si `e collocato nel 10% dei migliori candidati. Qual `e il punteggio minimo totalizzato da Mario?
(c) La seconda prova ha un punteggio distribuito come una N (65, 25). Assumendo le prove indipendenti qual
`e la probabilit`
a che un candidato scelto a caso abbia un punteggio inferiore a 50 in entrambe le prove?
(a) Sia X il punteggio della prova di un partecipante scelto a caso. Essendo il punteggio normale e la
normale simmetrica rispetto alla media abbiamo P (X < 50) = 0.5
(b) Il punteggio richiesto `e il novantesimo percentile della distribuzione dei punteggi. Tale percentile,
che chiamiamo q0.9 , soddisfa P (X < q0.9 ) = 0.9 da cui q0.9 = 4z0.9 + 50 = 56.58.
(c) Dal momento che le due prove sono indipendenti abbiamo P rob(prima < 50 , seconda < 50) =
P rob(prima < 50)P rob(seconda < 50) = 0.5 · ...
pagina 3 di ??
5. Gli abitanti di Rio Candido ritengono che la vicina industria chimica inquini il fiume cittadino e chiedono quindi
il blocco della produzione. Al fine di misurare il livello di inquinamento nel fiume vengono effettuati 20 prelievi
dai quali risulta un livello medio di sostanze inquinanti pari a 49.8 con una deviazione standard pari a 2. Si sa
inoltre che, in assenza di inquinamento, il livello medio di sostanze inquinanti `e ≤ 50. La decisione sul blocco
della produzione `e affidata ad un test statistico.
(a) Fissare le ipotesi del test ponendovi dal punto di vista degli abitanti.
(b) In base ai dati osservati, assumere una decisione circa il blocco della produzione (porre α = 0.05).
(c) Calcolare il pvalue del test.
(d) Ipotizzando che il vero livello medio di inquinante nel fiume sia pari a 49.5 qual `e la probabilit`a che l’industria
sia costretta a fermare la produzione ?
(a) Dal punto di vista della popolazione `e presumibilmente pi`
u grave considerare non inquinante l’industria quando lo `e. Quest’ultimo deve quindi essere l’errore di primo tipo da cui segue che H0 `e
l’ipotesi che il fiume sia inquinato ovvero H0 : µ ≥ 50 e quindi H1 : µ < 50.
(b) Assumendo la normalit`
a della distribuzione dell’inquinante, un test di livello di significativit`
a 95%
per le ipotesi al punto precedente `e:
Rifiuta H0 se
s
x
ˆ ≤ µ0 − tn−1,α √
n
ˆ = 49.8 non
ovvero se la media campionaria `e minore di 50 − 1.727 √220 = 49.22 e poich´e risulta x
rifiuto.
(c) Il pvalue `e la (massima) probabilit`a di osservare, sotto H0 , valori pi`
u estremi della statistica test
rispetto a quello osservato. Considerato il verso di H1 “pi`
u estremi” `e qui da intendersi come “pi`
u
piccoli” e quindi abbiamo:
pvalue = P r(ˆ
x < 49.8 | H0 vera) = P r(ˆ
x < 49.8 | µ = 50) = P r(Z < −0.447) = 0.291
(d) Si tratta della probabilit`
a di errore del secondo tipo quando µ = 49.5 ovvero:
P r(ˆ
x < 49.22 | µ = 49.5) = ...
pagina 4 di ??