Variabilità 1

Variabilità e informazione
Lo studio di un fenomeno ha senso solo se esso si presenta con
modalità/intensità variabili da un soggetto all’altro.
Ad esempio, se dobbiamo studiare il reddito in una certa regione è
necessario osservare unità statistiche con redditi diversi: se
osservassimo unità con lo stesso reddito sarebbe inutile, non ci darebbe
alcuna informazione
Variabilità = Informazione
Indici statistici di variabilità
Variabilità: Attitudine di un fenomeno ad assumere diverse
intensità
• Dispersione rispetto ad un centro
Come si misura la
variabilità?
• Mutua variabilità
• Mutevolezza delle frequenze
Caratteristiche di un indice di variabilità
V(•): Indice di variabilità;
c: costante nota
i) V ( x1, … , xn ) ≥ 0
ii) V ( c, … , c ) = 0
iii) V ( x1 + c, … xn + c ) = V ( x1 , … , xn )
iv) Se V ( x1 , … xn ) > V ( y1 , … , yn ) → X è più variabile di Y
N.B.: Un indice di variabilità è sempre maggiore o uguale a zero.
2
Variabilità e funzione di ripartizione empirica
Una funzione di ripartizione empirica molto ripida (che subito raggiunge 1)
indica scarsa variabilità. Viceversa, una funzione di ripartizione empirica che
raggiunge 1 molto lentamente indica elevata variabilità.
Campo di variazione
Range ( X ) = xmax − xmin
È molto sensibile alla presenza di valori anomali
Differenza Interquantile
∆q = qr − qs
r>s
Differenza tra due quantili equidistanti dagli estremi della distribuzione
Via via meno sensibile alla presenza di valori anomali, ma mano che r ed
s si avvicinano.
3
Differenza Interquartile
IQR = Q3 − Q1
È un indice più robusto del campo di variazione
4
Variabilità rispetto ad un centro
Obiettivo: Sintetizzare una opportuna funzione degli scarti delle
singole intensità dall’indice di posizione M prescelto
Successione degli scarti:
( x1 − M) , ( x2 − M) , … , ( xi − M) ,… , ( xn − M)
Ogni scarto esprime la distanza di ciascuna intensità dall’indice M.
La variabilità rispetto ad un centro può essere definita specificando in diversi
modi M.
Ricordiamo che:
 n
 ∑ ( xi − µ ) = 0
 i =1
Se M = µ ⇒  n
 ( x − µ )2 = min
i
∑
i =1
n
Se M = Me ⇒ ∑ xi − Me = min
 i =1
5
Indici di variabilità rispetto ad un centro
Varianza
Misura la dispersione media intorno alla media aritmetica.
Si calcola come media aritmetica dei quadrati degli scarti.
1. Per una successione di
valori:
2
1 n
σ = ∑ ( xi − µ )
n i =1
2
X
2. Per una distribuzione di
frequenza:
2
1 k
σ = ∑ ( xi − µ ) ni
n i =1
3. Per una distribuzione in
classi di frequenza:
2
1 k
σ = ∑ ( ci − µ ) ni
n i =1
2
X
2
X
6
N. bottiglie
Esempio
ni
1
3
∑ (x
σ2 =
k
∑
0,10
2
4
0,13
3
3
0,10
4
5
0,17
5
11
0,37
6
4
0,13
30
1
Totale
k
fi
µ =
x in i
i=1
n
=
119
30
= 3, 9 7
2
i
− µ ) ni
i=1
=
n
 (1 − 3, 9 7 )2 × 3  +  (2 − 3, 9 7 )2 × 4  + +  ( 6 − 3, 9 7 )2 × 4 




 = 7 2, 9 7 = 2, 4 1
= 
30
30
Formula alternativa:
k
∑
σ2 =
=
x i2 n i
i=1
n
(1
2
× 3
− µ2 =
) + (2
2
× 4
)+
30
+
(6
2
× 4
) − 3, 9 7
2
=
545
30
− 1 5, 7 3 = 2 , 4 1
7
Esempio
Classe
n
∑
µ =
c in i
i=1
n
=
n
∑
c i fi =
i=1
= (1 , 7 3 × 0 , 1 5 ) + + (2 , 0 5 × 0 , 4 5 ) =
∑ (c
i
fi
1,73
3
0,15
1,77 —| 1,85
1,81
0
0
1,85 —| 1,93
1,89
3
0,15
1,93 —| 2,01
1,97
5
0,25
2,01 —| 2,09
2,05
9
0,45
20
1
Totale
k
σ =
ni
1,69 |—| 1,77
= 1,96
2
ci
2
− µ ) ni
i =1
k
=
n
∑ ( ci − µ )
2
fi =
i =1
2
2
2
= (1,73 − 1,96 ) × 0,15 + (1, 81 − 1, 96 ) × 0 + + (2, 05 − 1, 96 ) × 0, 45 = 0, 004
Formula alternativa:
k
∑
σ
=
2
=
c i2 n i
i=1
(1 , 7 3
n
2
n
− µ
2
=
∑
c i2 f i − µ 2 =
i=1
× 0,1 5
) + (1 , 8 1
2
× 0
)+
+
(2 , 0 5
2
× 0, 4 5
) − 1, 9 6
2
= 0, 0 0 4
8
Scarto quadratico medio
(o scostamento quadratico medio, o deviazione standard)
E’ uguale alla radice quadrata della varianza.
Esprime la variabilità nella stessa unità di misura del carattere
osservato.
1. Per una successione di
valori:
2
1 n
σX = ∑ ( xi − µ )
n i =1
2. Per una distribuzione di
frequenza:
2
1 k
σX = ∑ ( xi − µ ) ni
n i =1
3. Per una distribuzione in
classi di frequenza:
2
1 k
σX = ∑ ( ci − µ ) ni
n i =1
σ è interpretabile come scarto medio intorno alla media; la maggior parte
dei valori sono compresi nell’intervallo:
[µ - σ; µ + σ]
9
Proprietà della varianza
I)
II)
0 ≤ σX2 ≤ ∞
Esprime la variabilità nell’unità di misura del carattere osservato
elevata al quadrato
2
III) σ X =
1
n
Dim:
∑x
2
i
− µ2
Formula alternativa per il calcolo della varianza
2
1 n
σ = ∑ ( xi − µ ) =
n i =1
2
X
1 n
= ∑ xi2 − 2µxi + µ2
n i =1
(
)
2
2
1 n
1 n
1 n
= ∑ ( xi ) − 2µ ∑ xi + ∑ ( µ ) =
n i =1
n i =1
n i =1
2
2
1 n
= ∑ ( xi ) − 2µ ( µ ) + ( µ ) =
n i =1
2
1 n
= ∑ ( xi ) − µ2
n i =1
10
IV)
Esempio:
( α, β ) ∈ ℜ
6
α=1
β=2
trasformazione lineare
X 

→Y
Y =α±βX
Y = α + βX
Y = 1 + 2X
µx = 1
X
Y
0
1
1
3
2
5
4
2
µY = 3
0
0
2
Proprietà:
Se Y è una trasformazione
lineare di X, la varianza di Y si
può ottenere moltiplicando la
varianza di X per β2 :
σ 2Y = β 2 σ X2
σ2X
(0 − 1)
=
2
Y
(1 − 3)
=
2
σ
2
2
3
2
+ (1 − 1) + (2 − 1)
= 0, 667
3
2
1
2
+ ( 3 − 3 ) + (5 − 3 )
3
= 2, 667
σ2Y = β2σ2X = 22 × 0, 667 = 2, 667
2
2
1 n
1 n
Dim: σ = ∑ ( yi − µ Y ) = ∑ ( α + βxi − α − βµ X ) =
n i =1
n i =1
2
Y
2
1 n
=β
−
µ
=β2σX2
x
(
)
∑
i
X
n i =1
2
11
Esempio
Il prezzo del prodotto MM ha una varianza pari a 0.002
La casa produttrice intende rimodulare i prezzi di vendita: per ogni
acquirente il nuovo prezzo Y sarà determinato considerando una base di
partenza minima pari a 1.5 (α) a cui andrà aggiunta una percentuale del
vecchio prezzo X pari al 20% (β).
Qual è la varianza dei nuovi prezzi di vendita?
α = 1.5 β = 0.2
σ2X = 0.002
Y = 1,5 + 0,2 X
σ2Y = ???
σ2Y = β2 ⋅ σ2X = 0.22 ⋅ 0,002 = 0,00008
12
Vecchio
prezzo (X)
Nuovo
prezzo (Y)
1,99
Si può, cioè, evitare di costruire la serie dei nuovi
prezzi Y mediante la trasformazione lineare:
1,99
1,99
Y = 1.5 + 0.2 X
2,09
2,09
per poi calcolarne la media aritmetica e la
varianza:
2,09
2,09
2,09
2,13
y 1 = y 2 = y 3 = 1 ,5 + 0 ,2 × 1 ,9 9 = 1 ,8 9 8
y 4 = = y 8 = 1 ,5 + 0 ,2 × 2 ,0 9 = 1 ,9 1 8
y9 = 1,5+ 0,2 × 2,13=1,926
µY =
1
9
∑ yi
9 i=1
= 1.912
σ2Y
=
1
9
∑(
9 i=1
yi − µY
2
)
=
2
=
(1.898 − 1.912)
2
+ + (1.926 − 1.912)
9
= 0,00008
V) Decomposizione della varianza
La varianza di X è data dalla somma della media delle varianze di
gruppo (varianza interna) e dalla varianza delle medie di gruppo
(varianza esterna).
Se:
G = numero di gruppi;
µj: media dell’i-esimo gruppo;
nj = numerosità dell’j-esimo gruppo (j = 1,….,G);
allora:
σ
2
X
=
1 G
2
σ
∑
jn j
n j=1
V A R IA N Z A IN T E R N A
ossia:
+
2
1 G
µj − µX ) nj
(
∑
n j=1
V A R IA N Z A E S T E R N A
2
σ2TOT = σ2INT + σEX
T
14
Indici assoluti, indici relativi e indici normalizzati
Il valore di un indice assoluto (come la varianza o lo scarto quadratico
medio) non da nessuna informazione circa l’entità della variabilità, ma può
essere utilizzato solo per confrontare diversi insiemi di unità statistiche in
base alla variabilità dello stesso carattere
(es: il reddito è più variabile in Lazio o in Campania?)
Per dare una valutazione sull’entità della variabilità è necessario un intervallo di
riferimento, fisso o facilmente determinabile, rispetto ai cui estremi:
[variabilità nulla - variabilità massima]
sia possibile interpretare il valore dell’indice, che in tal caso è un
indice relativo
Quando tale intervallo di riferimento è l’intervallo [0 - 1] l’indice è un
indice normalizzato
La costruzione dell’intervallo di riferimento richiede la determinazione del
valore massimo che un indice assoluto può assumere su una determinata
distribuzione
15
Massima variabilità
Il valore massimo che la varianza può assumere in un insieme di n
unità statistiche con media pari a µ è:
σ2max = µ2 (n − 1)
Di conseguenza, il valore massimo che può assumere lo scarto
quadratico medio (in un insieme di n unità statistiche con media pari
a µ) è:
σmax = µ n − 1
Formalmente:
0 ≤ σ2 ≤ µ2 (n − 1)
0≤σ≤µ
(n − 1)
16
Indici di variabilità relativi
Coefficiente di variazione
CV =
σX
µX
Misura quanto lo s.q.m. è rilevante rispetto all’ordine di grandezza dei valori
del carattere X.
È un indice indipendente dall’unità di misura (è un numero puro) e può
essere utilizzato per confrontare distribuzioni diverse
Poiché:
0 ≤ σ 2 ≤ µ 2 (n − 1 )
e
0 ≤ σ ≤ µ
(n − 1 )
0 ≤ CV ≤
n−1
Indici di variabilità relativi normalizzati
Scarto quadratico medio relativo
Si ottiene come rapporto tra il valore assunto dallo scarto ed il valore massimo
che esso può assumere per la distribuzione:
σrel =
σX
σX
=
max ( σX ) µ X n − 1
0 ≤ σrel ≤ 1
17
Esempio
N. bottiglie
ni
fi
k
1
3
0,10
2
4
0,13
3
3
0,10
4
5
0,17
5
11
0,37
6
4
0,13
30
1
Totale
Scarto quadratico medio:
Scarto quadratico medio relativo:
σ =
σrel =
0 ≤ σrel ≤ 1
µ =
x in i
i=1
n
k
∑ (x i
σ2 =
σ2 =
= 3, 9 7
2
− µ ) ni
i=1
= 2, 4 3
n
2, 4 3 = 1, 5 6
σ
µ n−1
=
1, 56
3, 97 29
= 0, 07
Da confrontare con
l’intervallo [0; 1]
Coefficiente di variazione:
0 ≤ CV ≤
∑
n−1
n−1 =
CV =
σ
1, 5 6
=
= 0, 3 9
µ
3, 9 7
29 = 5, 39
Da confrontare con
l’intervallo [0; 5,39]
18