Détective Conan, Tome 76 :

OD
MISURE
DI DISPERSIONE
78
OD
MISURE DI DISPERSIONE
Un insieme di dati numerici può essere
sintetizzato da alcuni valori tipici, che indicano il
grado di variabilità dei dati stessi.
“Grado di Variabilità o di Dispersione”
MISURE di DISPERSIONE
o di Variabilità
RANGE
VARIANZA
DEVIAZIONE STANDARD
COEFFICIENTE DI VARIAZIONE
79
OD
LA VARIABILITÀ
Le popolazioni A e B hanno uguale tendenza
centrale, ma diversa variabilità.
Popolazione A
Popolazione B
dati meno ”concentrati”
dati più ”concentrati”
↓
↓
minore
maggiore
dispersione o variabilità dispersione o variabilità
80
OD
RANGE
O
CAMPO DI VARIAZIONE
È la differenza tra il valore massimo e il valore
minimo assunti dalla variabile.
Range = Max - Min
Esempio
Calcolare il range dell’età (in anni) rilevata in 9
soggetti:
42 28 28 61 31 23 50 34 32
Range=Max – Min=61-23=38 anni
81
OD
PROPRIETÀ DEL RANGE
• E facilmente calcolabile;
• trascura tutta l’informazione contenuta nei dati,
ad eccezione dei 2 valori estremi;
• è molto suscettibile agli OUTLIERS*;
*Outlier = valore estremo, che giace molto
perifericamente rispetto alla restante distribuzione dei
dati;
30
30
0
0
10 20 30 40 50 60 70 80 90 100
10 20 30 40 50 60 70 80 90 100
Range=40
Range=90
• è utile nell’organizzazione dei dati (come
raggruppare in classi i dati in una distribuzione
di frequenza).
82
OD
VARIANZA CAMPIONARIA
e DEVIAZIONE STANDARD
Misurano la dispersione dei dati rispetto alla media.
Come misurare questa dispersione?
1. Scarti dalla media.
2. Quadrati degli scarti.
18 – 21.6 = - 3.6
19 – 21.6 = - 2.6
21 – 21.6 = - 0.6
22 – 21.6 = 0.4
28 – 21.6 = 6.4
12.96
6.76
0.36
0.16
40.96
xi − x
( xi − x ) 2
3. Somma dei quadrati degli scarti.
∑ (x − x)
i
2
=
61.20
4. Media della somma dei quadrati degli scarti.
∑ ( x − x ) = 61.20 = 15.3 anni
2
i
n −1
2
5 −1
83
OD
VARIANZA
(x − x)
∑
s =
2
2
i
n −1
DEVIAZIONE STANDARD
È la radice quadrata della varianza.
(x − x)
∑
s=
2
i
n −1
Perché
n-1 ?
Operando su un campione e non sull’intera popolazione, se si
dividesse per n verrebbe sottostimata la varianza della
popolazione.
Pertanto si sottrae 1 da n, come fattore di correzione.
84
OD
Riassumendo
xi
18
19
21
22
28
xi − x
18 – 21.6 = -3.6
19 – 21.6 = -2.6
21 – 21.6 = -0.6
22 – 21.6 = 0.4
28 – 21.6 = 6.4
( xi − x ) 2
12,96
6,76
0,36
0,16
40,96
Σ=61.2
2
(
x
−
x
)
61 .2
∑
2
i
varianza = s =
=
= 15 .3
n −1
4
dev. st. = s =
2
(
−
)
x
x
∑ i
=
n −1
15 . 3 = 3 . 11
85
OD
VARIANZA PER DATI RAGGRUPPATI
Se le osservazioni non presentano frequenza
unitaria o sono raggruppate in classi.
xk
fk
2
(
x
−
x
)
fi
∑
2
i
s =
n −1
DEVIAZIONE STANDARD PER DATI
RAGGRUPPATI
xk
fk
2
(
x
−
x
)
fi
∑
i
s=
n −1
86
OD
Esempio
Calcolare varianza e deviazione standard dei
pesi, riportati in tabella, di 40 bambini.
La media è 26.2 kg.
x = 26.2 kg
Peso (kg)
20
23
25
26
30
35
s2 =
s =
fi
2
6
12
10
8
2
40
xi − x
( xi − x ) 2
( xi − x ) 2 ⋅ f i
-6.2
-3.2
-1.2
-0.2
3.8
8.8
38,44
10,24
1,44
0,04
14,44
77,44
76,88
61,44
17,28
0,4
115,52
154,88
426,4
426.4
= 10.9333 kg 2
39
426.4
= 10.9333 = 3.31 kg
39
87
OD
LA DEVIAZIONE STANDARD
E LA DISTRIBUZIONE NORMALE
LA DISTRIBUZIONE NORMALE
• Curve a “campana”, simmetriche rispetto alla
media;
• curve definite da 2 soli parametri: Media e
Deviazione Standard;
• la Media posiziona la curva sull’asse
orizzontale;
• la Deviazione Standard indica quanto la curva è
“schiacciata”.
La maggior parte delle variabili biologiche seguono una
distribuzione normale (ex: altezza di uomini e donne adulti,
pressione di una popolazione di individui sani…).
88
OD
LA DISTRIBUZIONE NORMALE
89
OD
DEVIAZIONE STANDARD E
DISPERSIONE DEI DATI
Curva normale calcolata dai valori di pressione diastolica
di 500 uomini, media=82 mmHg, ds=10 mmHg.
• L’intervallo µ ± 1 DS include il 68% dei dati;
• l’intervallo µ ± 2 DS include il 95% dei dati;
• l’intervallo µ ± 3 DS include il 99.7% dei dati.
90
OD
COEFFICIENTE DI VARIAZIONE
s
CV = ⋅100%
x
Esempio
Determinare il coefficiente di variazione della
distribuzione dei pesi di 40 bambini, note la media
(26.2 kg) e la deviazione standard (3.31 kg).
CV =
s
3.31kg
⋅100% =
= 0.1263 ⋅100% = 12.63%
x
26.2kg
Il coefficiente di variazione è adimensionale (numero
puro): ciò permette di confrontare il grado di
dispersione di variabili misurate con scale di misura
diverse.
Esempio: In un dato campione c’è maggior
variabilità nel peso o nell’altezza?
91
OD
FONTI DI VARIABILITÀ
BIOLOGICHE
-Età
-Sesso
-Razza
-Fattori genetici
-Dieta
-Stato socio-economico
-Anamnesi medica remota
TEMPORALI
-Stato emotivo
-Stato di attività
-Clima
-Ritmi circadiani
ERRORI DI MISURA
-Osservatori
-Strumenti di misura
-Condizioni dei laboratori
-Stabilità dei reagenti
92
OD
VARIABILITÀ
INTRA- E INTER-SOGGETTO
VARIABILITA’ INTRA-SOGGETTO
Se si eseguono misure ripetute sullo stesso
soggetto (ad esempio misura della pressione)
queste osservazioni possono variare.
Se le osservazioni sono ravvicinate nel tempo, la loro
DS viene definita come ERRORE DI MISURA.
VARIABILITA’ INTER-SOGGETTO
Se si eseguono misure su soggetti diversi, le
osservazioni saranno sicuramente diverse.
Singole osservazioni su individui contengono una
“mistura” di variabilità intra- e inter-soggetto.
93