Variabilità e informazione Lo studio di un fenomeno ha senso solo se esso si presenta con modalità/intensità variabili da un soggetto all’altro. Ad esempio, se dobbiamo studiare il reddito in una certa regione è necessario osservare unità statistiche con redditi diversi: se osservassimo unità con lo stesso reddito sarebbe inutile, non ci darebbe alcuna informazione Variabilità = Informazione Indici statistici di variabilità Variabilità: Attitudine di un fenomeno ad assumere diverse intensità • Dispersione rispetto ad un centro Come si misura la variabilità? • Mutua variabilità • Mutevolezza delle frequenze Caratteristiche di un indice di variabilità V(•): Indice di variabilità; c: costante nota i) V ( x1, … , xn ) ≥ 0 ii) V ( c, … , c ) = 0 iii) V ( x1 + c, … xn + c ) = V ( x1 , … , xn ) iv) Se V ( x1 , … xn ) > V ( y1 , … , yn ) → X è più variabile di Y N.B.: Un indice di variabilità è sempre maggiore o uguale a zero. 2 Variabilità e funzione di ripartizione empirica Una funzione di ripartizione empirica molto ripida (che subito raggiunge 1) indica scarsa variabilità. Viceversa, una funzione di ripartizione empirica che raggiunge 1 molto lentamente indica elevata variabilità. Campo di variazione Range ( X ) = xmax − xmin È molto sensibile alla presenza di valori anomali Differenza Interquantile ∆q = qr − qs r>s Differenza tra due quantili equidistanti dagli estremi della distribuzione Via via meno sensibile alla presenza di valori anomali, ma mano che r ed s si avvicinano. 3 Differenza Interquartile IQR = Q3 − Q1 È un indice più robusto del campo di variazione 4 Variabilità rispetto ad un centro Obiettivo: Sintetizzare una opportuna funzione degli scarti delle singole intensità dall’indice di posizione M prescelto Successione degli scarti: ( x1 − M) , ( x2 − M) , … , ( xi − M) ,… , ( xn − M) Ogni scarto esprime la distanza di ciascuna intensità dall’indice M. La variabilità rispetto ad un centro può essere definita specificando in diversi modi M. Ricordiamo che: n ∑ ( xi − µ ) = 0 i =1 Se M = µ ⇒ n ( x − µ )2 = min i ∑ i =1 n Se M = Me ⇒ ∑ xi − Me = min i =1 5 Indici di variabilità rispetto ad un centro Varianza Misura la dispersione media intorno alla media aritmetica. Si calcola come media aritmetica dei quadrati degli scarti. 1. Per una successione di valori: 2 1 n σ = ∑ ( xi − µ ) n i =1 2 X 2. Per una distribuzione di frequenza: 2 1 k σ = ∑ ( xi − µ ) ni n i =1 3. Per una distribuzione in classi di frequenza: 2 1 k σ = ∑ ( ci − µ ) ni n i =1 2 X 2 X 6 N. bottiglie Esempio ni 1 3 ∑ (x σ2 = k ∑ 0,10 2 4 0,13 3 3 0,10 4 5 0,17 5 11 0,37 6 4 0,13 30 1 Totale k fi µ = x in i i=1 n = 119 30 = 3, 9 7 2 i − µ ) ni i=1 = n (1 − 3, 9 7 )2 × 3 + (2 − 3, 9 7 )2 × 4 + + ( 6 − 3, 9 7 )2 × 4 = 7 2, 9 7 = 2, 4 1 = 30 30 Formula alternativa: k ∑ σ2 = = x i2 n i i=1 n (1 2 × 3 − µ2 = ) + (2 2 × 4 )+ 30 + (6 2 × 4 ) − 3, 9 7 2 = 545 30 − 1 5, 7 3 = 2 , 4 1 7 Esempio Classe n ∑ µ = c in i i=1 n = n ∑ c i fi = i=1 = (1 , 7 3 × 0 , 1 5 ) + + (2 , 0 5 × 0 , 4 5 ) = ∑ (c i fi 1,73 3 0,15 1,77 —| 1,85 1,81 0 0 1,85 —| 1,93 1,89 3 0,15 1,93 —| 2,01 1,97 5 0,25 2,01 —| 2,09 2,05 9 0,45 20 1 Totale k σ = ni 1,69 |—| 1,77 = 1,96 2 ci 2 − µ ) ni i =1 k = n ∑ ( ci − µ ) 2 fi = i =1 2 2 2 = (1,73 − 1,96 ) × 0,15 + (1, 81 − 1, 96 ) × 0 + + (2, 05 − 1, 96 ) × 0, 45 = 0, 004 Formula alternativa: k ∑ σ = 2 = c i2 n i i=1 (1 , 7 3 n 2 n − µ 2 = ∑ c i2 f i − µ 2 = i=1 × 0,1 5 ) + (1 , 8 1 2 × 0 )+ + (2 , 0 5 2 × 0, 4 5 ) − 1, 9 6 2 = 0, 0 0 4 8 Scarto quadratico medio (o scostamento quadratico medio, o deviazione standard) E’ uguale alla radice quadrata della varianza. Esprime la variabilità nella stessa unità di misura del carattere osservato. 1. Per una successione di valori: 2 1 n σX = ∑ ( xi − µ ) n i =1 2. Per una distribuzione di frequenza: 2 1 k σX = ∑ ( xi − µ ) ni n i =1 3. Per una distribuzione in classi di frequenza: 2 1 k σX = ∑ ( ci − µ ) ni n i =1 σ è interpretabile come scarto medio intorno alla media; la maggior parte dei valori sono compresi nell’intervallo: [µ - σ; µ + σ] 9 Proprietà della varianza I) II) 0 ≤ σX2 ≤ ∞ Esprime la variabilità nell’unità di misura del carattere osservato elevata al quadrato 2 III) σ X = 1 n Dim: ∑x 2 i − µ2 Formula alternativa per il calcolo della varianza 2 1 n σ = ∑ ( xi − µ ) = n i =1 2 X 1 n = ∑ xi2 − 2µxi + µ2 n i =1 ( ) 2 2 1 n 1 n 1 n = ∑ ( xi ) − 2µ ∑ xi + ∑ ( µ ) = n i =1 n i =1 n i =1 2 2 1 n = ∑ ( xi ) − 2µ ( µ ) + ( µ ) = n i =1 2 1 n = ∑ ( xi ) − µ2 n i =1 10 IV) Esempio: ( α, β ) ∈ ℜ 6 α=1 β=2 trasformazione lineare X →Y Y =α±βX Y = α + βX Y = 1 + 2X µx = 1 X Y 0 1 1 3 2 5 4 2 µY = 3 0 0 2 Proprietà: Se Y è una trasformazione lineare di X, la varianza di Y si può ottenere moltiplicando la varianza di X per β2 : σ 2Y = β 2 σ X2 σ2X (0 − 1) = 2 Y (1 − 3) = 2 σ 2 2 3 2 + (1 − 1) + (2 − 1) = 0, 667 3 2 1 2 + ( 3 − 3 ) + (5 − 3 ) 3 = 2, 667 σ2Y = β2σ2X = 22 × 0, 667 = 2, 667 2 2 1 n 1 n Dim: σ = ∑ ( yi − µ Y ) = ∑ ( α + βxi − α − βµ X ) = n i =1 n i =1 2 Y 2 1 n =β − µ =β2σX2 x ( ) ∑ i X n i =1 2 11 Esempio Il prezzo del prodotto MM ha una varianza pari a 0.002 La casa produttrice intende rimodulare i prezzi di vendita: per ogni acquirente il nuovo prezzo Y sarà determinato considerando una base di partenza minima pari a 1.5 (α) a cui andrà aggiunta una percentuale del vecchio prezzo X pari al 20% (β). Qual è la varianza dei nuovi prezzi di vendita? α = 1.5 β = 0.2 σ2X = 0.002 Y = 1,5 + 0,2 X σ2Y = ??? σ2Y = β2 ⋅ σ2X = 0.22 ⋅ 0,002 = 0,00008 12 Vecchio prezzo (X) Nuovo prezzo (Y) 1,99 Si può, cioè, evitare di costruire la serie dei nuovi prezzi Y mediante la trasformazione lineare: 1,99 1,99 Y = 1.5 + 0.2 X 2,09 2,09 per poi calcolarne la media aritmetica e la varianza: 2,09 2,09 2,09 2,13 y 1 = y 2 = y 3 = 1 ,5 + 0 ,2 × 1 ,9 9 = 1 ,8 9 8 y 4 = = y 8 = 1 ,5 + 0 ,2 × 2 ,0 9 = 1 ,9 1 8 y9 = 1,5+ 0,2 × 2,13=1,926 µY = 1 9 ∑ yi 9 i=1 = 1.912 σ2Y = 1 9 ∑( 9 i=1 yi − µY 2 ) = 2 = (1.898 − 1.912) 2 + + (1.926 − 1.912) 9 = 0,00008 V) Decomposizione della varianza La varianza di X è data dalla somma della media delle varianze di gruppo (varianza interna) e dalla varianza delle medie di gruppo (varianza esterna). Se: G = numero di gruppi; µj: media dell’i-esimo gruppo; nj = numerosità dell’j-esimo gruppo (j = 1,….,G); allora: σ 2 X = 1 G 2 σ ∑ jn j n j=1 V A R IA N Z A IN T E R N A ossia: + 2 1 G µj − µX ) nj ( ∑ n j=1 V A R IA N Z A E S T E R N A 2 σ2TOT = σ2INT + σEX T 14 Indici assoluti, indici relativi e indici normalizzati Il valore di un indice assoluto (come la varianza o lo scarto quadratico medio) non da nessuna informazione circa l’entità della variabilità, ma può essere utilizzato solo per confrontare diversi insiemi di unità statistiche in base alla variabilità dello stesso carattere (es: il reddito è più variabile in Lazio o in Campania?) Per dare una valutazione sull’entità della variabilità è necessario un intervallo di riferimento, fisso o facilmente determinabile, rispetto ai cui estremi: [variabilità nulla - variabilità massima] sia possibile interpretare il valore dell’indice, che in tal caso è un indice relativo Quando tale intervallo di riferimento è l’intervallo [0 - 1] l’indice è un indice normalizzato La costruzione dell’intervallo di riferimento richiede la determinazione del valore massimo che un indice assoluto può assumere su una determinata distribuzione 15 Massima variabilità Il valore massimo che la varianza può assumere in un insieme di n unità statistiche con media pari a µ è: σ2max = µ2 (n − 1) Di conseguenza, il valore massimo che può assumere lo scarto quadratico medio (in un insieme di n unità statistiche con media pari a µ) è: σmax = µ n − 1 Formalmente: 0 ≤ σ2 ≤ µ2 (n − 1) 0≤σ≤µ (n − 1) 16 Indici di variabilità relativi Coefficiente di variazione CV = σX µX Misura quanto lo s.q.m. è rilevante rispetto all’ordine di grandezza dei valori del carattere X. È un indice indipendente dall’unità di misura (è un numero puro) e può essere utilizzato per confrontare distribuzioni diverse Poiché: 0 ≤ σ 2 ≤ µ 2 (n − 1 ) e 0 ≤ σ ≤ µ (n − 1 ) 0 ≤ CV ≤ n−1 Indici di variabilità relativi normalizzati Scarto quadratico medio relativo Si ottiene come rapporto tra il valore assunto dallo scarto ed il valore massimo che esso può assumere per la distribuzione: σrel = σX σX = max ( σX ) µ X n − 1 0 ≤ σrel ≤ 1 17 Esempio N. bottiglie ni fi k 1 3 0,10 2 4 0,13 3 3 0,10 4 5 0,17 5 11 0,37 6 4 0,13 30 1 Totale Scarto quadratico medio: Scarto quadratico medio relativo: σ = σrel = 0 ≤ σrel ≤ 1 µ = x in i i=1 n k ∑ (x i σ2 = σ2 = = 3, 9 7 2 − µ ) ni i=1 = 2, 4 3 n 2, 4 3 = 1, 5 6 σ µ n−1 = 1, 56 3, 97 29 = 0, 07 Da confrontare con l’intervallo [0; 1] Coefficiente di variazione: 0 ≤ CV ≤ ∑ n−1 n−1 = CV = σ 1, 5 6 = = 0, 3 9 µ 3, 9 7 29 = 5, 39 Da confrontare con l’intervallo [0; 5,39] 18
© Copyright 2024 ExpyDoc