Dott.ssa Caterina Gurrieri Il box plot Proposto dallo statistico americano J. W. Tukey, il box plot serve per rilevare alcune caratteristiche delle forma di distribuzione d’una variabile quantitativa. Più in particolare, il box plot è una rappresentazione grafica utilizzata per descrivere la distribuzione di un campione tramite semplici indici di dispersione e di posizione. Esso si basa, infatti, sulla mediana, sul primo e sul terzo quartile e sulla differenza interquartile. Consente di porre in luce l’ordine di grandezza della variabile (tramite la mediana) la dispersione (tramite la differenza interquartile) la simmetria o asimmetria della distribuzione la lunghezza delle “code” della distribuzione l’eventuale presenza di valori anomali. Il grafico può essere tracciato in senso orizzontale o verticale. Come si costruisce il box plot Dopo aver scelto una scala adeguata per la variabile, si posiziona sull’asse orizzontale (o verticale) la mediana e la si indica con un segmento verticale (o orizzontale). A sinistra (o al di sotto) della mediana si colloca il valore del primo quartile, mentre a destra (o al di sopra) si posiziona il valore del terzo quartile, segnando un segmento verticale (o orizzontale) in corrispondenza di ciascuno di tali quartili. Si uniscono gli estremi di tali segmenti, formando una scatola rettangolare. Si individuano quindi: Il punto di troncamento inferiore: il maggiore tra il minimo dei valori osservati ed il valore Q1 - 1,5DI. Il punto di troncamento superiore: il minore tra il massimo dei valori osservati ed il valore Q3 + 1,5DI. Si tracciano a sinistra e a destra della scatola due segmenti orizzontali che la uniscono rispettivamente al punto di troncamento inferiore e superiore. Gli eventuali valori esterni rispetto ai punti di troncamento vengono considerati come possibili “valori anomali” o outliers, e sono indicati con asterischi o punti sulla retta in prosecuzione del rispettivo segmento. Estremi [xi>Q3+3(Q3-Q1)] + Anomali Max(xi) [xi<Q3+1.5(Q3-Q1)] Q3 Q2=Me Q1 min(xi) [xi>Q1-1.5(Q3-Q1)] + Anomali Estremi [xi<Q1-3(Q3-Q1)] 25% 50% 25% xmin xmax Q1 Med Q3 Come interpretare un box plot La posizione della mediana corrisponde al punto che suddivide l’insieme delle unità statistiche in due parti con uguale numero di termini. La lunghezza della scatola (che corrisponde alla differenza interquartile) individua l’intervallo che comprende il 50% dei valori centrali: quanto maggiore è la lunghezza tanto più elevata è la variabilità dei valori attorno alla mediana. I segmenti esterni alla scatola individuano la lunghezza delle “code” della distribuzione, con esclusione degli outliers. Tali segmenti sono talvolta chiamati “baffi” (whiskers), e il grafico box-and-whisker plot. La posizione dei quartili rispetto alla mediana e la lunghezza dei segmenti esterni alla scatola segnalano se la distribuzione è simmetrica (nel qual caso Q1 e Q3 sono ad uguale distanza dalla mediana ed i segmenti corrispondenti al minimo ed al massimo hanno la medesima lunghezza), oppure no. Ci sono valori anomali? I singoli punti oltre l’estremità dei segmenti indicano possibili valori anomali (eccezionalmente piccoli oppure eccezionalmente grandi rispetto agli altri valori). Tali valori anomali eventualmente presenti possono essere spiegati? Ovviamente su di essi si dovranno effettuare opportuni controlli. In tal caso è opportuno tener presente che i valori anomali possono essere dovuti a errori di misurazione valori veramente anomali (eccezionali) dovuti a cause specifiche In campo economico e sociale, il box plot trova ampio utilizzo anche per i confronti a livello temporale… … e spaziale ESEMPIO 1. Consideriamo due delle variabili utilizzate per lo studio della qualità della vita nelle province italiane da Il Sole–24 Ore: numero di imprese fallite ogni mille registrate nell’anno 2000 numero di furti d’auto denunciati ogni 100.000 abitanti, sempre nell’anno 2000 Numero di imprese fallite ogni mille registrate nell’anno 2000 x25%=20,86 Me=29,62 x75%=36,53 DI = 36,53 – 20,865 = 15,665 Essendo: Q1 -1,5DI = 20,865 -1,515,665= -2,63 mentre il minimo è 11,05 (provincia di Cremona) il punto di troncamento inferiore è pari a 11,05 Q3+ 1,5 DI = 36,53 + 1, 5 15,665 = 60,0275 è il punto di troncamento superiore Numero di furti d’auto denunciati ogni 100000 abitanti nell’anno 2000 DI = 305,31 – 99,9 = 205,41 Essendo Q1-1,5DI=99,9–1,5205,41= -208,2 inferiore al minimo fra i valori osservati (provincia di Belluno pari a 28,90) il punto di troncamento inferiore si pone uguale a 28,90. Q3+1,5DI=305,3+1,5205,4=613,4 è il punto di troncamento superiore. ESEMPIO 2. Nella seguente tabella sono riportate le durate di un gruppo di mutui. Disegnare il Box-plot. Durata in anni N 0-|4 10 4-|8 53 8-|12 51 12-|16 30 16-|20 15 SOLUZIONE Per costruire il box plot della distribuzione considerata, il primo passo da fare è quello di calcolare il valore della mediana, del primo e del terzo quartile. A tal fine occorre dunque calcolare le frequenze relative cumulate della distribuzione. I risultati dei calcoli sono riportati nella tabella seguente Durata in anni N fr frc 0-|4 10 0,0625 0,0625 4-|8 53 0,1563 0,2188 8-|12 51 0,3125 0,5313 12-|16 30 0,2813 0,8126 16-|20 15 0,1875 1 Totale 160 1 Dai dati riportati in tabella è possibile calcolare i valori esatti di mediana, primo quartile e terzo quartile. In particolare 0,5 FC 1 0,5 0,2188 Me l1 8 4 11,5994 FC FC 1 0,5313 0,2188 0,25 FC 1 0,25 0,2188 Q1 l1 8 4 8,3994 FC FC 1 0,5313 0,2188 0,75 FC 1 0,5 0,5313 Q3 l1 8 4 15,1098 FC FC 1 0,8126 0,5313 Da cui DI = 15,1098 – 8,3994 = 6,7104 A questo punto è possibile calcolare il punto di troncamento inferiore e il punto di troncamento superiore. In particolare Linf = Q1 – 15,*DI = 8,3994 – 1,5 * 6,7104 = -1,6662 e Lsup = Q3 + 1,5*DI = 15,1098 + 1,5 * 6,7104 = 25,1754 Infine rappresentiamo su un segmento tutti i valori Poichè Linf < xmin e Possiamo porre come limiti xmin e xmax. Lsup > xmax ATTENZIONE In alcuni casi si trova una versione diversa del box plot, che al posto della mediana e della differenza interquartile utilizza la media aritmetica e lo scarto quadratico medio. In questo caso gli estremi del rettangolo sono tracciati in corrispondenza dei valori μ-σeμ+σ i limiti inferiore e superiore corrispondono rispettivamente a μ – 1,96σ e μ + 1,96σ
© Copyright 2024 ExpyDoc