Statistica bivariata: il problema della dipendenza Antonio Punzo Universita` di Catania, Dipartimento di Economia e Impresa [email protected] Orario delle lezioni: Marted`ı, ore 16:00-18:00, Palazzo delle Scienze, Aula 8. Mercoled`ı, ore 14:00-16:00, Palazzo delle Scienze, Aula 8. Orario di ricevimento: Venerd`ı ore 11:00-13:00, Palazzo delle Scienze, 3° piano, Stanza 24. Testo di riferimento: Zenga, M. (2007), Lezioni di Statistica Descrittiva, Giappichelli Editore, Torino Zenga, M. (1996), Inferenza Statistica, Giappichelli Editore, Torino 1 / 74 Tabella a doppia entrata Si effettua la rilevazione contemporanea di due caratteri se si ritiene che fra essi vi possa essere una “relazione”. ` Sia A un carattere (qualitativo o quantitativo) con c modalita` (o classi di modalita) a1 , . . . , aj , . . . , ac e B un carattere (qualitativo o quantitativo) con r modalita` (o classi di ` b1 , . . . , bi , . . . , br . Si puo` allora considerare la seguente tabella a doppia modalita) entrata. HH A a1 B HH b1 .. . bi .. . br Totale n11 .. . ni1 .. . nr 1 n•1 ··· aj ··· ac Totale ··· n1j .. . nij .. . nrj n•j ··· n1c .. . nic .. . nrc n•c n1• .. . ni• .. . nr • N ··· ··· ··· ··· ··· ··· nij = n bi , aj indica il numero di unita` statistiche in cui vi e` la contemporanea presenza di bi e di aj . Per questo motivo nij e` detta frequenza congiunta. c X ni• = nij fornisce la frequenza assoluta n (bi ) della modalita` bi del carattere B, j=1 indipendentemente dalle modalita` di A. r X n•j = nij fornisce la frequenza assoluta n aj della modalita` aj di A i=1 indipendentemente dalle modalita` di B. 2 / 74 In altre parole in una tabella a doppia entrata sono presenti: r × c frequenze congiunte nij ; r frequenze ni• = n (bi ) del carattere B; c frequenze n•j = n aj del carattere A. Osservazione Le frequenze ni• e n•j fanno cioe` riferimento ai due caratteri separatamente considerati. Osservazione Valgono le seguenti relazioni: c X r X j=1 i=1 nij = N, c X j=1 n•j = c X j=1 n aj = N e r X i=1 ni• = r X n (bi ) = N. i=1 ` Le relazioni sopra scritte informano che in una tabella a doppia entrata vi e: una distribuzione bivariata caratterizzata dalle r × c coppie di modalita` bi , aj con frequenze congiunte nij ; una distribuzione univariata (totale), relativa al carattere A, caratterizzata dalle c modalita` aj con le frequenze n•j = n aj ; una distribuzione univariata (totale) relativa alle r modalita` bi di B con le rispettive frequenze ni• = n (bi ). 3 / 74 Oltre alle tre sopra precisate distribuzioni totali (ciascuna con somma delle frequenze assolute pari a N) e` possibile individuare, nella tabella a doppia entrata, altre c + r distribuzioni parziali univariate. Un gruppo per ogni colonna della tabella a doppia entrata Il totale N e` diviso fra c frequenze n•1 , . . . , n•j , . . . , n•c . Si possono cioe` individuare c gruppi, uno per ogni colonna, le cui numerosita` sono appunto i totali di colonna. Con riferimento alle n•j unita` della colonna j-ma, tale totale “parziale” e` ripartito nelle r caselle della colonna j-ma secondo le frequenze n1j , . . . , nij , . . . , nrj . Queste frequenze fanno riferimento alla modalita` aj (tenuta fissa) ed alle modalita` b1 , . . . , bi , . . . , br del carattere B. Pertanto si ha una distribuzione parziale di B caratterizzata dal fatto che la modalita` di A e` sempre aj . Questa distribuzione parziale di B si puo` denotare con bi , nij ; i = 1, 2, . . . , r . N.B.: Di distribuzioni parziali di questo tipo ve ne sono c, una per ogni colonna. Un gruppo per ogni riga della tabella a doppia entrata Analogamente e` possibile dividere il totale N fra le r frequenze marginali n1• , . . . , ni• , . . . , nr • . Il totale parziale ni• della riga i-ma e` ripartito fra le c caselle della riga stessa secondo le frequenze ni1 , . . . , nij , . . . , nic . Queste frequenze fanno riferimento alla modalita` bi (tenuta fissa) ed alle modalita` a1 , . . . , aj , . . . , ac del carattere A. Pertanto si ha una distribuzione parziale di A caratterizzata dal fatto che la modalita` di B e` sempre bi . Questa distribuzione parziale si denota con aj , nij ; j = 1, 2, . . . , c . N.B.: Di distribuzioni parziali di questo tipo ve ne sono r , una per ogni modalita` bi di B. 4 / 74 Osservazione Data l’ubicazione tabellare delle frequenze totali di riga (ni• ) e di colonna n•j le stesse sono anche denominate “frequenze marginali”. In conclusione in una tabella a doppia entrata sono presenti: una distribuzione totale bivariata c + 1 distribuzioni del carattere B: una distribuzione totale (marginale) di numerosita` N, c distribuzioni parziali (condizionate) di numerosita` n•1 , . . . , n•j , . . . , n•c , r + 1 distribuzioni del carattere A: una distribuzione totale (marginale) di numerosita` N, r distribuzioni parziali (condizionate) di numerosita` n1• , . . . , ni• , . . . , nr • . 5 / 74 Frequenze relative nelle distribuzioni di frequenza bivariate Per ciascuna delle distribuzioni presenti in una tabella a doppia entrata e` possibile calcolare le corrispettive frequenze relative. Frequenze relative congiunte nij fr bi , aj = , N i = 1, . . . , r e j = 1, . . . , c. (1) Interpretazione La (1) indica l’importanza numerica relativa della coppia bi , aj nella popolazione. Frequenze relative marginali Per ciascuno dei due caratteri si possono calcolare le frequenze relative marginali: fr (bi ) = e Ovviamente: ni• , N i = 1, . . . , r n•j fr aj = , N r X i=1 fr (bi ) = 1 j = 1, . . . , c. e c X fr aj = 1. j=1 6 / 74 Frequenze relative condizionate (o parziali) Per ogni distribuzione parziale (o condizionata) di ciascuno dei due caratteri si possono, infine, calcolare le corrispettive frequenze relative condizionate. Considerando cos`ı la distribuzione parziale di B corrispondente alla modalita` aj di A si puo` calcolare la frequenza relativa di bi che e` fornita da nij n bi , aj = . fr bi |aj = n•j n aj La frequenza relativa fr bi |aj indica l’importanza relativa della modalita` bi nell’ambito della popolazione parziale di numerosita` n aj = n•j . In modo analogo, considerando la distribuzione parziale di A corrispondente alla modalita` bi di B, si puo` calcolare la frequenza relativa di aj che e` fornita da n bi , aj fr aj |bi = n (bi ) = nij ni• . 7 / 74 Relazione fra le frequenze relative marginali e condizionate Proprieta` La frequenza relativa marginale fr (bi ) e`uguale alla media aritmetica ponderata delle frequenze relative condizionate fr bi |aj con pesi pari alle numerosita` n•j delle distribuzioni parziali. In formula: fr (bi ) = c 1 X fr bi |aj · n•j , N i = 1, 2, . . . , r . j=1 Dimostrazione La dimostrazione e` immediata. fr (bi ) = = ni1 + · · · + nij + · · · + nic ni• = = N N nij ni1 n · n•1 + · · · + · n•j + · · · + ic · n•c n•1 n•j n•c N . nij ni1 n = fr (bi |a1 ) , . . . , = fr bi |aj , . . . , ic = fr (bi |ac ). Tenuto conto di n•1 n•j n•c queste relazioni, fr (bi ) risulta effettivamente pari a fr (bi |a1 ) · n•1 + · · · + fr bi |aj · n•j + · · · + fr (bi |ac ) · n•c fr (bi ) = . N Ma, 8 / 74 Esercizio ` Si consideri nuovamente la seguente tabella statistica (distribuzione di unita): Numero d’ordine (i) della famiglia 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Settore di attivita` economica del capofamiglia Titolo di godimento dell’abitazione Titolo di studio del capofamiglia Numero di figli Reddito annuo lordo (euro) Eta` del capofamiglia (discretizzato) Industria Industria Agricoltura Industria Altra Attivita` Industria Industria Industria Agricoltura Agricoltura Industria Altra Attivita` Altra Attivita` Agricoltura Altra Attivita` Industria Industria Altra Attivita` Industria Industria Affitto Affitto Proprieta` Proprieta` Proprieta` Affitto Altro titolo Affitto Proprieta` Proprieta` Proprieta` Affitto Altro titolo Affitto Proprieta` Proprieta` Affitto Affitto Proprieta` Proprieta` Diploma Laurea Licenza Media Diploma Laurea Licenza Media Licenza Media Diploma Senza titolo Licenza Media Licenza Media Laurea Diploma Laurea Laurea Laurea Laurea Licenza Elem. Licenza Media Diploma 3 2 3 1 0 2 3 4 5 1 1 1 2 2 2 0 1 3 5 0 19841 18830 15971 17361 23426 17220 17540 16980 15340 18270 30733 28760 25320 19221 27320 23420 20280 27531 18330 19750 29 29 26 31 60 30 30 45 69 56 50 55 52 57 65 59 48 59 46 48 9 / 74 Domanda Costruire le tabelle a doppia entrata delle frequenze assolute e relative della coppia di ` e “numero di figli” e della coppia “eta” ` e “reddito”. caratteri “settore di attivita” ` e La tabella a doppia entrata delle frequenze assolute dei caratteri “settore di attivita” “numero di figli” e` la seguente: Settore di attivita` A I A.A. Totale Figli 0 1 2 3 4 5 Totale 0 1 1 1 0 1 4 2 3 2 2 1 1 11 1 1 2 1 0 0 5 3 5 5 4 1 2 20 ` Analogamente, la tabella a doppia entrata delle frequenze relative e: Settore di attivita` A I A.A. Totale Figli 0 1 2 3 4 5 Totale 0 0.05 0.05 0.05 0 0.05 0.20 0.10 0.15 0.10 0.10 0.05 0.05 0.55 0.05 0.05 0.10 0.05 0 0 0.25 0.15 0.25 0.25 0.20 0.05 0.10 1.00 10 / 74 ` e “reddito” e` la La tabella a doppia entrata delle frequenze assolute dei caratteri “eta” seguente: Eta` del capofamiglia 26 − 30 31 − 49 50 − 55 56 − 60 61 − 70 Totale Reddito 15000 a 17000 a 18500 a 20000 a 26000 a 17000 18500 20000 26000 33000 Totale 1 2 2 0 0 5 1 2 1 1 0 5 0 0 0 1 2 3 0 1 1 2 1 5 1 0 0 0 1 2 56 − 60 61 − 70 3 5 4 4 4 20 ` Infine la tabella a doppia entrata delle frequenze relative e: Eta` del capofamiglia 26 − 30 31 − 49 50 − 55 Totale Reddito 15000 a 17000 a 18500 a 20000 a 26000 a 17000 18500 20000 26000 33000 Totale 0.05 0.10 0.10 0 0 0.25 0.05 0.10 0.05 0.05 0 0.25 0 0 0 0.05 0.10 0.15 0 0.05 0.05 0.10 0.05 0.25 0.05 0 0 0 0.05 0.1 0.15 0.25 0.20 0.20 0.20 1 11 / 74 Differenza tra indipendenza distributiva ed indipendenza in media 12 / 74 Indipendenza distributiva (o connessione nulla) Definizione Il carattere B e` indipendente in distribuzione dal carattere A se per ogni distribuzione parziale di B le frequenze relative condizionate sono uguali a quelle della distribuzione totale (di B). In formula, B e` indipendente in distribuzione da A se per ogni (colonna) j = 1, . . . , c si ha n bi , aj nij ni• n (bi ) = = = per i = 1, . . . , r , (2) n•j N N n aj | {z } | {z } frequenza relativa bi |aj condizionata fr frequenza relativa marginale fr (bi ) cioe´ se le c distribuzioni condizionate del carattere B sono identiche (“simili”) a quella marginale. Osservazione Dalla (2) si ricava che l’indipendenza distributiva e` una relazione simmetrica, cioe` se B e` indipendente da A, allora anche A e` indipendente da B e viceversa. Infatti n aj n bi , aj n aj n bi , aj n (bi ) n aj · = · → = , n (bi ) N n (bi ) n (bi ) N n aj ovvero ricordando il significato dei due ultimi rapporti fr aj |bi = fr aj , per ogni i e per ogni j. (3) La (3) indica, appunto, l’indipendenza distributiva di A da B. 13 / 74 Esempio in cui B e` indipendente in distribuzione da A HH A a B HH 1 b1 b2 b3 Totale 5 3 2 10 a2 a3 Totale 10 6 4 20 15 9 6 30 30 18 12 60 Table: Distribuzione bivariata 3 × 3 con indipendenza di B da A. Si rileva che: fr (b1 |a1 ) = fr (b1 |a2 ) = fr (b1 |a3 ) = fr (b1 ) = 5 10 10 20 15 30 30 60 = 0, 5 = 0, 5 = 0, 5 = 0, 5. Si rileva altres`ı che: fr (b2 |a1 ) = fr (b2 |a2 ) = fr (b2 |a3 ) = fr (b2 ) = 0, 3; fr (b3 |a1 ) = fr (b3 |a2 ) = fr (b3 |a3 ) = fr (b3 ) = 0, 2. Interpretazione L’importanza numerica relativa delle modalita` di B e` la stessa nelle tre distribuzioni parziali e nella distribuzione totale. Cio` significa che il carattere A non ha nessuna influenza su come si distribuiscono le unita` statistiche fra le modalita` di B. 14 / 74 ` molto utile in alcuni contesti presentare la condizione di indipendenza distributiva nel E modo che verra` ora ricavato. Moltiplicando prima e seconda parte della (2) per n aj si ottiene: n bi , aj n (bi ) · n aj (4) · n a j = N n a j da cui n (bi ) · n aj n bi , aj = N j = 1, 2, . . . , c e i = 1, 2, . . . , r . (5) Interpretazione La (5) informa che in caso di indipendenza distributiva le frequenze congiunte si possono ottenere dal prodotto delle frequenze marginali diviso per N. In altre parole, nell’ipotesi di indipendenza distributiva, la conoscenza delle frequenze marginali e` sufficiente per avere quelle congiunte. Infatti, dividendo prima e seconda parte della (5) per N si ottiene n bi , aj n (bi ) n aj = · . (6) N N N | {z } | {z } | {z } fr (bi ) fr (bi ,aj ) fr (aj ) Interpretazione La (6) informa che nell’ipotesi di indipendenza distributiva le frequenze relative congiunte si fattorizzano nel prodotto delle corrispettive frequenze marginali. 15 / 74 Notazione Per distinguere le frequenze marginali osservate nij da quelle che si dovrebbero avere nell’ipotesi di indipendenza distributiva, queste ultime verranno indicate con b nij , essendo, per la (5) ni• · n•j b nij = . (7) N Utilizzando la (7) e` possibile ricavare le frequenze teoriche nell’ipotesi di indipendenza che possono essere collocate nella cosiddetta tabella delle “frequenze teoriche”: H H A a1 B HH b1 ... bi .. . br Totale b n11 .. . b ni1 .. . b nr 1 b n•1 ··· aj ··· ac Totale ··· b n1j ... b nij .. . b nrj b n•j ··· b n1c .. . b nic .. . b nrc b n•c b n1• .. . b ni• .. . b nr • N ··· ··· ··· ··· ··· ··· Table: Tabella a doppia entrata delle frequenze teoriche in caso di indipendenza distributiva 16 / 74 ` Le frequenze marginali teoriche sono uguali a quelle effettive Proprieta: Enunciato La proprieta` afferma che: b ni• = ni• , per ogni i = 1, . . . , r b n•j = n•j , per ogni j = 1, . . . , c. e che Dimostrazione Sappiamo che b ni• = c X b nij . j=1 Sappiamo anche che per la (5) b nij = ni• · n•j N . Tenuto conto di cio` b ni• = c X ni• · n•j j=1 N = c ni• X n · n•j = i• · N = ni• . N N j=1 In modo analogo si dimostra che b n•j = n•j . 17 / 74 Massima dipendenza (Connessione massima) Oltre alla “situazione” di indipendenza distributiva riveste una certa importanza la “situazione” opposta di massima dipendenza (connessione massima). Il concetto di massima dipendenza del carattere B dal carattere A viene comunemente inteso nel senso che se di una unita` statistica e` nota la modalita` di A allora e` univocamente determinata la sua modalita` di B. HH A a B HH 1 b1 b2 b3 Tot. 0 5 0 5 a2 a3 a4 Tot 3 0 0 3 0 0 4 4 0 2 0 2 3 7 4 14 Table: Massima dipendenza di B da A. La tabella mostra che partendo da una qualsiasi modalita` di A si ottiene una sola modalita` di B: (a1 → b2 ) (a2 → b1 ) (a3 → b3 ) (a4 → b2 ) . La situazione ora precisata e` quella di massima dipendenza unilaterale di B da A: se si parte da una modalita` di B non sempre si ottiene una sola modalita` di A: (b1 → a2 ) (b2 → a1 , a4 ) (b3 → a3 ) . 18 / 74 Si ha la massima dipendenza bilaterale se si ha contemporaneamente la massima dipendenza unilaterale di B da A e la massima dipendenza unilaterale di A da B. In altre parole si ha la massima dipendenza bilaterale se essendo nota la modalita` di A e` univocamente determinata la modalita` di B e viceversa. HH A a B HH 1 b1 b2 b3 b4 Tot. 0 5 0 0 5 a2 a3 a4 Tot 0 0 3 0 3 4 0 0 0 4 0 0 0 2 2 4 5 3 2 14 Table: Massima dipendenza bilaterale. La tabella mostra che partendo da una qualsiasi modalita` di A si ottiene una sola modalita` di B e viceversa: (a1 ↔ b2 ) (a2 ↔ b3 ) (a3 ↔ b1 ) (a4 ↔ b4 ) . Si puo` cos`ı affermare che si ha la massima dipendenza bilaterale se vi e` corrispondenza biunivoca fra le modalita` dei due caratteri. Osservazione pratica Per avere la massima dipendenza bilaterale bisogna che r = c e che per ogni riga e per ogni colonna le frequenze siano concentrate in una sola casella. Nella massima dipendenza solo di B da A in ogni colonna le frequenze sono concentrate in una sola casella e vi e` almeno una riga con frequenze concentrate in piu` di una casella. 19 / 74 Indici di dipendenza distributiva (o di connessione) Contingenze assolute Lo studio della eventuale “relazione” esistente fra due caratteri, indipendentemente dal fatto che essi siano qualitativi o quantitativi, puo` essere agevolmente basato sul confronto fra le frequenze effettive nij e le frequenze teoriche b nij dell’ipotesi di indipendenza distributiva. Si hanno cos`ı le contingenze assolute Cij fornite da Cij = nij − b nij , i = 1, . . . , r e j = 1, . . . , c. Osservazione 1 La connessione aumenta mano a mano che aumentano le divergenze fra nij e b nij . Se nij = b nij e quindi Cij = 0, per ogni casella, allora vi e` indipendenza distributiva o connessione nulla; nij − b nij = Cij 6= 0 per almeno una casella, allora vi e` una certa connessione fra i due caratteri. Il “segno” delle contingenze fornisce inoltre utili informazioni; se Cij > 0 vi e` attrazione tra le modalita` xi e yj ; Cij < 0 vi e` repulsione tra le modalita` xi e yj . 20 / 74 Osservazione 2 Essendo b ni• = ni• e b n•j = n•j risulta che la somma delle contingenze e` uguale a zero per ogni riga e per ogni colonna. Contingenze relative Solitamente il grado di divergenza fra frequenza effettiva nij e frequenza teorica b nij si valuta rapportando la contingenza nij − b nij al valore della frequenza teorica: si hanno cos`ı le contingenze relative ρij = nij − b nij , b nij i = 1, . . . , r e j = 1, . . . , c, che non sono altro che delle semplici variazioni relative. Per avere una “sintesi” della connessione esistente fra i due caratteri si possono calcolare opportune medie dei moduli delle contingenze relative. L’indice di cui ci occuperemo nel corso e` quello di Karl Pearson. 21 / 74 L’indice quadratico di dipendenza distributiva L’ indice (quadratico) di dipendenza distributiva (o di connessione) di Pearson e` dato da: v v u !2 u X r c X r u X 2 u1 c X Cij u1 t M2 (|ρ|) = ρij · b ·b nij nij = t b nij N N j=1 i=1 = j=1 i=1 v v 2 u X u X r C2 r u1 c X u1 c X nij − b nij ij t t = . b b nij nij N N j=1 i=1 j=1 i=1 Per avere informazioni sul grado di dipendenza distributiva esistente tra i due caratteri e` opportuno ricorrere ad un indice normalizzato. Un indice che possiede tale caratteristica viene ottenuto dividendo M2 (|ρ|) per il suo massimo valore assumibile. Il valore massimo assumibile da M2 (|ρ|) corrisponde al caso di massima dipendenza distributiva tra i due caratteri e, in tale caso, si dimostra che p max {M2 (|ρ|)} = k − 1 con k = min(r , c). Otteniamo quindi l’indice normalizzato di dipendenza distributiva (o di connessione) di Cramer: M2 (|ρ|) M2 (|ρ|) C∗ = = √ . max {M2 (|ρ|)} k −1 ` L’indice appena introdotto gode delle seguenti proprieta: 0 ≤ C ∗ ≤ 1; C ∗ = 0 se e solo se tra i caratteri in considerazione vi e` indipendenza distributiva; C ∗ = 1 se e solo se tra i caratteri vi e` massima dipendenza distributiva. 22 / 74 Test χ2 di indipendenza Si consideri ora il problema dal punto di vista non descrittivo ma inferenziale. Si formulino le ipotesi: H0 : A⊥B contro H1 : A ⊥B. Per la verifica dell’ipotesi H0 si ricorre alla statistica test X2 = r X c X nij − b nij b nij 2 n→∞ ∼ χ2(r −1)(c−1) i=1 j=1 Osservazione sulla distribuzione della statistica test Si noti che la distribuzione della statistica test X 2 e` asintotica ed e` calcolata sotto H0 . La regione critica di livello α del test puo` essere cos`ı definita come n o C = X2 : X2 > c dove c = χ2[(r −1)(c−1);1−α] e` il quantile di ordine 1 − α di una χ2(r −1)(c−1) . 23 / 74 Esercizio 1 I dati relativi alla popolazione occupata per grande ripartizione geografica e per settore di attivita` economica sono riportati nella seguente tabella: Ripartiz. Attivita` Agricoltura (A) Industria (I) Altre attivita` (AA) Totale Nord (N) Centro-Sud (CS) 698 4127 5695 10520 1248 2625 6609 10482 Totale 1946 6752 12304 21002 1 Determinare la distribuzione bivariata di frequenze relative; 2 determinare le distribuzioni condizionate di frequenze relative; 3 calcolare le contingenze assolute e fornire la loro interpretazione; 4 calcolare le contingenze relative e fornire la loro interpretazione; 5 valutare il grado di dipendenza distributiva tra i due caratteri mediante un opportuno indice. 6 valutare, al livello di significativita` del 5%, se si puo` ritenere che vi sia indipendenza distributiva tra i due caratteri. 24 / 74 Esercizio 1 - quesito 1 Le frequenze congiunte relative sono ricavabili dalle frequenze congiunte attraverso la relazione: nij fij = per i = 1, 2, 3 e j = 1, 2. n Nel nostro caso abbiamo ad esempio che: fr (A, N) = n11 698 = = 0.0332 n 21002 Interpretazione Il 3.32% della popolazione occupata risiede al nord ed e` impiegata nel settore agricolo. Procedendo in modo del tutto analogo nel caso di tutte le altre frequenze congiunte relative si ottiene la seguente tabella: Ripartiz. Attivita` Agricoltura (A) Industria (I) Altre attivita` (AA) Totale Nord (N) Centro-Sud (CS) 0.0332 0.1965 0.2712 0.5009 0.0594 0.1250 0.3147 0.4991 Totale 0.0926 0.3215 0.5859 1 25 / 74 Interpretazione delle frequenze congiunte relative fr (I, N) = 0.1965 indica che il 19.65% della popolazione occupata risiede al nord ed e` impiegata nel settore industriale; fr (I, CS) = 0.1250 indica che il 12.5% della popolazione occupata risiede al centro sud ed e` impiegata nel settore industriale; fr (AA, N) = 0.2712 indica che il 27.12% della popolazione occupata risiede al ` nord ed e` impiegata nelle altre attivita; fr (AA, CS) = 0.3147 indica che il 31.47% della popolazione occupata risiede al ` centro sud ed e` impiegata nelle altre attivita; Nell’ultima riga e colonna della tabella precedente sono riportate le frequenze marginali relative rispettivamente dei caratteri “Ripartizione Geografica” e “Settore di Attivita` Economica”. 26 / 74 Interpretazione delle frequenze marginali relative Le frequenze marginali sono state calcolate mediante: f•j = n•j n j = 1, 2 e fi• = ni• n i = 1, 2, 3. Le frequenze marginali relative del carattere “Ripartizione Geografica” forniscono le seguenti informazioni: fr (N) = 0.5009 indica che il 50.09% della popolazione occupata risiede al nord. fr (CS) = 0.4991 indica che il 49.91% della popolazione occupata risiede al centro sud. Le frequenze marginali relative del carattere “Settore di Attivita` Economica” forniscono invece le seguenti informazioni: fr (A) = 0.0926 indica che il 9.26% della popolazione occupata e` impiegata nel settore agricolo. fr (I) = 0.3215 indica che il 32.15% della popolazione occupata e` impiegata nel settore industriale. fr (AA) = 0.5859 indica che il 58.59% della popolazione occupata e` impiegata in ` altre attivita. 27 / 74 Esercizio 1 - quesito 2 Fissiamo innanzitutto l’attenzione sulla distribuzione parziale associata alla modalita` N del carattere “Ripartizione Geografica”. In tal caso le frequenze relative condizionate sono date da: 698 n11 = = 0.0664 fr (A|N) = n•1 10520 fr (I|N) = n21 4127 = = 0.3923 n•1 10520 fr (AA|N) = n31 5695 = = 0.5413 n•1 10520 In modo del tutto analogo possono essere ricavate le frequenze relative del carattere “Settore di Attivita` Economica” condizionate alla modalita` CS del carattere “Ripartizione Geografica”. Ripartiz. Attivita` Agricoltura (A) Industria (I) Altre attivita` (AA) Nord (N) Centro-Sud (CS) 0.0664 0.3923 0.5413 1 0.1191 0.2504 0.6305 1 Totale 0.0926 0.3215 0.5859 1 28 / 74 L’ultima colonna della tabella precedente contiene le frequenze relative marginali del carattere “Settore di Attivita` Economica”. Interpretazione delle frequenze relative condizionate “di colonna” Le frequenze relative condizionate del carattere “Settore di Attivita` Economica” danno le seguenti informazioni: fr (A|N) = 0.0664 indica che il 6.64% della popolazione occupata residente al nord e` impiegata nel settore agricolo; fr (I|N) = 0.3923 indica che il 39.23% della popolazione occupata residente al nord e` impiegata nel settore industriale; fr (AA|N) = 0.5413 indica che il 54.13% della popolazione occupata residente al ` nord e` impiegata in altre attivita; fr (A|CS) = 0.1191 indica che il 11.91% della popolazione occupata residente al centro sud e` impiegata nel settore agricolo; fr (I|CS) = 0.2504 indica che il 25.04% della popolazione occupata residente al centro sud e` impiegata nel settore industriale; fr (AA|CS) = 0.6305 indica che il 63.05% della popolazione occupata residente al ` centro sud e` impiegata in altre attivita. 29 / 74 Per quanto riguarda il calcolo delle frequenze relative condizionate del carattere “Ripartizione Geografica”, fissiamo innanzitutto l’attenzione sulla distribuzione parziale associata alla modalita` A del carattere “Settore di attivita` Economica”. In tal caso le frequenze relative condizionate sono date da: 698 n11 = = 0.3587 n1• 1946 fr (N|A) = fr (CS|A) = n12 1248 = = 0.6413. n1• 1946 In modo del tutto analogo possono essere ricavate le frequenze relative del carattere “Ripartizione Geografica” condizionate alla modalita` I e AA del carattere “Settore di attivita` Economica”. Ripartiz. Attivita` Agricoltura (A) Industria (I) Altre attivita` (AA) Totale Nord (N) Centro-Sud (CS) 0.3587 0.6112 0.4629 0.5009 0.6413 0.3888 0.5371 0.4991 1 1 1 1 30 / 74 L’ultima riga della tabella sopra riportata contiene le frequenze relative marginali del carattere “Ripartizione Geografica”. Interpretazione delle frequenze relative condizionate “di riga” Le frequenze relative condizionate del carattere “Ripartizione geografica” forniscono le seguenti informazioni: fr (N|A) = 0.3587 indica che il 35.87% della popolazione occupata impiegata nel settore agricolo risiede al nord; fr (CS|A) = 0.6413 indica che il 64.13% della popolazione occupata impiegata nel settore agricolo risiede al centro sud; fr (N|I) = 0.6112 indica che il 66.12% della popolazione occupata impiegata nel settore industriale risiede al nord; fr (CS|I) = 0.3888 indica che il 38.88% della popolazione occupata impiegata nel settore industriale risiede al centro sud; fr (N|AA) = 0.4629 indica che il 46.29% della popolazione occupata impiegata in altri settori risiede al nord; fr (CS|AA) = 0.5371 indica che il 53.71% della popolazione occupata impiegata in altri settori risiede al centro sud. 31 / 74 Esercizio 1 - quesito 3 La tabella delle frequenze osservate nij era: Ripartiz. Attivita` Agricoltura (A) Industria (I) Altre attivita` (AA) Totale Nord (N) Centro-Sud (CS) 698 4127 5695 10520 1248 2625 6609 10482 Totale 1946 6752 12304 21002 La tabella delle frequenze teoriche b nij , in caso di indipendenza distributiva, risulta: Ripartiz. Attivita` Agricoltura (A) Industria (I) Altre attivita` (AA) Totale Nord (N) Centro-Sud (CS) 974.7605 3382.1084 6163.1311 10520 971.2395 3369.8916 6140.8689 10482 Totale 1946 6752 12304 21002 Osservazione Si osservi, come detto in precedenza, che le distribuzioni marginali della tabella delle frequenze teoriche b nij coincidono con quelle della tabella delle frequenze effettive nij . 32 / 74 Le contingenze assolute Cij sono per definizione costituite dalla differenza tra la frequenza effettiva nij e quella teorica nel caso di indipendenza distributiva b nij : Cij = nij − b nij i = 1, 2, 3 e j = 1, 2. Il loro calcolo e` riportato nella seguente tabella: Ripartiz. Attivita` Agricoltura (A) Industria (I) Altre attivita` (AA) Totale Nord (N) Centro-Sud (CS) -276.7605 744.8916 -468.1311 0 276.7605 -744.8916 468.1311 0 Totale 0 0 0 0 Osservazione Si osservi, come detto in precedenza, che sia i totali di riga che di colonna delle contingenze assolute sono nulli. 33 / 74 Informazioni desumibili dalle contingenze assolute C11 = −276.7605: la frequenza congiunta effettiva associata alle modalita` A del carattere “Settore di Attivita` Economica” e N del carattere “Ripartizione Geografica”, e` minore rispetto a quella teorica in ipotesi di indipendenza distributiva. Tra le modalita` A del carattere “Settore di attivita` Economica”, e N del carattere “Ripartizione Geografica” vi e` repulsione in quanto la frequenza congiunta che si e` osservata e` inferiore a quella che si sarebbe dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva; C12 = 276.7605: la frequenza congiunta effettiva associata alle modalita` A del carattere “Settore di Attivita` Economica” e CS del carattere “Ripartizione Geografica”, e` maggiore rispetto a quella teorica in ipotesi di indipendenza distributiva. Tra le modalita` A del carattere “Settore di Attivita` Economica” e CS del carattere “Ripartizione Geografica” vi e` attrazione in quanto la frequenza congiunta che si e` osservata e` maggiore di quella che si sarebbe dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva. 34 / 74 Esercizio 1 - quesito 4 Il calcolo delle contingenze relative ρij e` riportato nella seguente tabella: Ripartiz. Attivita` Agricoltura (A) Industria (I) Altre attivita` (AA) Nord (N) Centro-Sud (CS) -0.2839 0.2202 -0.0756 0.2839 - 0.2202 0.0756 Informazioni desumibili dalle contingenze relative ρ11 = −0.2839: la frequenza congiunta effettiva associata alle modalita` A del carattere “Settore di Attivita` Economica” e N del carattere “Ripartizione Geografica”, e` inferiore del 28.39% rispetto a quella teorica d’indipendenza distributiva. ρ12 = 0.2839: la frequenza congiunta effettiva associata alle modalita` A del carattere “Settore di Attivita` Economica” e CS del carattere “Ripartizione Geografica”, supera del 28.39% quella teorica d’indipendenza distributiva. 35 / 74 Esercizio 1 - quesito 5 Nella seguente tabella sono riportati i valori dei rapporti Cij2 /b nij , utili per il calcolo dell’indice di dipendenza distributiva di K. Pearson. Ripartiz. Attivita` Agricoltura (A) Industria (I) Altre attivita` (AA) Totale Nord (N) Centro-Sud (CS) 78.5797 164.6532 35.6866 278.1958 78.5797 164.6532 35.6866 279.2044 Totale 157.4442 328.7117 71.2443 557.4002 L’indice quadratico di dipendenza distributiva di K.Pearson risulta: v u r 3 X 2 C2 u1 X 557.4002 u ij M2 (|ρ|) = t = = 0.1629. b n nij 21002 i=1 j=1 Interpretazione del risultato Il valore appena individuato informa che, in media quadratica, le frequenze effettive nij differiscono da quelle teoriche b nij di 0.1629. 36 / 74 Per avere informazioni sul grado di dipendenza distributiva esistente tra i due caratteri, e` opportuno ricorrere all’indice normalizzato di dipendenza distributiva. Ricordiamo che r = 3 ed c = 2, da cui si ricava k = min {r , c} = 2. Nel nostro caso abbiamo quindi: C∗ = 0.1629 M2 (|ρ|) 0.1629 = √ = 0.1629 = max {M2 (|ρ|)} 1 k −1 Lettura del risultato L’indice normalizzato di dipendenza distributiva e` pari al 16.29% del suo massimo valore teorico (che corrisponde al caso di massima dipendenza distributiva). Si puo` quindi concludere che tra i due caratteri “Settore di Attivita` Economica” e “Ripartizione geografica” vi e` un basso grado di dipendenza distributiva. 37 / 74 Esercizio 1 - quesito 6 Per avere un’idea se il valore trovato dell’indice sia “statisticamente” sintomo di indipendenza o meno tra i fenomeni “Settore di Attivita` Economica” e “Ripartizione geografica”, possiamo fare ricorso al test χ2 di indipendenza. Dalla tabella ricavata al quesito 5 si e` visto che il valore osservato della statistica test e` pari a X 2 = 557.4002. Al livello del 5% (α = 0.05), il valore critico c che definisce la regione critica C del test risulta c = χ2[2;0.95] = 5.9914. Essendo X 2 = 557.4002 > c = 5.9914, siamo portati a rifiutare l’ipotesi nulla di indipendenza al livello del 5%. p-value del test di indipendenza Si noti che, nell’esempio in esame, tale conclusione e` valida indipendentemente dal livello di significativita` scelto dal momento che il p-value associato al test e` praticamente nullo. 38 / 74 Indipendenza in media Sia Y un carattere quantitativo che assume i valori y1 , . . . , yi , . . . , yr rispettivamente con frequenze n1• , . . . , ni• , . . . , nr • . Sia A un carattere qualitativo o quantitativo che assume i valori (o classi di valori) a1 , . . . , aj , . . . , ac rispettivamente con frequenze n•1 , . . . , n•j , . . . , n•c . La popolazione totale di N unita` si puo` cos`ı considerare divisa in c popolazioni parziali (gruppi) – una per ogni modalita` aj di A – di numerosita` rispettivamente n•1 , . . . , n•j , . . . , n•c . HH A Y HH y1 .. . yi .. . yr Totale Gruppo 1 a1 n11 .. . ni1 .. . nr 1 n•1 Gruppo j aj n1j .. . nij .. . nrj n•j ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· Gruppo c ac n1c .. . nic .. . nrc n•c Totale n1• .. . ni• .. . nr • N Per quanto riguarda il carattere Y , per ciascun gruppo si puo` calcolare la media yj = r 1 X yi · nij n•j i=1 e la varianza σj2 = r 2 1 X yi − y j · nij . n•j i=1 39 / 74 Sempre per quanto riguarda il carattere Y se ne puo` calcolare la media aritmetica (totale) r 1 X y= yi · ni• N i=1 e la varianza (totale) σ2 = r 1 X (yi − y)2 · ni• . N i=1 Con lo studio della indipendenza in media si vuol sapere se al mutare delle modalita` di A la media aritmetica del carattere Y varia o meno. Definizione Il carattere (quantitativo) Y e` indipendente in media dal carattere A se: y 1 = · · · = y j = · · · = y c = y. 40 / 74 Esempio - Indipendenza in media ma non indipendenza in distribuzione HH A Y HH 4 8 14 18 Tot. n•j a1 a2 a3 a4 Tot. (ni• ) 2 4 4 2 12 0 4 4 0 8 3 1 1 3 8 3 3 3 3 12 8 12 12 8 40 Table: Distribuzione bivariata secondo un carattere quantitativo Y ed uno qualitativo A. La media totale e le medie parziali si ottengono agevolmente con il seguente prospetto yi 4 8 14 18 Tot. yi · ni1 8 32 56 36 132 yi · ni2 0 32 56 0 88 yi · ni3 12 8 14 54 88 yi · ni4 12 24 42 54 132 yi · ni• 32 96 168 144 440 Dal prospetto si ricavano le seguenti medie per Y : y1 = 132 = 11 12 y2 = 88 = 11 8 y3 = 88 = 11 8 y4 = 132 = 11 12 e y= 440 = 11. 40 Risultato 1 Le medie parziali sono fra loro uguali e sono, conseguentemente, uguali alla media totale. Il carattere Y e` quindi indipendente in media dal carattere A. 41 / 74 Nel prospetto che segue sono riportate le frequenze relative (percentuali) delle modalita` di Y nelle quattro distribuzioni parziali e nella distribuzione totale. yi 4 8 14 18 Tot. a1 16, 67 33, 33 33, 33 16, 67 100, 00 a2 0, 00 50, 00 50, 00 0, 00 100, 00 a3 37, 50 12, 50 12, 50 37, 50 100, 00 a4 25, 00 25, 00 25, 00 25, 00 100, 00 Tot. 20, 00 30, 00 30, 00 20, 00 100, 00 Il prospetto mostra che al mutare delle modalita` di A le frequenze relative (percentuali) ` le di Y variano. Cio` significa che vi e` una certa dipendenza di Y da A. Nonostante cio, medie parziali di Y non variano. Risultato 2 In altre parole vi puo` essere indipendenza in media di Y da A in presenza di una certa connessione. −−−−−−−−− · · −−−−−−−−− · · −−−−−−−−− Teorema Indipendenza in media ⇒ Indipendenza distributiva Dimostrazione L’ esempio appena illustrato dimostra il teorema. 42 / 74 Esempio - Sia indipendenza in media che indipendenza in distribuzione yi 4 8 12 16 Totale a1 4 3 2 1 10 a2 8 6 4 2 20 a3 12 9 6 3 30 a4 16 12 8 4 40 Totale 40 30 20 10 100 Table: Distribuzione congiunta di N = 100 unita` secondo i caratteri Y ed A. Dalla tabella si ricavano le medie parziali (medie di gruppo) y1 = y2 = y3 = y4 = 1 10 1 20 1 30 1 40 1 80 (16 + 24 + 24 + 16) = =8 10 10 1 160 (4 · 8 + 8 · 6 + 12 · 4 + 16 · 2) = (32 + 48 + 48 + 32) = =8 20 20 1 240 (4 · 12 + 8 · 9 + 12 · 6 + 16 · 3) = (48 + 72 + 72 + 48) = =8 30 30 1 320 (4 · 16 + 8 · 12 + 12 · 8 + 16 · 4) = (64 + 96 + 96 + 64) = =8 40 40 (4 · 4 + 8 · 3 + 12 · 2 + 16 · 1) = e la media totale y= 1 1 800 (4 · 40 + 8 · 30 + 12 · 20 + 16 · 10) = (160 + 240 + 240 + 160) = = 8. 100 100 100 43 / 74 Risultato 1 L’uguaglianza fra le medie parziali e la media totale di Y indicano che il carattere quantitativo Y e` indipendente in media da A. Il prospetto che segue riporta le frequenze relative (percentuali) delle quattro modalita` di Y nelle quattro distribuzioni parziali e nella distribuzione totale. yi 4 8 14 18 Totale a1 40, 00 30, 00 20, 00 10, 00 100, 00 a2 40, 00 30, 00 20, 00 10, 00 100, 00 a3 40, 00 30, 00 20, 00 10, 00 100, 00 a4 40, 00 30, 00 20, 00 10, 00 100, 00 Totale 40, 00 30, 00 20, 00 10, 00 100, 00 Risultato 2 Dal prospetto si desume che al mutare delle modalita` di A le frequenze relative (percentuali) di Y non variano. Cio` significa che fra i due caratteri vi e` indipendenza distributiva. 44 / 74 Teorema - L’indipendenza distributiva implica l’indipendenza in media Quanto riscontrato nei due esempi precedenti trova spiegazione nel seguente teorema Enunciato Indipendenza distributiva ⇒ Indipendenza in media Dimostrazione Bisogna dimostrare che dall’ipotesi di indipendenza distributiva nij = n•j · ni• N , i = 1, 2, . . . , r e j = 1, 2, . . . , c, deriva l’indipendenza in media, ovvero deriva l’uguaglianza y j = y, j = 1, 2, . . . , c. La media parziale y j e` fornita da yj = r 1 X yi · nij . n•j i=1 Per l’ipotesi di indipendenza distributiva nij = yj = n•j · ni• N , consegue che r r r n•j · ni• n•j X 1 X 1 X yi · = yi · ni• = yi · ni• = y. n•j N n•j · N N i=1 i=1 i=1 45 / 74 Il rapporto di correlazione di Karl Pearson Nei casi in cui al mutare delle modalita` di A le medie parziali variano vuol dire che non vi e` indipendenza in media ovvero vi e` una certa dipendenza in media di Y da A. Per misurare il grado della dipendenza in media Karl Pearson (sempre lui) propose il seguente rapporto ηY2 |A = = = Devianza fra le medie D = F Devianza totale DT Devianza fra le medie Devianza nei gruppi + Devianza fra le medie c 2 X y j − y · n•j j=1 c X j=1 ( r ) . c 2 2 X X yi − y j · nij + y j − y · n•j i=1 j=1 Il rapporto di correlazione ηY2 |A , da non confondere con il coefficiente di correlazione che vedremo in seguito, ha la stuttura di un rapporto di composizione ed assume valori nell’intervallo 0 ≤ ηY2 |A ≤ 1. 46 / 74 In particolare: ηY2 |A = 0 se e solo se la devianza fra le medie c 2 X y j − y · n•j e` uguale a j=1 zero. Cio` accade solo se per ogni j si ha y j = y, ovvero il rapporto di correlazione e` nullo solo se vi e` indipendenza in media. ηY2 |A = 1 solo se DF = DT , ovvero se DN = 0. In formula c X ( j=1 r X yi − y j 2 ) · nij =0 i=1 {z | Dj } solo se le singole devianze nei gruppi Dj sono nulle ovvero se per ogni j r 2 X Dj = yi − y j · nij = 0, i=1 ovvero se in ogni distribuzione parziale di Y la variabile assume un solo valore (in tal caso non e` una “variabile”, piuttosto una quantita` deterministica) che e` anche uguale a y j . In altre parole cio` significa che per ogni colonna della tabella a doppia entrata (per ogni aj ) la Y assume un solo valore. Dal punto di vista dei numeri nella tabella a doppia entrata, se vi e` la massima dipendenza in media di Y da A, per ogni colonna la frequenza n•j si concentra in una sola casella. 47 / 74 ANOVA (ad un criterio di classificazione) 1/2 Siano dati c ≥ 2 gruppi in cui il fenomeno di interesse Y e` distribuito normalmente. Si supponga che i gruppi siano caratterizzati da una comune, ma incognita, varianza σ 2 . Si ha quindi: Ygruppo 1 ∼ N µ1 , σ 2 , . . . , Ygruppo j ∼ N µj , σ 2 , . . . , Ygruppo c ∼ N µc , σ 2 . Obiettivo Si vuol verificare l’ipotesi nulla H0 : µ1 = · · · = µj = · · · = µc = µ contro H1 : c X c X µi − µj > 0. i=1 j=1 In altre parole, l’alternativa afferma che vi sono almeno due medie non uguali. Come l’ANOVA persegue tale obiettivo? L’analisi della varianza (ANOVA) utilizza la scomposizione della devianza totale (varianza totale) in devienza fra i gruppi (varianza fra i gruppi) e devianza nei gruppi (varianza nei gruppi). La varianza fra i gruppi viene rapportata alla varianza nei gruppi: quanto piu` e` elevata la varianza fra i gruppi, nei confronti di quella nei gruppi, tanto piu` si mette in discussione la validita` dell’ipotesi H0 . Osservazione Sia sotto H0 che sotto H1 si suppone che le varianze dei c gruppi siano uguali al valore ignoto σ 2 . 48 / 74 ANOVA (ad un criterio di classificazione) 2/2 Per confrontare le ipotesi indicate si estrae da ciascuna popolazione un campione di numerosita` n•j , j = 1, . . . , c. Da ciascun campione si calcolano le medie Y j e le varianze corrette Sj2 , essendo Yj = r 1 X Yi · nij n•j e i=1 Sj2 = r 2 X 1 Yi − Y j · nij , n•j − 1 j = 1, . . . , c. i=1 Per la verifica dell’ipotesi H0 si ricorre alla statistica test V= DF / (c − 1) DN / (n − c) n→∞ ∼ F[(c−1),(n−c)] , dove F[(c−1),(n−c)] denota un distribuzione di Fisher con (c − 1) e (n − c) gradi di ` liberta. Osservazione sulla distribuzione della statistica test Si noti che la distribuzione della statistica test V e` asintotica ed e` calcolata sotto H0 . La regione critica di livello α del test puo` essere cos`ı definita come n o C= V:V>c , dove c = F[(c−1),(n−c);1−α] e` il quantile di ordine 1 − α di una F(c−1),(n−c) . 49 / 74 Esempio - Massima dipendenza in media di Y da A yi 4 8 12 Totale a1 0 0 3 3 a2 0 3 0 3 a3 3 0 0 3 a4 0 1 0 1 Totale 3 4 3 10 Table: Distribuzione bivariata con la massima dipendenza di Y da A. Le medie parziali y j sono pari a: y1 = y2 = y3 = y4 = 12 · 3 + 8 · 0 + 4 · 0 3 12 · 0 + 8 · 3 + 4 · 0 3 12 · 0 + 8 · 0 + 4 · 3 3 12 · 0 + 8 · 1 + 4 · 0 1 = 12 =8 =4 = 8. La media totale e` pari a y= 12 · 3 + 8 · 4 + 4 · 3 36 + 32 + 12 = = 8. 10 10 50 / 74 La devianza fra le medie risulta DF = = La devianza totale (12 − 8)2 · 3 + (8 − 8)2 · 3 + (4 − 8)2 · 3 + (8 − 8)2 · 1 16 · 3 + 0 · 3 + 16 · 3 + 0 · 1 = 96. 3 X (yi − y)2 · ni• , calcolata sulla colonna marginale, risulta i=1 DT = (4 − 8)2 · 3 + (8 − 8)2 · 4 + (12 − 8)2 · 3 = 48 + 0 + 48 = 96 La devianza nei gruppi 4 X 3 X yi − y j 2 · nij e` nulla in quanto per ogni j = 1, 2, 3, 4 si j=1 i=1 ha Dj = 0. Ad esempio D1 = 3 X (yi − y 1 )2 · ni1 = (4 − 12)2 · 0 + (8 − 12)2 · 0 + (12 − 12)2 · 3 = 0. i=1 Pertanto ηY2 |A = 96 = 1. 96 51 / 74 Esempio di riepilogo Nelle applicazioni reali quasi mai si hanno i casi estremi DF = 0 o DN = 0. Salario 12 a 20 20 a 24 24 a 30 30 a 40 40 a 50 50 a 60 60 a 68 Totale Operaio 12 20 8 2 0 0 0 42 Impiegato 0 2 9 5 2 0 0 18 Dirigente 0 0 0 0 1 3 2 6 Totale 12 22 17 7 3 3 2 66 Table: Dipendenti di un’azienda classificati secondo il salario (migliaia di euro all’anno) e la posizione. Quesito Si calcoli il grado di dipendenza in media dei salari (Y ) rispetto alla posizione professionale (A). 52 / 74 Il prospetto che segue e` utile per il calcolo dei salari medi Salari (valori centrali) yi 16 22 27 35 45 55 64 Totale Salario medio Operaio ni1 12 20 8 2 0 0 0 42 yi · ni1 192 440 216 70 0 0 0 918 21, 85 Impiegato ni2 0 2 9 5 2 0 0 18 yi · ni2 0 44 243 175 90 0 0 552 30, 67 Dirigente ni3 0 0 0 0 1 3 2 6 yi · ni3 0 0 0 0 45 165 128 338 56, 33 Totale ni· 12 22 17 7 3 3 2 66 yi · ni· 192 484 459 245 135 165 128 1.808 27, 39 I salari medi variano notevolmente al mutare della posizione professionale. La varianza fra le medie e` fornita da 1 n 1 DF = (21, 85 − 27, 39)2 · 42 + (30, 67 − 27, 39)2 · 18+ σF2 = 66 66 o 1 {1.289, 05 + 193, 65 + 5.024, 14} + (56, 33 − 27, 39)2 · 6 = 66 1 = · 6.507, 84 = 98, 61. 66 La devianza fra le medie DF e` pari a 6.507, 84. Lo scarto quadratico medio e` pari a p σF = 98, 61 = 9, 93. In altre parole i salari medi parziali differiscono (in media quadratica) da quello medio totale di circa 9, 93 migliaia di euro. 53 / 74 Per il calcolo della devianza totale e della devianza nei gruppi si puo` agevolmente impiegare il procedimento indiretto con le formule consuete: Dj = r X yi2 · nij − n•j · y 2j (8) yi2 · ni• − N · y 2 . (9) i=1 e DT = r X i=1 Il prospetto che segue e` utile per il calcolo delle sommatorie previste nelle formule (8) e (9). yi2 256 484 729 1.225 2.025 3.025 4.096 Totale ni1 12 20 8 2 0 0 0 42 Operai yi2 · ni1 3.072 9.680 5.832 2.450 0 0 0 21.034 Impiegati ni2 yi2 · ni2 0 0 2 968 9 6.561 5 6.125 2 4.050 0 0 0 0 18 17.704 Dirigenti ni3 yi2 · ni3 0 0 0 0 0 0 0 0 1 2.025 3 9.075 2 8.192 6 19.292 ni• 12 22 17 7 3 3 2 66 Totale yi2 · ni• 3.072 10.648 12.393 8.575 6.075 9.075 8.192 58.030 Le devianze nei singoli gruppi risultano cos`ı Operai Impiegati Dirigenti : : : D1 = 21.034 − 42 · 21, 852 = 982, 25 D2 = 17.704 − 18 · 30, 672 = 772, 32 D3 = 19.292 − 6 · 56, 332 = 253, 58. 54 / 74 La devianza nei gruppi risulta DN = 982, 25 + 772, 32 + 253, 58 = 2.008, 15. La devianza totale risulta DT = 58.030 − 66 · 27, 392 = 8.516, 00. Ovviamente e` possibile ottenere la devianza fra i gruppi sottraendo la devianza nei gruppi alla devianza totale. Si ottiene cos`ı DF = DT − DN = 8.516, 00 − 2.008, 15 = 6.507, 85. Questo valore “coincide” con quello ricavato in precedenza con la formula DF = c 2 X y j − y · n•j . i=1 Il rapporto di correlazione risulta ηY2 |A = 6.507, 85 DF = = 0, 764. DT 8.516, 00 Interpretazione Il valore dell’indice informa che la variabilita` fra le medie parziali rappresenta il 76, 4% della variabilita` totale dei salari. Cio` e` equivalente ad affermare che la variabilita` interna (variabilita` nei gruppi) rappresenta il 23, 6% della variabilita` totale dei salari dei dipendenti dell’azienda. 55 / 74 Dal punto di vista inferenziale, per avere un’idea se il valore trovato dell’indice sia “statisticamente” sintomo di indipendenza in media o meno del salario rispetto la posizione, possiamo fare ricorso all’ANOVA. Si consideri, a tale scopo, un livello di significativita` α = 0.05. Dai risultati precedenti e` facile ricavare il seguente valore osservato della statistica test: V= DF / (c − 1) 6.507, 85/2 = = 102.0827. DN / (n − c) 2.008, 15/63 Al livello del 5% (α = 0.05), il valore critico c che definisce la regione critica C del test risulta c = F[2,63;0.95] = 3.1428. Essendo V = 102.0827 > c = 3.1428, siamo portati a rifiutare l’ipotesi nulla di indipendenza in media al livello del 5%. p-value del test di indipendenza Si noti che, nell’esempio in esame, tale conclusione e` valida indipendentemente dal livello di significativita` scelto dal momento che il p-value associato al test e` praticamente nullo. 56 / 74 La concordanza Nel caso di due caratteri quantitativi si puo` studiare, come si e` visto in precedenza, la dipendenza di uno di essi dall’altro. Relazione fra voto al diploma X e voto alla laurea Y In questo caso ha senso studiare la dipendenza del voto di laurea Y rispetto al voto del diploma X . Non ha invece senso ritenere che Y abbia influenza su X in quanto X si manifesta alcuni anni prima. Vi possono pero` essere coppie di caratteri per i quali ha senso ritenere sia che vi sia dipendenza di Y da X , sia che vi sia dipendenza di X da Y . Relazione fra eta` degli sposi X ed eta` delle spose Y Se si hanno n matrimoni classificati secondo l’eta` delle spose Y e l’eta` degli sposi X ha senso ritenere che i due caratteri si influenzino vicendevolmente. Nelle situazioni in cui vi e` una reciproca influenza dei due caratteri si afferma che vi e` interdipendenza. Nel caso di interdipendenza fra due caratteri quantitativi e` molto utile lo studio della concordanza (ovvero della discordanza). Un indice di concordanza dovrebbe assumere: valori positivi se i valori elevati di una variabile tendono ad associarsi con i valori elevati dell’altra variabile, ovvero se i valori piccoli di una variabile tendono ad associarsi con i valori piccoli dell’altra; valori negativi se i valori elevati (piccoli) di una variabile tendono ad associarsi con i valori piccoli (elevati) dell’altra. 57 / 74 Per la comprensione della concordanza sono molto utili i grafici delle Figure A e B. Figura A Figura B I grafici si basano innanzi tutto sulla ripartizione del piano in quattro quadranti ottenuti tracciando due parallele agli assi cartesiani passanti per il punto di coordinate x = x e y = y. 58 / 74 Le osservazioni che cadono nel: primo (I) quadrante hanno variazioni concordanti in quanto (xi − x) > 0 e (yi − y) > 0; In altre parole i punti sono tali che: xi > x e yi > y; terzo (III) quadrante hanno variazioni concordanti in quanto (xi − x) < 0 e (yi − y) < 0. In altre parole i punti sono tali che: xi < x e yi < y; secondo (II) quadrante hanno variazioni discordanti in quanto (xi − x) < 0 e (yi − y) > 0. In altre parole i punti sono tali che: xi < x e yi > y; quarto (IV) quadrante hanno variazioni discordanti in quanto (xi − x) > 0 e (yi − y) < 0. In altre parole i punti sono tali che: xi > x e yi < y. Si puo` allora affermare che nella Figura A si ha concordanza in quanto prevalgono i punti situati nel primo e nel terzo quadrante. Nella Figura B si ha invece discordanza in quanto prevalgono i punti situati nel secondo e nel quarto quadrante. Si vuole ora trovare una funzione dei due scarti (xi − x) e (yi − y) che sia: a) positiva per i punti che si trovano nel primo e nel terzo quadrante e negativa per i punti ubicati nel secondo e nel quarto quadrante. b) crescente (in valore assoluto) mano a mano che un punto posto in un quadrante si allontana dal punto di coordinate (x, y). c) simmetrica rispetto alle due variabili. 59 / 74 La covarianza Una funzione che soddisfa tali condizioni e` Zi = (xi − x) (yi − y) , in quanto: a) e` di segno + per i punti del I e del III quadrante ed e` di segno − per i punti del II e del IV quadrante; b) cresce all’aumentare degli scarti (xi − x) e (yi − y); c) e` simmetrica nei due scarti (xi − x) e (yi − y). Zi e` denominata “covariazione”. Per valutare l’ordine di grandezza ed il segno prevalente delle covariazioni se ne puo` fare la loro media aritmetica e si ottiene cos`ı la covarianza Cov (X , Y ) = N 1 X (xi − x) (yi − y ) . N (10) i=1 Con il procedimento indiretto la (10) e` pari a Cov (X , Y ) = N 1 X xi · yi − x · y. N i=1 60 / 74 La covarianza per tabelle a doppia entrata Nel caso di una tabella a doppia entrata si puo` determinare per ciascuna delle r × c caselle la covariazione: i = 1, . . . , r e j = 1, . . . , c. xj − x (yi − y) Per il calcolo della covarianza bisogna ricordarsi che in ogni casella vi e` la frequenza nij per cui la covarianza e` fornita da Cov (X , Y ) = c r 1 XX xj − x (yi − y) · nij . N (11) j=1 i=1 ` immediato verificare che il procedimeto indiretto per il calcolo della (11) fornisce E Cov (X , Y ) = c r 1 XX xj · yi · nij − x · y. N j=1 i=1 61 / 74 La covarianza in (11) puo` anche scriversi come: Cov (X , Y ) = c 1 X y j − y · n•j . xj − x N j=1 (12) Dimostrazione: Cod (X , Y ) = c X r X c r X X xj − x (yi − y) · nij . xj − x (yi − y ) · nij = j=1 i=1 j=1 (13) i=1 Svolgendo l’ultima sommatoria della (13) otteniamo r X (yi − y) · nij = i=1 Ricordando che yj = si ha: r X r X yi · nij − y i=1 r 1 X yi · nij n•j i=1 r X nij . i=1 e r X nij = n•j , i=1 (yi − y) · nij = y j · n•j − y · n•j = yj − y · n•j . i=1 Tenuto conto di questo risultato la (13) diventa Cod (X , Y ) = c X xj − x y j − y · n•j . j=1 Dividendo per N si ha Cov (X , Y ) = c 1 X xj − x y j − y · n•j . N j=1 62 / 74 La covarianza - Proprieta` 1 Enunciato L’indipendenza distributiva implica che: Cov (X , Y ) = 0. Dimostrazione Per ipotesi fra i due caratteri vi e` indipendenza distributiva ovvero nij = cos`ı Cov (X , Y ) ni• · n•j = c r 1 XX (yi − y) xj − x · nij N = c r ni• · n•j 1 XX (yi − y) xj − x · N N = c r X 1 X xj − x · n•j (yi − y) · ni• 2 N N . Si ha j=1 i=1 j=1 i=1 j=1 i=1 Per la prima proprieta` della media aritmetica le due ultime sommatorie sono uguali a zero. Osservazione Non necessariamente se Cov (X , Y ) = 0 vi e` indipendenza distributiva. 63 / 74 La covarianza - Proprieta` 2 Enunciato Se uno dei due caratteri X o Y e` indipendente in media dall’altro, allora Cov (X , Y ) = 0. Dimostrazione Si supponga che Y sia indipendente in media da X . Cio` significa che: y1 = · · · = yj = · · · = yc = y ovvero che (y 1 − y) = · · · = y j − y = · · · = (y c − y) = 0. Consegue, utilizzando la (12), che Cov (X , Y ) = c 0 * 1 X xj − x · y j − y · n•j = 0 N j=1 Osservazione Non necessariamente se Cov (X , Y ) = 0 vi e` indipendenza in media. 64 / 74 Esempio di Cov (X , Y ) = 0 con dipendenza in distribuzione ed in media Tabella bivariata osservata PP PPX Y P 3 5 7 9 Tot. Prospetto per il calcolo di r X c X yi · xj · nij i=1 j=1 2 4 6 8 Tot. 1 1 0 1 3 1 0 1 1 3 1 0 1 1 3 0 2 1 0 3 3 3 3 3 12 PP P Y 3 5 7 9 X PP 2 4 6 8 6 10 0 18 12 0 28 36 18 0 42 54 0 80 56 0 360 c r 1 XX 1 Cov (X , Y ) = · 360 − 5 · 6 = 0. yi · xj · nij − x · y = N j=1 i=1 12 y = x = M1 (Y |X = 2) = y 1 = M1 (X |Y = 3) = x 1 = 1 · (3 · 3 + 5 · 3 + 7 · 3 + 9 · 3) = 6 12 1 · (2 · 3 + 4 · 3 + 6 · 3 + 8 · 3) = 5 12 1 · (3 · 1 + 5 · 1 + 7 · 0 + 9 · 1) = 5, 67 3 1 · (2 · 1 + 4 · 1 + 6 · 1 + 8 · 0) = 4. 3 Le frequenze teoriche di indipendenza distributiva sono tutte pari a: b nij = 3·3 = 0, 75. 12 Le frequenze congiunte reali nij sono pari a 0, a 1 e a 2. Si esclude cos`ı che vi sia indipendenza distributiva. Inoltre, essendo y 1 6= y si esclude che vi sia indipendenza in media di Y da X . Infine, essendo x 1 6= x si esclude che vi sia indipendenza in media di X da Y . 65 / 74 La covarianza - Proprieta` 3 Enunciato Se zi = a + b xi e wi = c + d yi allora Cov (Z , W ) = b · d · Cov (X , Y ) . Dimostrazione ` noto che, per la proprieta` di linearita` della media: E N N 1 X 1 X z= zi = a + b x e w= wi = c + d y. N N i=1 i=1 Pertanto: (zi − z) = (a + b xi ) − (a + b · x) = b · (xi − x) (wi − w) = (c + d yi ) − (c + d · y) = d · (yi − y) Consegue che: (zi − z) (wi − w) = b · d · (xi − x) · (yi − y) . In conclusione Cov (Z , W ) = N N 1 X 1 X (zi − z) · (wi − w) = b · d · (xi − x) · (yi − y) N N i=1 = i=1 N 1 X b·d · (xi − x) · (yi − y) = b · d · Cov (X , Y ) N i=1 66 / 74 La covarianza - Proprieta` 4 - Diseguaglianza di Cauchy-Schwarz Enunciato - Diseguaglianza di Cauchy-Schwarz [Cov (X , Y )]2 ≤ Var (X ) · Var (Y ) . Dimostrazione (da leggere dopo aver letto le “Slides4”) Vedremo in seguito che l’indice di determinazione (indice di bonta` dell’adattamento della retta ai dati) e` anche fornito da Id2 = [Cov (X , Y )]2 . Var (X ) · Var (Y ) Dato che 0 ≤ Id2 ≤ 1, deriva che [Cov (X , Y )]2 ≤1 Var (X ) · Var (Y ) con uguaglianza solo nel caso di perfetta relazione lineare fra Y e X , ovvero solo nel caso che gli n punti giacciono su una retta. L’ultima disuguaglianza si puo` anche riscrivere cos`ı [Cov (X , Y )]2 ≤ Var (X ) · Var (Y ) , con uguaglianza solo nel caso di perfetta relazione lineare. 67 / 74 Coefficiente di correlazione lineare di Bravais-Pearson Dalla diseguaglianza di Cauchy-Schwartz deriva che −σ (X ) σ (Y ) ≤ Cov (X , Y ) ≤ σ (X ) σ (Y ) . In particolare: Cov (X , Y ) = −σ(X )σ(Y ) se fra Y e X vi e` perfetta relazione lineare decrescente; Cov (X , Y ) = σ(X )σ(Y ) se fra Y e X vi e` perfetta relazione lineare crescente. Problemi La covarianza ha comunque i seguenti due problemi: 1 l’unita` di misura della covarianza e` data dal prodotto delle unita` di misura dei due caratteri; 2 il massimo ed il minimo della covarianza dipendono quindi dal prodotto σ (X ) σ (Y ). Tutto cio` impedisce l’immediato utilizzo della covarianza per valutare il grado di concordanza fra due caratteri che, non deve dipendere dalle unita` di misura dei due caratteri e dai valori della variabilita` degli stessi. In altre parole un indice di concordanza deve essere un puro numero che assume valori in un intervallo [−1; +1]. 68 / 74 Si puo` ottenere il risultato dividendo la covarianza per il valore massimo che la stessa puo` raggiungere, cioe` il prodotto σ(X )σ(Y ). Si puo` cos`ı introdurre il coefficiente di correlazione r (X , Y ) dato da r (X , Y ) = Cov (X , Y ) , σ (X ) σ (Y ) (14) che secondo quanto specificato non e` altro che la covarianza “normalizzata”. In effetti dalla (14) deriva che −1 ≤ r (X , Y ) ≤ 1. Inoltre: r (X , Y ) = −1 segnala che vi e` perfetta relazione lineare decrescente fra Y e X ; r (X , Y ) = 1 indica perfetta relazione lineare crescente. Ovviamente gli altri valori di r (X , Y ) si interpretano tenendo presente che il suo segno coincide con quello della covarianza e che r (X , Y ) non e` altro che una covarianza normalizzata. 69 / 74 Coefficiente di correlazione lineare - Interpretazione 2 Un secondo modo per interpretare r (X , Y ) e` quello di “sintesi” di una doppia interpolazione. Si e` precisato che si ha concordanza (discordanza) se vi e` reciproca influenza fra i due caratteri. In questo contesto e` possibile (ha senso) interpolare sia le yi in funzione di xi , sia le xi in funzione di yi . Si hanno cos`ı le due rette (interpolanti) yi = α b0 + α b1 xi e xi = b p0 + b p1 yi . In base al metodo dei minimi quadrati i coefficienti angolari risultano α b1 = Cov (X , Y ) Var (X ) e b p1 = Cov (X , Y ) Var (Y ) Osservazione r (X , Y ), α b1 e b p1 hanno lo stesso segno che poi e` il segno della covarianza. Si puo` rappresentare r (X , Y ) come funzione dei due coefficienti angolari. In effetti q r (X , Y ) = {segno della Cov (X , Y )} · α b1 b p1 = s Cov (X , Y ) Cov (X , Y ) {segno della Cov (X , Y )} · Var (X ) Var (Y ) = {segno della Cov (X , Y )} |Cov (X , Y )| Cov (X , Y ) = . σ(X )σ(Y ) σ(X )σ(Y ) Per questo motivo r (X , Y ) si puo` interpretare anche come indice di interdipendenza lineare. 70 / 74 Coefficiente di correlazione lineare - Interpretazione 3 Vi e` infine la possibilita` di interpretare il quadrato del coefficiente di correlazione come indice della bonta` di adattamento della retta y = b p0 + b p1 x (ovvero della retta x =α b0 + α b1 y). In effetti sul caso della interpolazione della retta a minimi quadrati ybi = α b0 + α b1 xi , l’indice di determinazione Id2 = Devianza Spiegata (dalla retta) Devianza Totale (di Y ) e` uguale al rapporto Cov (X , Y )2 Var (X )Var (Y ) cioe` al quadrato di r (X , Y ). Osservazione Si tenga pero` presente che r 2 (X , Y ) non si puo` interpretare come indice di concordanza perche´ assume solo valori non-negativi. In conclusione, si puo` quindi interpretare r 2 (X , Y ) come indice di determinazione della retta interpolante. 71 / 74 Coefficiente di correlazione lineare - Ulteriori proprieta` 1 · Cov (X , Y ) una trasformazione di scala della σ (X ) σ (Y ) ` covarianza, e` possibile dimostrare agevolmente le seguenti proprieta. Essendo r (X , Y ) = Prima proprieta` L’indipendenza distributiva implica che r (X , Y ) = 0. Dimostrazione Si e` gia` dimostrato che in presenza di indipendenza distributiva Cov (X , Y ) = 0; pertanto anche r (X , Y ) = 0. Seconda proprieta` Se uno dei due caratteri e` indipendente in media dall’altro, allora r (X , Y ) = 0. Dimostrazione Anche in questo caso Cov (X , Y ) = 0 e quindi r (X , Y ) = 0. 72 / 74 Terza proprieta` Il coefficiente di correlazione e` invariante alle trasformazioni lineari delle variabili aventi coefficienti angolari dello stesso segno. Dimostrazione Siano Z = a + bX e W = c + dY . Sappiamo che Cov (Z , W ) = b · d · Cov (X , Y ). Inoltre, σ(Z ) = |b| · σ(X ) e σ(W ) = |d| · σ(Y ). Pertanto r (Z , W ) b · d · Cov (X , Y ) Cov (Z , W ) = σ(Z ) · σ(W ) |b| · σ(X ) · |d| · σ(Y ) b · d Cov (X , Y ) b·d = · r (X , Y ) . |b| · |d| σ(X ) · σ(Y ) |b| · |d| = = ` evidente che E b·d = |b| |d| +1 se b e d hanno lo stesso segno −1 se b e d hanno segno discorde Consegue che se b e d hanno lo stesso segno, allora r (Z , W ) = r (X , Y ). Se b e d hanno segno discorde allora r (Z , W ) = −r (X , Y ). Esempio Siano le altezze in pollici ed Y i pesi in libbre di un gruppo di scolari inglesi. Sia r (X , Y ) = 0, 69. Si trasformino le altezze in centimetri ed i pesi in kg. Si ha cos`ı Z = 2, 54 · X e W = 0, 4536 · Y . In forza della terza proprieta` anche r (Z , W ) = 0, 69. 73 / 74 Test per valutare l’incorrelazione (cor.test()) Per verificare se, in base ai dati campionari, si possa ritenere che fra X e Y vi e` incorrelazione, cioe` per valutare le ipotesi H0 : ρ (X , Y ) = 0 contro H1 : ρ (X , Y ) 6= 0, dove ρ (X , Y ) rappresenta la vera ma ignota correlazione tra X e Y , si puo` usare la statistica test R = r (X , Y ) ∼ tn−2 , ` dove tn−2 denota una distribuzione t con n − 2 gradi di liberta. Osservazione sulla distribuzione della statistica test Si noti che la distribuzione della statistica test R e` asintotica ed e` calcolata sotto H0 . La regione critica di livello α del test puo` essere cos`ı definita come n o C = R : |R| > c , dove c = t(n−2;1− α ) 2 e` il quantile di ordine 1 − α/2 di una tn−2 . 74 / 74
© Copyright 2024 ExpyDoc