Indipendenza statistica Relazioni statistiche Esistenza di un legame reciproco tra i caratteri in esame; I caratteri hanno lo stesso ruolo (simmetrico). Non è possibile stabilire un criterio di antecedenza logica per alcuno dei fenomeni. P ò essere utilizzata Può tili t per ttutti tti i ti tipii di caratteri. tt i L’esistenza dell’indipendenza assoluta comporta l’inesistenza di ogni altro tipo di relazione statistica (dipendenza). Ida Camminatiello Ida Camminatiello Indipendenza assoluta n ij nˆ ij 02/04/2014 Ida Camminatiello 3 n i . n. j N Ida Camminatiello n i . n. j N Frequenze teoriche pp le frequenze q che rappresentano teoricamente dovrebbero occupare le celle in presenza di indipendenza assoluta. b1 a1 a2 b2 b3 ○ □ ◇ 10 △ ✩ ▽ 90 10 20 70 100 10 10 20 10 1 ○ 2□ 100 100 70 10 7◇ 100 10 90 20 90 9 △ 18 ✩ 100 100 70 90 63 ▽ 100 Contingenze Sarà possibile allora associare alla tabella delle frequenze osservate quella costruita con le frequenze teoriche in caso d’indipendenza. E’ di tutta evidenza che se le due tabelle sono uguali esiste indipendenza assoluta. Quando ciò non si verifica occorrerà valutare e misurare la connessione. n ij 20 10 100 2 6 12 20 3 9 18 30 50 5 15 30 50 100 10 30 60 100 1 8 11 20 4 9 10 30 5 13 32 10 30 60 02/04/2014 2 nˆ ij Ida Camminatiello 5 P costruire Per t i un operatore t di connessione i ttra d due variabili prendiamo come modello di riferimento l’assenza di relazione e calcoliamo quanto le frequenze osservate t sii di discostano t d dalle ll ffrequenze tteoriche i h calcolate sulla base dell’ipotesi di completa indipendenza. Definiamo la quantità nij nˆij Cij come la differenza tra il valore osservato e il valore teorico teorico. Tale quantità sarà chiamata contingenza La somma delle contingenze per riga o per colonna è uguale l a 0 e pertanto t t esse non possono essere assunte t come misura della connessione. 02/04/2014 Ida Camminatiello Indici di Connessione Indici di Connessione 6 Indici di Connessione Indici di Connessione Un indice assoluto di connessione è il chi-quadro di Pearson Tutti gli indici che misurano la connessione sono quadratici. Gli indici di connessione producono uno scalare sempre positivo; assumono valore zero in assenza di connessione e maggiore di zero in presenza di connessione tra le due variabili. r c 2 n ij i 1 j 1 nˆij nˆij Cij2 ˆij i 1 j 1 n 2 r c 2 0 2 N * min r 1, c 1 r 1 j 1 ni . n. j c 2 N i 1 nij2 Più le frequenze empiriche si allontanano dalle frequenze più è elevato il g grado di connessione tra le variabili. teoriche p 02/04/2014 Ida Camminatiello 7 02/04/2014 Ida Camminatiello 8 Indici di Connessione Indici di Connessione 2 2 N r c i 1 j 1 nij2 ni.n. j 1 0 2 min r 1, c 1 0 2 1 n Azzurro Marrone Nero Biondo 9 ‐ ‐ 9 Rosso 1 1 ‐ 2 Castano ‐ 6 2 8 Nero ‐ 1 8 9 10 8 10 28 n 2 i 1 j 1 nij2 ni.n. j 1 2 28*1,35 37,8 02/04/2014 Ida Camminatiello 9 02/04/2014 92 1 1 6 2 2 2 1 82 2 1 1,35 90 20 16 64 80 72 90 2 1,35 0,675 2 Ida Camminatiello 10 Scatterplot • Indipendenza correlativa Un primo modo per verificare l’esistenza di una correlazione lineare tra d f l’ d l l due caratteri quantitativi X e Y, e quello di rappresentare la distribuzione doppia (X,Y) attraverso un grafico a dispersione (o scatterplot). Se due caratteri sono entrambi quantitativi è possibile studiare l’esistenza di un legame p g per p cui a variazioni di un carattere corrispondono variazioni dell’altro carattere secondo una relazione lineare. I caratteri hanno lo stesso ruolo (simmetrico). Non è possibile stabilire un criterio di antecedenza logica per alcuno dei fenomeni. 02/04/2014 Ida Camminatiello 12 Codevianza/Covarianza Indipendenza/dipendenza correlativa Una misura assoluta della concordanza/discordanza è la codevianza (covarianza) Codev ( X , Y ) 0 Se Distribuzione doppia per unità r Codev( X , Y ) i 1 r c x y i 1 j 1 i r Codev( X , Y ) i 1 r c x y n i i 1 02/04/2014 j 1 j ij j x M y c i j 1 x x M y c j 1 M y Cov ( X , Y ) nM x M y i j x j Se M y nij Codev ( X , Y ) n Codev ( X , Y ) 0 Indipendenza correlativa concordanza Ai valori più piccoli (grandi) di uno dei due caratteri corrispondono in media i valori più piccoli (grandi) della seconda variabile. Se Codev ( X , Y ) 0 discordanza Ai valori più piccoli (grandi) di uno dei due caratteri corrispondono in media i valori più grandi (piccoli) della seconda variabile. Distribuzione doppia Distribuzione doppia per frequenze La covarianza è una misura simmetrica: C (X Y) C (Y X) Cov(X, Y) = Cov(Y, X). nM x M y 13 02/04/2014 Codevianza/Covarianza Ida Camminatiello 14 Coefficiente di correlazione lineare Se X e Y sono statisticamente indipendenti, implica che: Cov(X, Y) = 0 Una misura relativa della concordanza è data dal coefficiente di U i l i d ll d èd d l ffi i di correlazione r Non vale il viceversa: se la Cov(X, Y) = 0, questo non implica che X e Y siano indipendenti. La covarianza si può annulla anche se i prodotti degli scostamenti dalla media si compensano. Data la seguente distribuzione: r X -2 -1 0 1 2 Y 4 1 0 1 4 Ida Camminatiello 1 r 1 Il coefficiente r è un numero puro, che varia tra –1 a 1 ed ha il segno algebrico della codevianza. Si ha: x = 0, y = 2 e Cov(X, Y) = 14 (-8-1+1+8)-02 = 0 Vi è indipendenza correlativa, ma non vi è indipendenza statistica in quanto l due le d variabili i bili sono legate l dalla d ll relazione l i funzionale: f i l y = x2. 02/04/2014 codev( X , Y ) dev( X ) * dev(Y ) 15 02/04/2014 Ida Camminatiello 16 Coefficiente di correlazione lineare Se r =-1 Se -1 < r <0 Coefficiente di correlazione lineare r = 0 l’indipendenza statistica ll’indipendenza indipendenza statistica r statistica r = 0 0 Il coefficiente di correlazione nullo non implica l’i di l’indipendenza statistica, ma solo d i i l l’indipendenza lineare. vi è perfetta relazione lineare tra X e Y e vi è discordanza. vi è discordanza. non vi è relazione lineare tra X e Y, le variabili sono incorrelate, non vi è né concordanza, né discordanza. Se r = 0 Se 0 < r <1 vi è concordanza. Se r = 1 vi è perfetta relazione lineare tra X e Y e vi è concordanza. 02/04/2014 Ida Camminatiello 17 02/04/2014 Ida Camminatiello Esempio Automobili 1 2 3 4 5 6 7 8 Distanza percorsa (km) X 60 156 148 168 180 300 235 195 18 Esempio x 60 156 148 168 180 300 235 195 1442 Tempo di consegna (in giorni) Y 20 24 32 28 43 27 45 38 y 20 24 32 28 43 27 45 38 257 x2 3600 24336 21904 28224 32400 90000 55225 38025 293714 y2 400 576 1024 784 1849 729 2025 1444 8831 xy 1200 3744 4736 4704 7740 8100 10575 7410 48209 Il coefficiente di correlazione è: Le due medie sono: 02/04/2014 x = 180,25 e y = 32,125, quindi: Ida Camminatiello r= 19 02/04/2014 48209 8(180, 25)(32,125) ( 293714 8 32490,06)(8831 8 1032,016) Ida Camminatiello = 0,43. 20 Rapporto pp di correlazione: eta q quadro Indip penden nza in media a Data una matrice a doppia entrata è possibile calcolare le pp p medie parziali ognuna delle distribuzioni parziali Indipendenza in media Si supponga di aver una distribuzione doppia di una variabile Y quantitativa e di una variabile X che può essere sia quantitativa che qualitativa e di p q q voler misurare quanto Y dipenda in media da X. Y è indipendente in media da X se ogni Y è indipendente in media da X se ogni distribuzione parziale della Y ha la stessa media aritmetica 22 Rapporto di Correlazione Esiste indipendenza in media di una variabile Y dalla Esiste indipendenza in media di una variabile Y dalla variabile X se le medie parziali sono tutte uguali tra loro al variare delle modalità dell’altra variabile y1 y 2 yi y r Poichè Abbiamo 02/04/2014 y y1 y2 yi yr Ida Camminatiello 2 YX y y 23 y ni. 2 i j Ind dipend denza in med dia Indiipende enza in n media Rapporto di Correlazione y n. j 2 Dev( B) Dev(W ) 1 Dev(Y ) Dev(Y ) 2 0 YX 1 Se entrambe le variabili X e Y sono quantitative, è possibile calcolare possibile calcolare 2 x j x n. j 2 XY 2 xi x ni. 02/04/2014 2 2 YX XY Ida Camminatiello 24 Esempio ...continua Si consideri la distribuzione doppia del reddito Y e del titolo di studio X di 50 impiegati di una azienda. yi 23 5 23,5 31,3 16,1 ( ) Reddito (milioni) Titolo di studio 10 - 16 17 - 25 26 - 36 37 - 49 Totale Diploma 4 6 5 1 16 Laurea 0 2 8 2 12 Al Altro 16 4 2 0 22 Totale 20 12 15 3 50 yi 13 21 31 43 Le medie parziali sono: 13 4 21 6 31 5 43 1 = 23,5 16 13 0 21 2 31 8 43 2 y2 = = 31,3 12 13 16 21 4 31 2 43 0 y3 = = 16,1. 22 y1 = = 2 YX La media generale è: 13 20 21 12 31 15 43 3 y= = 22,12. 22 12 50 02/04/2014 Ida Camminatiello 25 Indipendenza È possibile stabilire la seguente gerarchia tra i tre concetti di indipendenza: Indipendenza statistica Indipendenza in media Indipendenza correlativa Indipendenza in media Indipendenza statistica Non vale il viceversa Indipendenza correlativa 02/04/2014 Ida Camminatiello 27 ni 16 12 22 nj 20 12 15 3 ( y i - y )2 ni 30 4704 30,4704 1011,269 797,2888 1839 028 1839,028 (yi - y )2 nj 1663 488 1663,488 15,0528 1182,816 1307 923 1307,923 4169,28 1839,028 = 0,44 4169,28 02/04/2014 Ida Camminatiello 26
© Copyright 2024 ExpyDoc