9-Relazioni tra caratteri

Dott.ssa Caterina Gurrieri
Le relazioni tra caratteri
Data una tabella a doppia entrata, grande importanza riveste il misurare se
e in che misura le variabili in essa riportata sono in qualche modo legate
tra loro.
Si parla a tal proposito di
Dipendenza
se tra due variabili esiste un rapporto di causa ed
effetto (es. reddito percepito e spesa per il tempo
libero)
Interdipendenza
se tra due variabili non esiste un rapporto di causa
ed effetto, ovvero se non è possibile definire un
antecedente e un conseguente (es. colore degli
occhi e colore dei capelli)
Indipendenza
se si ha assenza di legame tra i due caratteri
Si distingue ancora tra
Misure di correlazione
per studiare i legami tra due variabili
quantitative misurate su scala a intervalli o
su scala a rapporti
Misure di cograduazione
per studiare i legami tra variabili almeno
qualitative ordinali
Misure di associazione
per analizzare le relazioni anche tra
fenomeni espressi su scala nominale
Misurare l’indipendenza
Data una tabella di contingenza, due variabili X e Y si dicono indipendenti
se le modalità di X non influenzano il verificarsi delle modalità di Y, e
viceversa
l’indipendenza statistica è una relazione bidirezionale:
se X è indipendente da Y anche Y è indipendente da X.
In assenza di indipendenza statistica si parla di connessione: le due
variabili X e Y tendono ad influenzarsi reciprocamente e tra di loro esiste
una qualche relazione generica
l’indipendenza statistica e la connessione sono
concetti che si escludono reciprocamente.
Misure di associazione
Le misure di associazione valutano il legame esistente tra due caratteri
attraverso l’analisi congiunta delle frequenze dei caratteri stessi.
Tali misure si basano, inoltre, sulle differenze esistenti tra frequenze
osservate e frequenze teoriche, ovvero le frequenze che si presenterebbero
in situazione di perfetta indipendenza.
Tali differenze sono dette contingenze e la loro somma è sempre nulla.
Indice chi-quadrato di Pearson
Per valutare se e in che misura due variabili X e Y sono tra loro
indipendenti si utilizza il c.d. indice di associazione chi-quadrato (χ2), che
si basa sul confronto tra le frequenze assolute osservate fij (contenute
nella tabella di contingenza) e le frequenze teoriche fij’ che si
osserverebbero in caso di perfetta indipendenza tra X e Y.
In formula si ha che
 2  i  j
cij2
f ij '
Dove
cij sono le differenze (contingenze) tra le frequenze assolute osservate fij e
le frequenze teoriche fij’.
Data una generica tabella a doppia entrata,
Modalità del carattere Y
Modalità del carattere X
1
2
…
j
…
c
1
f11
f12
…
f1j
…
f1c
f 1.
2
f21
f22
…
f2j
…
f2c
f 2.
…
…
…
…
…
…
…
fi1
fi2
…
fij
…
fic
f i.
…
…
…
…
…
…
…
fr1
fr2
…
frj
…
frc
f r.
f.2
…
f.j
…
f.c
f..
…
i
…
r
f.1
Da essa si otterranno le frequenze teoriche di ogni cella, tali che i marginali
di riga e di colonna restino costanti, secondo la formula
f ij ' 
f i  f  j
f 
Tali valori vengono riportati in una tabella, detta di indipendenza. Le
differenze tra le frequenze osservate e quelle teoriche vengono riportate in
una ulteriore tabella, detta delle contingenze.
ATTENZIONE: tabella di contingenza ≠ tabella delle contingenze!
Il χ2 assume
- valore = 0 se i caratteri sono perfettamente indipendenti (dunque le
contingenze sono nulle)
- valore > 0 se i caratteri sono associati (il valore sarà tanto maggiore
quanto più grande sarà la differenza tra le frequenze osservate e quelle
teoriche).
Per stabilire se la connessione tra X e Y è alta o bassa è possibile ricorrere
alla normalizzazione dell’indice. A tal fine è necessario rapportare il valore
di χ2 ottenuto al suo massimo, che è
nmin r  1, c  1
Dove r è il numero delle righe della tabella e c il numero delle colonne
Nella sua forma normalizzata, il χ2 sarà allora espresso come
2
~
 

2
nmin r  1, c  1
ESEMPIO
Ad una società di ricerche è stata commissionata un’indagine per
verificare l’esistenza di una relazione tra la zona di residenza (X) e la
marca di automobile acquistata (Y). Con un’indagine campionaria su 500
individui sono stati rilevati i dati relativi a
- Zona di residenza, distinguendo tra
- centro urbano
- periferia
- area rurale
- Marca di automobile acquistata, distinguendo tra
- General Motors
- Ford
- Chrysler
- marchio europeo
- marchio asiatico
I risultati dell’indagine sono riportati nella seguente tabella
General
motors
Ford
Chrysler
Marchio
europeo
Marchio
asiatico
Centro
urbano
64
40
26
8
62
200
Periferia
53
35
24
6
32
150
Area rurale
53
45
30
6
16
150
170
120
80
20
110
500
SOLUZIONE
Per verificare se esiste una relazione tra le due variabili rilevate occorre in
primo luogo calcolare le frequenze teoriche cij secondo la formula
f ij ' 
f i  f  j
f 
Tali frequenze teoriche sono riportate nella successiva tabella di
indipendenza
Tabella di indipendenza
General motors
Ford
Chrysler
Centro
urbano
=200*170/500=68
=200*120/500=48
=200*80/500=32
Periferia
=150*170/500=51
=150*120/500=36
=150*80/500=24
Area rurale
=150*170/500=51
=150*120/500=36
=150*80/500=24
170
120
80
Marchio europeo
Marchio asiatico
Centro
urbano
=200*20/500=8
=200*110/500=44
200
Periferia
=150*20/500=6
=150*110/500=33
150
Area rurale
=150*20/500=6
=150*110/500=33
150
20
110
500
A questo punto si può creare la tabella delle contingenze, in cui vengono
riportate le differenze tra le frequenze osservate e quelle teoriche
Tabella delle contingenze
General
motors
Ford
Chrysler
Marchio europeo
Marchio
asiatico
Centro
urbano
=64-68=-4
=40-48=-8
=26-32=-6
=8-8=0
=62-44=18
0
Periferia
=53-51=2
=35-36=-1
=24-24=0
=6-6=0
=32-33=-1
0
Area rurale
=53-51=2
=45-36=9
=30-24=6
=6-6=0
=16-33=-17
0
0
0
0
0
0
ATTENZIONE. I totali di riga e di colonna di
una tabella delle contingenze sono sempre
pari a 0
Sostituendo nella formula i valori ottenuti è possibile calcolare il valore di
χ2, che in questo caso è
  i  j
2
cij2
f ij '
 4 2 2 2 2 2  8 2  12 9 2  6 2 0 2 6 2 0 2 0 2 0 2 18 2  12  17 2
 














68 51 51 48
36 36 32 24 24 8
6
6
44
33
33
2
2 
16 4 4 64 1 81 36 36 324 1 289
  





 
68 51 51 48 36 36 32 24 44 33 33
 2  0,235  0,078  0,078  1,333  0,028  2,25  1,125  1,5  7,364  0,030  8,757
Da cui
 2  22,778
Volendo normalizzare l’indice occorre rapportarlo al suo massimo, che si
calcola come
nmin r  1, c  1
Poiché nella colonna sono presenti 3 righe e 5 colonne, il massimo in
questo caso
500  3  1  1000
Il valore dell’indice normalizzato è allora
22,778
2
~
 
 0,022
1000
Tale valore indica che esiste un basso livello di associazione tra Zona di
residenza e Marca dell’auto acquistata.
NB. Si ricorda che essendo normalizzata, quest’ultima
misura assume valori compresi tra 0 e 1.
Principali misure alternative
Poiché il valore massimo del χ2 dipende dalla numerosità della tabella e
dalle dimensioni della stessa, spesso viene trasformato in altre misure.
Contingenza quadratica media, che è indipendente dalla numerosità ma
non dalla forma della tabella. In formula assume la forma
2 
2
f 
Tale indice assume valore 0 in caso di indipendenza. Il suo valore
massimo, invece, è pari a 1 se il numero di righe o di colonne è uguale a
2, altrimenti è maggiore di 1.
Nel caso proposto nell’esercizio precedente esso assumerebbe il valore
22,778
 
 0,045
500
2
Anche in questo caso il valore ottenuto indica che siamo in presenza di
una debole associazione tra Zona di residenza e Marca di auto acquistata.
Per avere un indice normalizzato, e dunque con un valore che vari tra 0 e
1, si può usare il seguente
Indice medio di contingenza V di Cramer, che in formula assume la forma
V
2
f   min( r  1, c  1)
Poiché
2
f 
 2
Allora l’indice V di Cramer può essere scritto anche come
V
2
min( r  1, c  1)
Poiché
2
f 
 2
Allora l’indice V di Cramer può essere scritto anche come
V
2
min( r  1, c  1)
Il valore di tale indice varia tra 0 (massima indipendenza) e 1 (massima
associazione).
Tornando ai dati dell’esempio precedente, si avrà dunque che
V
0,045
 0,15
2
Che indica, ancora una volta, bassa associazione tra i caratteri.
Naturalmente, allo stesso risultato si sarebbe giunti utilizzando la formula
alternativa
V
2
f   min( r  1, c  1)

22,778
 0,022  0,15
500  2
Misure di cograduazione
Qualora si intenda approfondire l’analisi della connessione esistente tra
due variabili qualitative ordinali X e Y, è possibile ricorrere al concetto di
cograduazione. Si parla di cograduazione (o di contrograduazione)
quando i due fenomeni in esame tendono ad associare le rispettive
modalità in modo che a modalità crescenti dell’uno corrispondano
preferibilmente modalità crescenti (o decrescenti) dell’altro (in relazione
alla scala ordinale che le caratterizza). In particolare, si distingue tra
Concordanza
(o relazione diretta)
se a valori elevati di X corrispondono più
frequentemente valori elevati di Y e a
valori bassi di X corrispondono più
frequentemente valori bassi di Y
Discordanza
(o relazione indiretta)
se a valori elevati di X corrispondono più
frequentemente valori bassi di Y e a
valori bassi di X corrispondono più
frequentemente valori alti di Y
Indice di cograduazione rho di Spearman
Si basa sul concetto di rango (posto d’ordine) e fornisce la formula per il
calcolo della cograduazione tra due variabili.
Per definire il rango si ordinano i caratteri in senso non decrescente
(ovvero dal più piccolo al più grande) e si assegna ad ogni unità statistica
il rango, ovvero quel numero che indica la posizione dell’unità all’interno
dell’ordinamento per modalità, facendo attenzione al caso in cui più unità
presentino la stessa modalità.
In questo ultimo caso, il rango sarà definito dalla media delle posizioni dei
soggetti con la stessa modalità.
Una volta assegnati i ranghi è possibile calcolare il coefficiente rho di
Spearman, che in formula assume la forma
n
s  1 6 
 (R
i 1
Xi
 RYi )
2
n  (n 2  1)
dove RXi e RYi sono, rispettivamente, il rango della variabile X e il rango
della variabile Y per il medesimo soggetto i (i=1,2,…,n).
Il coefficiente rho di Spearman assume valori compresi tra –1 e +1
Se ρ = -1
contrograduazione massima: a modalità
crescenti (decrescenti) di X corrispondo modalità
decrescenti (crescenti) di Y e viceversa
Se ρ = +1
cograduazione è massima: a modalità crescenti
(decrescenti) di X corrispondono modalità
crescenti (decrescenti) di Y
Se ρ = 0
X e Y sono indipendenti statisticamente (ma non
vale il viceversa).
ESEMPIO
Nella tabella successiva sono
riportati i dati relativi al
gradimento di un servizio (X) e
al titolo di studio (Y) di 20
individui. Calcolare l’indice rho
di Spearman.
Gradimento
Titolo di studio
1
Basso
Licenza scuola media inf.
2
Medio
Diploma
3
Basso
Diploma
4
Alto
Licenza scuola media inf.
5
Alto
Licenza scuola media inf.
6
Alto
Licenza scuola media inf.
7
Basso
Diploma
8
Basso
Diploma
9
Medio
Licenza scuola media inf.
10
Basso
Licenza scuola media inf.
11
Alto
Diploma
12
Alto
Laurea I livello
13
Medio
Laurea I livello
14
Medio
Diploma
15
Basso
Licenza scuola media inf.
16
Basso
Laurea I livello
17
Medio
Diploma
18
Basso
Laurea I livello
19
Alto
Diploma
20
Alto
Diploma
SOLUZIONE
Per calcolare il valore della rho di Spearman occorre innanzitutto creare
le graduatorie per i due caratteri analizzati e assegnare a ciascuna
modalità un rango. Dopo aver ordinato in ordine non decrescente le
modalità, quindi, si assegneranno prima le posizioni e poi i ranghi.
I risultati sono riportati nelle tabelle successive.
- Gradimento
Gradimento
Ordinamento
numerico
1
Basso
1
3
Basso
2
7
Basso
3
8
Basso
4
10
Basso
5
15
Basso
6
16
Basso
7
18
Basso
8
2
Medio
9
9
Medio
10
13
Medio
11
14
Medio
12
17
Medio
13
4
Alto
14
5
Alto
15
6
Alto
16
11
Alto
17
12
Alto
18
19
Alto
19
20
Alto
20
Rango
= (1+2+3+4+5+6+7+8)/8 = 4,5
= (9+10+11+12+13)/5 = 11
= (14+15+16+17+18+19+20)/7 = 17
-Titolo di studio
Titolo di studio
Ordinamento
numerico
1
Licenza s.m.inf.
1
4
Licenza s.m.inf.
2
5
Licenza s.m.inf.
3
6
Licenza s.m.inf.
4
9
Licenza s.m.inf.
5
10
Licenza s.m.inf.
6
15
Licenza s.m.inf.
7
2
Diploma
8
3
Diploma
9
7
Diploma
10
8
Diploma
11
11
Diploma
12
14
Diploma
13
17
Diploma
14
19
Diploma
15
20
Diploma
16
12
Laurea I livello
17
13
Laurea I livello
18
16
Laurea I livello
19
18
Laurea I livello
20
Rango
= (1+2+3+4+5+6+7)/7 = 4
= (8+9+10+11+12+13+14+15+16)/9 = 12
= (17+18+19+20)/4 = 18,5
A questo punto è possibile
creare una ulteriore tabella
in cui, per ogni unità
statistica, è riportato il rango
in ciascuna delle due
graduatorie. Nell’ultima
colonna sono riportati i
valori di (RX-RY)2, necessari
per il calcolo dell’indice.
RX
RY
(RX-RY)2
1
4,5
4
= (4,5-4)2 = 0,25
2
11
12
=(11-12)2 = 1
3
4,5
12
=(4,5-12)2 = 56,25
4
17
4
=(17-4)2 = 169
5
17
4
=(17-4)2 = 169
6
17
4
=(17-4)2 = 169
7
4,5
12
=(4,5-12)2 = 56,25
8
4,5
12
=(4,5-12)2 = 56,25
9
11
4
=(11-4)2 = 49
10
4,5
4
(4,5-4)2 = 0,25
11
17
12
=(17-12)2 = 25
12
17
18,5
=(17-18,5)2 = 2,25
13
11
18,5
=(11-18,5)2 = 56,25
14
11
12
=(11-12)2 = 1
15
4,5
4
(4,5-4)2 = 0,25
16
4,5 18,5
17
11
18
4,5 18,5
19
17
12
=(17-12)2 = 25
20
17
12
=(17-12)2 = 25
12
Totale
=(4,5-18,5)2 = 196
=(11-12)2 = 1
=(4,5-18,5)2 = 196
1254
E’ adesso possibile calcolare il valore dell’indice rho di Spearman
sostituendo i valori nella formula
n
s  1 6 
s  1 6 
2
(
R

R
)
 Xi Yi
i 1
n  (n 2  1)
1264
1264

1

6

 1  6  0,158  1  0,950  0,05
2
7980
20  (20  1)
Poiché il valore del coefficiente è prossimo allo 0, è possibile affermare
che tra le due variabili esiste una bassa cograduazione.
Misure di correlazione
Nel caso in cui si intenda approfondire l’analisi del legame esistente tra
due variabili quantitative (continue o discrete) X e Y così da cogliere oltre
all’intensità anche l’eventuale natura lineare (proporzionale) del legame, è
possibile ricorrere al concetto di correlazione lineare.
Si dice che X e Y sono correlate positivamente (o negativamente) quando i
due fenomeni in esame tendono ad associare le rispettive modalità in
modo che a modalità crescenti dell’uno corrispondano preferibilmente
modalità proporzionalmente crescenti (o decrescenti) dell’altro.
Covarianza
Un primo modo di misurare il legame tra due variabili quantitative X e Y è
quello di analizzare la covarianza delle stesse variabili, ovvero la media
aritmetica dei prodotti degli scostamenti delle variabili X e Y dalle
rispettive medie. In formula si indica come
n
COV ( X , Y ) 
 (x
i 1
i
  X )( yi   Y )
n
In caso di distribuzione in classi diventa
k
COV ( X , Y ) 
h
 ( x
i 1 j 1
i
  X )( y j  Y )  nij
n
Dove nij indica la frequenza assoluta nella cella ij-esima, con cui va
ponderato il prodotto degli scarti di X e degli scarti di Y.
Il valore massimo che la covarianza può assumere è uguale al prodotto
degli scarti quadratici medi dei due caratteri esaminati. In simboli si avrà
allora che
COV(X,Y) ≤σ(X)*σ(Y)
In generale, la covarianza
- assume valore 0 quando tra i caratteri esaminati non esiste un legame di
tipo lineare (per cui se la covarianza assume valore 0 non esclude altri tipi
di legame)
- assume il massimo in valore assoluto positivo quando i punti sono
quando i punti sono tutti allineati su una retta crescente e negativo
quando i punti sono tutti allineati su una retta decrescente
ATTENZIONE
La covarianza risente dell’unità di misura in cui è espressa, per cui non è
possibile fare confronti tra distribuzioni doppie diverse.
Essa, inoltre, risente anche dell’ordine di grandezza delle variabili, per cui
non permette nemmeno di dire se il variabile tra le variabili stesse è
stretto o meno.
Coefficiente di correlazione lineare di Bravais e Pearson
Il coefficiente di correlazione lineare r misura l’intensità del legame
lineare (interpretabile graficamente da una retta) tra due variabili
quantitative X e Y, ovvero il grado di proporzionalità esistente tra X e Y.
Si calcola come rapporto tra la covarianza tra X e Y e il rapporto degli
scarti quadratici medi. In formula esso è allora
rXY
COV ( X , Y )

 ( X )   (Y )
Il coefficiente di correlazione lineare assume valori compresi tra -1 e +1
in particolare,
r=-1
perfetta correlazione negativa: la relazione tra X e
Y è di assoluta proporzionalità inversa e può
essere perfettamente interpretata da una retta
con pendenza negativa
r=+1
perfetta correlazione positiva: la relazione tra X e
Y è di perfetta proporzionalità diretta e può
essere perfettamente interpretata da una retta
con pendenza positiva
r=0
i due fenomeni sono incorrelati (non esiste
legame lineare tra X e Y)
ATTENZIONE
Il coefficiente di correlazione lineare è fortemente influenzato dai valori
anomali, per cui è opportuno calcolare il suo valore con e senza outliers,
in modo da verificare l’effetto che essi hanno sul risultato finale.
ESEMPIO
Si considerino i caratteri X e Y riportati nella tabella successiva. Si
rappresentino graficamente e si stabilisca se sono linearmente dipendenti.
In caso affermativo si calcoli l’entità di tale dipendenza.
X
Y
3
280
8
430
12
500
14
600
16
800
19
900
24
1200
28
1280
26
1300
33
1350
SVOLGIMENTO
Rappresentiamo i dati relativi ai due caratteri X e Y attraverso un
diagramma a dispersione.
La disposizione dei punti nel grafico già suggerisce l’esistenza di una
relazione di dipendenza lineare tra X ed Y.
Per verificare puntualmente la presenza di dipendenza lineare tra i due
caratteri, calcoliamo la covarianza tra X e Y applicando la formula
n
COV ( X , Y ) 
 (x
i 1
i
  X )( yi   Y )
n
Poiché per il calcolo della covarianza è necessario conoscere il valore
degli scarti dalla media dei valori sia di X che di Y, occorre
preliminarmente calcolare le medie delle due variabili. Si avrà dunque che
n
n
( X ) 
x
i 1
n
i
183

 18,3
10
 (Y ) 
y
i 1
n
i

8640
 864
10
A questo punto abbiamo tutti gli elementi per calcolare i valori necessari
per calcolare la covarianza.
Alla tabella originaria, quindi, si aggiungono tre colonne che riportano,
rispettivamente, gli scostamenti dalla media di X, gli scostamenti dalla
media di Y e i prodotti degli scostamenti.
X
Y
xi-μ
yi-μ
(xi-μ)(yi-μ)
3
280
-15,3
-584
8935,2
8
430
-10,3
-434
4470,2
12
500
-6,3
-364
2293,2
14
600
-4,3
-264
1135,2
16
800
-2,3
-64
147,2
19
900
0,7
36
25,2
24
1200
5,7
336
1915,2
28
1280
9,7
416
4035,2
26
1300
7,7
436
3357,2
33
1350
14,7
486
7144,2
0
0
33458
Sostituendo i valori ottenuti alla formula, si avrà che
n
COV ( X , Y ) 
 (x
i 1
i
  X )( yi  Y )
n

33458
 3345,8
10
Poiché la covarianza di X ed Y è diversa da 0, si deduce che esiste
dipendenza lineare tra le due variabili. Il segno positivo della covarianza
informa anche del fatto che esiste una dipendenza lineare positiva: a
valori crescenti della X sono associati valori crescenti della Y.
Per valutare l’entità di tale dipendenza lineare, tuttavia, è necessario
calcolare il coefficiente di correlazione lineare:
rXY
COV ( X , Y )

 ( X )   (Y )
Per calcolare il valore di r occorre conoscere preliminarmente il valore
della varianza di X e della varianza di Y.
Conoscendo già l’entità degli scarti dalla media di X e di Y, è sufficiente
calcolare i quadrati e rapportarli a n. I risultati dei calcoli sono riportati
nella tabella successiva
X
Y
xi-μ
yi-μ
(xi-μ)2
(yi-μ)2
3
280
-15,3
-584
234,09
341056
8
430
-10,3
-434
106,09
188356
12
500
-6,3
-364
39,69
132496
14
600
-4,3
-264
18,49
69696
16
800
-2,3
-64
5,29
4096
19
900
0,7
36
0,49
1296
24
1200
5,7
336
32,49
112896
28
1280
9,7
416
94,09
173056
26
1300
7,7
436
59,29
190096
33
1350
14,7
486
216,09
236196
0
0
806,1
1449240
In base ai dati della tabella precedente si ottiene che
n
2


x


 i
 (X ) 
i 1
n

806,1
 80,61  8,98
10
n
 (Y ) 
2


y


 i
i 1
n

1449240
 144924  380,69
10
Da cui
rXY
COV ( X , Y )
3345,8
3345,8



 0,98
 ( X )   (Y ) 8,98  380,69 3418,6
Il coefficiente di correlazione lineare ha un valore molto prossimo ad 1,
rivelando una dipendenza lineare molto forte tra i due caratteri.
Il segno positivo del coefficiente di correlazione lineare, inoltre, conferma
che la dipendenza lineare è positiva.
ATTENZIONE
In alcuni casi è necessario ponderare r tenendo conto della diversa
importanza che i vari aspetti ricoprono.
Si parla in tal caso di coefficiente di correlazione lineare ponderata,
definito come covarianza ponderata tra gli scostamenti standardizzati,
con peso ωi delle unità statistiche.
La formula diventa in questo caso
n
rXY 
 z ( x ) z ( y )
i 1
i
i
n

i 1
i
i