La Stampa - Funize.com

Statistica bivariata: il problema della dipendenza
Antonio Punzo
Universita` di Catania, Dipartimento di Economia e Impresa
[email protected]
Orario delle lezioni: Marted`ı, ore 16:00-18:00, Palazzo delle Scienze, Aula 8.
Mercoled`ı, ore 14:00-16:00, Palazzo delle Scienze, Aula 8.
Orario di ricevimento: Venerd`ı ore 11:00-13:00, Palazzo delle Scienze, 3° piano,
Stanza 24.
Testo di riferimento:
Zenga, M. (2007), Lezioni di Statistica Descrittiva, Giappichelli
Editore, Torino
Zenga, M. (1996), Inferenza Statistica, Giappichelli Editore,
Torino
1 / 74
Tabella a doppia entrata
Si effettua la rilevazione contemporanea di due caratteri se si ritiene che fra essi vi
possa essere una “relazione”.
`
Sia A un carattere (qualitativo o quantitativo) con c modalita` (o classi di modalita)
a1 , . . . , aj , . . . , ac e B un carattere (qualitativo o quantitativo) con r modalita` (o classi di
` b1 , . . . , bi , . . . , br . Si puo` allora considerare la seguente tabella a doppia
modalita)
entrata.
HH A
a1
B HH
b1
..
.
bi
..
.
br
Totale
n11
..
.
ni1
..
.
nr 1
n•1
···
aj
···
ac
Totale
···
n1j
..
.
nij
..
.
nrj
n•j
···
n1c
..
.
nic
..
.
nrc
n•c
n1•
..
.
ni•
..
.
nr •
N
···
···
···
···
···
···
nij = n bi , aj indica il numero di unita` statistiche in cui vi e` la contemporanea
presenza di bi e di aj . Per questo motivo nij e` detta frequenza congiunta.
c
X
ni• =
nij fornisce la frequenza assoluta n (bi ) della modalita` bi del carattere B,
j=1
indipendentemente dalle modalita` di A.
r
X
n•j =
nij fornisce la frequenza assoluta n aj della modalita` aj di A
i=1
indipendentemente dalle modalita` di B.
2 / 74
In altre parole in una tabella a doppia entrata sono presenti:
r × c frequenze congiunte nij ;
r frequenze ni• = n (bi ) del carattere B;
c frequenze n•j = n aj del carattere A.
Osservazione
Le frequenze ni• e n•j fanno cioe` riferimento ai due caratteri separatamente
considerati.
Osservazione
Valgono le seguenti relazioni:
c X
r
X
j=1 i=1
nij = N,
c
X
j=1
n•j =
c
X
j=1
n aj = N
e
r
X
i=1
ni• =
r
X
n (bi ) = N.
i=1
`
Le relazioni sopra scritte informano che in una tabella a doppia entrata vi e:
una distribuzione bivariata caratterizzata dalle r × c coppie di modalita` bi , aj
con frequenze congiunte nij ;
una distribuzione univariata (totale), relativa
al carattere A, caratterizzata dalle c
modalita` aj con le frequenze n•j = n aj ;
una distribuzione univariata (totale) relativa alle r modalita` bi di B con le rispettive
frequenze ni• = n (bi ).
3 / 74
Oltre alle tre sopra precisate distribuzioni totali (ciascuna con somma delle frequenze
assolute pari a N) e` possibile individuare, nella tabella a doppia entrata, altre c + r
distribuzioni parziali univariate.
Un gruppo per ogni colonna della tabella a doppia entrata
Il totale N e` diviso fra c frequenze n•1 , . . . , n•j , . . . , n•c . Si possono cioe` individuare c
gruppi, uno per ogni colonna, le cui numerosita` sono appunto i totali di colonna. Con
riferimento alle n•j unita` della colonna j-ma, tale totale “parziale” e` ripartito nelle r
caselle della colonna j-ma secondo le frequenze n1j , . . . , nij , . . . , nrj . Queste frequenze
fanno riferimento alla modalita` aj (tenuta fissa) ed alle modalita` b1 , . . . , bi , . . . , br del
carattere B. Pertanto si ha una distribuzione parziale di B caratterizzata dal fatto che la
modalita` di A e` sempre aj . Questa distribuzione parziale di B si puo` denotare con
bi , nij ; i = 1, 2, . . . , r .
N.B.: Di distribuzioni parziali di questo tipo ve ne sono c, una per ogni colonna.
Un gruppo per ogni riga della tabella a doppia entrata
Analogamente e` possibile dividere il totale N fra le r frequenze marginali
n1• , . . . , ni• , . . . , nr • . Il totale parziale ni• della riga i-ma e` ripartito fra le c caselle della
riga stessa secondo le frequenze ni1 , . . . , nij , . . . , nic . Queste frequenze fanno
riferimento alla modalita` bi (tenuta fissa) ed alle modalita` a1 , . . . , aj , . . . , ac del
carattere A. Pertanto si ha una distribuzione parziale di A caratterizzata dal fatto che la
modalita` di B e` sempre bi . Questa distribuzione parziale si denota con
aj , nij ; j = 1, 2, . . . , c .
N.B.: Di distribuzioni parziali di questo tipo ve ne sono r , una per ogni modalita` bi di B.
4 / 74
Osservazione
Data l’ubicazione tabellare delle frequenze totali di riga (ni• ) e di colonna n•j le
stesse sono anche denominate “frequenze marginali”.
In conclusione in una tabella a doppia entrata sono presenti:
una distribuzione totale bivariata
c + 1 distribuzioni del carattere B:
una distribuzione totale (marginale) di numerosita` N,
c distribuzioni parziali (condizionate) di numerosita` n•1 , . . . , n•j , . . . , n•c ,
r + 1 distribuzioni del carattere A:
una distribuzione totale (marginale) di numerosita` N,
r distribuzioni parziali (condizionate) di numerosita` n1• , . . . , ni• , . . . , nr • .
5 / 74
Frequenze relative nelle distribuzioni di frequenza bivariate
Per ciascuna delle distribuzioni presenti in una tabella a doppia entrata e` possibile
calcolare le corrispettive frequenze relative.
Frequenze relative congiunte
nij
fr bi , aj =
,
N
i = 1, . . . , r
e
j = 1, . . . , c.
(1)
Interpretazione
La (1) indica l’importanza numerica relativa della coppia bi , aj nella popolazione.
Frequenze relative marginali
Per ciascuno dei due caratteri si possono calcolare le frequenze relative marginali:
fr (bi ) =
e
Ovviamente:
ni•
,
N
i = 1, . . . , r
n•j
fr aj =
,
N
r
X
i=1
fr (bi ) = 1
j = 1, . . . , c.
e
c
X
fr aj = 1.
j=1
6 / 74
Frequenze relative condizionate (o parziali)
Per ogni distribuzione parziale (o condizionata) di ciascuno dei due caratteri si
possono, infine, calcolare le corrispettive frequenze relative condizionate.
Considerando cos`ı la distribuzione parziale di B corrispondente alla modalita` aj di A si
puo` calcolare la frequenza relativa di bi che e` fornita da
nij
n bi , aj
=
.
fr bi |aj =
n•j
n aj
La frequenza relativa fr bi |aj indica l’importanza relativa della modalita` bi nell’ambito
della popolazione parziale di numerosita` n aj = n•j . In modo analogo, considerando
la distribuzione parziale di A corrispondente alla modalita` bi di B, si puo` calcolare la
frequenza relativa di aj che e` fornita da
n bi , aj
fr aj |bi =
n (bi )
=
nij
ni•
.
7 / 74
Relazione fra le frequenze relative marginali e condizionate
Proprieta`
La frequenza relativa marginale fr (bi ) e`uguale alla media aritmetica ponderata delle
frequenze relative condizionate fr bi |aj con pesi pari alle numerosita` n•j delle
distribuzioni parziali. In formula:
fr (bi ) =
c
1 X
fr bi |aj · n•j ,
N
i = 1, 2, . . . , r .
j=1
Dimostrazione
La dimostrazione e` immediata.
fr (bi )
=
=
ni1 + · · · + nij + · · · + nic
ni•
=
=
N
N
nij
ni1
n
· n•1 + · · · +
· n•j + · · · + ic · n•c
n•1
n•j
n•c
N
.
nij
ni1
n
= fr (bi |a1 ) , . . . ,
= fr bi |aj , . . . , ic = fr (bi |ac ). Tenuto conto di
n•1
n•j
n•c
queste relazioni, fr (bi ) risulta effettivamente pari a
fr (bi |a1 ) · n•1 + · · · + fr bi |aj · n•j + · · · + fr (bi |ac ) · n•c
fr (bi ) =
.
N
Ma,
8 / 74
Esercizio
`
Si consideri nuovamente la seguente tabella statistica (distribuzione di unita):
Numero
d’ordine (i)
della
famiglia
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Settore di attivita`
economica del
capofamiglia
Titolo di
godimento
dell’abitazione
Titolo di
studio del
capofamiglia
Numero
di figli
Reddito
annuo lordo
(euro)
Eta` del
capofamiglia
(discretizzato)
Industria
Industria
Agricoltura
Industria
Altra Attivita`
Industria
Industria
Industria
Agricoltura
Agricoltura
Industria
Altra Attivita`
Altra Attivita`
Agricoltura
Altra Attivita`
Industria
Industria
Altra Attivita`
Industria
Industria
Affitto
Affitto
Proprieta`
Proprieta`
Proprieta`
Affitto
Altro titolo
Affitto
Proprieta`
Proprieta`
Proprieta`
Affitto
Altro titolo
Affitto
Proprieta`
Proprieta`
Affitto
Affitto
Proprieta`
Proprieta`
Diploma
Laurea
Licenza Media
Diploma
Laurea
Licenza Media
Licenza Media
Diploma
Senza titolo
Licenza Media
Licenza Media
Laurea
Diploma
Laurea
Laurea
Laurea
Laurea
Licenza Elem.
Licenza Media
Diploma
3
2
3
1
0
2
3
4
5
1
1
1
2
2
2
0
1
3
5
0
19841
18830
15971
17361
23426
17220
17540
16980
15340
18270
30733
28760
25320
19221
27320
23420
20280
27531
18330
19750
29
29
26
31
60
30
30
45
69
56
50
55
52
57
65
59
48
59
46
48
9 / 74
Domanda
Costruire le tabelle a doppia entrata delle frequenze assolute e relative della coppia di
` e “numero di figli” e della coppia “eta”
` e “reddito”.
caratteri “settore di attivita”
` e
La tabella a doppia entrata delle frequenze assolute dei caratteri “settore di attivita”
“numero di figli” e` la seguente:
Settore di attivita`
A
I
A.A.
Totale
Figli
0
1
2
3
4
5
Totale
0
1
1
1
0
1
4
2
3
2
2
1
1
11
1
1
2
1
0
0
5
3
5
5
4
1
2
20
`
Analogamente, la tabella a doppia entrata delle frequenze relative e:
Settore di attivita`
A
I
A.A.
Totale
Figli
0
1
2
3
4
5
Totale
0
0.05
0.05
0.05
0
0.05
0.20
0.10
0.15
0.10
0.10
0.05
0.05
0.55
0.05
0.05
0.10
0.05
0
0
0.25
0.15
0.25
0.25
0.20
0.05
0.10
1.00
10 / 74
` e “reddito” e` la
La tabella a doppia entrata delle frequenze assolute dei caratteri “eta”
seguente:
Eta` del capofamiglia
26 − 30
31 − 49
50 − 55
56 − 60
61 − 70
Totale
Reddito
15000 a
17000 a
18500 a
20000 a
26000 a
17000
18500
20000
26000
33000
Totale
1
2
2
0
0
5
1
2
1
1
0
5
0
0
0
1
2
3
0
1
1
2
1
5
1
0
0
0
1
2
56 − 60
61 − 70
3
5
4
4
4
20
`
Infine la tabella a doppia entrata delle frequenze relative e:
Eta` del capofamiglia
26 − 30
31 − 49
50 − 55
Totale
Reddito
15000 a
17000 a
18500 a
20000 a
26000 a
17000
18500
20000
26000
33000
Totale
0.05
0.10
0.10
0
0
0.25
0.05
0.10
0.05
0.05
0
0.25
0
0
0
0.05
0.10
0.15
0
0.05
0.05
0.10
0.05
0.25
0.05
0
0
0
0.05
0.1
0.15
0.25
0.20
0.20
0.20
1
11 / 74
Differenza tra indipendenza distributiva ed indipendenza in media
12 / 74
Indipendenza distributiva (o connessione nulla)
Definizione
Il carattere B e` indipendente in distribuzione dal carattere A se per ogni distribuzione parziale di B
le frequenze relative condizionate sono uguali a quelle della distribuzione totale (di B). In formula,
B e` indipendente in distribuzione da A se per ogni (colonna) j = 1, . . . , c si ha
n bi , aj
nij
ni•
n (bi )
=
=
=
per i = 1, . . . , r ,
(2)
n•j
N
N
n aj
|
{z
}
|
{z
}
frequenza relativa
bi |aj
condizionata fr
frequenza relativa
marginale fr (bi )
cioe´ se le c distribuzioni condizionate del carattere B sono identiche (“simili”) a quella marginale.
Osservazione
Dalla (2) si ricava che l’indipendenza distributiva e` una relazione simmetrica, cioe` se B e`
indipendente da A, allora anche A e` indipendente da B e viceversa. Infatti
n aj
n bi , aj
n aj
n bi , aj
n (bi ) n aj
·
=
·
→
=
,
n (bi )
N
n (bi )
n (bi )
N
n aj
ovvero ricordando il significato dei due ultimi rapporti
fr aj |bi = fr aj ,
per ogni i e per ogni j.
(3)
La (3) indica, appunto, l’indipendenza distributiva di A da B.
13 / 74
Esempio in cui B e` indipendente in distribuzione da A
HH A
a
B HH 1
b1
b2
b3
Totale
5
3
2
10
a2
a3
Totale
10
6
4
20
15
9
6
30
30
18
12
60
Table: Distribuzione bivariata 3 × 3 con indipendenza di B da A.
Si rileva che:
fr (b1 |a1 )
=
fr (b1 |a2 )
=
fr (b1 |a3 )
=
fr (b1 )
=
5
10
10
20
15
30
30
60
= 0, 5
= 0, 5
= 0, 5
= 0, 5.
Si rileva altres`ı che:
fr (b2 |a1 ) = fr (b2 |a2 ) = fr (b2 |a3 ) = fr (b2 )
=
0, 3;
fr (b3 |a1 ) = fr (b3 |a2 ) = fr (b3 |a3 ) = fr (b3 )
=
0, 2.
Interpretazione
L’importanza numerica relativa delle modalita` di B e` la stessa nelle tre distribuzioni
parziali e nella distribuzione totale. Cio` significa che il carattere A non ha nessuna
influenza su come si distribuiscono le unita` statistiche fra le modalita` di B.
14 / 74
` molto utile in alcuni contesti presentare la condizione di indipendenza distributiva nel
E
modo che verra` ora ricavato.
Moltiplicando prima e seconda parte della (2) per n aj si ottiene:
n bi , aj
n (bi )
· n aj
(4)
·
n a
j =
N
n a
j
da cui
n (bi ) · n aj
n bi , aj =
N
j = 1, 2, . . . , c
e i = 1, 2, . . . , r .
(5)
Interpretazione
La (5) informa che in caso di indipendenza distributiva le frequenze congiunte si
possono ottenere dal prodotto delle frequenze marginali diviso per N.
In altre parole, nell’ipotesi di indipendenza distributiva, la conoscenza delle frequenze
marginali e` sufficiente per avere quelle congiunte. Infatti, dividendo prima e seconda
parte della (5) per N si ottiene
n bi , aj
n (bi ) n aj
=
·
.
(6)
N
N
N
| {z } | {z } | {z }
fr (bi )
fr (bi ,aj )
fr (aj )
Interpretazione
La (6) informa che nell’ipotesi di indipendenza distributiva le frequenze relative
congiunte si fattorizzano nel prodotto delle corrispettive frequenze marginali.
15 / 74
Notazione
Per distinguere le frequenze marginali osservate nij da quelle che si dovrebbero avere
nell’ipotesi di indipendenza distributiva, queste ultime verranno indicate con b
nij ,
essendo, per la (5)
ni• · n•j
b
nij =
.
(7)
N
Utilizzando la (7) e` possibile ricavare le frequenze teoriche nell’ipotesi di indipendenza
che possono essere collocate nella cosiddetta tabella delle “frequenze teoriche”:
H
H A a1
B HH
b1
...
bi
..
.
br
Totale
b
n11
..
.
b
ni1
..
.
b
nr 1
b
n•1
···
aj
···
ac
Totale
···
b
n1j
...
b
nij
..
.
b
nrj
b
n•j
···
b
n1c
..
.
b
nic
..
.
b
nrc
b
n•c
b
n1•
..
.
b
ni•
..
.
b
nr •
N
···
···
···
···
···
···
Table: Tabella a doppia entrata delle frequenze teoriche in caso di indipendenza distributiva
16 / 74
` Le frequenze marginali teoriche sono uguali a quelle effettive
Proprieta:
Enunciato
La proprieta` afferma che:
b
ni• = ni• ,
per ogni i = 1, . . . , r
b
n•j = n•j ,
per ogni j = 1, . . . , c.
e che
Dimostrazione
Sappiamo che
b
ni• =
c
X
b
nij .
j=1
Sappiamo anche che per la (5)
b
nij =
ni• · n•j
N
.
Tenuto conto di cio`
b
ni• =
c
X
ni• · n•j
j=1
N
=
c
ni• X
n
·
n•j = i• · N = ni• .
N
N
j=1
In modo analogo si dimostra che b
n•j = n•j .
17 / 74
Massima dipendenza (Connessione massima)
Oltre alla “situazione” di indipendenza distributiva riveste una certa importanza la
“situazione” opposta di massima dipendenza (connessione massima). Il concetto di
massima dipendenza del carattere B dal carattere A viene comunemente inteso nel
senso che se di una unita` statistica e` nota la modalita` di A allora e` univocamente
determinata la sua modalita` di B.
HH A
a
B HH 1
b1
b2
b3
Tot.
0
5
0
5
a2
a3
a4
Tot
3
0
0
3
0
0
4
4
0
2
0
2
3
7
4
14
Table: Massima dipendenza di B da A.
La tabella mostra che partendo da una qualsiasi modalita` di A si ottiene una sola
modalita` di B:
(a1 → b2 )
(a2 → b1 )
(a3 → b3 )
(a4 → b2 ) .
La situazione ora precisata e` quella di massima dipendenza unilaterale di B da A: se si
parte da una modalita` di B non sempre si ottiene una sola modalita` di A:
(b1 → a2 )
(b2 → a1 , a4 )
(b3 → a3 ) .
18 / 74
Si ha la massima dipendenza bilaterale se si ha contemporaneamente la massima
dipendenza unilaterale di B da A e la massima dipendenza unilaterale di A da B.
In altre parole si ha la massima dipendenza bilaterale se essendo nota la modalita` di A
e` univocamente determinata la modalita` di B e viceversa.
HH A
a
B HH 1
b1
b2
b3
b4
Tot.
0
5
0
0
5
a2
a3
a4
Tot
0
0
3
0
3
4
0
0
0
4
0
0
0
2
2
4
5
3
2
14
Table: Massima dipendenza bilaterale.
La tabella mostra che partendo da una qualsiasi modalita` di A si ottiene una sola
modalita` di B e viceversa:
(a1 ↔ b2 )
(a2 ↔ b3 )
(a3 ↔ b1 )
(a4 ↔ b4 ) .
Si puo` cos`ı affermare che si ha la massima dipendenza bilaterale se vi e`
corrispondenza biunivoca fra le modalita` dei due caratteri.
Osservazione pratica
Per avere la massima dipendenza bilaterale bisogna che r = c e che per ogni riga e
per ogni colonna le frequenze siano concentrate in una sola casella.
Nella massima dipendenza solo di B da A in ogni colonna le frequenze sono
concentrate in una sola casella e vi e` almeno una riga con frequenze concentrate in
piu` di una casella.
19 / 74
Indici di dipendenza distributiva (o di connessione)
Contingenze assolute
Lo studio della eventuale “relazione” esistente fra due caratteri, indipendentemente dal
fatto che essi siano qualitativi o quantitativi, puo` essere agevolmente basato sul
confronto fra le frequenze effettive nij e le frequenze teoriche b
nij dell’ipotesi di
indipendenza distributiva. Si hanno cos`ı le contingenze assolute Cij fornite da
Cij = nij − b
nij ,
i = 1, . . . , r
e j = 1, . . . , c.
Osservazione 1
La connessione aumenta mano a mano che aumentano le divergenze fra nij e b
nij .
Se
nij = b
nij e quindi Cij = 0, per ogni casella, allora vi e` indipendenza distributiva o
connessione nulla;
nij − b
nij = Cij 6= 0 per almeno una casella, allora vi e` una certa connessione fra i
due caratteri.
Il “segno” delle contingenze fornisce inoltre utili informazioni; se
Cij > 0 vi e` attrazione tra le modalita` xi e yj ;
Cij < 0 vi e` repulsione tra le modalita` xi e yj .
20 / 74
Osservazione 2
Essendo b
ni• = ni• e b
n•j = n•j risulta che la somma delle contingenze e` uguale a zero
per ogni riga e per ogni colonna.
Contingenze relative
Solitamente il grado di divergenza fra frequenza effettiva nij e frequenza teorica b
nij si
valuta rapportando la contingenza nij − b
nij al valore della frequenza teorica: si hanno
cos`ı le contingenze relative
ρij =
nij − b
nij
,
b
nij
i = 1, . . . , r
e
j = 1, . . . , c,
che non sono altro che delle semplici variazioni relative.
Per avere una “sintesi” della connessione esistente fra i due caratteri si possono
calcolare opportune medie dei moduli delle contingenze relative. L’indice di cui ci
occuperemo nel corso e` quello di Karl Pearson.
21 / 74
L’indice quadratico di dipendenza distributiva
L’ indice (quadratico) di dipendenza distributiva (o di connessione) di Pearson e` dato
da:
v
v
u
!2
u X
r
c X
r
u X
2
u1 c X
Cij
u1
t
M2 (|ρ|) =
ρij · b
·b
nij
nij = t
b
nij
N
N
j=1 i=1
=
j=1 i=1
v
v
2
u X
u X
r C2
r
u1 c X
u1 c X
nij − b
nij
ij
t
t
=
.
b
b
nij
nij
N
N
j=1 i=1
j=1 i=1
Per avere informazioni sul grado di dipendenza distributiva esistente tra i due caratteri
e` opportuno ricorrere ad un indice normalizzato. Un indice che possiede tale
caratteristica viene ottenuto dividendo M2 (|ρ|) per il suo massimo valore assumibile. Il
valore massimo assumibile da M2 (|ρ|) corrisponde al caso di massima dipendenza
distributiva tra i due caratteri e, in tale caso, si dimostra che
p
max {M2 (|ρ|)} = k − 1
con k = min(r , c).
Otteniamo quindi l’indice normalizzato di dipendenza distributiva (o di connessione) di
Cramer:
M2 (|ρ|)
M2 (|ρ|)
C∗ =
= √
.
max {M2 (|ρ|)}
k −1
`
L’indice appena introdotto gode delle seguenti proprieta:
0 ≤ C ∗ ≤ 1;
C ∗ = 0 se e solo se tra i caratteri in considerazione vi e` indipendenza distributiva;
C ∗ = 1 se e solo se tra i caratteri vi e` massima dipendenza distributiva.
22 / 74
Test χ2 di indipendenza
Si consideri ora il problema dal punto di vista non descrittivo ma inferenziale. Si
formulino le ipotesi:
H0 : A⊥B
contro
H1 : A
⊥B.
Per la verifica dell’ipotesi H0 si ricorre alla statistica test
X2 =
r X
c
X
nij − b
nij
b
nij
2
n→∞
∼
χ2(r −1)(c−1)
i=1 j=1
Osservazione sulla distribuzione della statistica test
Si noti che la distribuzione della statistica test X 2 e` asintotica ed e` calcolata sotto H0 .
La regione critica di livello α del test puo` essere cos`ı definita come
n
o
C = X2 : X2 > c
dove
c = χ2[(r −1)(c−1);1−α]
e` il quantile di ordine 1 − α di una χ2(r −1)(c−1) .
23 / 74
Esercizio 1
I dati relativi alla popolazione occupata per grande ripartizione geografica e per settore
di attivita` economica sono riportati nella seguente tabella:
Ripartiz.
Attivita`
Agricoltura (A)
Industria (I)
Altre attivita` (AA)
Totale
Nord (N)
Centro-Sud (CS)
698
4127
5695
10520
1248
2625
6609
10482
Totale
1946
6752
12304
21002
1
Determinare la distribuzione bivariata di frequenze relative;
2
determinare le distribuzioni condizionate di frequenze relative;
3
calcolare le contingenze assolute e fornire la loro interpretazione;
4
calcolare le contingenze relative e fornire la loro interpretazione;
5
valutare il grado di dipendenza distributiva tra i due caratteri mediante un
opportuno indice.
6
valutare, al livello di significativita` del 5%, se si puo` ritenere che vi sia
indipendenza distributiva tra i due caratteri.
24 / 74
Esercizio 1 - quesito 1
Le frequenze congiunte relative sono ricavabili dalle frequenze congiunte attraverso la
relazione:
nij
fij =
per i = 1, 2, 3 e j = 1, 2.
n
Nel nostro caso abbiamo ad esempio che:
fr (A, N) =
n11
698
=
= 0.0332
n
21002
Interpretazione
Il 3.32% della popolazione occupata risiede al nord ed e` impiegata nel settore agricolo.
Procedendo in modo del tutto analogo nel caso di tutte le altre frequenze congiunte
relative si ottiene la seguente tabella:
Ripartiz.
Attivita`
Agricoltura (A)
Industria (I)
Altre attivita` (AA)
Totale
Nord (N)
Centro-Sud (CS)
0.0332
0.1965
0.2712
0.5009
0.0594
0.1250
0.3147
0.4991
Totale
0.0926
0.3215
0.5859
1
25 / 74
Interpretazione delle frequenze congiunte relative
fr (I, N) = 0.1965 indica che il 19.65% della popolazione occupata risiede al nord
ed e` impiegata nel settore industriale;
fr (I, CS) = 0.1250 indica che il 12.5% della popolazione occupata risiede al
centro sud ed e` impiegata nel settore industriale;
fr (AA, N) = 0.2712 indica che il 27.12% della popolazione occupata risiede al
`
nord ed e` impiegata nelle altre attivita;
fr (AA, CS) = 0.3147 indica che il 31.47% della popolazione occupata risiede al
`
centro sud ed e` impiegata nelle altre attivita;
Nell’ultima riga e colonna della tabella precedente sono riportate le frequenze
marginali relative rispettivamente dei caratteri “Ripartizione Geografica” e “Settore di
Attivita` Economica”.
26 / 74
Interpretazione delle frequenze marginali relative
Le frequenze marginali sono state calcolate mediante:
f•j =
n•j
n
j = 1, 2
e
fi• =
ni•
n
i = 1, 2, 3.
Le frequenze marginali relative del carattere “Ripartizione Geografica” forniscono le
seguenti informazioni:
fr (N) = 0.5009 indica che il 50.09% della popolazione occupata risiede al nord.
fr (CS) = 0.4991 indica che il 49.91% della popolazione occupata risiede al
centro sud.
Le frequenze marginali relative del carattere “Settore di Attivita` Economica” forniscono
invece le seguenti informazioni:
fr (A) = 0.0926 indica che il 9.26% della popolazione occupata e` impiegata nel
settore agricolo.
fr (I) = 0.3215 indica che il 32.15% della popolazione occupata e` impiegata nel
settore industriale.
fr (AA) = 0.5859 indica che il 58.59% della popolazione occupata e` impiegata in
`
altre attivita.
27 / 74
Esercizio 1 - quesito 2
Fissiamo innanzitutto l’attenzione sulla distribuzione parziale associata alla modalita` N
del carattere “Ripartizione Geografica”. In tal caso le frequenze relative condizionate
sono date da:
698
n11
=
= 0.0664
fr (A|N) =
n•1
10520
fr (I|N) =
n21
4127
=
= 0.3923
n•1
10520
fr (AA|N) =
n31
5695
=
= 0.5413
n•1
10520
In modo del tutto analogo possono essere ricavate le frequenze relative del carattere
“Settore di Attivita` Economica” condizionate alla modalita` CS del carattere
“Ripartizione Geografica”.
Ripartiz.
Attivita`
Agricoltura (A)
Industria (I)
Altre attivita` (AA)
Nord (N)
Centro-Sud (CS)
0.0664
0.3923
0.5413
1
0.1191
0.2504
0.6305
1
Totale
0.0926
0.3215
0.5859
1
28 / 74
L’ultima colonna della tabella precedente contiene le frequenze relative marginali del
carattere “Settore di Attivita` Economica”.
Interpretazione delle frequenze relative condizionate “di colonna”
Le frequenze relative condizionate del carattere “Settore di Attivita` Economica” danno
le seguenti informazioni:
fr (A|N) = 0.0664 indica che il 6.64% della popolazione occupata residente al
nord e` impiegata nel settore agricolo;
fr (I|N) = 0.3923 indica che il 39.23% della popolazione occupata residente al
nord e` impiegata nel settore industriale;
fr (AA|N) = 0.5413 indica che il 54.13% della popolazione occupata residente al
`
nord e` impiegata in altre attivita;
fr (A|CS) = 0.1191 indica che il 11.91% della popolazione occupata residente al
centro sud e` impiegata nel settore agricolo;
fr (I|CS) = 0.2504 indica che il 25.04% della popolazione occupata residente al
centro sud e` impiegata nel settore industriale;
fr (AA|CS) = 0.6305 indica che il 63.05% della popolazione occupata residente al
`
centro sud e` impiegata in altre attivita.
29 / 74
Per quanto riguarda il calcolo delle frequenze relative condizionate del carattere
“Ripartizione Geografica”, fissiamo innanzitutto l’attenzione sulla distribuzione parziale
associata alla modalita` A del carattere “Settore di attivita` Economica”. In tal caso le
frequenze relative condizionate sono date da:
698
n11
=
= 0.3587
n1•
1946
fr (N|A) =
fr (CS|A) =
n12
1248
=
= 0.6413.
n1•
1946
In modo del tutto analogo possono essere ricavate le frequenze relative del carattere
“Ripartizione Geografica” condizionate alla modalita` I e AA del carattere “Settore di
attivita` Economica”.
Ripartiz.
Attivita`
Agricoltura (A)
Industria (I)
Altre attivita` (AA)
Totale
Nord (N)
Centro-Sud (CS)
0.3587
0.6112
0.4629
0.5009
0.6413
0.3888
0.5371
0.4991
1
1
1
1
30 / 74
L’ultima riga della tabella sopra riportata contiene le frequenze relative marginali del
carattere “Ripartizione Geografica”.
Interpretazione delle frequenze relative condizionate “di riga”
Le frequenze relative condizionate del carattere “Ripartizione geografica” forniscono le
seguenti informazioni:
fr (N|A) = 0.3587 indica che il 35.87% della popolazione occupata impiegata nel
settore agricolo risiede al nord;
fr (CS|A) = 0.6413 indica che il 64.13% della popolazione occupata impiegata nel
settore agricolo risiede al centro sud;
fr (N|I) = 0.6112 indica che il 66.12% della popolazione occupata impiegata nel
settore industriale risiede al nord;
fr (CS|I) = 0.3888 indica che il 38.88% della popolazione occupata impiegata nel
settore industriale risiede al centro sud;
fr (N|AA) = 0.4629 indica che il 46.29% della popolazione occupata impiegata in
altri settori risiede al nord;
fr (CS|AA) = 0.5371 indica che il 53.71% della popolazione occupata impiegata in
altri settori risiede al centro sud.
31 / 74
Esercizio 1 - quesito 3
La tabella delle frequenze osservate nij era:
Ripartiz.
Attivita`
Agricoltura (A)
Industria (I)
Altre attivita` (AA)
Totale
Nord (N)
Centro-Sud (CS)
698
4127
5695
10520
1248
2625
6609
10482
Totale
1946
6752
12304
21002
La tabella delle frequenze teoriche b
nij , in caso di indipendenza distributiva, risulta:
Ripartiz.
Attivita`
Agricoltura (A)
Industria (I)
Altre attivita` (AA)
Totale
Nord (N)
Centro-Sud (CS)
974.7605
3382.1084
6163.1311
10520
971.2395
3369.8916
6140.8689
10482
Totale
1946
6752
12304
21002
Osservazione
Si osservi, come detto in precedenza, che le distribuzioni marginali della tabella delle
frequenze teoriche b
nij coincidono con quelle della tabella delle frequenze effettive nij .
32 / 74
Le contingenze assolute Cij sono per definizione costituite dalla differenza tra la
frequenza effettiva nij e quella teorica nel caso di indipendenza distributiva b
nij :
Cij = nij − b
nij
i = 1, 2, 3
e
j = 1, 2.
Il loro calcolo e` riportato nella seguente tabella:
Ripartiz.
Attivita`
Agricoltura (A)
Industria (I)
Altre attivita` (AA)
Totale
Nord (N)
Centro-Sud (CS)
-276.7605
744.8916
-468.1311
0
276.7605
-744.8916
468.1311
0
Totale
0
0
0
0
Osservazione
Si osservi, come detto in precedenza, che sia i totali di riga che di colonna delle
contingenze assolute sono nulli.
33 / 74
Informazioni desumibili dalle contingenze assolute
C11 = −276.7605: la frequenza congiunta effettiva associata alle modalita` A del
carattere “Settore di Attivita` Economica” e N del carattere “Ripartizione
Geografica”, e` minore rispetto a quella teorica in ipotesi di indipendenza
distributiva. Tra le modalita` A del carattere “Settore di attivita` Economica”, e N del
carattere “Ripartizione Geografica” vi e` repulsione in quanto la frequenza
congiunta che si e` osservata e` inferiore a quella che si sarebbe dovuta osservare
se tra i due caratteri vi fosse stata indipendenza distributiva;
C12 = 276.7605: la frequenza congiunta effettiva associata alle modalita` A del
carattere “Settore di Attivita` Economica” e CS del carattere “Ripartizione
Geografica”, e` maggiore rispetto a quella teorica in ipotesi di indipendenza
distributiva. Tra le modalita` A del carattere “Settore di Attivita` Economica” e CS
del carattere “Ripartizione Geografica” vi e` attrazione in quanto la frequenza
congiunta che si e` osservata e` maggiore di quella che si sarebbe dovuta
osservare se tra i due caratteri vi fosse stata indipendenza distributiva.
34 / 74
Esercizio 1 - quesito 4
Il calcolo delle contingenze relative ρij e` riportato nella seguente tabella:
Ripartiz.
Attivita`
Agricoltura (A)
Industria (I)
Altre attivita` (AA)
Nord (N)
Centro-Sud (CS)
-0.2839
0.2202
-0.0756
0.2839
- 0.2202
0.0756
Informazioni desumibili dalle contingenze relative
ρ11 = −0.2839: la frequenza congiunta effettiva associata alle modalita` A del
carattere “Settore di Attivita` Economica” e N del carattere “Ripartizione
Geografica”, e` inferiore del 28.39% rispetto a quella teorica d’indipendenza
distributiva.
ρ12 = 0.2839: la frequenza congiunta effettiva associata alle modalita` A del
carattere “Settore di Attivita` Economica” e CS del carattere “Ripartizione
Geografica”, supera del 28.39% quella teorica d’indipendenza distributiva.
35 / 74
Esercizio 1 - quesito 5
Nella seguente tabella sono riportati i valori dei rapporti Cij2 /b
nij , utili per il calcolo
dell’indice di dipendenza distributiva di K. Pearson.
Ripartiz.
Attivita`
Agricoltura (A)
Industria (I)
Altre attivita` (AA)
Totale
Nord (N)
Centro-Sud (CS)
78.5797
164.6532
35.6866
278.1958
78.5797
164.6532
35.6866
279.2044
Totale
157.4442
328.7117
71.2443
557.4002
L’indice quadratico di dipendenza distributiva di K.Pearson risulta:
v
u
r
3 X
2 C2
u1 X
557.4002
u
ij
M2 (|ρ|) = t
=
= 0.1629.
b
n
nij
21002
i=1 j=1
Interpretazione del risultato
Il valore appena individuato informa che, in media quadratica, le frequenze effettive nij
differiscono da quelle teoriche b
nij di 0.1629.
36 / 74
Per avere informazioni sul grado di dipendenza distributiva esistente tra i due caratteri,
e` opportuno ricorrere all’indice normalizzato di dipendenza distributiva. Ricordiamo che
r = 3 ed c = 2, da cui si ricava k = min {r , c} = 2. Nel nostro caso abbiamo quindi:
C∗ =
0.1629
M2 (|ρ|)
0.1629
= √
= 0.1629
=
max {M2 (|ρ|)}
1
k −1
Lettura del risultato
L’indice normalizzato di dipendenza distributiva e` pari al 16.29% del suo massimo
valore teorico (che corrisponde al caso di massima dipendenza distributiva).
Si puo` quindi concludere che tra i due caratteri “Settore di Attivita` Economica” e
“Ripartizione geografica” vi e` un basso grado di dipendenza distributiva.
37 / 74
Esercizio 1 - quesito 6
Per avere un’idea se il valore trovato dell’indice sia “statisticamente” sintomo di
indipendenza o meno tra i fenomeni “Settore di Attivita` Economica” e “Ripartizione
geografica”, possiamo fare ricorso al test χ2 di indipendenza.
Dalla tabella ricavata al quesito 5 si e` visto che il valore osservato della statistica test e`
pari a X 2 = 557.4002. Al livello del 5% (α = 0.05), il valore critico c che definisce la
regione critica C del test risulta
c = χ2[2;0.95] = 5.9914.
Essendo X 2 = 557.4002 > c = 5.9914, siamo portati a rifiutare l’ipotesi nulla di
indipendenza al livello del 5%.
p-value del test di indipendenza
Si noti che, nell’esempio in esame, tale conclusione e` valida indipendentemente dal
livello di significativita` scelto dal momento che il p-value associato al test e`
praticamente nullo.
38 / 74
Indipendenza in media
Sia Y un carattere quantitativo che assume i valori y1 , . . . , yi , . . . , yr rispettivamente
con frequenze n1• , . . . , ni• , . . . , nr • . Sia A un carattere qualitativo o quantitativo che
assume i valori (o classi di valori) a1 , . . . , aj , . . . , ac rispettivamente con frequenze
n•1 , . . . , n•j , . . . , n•c . La popolazione totale di N unita` si puo` cos`ı considerare divisa in
c popolazioni parziali (gruppi) – una per ogni modalita` aj di A – di numerosita`
rispettivamente n•1 , . . . , n•j , . . . , n•c .
HH A
Y HH
y1
..
.
yi
..
.
yr
Totale
Gruppo 1
a1
n11
..
.
ni1
..
.
nr 1
n•1
Gruppo j
aj
n1j
..
.
nij
..
.
nrj
n•j
···
···
···
···
···
···
···
···
···
···
Gruppo c
ac
n1c
..
.
nic
..
.
nrc
n•c
Totale
n1•
..
.
ni•
..
.
nr •
N
Per quanto riguarda il carattere Y , per ciascun gruppo si puo` calcolare la media
yj =
r
1 X
yi · nij
n•j
i=1
e la varianza
σj2 =
r
2
1 X
yi − y j · nij .
n•j
i=1
39 / 74
Sempre per quanto riguarda il carattere Y se ne puo` calcolare la media aritmetica
(totale)
r
1 X
y=
yi · ni•
N
i=1
e la varianza (totale)
σ2 =
r
1 X
(yi − y)2 · ni• .
N
i=1
Con lo studio della indipendenza in media si vuol sapere se al mutare delle modalita` di
A la media aritmetica del carattere Y varia o meno.
Definizione
Il carattere (quantitativo) Y e` indipendente in media dal carattere A se:
y 1 = · · · = y j = · · · = y c = y.
40 / 74
Esempio - Indipendenza in media ma non indipendenza in distribuzione
HH A
Y HH
4
8
14
18 Tot. n•j
a1
a2
a3
a4
Tot. (ni• )
2
4
4
2
12
0
4
4
0
8
3
1
1
3
8
3
3
3
3
12
8
12
12
8
40
Table: Distribuzione bivariata secondo un carattere quantitativo Y ed uno qualitativo A.
La media totale e le medie parziali si ottengono agevolmente con il seguente prospetto
yi
4
8
14
18
Tot.
yi · ni1
8
32
56
36
132
yi · ni2
0
32
56
0
88
yi · ni3
12
8
14
54
88
yi · ni4
12
24
42
54
132
yi · ni•
32
96
168
144
440
Dal prospetto si ricavano le seguenti medie per Y :
y1 =
132
= 11
12
y2 =
88
= 11
8
y3 =
88
= 11
8
y4 =
132
= 11
12
e y=
440
= 11.
40
Risultato 1
Le medie parziali sono fra loro uguali e sono, conseguentemente, uguali alla media
totale. Il carattere Y e` quindi indipendente in media dal carattere A.
41 / 74
Nel prospetto che segue sono riportate le frequenze relative (percentuali) delle
modalita` di Y nelle quattro distribuzioni parziali e nella distribuzione totale.
yi
4
8
14
18
Tot.
a1
16, 67
33, 33
33, 33
16, 67
100, 00
a2
0, 00
50, 00
50, 00
0, 00
100, 00
a3
37, 50
12, 50
12, 50
37, 50
100, 00
a4
25, 00
25, 00
25, 00
25, 00
100, 00
Tot.
20, 00
30, 00
30, 00
20, 00
100, 00
Il prospetto mostra che al mutare delle modalita` di A le frequenze relative (percentuali)
` le
di Y variano. Cio` significa che vi e` una certa dipendenza di Y da A. Nonostante cio,
medie parziali di Y non variano.
Risultato 2
In altre parole vi puo` essere indipendenza in media di Y da A in presenza di una certa
connessione.
−−−−−−−−− · · −−−−−−−−− · · −−−−−−−−−
Teorema
Indipendenza in media
⇒ Indipendenza distributiva
Dimostrazione
L’ esempio appena illustrato dimostra il teorema.
42 / 74
Esempio - Sia indipendenza in media che indipendenza in distribuzione
yi
4
8
12
16
Totale
a1
4
3
2
1
10
a2
8
6
4
2
20
a3
12
9
6
3
30
a4
16
12
8
4
40
Totale
40
30
20
10
100
Table: Distribuzione congiunta di N = 100 unita` secondo i caratteri Y ed A.
Dalla tabella si ricavano le medie parziali (medie di gruppo)
y1
=
y2
=
y3
=
y4
=
1
10
1
20
1
30
1
40
1
80
(16 + 24 + 24 + 16) =
=8
10
10
1
160
(4 · 8 + 8 · 6 + 12 · 4 + 16 · 2) =
(32 + 48 + 48 + 32) =
=8
20
20
1
240
(4 · 12 + 8 · 9 + 12 · 6 + 16 · 3) =
(48 + 72 + 72 + 48) =
=8
30
30
1
320
(4 · 16 + 8 · 12 + 12 · 8 + 16 · 4) =
(64 + 96 + 96 + 64) =
=8
40
40
(4 · 4 + 8 · 3 + 12 · 2 + 16 · 1) =
e la media totale
y=
1
1
800
(4 · 40 + 8 · 30 + 12 · 20 + 16 · 10) =
(160 + 240 + 240 + 160) =
= 8.
100
100
100
43 / 74
Risultato 1
L’uguaglianza fra le medie parziali e la media totale di Y indicano che il carattere
quantitativo Y e` indipendente in media da A.
Il prospetto che segue riporta le frequenze relative (percentuali) delle quattro modalita`
di Y nelle quattro distribuzioni parziali e nella distribuzione totale.
yi
4
8
14
18
Totale
a1
40, 00
30, 00
20, 00
10, 00
100, 00
a2
40, 00
30, 00
20, 00
10, 00
100, 00
a3
40, 00
30, 00
20, 00
10, 00
100, 00
a4
40, 00
30, 00
20, 00
10, 00
100, 00
Totale
40, 00
30, 00
20, 00
10, 00
100, 00
Risultato 2
Dal prospetto si desume che al mutare delle modalita` di A le frequenze relative
(percentuali) di Y non variano. Cio` significa che fra i due caratteri vi e` indipendenza
distributiva.
44 / 74
Teorema - L’indipendenza distributiva implica l’indipendenza in media
Quanto riscontrato nei due esempi precedenti trova spiegazione nel seguente teorema
Enunciato
Indipendenza distributiva
⇒
Indipendenza in media
Dimostrazione
Bisogna dimostrare che dall’ipotesi di indipendenza distributiva
nij =
n•j · ni•
N
,
i = 1, 2, . . . , r
e
j = 1, 2, . . . , c,
deriva l’indipendenza in media, ovvero deriva l’uguaglianza
y j = y,
j = 1, 2, . . . , c.
La media parziale y j e` fornita da
yj =
r
1 X
yi · nij .
n•j
i=1
Per l’ipotesi di indipendenza distributiva nij =
yj =
n•j · ni•
N
, consegue che
r
r
r
n•j · ni•
n•j X
1 X
1 X
yi ·
=
yi · ni• =
yi · ni• = y.
n•j
N
n•j · N
N
i=1
i=1
i=1
45 / 74
Il rapporto di correlazione di Karl Pearson
Nei casi in cui al mutare delle modalita` di A le medie parziali variano vuol dire che non
vi e` indipendenza in media ovvero vi e` una certa dipendenza in media di Y da A. Per
misurare il grado della dipendenza in media Karl Pearson (sempre lui) propose il
seguente rapporto
ηY2 |A
=
=
=
Devianza fra le medie
D
= F
Devianza totale
DT
Devianza fra le medie
Devianza nei gruppi + Devianza fra le medie
c 2
X
y j − y · n•j
j=1
c
X
j=1
( r
)
.
c 2
2
X
X
yi − y j · nij +
y j − y · n•j
i=1
j=1
Il rapporto di correlazione ηY2 |A , da non confondere con il coefficiente di correlazione
che vedremo in seguito, ha la stuttura di un rapporto di composizione ed assume valori
nell’intervallo 0 ≤ ηY2 |A ≤ 1.
46 / 74
In particolare:
ηY2 |A = 0 se e solo se la devianza fra le medie
c 2
X
y j − y · n•j e` uguale a
j=1
zero. Cio` accade solo se per ogni j si ha y j = y, ovvero il rapporto di
correlazione e` nullo solo se vi e` indipendenza in media.
ηY2 |A = 1 solo se DF = DT , ovvero se DN = 0. In formula
c
X
(
j=1
r X
yi − y j
2
)
· nij
=0
i=1
{z
|
Dj
}
solo se le singole devianze nei gruppi Dj sono nulle ovvero se per
ogni j
r 2
X
Dj =
yi − y j · nij = 0,
i=1
ovvero se in ogni distribuzione parziale di Y la variabile assume un
solo valore (in tal caso non e` una “variabile”, piuttosto una quantita`
deterministica) che e` anche uguale a y j . In altre parole cio` significa
che per ogni colonna della tabella a doppia entrata (per ogni aj ) la Y
assume un solo valore. Dal punto di vista dei numeri nella tabella a
doppia entrata, se vi e` la massima dipendenza in media di Y da A,
per ogni colonna la frequenza n•j si concentra in una sola casella.
47 / 74
ANOVA (ad un criterio di classificazione) 1/2
Siano dati c ≥ 2 gruppi in cui il fenomeno di interesse Y e` distribuito normalmente. Si
supponga che i gruppi siano caratterizzati da una comune, ma incognita, varianza σ 2 .
Si ha quindi:
Ygruppo 1 ∼ N µ1 , σ 2 , . . . , Ygruppo j ∼ N µj , σ 2 , . . . , Ygruppo c ∼ N µc , σ 2 .
Obiettivo
Si vuol verificare l’ipotesi nulla
H0 : µ1 = · · · = µj = · · · = µc = µ
contro
H1 :
c X
c
X
µi − µj > 0.
i=1 j=1
In altre parole, l’alternativa afferma che vi sono almeno due medie non uguali.
Come l’ANOVA persegue tale obiettivo?
L’analisi della varianza (ANOVA) utilizza la scomposizione della devianza totale
(varianza totale) in devienza fra i gruppi (varianza fra i gruppi) e devianza nei gruppi
(varianza nei gruppi). La varianza fra i gruppi viene rapportata alla varianza nei gruppi:
quanto piu` e` elevata la varianza fra i gruppi, nei confronti di quella nei gruppi, tanto piu`
si mette in discussione la validita` dell’ipotesi H0 .
Osservazione
Sia sotto H0 che sotto H1 si suppone che le varianze dei c gruppi siano uguali al valore
ignoto σ 2 .
48 / 74
ANOVA (ad un criterio di classificazione) 2/2
Per confrontare le ipotesi indicate si estrae da ciascuna popolazione un campione di
numerosita` n•j , j = 1, . . . , c. Da ciascun campione si calcolano le medie Y j e le
varianze corrette Sj2 , essendo
Yj =
r
1 X
Yi · nij
n•j
e
i=1
Sj2 =
r 2
X
1
Yi − Y j · nij ,
n•j − 1
j = 1, . . . , c.
i=1
Per la verifica dell’ipotesi H0 si ricorre alla statistica test
V=
DF / (c − 1)
DN / (n − c)
n→∞
∼
F[(c−1),(n−c)] ,
dove F[(c−1),(n−c)] denota un distribuzione di Fisher con (c − 1) e (n − c) gradi di
`
liberta.
Osservazione sulla distribuzione della statistica test
Si noti che la distribuzione della statistica test V e` asintotica ed e` calcolata sotto H0 .
La regione critica di livello α del test puo` essere cos`ı definita come
n
o
C= V:V>c ,
dove
c = F[(c−1),(n−c);1−α]
e` il quantile di ordine 1 − α di una F(c−1),(n−c) .
49 / 74
Esempio - Massima dipendenza in media di Y da A
yi
4
8
12
Totale
a1
0
0
3
3
a2
0
3
0
3
a3
3
0
0
3
a4
0
1
0
1
Totale
3
4
3
10
Table: Distribuzione bivariata con la massima dipendenza di Y da A.
Le medie parziali y j sono pari a:
y1
=
y2
=
y3
=
y4
=
12 · 3 + 8 · 0 + 4 · 0
3
12 · 0 + 8 · 3 + 4 · 0
3
12 · 0 + 8 · 0 + 4 · 3
3
12 · 0 + 8 · 1 + 4 · 0
1
= 12
=8
=4
= 8.
La media totale e` pari a
y=
12 · 3 + 8 · 4 + 4 · 3
36 + 32 + 12
=
= 8.
10
10
50 / 74
La devianza fra le medie risulta
DF
=
=
La devianza totale
(12 − 8)2 · 3 + (8 − 8)2 · 3 + (4 − 8)2 · 3 + (8 − 8)2 · 1
16 · 3 + 0 · 3 + 16 · 3 + 0 · 1 = 96.
3
X
(yi − y)2 · ni• , calcolata sulla colonna marginale, risulta
i=1
DT = (4 − 8)2 · 3 + (8 − 8)2 · 4 + (12 − 8)2 · 3 = 48 + 0 + 48 = 96
La devianza nei gruppi
4 X
3 X
yi − y j
2
· nij e` nulla in quanto per ogni j = 1, 2, 3, 4 si
j=1 i=1
ha Dj = 0. Ad esempio
D1 =
3
X
(yi − y 1 )2 · ni1 = (4 − 12)2 · 0 + (8 − 12)2 · 0 + (12 − 12)2 · 3 = 0.
i=1
Pertanto
ηY2 |A =
96
= 1.
96
51 / 74
Esempio di riepilogo
Nelle applicazioni reali quasi mai si hanno i casi estremi DF = 0 o DN = 0.
Salario
12 a 20
20 a 24
24 a 30
30 a 40
40 a 50
50 a 60
60 a 68
Totale
Operaio
12
20
8
2
0
0
0
42
Impiegato
0
2
9
5
2
0
0
18
Dirigente
0
0
0
0
1
3
2
6
Totale
12
22
17
7
3
3
2
66
Table: Dipendenti di un’azienda classificati secondo il salario (migliaia di euro all’anno) e la
posizione.
Quesito
Si calcoli il grado di dipendenza in media dei salari (Y ) rispetto alla posizione
professionale (A).
52 / 74
Il prospetto che segue e` utile per il calcolo dei salari medi
Salari
(valori centrali)
yi
16
22
27
35
45
55
64
Totale
Salario medio
Operaio
ni1
12
20
8
2
0
0
0
42
yi · ni1
192
440
216
70
0
0
0
918
21, 85
Impiegato
ni2
0
2
9
5
2
0
0
18
yi · ni2
0
44
243
175
90
0
0
552
30, 67
Dirigente
ni3
0
0
0
0
1
3
2
6
yi · ni3
0
0
0
0
45
165
128
338
56, 33
Totale
ni·
12
22
17
7
3
3
2
66
yi · ni·
192
484
459
245
135
165
128
1.808
27, 39
I salari medi variano notevolmente al mutare della posizione professionale.
La varianza fra le medie e` fornita da
1 n
1
DF =
(21, 85 − 27, 39)2 · 42 + (30, 67 − 27, 39)2 · 18+
σF2 =
66
66
o
1
{1.289, 05 + 193, 65 + 5.024, 14}
+ (56, 33 − 27, 39)2 · 6 =
66
1
=
· 6.507, 84 = 98, 61.
66
La devianza
fra le medie DF e` pari a 6.507, 84. Lo scarto quadratico medio e` pari a
p
σF = 98, 61 = 9, 93. In altre parole i salari medi parziali differiscono (in media
quadratica) da quello medio totale di circa 9, 93 migliaia di euro.
53 / 74
Per il calcolo della devianza totale e della devianza nei gruppi si puo` agevolmente
impiegare il procedimento indiretto con le formule consuete:
Dj =
r
X
yi2 · nij − n•j · y 2j
(8)
yi2 · ni• − N · y 2 .
(9)
i=1
e
DT =
r
X
i=1
Il prospetto che segue e` utile per il calcolo delle sommatorie previste nelle formule (8)
e (9).
yi2
256
484
729
1.225
2.025
3.025
4.096
Totale
ni1
12
20
8
2
0
0
0
42
Operai
yi2 · ni1
3.072
9.680
5.832
2.450
0
0
0
21.034
Impiegati
ni2
yi2 · ni2
0
0
2
968
9
6.561
5
6.125
2
4.050
0
0
0
0
18
17.704
Dirigenti
ni3
yi2 · ni3
0
0
0
0
0
0
0
0
1
2.025
3
9.075
2
8.192
6
19.292
ni•
12
22
17
7
3
3
2
66
Totale
yi2 · ni•
3.072
10.648
12.393
8.575
6.075
9.075
8.192
58.030
Le devianze nei singoli gruppi risultano cos`ı
Operai
Impiegati
Dirigenti
:
:
:
D1 = 21.034 − 42 · 21, 852 = 982, 25
D2 = 17.704 − 18 · 30, 672 = 772, 32
D3 = 19.292 − 6 · 56, 332 = 253, 58.
54 / 74
La devianza nei gruppi risulta
DN = 982, 25 + 772, 32 + 253, 58 = 2.008, 15.
La devianza totale risulta
DT = 58.030 − 66 · 27, 392 = 8.516, 00.
Ovviamente e` possibile ottenere la devianza fra i gruppi sottraendo la devianza nei
gruppi alla devianza totale. Si ottiene cos`ı
DF = DT − DN = 8.516, 00 − 2.008, 15 = 6.507, 85.
Questo valore “coincide” con quello ricavato in precedenza con la formula
DF =
c 2
X
y j − y · n•j .
i=1
Il rapporto di correlazione risulta
ηY2 |A =
6.507, 85
DF
=
= 0, 764.
DT
8.516, 00
Interpretazione
Il valore dell’indice informa che la variabilita` fra le medie parziali rappresenta il 76, 4%
della variabilita` totale dei salari. Cio` e` equivalente ad affermare che la variabilita`
interna (variabilita` nei gruppi) rappresenta il 23, 6% della variabilita` totale dei salari dei
dipendenti dell’azienda.
55 / 74
Dal punto di vista inferenziale, per avere un’idea se il valore trovato dell’indice sia
“statisticamente” sintomo di indipendenza in media o meno del salario rispetto la
posizione, possiamo fare ricorso all’ANOVA. Si consideri, a tale scopo, un livello di
significativita` α = 0.05.
Dai risultati precedenti e` facile ricavare il seguente valore osservato della statistica test:
V=
DF / (c − 1)
6.507, 85/2
=
= 102.0827.
DN / (n − c)
2.008, 15/63
Al livello del 5% (α = 0.05), il valore critico c che definisce la regione critica C del test
risulta
c = F[2,63;0.95] = 3.1428.
Essendo V = 102.0827 > c = 3.1428, siamo portati a rifiutare l’ipotesi nulla di
indipendenza in media al livello del 5%.
p-value del test di indipendenza
Si noti che, nell’esempio in esame, tale conclusione e` valida indipendentemente dal
livello di significativita` scelto dal momento che il p-value associato al test e`
praticamente nullo.
56 / 74
La concordanza
Nel caso di due caratteri quantitativi si puo` studiare, come si e` visto in precedenza, la
dipendenza di uno di essi dall’altro.
Relazione fra voto al diploma X e voto alla laurea Y
In questo caso ha senso studiare la dipendenza del voto di laurea Y rispetto al voto del
diploma X . Non ha invece senso ritenere che Y abbia influenza su X in quanto X si
manifesta alcuni anni prima.
Vi possono pero` essere coppie di caratteri per i quali ha senso ritenere sia che vi sia
dipendenza di Y da X , sia che vi sia dipendenza di X da Y .
Relazione fra eta` degli sposi X ed eta` delle spose Y
Se si hanno n matrimoni classificati secondo l’eta` delle spose Y e l’eta` degli sposi X
ha senso ritenere che i due caratteri si influenzino vicendevolmente.
Nelle situazioni in cui vi e` una reciproca influenza dei due caratteri si afferma che vi e`
interdipendenza. Nel caso di interdipendenza fra due caratteri quantitativi e` molto utile
lo studio della concordanza (ovvero della discordanza).
Un indice di concordanza dovrebbe assumere:
valori positivi se i valori elevati di una variabile tendono ad associarsi con i valori
elevati dell’altra variabile, ovvero se i valori piccoli di una variabile
tendono ad associarsi con i valori piccoli dell’altra;
valori negativi se i valori elevati (piccoli) di una variabile tendono ad associarsi con i
valori piccoli (elevati) dell’altra.
57 / 74
Per la comprensione della concordanza sono molto utili i grafici delle Figure A e B.
Figura A
Figura B
I grafici si basano innanzi tutto sulla ripartizione del piano in quattro quadranti ottenuti
tracciando due parallele agli assi cartesiani passanti per il punto di coordinate x = x e
y = y.
58 / 74
Le osservazioni che cadono nel:
primo (I) quadrante hanno variazioni concordanti in quanto (xi − x) > 0 e
(yi − y) > 0; In altre parole i punti sono tali che: xi > x e yi > y;
terzo (III) quadrante hanno variazioni concordanti in quanto (xi − x) < 0 e
(yi − y) < 0. In altre parole i punti sono tali che: xi < x e yi < y;
secondo (II) quadrante hanno variazioni discordanti in quanto (xi − x) < 0 e
(yi − y) > 0. In altre parole i punti sono tali che: xi < x e yi > y;
quarto (IV) quadrante hanno variazioni discordanti in quanto (xi − x) > 0 e
(yi − y) < 0. In altre parole i punti sono tali che: xi > x e yi < y.
Si puo` allora affermare che nella Figura A si ha concordanza in quanto prevalgono i
punti situati nel primo e nel terzo quadrante. Nella Figura B si ha invece discordanza in
quanto prevalgono i punti situati nel secondo e nel quarto quadrante.
Si vuole ora trovare una funzione dei due scarti (xi − x) e (yi − y) che sia:
a) positiva per i punti che si trovano nel primo e nel terzo quadrante e
negativa per i punti ubicati nel secondo e nel quarto quadrante.
b) crescente (in valore assoluto) mano a mano che un punto posto in un
quadrante si allontana dal punto di coordinate (x, y).
c) simmetrica rispetto alle due variabili.
59 / 74
La covarianza
Una funzione che soddisfa tali condizioni e`
Zi = (xi − x) (yi − y) ,
in quanto:
a) e` di segno + per i punti del I e del III quadrante ed e` di segno − per i punti del II e
del IV quadrante;
b) cresce all’aumentare degli scarti (xi − x) e (yi − y);
c) e` simmetrica nei due scarti (xi − x) e (yi − y).
Zi e` denominata “covariazione”.
Per valutare l’ordine di grandezza ed il segno prevalente delle covariazioni se ne puo`
fare la loro media aritmetica e si ottiene cos`ı la covarianza
Cov (X , Y ) =
N
1 X
(xi − x) (yi − y ) .
N
(10)
i=1
Con il procedimento indiretto la (10) e` pari a
Cov (X , Y ) =
N
1 X
xi · yi − x · y.
N
i=1
60 / 74
La covarianza per tabelle a doppia entrata
Nel caso di una tabella a doppia entrata si puo` determinare per ciascuna delle r × c
caselle la covariazione:
i = 1, . . . , r e j = 1, . . . , c.
xj − x (yi − y)
Per il calcolo della covarianza bisogna ricordarsi che in ogni casella vi e` la frequenza
nij per cui la covarianza e` fornita da
Cov (X , Y ) =
c
r
1 XX
xj − x (yi − y) · nij .
N
(11)
j=1 i=1
` immediato verificare che il procedimeto indiretto per il calcolo della (11) fornisce
E
Cov (X , Y ) =
c
r
1 XX
xj · yi · nij − x · y.
N
j=1 i=1
61 / 74
La covarianza in (11) puo` anche scriversi come:
Cov (X , Y ) =
c
1 X
y j − y · n•j .
xj − x
N j=1
(12)
Dimostrazione:
Cod (X , Y ) =
c X
r
X
c
r
X
X
xj − x
(yi − y) · nij .
xj − x (yi − y ) · nij =
j=1 i=1
j=1
(13)
i=1
Svolgendo l’ultima sommatoria della (13) otteniamo
r
X
(yi − y) · nij =
i=1
Ricordando che
yj =
si ha:
r
X
r
X
yi · nij − y
i=1
r
1 X
yi · nij
n•j i=1
r
X
nij .
i=1
e
r
X
nij = n•j ,
i=1
(yi − y) · nij = y j · n•j − y · n•j =
yj − y
· n•j .
i=1
Tenuto conto di questo risultato la (13) diventa
Cod (X , Y ) =
c
X
xj − x
y j − y · n•j .
j=1
Dividendo per N si ha
Cov (X , Y ) =
c
1 X
xj − x
y j − y · n•j .
N j=1
62 / 74
La covarianza - Proprieta` 1
Enunciato
L’indipendenza distributiva implica che: Cov (X , Y ) = 0.
Dimostrazione
Per ipotesi fra i due caratteri vi e` indipendenza distributiva ovvero nij =
cos`ı
Cov (X , Y )
ni• · n•j
=
c
r
1 XX
(yi − y) xj − x · nij
N
=
c
r
ni• · n•j
1 XX
(yi − y) xj − x ·
N
N
=
c
r
X
1 X
xj − x · n•j
(yi − y) · ni•
2
N
N
. Si ha
j=1 i=1
j=1 i=1
j=1
i=1
Per la prima proprieta` della media aritmetica le due ultime sommatorie sono uguali a
zero.
Osservazione
Non necessariamente se Cov (X , Y ) = 0 vi e` indipendenza distributiva.
63 / 74
La covarianza - Proprieta` 2
Enunciato
Se uno dei due caratteri X o Y e` indipendente in media dall’altro, allora
Cov (X , Y ) = 0.
Dimostrazione
Si supponga che Y sia indipendente in media da X . Cio` significa che:
y1 = · · · = yj = · · · = yc = y
ovvero che
(y 1 − y) = · · · = y j − y = · · · = (y c − y) = 0.
Consegue, utilizzando la (12), che
Cov (X , Y ) =
c
0
*
1 X
xj − x · y
j − y · n•j = 0
N
j=1
Osservazione
Non necessariamente se Cov (X , Y ) = 0 vi e` indipendenza in media.
64 / 74
Esempio di Cov (X , Y ) = 0 con dipendenza in distribuzione ed in media
Tabella bivariata osservata
PP
PPX
Y
P
3
5
7
9
Tot.
Prospetto per il calcolo di
r X
c
X
yi · xj · nij
i=1 j=1
2
4
6
8
Tot.
1
1
0
1
3
1
0
1
1
3
1
0
1
1
3
0
2
1
0
3
3
3
3
3
12
PP
P
Y
3
5
7
9
X
PP
2
4
6
8
6
10
0
18
12
0
28
36
18
0
42
54
0
80
56
0
360
c
r
1 XX
1
Cov (X , Y ) =
· 360 − 5 · 6 = 0.
yi · xj · nij − x · y =
N j=1 i=1
12
y
=
x
=
M1 (Y |X = 2) = y 1
=
M1 (X |Y = 3) = x 1
=
1
· (3 · 3 + 5 · 3 + 7 · 3 + 9 · 3) = 6
12
1
· (2 · 3 + 4 · 3 + 6 · 3 + 8 · 3) = 5
12
1
· (3 · 1 + 5 · 1 + 7 · 0 + 9 · 1) = 5, 67
3
1
· (2 · 1 + 4 · 1 + 6 · 1 + 8 · 0) = 4.
3
Le frequenze teoriche di indipendenza distributiva sono tutte pari a: b
nij =
3·3
= 0, 75.
12
Le frequenze congiunte reali nij sono pari a 0, a 1 e a 2.
Si esclude cos`ı che vi sia indipendenza distributiva. Inoltre, essendo y 1 6= y si esclude che vi sia
indipendenza in media di Y da X . Infine, essendo x 1 6= x si esclude che vi sia indipendenza in
media di X da Y .
65 / 74
La covarianza - Proprieta` 3
Enunciato
Se zi = a + b xi e wi = c + d yi allora
Cov (Z , W ) = b · d · Cov (X , Y ) .
Dimostrazione
` noto che, per la proprieta` di linearita` della media:
E
N
N
1 X
1 X
z=
zi = a + b x
e
w=
wi = c + d y.
N
N
i=1
i=1
Pertanto:
(zi − z)
=
(a + b xi ) − (a + b · x) = b · (xi − x)
(wi − w)
=
(c + d yi ) − (c + d · y) = d · (yi − y)
Consegue che:
(zi − z) (wi − w) = b · d · (xi − x) · (yi − y) .
In conclusione
Cov (Z , W )
=
N
N
1 X
1 X
(zi − z) · (wi − w) =
b · d · (xi − x) · (yi − y)
N
N
i=1
=
i=1
N
1 X
b·d ·
(xi − x) · (yi − y) = b · d · Cov (X , Y )
N
i=1
66 / 74
La covarianza - Proprieta` 4 - Diseguaglianza di Cauchy-Schwarz
Enunciato - Diseguaglianza di Cauchy-Schwarz
[Cov (X , Y )]2 ≤ Var (X ) · Var (Y ) .
Dimostrazione (da leggere dopo aver letto le “Slides4”)
Vedremo in seguito che l’indice di determinazione (indice di bonta` dell’adattamento
della retta ai dati) e` anche fornito da
Id2 =
[Cov (X , Y )]2
.
Var (X ) · Var (Y )
Dato che 0 ≤ Id2 ≤ 1, deriva che
[Cov (X , Y )]2
≤1
Var (X ) · Var (Y )
con uguaglianza solo nel caso di perfetta relazione lineare fra Y e X , ovvero solo nel
caso che gli n punti giacciono su una retta.
L’ultima disuguaglianza si puo` anche riscrivere cos`ı
[Cov (X , Y )]2 ≤ Var (X ) · Var (Y ) ,
con uguaglianza solo nel caso di perfetta relazione lineare.
67 / 74
Coefficiente di correlazione lineare di Bravais-Pearson
Dalla diseguaglianza di Cauchy-Schwartz deriva che
−σ (X ) σ (Y ) ≤ Cov (X , Y ) ≤ σ (X ) σ (Y ) .
In particolare:
Cov (X , Y ) = −σ(X )σ(Y ) se fra Y e X vi e` perfetta relazione lineare decrescente;
Cov (X , Y ) = σ(X )σ(Y ) se fra Y e X vi e` perfetta relazione lineare crescente.
Problemi
La covarianza ha comunque i seguenti due problemi:
1
l’unita` di misura della covarianza e` data dal prodotto delle unita` di misura dei due
caratteri;
2
il massimo ed il minimo della covarianza dipendono quindi dal prodotto
σ (X ) σ (Y ).
Tutto cio` impedisce l’immediato utilizzo della covarianza per valutare il grado di
concordanza fra due caratteri che, non deve dipendere dalle unita` di misura dei due
caratteri e dai valori della variabilita` degli stessi. In altre parole un indice di
concordanza deve essere un puro numero che assume valori in un intervallo [−1; +1].
68 / 74
Si puo` ottenere il risultato dividendo la covarianza per il valore massimo che la stessa
puo` raggiungere, cioe` il prodotto σ(X )σ(Y ). Si puo` cos`ı introdurre il coefficiente di
correlazione r (X , Y ) dato da
r (X , Y ) =
Cov (X , Y )
,
σ (X ) σ (Y )
(14)
che secondo quanto specificato non e` altro che la covarianza “normalizzata”. In effetti
dalla (14) deriva che
−1 ≤ r (X , Y ) ≤ 1.
Inoltre:
r (X , Y ) = −1 segnala che vi e` perfetta relazione lineare decrescente fra Y e X ;
r (X , Y ) = 1 indica perfetta relazione lineare crescente.
Ovviamente gli altri valori di r (X , Y ) si interpretano tenendo presente che il suo segno
coincide con quello della covarianza e che r (X , Y ) non e` altro che una covarianza
normalizzata.
69 / 74
Coefficiente di correlazione lineare - Interpretazione 2
Un secondo modo per interpretare r (X , Y ) e` quello di “sintesi” di una doppia
interpolazione. Si e` precisato che si ha concordanza (discordanza) se vi e` reciproca
influenza fra i due caratteri. In questo contesto e` possibile (ha senso) interpolare sia le
yi in funzione di xi , sia le xi in funzione di yi . Si hanno cos`ı le due rette (interpolanti)
yi = α
b0 + α
b1 xi
e
xi = b
p0 + b
p1 yi .
In base al metodo dei minimi quadrati i coefficienti angolari risultano
α
b1 =
Cov (X , Y )
Var (X )
e
b
p1 =
Cov (X , Y )
Var (Y )
Osservazione
r (X , Y ), α
b1 e b
p1 hanno lo stesso segno che poi e` il segno della covarianza.
Si puo` rappresentare r (X , Y ) come funzione dei due coefficienti angolari. In effetti
q
r (X , Y ) = {segno della Cov (X , Y )} · α
b1 b
p1 =
s
Cov (X , Y ) Cov (X , Y ) {segno della Cov (X , Y )} · Var (X )
Var (Y ) =
{segno della Cov (X , Y )}
|Cov (X , Y )|
Cov (X , Y )
=
.
σ(X )σ(Y )
σ(X )σ(Y )
Per questo motivo r (X , Y ) si puo` interpretare anche come indice di interdipendenza
lineare.
70 / 74
Coefficiente di correlazione lineare - Interpretazione 3
Vi e` infine la possibilita` di interpretare il quadrato del coefficiente di correlazione come
indice della bonta` di adattamento della retta y = b
p0 + b
p1 x (ovvero della retta
x =α
b0 + α
b1 y). In effetti sul caso della interpolazione della retta a minimi quadrati
ybi = α
b0 + α
b1 xi , l’indice di determinazione
Id2 =
Devianza Spiegata (dalla retta)
Devianza Totale (di Y )
e` uguale al rapporto
Cov (X , Y )2
Var (X )Var (Y )
cioe` al quadrato di r (X , Y ).
Osservazione
Si tenga pero` presente che r 2 (X , Y ) non si puo` interpretare come indice di
concordanza perche´ assume solo valori non-negativi.
In conclusione, si puo` quindi interpretare r 2 (X , Y ) come indice di determinazione della
retta interpolante.
71 / 74
Coefficiente di correlazione lineare - Ulteriori proprieta`
1
· Cov (X , Y ) una trasformazione di scala della
σ (X ) σ (Y )
`
covarianza, e` possibile dimostrare agevolmente le seguenti proprieta.
Essendo r (X , Y ) =
Prima proprieta`
L’indipendenza distributiva implica che r (X , Y ) = 0.
Dimostrazione
Si e` gia` dimostrato che in presenza di indipendenza distributiva Cov (X , Y ) = 0;
pertanto anche r (X , Y ) = 0.
Seconda proprieta`
Se uno dei due caratteri e` indipendente in media dall’altro, allora r (X , Y ) = 0.
Dimostrazione
Anche in questo caso Cov (X , Y ) = 0 e quindi r (X , Y ) = 0.
72 / 74
Terza proprieta`
Il coefficiente di correlazione e` invariante alle trasformazioni lineari delle variabili aventi
coefficienti angolari dello stesso segno.
Dimostrazione
Siano Z = a + bX e W = c + dY . Sappiamo che Cov (Z , W ) = b · d · Cov (X , Y ).
Inoltre, σ(Z ) = |b| · σ(X ) e σ(W ) = |d| · σ(Y ). Pertanto
r (Z , W )
b · d · Cov (X , Y )
Cov (Z , W )
=
σ(Z ) · σ(W )
|b| · σ(X ) · |d| · σ(Y )
b · d Cov (X , Y )
b·d
=
· r (X , Y ) .
|b| · |d| σ(X ) · σ(Y )
|b| · |d|
=
=
` evidente che
E
b·d
=
|b| |d|
+1 se b e d hanno lo stesso segno
−1 se b e d hanno segno discorde
Consegue che se b e d hanno lo stesso segno, allora r (Z , W ) = r (X , Y ). Se b e d
hanno segno discorde allora r (Z , W ) = −r (X , Y ).
Esempio
Siano le altezze in pollici ed Y i pesi in libbre di un gruppo di scolari inglesi. Sia
r (X , Y ) = 0, 69. Si trasformino le altezze in centimetri ed i pesi in kg. Si ha cos`ı
Z = 2, 54 · X e W = 0, 4536 · Y . In forza della terza proprieta` anche r (Z , W ) = 0, 69.
73 / 74
Test per valutare l’incorrelazione (cor.test())
Per verificare se, in base ai dati campionari, si possa ritenere che fra X e Y vi e`
incorrelazione, cioe` per valutare le ipotesi
H0 : ρ (X , Y ) = 0
contro
H1 : ρ (X , Y ) 6= 0,
dove ρ (X , Y ) rappresenta la vera ma ignota correlazione tra X e Y , si puo` usare la
statistica test
R = r (X , Y ) ∼ tn−2 ,
`
dove tn−2 denota una distribuzione t con n − 2 gradi di liberta.
Osservazione sulla distribuzione della statistica test
Si noti che la distribuzione della statistica test R e` asintotica ed e` calcolata sotto H0 .
La regione critica di livello α del test puo` essere cos`ı definita come
n
o
C = R : |R| > c ,
dove
c = t(n−2;1− α )
2
e` il quantile di ordine 1 − α/2 di una tn−2 .
74 / 74