Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1
13-Il t-test per campioni indipendenti
vers. 1.1 (12 novembre 2014)
Germano Rossi1
[email protected]
1 Dipartimento
di Psicologia, Università di Milano-Bicocca
2014-2015
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
1 / 21
Confronti indipendenti, non correlati
In questa versione del t-test abbiamo una variabile misurata su un
campione di casi statistici (variabile dipendente)
È stata anche misurata una variabile che permette di suddividere
il campione in due gruppi (variabile indipendente)
I due gruppi che ne risultano sono fra loro indipendenti e non c’è
ragione di pensare che le misurazioni del primo gruppo correlino
con quelle del secondo gruppo (che implicherebbe che il primo
valore del primo gruppo viene confrontato con il primo valore del
secondo gruppo)
Inoltre la numerosità dei due gruppi potrebbe anche essere
diversa
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
2 / 21
Assunzioni e ipotesi
Assunzione di base è che la variabile indipendente influenzi in
modo diverso la variabile dipendente
per questo motivo ci si aspetta che le medie dei due gruppi siano
fra loro diverse
L’ipotesi nulla però sarà: non vi è alcuna influenza (relazione) fra
l’indipendente e la dipendente
possiamo esprimerla come “i casi statistici del primo gruppo sono
stati estratti casualmente dalla stessa popolazione da cui sono
stati estratti casualmente quelli del secondo gruppo”
per cui le medie dei due gruppi “dovrebbero” essere uguali, ma
potranno differire per effetto del caso
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
3 / 21
Differenza di due medie
Con lo stesso ragionamento della distribuzione campionaria, si può fare
la distribuzione campionaria della differenza di due medie.
Se 2 campioni vengono estratti dalla stessa popolazione, la loro media
dovrebbe tendere alla media della popolazione, qualunque essa sia.
Se facciamo la differenza fra le due medie (ed entrambe tendono alla
media della popolazione), la loro differenza dovrebbe tendere ad essere
uguale a 0 (µ1 − µ2 = 0). Dovrebbe, ma non sempre è così.
Tuttavia se estraiamo molte coppie di medie, la distribuzione della
differenza di queste medie graviterà attorno allo 0.
La stessa cosa dovrebbe capitare se i due campioni vengono da due
popolazioni diverse che hanno, però, la stessa media (µ1 = µ2 )
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
4 / 21
Differenza di due medie
−1.0
0.0
1.0
100 differenze di medie campionarie
●
●
●
●●
●●●
●●●
●
●●
●●
●● ● ●●●
●
●●●●
●● ● ● ●
●●
●●●●● ● ● ●●●
●● ● ●●●●●●
●
●
●
●
●●●●●●
● ●
● ●●●●● ●
●●●●
●● ●●●● ● ● ●
●
●●●● ●●
●
●●
●
● ●
●
●
0
20
40
60
80
100
Media= 0.03
0.0
1.0
2.0
Distribuzione delle differenze delle medie
−1.0
−0.5
G. Rossi (Dip. Psicologia)
0.0
0.5
ElemPsico
1.0
2014-2015
5 / 21
Differenza di due medie
Anche in questo caso abbiamo che la distribuzione campionaria
della differenza delle medie seguirà la curva di t per N ≥ 30
tenderà a distribuirsi normalmente
e anche in questo caso potremo calcolare un errore standard
della differenza delle medie
e anche in questo caso, un valore piccolo dell’errore standard
indica una piccola oscillazione delle differenze campionarie
attorno allo 0
e un valore grande indica una grossa oscillazione attorno allo 0
Anche in questo caso, se potessimo estrarre un numero infinito di
coppie di campioni, potremmo calcolare l’errore standard esatto
Non potendo farlo, lo stimiamo a partire dalle deviazioni standard
dei due campioni
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
6 / 21
Differenza di due medie
l’errore standard di un campione è
sP
(X − X)2
N −1
√
sbx =
N
l’errore standard della differenza delle medie è la somma delle
varianze dei campioni pesata per le relative numerosità (con gradi di
libertà) è poi ulteriormente divisa per la somma degli N
vP
P
u
u (X1 − X1 )2
(X2 − X2 )2 u
+
t
1
1
N1
N2
+
N1 + N2 − 2
N1
N2
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
7 / 21
Differenza di due medie: test
Il test sulla differenza delle medie si baserà sulla formula di z, ma
produrrà una statistica t
t=
(X 1 − X 2 ) − (µ1 − µ2 )
sX 1 −X 2
Anche se è teoricamente possibile ipotizzare che la differenza di due
medie corrisponda ad un certo valore (ad es. 5), la maggior parte delle
volte si ipotizzerà che la differenza delle medie sia nulla; in questo caso
µ1 − µ2 = 0 e la formula si riduce alla sola differenze delle medie dei
campioni
t esprime il numero di errori standard da cui la differenza delle medie
dei nostri campioni dista dalla differenza delle medie nella popolazione
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
8 / 21
Test della differenza delle medie
Conosciamo: M1 , M2 , s1 e s2 allora:
H0 : µ1 = µ2
H1 : µ1 6= µ2 (oppure > oppure <)
scegliamo α e troviamo il t critico
applichiamo la formula (questa è alternativa)
tM1 −M2 = r
M1 − M2
2
(N1 −1)s21 +(N2 −1)s2
N1 +N2 −2
1
N1
+
1
N2
con gdl = N1 + N2 − 2
se tM1 −M2 < tc (in valore assoluto) accetto H0
se maggiore (in valore assoluto), rifiuto H0 (e accetto quindi H1 )
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
9 / 21
Tavole significatività per t (indipendenti)
Una volta calcolato il t, usiamo le tavole di t
La tabella a p.141 riporta per ogni grado di libertà i valori che identificano il 2.5%
estremo delle code
Per gl=5, i valori ±2.57 indicano i valori estremi
Ovvero, valori di t compresi fra -2.57 e +2.57 sono non significativi (accettiamo
H0 ) e indicano che è abbastanza probabile ottenere un campione in cui le due
variabili misurate sono uguali fra loro
Valori di r ≤ −2.57 oppure r ≥ +2.57 sono significativi (H1 ) e indicano che ci
sono poche probabilità che le variabili misurate siano uguali tra loro
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
10 / 21
Tavole significatività per t
L’appendice C (la stessa vista in precedenza) riporta una tavola più completa e
più precisa
Per ogni per ogni grado di libertà, sono riportati i valori (chiamati “critici”) per il
10%, 5%, il 2% e l’1% (riga “Due code”)
Vediamo che per gl=5 il valore critico al 5% è 2.571 (approssimabile a 2.57)
Questo valore è senza segno, ma va interpretato come se fosse −2.571 e
+2.571
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
11 / 21
Test della differenza delle medie: Esempio
Abbiamo misurato l’ortodossia in un campione di Testimoni di
Geova e ci chiediamo se vi è differenza fra maschi (N=23) e
femmine (N=12): Mm = 14.17, Mf = 15.5, sm = 2.27 e sf = 2.32
allora:
facciamo le ipotesi nulla e alternativa H1 : µm 6= µf
con α = .05 bidirezionale il t critico con gdl = 23 + 12 − 2 = 33 è
tc = 2.04
applichiamo la formula
tM1 −M2 = r
14.17 − 15.5
2.272 (23−1)+2.322 (12−1)
23+12−2
= −.006
1 1
23 12
siccome tM1 −M2 < tc accetto H0
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
12 / 21
Test della differenza delle medie
t = −.006 (rosso)
per alfa al 5% (bidir.)
tc = 2.04 (nero)
Accetto H0 perché
|t| < |tc |
|t| cade nell’area di
accettazione di H0
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
13 / 21
Assunti del t-test
1
Le misure della variabile dipendente di ciascun gruppo
a) sono indipendenti tra di loro
b) sono indipendenti dall’altro gruppo
2
La variabile dipendente si distribuisce normalmente
3
Le varianze dei due gruppi sono uguali
La condizione 2 può essere ignorata, perché il test t non è molto
sensibile alle violazioni di normalità (ma se entrambi i gruppi sono
asimmetrici nel medesimo modo)
La condizione 3 può essere ignorata se i due campioni hanno
uguale numerosità; il test t, in questo caso, non distorce troppo e
si può usare la distribuzione di t senza problemi
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
14 / 21
Assunti del t-test
Se i due campioni non hanno uguale numerosità, si pongono
diverse condizioni:
la soluzione migliore è quella di ridurre il campione più numeroso
ed equiparare le numerosità (basta fare una selezione casuale del
campione)
2 provare a sottoporre le variabile a trasformazioni che mantengono
la linearità, ma cambiano la distribuzione (le vedremo nel
Trattamento dei dati)
3 si può usare la stima di varianza separata, ovvero il test t diventa
1
X1 − X2
t= q 2
s1
s22
N1 + N2
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
15 / 21
Inferenza con programmi statistici
Nell’uso normale, sono i computer a fare i conti per il confronto di
medie: t di Student (o T-Test)
stessa variabile su due campioni indipendenti. Le formule usate
sono quelle indicate qui e prevedono
una formula che ipotizza che i campioni abbiano varianza uguale
(varianza combinata)
un’altra formula che ipotizza che abbiano varianza diversa
(Varianze separate)
Viene applicato un test per l’omogeneità delle varianze (test di
Levene) e in base ai risultati si sceglie il test appropriato
Il test di Levene è basato sul rapporto delle due varianze: se sono
simili tenderà a 1; al test è associato un valore di probabilità
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
16 / 21
SPSS: 2 campioni indipendenti
Analizza | Confronta medie | Test T: campioni
indipendenti
Trascinare una o più variabile dipendente (quantitativa) in
Variabili oggetto del test
Trascinare una variabile qualitativa (con 2 o più valori possibili) in
Variabile di raggruppamento
Premere
Definisci gruppi
da usare. Quindi
Infine
e inserire i due valori della qualitativa
Continua
OK
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
17 / 21
Esempio in SPSS
Pagina 1 - Medie e deviazioni standard suddivise per genere
Religiosità
Intrinseca
Estrinseca sociale
Estrinseca personale
Genere
Maschio
Femmina
Maschio
Femmina
Maschio
Femmina
N
160
179
160
179
160
179
Mean
23,24
23,60
5,79
6,07
9,46
10,89
SD
5,82
5,52
3,09
2,94
3,52
2,98
SE Mean
0,46
0,41
0,24
0,22
0,28
0,22
Dalle medie possiamo vedere (“a naso”) che non ci sono grosse
differenze fra i sessi nelle prime due variabili.
Forse, nell’ultima c’è una differenza.
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
18 / 21
Esempio in SPSS
Levene’s Test
F
Sig.
Orientamento
Intrinseco
Estrinseco
sociale
Estrinseco
personale
Eq
Not
Eq
Not
Eqa
Not
0,816
0,367
1,146
0,285
8,847
0,003
t
t-test
df
-0,594
-0,592
-0,852
-0,850
-4,050
-4,013
337
328,157
337
328,503
337
313,273
Sig.
(2-tailed)
0,553
0,554
0,395
0,396
0,000
0,000
Eq=assumere varianza uguale
Not=non assumere varianza uguale
Il test di Levene ci dice se i due gruppi hanno la stessa varianza (F vicina a 1, con Sig
superiore ad α) oppure no (F molto grande, con Sig inferiore ad α).
A questo punto possiamo leggere e interpretare l’esatto t e confrontare la probabilità
associata (Sig) a quel t, con quei gradi di libertà (df) direttamente con l’α scelto.
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
19 / 21
Riportare i risultati
Esempio
Per quanto riguarda l’orientamento religioso, per la religiosità
intrinseca e l’estrinseca sociale non sembrano esserci effetti del
genere, in quanto è abbastanza probabile che le medie siano uguali
fra loro. Al contrario, per quanto riguarda la religiosità estrinseca
personale, il gruppo femminile mostra una media (10.89) più alta del
gruppo maschile (9.46). La differenza è statisticamente significativa
t(313,27)=-4.013, p < .001.
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
20 / 21
Applicabilità
Per confrontare la media di una variabile fra due gruppi
Cosa si usa
1 variabile qualitativa (indipendente) che viene usata per
suddividere il campione in 2 gruppi
1 variabile quantitativa (dipendente) su cui vengono calcolate le
media (una per ciascun gruppo)
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
21 / 21