Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1
28-Intervalli di confidenza
vers. 1.1 (21 novembre 2014)
Germano Rossi1
[email protected]
1 Dipartimento
di Psicologia, Università di Milano-Bicocca
2014-2015
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
1 / 16
Saltare
Saltare
il paragrafo 28.3 e il Calcolo 28.5
relativi alla Regressione (che non è
in programma)
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
2 / 16
Stima puntuale e intervallare
Stima puntuale
Viene calcolato un unico valore che è considerato la stima del
parametro della popolazione (H0 )
Su questo unico valore si calcola una statistica la cui probabilità
costituisce il “rischio” nel prendere la decisione di rifiutare l’ipotesi
nulla
Stima intervallare
Vengono calcolate 2 stime diverse
che costituiscono il limite inferiore e quello superiore di un intervallo
entro questo intervallo di probabilità, cadrà il parametro della
popolazione
e utilizzeremo questo intervallo per prendere una decisione
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
3 / 16
Stima puntuale e intervallare
la stima puntuale si occupa di un solo valore (la stima della
popolazione)
l’intervallo di confidenza (o di fiducia) fornisce un insieme di valori
che includono il valore della popolazione (data una certa
probabilità)
se usiamo la media come esempio, riflette l’insieme di valori
verosimili che includerebbero la vera media della popolazione (se
fosse nota)
Anziché riportare che la stima della media della popolazione è
5.3, diciamo che la media della popolazione è probabilmente
compresa nell’intervallo fra 4.0 e 6.6
L’ampiezza dell’intervallo dipenderà dalla variabilità delle
osservazioni
a maggiore variabilità nei dati corrisponderà una maggiore
ampiezza dell’intervallo
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
4 / 16
Stima puntuale e intervallare
usualmente si utilizza il 95% (complemento a 1 di α = 5%)
ma si può usare anche il 99% (corrispondente ad α = 1%)
l’intervallo di confidenza al 95% è l’insieme dei valori che al 95%
includono la “vera” media della popolazione
l’errore standard è la deviazione standard delle distribuzioni
campionarie delle statistiche di interesse
è fondamentale per ottenere gli intervalli di confidenza
In pratica,
la stima puntuale ci dice se una certa media di un campione può
venire da una certa popolazione oppure no
la stima intervallare ci dice da quali popolazioni può venire quella
media del campione
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
5 / 16
Stima puntuale e intervallare
La teoria legata alla distribuzione normale (Capitolo 11) ci dice che, per
grandi campioni, il 95% circa delle medie campionarie giace fra ±2 s
cioè fra z = −1.96 e z = +1.96
con piccoli campioni z non funziona perfettamente e si utilizza la
distribuzione t (identica alla distribuzione z per grandi campioni)
il valore di t corrispondente al livello di confidenza prescelto può essere
ottenuto dalla Tabella 28.1 (p. 273) per determinati gradi di libertà
I limiti di fiducia sono semplicemente gli estremi dell’intervallo di
confidenza
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
6 / 16
Test di significatività e intervalli di confidenza
La maggior parte delle volte, nell’ipotesi nulla ipotizziamo
qualcosa pari a 0
la correlazione è nulla (ρ = 0)
la differenza delle medie è nulla (µ1 − µ2 = 0, µ1 = µ2 )
la media delle differenze è nulla (µx1 −x2 )
Perciò di solito se l’intervallo di confidenza non contiene il valore
zero, la media campionaria è statisticamente significativa
Tuttavia gli intervalli di confidenza contengono abbastanza
informazione per valutare la significatività statistica
Invece la verifica di ipotesi di per sé non contiene abbastanza
informazione per calcolare gli intervalli di confidenza
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
7 / 16
Verifica d’ipotesi con un campione
Ho un campione (N=20) con X=195 e s = 15 in una variabile. Conosco
la media della popolazione (µ = 200)
Ipotizzo che il campione sia stato estratto casualmente da quella
popolazione (H0 : µc = µ = 200 e H1 : µc 6= µ)
Uso
t=
X −µ
√s
N
=
195 − 200
√
= −1.49
15/ 20
ipotizzando α = .05, per 19 gl, vc = ±2.09
se fosse vera l’ipotesi nulla, un campione estratto da quella popolazione
avrebbe il 95% di probabilità di avere una media che sta a 2.09 errori
standard sotto o sopra la media
accettiamo H0 perché |1.49| < |2.09|
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
8 / 16
Stima intervallare
Il test puntuale ci permette di accettare o rifiutare l’ipotesi nulla
Ma l’ipotesi nulla è un singolo, specifico valore
Ho un campione (N=20) con X = 195 e s = 15 in una variabile.
Se ipotizzassi H0 : µc = µ = 200 e H1 : µc < µ troverei un valore t
non significativo
Quindi il campione con X=195 è stato estratto da una
popolazione con µ = 200
ma potrebbe essere stato estratto da popolazioni con µ = 195
oppure µ = 196 oppure µ = 197. . . ma anche con µ = 194. . .
Se fossero possibili più ipotesi nulle, dovremmo calcolare più
statistiche t
L’alternativa è usare la stima intervallare
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
9 / 16
Stima intervallare
Usiamo la formula inversa del punto z, ma usando il valore critico di t per
determinati gradi di libertà
(X − tc sX ) ≤ µX ≤ (X + tc sX )
dove X è la media del campione usata come stima della media della
popolazione; tc è il valore critico di t per 95% o per 99%; sX è l’errore
standard
Se N=20 (gdl=19), i valori critici di t sarebbero t=2.09 per il 95% e t=2.86
per il 99%
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
10 / 16
Stima intervallare: campione unico
Lavoriamo con la stima della media della popolazione (stimata
dalla media del campione)
√
√
calcoliamo l’errore standard s/ N = 15/ 20
Sostituiamo i valori (ipotizzando 95%)
(X − tc sX ) ≤ µX ≤ (X + vc sX )
15
≤ µ ≤ (195 + 2.09 × 3.354)
(195 − 2.09 × √
20
l’intervallo di fiducia al 95% è compreso fra 187.99 e 202.01
al 95% il nostro campione può essere stato estratto casualmente
da popolazioni la cui media oscilla fra 187.99 e 202.01
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
11 / 16
Stima intervallare: differenza medie
Anche per la differenza delle medie, possiamo calcolare un’intervallo di
confidenza, sempre usando il valore critico di t al 5% o all’1% per avere
intervalli di fiducia pari al 95% o al 99%
[(X 1 − X 2 ) − tc sX 1 −X 2 ] ≤ µ1 − µ2 ≤ [(X 1 − X 2 ) + tc sX 1 −X 2 ]
Applicandolo all’esempio dei Testimoni di Geova:
(X 1 − X 2 ) = −1.33 t95% = 2.09
sX 1 −X 2 = 2.87
−1.33 − 2.09 ∗ 2.87 e − 1.33 + 2.09 ∗ 2.87
ovvero l’intervallo di fiducia oscilla fra -7.33 e 4.67
Poiché l’intervallo include anche il valore 0 (H0 : µ1 − µ2 = 0)
corrispondente alla nostra ipotesi nulla, dobbiamo accettarla come vera.
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
12 / 16
Stima intervallare: media differenze
Per la media delle differenze, la formula diventa
D − tc sD < µD < D + tc sD
Se la media delle differenze è 3,3571
la dev. st. delle diff. è 6,912721
la numerosità è N=14
√
√
l’errore standard sarà s/ N = 6, 912721/ 14 = 1.847
3.3571 − 2.09 ∗ 1.847 < µD < 3.3571 + 2.09 ∗ 1.847
quindi compreso fra -0.503 e 7.217
lo 0 è compreso, quindi non significativo
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
13 / 16
Stima intervallare: correlazione
Per la correlazione è un pochino più complesso
r dev’essere normalizzata con
1+r
1
zr = loge
2
1−r
oppure tramite la Tabella 26.5
zr è il coefficiente di correlazione normalizzato di Fisher
r = .881 diventa rz = 1.380
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
14 / 16
Stima intervallare: correlazione
ci serve anche la deviazione standard di zr , che è
√
1
N −3
l’intervallo di confidenza della correlazione (al 95%) sarà
zr ± 1.96szr dove 1.96 è il punto z corrispondente ad un’area del
5% bidirezionale
Supponiamo di aver calcolato una correlazione di .45 in un
campione di N=30
√
il suo errore standard sarà 1/ 30 − 3 = 0.192
dalla tabella ricaviamo zr = .485
è l’intervallo zr ± 1.96szr = .485 ± 1.96 × 0.192
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
15 / 16
Stima intervallare: correlazione
con zr ± 1.96szr = .485 ± 1.96 × 0.192 l’intervallo sarà compreso
fra 0.10868 e 0.86132
ma questi sono i valori espressi in punti z
con la Tabella 26.5 torniamo indietro e troviamo .11 e .69
L’intervallo non comprende lo 0, quindi la correlazione di .45 è
significativa
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
16 / 16