Approfondimento 6.3 Differential Item Functioning

Approfondimento 6.3
Differential Item Functioning
Nell’Approfondimento 5.8 viene illustrato come, a seconda della popolazione alla quale viene
somministrato il test, i diversi punteggi che i soggetti ottengono non siano necessariamente solo il
risultato di un diverso livello nel costrutto, ma possano essere l’effetto di una diverso funzionamento del test per quelle specifiche popolazioni. Quando c’è motivo di ritenere che vi sia una distorsione sistematica nella probabilità di fornire la risposta corretta ad un item in base alla sottopopolazione indagata pur a parità di livello nel costrutto si parla di differential item functioning (DIF). Si noti,
quindi, che il DIF non ha niente a che fare con le differenze fra una popolazione e l’altra, ma con
differenze che emergono nelle risposte a certi item fra soggetti che appartengono a popolazioni diverse ma che presentano lo stesso livello di abilità o affettività: il DIF, quindi, è una condizione necessaria ma non sufficiente per parlare di item bias, che, più in generale, è una distorsione delle risposte ad un item tale per cui i membri di una popolazione hanno minori o maggiori probabilità di
rispondere correttamente ad un item a causa di variabili che non hanno niente a che fare con il costrutto in esame. Se però una popolazione, per qualche motivo, possiede effettivamente un livello
diverso nel costrutto, allora si parla di item impact (Clauser & Mazor, 1998).
Il problema è che appaiare soggetti di popolazioni diverse rispetto al livello nel costrutto,
che è il prerequisito fondamentale per poter condurre analisi di DIF, non è affatto un compito semplice: gli item dei test, infatti, sono sviluppati per misurare abilità complesse con determinati contenuti, per cui è difficile identificare un criterio per accoppiare i soggetti che rappresenti la specifica
abilità per la misura della quale è stato sviluppato l’item: la prestazione all’item, infatti, anche dopo
aver appaiato i soggetti in base all’abilità misurata dal test, potrebbe comunque dipendere, in parte,
anche da altre abilità, e la questione fondamentale è proprio determinare il peso di queste abilità secondarie nel determinare il punteggio osservato.
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.3 – Differential Item Functioning
2
Ad esempio, se consideriamo la seguente analogia:
Manzoni : Promessi Sposi = Verga : X
a. Una vita
b. I malavoglia
c. Il turno
d. Il fuoco
comprendiamo facilmente come il riuscire a dare la risposta corretta dipenda sia dalla capacità di
individuare l’analogia Scrittore : Romanzo, sia dalla conoscenza della letteratura italiana: se noi appaiamo i soggetti solo rispetto alla capacità di individuare l’analogia, i soggetti che per qualche motivo sono meno ferrati in letteratura italiana avranno prestazioni peggiori, da cui DIF. Se questi soggetti appartengono ad una popolazione particolare, come potrebbero essere studenti immigrati che
non hanno studiato la letteratura italiana, e noi interpretiamo i peggiori risultati di questi come una
minore capacità di risolvere le analogie, giungiamo ad una conclusione errata.
Un’altra cosa importante da tenere a mente è che le analisi per il DIF non permettono di stabilire se il contenuto dell’item è appropriato o meno: eventuali problemi legati a discriminazioni di
genere o etniche dovranno quindi essere valutati da giudici indipendenti, dato che non possono essere individuati con certezza a livello statistico (Clauser & Mazor, 1998).
Il DIF, poi, non va concluso con la validità di criterio o la capacità di screening di un test: le
procedure per identificarlo sono state progettate per individuare item singoli che funzionano in modo diverso rispetto ad un qualche criterio: se tutti gli item favoriscono una popolazione rispetto ad
un’altra, le procedure di DIF, che impiegano il punteggio totale al test come criterio, saranno totalmente inefficaci (Camilli, 1993).
Come sottolineano Clauser e Mazor (1998), le procedure di DIF non sono analisi a sé stanti,
dato che molti passi per la loro esecuzione richiedono una notevole competenza e capacità di giudizio da parte del ricercatore nel considerare altri aspetti del processo di sviluppo del test. Le decisioni da prendere, quindi, saranno guidate da considerazioni pratiche, conoscenza del contenuto del
test e del costrutto da misurare, scopo del test, popolazione in esame, risultati empirici, conoscenza
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.3 – Differential Item Functioning
3
dei pregi e difetti delle tecniche per l’indagine del DIF, e ripercussioni a livello di opinione pubblica.
L’indagine sul DIF richiede in primo luogo di individuare le popolazioni all’interno delle
quali uno o più item potrebbero mostrare un diverso funzionamento. Occorre poi trovare un criterio
di appaiamento dei soggetti adeguato e scegliere le statistiche per valutare obiettivamente il DIF. Infine, i risultati delle analisi dovranno essere interpretati e si dovrà decidere come eventualmente pesare le differenze fra le popolazioni in termini di punteggio al test. Il problema, quindi, non è tanto
legato al test in sé, quanto allo scopo per il quale viene utilizzato e all’interpretazione dei risultati
(Messick, 1988).
1. Metodi statistici per la valutazione del DIF
La letteratura sul DIF è davvero molto vasta, e i metodi proposti per la sua valutazione sono numerosissimi. Nondimeno, alcuni hanno avuto più successo di altri: seguendo Clauser e Mazor (1998),
vengono presentati qui di seguito.
1.1 Metodi relativi alla teoria della risposta all’item (IRT)
I metodi per la valutazione del DIF sviluppati nella cornice di riferimento teorica della IRT permettono di valutare le differenze fra le popolazioni in termini dei parametri degli item specificati dal
modello utilizzato (ad esempio, se un modello di Rasch o un modello 3PL, si veda
l’Approfondimento 2.4). In generale, vengono individuati un gruppo di riferimento e uno o più
gruppi focali, nei quali vengono stimati i parametri di abilità, difficoltà. discriminatività, etc. Dopo
aver ottenuto una metrica comune per tutti i gruppi (si veda l’Approfondimento 6.2), è possibile indagare le differenze fra le stime dei parametri ottenute nei vari campioni. Se le stime sono identiche
per tutti i gruppi, non c’è evidenza empirica di DIF, per cui tutti i campioni mostreranno la stessa
curva caratteristica dell’item e la stessa probabilità di rispondere correttamente (o un certo punto di
una scala di tipo Likert) a parità di livello di costrutto. In base al modello IRT, il DIF potrà essere
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.3 – Differential Item Functioning
4
valutato su vari parametri: solo difficoltà dell’item (modelli di Rasch e 1PL), difficoltà e discirminatività (2PL), difficoltà, discriminatività e guessing (3PL), difficoltà, discriminatività, guessing e
carelessness (4PL) (Figura 6.3.1).
Figura 6.3.1 Esempi di DIF per la sola difficoltà dell’item (a), per la sola discriminatività dell’item (b),
per difficoltà e discriminatività (c). La linea intera rappresenta il gruppo di riferimento, quella spezzata il gruppo focale
Gli approccio per la valutazione del DIF in questi casi sono molteplici. Linacre e Wright (1986) e
Lord (1980) hanno proposto la stima di dimensione dell’effetto e di significatività statistica in base
al confronto delle stime dei parametri fra i gruppi, Raju (1988) ha suggerito di osservare le differenze relative alla difficoltà e alla discriminatività in base all’area compresa fra le curve caratteristiche
degli item dei vari gruppi, mentre Thissen e collaboratori (1993) hanno indicato un indice utile nella
differenza di fit fra modelli in cui le stime dei parametri avvengono separatamente e insieme.
Clauser e Mazor (1998) individuano nella necessità che i modelli soddisfino la condizione di
unidimensionalità e nell’ampio numero di soggetti necessari, soprattutto per i modelli 2PL e 3PL, il
limite principale di questo approccio.
1.2 Statistica Mantel-Haenszel (odds ratio)
La statistica Mantel-Haenszel (MH) o odds ratio, proposta da Holland e Thayer (1988), viene calcolata in base ai dati contenuti in una tavola di contingenza. In pratica, vengono individuati nel gruppo
focale e nel gruppo di riferimento individui con lo stesso punteggio al test, e poi viene costruita una
tavola di contingenza incrociando l’informazione sul gruppo con quella sulla risposta all’item (corretta vs errata). In questo metodo il confronto è valutato in base al rapporto fra la probabilità di risposta corretta ad un item da parte di un gruppo rispetto alla probabilità di risposta corretta
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.3 – Differential Item Functioning
5
dell’altro, una volta pareggiati per abilità. Tale statistica è di per sé una misura di dimensione
dell’effetto (ci dice quanto è maggiore la probabilità che un membro di un gruppo risponda correttamente all’item rispetto ad un membro dell’altro a parità di abilità), e può essere sottoposta a verifica delle ipotesi (vedi Approfondimento 6.1 e Strumenti Informatici 6.1). Tale metodo è efficace
anche con campioni relativamente piccoli (per esempio, 200 soggetti per gruppo) ed è molto efficiente in termini di potenza statistica. Il suo punto debole è la sua incapacità di individuare un DIF
non uniforme, ossia quei casi in cui un gruppo è svantaggiato ad un certo livello di abilità, ma lo è
in maniera maggiore o minore (o non lo è affatto) per altri livelli (Clauser & Mazor, 1998).
1.3 Standardizzazione
La procedura di standardizzazione, introdotta da Dorans e Kullick (1986) ha avuto un particolare
successo, almeno inizialmente, in quanto rappresenta una misura standardizzata (Dstd) della differenza fra le proporzioni delle risposte corrette agli item nel gruppo focale (Pfs) e nel gruppo di riferimento (Prs), a parità di punteggio totale s, in base alla formula:
Dstd = ∑ Ws ( Pfs − Prs )
s
dove Ws è la frequenza relativa dei membri del gruppo di standardizzazione (di solito quelli del
gruppo focale) all’interno del gruppo che ha ottenuto il punteggio s. Il limite principale di questo
indice è che non ha una distribuzione di probabilità (Clauser & Mazor, 1998).
1.4 Simultaneous Item Bias Test (SIBTEST)
Il SIBTEST (Shealy & Stout, 1993) è concettualmente simile alla standardizzazione che abbiamo
visto nella sezione precedente, ma permette la verifica delle ipotesi dal punto di vista statistico in
base al rapporto fra la differenza pesata nella proporzione di risposte corrette per i membri del
gruppo di riferimento e del gruppo focale e il suo errore standard. Il criterio di appaiamento in questa tecnica è un punteggio latente, e non quello osservato: per la sua stima, viene utilizzata una correzione basata sulla regressione che consente di controllare l’errore di I tipo, che in questo caso corCarlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.3 – Differential Item Functioning
6
risponde a dire che c’è un DIF quando invece non c’è. Inoltre, il SIBTEST consente la valutazione
dell’amplificazione o attenuazione del DIF fra gli item entro un testlet o item bundle. Con questi
termini vengono identificati gruppi di item che vengono trattati come una singola unità, come ad esempio un gruppo di domande di comprensione del testo riferite allo stesso brano.
A livello statistico, la tecnica prevede una procedura iterativa in cui all’inizio tutti gli item
vengono utilizzati per produrre il criterio di appaiamento, e via via vengono eliminati quelli che
presentano un DIF, finchè non viene ottenuta una stima del livello del soggetto nel costrutto in base
agli item che non presentano DIF. Clauser & Mazor (1998) riferiscono che produce prestazioni simili a MH nell’individuazione del DIF uniforme, ha una buona potenza statistica e non risente eccessivamente di ampiezze campionarie limitate.
1.5 Regressione logistica
L’approccio mediante regressione logistica (RL) introdotto da Swaminathan e Rogers (1990) costituisce un tentativo di mediazione fra i metodi basati sulle tavole di contingenza (MH, standardizzazione, SIBTEST) e quelli basati sull’approccio IRT: i primi, infatti, prendono in considerazione
gruppi basati su categorie di punteggio discrete, mentre l’approccio RL tratta il punteggio totale
come una variabile continua e predice la prestazione all’item sia in base ad esso, sia in base
all’appartenenza al gruppo. Il modello di base è espresso dalla formula:
P(U = 1) =
eZ
1+ eZ
dove Z rappresenta la combinazione lineare di effetti da considerare. Ad esempio, se Z = T0 + T1θ+
T2G, dove θ è il livello abilità e G l’appartenenza al gruppo, T2 è una misura di DIF uniforme dato
che rappresenta l’effetto di appartenere al gruppo focale o a quello di riferimento. La flessibilità di
questo approccio consente l’introduzione anche in un effetto di interazione T3(Gθ), che rappresenta
la componente di DIF non uniforme (la differenza fra i gruppi è moderata dal livello di abilità considerato). La differenza di fit fra il modello che include l’effetto di interazione e quello che non lo
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.3 – Differential Item Functioning
7
include permette di stimare se il DIF è uniforme oppure no. Inoltre, è possibile un appaiamento
multidimensionale (multidimensional matching) dei soggetti in base a livelli in abilità diverse (da
cui θ1, θ2, θ3, etc.).
Il vantaggio principale di questo metodo è dunque la possibilità di includere più criteri di
appaiamento e di permettere la valutazione del DIF non uniforme (Clauser & Mazor, 1998).
1.6 DIF per item politomici
Quando gli item da valutare rispetto al DIF non sono dicotomici, ma sono ad esempio risposte su
scala di tipo Likert, è possibile estendere i metodi presentati in precedenza anche a questi casi (Rogers & Swaminathan, 1994, per LR; Chang et al., 1996 per SIBTEST; Zwick et al., 1993 per MH;
Wainer et al., 1991, per metodi IRT). Miller & Spray (1993) hanno proposto un’ulteriore variante
per LR, detta linear discriminant function analysis, che prevede che sia l’appartenenza al gruppo, e
non la risposta all’item, la variabile dipendente dell’equazione di regressione.
I principi di funzionamento di queste tecniche sono simili alle loro versioni per item ditocomici, ma comportano una maggiore complessità nelle decisioni da prendere per la loro implementazione (Clauser & Mazor, 1998).
1.7 Software per il DIF
Il package gratuito R offre una libreria, difR, che consente di realizzare i seguenti test:
1. Transformed Item Difficulties (TID) method (Angoff & Ford, 1973)
2. Mantel-Haenszel (Holland & Thayer, 1988)
3. Standardization (Dorans & Kullick, 1986)
4. Breslow-Day (Aguerri et al., 2009; Penfield, 2003)
5. Logistic regression (Swaminathan & Rogers, 1990)
6. Lord's chi-square test (Lord, 1980)
7. Raju's area (Raju, 1990)
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.3 – Differential Item Functioning
8
8. Likelihood-ratio test (Thissen, Steinberg & Wainer, 1993)
9. Generalized Mantel-Haenszel (Penfield, 2001)
10. Generalized logistic regression (Magis, Raiche, Bel& & Gerard, 2010)
11. Generalized Lord's chi-square test (Kim, Cohen & Park, 1995)
Sempre per R è stata sviluppata una libreria, lordif, che consente l’analisi DIF con un procedimento iterativo ibrido fra la regressione ordinale e i modelli IRT (Choi et al., 2011). Il software
FACETS consente inoltre di verificare il DIF per item politomici (Linacre, 1996).
2. Implementare le tecniche di DIF
L’uso appropriato delle tecniche di valutazione del DIF illustrati nella sezione precedente richiede
che siano soddisfatte alcune assunzioni. Clauser e Mazor (1998) le hanno passate in rassegna, suggerendo alcuni punti importanti da considerare.
In primo luogo, occorre valutare l’impiego di un criterio di appaiamento dei soggetti esterno
o interno. L’appaiamento dei soggetti è il primo passo da compiere nella valutazione del DIF, e naturalmente farlo in modo sbagliato può avere conseguenze molto serie. Un criterio interno come
ad esempio il punteggio totale al test può infatti mascherare un DIF non uniforme, in cui alcuni item
favoriscono un gruppo e altri l’altro gruppo. Inoltre, se l’item in cui emerge il DIF è stato utilizzato
per calcolare il punteggio totale che è servito per l’appaiamento risulta evidente come il criterio di
appaiamento possa risultare distorto. Un criterio esterno evita questa eventualità, ma occorre trovare una valida misura dell’abilità in questione, impresa di solito destinata al fallimento − il test viene
costruito spesso proprio per ovviare a questa mancanza. Holland e Thayer (1988) hanno suggerito
un’applicazione iterativa di MH, detta purification (“depurazione”), come soluzione ai problemi posti dall’impiego di un criterio interno:
1. all’inizio il criterio di appaiamento è il punteggio totale al test
2. vengono individuati gli item con DIF
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.3 – Differential Item Functioning
9
3. gli item con DIF vengono esclusi e viene ricalcolato il punteggio totale al test, che diventa il
nuovo criterio di appaiamento
4. vengono nuovamente analizzati per il DIF tutti gli item (compresi quelli esclusi), e individuati eventuali nuovi item con DIF
I due autori hanno però suggerito anche che l’item che presenta il DIF dovrebbe essere incluso nel
computo del punteggio totale quando è esso stesso oggetto dell’analisi, ma escluso quando si esamina il DIF degli altri item. Questo accorgimento evita l’inflazione dell’errore di I tipo 8ad esempio, Zwick, 1990).
Clauser e Mazor (1998) suggeriscono inoltre di considerare attentamente l’impiego del punteggio totale come criterio di appaiamento, dato che utilizzarlo significa assumere implicitamente
che la scala sia unidimensionale. Poiché potrebbe non essere sempre questo il caso, se si ha intenzione di usare il punteggio totale come criterio di appaiamento occorre verificare preliminarmente
questa assunzione. Se l’unidimensionalità non è supportata dai risultati, occorre allora individuare
una struttura fattoriale adeguata ed eseguire l’analisi di DIF all’interno delle sottoscale definite dai
fattori. Non riuscire ad individuare una struttura fattoriale adeguata è indice di problemi abbastanza
seri on il test, che quindi deve essere rivisto nei suoi elementi fondamentali, rendendo la questione
del DIF un aspetto momentaneamente secondario. Se però la struttura fattoriale è adeguata, è possibile, soprattutto se si usa il metodo LR, un appaiamento multidimensionale, ossia un appaiamento
basato sui punteggi in tutte le scale. Un aspetto che può diventare critico nell’uso delle sottoscale è
la numerosità degli item, dato che questa, a sua volta, influisce sull’attendibilità della scala. Donoghue e collaboratori (1993) hanno mostrato come un’attendibilità adeguata per realizzare
l’appaiamento possa essere ottenuta se le scale contengono almeno 10 item.
Se si decide per un appaiamento in base al punteggio totale al test, e il punteggio totale è dato dal numero di risposte corrette, il numero di punteggi possibili è uguale al numero di item più 1.
Se non si hanno abbastanza soggetti, potrebbe capitare una situazione in cui i gruppi dei due cam-
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.3 – Differential Item Functioning
10
pioni appaiati rispetto al punteggio totale potrebbero avere una scarsissima ampiezza, o addirittura
nulla. Questo fenomeno è piuttosto comune soprattutto per i punteggi estremi, per cui il cosiddetto
thin matching (“appaiamento fine”) potrebbe quindi essere impossibile, da cui la necessità di un
thick matching (“appaiamento spesso”), in cui viene preso come criterio non un singolo punteggio
ma una gamma di punteggi. Il problema è che la perdita di dettaglio nel criterio di appaiamento può
determinare una perdita di potenza delle procedure statistiche nell’individuare il DIF, per cui se si è
interessati a valutare questa caratteristica degli item è consigliabile cercare di avere a disposizione
campioni sufficientemente ampi. La letteratura riferisce che ogni gruppo dovrebbe essere composto
da almeno 200 soggetti (Rogers & Swaminathan, 1993), a meno che non si voglia utilizzare il metodo IRT, che richiede invece molti più casi, come giù accennato. Quella della numerosità, ad ogni
modo, non è l’unico aspetto da considerare a livello di campionamento: i gruppi da confrontare, infatti, devono essere rappresentativi delle rispettive popolazioni, e il campionamento deve essere eseguito in modo appropriato, soprattutto in quei casi in cui possono esservi vari criteri di inclusione
ed esclusione da considerare.
Nella sezione precedente sono stati introdotti due tipi di DIF: uniforme e non uniforme. Non
tutte le tecniche statistiche per l’individuazione del DIF sono sensibili a questa differenza. Nel caso
metodi IRT, ad esempio, un DIF uniforme si verifica se i gruppi hanno curve caratteristiche degli
item che differiscono per il parametro della difficoltà dell’item in modo uniforme per tutti gli item.
Un DIF non uniforme, invece, si verifica quando i gruppi differiscono anche per i parametri di discriminatività. In questo senso, se tutti gli item presentano un DIF come quello di Figura 6.3.1a si
ha un DIF uniforme, mentre se le differenze possono essere rappresentate come nella Figura 6.3.1b
e c si avrà un DIF non uniforme. I metodi IRT basati su modelli 2PL o con più parametri consentono quindi l’individuazione del DIF non uniforme, mentre il modello di Rasch non è in grado di individuarlo. Allo stesso modo, il metodo LR consente di introdurre l’effetto di interazione gruppo ×
abilità, che se significativo è indice di un DIF non uniforme a sua volta. Il SIBTEST, la standardiz-
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.3 – Differential Item Functioning
11
zazione e MH necessitano invece di alcune modifiche per riuscire ad individuare il DIF non uniforme (si veda rispettivamente Li & Stout, 1996, Dorans & Kullick, 1986 e Mazor e collaboratori,
1994).
Un altro aspetto da considerare è che la possibilità di individuare un DIF. quando presente,
dipende anche dalle caratteristiche degli item, in particolare dalla loro discriminatività: minore la
discriminatività, maggiore la possibilità di non riuscire ad individuare un DIF. Lo stesso vale per la
difficoltà: il DIF potrebbe “passare inosservato” in item troppo facili o troppo difficili. Inoltre, se gli
item sono parte di testlet, le risposte agli item compresi nel testlet sono dipendenti l’una dall’altra
(ad esempio nel caso di domande di comprensione del testo riferite allo stesso brano): in questi casi
l’unità di analisi del DIF dovrebbe essere l’insieme degli item, e non gli item singoli, anche se può
verificarsi che differenze minime a livello degli item possano accumularsi e mostrare un DIF importante a livello del testlet. Poiché il punteggio nel testlet è una somma di punteggi ai singoli item, in
questi casi occorre un approccio al DIF per item politomici.
3. Interpretazione dei risultati delle analisi per il DIF
Nel contesto dei metodi IRT, la valutazione del DIF dipende dal modello utilizzato. Nel caso dei
modelli di Rasch (1PL) di fatto corrisponde alla differenza fra i parametri di difficoltà dei due gruppi. Con i modelli 2PL e 3PL il DIF viene quantificato come are fra le curve caratteristiche degli item. Holland e Thayer (1988) hanno mostrato che MH corrisponde a e
b f −br
, dove bf e br sono i pa-
rametri di difficoltà per il gruppo focale e quello di riferimento. A sua volta, il logaritmo naturale di
questo valore è il T2 del modello LR. Se il DIF non è uniforme per via di differenze legate non solo
alla difficoltà, ma anche alla discriminatività dell’item, il calcolo dell’area fra le due curve caratteristiche dell’item diventa più complesso. Raju (1990) ha sviluppato un metodo per eseguire un test di
significatività per questa differenza. Ad ogni modo, la differenza fra le aree delle due curve caratteristiche può essere interpretata come differenza nella probabilità di risposta corretta fra i due gruppi.
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.3 – Differential Item Functioning
12
Sono poi state proposte varie tecniche per confrontare fra loro i parametri IRT dei diversi gruppi
(per una rassegna, si veda Clauser & Mazor, 1998).
Nel caso del valore di MH, l’odds ratio calcolato è una misura di quanto la risposta corretta
nel gruppo di riferimento è più o meno probabile rispetto al gruppo focale. Come illustrato in Strumenti Informatici 6.1 è possibile verificare l’ipotesi nulla che questo valore sia uguale a 1 nella popolazione. Se vien calcolato il logaritmo di questo valore e il risultato viene moltiplicato per −2,35
si ottiene ∆MH, o delta, che è una misura di DIF utilizzata dall’Educational Testing Service negli
Stati Uniti: combinato con la sua significatività statistica, questo valore permette di ottenere tre livelli di DIF:
A.
valore assoluto di ∆MH minore di 1 e non statisticamente diverso da 1 (p > ,05): DIF trascurabile, l’item può essere mantenuto nella scala
B.
valore assoluto ∆MH maggiore di 1 ma minore di 1,5 o statisticamente diverso da 1 (p < ,05):
DIF non trascurabile, ma l’item è ancora utilizzabile se non vi sono item che rientrano nella
categoria A
C.
valore assoluto ∆MH maggiore di 1,5 e statisticamente diverso da 1 (p < ,05): DIF rilevante.
Tale item può essere mantenuti nella scala solo se, a giudizio degli esperti, il suo contenuto è
tale che, se rimosso, la scala perderebbe di validità di contenuto
Per quanto riguarda il valore che si ottiene con il metodo della standardizzazione, Dorans (1989) ha
suggerito che un item, per essere privo di DIF, dovrebbe presentare un valore di Dstd inferiore a
0.10.
Il SIBTEST produce un valore, β, che può essere sottoposto a verifica di ipotesi, dato che
può essere calcolato il suo errore standard e dunque trasformato in z. Il valore di β rappresenta la
differenza di probabilità di ottenere una risposta corretta all’item in esame da parte dei soggetti del
gruppo focale e del gruppo di riferimento, una volta pareggiati per livello di abilità. Nel caso dei te-
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 6.3 – Differential Item Functioning
13
stlet, β viene calcolato per ogni item e poi i vari β vengono aggregati. Se non vi è un’enorme variabilità fra β dei vari item, il valore aggregato può essere calcolato come media dei β dei singoli item.
LR permette di realizzare un test chi-quadrato della differenza fra il fit del modello in cui
non vi è effetto del gruppo (assenza di DIF) e quello in cui invece è presente (presenza di DIF). Allo
stesso modo, è possibile verificare la presenza di un DIF non uniforme aggiungendo l’effetto di interazione, come mostrato in precedenza. Al di là della significatività statistica, è possibile calcolare
una misura di dimensione dell’effetto, che è sostanzialmente T2, ossia il parametro relativo
all’effetto del gruppo di appartenenza. Tale valore rappresenta la differenza, misurata in logit, fra
appartenere al gruppo di riferimento e al gruppo focale, controllata per l’abilità: perché questo sia
possibile, però, occorre che i due gruppi siano codificati come 0 e 1. Inoltre, questo valore è una misura di dimensione dell’effetto solo quando non è incluso nel modello il parametro di interazione
per l’indagine del DIF non uniforme.
Quale che sia il risultato delle analisi di DIF, comunque, esso deve essere sempre interpretato nel contesto di applicazione del test. Questo aspetto è cruciale soprattutto per la scelta del gruppo
focale e di quello di riferimento: i criteri per la loro formazione infatti possono essere molteplici:
pazienti vs popolazione generale, italiani vs stranieri, normodotati vs disabili, etc., e spesso la decisione risente più di aspetti “politici” che non psicometrici. Inoltre, come fanno ntoare Clauser e Mazor (1998), occorre decidere se l’item è distorto finchè non si prova la sua validità, o è valido finchè
non si prova la sua distorsione. Poiché il DIF è una condizione necessaria ma non sufficiente per individuare un item bias, il primo approccio porterebbe a produrre troppi falsi positivi, mentre nel secondo caso c’è il rischio di molti falsi negativi. L’aver individuato un DIF, inoltre, di solito porta
alla revisione dell’item da parte di esperti, e Clauser e Mazor (1998) mettono in guardia circa
l’effettiva validità del giudizio degli esperti, che spesso viene però data per scontata. In letteratura
non sembra esservi un’indicazione chiara di quale sia la procedura migliore da seguire, se non che
ogni situazione fa storia a sé.
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia