Samenvatting Psychometrie

Academiejaar 2013-2014
PSYCHOMETRIE
0. Psychometrie
LESSEN +
NOTA’S
Dr. Wilfried De Corte | Door: Delfien Vansteelandt
0
Inhoudsopgave
0. PSYCHOMETRIE
1
Verantwoordelijk lesgevers
1
Leerstof
1
Vragen?
1
Situering
1
Overzicht van de lessen
2
Belang
2
Extra
Meetniveau: categorische vs. continue variabelen
Voorbeeld intervalniveau
Voorbeeld van een construct: “Verhaaltje over stress”
2
2
3
3
1. FORMULERING KLASSIEKE TESTTHEORIE
5
Overzicht
5
Wat is een psychologische test?
Verklarende noot
Meetniveaus
5
5
5
Klassieke testtheorie als meetmodel
6
Formulering van de klassieke testtheorie
Verklarende noot
Kansveranderlijken
Kansdichtheidsfuncties: f(u), g(v)
Distributie- of verdelingsfunctie van een kansveranderlijke: F(X = t) = P(X ≤ t)
Dichtheidsfunctie (densiteitsfunctie) f(v)
(Cummulatieve) Distributiefunctie (verdelingsfunctie) F(v)
Verwachting (gemiddelde) van de kansveranderlijke
Variantie en covariantie van de kansveranderlijke
Calculus kansveranderlijken
Andere notatie voor verwachting, variantie en covariantie
Extra
Formulering KTT: 3 stappen
1. Formulering KTT voor 1 subject en 1 test
2. Formulering KTT voor een populatie van subjecten en 1 test
3. Formulering KTT voor een populatie van subjecten en voor meerdere tests
Recapitulatie verder te gebruiken notatie
6
7
7
7
7
7
8
8
8
9
10
10
11
11
12
14
15
Betrouwbaarheid
Definitie van de betrouwbaarheid van een test
Noot: notatie populatie- en steekproefgrootheden
Noot: onderscheid schatter – schatting
Methoden om betrouwbaarheid te schatten
Spearman-Brown formule
Verklarende noot
Coëfficiënt (= Chronbach’s alfa)
Verklarende noot
Toepassingen van betrouwbaarheid
Bepaling standaardmeetfout
Schatten ware score
Verklarende noot: Regressiefunctie
Bepaling standaardschattingsfout
(precisie waarmee de ware score geschat wordt)
Correctie voor attenuatie (correlatie ware scores test X met ware scores test Y)
Precisie van verschilscores
Enkele problemen i.v.m. de klassieke test / betrouwbaarheids- theorie
15
15
17
18
18
18
21
21
24
24
24
25
26
27
28
29
29
Validiteit
Definitie en traditionele validiteitsstrategieën
Validiteit van de meting op zich: inhoudsvaliditeit - constructvaliditeit
Validiteit van de meting in een beslissingscontext: criteriumvaliditeit
30
30
30
34
Itemanalyse
Descriptieve analyse van de itemresponsen
Distractoranalyse (mc-item)
Itemmoeilijkheid: p-waarde
Itemvariantie
Samenhang item-testtotaalscore: itemdiscriminatie
Studie van de relatie tussen de items onderling
35
35
35
36
36
36
38
Beschrijvend/descriptief gebruik van testscores
Transformatie van ruwe testscores
Lineaire transformaties
Niet-lineaire transformaties
Normering
39
39
39
40
42
2. GENERALISEERBAARHEIDSTHEORIE
45
Overzicht
45
Inleiding
45
Situering, basisconcepten en overzicht
45
(Statistisch) model van de generaliseerbaarheidstheorie
Basismodel: gekruist opzet met 1 meetfacet
Model voor gekruist opzet met 2 meetfacetten
Model voor genest opzet met 1 meetfacet
Modellen voor (gedeeltelijk) geneste opzetten met 2 meetfacetten
46
47
48
50
51
Generaliseerbaarheidsstudies (G-studies)
Bepaling van de variantiecomponenten
56
56
Decisiestudies (D-studies)
Meetnauwkeurigheid
Principes van de bepaling van de meetfoutvariantie
Coëfficiënten van meetnauwkeurigheid
Ontwerp D-studies met beoogde meetnauwkeurigheid
56
57
57
58
60
Extra
61
3. ITEMRESPONSTHEORIEËN
63
Overzicht
63
Inleiding
63
Situering, basisconcepten en aannamen
Situering en basisconcepten
Aannamen onderliggend aan IRT voor dichotome items
63
63
64
Soorten Itemresponstheorieën: soorten unidimensionele IRT-modellen voor dichotome items
Deterministische modellen
Guttman model
Stochastische modellen
Normaalogiefmodel (Lord, 1953)
Eén parameter logistisch model: Rasch model
Basisformulering
Multiplicatieve formulering Rasch
Karakteristieken van item- en subjectparameters
Specifieke objectiviteit: vergelijking tussen twee items
Specifieke objectiviteit: enkel Rasch model
Twee- en drie-parameter model
64
65
65
65
65
67
67
67
68
68
69
69
Schatting van de modelparameters: subject- en itemparameters
Schatten van de subjectparameters
Aannemelijkheid van een geheel van antwoordpatronen,
Bij het Rasch model
Eigenschappen van een maximale aannemelijkheidschatter
70
70
71
71
73
Testinformatie en testconstructie
Informatiefunctie van een test
Informatiefunctie van een item
73
73
74
Modeltoetsen
Toets van Wright & Panachapakesan
Toets van Andersen
74
74
75
Toepassingen
Ontwerp mastery tests
Informatiefunctie van een mastery test
Mastery test: hoe?
75
76
76
76
Vertical equating
Item bias
Geautomatiseerd testen
Voordelen
Adaptief testen
Fixed branching
Model based branching
Voordelen
Vergelijking adaptieve test en conventionele test
4. SCHAALMETHODEN
78
78
79
79
79
80
80
81
82
83
Inleiding
83
Overzicht: welke schaaltechnieken/schaalcriteria?
83
Paarsgewijze vergelijking (Wet van het vergelijkend oordeel, Thurstone, 1927)
Inleiding
Overzicht
Passende gegevens
Gegevens: 1 individu
Frequentie-matrix (F-matrix) opstellen, vervolledigen en herordenen
F-matrix van een groep (n = 200)
Herordenen van de F-matrix
Van frequenties (F-matrix) naar proporties (P-matrix)
Van proporties (P-matrix) naar z-waarden (Z-matrix)
Inleiding
Wet van het vergelijkend oordeel (Law of comparative judgement, Thurstone)
Van de P-matrix naar de Z-matrix
Controle interne consistentie
Stap 1: Z’-matrix
Stap 2: P’-Matrix
Stap 3: Vergelijking van de P- met de P’-matrix
Betere toetsing
Wat indien extreme proporties?
Bepaling van de schaalwaarden van de items
83
83
84
84
84
85
85
85
85
86
86
86
89
90
90
90
90
91
91
92
Cumulatieve schalen (criterium)
Dichotome items
Bepaling van de toegestane antwoordpatronen
Voorbeeld: 4 dichotome items
Polychotome items
Representatie van een item met 4 antwoordmogelijkheden
Toegestane antwoordpatronen
Toepassing als schaalcriterium
Reproduceerbaarheidscoëfficiënt
92
93
93
94
94
94
95
96
96
Gelijkschijnende intervallen (Thurstone en Chave, 1929)
Situering
Gegevens
Model
96
96
97
97
Berekening kwartielen
Voorbeeld
Problematische aspecten
98
98
98
Successieve intervallen volgens Edwards
Gegevens
Model
Overzicht
Schatting van de intervalbreedtes
Gegevens (frequentie)
Cumulatieve proportionele matrix (P-matrix)
Z-matrix
Middelste intervallen
Extreme intervallen
Schaalwaarde en ambiguïteitswaarde van de items
Schaalwaarde intervalgrenzen
Schaalwaarde kwartielen voor item 1
Problematische aspecten
99
99
99
99
100
100
100
100
100
101
102
102
102
103
Successieve intervallen volgens Thurstone
103
Summated ratings Likert
Model
Schaling antwoordcategorieën
Gegevens
Φ-coëfficiënt
Voorbeeld
103
103
104
105
105
106
0. Psychometrie
Verantwoordelijk lesgevers



De Corte Wilfried
Leonard Vanbrabant
Sanne Roels
Leerstof
Leerstof = alles wat in de les gezegd wordt (slides overgeslagen = niet kennen)
Vragen?
Als je iets wil weten/hebben/kwijt wil over psychometrie: zie Minerva
Situering
Wat? Formele (i.e., wiskundig-statistische) theorie omtrent het meten in de psychologie
Omvat 2 grotere delen:

Testleer of testtheorie: formele theorie omtrent het meten (= getalwaarde) in de
psychologie gegeven de gescoorde item-, test- of vragenlijstresponsen (hieruit vertrekken
we)
 voornaamste onderdelen:
o
o

Klassieke testtheorie
 Jaren ’40-‘50
 Hoe nauwkeurig meten we?
 Toespitsen op meetnauwkeurigheid/precisie
 Enkel toevallige meetfouten (betrouwbaarheid)
Generaliseerbaarheidstheorie
 Veralgemening KTT: nauwkeurigheid, maar ook systematisch
Itemresponstheorieën
 Van recentere datum
 Respons en achterliggende oorzaak van de respons
Schaalmethoden: meten (schalen) van psychologische objecten (e.g., scoren van item-,
test- of vragenlijstresponsen)
o Data opwaarderen tot interval-ratio niveau
o Toekennen van getalwaarden aan niveaus van respons (gegevens die meestal op
nominaal of ordinaal niveau verzameld worden)
0. Psychometrie
o
1
Overzicht van de lessen









Les 1:
Les 2 & 3:
Les 4:
Les 5:
Les 6 & 7:
Les 8:
Les 9:
Les 10:
Les 11 & 12:
Formulering klassieke testtheorie (KTT)
Betrouwbaarheid
Validiteit en Itemanalyse
Descriptief gebruik testscores
Generaliseerbaarheidstheorie
Itemresponstheorieën 1
Itemresponstheorieën 2
Schaalmethoden 1
Schaalmethoden 2
psfkt05
psbet05
psval05
psdes05
psgen05
psir105
psir205
pssm105
pssm205
Belang
Belang: Psychologie is goeddeels een geheel van “theorieën in wording”. Om deze theorieën op
hun adequaatheid te onderzoeken dienen de erin figurerende constructen vertaald te worden tot
meetbare variabelen


Constructen komen in theorieën voor en staan centraal in de psychologie
Meetbare variabelen zijn noodzakelijk om te kijken of theorieën weerlegbaar zijn of niet
 Meten is weten!
(= vraagstuk van operationalisatie)
Waarom: Het meten van voor de psychologie relevante kenmerken (e.g., intelligentie,
persoonlijkheid, faalangst) stelt speciale problemen

De relevante kenmerken zijn slechts indirect observeerbaar via gerelateerd gedrag
o Bv.: Stress op het werk = niet direct observeerbaar (abstracte wereld)
o Dat gerelateerd gedrag helpt zicht te krijgen op die constructen

De meetresultaten zijn alles behalve nauwkeurig; meetfout is aanzienlijk
o Zie ‘extra’
o De manier van meten dat vervat zit in dat construct kan tegenvallen
Extra

Nominaal: categorie/groep (bv. geslacht)

Ordinaal: volgorde, geen meetschaal (bv. rangschikking wielerwedstrijd)

Interval: meeteenheid, geen vast nulpunt (bv. temperatuur)

Ratio: meeteenheid, vast nulpunt (bv. lengte), schaal nog te kiezen

Absoluut: vaste meeteenheid, vast nulpunt (bv. aantal)
0. Psychometrie
Meetniveau: categorische vs. continue variabelen
2

Nominaal + ordinaal = categorische/discrete variabelen

Interval + ratio + absoluut = continue/numerieke/metrische variabelen

Opmerking: Likert-schalen (ordinaal) worden vaak als continue variabelen beschouwd
vanaf 5-puntschalen en als de scores min of meer ~ N(0,1)
Voorbeeld intervalniveau
volstrekt equivalent  vrij te kiezen nulpunt en meeteenheid (enkel
verhoudingen tussen getalsverschillen zijn vast)
Intervalniveau:
A
B
C
3
5
8
3x4
5x4
8x4
+5
+5
+5
= 17
= 25
= 37
eenheid nulpunt
Voorbeeld van een construct: “Verhaaltje over stress”
Eisen op het werk
Copingstijl
Belasting/spanning
Mate van autonomie
Stress
Sociale stress
 ovaaltjes = constructen (hypothetisch begrip)
Moderatie:

Sociale steun

Copingstijl  aard van relatie is anders bij verschillende copingstijlen
 Stress proberen te meten via gerelateerd gedrag
MAAR: Theorieën gaan over constructen die niet direct geobserveerd kunnen worden


Bv.: IQ, karaktereigenschappen, …
Men moet ze gaan vertalen in meetbare constructen door metingen te ontwerpen
o Bv. bij stress: operationalisatie via observatie en vragenlijsten
 Meetbare variabelen voor élk construct ontwerpen
!!!
PSYCHOMETRIE = OPERATIONALISEREN VAN CONSTRUCTEN
!!!
0. Psychometrie
Bv. de score op een vragenlijst toont aan wat de score is voor een bepaald construct
3
4
0. Psychometrie
1. Formulering Klassieke Testtheorie
Document psfkt05
Overzicht







Wat is een psychologische test?
Klassieke testtheorie als meetmodel
Formulering van de klassieke testtheorie
Betrouwbaarheid: definitie, bepaling en toepassingen
Validiteit
Itemanalyse
Beschrijvend gebruik van testscores
Wat is een psychologische test?

Solliciteert een steekproef van gedragingen (testgedrag = antwoord)

Het testgedrag wordt onder gestandaardiseerde omstandigheden verkregen

Er zijn duidelijk gespecificeerde regels om het bekomen testgedrag te vertalen (schalen)
tot testscores. Het niveau van schalen (meten) kan variëren (tussen verschillende testen).
o Scoring is aan duidelijke specifieke regels gebonden
o Schalen = meten = scoren
o Meestal nominaal/ordinaal

Bv.: totaalscore bij MC
o Gewogen score waarbij gewicht van de items op voorhand wordt vastgelegd
o Validiteit komt ook aan bod bij KTT, maar niet als prioriteit
Verklarende noot
Laag




Nominaal, bv. beroep (= categorieën)
Ordinaal, meeste metingen in de psychologie
(verschillende varianten van het
kenmerk labelen  gradatie binnen het niveau van een kenmerk + orde blijft behouden bij
het toekennen van getallen, bv. hoog – laag)
Interval
o Geen vast nulpunt
o Meeteenheid arbitrair
o Bv. temperatuur
o Bewerkingen: optellen, aftrekken
Ratio, bv. lengte
1. Formulering Klassieke Testtheorie
MEETNIVEAUS
Hoog
5
 via model of theorie tot hoger meetniveau schaling kunnen komen
Klassieke testtheorie als meetmodel

Klassiek meetmodel:
o
o
o
o
KTT: men gaat een model opstellen met een achterliggend echt construct
Item – respons theorie
Latent kenmerk T = de ‘true score’ en aldus niet observeerbaar
Ook de meetfout E is niet direct te observeren

De testscore X is meestal een

De klassieke testtheorie spitst zich toe op de testscore (somscore) en stelt geen model
voorop omtrent de relatie tussen de respons op de individuele testitems en het beoogde
latente kenmerk
o De betekenis van het latente kenmerk heeft een andere invulling en heeft niets te
maken met de in se beoogde meting
o Bv. IQ als true score: intelligentie ≠ betekenis achterliggend construct

De klassieke testtheorie beoogt in eerste instantie het probleem van de
meetnauwkeurigheid aan te pakken
o = problemen met validiteit
o Men gaat niet veel aandacht schenken aan de relatie tussen de testscore en het
latente kenmerk, maar wel aan de relatie tussen de testscore en de meetfout
a priori gewogen somscore
empirisch

De formulering van de KTT gebeurt m.b.v. kansveranderlijken (KV.):
Symbool
Betekenis
Xj
Testscore subject j
Ej
Foutscore subject j
X
Testscore van een willekeurig (random) gekozen subject
E
Foutscore van het willekeurig (random) gekozen subject
* Subscript = individu
Geen subscript = ad random gekozen subject van de populatie
Grote letter: verschil tussen variabelen die wordt gepresenteerd door een kansveranderlijke
Kleine letter: de waarde die daaraan gegeven wordt
1. Formulering Klassieke Testtheorie
Formulering van de klassieke testtheorie
6
Verklarende noot
KANSVERANDERLIJKEN

Discrete vs. continue kansveranderlijken
o
Discrete kansveranderlijke U
 Met elke mogelijke waarde u van U is een kans, P(U = u) = f(u),
geassocieerd  eindig aantal mogelijke waarden
 Voorbeeld: het aantal ogen van een dobbelsteen
o
Continue kansveranderlijke V
 Met elke mogelijke waarde v van V is een kansdichtheid, g(v)dv,
geassocieerd  oneindig aantal mogelijke waarden
 Voorbeeld: lengte
KANSDICHTHEIDSFUNCTIES: f(u), g(v)
Met
∑
,
respectievelijk
∫
DISTRIBUTIE- OF VERDELINGSFUNCTIE VAN EEN KANSVERANDERLIJKE: F(X = t) = P(X ≤ t)

Discrete kansveranderlijke:
∑

Continue kansveranderlijke:
∫
1. Formulering Klassieke Testtheorie
DICHTHEIDSFUNCTIE (DENSITEITSFUNCTIE) f(v)
7
(CUMMULATIEVE) DISTRIBUTIEFUNCTIE (VERDELINGSFUNCTIE) F(v)
VERWACHTING (GEMIDDELDE) VAN DE KANSVERANDERLIJKE

Verwachting van V: E(V)
o
V discreet:
∑
1)
2)
o
∑
Waarde van Vx zijn kans
Som van al deze producten nemen
V continu:
∫
1)
2)
Waarden van Vx zijn kansdichtheid
Dichtheidsfunctie
VARIANTIE EN COVARIANTIE VAN DE KANSVERANDERLIJKE
Variantie van V: Var(V): E [ ( V – E(V) ) ² ]
o
Idee van heterogeniteit van een kansveranderlijke van de populatie
o V discreet:
∑
[(
) ]
o V continu:
∫

[(
) ]
Covariantie van V en W: Cov(V, W) = E [ ( V – E(V) ) ( W – E(W) ) ]
1. Formulering Klassieke Testtheorie

8
CALCULUS KANSVERANDERLIJKEN
Regels i.v.m. verwachting E

a: constante

E(a) = a

E(aX) = aE(X)

E(a + X) = a + E(X)

E(X + Y) = E(X) + E(Y)

Is

X, Y, Y1, …, Yk : kansveranderlijken
∑
∑
(∑
, dan is
)
∑
o
Bv.
o
De coëfficiënten zijn hier niet noodzakelijk 1 en mintekens kunnen voorkomen
X en Y onafhankelijk => E(XY) = E(X) E(Y)
o
Enkel en alleen als X en Y onafhankelijk zijn
o
Covariantie = 0
Regels i.v.m. covariantie en variantie
Cov(X, X) = Var(X)

Cov(X + Y, Y) = Cov(Y, Y) zo Cov(X, Y) = 0

Var(a ± X) = Var(X)

Var(aX) = a²Var(X)

Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)

∑
∑
//
Var(X – Y) = Var(X) + Var(Y) – 2Cov(X, Y)
∑
( )
o
= subscript van de eerste samengestelde kansveranderlijke
o
= subscript van de tweede samengestelde kansveranderlijke
o

o
Bewijs:
[
[
]
(
)
]
1. Formulering Klassieke Testtheorie

9
ANDERE NOTATIE VOOR VERWACHTING, VARIANTIE EN COVARIANTIE



 Bijgevolg:





EXTRA

Wat is de covariantie van een kansveranderlijke Z die een som is van andere
kansveranderlijken, met een kansveranderlijke Y die een som is van dezelfde
kansveranderlijke?

Bv.
en
o

Z = algebraïsche som van

Y = de som van de zelfde oorspronkelijke kansveranderlijken
maar met andere coëfficiënten
o

Covariantie (Z, Y) ?
o
Beroep doen op een matrix: een geordende tabel met waarden
 Variantie-covariantiematrix
en
,
1. Formulering Klassieke Testtheorie
en
10
o
We gaan deze matrix vermenigvuldigen met een vector (rij of kolom vector)


De gewichten waarmee
coëfficiënten
en
gecombineerd worden in Z zijn
Dus: (a, b)
o = product van de elementen uit de rijvector met overeenstemmende elementen in
de matrix
 1e kolom
[
]
 2e kolom
 Nieuwe vector
Formulering KTT: 3 stappen
! Let op voor de notatie !


= de verwachting van de kansveranderlijke (de verwachte waarde is een constante)
= de meetfout
1. FORMULERING KTT VOOR 1 SUBJECT EN 1 TEST
,
met
als de ware testscore van subject j
gedefinieerd als
met
( ): de verwachte waarde van
over (oneindig veel) replicaties
als de meetfout
! De true score
Gevolg 1:
heeft niets te maken met een latent construct  het is niets anders dan een wiskundig gedefinieerde entiteit (en is dus niet de verwachte waarde) !
( )

De over replicaties verwachte meetfout voor subject j = 0

KTT spitst zich bijgevolg toe op toevallige meetfouten (want: bij systematische
meetfouten zou de verwachting niet 0 zijn)

Gevolg 2:
( )
(
1. Formulering Klassieke Testtheorie
en
,
)
11

De variantie van de testscore van subject j is gelijk aan de variantie van de meetfout
( )
Merk tevens op dat gevolg 1 impliceert dat:
(
)
[
( )]
Alternatieve notatie
( )
( )
: de standaardmeetfout voor subject j ; ook nog de voorwaardelijke meetprecisie genoemd
2. FORMULERING KTT VOOR EEN POPULATIE VAN SUBJECTEN EN 1 TEST
, met
en : de testscore, de ware score en de foutscore van een toevallig uit de populatie
gekozen subject
o
De kansveranderlijke X zonder subscript kan variëren over 2 dimensies: over
replicaties en subjecten

De ware score varieert nu over de subjecten en daarom wordt ervoor de notatie voor een
kansariabele (i.e., T) gebruikt

De definitie
( )
blijft behouden
(
Gevolg 1:

( ))
De verwachte foutscore over replicaties en het geheel van subjecten is 0
( )
Gevolg 2:

De variantie van de foutscore over subjecten en replicaties is gelijk aan het gemiddelde
over personen van de individuele meetfoutvarianties

Betekent: de variantie van de kansveranderlijke over personen en replicaties

[
(
)
(
)
(
)
( )
]
[
( )]
1. Formulering Klassieke Testtheorie

12

Voeren we de alternatieve notatie
(
schrijven:
o
voor
in, dan is gevolg 2 ook als volgt te
)
: de standaardmeetfout van de test
(= wortel van de variantie die kan variëren over
personen en replicaties)
Gevolg 3:

De correlaties tussen de foutscores en de ware scores is gelijk aan nul

Merk op dat
en dat
de variantie is van de ware testscores binnen de
populatie van subjecten:

= de true score die varieert over personen
Bemerk ook dat gevolg 3 bewezen is zo we kunnen aantonen dat
[(
)(
[(
)]
)
]
(
(
(
(
))
(
(
))
)
)
( )

De verwachte (of gemiddelde) testscore (over personen en replicaties) is gelijk aan de
verwachte (of gemiddelde) ware score

In alternatieve notatie:
met
en
1. Formulering Klassieke Testtheorie
Gevolg 4:
13
Gevolg 5:

De variantie van de testscores (over personen en replicaties) is gelijk aan de som van de
variantie van de ware scores en de variantie van de foutscores (meetfouten)

In alternatieve notatie:
met
en
SAMENGEVAT:
(
1.
(
2.
( ))
)
3.
4.
5.
3. FORMULERING KTT VOOR EEN POPULATIE VAN SUBJECTEN EN VOOR MEERDERE TESTS
Voor elk van de tests (aangeduid met subscripts g, h) wordt de hiervoor gegeven
karakterisering gehandhaafd
Dus, voor bijvoorbeeld test g geldt opnieuw dat:
, met
,
en
: de
testscore, de ware score en de foutscore van een toevallig (aselect) uit de populatie
gekozen subject op de test g.

Bovenop de hiervoor genoemde gevolgen 1 tot 5 voor elke test afzonderlijk kan, zo
verondersteld wordt dat voor verschillende tests g en h de testscores
en
van een
aselect gekozen individu onafhankelijk (en dus niet covariëren) van elkaar verdeeld zijn, nu ook
het volgende bewezen worden (voor de testen g en h):
Gevolg 6:

(
)
De meetfouten van de ene test zijn niet gecorreleerd met de ware scores van de andere
test
1. Formulering Klassieke Testtheorie

14
Gevolg 7:

(
)
De meetfouten van de ene test zijn niet gecorreleerd met de meetfouten van de andere
test
Recapitulatie verder te gebruiken notatie
De meetfoutvariantie (= variantie van de foutscores/meetfouten van een test)
De standaardmeetfout van een test (= de standaardafwijking van de foutscores
van een test)
De variantie van de testscores van een test
De standaardafwijking van de testscores van een test
De correlatie van de testscores en ware scores van een test
De covariantie van de testscores en de ware scores van een test
Bemerk dat bijvoorbeeld
De covariantie van de meetfout en de ware scores van een test
Bemerk dat
Betrouwbaarheid
Document psbet05
Definitie van de betrouwbaarheid van een test

De betrouwbaarheid van een test wordt gedefinieerd als
maat voor de onvoorwaardelijke meetprecisie
en wordt gezien als een

Het model van de klassieke testtheorie (KTT) impliceert dat
⁄
:
1. Formulering Klassieke Testtheorie
 Het is de gekwadrateerde correlatie van de testscore X . de true score T
15

Omdat

Probleem: Bovenstaande formule laat niet toe de betrouwbaarheid te schatten omdat
noch
noch
gekend zijn

Oplossing: invoeren van de notie van paralleltests:
o
⁄ , is de betrouwbaarheid eveneens gelijk aan
De tests X en X’ zijn paralleltests wanneer voor elk subject j de ware testscores
en
aan elkaar gelijk zijn en de twee tests dezelfde meetfoutvariantie
hebben
o
Uit de definitie van paralleltests volgt dat zo X en X’ paralleltests zijn, ze dezelfde
verwachte (gemiddelde) testscore en dezelfde testscorevariantie hebben:
o
 variantie van de geobserveerde score:
voor elke deeltest dezelfde waarde
1. Formulering Klassieke Testtheorie

16

Zo X’ een paralleltest is van X, dan is de betrouwbaarheid van X,
, gelijk aan
 dit is in principe wel observeerbaar
De betrouwbaarheid van de test X en van (X’) is gelijk aan de correlatie tussen de
testscores van tests X en X’
(*) Men gebruikt hier een regel van calculus van kansveranderlijken die we niet
besproken hebben (komt na vectoren, matrices, …)
Omdat voor elk subject T = T’, is
Bij de formulering van KTT voor meerdere tests zagen we dat
Daarnet toonden we dat

Merk op dat de betrouwbaarheid van een test een niet-negatieve grootheid is, die ten
hoogste gelijk is aan 1

In de praktijk wordt
(een populatiegrootheid) geschat via de steekproefschatter
̂
met
de correlatie tussen de scores op beide testen zoals bekomen bij
een (representatieve) steekproef
NOOT: NOTATIE POPULATIE- EN STEEKPROEFGROOTHEDEN

Zoals hiervoor aangegeven, worden populatiegrootheden middels Griekse letters
genoteerd
1. Formulering Klassieke Testtheorie
Bijgevolg is
17
De corresponderende grootheden, zoals berekend aan de hand van steekproefgegevens,
worden middels Romeinse letter dan wel via het plaatsen van een ‘hoedje’ bovenop de
Griekse letter aangeduid
Voorbeelden:
o
en ̂
of
en ̂
of
o
NOOT: ONDERSCHEID SCHATTER – SCHATTING

Schatter: de regel aan de hand waarvan je een kwantiteit bepaalt (bv. rekenkundig
gemiddelde)

Schatting: daadwerkelijke waarde die je bekomt als je de schatter toepast op een
specifieke steekproef
 Dit onderscheid wordt in de psychometrie niet gemaakt

Methoden om betrouwbaarheid te schatten
Betrouwbaarheid = onvoorwaardelijke meetprecisie, nauwkeurigheid
 Verschillende methoden:
1.
M.b.v. twee paralleltests X en X’. De resulterende schatting
equivalentiecoëfficiënt
̂
is een
2. Twee afnames van dezelfde test (met tijdsinterval). De correlatie tussen de twee
testscores,
wordt een stabiliteitscoëfficiënt genoemd
3. M.b.v. één test die uit k parallele delen met gekende betrouwbaarheid, , bestaat. De
resulterende betrouwbaarheid (in de zin van interne consistentie),
, wordt via de
4. M.b.v. één test die uit k parallele delen met ongekende betrouwbaarheid bestaat. De
betrouwbaarheid (interne consistentie),
, wordt bepaald via coëfficiënt α
(Cronbach’s α)
SPEARMAN-BROWN FORMULE

Testscore op de test, X, is gelijk aan de som van de testscores
delen en de betrouwbaarheid van zo’n deel
, is gekend:
op de k parallelle
(allemaal dezelfde betrouwbaarheid),
1. Formulering Klassieke Testtheorie
Spearman-Brown formule verkregen:
18
∑

Betrouwbaarheid van de test X is, per definitie, gelijk aan
⁄
met
∑
en
∑
o
?
∑
∑
∑
Voor de k parallelle delen is
en h,
. Ook is voor 2 willekeurige delen, g
voor elk subject zodat
 alle deeltesten hebben dezelfde truescore en dezelfde variantie !
o
?
∑
∑
Voor de k parallelle delen is
∑
. Ook is voor 2 willekeurige delen, g
 Bijgevolg is:
De betrouwbaarheid van 1 parallel deel, , is gelijk aan
! Belangrijk te onthouden bij paralleltesten !
 Elke waarde van de verschillende paralleltesten is gelijk
1. Formulering Klassieke Testtheorie
en h,
19
Toepassing 1: Bepaling betrouwbaarheid m.b.v. Spearman-Brown formule

Stel test X bestaat uit 5 parallelle delen,
.40

Betrouwbaarheid test X is dan

Een test die uit meerdere parallelle delen bestaat, is minstens zo betrouwbaar als de
individuele deeltesten
o

Is
, elk met betrouwbaarheid, , gelijk aan
zo
Ja, want

 Hoe meer items, hoe hoger de betrouwbaarheid ( ), bv. MC-examen vs. schriftelijk examen

Stel test X heeft een betrouwbaarheid van .30. Met hoeveel aan X parallelle tests moet X
uitgebreid worden om een test te bekomen die een betrouwbaarheid van minstens .80
heeft?

M.a.w. wat is de minimale waarde voor k zodat

.06
 k (= het aantal deeltesten) moet minstens 10 zijn
1. Formulering Klassieke Testtheorie
Toepassing 2: Verlengen test voor voldoende betrouwbaarheid
20
Toepassing 3: Betrouwbaarheid van een deeltest

Stel test X, bestaande uit 3 parallelle delen, heeft een betrouwbaarheid van .90. Wat is de
betrouwbaarheid van de parallelle delen?

Noteren we
voor de betrouwbaarheid van X en
voor de (onbekende)
betrouwbaarheid van de deeltests, dan laat de Spearman-Brown formule zien dat
volgende gelijkheden moet voldoen:
 dus:
aan de
= .75
VERKLARENDE NOOT
Rekenkundig gemiddelde

, ̅:
Het rekenkundig gemiddelde van n testscores
∑
̅
Steekproefvariantie
De steekproefvariantie van n testscores
COËFFICIËNT

̅
∑
:
(= CHRONBACH’S ALFA)
Zo een test, X, uit k parallelle delen
met ongekende betrouwbaarheid bestaat,
dan kan getoond worden dat de betrouwbaarheid van de test X,
, gelijk is aan:
(
*∑
*

,
∑
)
(
∑
)
 teller = 2 x geheel vd. cov.
= som van de varianties van de deeltesten van test X
= variantie van de geobserveerde scores van de totaaltest X
De bovenstaande gelijkheid geldt tevens zo de delen
essentieel equivalent zijn
 dus: als de deeltesten niet meer parallel zijn, maar wel essentieel equivalent, kun je ook nog de betrouwbaarheid bepalen

De delen
geldt dat

en
zijn essentieel
, met
equivalent zo voor
en
een constante (die kan variëren over de betrokken deeltesten)
Bemerk dat de delen een verschillende foutvariantie kunnen hebben
! Examen: als deeltesten parallel zijn, zijn ze dan essentieel equivalent? JA! (noodzakelijk!)
1. Formulering Klassieke Testtheorie

21

Zo delen niet essentieel equivalent (en niet parallel) zijn, maar wel voldoen aan
en
, met
en
onderschatting van de betrouwbaarheid.

Praktisch belang: coëfficiënt
zin van interne consistentie)
, dan levert coëfficiënt
een
is de meest gebruikte maat voor de betrouwbaarheid (in de
Bepaling coëfficiënt
∑

De formule voor ,

In de praktijk zijn enkel steekproefgegevens beschikbaar. M.b.v. deze laatste gegevens
wordt
met
geschat als ̂
(
(
), betreft populatiegrootheden
∑
)
(̂ is de schatter van )
de steekproefvariantie van de totale testscores en bv.
de steekproefvariantie
van de testscores op deeltest g.

Steekproefgegevens

Rekenkundig gemiddelde totaaltestscores: ̂
1. Formulering Klassieke Testtheorie
Voorbeeld berekening ̂
22

(Steekproef)variantie totaaltestscores:

(Steekproef)variantie deeltestscores
:
d

(Steekproef)varianties deeltestscores

Bijgevolg kan de betrouwbaarheid voor test X geschat worden als
̂

∑
(
Omdat
0.98
)
:
(
niet essentieel
)
equivalent zijn, is de betrouwbaarheid van X minstens
Betrouwbaarheid voor dichotoom gescoorde deeltests (items)

Voor een dichotoom gescoorde deeltest
is de variantie (in de populatie) van de
deeltestscores,
, gelijk aan
, met
de kans dat deeltest (item) goed
beantwoord wordt
In het geval van dichotoom gescoorde deeltests kan de betrouwbaarheid bijgevolg als
volgt geschat worden:
∑
(

De formule
en Richardson (1937).
)
(
∑
(
∑
)
) staat bekend als de coëfficiënt KR20 van Kuder
1. Formulering Klassieke Testtheorie

23
Voorbeeld berekening KR20

∑
(
)

De schatter voor KR20 , ̂

We hebben ̅

Bijgevolg
̂
VERKLARENDE
de
( )
̂
en ∑
,
kan
(
, is:
betrouwbaarheid
∑
(
(
)
)
geschat
worden
als
(minstens)
)
NOOT

Een binaire kansveranderlijke, Y, heeft als mogelijke waarden 1 en 0

De verwachte waarde van Y is
met P(Y = 1) de kans dat Y gelijk is aan 1.
Voor steekproefgegevens wordt de populatiewaarde,
observaties waarvoor Y de waarde 1 heeft.
, geschat via
, de proportie

De variantie van Y,

Voor steekproefgegevens met N observaties wordt de populatiewaarde van de variantie,
, is:
[
]
, geschat als
Toepassingen van betrouwbaarheid
BEPALING STANDAARDMEETFOUT
Standaardmeetfout
1. Formulering Klassieke Testtheorie
Dichotome (binaire) kansveranderlijken
is de standaardafwijking/standaarddeviatie van de foutscore
24

De betrouwbaarheid van een test is gelijk aan

Bijgevolg is

De standaardmeetfout,

De steekproefschatter voor
√
, is dan ook
,
̂
√
, is
SCHATTEN WARE SCORE

De eerste benadering sluit aan op de 1 subject formulering van de KTT en resulteert in een
schatter, ̂ , voor de waarde
van de ware score voor het subject j gegeven de waarde
voor de geobserveerde score van het subject j.

De tweede benadering sluit aan op de populatie formulering van de KTT en resulteert in
de zogenaamde regressieschatter ( ̂ | ) voor de verwachte waarde van de ware score T
gegeven dat (= conditioneel) de geobserveerde score X gelijk is aan .

Mits zekere assumpties leiden de benaderingen tot een betrouwbaarheidsinterval voor de
waarde van de ware score.
Eerste benadering

De waarde van de ware score van subject j wordt geschat als ̂
van de voor het subject j geobserveerde score .

Om het
betrouwbaarheidsinterval (in %) voor te bekomen veronderstellen
we dat de verdeling van de geobserveerde score van een bepaald maar willekeurig

, normaal is met verwachting
Deze assumptie impliceert dat
en variantie
Ofwel:
o
Ofwel:
o
Ofwel:
(
⁄
⁄
(
⁄
)
(i.e.,
)
standaard normaal verdeeld is en dat er een kans
is dat:
o
de waarde
⁄
⁄
)
1. Formulering Klassieke Testtheorie
gekozen individu j,
, met
⁄
25

(
Uit
⁄
⁄
)
⁄
het
de standaard normaal verdeling, volgt dat
een

betrouwbaarheidsinterval voor
Vervangen we nu
⁄
⁄
is.
door de actueel geobserveerde score
dan bekomen we het volgende, geschatte
⁄
de percentielpunt van
en
door de schatter
,
betrouwbaarheidsinterval voor :
⁄
Voorbeeld:

In een steekproef van subjecten is de spreiding (standaarddeviatie) van de geobserveerde
scores,
, gelijk aan 4, de geschatte betrouwbaarheid van de test,
̂, bedraagt
0.75, en subject 7 heeft een geobserveerde score, , van 15.
Waaraan is het 95 procent betrouwbaarheidsinterval gelijk?

Uit
en ̂
volgt dat
̂
. De benodigde
√
√
percentielpunten zijn z0.025 = -1.96 en z0.975 = 1.96.
Bijgevolg is het 95 procent betrouwbaarheidsinterval voor de ware score,
, gegeven
een geobserveerde score van 15, gelijk aan
.
Of nog,
Tweede benadering

Sluit aan bij de populatieredenering van de KTT

Zo verondersteld wordt dat de regressie van T op X lineair is, dan is de regressie(functie)
van T op X gelijk aan
Score T = de verwachte waarde van x

aangezien
,
en
̂

De (regressie)schatter voor de verwachte score ̂ is

Bemerk dat de ordening van de subjecten op grond van de geschatte verwachte ware
score dezelfde is als de ordening op grond van de geobserveerde testscores.
̂
VERKLARENDE NOOT: REGRESSIEFUNCTIE

Zijn X en Y twee kansvariabelen, dan is de regressie(functie) van X op Y gedefinieerd als de
(conditionele) verwachting van X, gegeven dat Y gelijk is aan y,
1. Formulering Klassieke Testtheorie
o
26

Als X en Y gezamenlijk bivariaat normaal verdeeld zijn (d.i.
dan is de regressie(functie) van X op Y lineair.
),
o
Met verwachting
o
o
N2: 2 kansveranderlijken: bivariaatverdeling (x< y gezamenlijk bivariaat verdeeld)
Vet: vector = kolomvector met 2 elementen
en variantie/covariantiematrix
(
)

In dat geval is de (conditionele) verdeling van X gegeven Y = y (i.e., de verdeling van X|y)
eveneens normaal verdeeld.

Voorts is in dat geval:
o
⏟
(cfr. Statistiek II: E(X) = β0 + β1)
⏟
⏟

Tenslotte is de (conditionele) variantie van X, gegeven Y = y, gelijk aan:

Samengevat:
 univariaat verdeeld met conditionele verwachting en conditionele variantie
Vergelijking benadering 1 en benadering 2
Enkel wanneer de geobserveerde score groter is dan het gemiddelde, is ̂ geschat
door de 1ste benadering groter dan wanneer geschat door de 2de benadering. Wanneer de
geobserveerde score kleiner is dan het gemiddelde, gebeurt het omgekeerde.
(Hoe kleiner de betrouwbaarheid, hoe sterker de regressie naar het gemiddelde)
Wat bepaalt de breedte bij

Standaardmeetfout (
de 2de benadering?
Standaardschattingsfout (
)
)
De standaardschattingsfout is sowieso kleiner dan de standaardmeetfout, dus dat
impliceert een kleiner interval bij de 2de benadering.
BEPALING STANDAARDSCHATTINGSFOUT

de 1ste benadering?
(PRECISIE WAARMEE DE WARE SCORE GESCHAT WORDT)
De standaardschattingsfout,
, is de vierkantswortel uit de conditionele variantie van
de ware score T gegeven de waarde x voor de geobserveerde score X.
o De standaardschattingsfout is de precisie waarmee de ware score geschat wordt,
oftewel de conditionele spreiding.
1. Formulering Klassieke Testtheorie

27

Zijn X en T gezamenlijk normaal verdeeld, dan is

Uit
volgt dat
√
√
√
√
zodat
√
met
de standaardmeetfout (minstens gelijk – en meestal hoger – dan de
standaardschattingsfout)
o

De variantie van de true scores kan nooit groter zijn dan de variantie van de
geobserveerde scores (verhouding 0-1)
De (steekproef)schatter van
,
√̂
, is
o
Deze schatter kan gebruikt worden bij een alternatieve bepaling van het
100(
) % betrouwbaarheidsinterval voor de ware score van subject j, tj
o
Het 100(
̂
) % betrouwbaarheidsinterval is:
̂
⁄
⁄
Voorbeeld:

In een steekproef van subjecten is ̅
,
,
Waaraan is het 95 procent betrouwbaarheidsinterval gelijk?

Uit
en ̂
̂
volgt dat
̂
√
en is
en
.
. Voorts is ̂
√
√̂
√
. De
benodigde percentielpunten zijn z0.025 = -1.96 en z0.975 = 1.96.
Bijgevolg is het 95 procent betrouwbaarheidsinterval voor de ware score,
een geobserveerde score van 15, gelijk aan
̂
⁄
, gegeven
̂
⁄
Of nog,
CORRECTIE VOOR ATTENUATIE (CORRELATIE WARE SCORES TEST X MET WARE SCORES TEST Y)

Attenuatie: De correlatie tussen de geobserveerde scores is altijd kleiner dan (of gelijk aan)
de correlatie tussen de true scores.

Meetfouten hebben tot gevolg dat de correlatie/samenhang tussen twee tests
(metingen), X en Y, lager uitvalt dan de werkelijke correlatie/samenhang, dus:
{
met
de correlatie van de geobserveerde scores, gedeeld door een getal kleiner dan 1.
1. Formulering Klassieke Testtheorie
(Volledige betrouwbaarheid: standaardmeetfout en standaardschattingsfout = 0)
28

√
o
√
De validiteitscoëfficiënt
betrouwbaarheid van die test.
√
√
van een test kan nooit groter zijn dan de wortel van de
√
√
want
Voorbeeld:

Stel dat twee tests, X en Y, bij een steekproef van subjecten afgenomen worden. Voor
deze steekproefgegevens zijn de geschatte betrouwbaarheden voor X en Y, ̂
en ̂ ,
beide gelijk aan 0.80. De berekening van de correlatie tussen de scores op X en Y resulteert
in een waarde 0.40 ( i.e., ̂
)

Toepassing van de correctie voor attenuatie levert in dat geval de volgende geschatte
waarde op voor de correlatie tussen de ware scores van X en Y:
√̂

√̂
Correctie voor attenuatie kan ook beperkt worden tot één van de twee metingen (e.g., X
representeert intelligentie en Y correspondeert met lengte):
o

√
Lengte = perfect betrouwbaar te meten: niet nodig (true score van Y = Y zelf)
Bovenstaand speciaal geval laat ook zien dat de validiteitscoëfficiënt
van een test (hier
de correlatie van de test, X, met een willekeurig andere meting, Y) nooit groter kan zijn dan
de wortel uit de betrouwbaarheid van de test
√
√
, want
 er wordt een bovengrens opgelegd
PRECISIE VAN VERSCHILSCORES
Niet te kennen
Enkele problemen i.v.m. de klassieke test / betrouwbaarheids- theorie
De formule voor de betrouwbaarheid van een test X,
, laat duidelijk zien dat
betrouwbaarheid geen karakteristiek van enkel de test is.
De betrouwbaarheid varieert al naargelang de heterogeniteit van de populatie in termen van
de ware testscores.
Bv: De true score op een test numerieke intelligentie zal niet zo’n grote spreiding hebben bij studenten
exacte wetenschappen, i.t.t. studenten psychologie. De betrouwbaarheid van de test is dus afhankelijk
van de variantie in de betrekkelijke populatie, wat maakt dat de test een grotere betrouwbaarheid
heeft voor studenten exacte wetenschappen dan voor studenten psychologie.
1. Formulering Klassieke Testtheorie

29

Soms wordt ook het volgend speciaal geval van de formule voor correctie voor attenuatie als
probleem genoemd, maar dit is geen geldige formule!
o
√
√
Normaal gezien is de correlatie tussen dezelfde test gelijk aan 1, maar door
deze formule wordt hij groter dan 1!
Validiteit
Document psval05
Definitie en traditionele validiteitsstrategieën

Validiteit: de mate waarin de test datgene meet wat hij pretendeert te meten.

Traditioneel zijn er 4 benaderingen die geassocieerd zijn met verschillende nagestreefde
doeleinden, namelijk de:
o
o
o
o

Inhoudsvaliditeit
Constructvaliditeit
Criteriumvaliditeit
Concurrente validiteit
Nu wordt de
namelijk de:
o
o
validiteitsproblematiek
vaak
vanuit
2
perspectieven
benaderd,
Validiteit van de meting op zich
Validiteit van de meting in een beslissingscontext
Validiteit van de meting op zich: inhoudsvaliditeit - constructvaliditeit
Binnen het perspectief van ‘validiteit van de meting op zich’ zijn er 2 hoofdbenaderingen:
o
o


Inhoudsvaliditeit
Constructvaliditeit
De inhoudsvaliditeit is de mate waarin het testgegenereerde gedrag (d.i. het geheel aan
responsen) een representatieve steekproef vormt m.b.t. het te meten kenmerk.
o
Bv: Motivatie (intrinsiek – extrinsiek); een test is niet valide als we maar één van
beiden meten  dat onderscheid moet dus in het meetinstrument vervat zitten
o
De problematiek van inhoudsvaliditeit
generaliseerbaarheidstheorie.
is
verwant
aan
die
van
de
Bij constructvaliditeit stelt men zich de vraag of de test het beoogde construct meet.
o
De constructgeoriënteerde validiteitsstrategie
benaderingen (~ moeder van alle validiteiten)
overkoepelt
de
andere
1. Formulering Klassieke Testtheorie

30
o
Constructvalidering gebeurt a.d.h.v. een nomologisch netwerk i.v.m. het
construct. In het bijzonder door na te gaan of de meting de in het nomologisch
netwerk vooropgestelde interrelaties heeft met de metingen van andere
constructen.




Nomologisch = algemene regels gevend
Dus kijken of de metingen van die constructen (bv. stress – burnout –
gezondheidsklachten) correleren met elkaar
Bijvoorbeeld:
Een veelgebruikte benadering hierbij is de Multitrek Multimethode
(MTMM) aanpak van Campbell en Fiske (1959)
 Er zijn verschillende soorten metingen (= indicatoren) voor
eenzelfde construct
 Er worden 2 vragen gesteld:
o Werd er gemeten volgens dezelfde methode?
o Is het een meting van hetzelfde construct (= zelfde trek)?
 De correlatie van twee verschillende metingen van eenzelfde
construct = de validiteit
1. Formulering Klassieke Testtheorie
MTMM-benadering
31

Bij de MTMM-benadering wordt er een onderscheid gemaakt tussen:
o
Convergente validiteit
 Kunnen we de verwachte verbanden aantonen? (homotrekheteromethode; validiteitsdiagonalen)
 Metingen van eenzelfde kenmerk door verschillende methoden:
correleren goed met elkaar, want correleren wat moet correleren
o
Divergente validiteit:
 Zijn die verbanden die er niet mogen zijn er ook echt niet? (heterotrekmonomethode en heterotrek-heteromethode)
 lage correlatie = goede/hoge validiteit
 Metingen van verschillende kenmerken met dezelfde methode hebben
slechts een kleine correlatie (kleiner dan de correlaties van de metingen
van hetzelfde kenmerk met verschillende methodes), want niet correleren
wat niet mag correleren
Interpretatie van de MTMM correlatiematrix:
o
Zijn de correlaties in de betrouwbaarheidsdiagonaal de grootste?
  Autocorrelaties van een construct met zichzelf (methode 1 – A1 vs.
methode 1 – A1)
o
Zijn de correlaties in de validiteitsdiagonaal voldoende hoog?
  Correlaties tussen dezelfde trekken, maar met andere methodes
(methode 1 – A1 vs. methode 3 – A3)
1. Formulering Klassieke Testtheorie

32
Binnen de heteromethode blokken dienen de validiteitscoëfficiënten hoger te zijn
dan de andere waarden in het blok.
o
Validiteitscoëfficiënten moeten hoger zijn dan de waarden in de heterotrekmonomethode driehoeken.
Vraag: Hoeveel procent van de variantie kan worden toegewezen aan het construct,
hoeveel aan de methode en hoeveel aan de meetfout?
 Variantie van het construct > variantie van de methode > variantie van de meetfout

De interpretatie van MTMM matrices blijft, ondanks de voornoemde principes,
problematisch. Er is een betere benadering mogelijk via structurele
vergelijkingsmodellen.
1. Formulering Klassieke Testtheorie

o
33
Validiteit van de meting in een beslissingscontext: criteriumvaliditeit

Principe: correleren de testscores met de scores van een andere (directe) meting van het
kenmerk of met scores van een ander, nomologisch gerelateerd kenmerk?

Predictieve validiteit vs. gelijktijdige (concurrente) validiteit

Bij predictieve validiteit is range restrictie vaak een probleem.
o

Range restrictieprobleem: de correlatie tussen de test en het criterium wordt te
laag geschat omdat voor het criterium enkel scores beschikbaar zijn voor de voor
de test ‘geslaagde’ subjecten. De spreiding van de scores op de test is ingeperkt.

Bv: Toelatingsproef geneeskunde met X = drempelscore en Y = resultaten
1ste Bachelorstudenten
 een goede toelatingsproef heeft een hoge validiteit (hier: 0.40)

Directe range restrictie
vs.
ste
 1 test is selectiecriterium
indirecte range restrictie
 3de test geldt als selectiecriterium
Er bestaan formules voor de correctie van range restrictie.
Bvb.: formule voor de correctie van de directe range restrictie m.b.t. de predictor, X:
(
√
)
(
)
de spreiding (standaarddeviatie) van de testscores in de totale
groep
de spreiding van de testscores in de geselecteerde groep
de correlatie tussen de predictor X en de criteriumvariabele in de
geselecteerde groep
de voor range restrictie gecorrigeerde correlatie (correlatie tussen
de test en het criterium)

Voorbeeld: TC = kritieke testscore  ≥12/20 mag aan de studie beginnen
o rTC = correlatie tussen de test en het criterium (enkel voor diegenen met ≥12)
o  Onderschatting: niet iedereen zit er in  directe range districtie!
 Ook indirect mogelijk: op grond van een derde meting (niet op grond v. T)
1. Formulering Klassieke Testtheorie
Met:
34

Besluit: De validiteit van een test is een eerder gebrekkige indicator van de waarde van
een test in een beslissingscontext

Een meer adequate benadering via de zogenaamde utiliteitstheorie (betere manier dan de
validiteitcoëfficiënt om de waarde van testgebruik te bepalen en uit te drukken):
o
o
o
Taylor & Russell: schatten van de succesratio van testgebaseerde selecties
 Bv: toelatingsproef geneeskunde
Brogden en Cronbach & Gleser: utiliteit (geldwaarde) van een testgebaseerde
selectie
De Corte: Integratie van beide voorgaande aspecten en uitbreiding naar
gefaseerde testgebaseerde selecties
Itemanalyse
Document psval05

Itemanalyse = onderzoek naar de psychometrische kwaliteit van de items
(de bespreking is hier beperkt tot de procedures die aansluiten bij de KTT)

Doel? Een subset (uit een set items) selecteren van items met gemiddelde
moeilijkheidsgraad en goede discrimineerbaarheid (homogene set verkrijgen), en dit ten
behoeve van de samenstelling van de definitieve set

Itemanalyse omvat:
o
o
o
De descriptieve analyse van de itemresponsen (e.g. de itemmoeilijkheid)
De analyse van de samenhang van de items met de test(totaal)score
De studie van de relatie tussen de items onderling
Descriptieve analyse van de itemresponsen

Stel een multiple choice item met 4 antwoordalternatieven: A, B (correct), C en D. In het
optimaal geval zal elk van de drie distractoren even populair zijn.
o

Populariteit van een distractor: percentage van de subjecten dat de distractor
kiest.
Voorbeeld: 55% lost het item correct op; de optimale populariteit van de distractoren is dan
.

De resultaten van de distractoranalyse kunnen best bekeken worden in het licht van
andere itemanalyseresultaten (bv.: itemmoeilijkheid).
1. Formulering Klassieke Testtheorie
DISTRACTORANALYSE (MC-ITEM)
35
ITEMMOEILIJKHEID: P-WAARDE

De p-waarde is het percentage van de subjecten dat het item correct oplost (of
onderschrijft). Hoe hoger de p-waarde, hoe gemakkelijker het item.
 Bij dichotoom gescoorde items van een attitudevragenlijst wordt de p-waarde
ook wel de (basis)populariteit van een item genoemd (of ook: de proportie
individuen dat akkoord gaat met het item)


Er zijn evidente relaties tussen de itemmoeilijkheid en
o
De itemvariantie (té makkelijke of moeilijke items zorgen voor een lage variantie)
 Cf. de variantie van de scores van een dichotoom item wordt geschat als:
o
De itemdiscriminatie
In het algemeen zijn items met een gemiddelde moeilijkheid te verkiezen (want deze laten
de grootste variantie zien)
ITEMVARIANTIE

Er is een onderscheid tussen metrische items (minstens op intervalniveau) en dichotoom
gescoorde items

Bij metrische items kan de itemvariantie van item i,
, geschat worden via de
∑
Met:




J
xij
, met:
het aantal subjecten
de score van subject j op item i
de gemiddelde itemscore op item i
Voor dichotome items is de steekproefschatter voor de itemvariantie,
(
, gelijk aan:
)
Met:

de moeilijkheid van item i
Samenhang item-testtotaalscore: itemdiscriminatie

Itemdiscriminatie: In hoeverre onderscheidt een item individuen met een hoge totaalscore
van individuen met een lage totaalscore?  ook: itemhomogeniteit (cfr. de notie van
interne consistentie)
1. Formulering Klassieke Testtheorie
steekproefschatter,
36
De samenhang tussen score item i (Xi) en de testtotaalscore (T) is voor metrische items
gelijk aan de correlatie

De waarde van
is te schatten via de productmomentcorrelatiecoëfficiënt
∑
√(∑
(
(
Met:


)(
) ) (∑
(
) )
o
Scores van 8 (i.e., J = 8) subjecten op 4 items
o
De correlatie item 1-tesstotaalscore
√(∑
(
(
is:
)(
) ) (∑
)
(
) )
√
De item-testtotaalscorecorrelatie geeft een wat geflatteerd beeld van de samenhang
omdat het item de totaalscore mee bepaalt. Daarom wordt, vooral in het geval dat de test
weinig items telt, vaak gebruikt gemaakt van de item-restcorrelatie.
o
De item-restcorrelatie voor item i is de correlatie tussen de scores op item i en de
totaalscore verminderd met de score op het item


)
Voorbeeld:
∑

:
de score voor subject j op item i
de testtotaalscore van subject j (heeft niets te maken met een ‘true
score’)
de gemiddelde totaalscore
de gemiddelde score voor item i



:
Voor het voorbeeld is de item-restcorrelatie voor item 1 gelijk aan 0.836
Is het item dichotoom, dan kan de samenhang item-totaalscore bepaald worden door
middel van de punt-biseriële correlatiecoëfficiënt
:
1. Formulering Klassieke Testtheorie

37
√
Met

de gemiddelde testscore van de subjecten die item i correct
oplossen

de gemiddelde testscore van de subjecten die het item fout
oplossen
de moeilijkheid van item i


Voor steekproefgegevens wordt de waarde van de punt-biseriële correlatiecoëfficiënt
op de gebruikelijke manier geschat

Andere soms gebruikte maten voor de samenhang item-totaalscore zijn:
o
De biseriële correlatie tussen een dichotoom item en een metrische totaalscore
 Deze maat is van toepassing zo verondersteld wordt dat de dichotome
itemscores het resultaat zijn van het dichotomiseren van een
onderliggende, continue distributie van itemscores
o
De Ф (phi-) coëfficiënt wanneer zowel de item- als de totaalscore dichotoom zijn
(zie ook verder bij schaaltechnieken)
o
De tetrachorische correlatie wanneer zowel de item- als de totaalscore dichotoom
zijn
 Deze maat is van toepassing zo verondersteld wordt dat de dichotome
itemscores het resultaat zijn van het dichotomiseren van een
onderliggende, continue distributie van item- en totaalscores
Studie van de relatie tussen de items onderling
De
samenhang
tussen
de
items
(inter)itemcorrelatiematrix R, met
o

onderling
(
wordt
)
bepaald
m.b.v.
de
(R = vet: matrix)
Deze (inter)itemcorrelatiematrix is het uitgangspunt voor factoranalyse
Voor metrische items is het algemeen element van R, (
) (het item in de k-de rij en de l-de
kolom) gelijk aan de productmomentcorrelatiecoëfficiënt:
∑
√(∑

(
(
)(
) ) (∑
)
(
) )
Voor dichotome items wordt het algemeen element van R, m.b.v. de Ф-coëfficiënt of de
tetrachorische correlatiecoëfficiënt berekend
1. Formulering Klassieke Testtheorie

38
Beschrijvend/descriptief gebruik van testscores
Document psdes05

Hierbij wordt er een onderscheid gemaakt tussen:
o
De transformatie van ruwe testscores tot:
 Standaardscores
 Percentielscores
 Genormaliseerde scores
o
Normering: het opstellen van normtabellen en het situeren van ruwe scores t.o.v.
normscores
Transformatie van ruwe testscores

Op zich zegt een ruwe score weinig of niks. Ze wordt dan ook vaak getransformeerd tot
een score die duidelijker aangeeft hoe het individu zich situeert t.a.v. de individuen van een
adequaat gekozen referentiegroep

Om een dergelijke transformatie te kunnen uitvoeren, moet het gemiddelde en de
spreiding/standaarddeviatie (of de verdeling van de testscores) binnen de
referentiegroep gekend zijn

Sommige transformaties zijn lineair (i.e. van de soort:
), waarbij het (eventueel)
metrisch niveau van de oorspronkelijke scores wordt behouden
LINEAIRE TRANSFORMATIES

Gegeven:
o
Het gemiddelde ( ) en de spreiding ( ) van de ruwe scores in de referentiegroep
o
Het gemiddelde (
scores
) en spreiding (
De conversie van de ruwe scores X naar de getransformeerde scores X(t) gaat dan:
(
)
Eerst de ruwe scores standaardiseren
Dan vermenigvuldigen met de beoogde deviatie

) van de beoogde, getransformeerde
Dan optellen met het gemiddelde dat je beoogt
Voorbeelden:
o
Omzetting naar standaard- of Z-scores (scores met
(
)
en
):
1. Formulering Klassieke Testtheorie

39
o
Omzetting naar T-scores (scores met
(
en
):
)
NIET-LINEAIRE TRANSFORMATIES

De toepassing van de in de psychometrie gebruikelijke niet-lineaire transformaties
veronderstelt dat de distributie (frequentie) van de ruwe scores binnen de
referentiegroep gegeven is
o
o
o
o

Percentielscores
Decielscores
Genormaliseerde standaard- of T-scores
Stanines (Standard nines)
Opgelet: hier kan het meetniveau veranderen
o
Dus: je moet niet enkel het gemiddelde en de spreiding kennen, maar ook de
frequentieverdeling van de scores binnen de referentiegroep
Percentielscores

De percentielscore van het subject j, Pj, geassocieerd met de ruwe score, Xj, is gelijk aan
het percentage personen in de groep (d.i. de representatieve steekproef en dus niet op
grond van de populatie) dat dezelfde of een lagere ruwe score behaalt

De percentielscore wordt in het algemeen berekend als:
Fj


fj
J
)
de cumulatieve frequentie behorend bij ruwe score Xj (d.i. het
aantal subjecten met een score ten hoogste gelijk aan Xj)
de frequentie waarmee de ruwe score Xj voorkomt
het aantal subjecten in de groep
Voorbeeld: berekening percentielscore
(
)
1. Formulering Klassieke Testtheorie

Met

(
40
Decielscores

De decielscore, Dj, geassocieerd met de ruwe score Xj, is gelijk aan:
(
)

+1
wanneer
géén geheel getal is

+0
wanneer
een geheel getal is
( ) het grootste geheel getal dat kleiner of gelijk is aan
Met

Voorbeelden:
o
( )
o
( )
o
( )
Noot: Standaardnormaaldensiteit en standaardnormaalverdeling

Standaarnormaaldensiteitsfunctie:

Standaardnormaaldistributiefunctie

De functie
Z (d.i. [

De inverse van
, genoteerd als
heeft als element een proportie en als beeld
de met deze proportie overeenstemmende waarde van de standaardscore
met
met
√
∫
Genormaliseerde scores

Principe: De ruwe scores worden zo getransformeerd dat de verdeling van de
getransformeerde scores (nagenoeg) normaal is

Werkwijze:
1.
Omzetten van de ruwe scores
naar percentielscores
2. Omzetten van de percentielscores
(
via:

naar genormaliseerde standaard(normaal)scores
)
1. Formulering Klassieke Testtheorie
heeft als domein de mogelijke waarden voor de standaard(normaal)score
]) en als codomein de mogelijke waarden voor een proportie (d.i. [ ])
Deze zijn nagenoeg normaal verdeeld
41

I.e.,
is de normaalscore zodat
% van de waarden van een
standaardnormaal verdeelde kansvariabele beneden de waarde

Dit is de kwantielfunctie van de normaalverdeling
3. Omzetten van de genormaliseerde standaardscores
naar scores met het gewenste
(
gemiddelde en spreiding via de transformatie:
Met

vallen
)
voor de standaardnormaalscores
Voorbeeld:
 P naar Z tabel gebruiken
 Zj = 1,555 = 1,6
Stanines

Staninescores worden bekomen via een lineaire transformatie van de genormaliseerde
standaardscores

De staninescore,
(
, geassocieerd met een genormaliseerde standaardscore,
, is:
)
Met
: de naar het dichtstbijzijnde gehele getal afgeronde waarde van
(≠ trunceren)
Is

Voorbeeld:
dan
//
Is
, dan
Normering

Normeringonderzoek wordt uitgevoerd teneinde de verdeling te kennen van de
testscores binnen één of meerdere vooraf afgebakende referentie- of normgroepen. De
1. Formulering Klassieke Testtheorie

42
zo bekomen verdeling wordt meestal samengevat in een zogenaamde normtabel (dit is
het resultaat)
Het normeringsonderzoek omvat gebruikelijk de volgende stappen:
1.
Het vastleggen van de beoogde referentiegroepen of –populaties
2. Keuze van de nauwkeurigheid waarmee we de waarde van de populatieparameters
wensen te schatten (deze stap wordt vaak vergeten)

Voorbeeld populatieparameter: het gemiddelde / de variantie van de
testscores binnen de referentiegroep

Voorbeeld nauwkeurigheid: Stel dat de mogelijke testscores liggen tussen
50 en 150. Dan kunnen we bijvoorbeeld vooropstellen dat de (geschatte)
standaardfout van het gemiddelde ̅ ,
(i.e., de geschatte
̅
standaarddeviatie van de steekproevenverdeling van ̅ , of nog: de
geschatte standaardfout van het rekenkundig gemiddelde ), ten hoogste gelijk
is aan 2
3. Afleiden van de minimale steekproefgrootte, gegeven de vooropgestelde
nauwkeurigheid en de (geschatte) waarde van de variantie van de testscores, ,
binnen de normgroep

Voorbeeld: Stel dat we, uitgaand van de vorige situatie, vinden dat
(we weten de waarde van de variantie van de testscores
dus ook de standaarddeviatie
en zo kunnen we
van de geobserveerde ruwe scores in een steekproef
weten).
Gelet op de vereiste nauwkeurigheid dat
, is het benodigd
aantal subjecten, J, te bepalen door het oplossen van de volgende
vergelijking:
√
√
Het benodigd aantal subjecten is dus minimaal 100.
4. Trekken van de benodigde steekproeven, met als doel een steekproef te trekken die
representatief is voor de vooraf gestelde populatie:



Aselecte steekproeven (elk element uit de populatie heeft dezelfde kans
om in de steekproef terecht te komen)
Gestratificeerde steekproeven (eerst een onderverdeling/strata maken,
dan daaruit aselect een steekproef trekken)
Cluster- of getrapte steekproef (een onderverdeling van de
onderverdeling van de onderverdeling maken, dan aselect een steekproef
trekken)
1. Formulering Klassieke Testtheorie

43
5. Berekening van de vereiste testscorestatistieken aan de hand van de bekomen
steekproefgegevens en bundeling ervan in normtabellen
Voorbeeld: normtabellen rekenvaardigheid
1. Formulering Klassieke Testtheorie

44
2. Generaliseerbaarheidstheorie
Document psgen05
Overzicht

Situering, basisconcepten en overzicht
o Generaliseerbaarheidstheorie = een veralgemening van de K.T.T.

(Statistisch) model van de generaliseerbaarheidstheorie

Generaliseerbaarheidsstudies (G-studies): bepaling variantiecomponenten
o Met als doel het schatten van kwantiteiten om nieuwe testinstrumenten te
ontwikkelen (met nauwkeurigheid!)

Decisiestudies
coëfficiënt

En verder …
(D-studies):
schatten
meetfoutvariantie
en
generaliseerbaarheids-
Inleiding

Naast niet-systematische meetfouten zijn er ook systematische meetfouten oftewel
meetaspecten die het resultaat beïnvloeden

Er kan pas vanaf 2 meetfacetten sprake zijn van een interactie-effect (bv: examenvorm én
student)

De generaliseerbaarheidstheorie biedt een veralgemening van de klassieke
betrouwbaarheidstheorie via de modellering van de bronnen van systematische
meetfouten of systematische meetvariatie

 In het bijzonder laat deze generaliseerbaarheidstheorie toe het belang van de diverse
fout- en meetvariatiebronnen te bepalen

Er wordt aandacht besteed aan zowel toevallige als systematische meetfouten
o

Systematische meetfouten zijn variaties in het meetresultaat te wijten aan een
echt kenmerk van de meting
Hierbij is er sprake van een onderscheid (bv: meting kennis psychometrie) tussen:
o
Object van meting: de entiteit waarop het te meten kenmerk betrekking heeft
Bv: de studenten
o
Meetfacetten: aspecten of componenten die het meetresultaat mee bepalen
Bv: examenvorm, beoordelaar
2. Generaliseerbaarheidstheorie
Situering, basisconcepten en overzicht
45

Daarnaast wordt er ook een onderscheid gemaakt tussen:
o
Populatie: het geheel van meetobjecten
o
Universum: de set van alle mogelijke metingen over het geheel (van de
combinaties van de niveaus) van de meetfacetten voor 1 bepaald object
Bv: 20 examenvragen en 10 beoordelaars  universum is 200: geheel van
200 mogelijke metingen/scores die je zou kunnen bekomen

De universumscore
(
) is de verwachte meetscore, over het universum, van het
object van meting
(Statistisch) model van de generaliseerbaarheidstheorie
Hét model van de generaliseerbaarheidstheorie bestaat niet. Er zijn, naargelang de eigen
aard van de meetsituatie, vele modellen mogelijk.
o

Men wil meetinstrumenten ontwerpen die de beoogde generaliseerbaarheid
(nauwkeurigheid, betrouwbaarheid) hebben
De modellen variëren m.b.t.:
o
Het aantal meetfacetten
o
De aard van de meetfacetten: fixed vs. random meetfacetten
o

Fixed: tellen maar een beperkt aantal niveaus (bv. soort examens: MC,
open boek, open vragen en mondeling)

Random: niet beperkt?
De opzet waarin de meetfacetten onderling gecombineerd worden (d.i. factoren
die een aantal niveaus hebben):

Meetfacetten kunnen volledig gekruist zijn (factoriële opzet): elke
beoordelaar beoordeelt hetzelfde deel en hetzelfde aantal vragen (elk
niveau van ene meetfacet combineren met zelfde niveaus van het andere
meetfacet (bv. altijd 3 dezelfde beoordelaars))
 per definitie gebalanceerd

Meetfacetten kunnen volledig genest zijn (volledig geneste of
hiërarchische opzet): elke beoordelaar beoordeelt een ander gedeelte van
de vragen, maar wel hetzelfde aantal (bv. elk niveau van examenvraag is
geassocieerd met verschillende beoordelaars (bv. V1 beoordelaars 1 tot 3
en V2 beoordelaars 4 tot 6))
 Bv: v(b) = vragen genest binnen het facet beoordelaar

Meetfacetten kunnen deels gekruist en deels genest zijn
2. Generaliseerbaarheidstheorie

46
Basismodel: gekruist opzet met 1 meetfacet
 elk subject krijgt dezelfde vragen

: meetscore van de student (meetobject) op examenvorm
 gemiddelde universumscore
 effect van het object van meting
 effect van het meetfacet
 residu
 Er zijn altijd wel een paar fouten/een beetje ruis (+
interactie-effect, maar dat kan niet in het model
worden gestoken)

het populatiegemiddelde (verwachte waarde) van
universumscores
(bv. de verwachte score voor alle studenten en alle examenvragen)

de universumscore van het object van meting (cfr. ware score)
(bv. de verwachte score voor alle niveaus van het meetfacet, dus
alle vragen)

de populatiescore voor niveau
moeilijkheidsgraad van de examenvorm)
het
meetfacet
(cfr.
is een constante;

en
zijn kansvariabelen met waarden die verdeeld zijn/variëren over respectievelijk de
populatie (bv: studenten) en het universum (bv: geheel van mogelijke examenvormen)

Ook
is een kansveranderlijke met verwachting
o

representeert de toevallige meetfout
Verwachting van de effecten:
o
De verwachte waarde van het effect van het meetobject is 0:
(
o
)
De verwachte waarde van het effect van het meetfacet is 0:
(

en variantie
)
Variantie van de effecten:
o
De variantie van het effect van het meetobject komt overeen met de
universumscorevariantie:
[
⏟
]
2. Generaliseerbaarheidstheorie

van
de
47
o
De variantie van het effect van het meetfacet komt overeen met de variantie van
de populatiescores geassocieerd met de (verschillende) niveaus van het
meetfacet:
[
o

⏟
]
De variantie van de meetscores is:
Variantie van de meetscores =
 De variantie van de meetscores =
De variantie t.g.v. verschillen tussen meetobjecten (universumvariantie)
+
De variantie t.g.v. verschillen tussen de niveaus van het meetfacet (d.i. de
systematische variantie die niets te maken heeft met de meting zelf m.b.t.
een bepaald kenmerk, maar er wel effect op heeft)
+
De rest (variantie van de meetfout, toe te schrijven aan een toevallige
meetfout of interactie-effecten)

De varianties

De gebruikelijke manier om het opzet aan te duiden is
o
o
,
en
worden de variantiecomponenten van het model genoemd
De factor die correspondeert met het object van meting is gekruist met de factor
die correspondeert met het meetniveau
Elk model heeft een factor die correspondeert met het object van meting +
meetfacetten …

De meetobjecten (d.i. de niveaus van het object van meting) worden gescoord onder elke
combinatie van niveaus van de meetfacetten

Bijvoorbeeld: Stel 3 examenvormen psychometrie en 2 assistenten die de examens
verbeteren. Elke student (meetobject) beantwoordt de 3 examenvormen en alle examens
worden door beide assistenten verbeterd  er zijn 3 verschillende variatiebronnen:
o
Meetfacet examenvorm met 3 niveaus
o
Meetfacet beoordelaar met 2 niveaus
o
Object van meting
de student
Dus 6 combinaties van de niveaus van de meetfacetten en per student hebben we 6
scores:
 elke willekeurige score:
2. Generaliseerbaarheidstheorie
Model voor gekruist opzet met 2 meetfacetten
48

gemiddelde universumscore
effect van het object van meting s
effect van meetfacet v
E=0
effect van meetfacet b
student x examen effect
student x beoordelaar effect
examen x beoordelaar effect
Interactie-effecten:
slechts 1 meting per
subject
residu, toevallige meetfout (niet volledig zuiver)

het populatiegemiddelde (de verwachte waarde) van de
universumscores

de universumscore van het object van meting (cfr. ware score)

de populatiescore voor niveau van het meetfacet examenvorm
(cfr. moeilijkheidsgraad examenvorm)

de populatiescore voor niveau
(cfr. strengheid beoordelaars)

de gemiddelde score (over de beoordelaars) voor meetobject en
niveau van het meetfacet examenvorm (de moeilijkheidsgraad
van de examenvorm kan variëren over studenten)

de gemiddelde score (over de examenvormen) voor meetobject
en niveau
van het meetfacet beoordelaar (strengheid
beoordelaars kan variëren over studenten)

de gemiddelde score (over studenten) voor examenvorm
beoordeeld door beoordelaar (moeilijkheidsgraad examenvorm
kan variëren over beoordelaars)
is opnieuw een constante, terwijl


,
,
,
,
en
is eveneens een kansveranderlijke met verwachting
Verwachting van de effecten:
⏟
kansvariabelen zijn.
en variantie
2. Generaliseerbaarheidstheorie

van het meetfacet beoordelaar
49

Variantie van de effecten:
o
 variantie van de universumscores
o
 variantie t.g.v. examenvormen
o
 variantie t.g.v. beoordelaars
o
 variantie t.g.v. het variëren van de moeilijkheidsgraad van de
examenvormen over studenten
o
…

De variantiecomponenten van het model zijn nu:

Tenslotte is, analoog
, de variantie van de
meetscores en kan getoond worden dat die variantie van de meetscores:
,
,
,
,
,
,


Dit is een goede meetmethode, want het grootste deel van de variantie wordt verklaard
door de universumvariantie

De gebruikelijke manier om het opzet aan te duiden is
o De factor die correspondeert met het object van meting is gekruist met de factor
die correspondeert met examenvragen en beoordelaars (factor gekruist met 2
meetfacetten)
Model voor genest opzet met 1 meetfacet


 Elke student krijgt hetzelfde aantal vragen, maar niet dezelfde
Een factor, (meetfacet of object van meting), is genest binnen een andere factor,
(meetfacet of object van meting) zo …
o
Meerdere niveaus van met elk niveau van b geassocieerd zijn
o
Verschillende niveaus van met elk niveau van geassocieerd zijn
Bijvoorbeeld: Voor het examen psychometrie zijn 500 vragen gemaakt. Elke student krijgt
een verschillende steekproef van 10 vragen uit dit totaal
o
Object van meting: studenten,
o
Meetfacet: examenvragen,
Maar: elke student krijgt een verschillende set van 10 vragen
 Meetfacet examenvragen is genest binnen studenten
2. Generaliseerbaarheidstheorie
( )
50

Bovenstaand opzet wordt gebruikelijk genoteerd als
meetfacet genest is binnen studenten,
om aan te geven dat het
 Er is dus een interactie tussen het meetfacet en het object van meting

Is
de score van student op vraag , dan is het passend model:
de gemiddelde universumscore,
effect van student
residu, toevallige meetfout



Merk op dat het effect van het meetfacet vragen, (
), niet kan onderscheiden
worden van de toevallige fout,
, en daarom niet gemodelleerd wordt (want het
meetfacet is genest binnen het subject)
en
zijn kansveranderlijken met een verwachting
De variantiecomponenten van het model zijn
o
en
en
met:
, de variantie geassocieerd met het student-effect
o

Opnieuw is de variantie van de meetscores:

o
= de variantie van de meetscore
o
= de variantie van de echte toevallige meetfout
+ de variantie van de
interactie van en + de variantie van het meetfacet
Modellen voor (gedeeltelijk) geneste opzetten met 2 meetfacetten
Bijvoorbeeld: Studenten zijn meetobjecten, (open) examenvragen
meetfacet en beoordelaars het tweede meetfacet.

Er zijn verschillende types van dergelijke geneste opzetten:
o
of
o
( )
o
(
o
o
vormen het eerste
(
of
( )
)
of
(
)( )
=
( ( ))
of
(
)
)( )
( ( ))
 verschillende meetfacetten zijn op verschillende manieren genest
2. Generaliseerbaarheidstheorie

51

Bemerk dat opzetten waarin het aspect i.v.m. het object van meting genest is binnen een
meetfacet (e.g.,
) niet voorkomen. Dergelijke opzetten scheppen problemen
om de variantiecomponent geassocieerd met het object van meting te schatten
Type 1:
(of:
)

Object van meting gekruist met meetfacet examenvragen dat genest zit in meetfacet
beoordelaars

Voorbeeld: Elke student krijgt alle vragen (met, bv.
) en alle studenten worden
door iedere beoordelaar (met, bv
) beoordeeld, maar beoordelaar 1 verbetert
enkel de vragen 1 en 2, terwijl beoordelaar 2 enkel de vragen 3 en 4 beoordeelt
Model:
gemiddelde universumscore
effect van student
effect van beoordelaar
zit genest in  er is dus
geen aparte term voor het
effect van de vragen
ZIT VERVAT IN HET INTERACTIE-EFFECT
student x beoordelaar effect
vragen x beoordelaar effect
Interactie-effecten:
verwachting = 0
 genest, dus zonder +
residu, toevallige meetfout
x ), 2de interactie-effect

Variantie van de meetscores:

Het effect van de examenvraag is verward (confounded) / kan niet onderscheiden worden
van het effect i.v.m. de interactie van vragen en beoordelaar
2. Generaliseerbaarheidstheorie
 puur residuele fout, interactie-effect ( x
( x )
52
Type 2:
(of:
)

Het meetfacet examenvragen dat genest zit in het object van meting, gekruist met het
meetfacet beoordelaars

Voorbeeld: Elke student krijgt een verschillende set van vragen, , en alle examens worden
door iedere beoordelaar, , verbeterd
Model:
gemiddelde universumscore
effect van student
effect van beoordelaar
zit genest in  er is dus
geen aparte term voor het
effect van de vragen
ZIT VERVAT IN HET INTERACTIE-EFFECT
student x beoordelaar effect
student x vragen effect
Interactie-effecten:
verwachting = 0
 genest, dus zonder +
residu, toevallige meetfout
x ), 2de interactie-effect

Variantie van de meetscores:

Het effect van de examenvraag is verward (confounded) / kan niet onderscheiden worden
van het effect i.v.m. de interactie van vragen en student
Type 3:

(
)
(of:
(
))
Het meetfacet examenvragen zit genest in de kruising van het object van meting met het
meetfacet beoordelaars

Voorbeeld: Elke student wordt door iedere beoordelaar geëvalueerd, maar de set van
gescoorde vragen is verschillend voor iedere combinatie van de niveaus van en (de
beoordelaars verbeteren telkens 2 verschillende vragen)
2. Generaliseerbaarheidstheorie
 puur residuele fout, interactie-effect ( x
( x )
53
(
Model:
)
gemiddelde universumscore
effect van student
effect van beoordelaar
student x beoordelaar effect
Interactie-effect:
verwachting = 0
residu, toevallige meetfout
 puur residuele fout, interactie-effect ( x
( x )
x ), 2de interactie-effect

Variantie van de meetscores:

Het effect van de examenvraag is genest binnen de gekruiste opzet van het meetobject en
het meetfacet beoordelaars, waardoor er geen genest interactie-effect is
Type 4:

(
)( ) = (
)( )
De kruising van het meetfacet examenvragen met het meetfacet beoordelaars zit genest
in het object van meting
Voorbeeld: De beoordelaars en de vragen verschillen van student tot student en iedere
beoordelaar van een student scoort alle aan de student gestelde vragen (er zijn
verschillende vragen en elke vraag wordt door dezelfde 2 beoordelaars beoordeeld)
2. Generaliseerbaarheidstheorie

54
(
Model:
Er is geen interactie
tussen en want
deze zit genest in
)( )
gemiddelde universumscore
 je moet dus erbij
nemen
effect van student
student x vragen effect
Interactie-effect:
verwachting = 0
student x beoordelaar effect
residu, toevallige meetfout
 puur residuele fout, interactie-effect ( x
( x )
x ), 2de interactie-effect

Variantie van de meetscores:

Het gekruiste opzet tussen het meetfacet examenvragen en meetfacet beoordelaars zit
genest binnen het meetobject, wat betekent dat er wel interactie-effecten zijn
Type 5:

( ( ))
(of:
( ( )) )
Het meetfacet examenvragen zit genest in het meetfacet beoordelaars, dat op zijn beurt
genest zit in het object van meting
Voorbeeld: De beoordelaars en de vragen verschillen van student tot student en iedere
beoordelaar van een student scoort slechts een deel van de aan de student gestelde
vragen (er zijn 2 verschillende beoordelaars en elke beoordelaar beoordeelt 2 verschillende
vragen)
Model:
( ( ))
gemiddelde universumscore
Er is geen interactie terug te
vinden tussen en want
zit genest in , die genest zit
in
 je moet dus
erbij nemen
effect van student
student x beoordelaar effect
Interactie-effect:
verwachting = 0
residu, toevallige meetfout
 puur residuele fout, interactie-effect ( x
( x )
2. Generaliseerbaarheidstheorie

x ), 2de interactie-effect
55

Variantie van de meetscores:
Generaliseerbaarheidsstudies (G-studies)
Bepaling van de variantiecomponenten

Doel: schatten van de variantiecomponenten voor een zo ruim mogelijk universum van
meetscores (d.i., m.b.t. zo veel mogelijk relevante meetfacetten)

Opmerking: Een volledig gekruist opzet laat, in vergelijking met (partieel) geneste
opzetten, de schatting van een groter aantal variantiecomponenten toe

De actuele bepaling van de waarde van de variantiecomponenten gebeurt m.b.v.
procedures uit de variantie-analyse  dit is een methode van data-analyse
o
De methode is een speciaal geval voor de analyse van responsvariabelen volgens
het algemeen lineair model

Voorbeeld: Een G-studie aan de hand van een volledig gekruist opzet ( x x ) van
studenten ( ), vragen ( ) en beoordelaars ( ) levert, na toepassing van variantie-analyse
de volgende schattingen (notatie: met een hoedje) van de variantiecomponenten:

De schattingen van de variantiecomponenten wijzen op twee problemen:
o
Aanzienlijke verschillen in de moeilijkheid tussen de examenvormen
o
De moeilijkheid van de examenvormen varieert aanzienlijk van student tot student

Doel: gebruik van de in de G-studie bekomen schatting van de variantiecomponenten voor
beslissingen i.v.m. de samenstelling van een meetinstrument met een aanvaardbare
nauwkeurigheid. De beslissingen betreffen o.m. het vereiste aantal niveaus voor de
meetfacetten (Hoeveel vragen? Hoeveel beoordelaars? Welke vorm?)

M.b.t. de nauwkeurigheid van de meting wordt een onderscheid gemaakt tussen de
nauwkeurigheid van:
o
Relatieve metingen: de onderlinge positie van de meetobjecten t.o.v. elkaar
(relatieve positie)  meting beogen op intervalniveau
2. Generaliseerbaarheidstheorie
Decisiestudies (D-studies)
56
o
Absolute metingen: (een schatting van) de absolute universumscore (dit is t.b.v.
de vergelijking met een drempelwaarde)  meting beogen op rationiveau
Bv: examenuitslag vergelijken met een vooropgestelde drempelwaarde
Meetnauwkeurigheid

In de KTT kent men twee maten voor de meetnauwkeurigheid:
o
Onvoorwaardelijke meetnauwkeurigheid: de betrouwbaarheid
o
Voorwaardelijke meetnauwkeurigheid
(

)
met:
(standaardmeetfout) met:
√
Bij de generaliseerbaarheidstheorie wordt de meetnauwkeurigheid van een D-studie in
het algemeen gedefinieerd als:
 Merk op: men gebruikt universumscores i.p.v. truescores

De variantie van de meetfout is afhankelijk van / verschillend naargelang:
o
De opzet van de studie (combinatie van meetfacetten)
o
Het aantal niveaus van de meetfacetten
o
De aard van de meting (d.i. relatieve vs. absolute meting)
Principes van de bepaling van de meetfoutvariantie
Bij de bepaling van de meetfoutvariantie bij een relatieve meting (
), spelen enkel
de variantiecomponenten i.v.m. de interactie van de meetfacetten met het object van
meting een rol, omdat enkel deze effecten de relatieve orde van de meetobjecten
verstoren
o
Voorbeeld: Bij een gekruist opzet ( x
x ) met
object van meting, zijn enkel de componenten

en
,
als meetfacetten en het
en
belangrijk
Bij de bepaling van de meetfoutvariantie bij een absolute meting (
), spelen alle
variantiecomponenten, uitgezonderd de component i.v.m. het meetobject, een rol
o
Voorbeeld: Bij een gekruist opzet ( x
belangrijk
x ) zijn de componenten
,
en
2. Generaliseerbaarheidstheorie

57

Zowel bij de relatieve als bij de absolute meting is de bijdrage van een relevante
variantiecomponent tot de meetfoutvariantie omgekeerd evenredig met het aantal
(combinaties van) niveaus van de meetfacetten die met de component geassocieerd zijn
o
Voorbeeld 1: Bij een gekruist opzet ( x
x ) met
en
object van meting, is
niveaus voor de meetfacetten
o
als meetfacetten en het
, met
en
en in de D-studie
Voorbeeld 2: Bij datzelfde opzet ( x
x ) met
en
als meetfacetten en
object van meting, is
, met
het aantal niveaus voor de meetfacetten
o
Voorbeeld 3: Bij een genest opzet
o
het
en
en in de D-studie
x ( ) met
en
object van meting, is
niveaus voor de meetfacetten
het aantal
als meetfacetten en
, met
en
het
het aantal
en in de D-studie
Voorbeeld 4: Bij datzelfde opzet
x ( ) met
en
als meetfacetten en
object van meting, is
aantal niveaus voor de meetfacetten
, met
en
het
het
en in de D-studie
Coëfficiënten van meetnauwkeurigheid

M.b.t. relatieve metingen wordt de meetnauwkeurigheid van een
meetprocedure uitgedrukt via de generaliseerbaarheidscoëfficiënt, , met:

De componenten van
(dit is
en
beoogde
) worden geschat via de in een
passende G-studie bekomen waarden voor de variantiecomponenten
De -coëfficiënt stemt overeen met de verwachte waarde van de gekwadrateerde
correlatie tussen de geobserveerde scores en de universumscores van de meetobjecten
= (
o
)
Voorbeeld 1: Stel dat een -studie voor een gekruist opzet met
en
als
meetfacetten en het object van meting resulteerde in de volgende schattingen
van de variantiecomponenten:
2. Generaliseerbaarheidstheorie

58
We plannen een -studie met een gekruist opzet waarbij de studenten, , allen
dezelfde twee examenvragen, , afleggen, verbeterd door dezelfde twee
beoordelaars, . In dat geval is:
Voorts is voor de geplande
-studie, op basis van de geschatte
variantiecomponenten, de generaliseerbaarheidscoëfficiënt, , gelijk aan:
̂
o
̂
̂
Voorbeeld 2: Gebruik makend van de gegevens van de vorige -studie plannen we
deze keer een -studie met een gedeeltelijk genest opzet,
, met twee
examenvormen (
) en vier beoordelaars (
):
Voor dit opzet geldt de volgende decompositie:
en is
̂
̂
Voorts is voor de geplande
-studie, op basis van de geschatte
variantiecomponenten, de generaliseerbaarheidscoëfficiënt, , gelijk aan:
o
Voorbeeld 3: Nog steeds gebruik makend van de gegevens van de vorige -studie
plannen we deze keer een -studie met het volgende gedeeltelijk genest opzet,
, met vijf examenvormen (
) en drie beoordelaars (
):
Voor dit opzet geldt de volgende decompositie:
2. Generaliseerbaarheidstheorie
̂
̂
̂
59
̂
̂
en is
̂
̂
Voorts is voor de geplande
-studie, op basis van de geschatte
variantiecomponenten, de generaliseerbaarheidscoëfficiënt, , gelijk aan:
̂

̂
̂
M.b.t. absolute metingen wordt de meetnauwkeurigheid
meetprocedure uitgedrukt via de index of dependability, , met:
van
een
beoogde
Ontwerp D-studies met beoogde meetnauwkeurigheid

Doel: het ontwerpen van meetprocedures m.b.v. een D-studie zodat de meting voldoende
nauwkeurig is (d.w.z. zodat de G-coëfficiënt voldoende hoog is)

Voorbeeld: Aansluitend op de volgende -studie plan ik een meting a.d.h.v. een gekruist
opzet ( x x ), zodat de generaliseerbaarheidscoëfficiënt minstens 0.80 is
 Er zijn minstens 4 beoordelaars en 5 vragen nodig
̂
̂
̂
̂
2. Generaliseerbaarheidstheorie
 Hoeveel examenvormen en/of beoordelaars moet ik minstens inschakelen zodat de Gcoëfficiënt minstens x is?
̂
60

Generaliseerbaarheidstheorie voor het opzetten met zowel fixed (bv: het hele curriculum
beschikbaar, maar we hebben enkel het vak psychometrie nodig) als random
meetfacetten.

Generaliseerbaarheidstheorie voor ongebalanceerde opzetten (d.i. het opzetten met
ongelijke aantallen facetniveaus genest binnen een ander facet)

Multivariate generaliseerbaarheidstheorie
2. Generaliseerbaarheidstheorie
Extra
61
62
2. Generaliseerbaarheidstheorie
3. Itemresponstheorieën
Document psir105
Document psir205
Overzicht

Situering, basisconcepten en aannamen

Soorten Itemresponstheorieën

Schatting subject- en itemparameters

Testinformatie en testconstructie

Modeltoetsen

Toepassingen:
o
o
Geautomatiseerd testen
Adaptief testen
Inleiding

Dit wordt ook wel de Moderne Testtheorie genoemd

De focus ligt op gescoord itemgedrag; men probeert expliciet de relatie tussen het
gescoorde item en het latent kenmerk te modelleren
Situering, basisconcepten en aannamen
Situering en basisconcepten

Itemresponstheorieën betreffen de samenhang tussen het gescoord responsgedrag op
een testitem (d.i. het gescoord antwoord
op testitem ) en de positie van het subject
m.b.t. het vermoede, onderliggende latent kenmerk (d.i. de trekscore van subject op
trek ) 
en zijn kansvariabelen

De samenhang tussen het gescoord antwoord
op testitem
individu
wordt gedefinieerd m.b.v. de regressiefunctie

De regressiefunctie (voor het geheel van mogelijke waarden
van ) wordt ook de
Itemkarakteristieke functie of curve (IKF) of traceline van het item genoemd

Er wordt een onderscheid gemaakt voor itemresponstheorieën voor metrisch en discreet
gescoorde items
o
Bij metrische items is het responsgedrag continu en wordt het metrisch (dus op
interval of ratio niveau) gescoord
o
Bij discrete items is het responsgedrag discreet en wordt het nominaal gescoord
(bv: juist (score 1) of fout (score 0) bij dichotome items)
3. Itemresponstheorieën
en de trekscore van een
63

Itemresponstheorieën kunnen ook opgedeeld worden in latente klassenmodellen (de trek
is discreet, d.w.z. met een beperkt aantal mogelijke waarden) en
latente trekmodellen (de trek is continu)
 Vanaf hier enkel aandacht voor unidimensionele latente trekmodellen voor
discrete (meer bepaald, dichotome) items
Aannamen onderliggend aan IRT voor dichotome items

De itemrespons is een functie van een onderliggend continu latent kenmerk

De items zijn unidimensioneel: één enkele latente trek volstaat om de samenhang tussen
de items te verklaren (d.w.z. dat de items lokaal onafhankelijk zijn)
met
:
de (voorwaardelijke) kans om item correct op te lossen, gegeven
de waarde voor de trek

Al naargelang het IRT model wordt ook een specifieke aanname omtrent de aard van de
regressiefunctie
gemaakt

Bemerk dat met dichotome items:
 Er zijn maar twee mogelijke uitkomsten
Soorten Itemresponstheorieën: soorten unidimensionele IRT-modellen voor
dichotome items

Er wordt een onderscheid
itemresponstheorieën:
gemaakt
tussen
verschillende
modellen
voor
o
Deterministische modellen (de kans heeft maar 2 mogelijke waarden 0 en 1)
o
Probabilistische/stochastische modellen (de kans neemt alle mogelijke waarden
aan tussen 0 en 1)

Parametrische modellen (bij deze modellen is de regressiefunctie
gekenmerkt door een aantal parameters, er wordt verwezen naar de
items)

Niet-parametrische modellen (de functie is niet belast met items)
Hierna worden enkel de meer gebruikelijke parametrische modellen behandeld
3. Itemresponstheorieën

64
Deterministische modellen
GUTTMAN MODEL

Oudste model: ca. 1940 (context: attitudemetingen)

Regressiefunctie
gedefinieerd als:
{

met
de itemmoeilijkheid
Opmerking: dit is niet echt een realistisch model, want het laat maar twee kansen toe, nl. 0
en 1 (het is dus te simpel)
Stochastische modellen
NORMAALOGIEFMODEL (LORD, 1953)
De regressiefunctie (IKF)
[
met
is:
]
∫
(
√
)∫
⁄
de standaardnormaaldistributiefunctie
de standaardnormaaldichtheidsfunctie
 Normaalogiefmodel met 2
itemparameters met waarde 1
3. Itemresponstheorieën

65
[
]
Zeer slecht item, want het
discrimineert niet. Waar je je ook
bevindt op het -continuüm, je hebt
altijd evenveel kans om het item
correct op te lossen
Dit is het makkelijkste item
Dit is het moeilijkste item
Zeer slecht item, maar beter als
traceline (1), want het discrimineert
minimum

is een waarde om te discrimineren tussen een hoge en lage waarde op de trek: hoe
hoger, hoe preciezer het item discrimineert

Bij een parameter gaat het over de moeilijkheid van een item: hoe hoger, hoe meer rechts
de traceline zich bevindt  hoe hoger de waarde
o
Waar je je ook bevindt op het continuüm, …

Je hebt altijd meer kans om item (3) op te lossen dan item (4)

Je hebt altijd meer kans om item (5) op te lossen dan item (6)
Parameters:

: parameter van de discriminatieve kracht van het item

: parameter i.v.m. de moeilijkheid van het item
o
Als
o
Als
o
(( Als
[
[
{
]
voor alle waarden voor
dan is:
]
[ [
]]
[ [
[
]] [
]
]
3. Itemresponstheorieën
o
moet zijn
66
[
[ (

]
√
)]
√
 De helling van de raaklijn voor

is evenredig met
))
Er is echter een numeriek probleem met het normaalogiefmodel: De waarde van de
standaardnormaaldistributiefunctie
is niet analytisch evalueerbaar (het is met andere
woorden moeilijk uit te rekenen wat de waarde is van die functie)
o
Echter:
met
o
: de logistische functie
Dus:
[
]
[
]
Eén parameter logistisch model: Rasch model
BASISFORMULERING

Alle items hebben dezelfde discriminatieve kracht en dan houd je maar 1 parameter over

Regressiefunctie (IKF) van het model is:
[
met
constant voor alle
(
]
)
(
)
kan vervangen worden door
(want de
discriminatieve kracht is voor elk item gelijk)

Noteer:
o
: subject abilit
: itemmoeilijkheid
{
(
dan
)
(
)
Subject ability = de plaats van het subject op het onderliggend continuüm


Immers:
:
:
itemgemakkelijkheid
subject ability
De relatie tussen en is omgekeerd
(kunnen nooit negatieve waarden zijn)
3. Itemresponstheorieën
MULTIPLICATIEVE FORMULERING RASCH
67
Opmerking:
i.t.t.
KARAKTERISTIEKEN VAN ITEM- EN SUBJECTPARAMETERS

Parameters kunnen bepaald worden tot op een additieve resp. multiplicatieve constante:
( )
( )

Item- resp. subjectparameters kunnen onafhankelijk van elkaar bepaald worden:
specifieke objectiviteit
 Welke steekproef we ook gebruiken om de parameters te schatten, de geschatte
parameters zullen altijd dezelfde waarden hebben, op de constante na (afh. van
de formulering). D.w.z. dat we dezelfde schaling zullen vinden
SPECIFIEKE OBJECTIVITEIT: VERGELIJKING TUSSEN TWEE ITEMS

Odd =
:
de kans om het item juist op te lossen in verhouding tot de kans
om het item verkeerd op te lossen

⁄
Odds-ratio voor het oplossen van item vs. :

⁄
{
}

De verhouding tussen de itemgemakkelijkheden is constant, ongeacht de latente
trekscore van de subjecten. Vergelijk met de moeilijkheidswaarden zoals gedefinieerd in de
KTT

Dus bij de vergelijking tussen 2 objecten:
⁄
⁄
3. Itemresponstheorieën
⁄
⁄
68
SPECIFIEKE OBJECTIVITEIT: ENKEL RASCH MODEL

Veronderstelling: tracelines hebben dezelfde helling

Maar: welke van de items de moeilijkste is, hangt af van individu tot individu
o
Subject v vindt item i het moeilijkst om op te lossen, terwijl subject w item j het
moeilijkst vindt (?)
 dat verschil mag niet bij het Rasch model: dus geen sprake van specif. object.
o
De helling van de traceline van de 2 items is verschillend (en beide items hebben
dus een verschillende discriminatieve kracht)
o
Bij het tweede item j is de kans groter dan 0 om het item juist op te lossen, zelfs al
scoor je oneindig laag
Twee- en drie-parameter model

Traceline = discrimineerbaarheid van het item (hoe steiler de helling, hoe beter
discrimineerbaar)

Er is geen specifieke objectiviteit meer, maar de modellen zijn realistischer

Twee-parameter model:
]
 De tracelines hebben een verschillende helling; dit heeft te maken met de aparameter

Drie-parameter model:
(Opgesteld om te vermijden dat mensen juist antwoorden door te gissen)
[
]
met
: gis-coëfficiënt
3. Itemresponstheorieën
[
69
Schatting van de modelparameters: subject- en itemparameters

De modelparameters omvatten het geheel van de item- en de subjectparameters

Bv: Rasch model

o
Itemparameters: de set ,
of
de formulering van het model
o
Subjectparameters: de set
,
met = 1, …,
of
(aantal items), al naargelang
met = 1, …,
(aantal subjecten)
In wat volgt, bekijken we eerst het geval waar de itemparameterwaarden bekend (reeds
geschat) zijn en enkel nog de subjectparameters dienen bepaald te worden
Schatten van de subjectparameters

De itemparameterwaarden zijn reeds bekend/geschat

Het schatten van de subjectparameters gebeurt m.b.v. de methode/het principe van de
maximale aannemelijkheid (vgl. met ‘methode van de kleinste kwadranten’, Statistiek II)

Aannemelijkheid (likelihood): kans van het antwoordpatroon

Notatie: {

Voorbeeld: Voor het antwoordpatroon
is de aannemelijkheid
(cfr. principe van lokale onafhankelijkheid)

Alle drie de componenten kunnen op dezelfde manier worden uitgedrukt (niet soms P,
soms Q)

DUS:
∏
Bemerk dat de aannemelijkheid (likelihood) functie is van de waarde van

Dus: de aannemelijkheid (de kans om het item juist op te lossen) varieert
naargelang de waarde van
3. Itemresponstheorieën
o
met bijvoorbeeld
70

We gaan de hoogste score van corresponderend met de hoogste aannemelijkheid (max.
likelihood) gebruiken als schatter

(( Opmerking:

Schatten van de subjectparameter
betekent zo bepalen dat
maximaal is. M.a.w. bepaal
of
met:
[
{∏
∑
{ (
}
)
∑
(
)}
] : natuurlijke logaritme van de likelihood
{
(een functie van )
}
∑
))
Aannemelijkheid van een geheel van antwoordpatronen,

 de subjecten zijn onderling onafhankelijk, iedere rij is een subject
(
)
∏
∏
 functie van het geheel van subjectparameters
BIJ HET RASCH MODEL
Eigenlijk geen parameter meer

Kans om het item juist op te lossen
Kans om het item fout op te lossen
∏
∏

]
[
]
∏
heeft waarde 0 of waarde 1; deze formule klopt voor beide waarden
De likelihood ( ∏ ) is functie van de waarde van de subjectparameter
multiplicatieve formulering) of van
(basisformulering)
Voorbeeld: Schatting
(in de
, gegeven
Hoe hoger, hoe moeilijker het item

Gegeven:
en
3. Itemresponstheorieën
o
[
71
Itemgemakkelijkheid

Dus:

Probleem: Bepaal

Oplossing: Iteratieve methode

Illustratie berekening aannemelijkheid:
∏
zo, dat
Stel, bijvoorbeeld:
{

De aannemelijkheid
:

Stel, anderzijds,

De aannemelijkheid
maximaal is
{
:
 hier is de aannemelijkheid al heel wat groter
Enzovoort voor andere waarden voor

Overzicht:
……
Maximale aannemelijkheid wordt geprefereerd (toepasbaar;
psychometrie), maar anders is methode van de kleinste kwadraten
(statistiek) ook goed.

Dezelfde schatting van de parameters
3. Itemresponstheorieën

72
Eigenschappen van een maximale aannemelijkheidschatter

Is ̂ een MA-schatter voor , dan is ̂ :
o
Consistent:
(| ̂
|
)
De schatter ̂ convergeert naar (de ware waarde van) naarmate
 het convergeert naar de exacte parameterwaarde naarmate het op een groeiend aantal items
gebaseerd is = consistent
o
Efficiënt: De variantie van de steekproevenverdeling van ̂ (
̂)
is asymptotisch
minimaal
 asymptotisch minimaal (bij groeiend aantal items): zo klein mogelijk (~gekenmerkt door een
steekproevenverdeling met de kleinste variantie)
o
(Asymptotisch) normaal verdeeld
 als het op een groeiend aantal items gebaseerd is, neigt het meer en meer naar een normaalverdeling
(de steekproevenverdeling van )
o
Functie van een voldoende statistiek: Een voldoende statistiek is een functie van
de data (d.i. de gescoorde itemantwoorden) die alle informatie bevatten die nodig
is om de waarde van de parameter te schatten (Statistiek II)


Schatters zijn realisaties van kansveranderlijken
Bv.: Om mijn schatter te bekomen, is de statistiek ( ̅) voldoende. Ik heb de
afzonderlijke scores niet nodig (een statistiek = elke functie van de data (1 element =
een statistiek, som = een statistiek, …)
Testinformatie en testconstructie
Informatiefunctie van een test
De meetprecisie (hoeveelheid info) van een test als functie van de waarde van
(~ voorwaardelijke meetprecisie uit de KTT)
:
̂
(
∑
)
(
)
ALGEMEEN: hoe preciezer je dit kan schatten, hoe
smaller de steekproevenverdeling
ALGEMEEN: generieke vergelijking (geldt voor
elke likelihoodschatter)
∑
RASCH: geldt enkel voor het Rasch-model
met
Bemerk dat
een functie is van
omdat
en
dat zijn
3. Itemresponstheorieën

73
Informatiefunctie van een item

De meetprecisie (hoeveelheid info) van een item als functie van de waarde van
:
RASCH: geldt enkel voor het Rasch-model

Bemerk dat
maximaal is als
(dit is een kans van 0.50 om het item
correct op te lossen)

Voor welke waarde van
item) maximaal zijn?
 Als
zal de waarde van
(= de informatiefunctie van een
precies gelijk is aan de moeilijkheidswaarde van het item

Bemerk dat we, gegeven een schatting voor
en de itemparameters, de meetprecisie
van elk item (ook een nog niet aangeboden item) kunnen berekenen

Dit is een gegeven van groot praktisch belang voor de testconstructie: de test kan aan het
individu aangepast worden (adaptief testen)
Modeltoetsen

De informatiefunctie (van een toets of item) berekenen is niet beperkt tot het Raschmodel, maar kan ook bij andere modellen gebruikt worden, zoals het twee- en drieparameter model. Het Rasch-model is enkel simpeler

Om na te trekken of de assumpties van een IRT-model in overeenstemming zijn met de
data (testen op houdbaarheid), zijn tientallen procedures en toetsen ontwikkeld

Toetsen die natrekken of een itemcollectie voldoet aan de vereisten van het Raschmodel:
o
Toets van Wright & Panachapakesan
o
Toets van Andersen
Toets van Wright & Panachapakesan
[
]
∑
De gestandaardiseerde frequentie wordt gesommeerd
∑
Met
[




[
( )]
]
( )
( )
⁄
3. Itemresponstheorieën

: aantal items
74

: aantal scoregroepen (d.i. groepen van individuen met dezelfde
totaalscore)

: aantal individuen in scoregroep

: aantal individuen uit scoregroep
dat item
correct beantwoordt
(= binomiale kansveranderlijke)

: de uit het model afgeleide kans dat een individu uit scoregroep item
oplost
 Wanneer de toetsgrootheid > de kritieke waarde, wordt de nulhypothese verworpen
Toets van Andersen

De toets is toepasbaar als de individuen op grond van een ander kenmerk dan hun
testscore in groepen kunnen ingedeeld worden
o

Bv.: man-vrouw, leeftijd, kleur van ogen, …
De toets is eveneens een
[
(
]
toets:
̂
∏ ̂
De volledige matrix (bv. groene + bruine + blauwe ogen)
)
Bv. de groep met blauwe ogen
Met
̂ :
de met geschatte parameterwaarden samenhangende likelihood
̂
van de data van subgroep j
de geschatte likelihood voor het geheel van de subgroepen
:
Toepassingen
Er zijn verschillende toepassingen mogelijk van de itemresponstheorieën:
o
Ontwerp mastery tests
o
Vertical equating: het gelijkschakelen van testen die éénzelfde kenmerk meten
maar m.b.t. dit kenmerk een verschillend bereik hebben
o
Item bias: natrekken of testitems bepaalde subjectgroepen benadelen
o
Adaptief testen: testen op maat van het individu

Een test is adaptief zo de keuze van het volgend aan te bieden item
bepaald wordt door het responsgedrag van het individu op de
voorgaande items
3. Itemresponstheorieën

75
Ontwerp mastery tests

Dit is het ontwerpen van een test die zo goed mogelijk discrimineert tussen individuen
die onder een bepaalde vooraf opgestelde kritieke waarde scoren en individuen die
erboven scoren

Masters hebben een trekwaarde
zodat
Non-masters:
o
De trekwaarde moet minstens gelijk zijn aan een vooropgestelde kritieke waarde
(drempel), bv. je slaagt voor het examen psychometrie als je minstens 10/20 haalt
o
Bij non-masters ligt de score lager dan die kritieke drempelwaarde

Een mastery test is een test met een speciale informatiefunctie. Het is namelijk een test
die bijzonder goed discrimineert tussen masters en non-masters, en die m.a.w. zeer
gevoelig is (een grote informatiewaarde heeft) in de nabijheid van de waarde
voor de
latente trek

Deze test wordt vooral toegepast in een educatieve context
 Elk examen beoogt een masterytest te zijn
INFORMATIEFUNCTIE VAN EEN MASTERY TEST

Als we over schattingen van de itemparameterwaarden beschikken, dan kunnen we
technieken voor het oplossen van 0-1 lineair programmeringsproblemen aanwenden
Verklarende noot: (0-1) lineair programmeringsprobleem
o
Een programmeringsprobleem is een probleem waarbij een functie van de
probleemvariabelen
(d.i.
de
doelfunctie)
moet
geoptimaliseerd
(gemaximaliseerd of geminimaliseerd) worden
3. Itemresponstheorieën
MASTERY TEST: HOE?
76
o
Constrained programmeringsprobleem: het optimum van de doelfunctie moet
gevonden worden onder de conditie dat de oplossingswaarden voor de
probleemvariabelen aan een aantal restricties voldoen
o
Lineair programmeringsprobleem: de doelfunctie en restricties zijn lineair in de
probleemvariabelen (anders: niet-lineair programmeringsprobleem)
o
(0-1) programmeringsprobleem: alleen de waarden 0 en 1 zijn toegelaten voor de
probleemvariabelen (dit geldt zowel voor een lineair als een niet-lineair
programmeringsprobleem)
o
Voorbeeld niet-lineair programmeringsprobleem:
(niet-lineaire doelfunctie)
Mits
(lineaire restrictie)
(lineaire restrictie)
Met
de set van probleemvariabelen
Oplossing:
en
waarde voor de doelfunctie

met -
als geoptimaliseerde
Benadering 1: Opstellen van een test met zo weinig mogelijk items die toch voldoende
onderscheid maakt tussen masters en non-masters. D.w.z. een zo kort mogelijke test die
voldoende informatie biedt voor gelijk aan
(d.i. een informatiewaarde minstens
gelijk aan
):
∑
Mits
∑
o
: item i wordt toegelaten in de test
o
: item i wordt niet toegelaten in de test
o

De informatiewaarde van een test is iets minder dan het geheel aan
informatiewaarden van de items. Het doel is dus om die items die voldoende
informatie bieden in de test te steken
Benadering 2: Opstellen van een test die maximaal uit items bestaat en toch zo goed als
mogelijk een onderscheid maakt tussen masters en non-masters:
3. Itemresponstheorieën
Kritieke drempelwaarde voor de trek
Mits
77
∑
o
Met, zoals voorheen,
probleem:
de set van (0-1) variabelen van het programmeringswaarbij
o
: item i wordt toegelaten in de test
o
: item i wordt niet toegelaten in de test
Vertical equating

Dit is het gelijkschakelen van testen die éénzelfde kenmerk meten maar m.b.t. dit
kenmerk een verschillend bereik hebben (Vertical equating kan je hanteren als items
voldoen aan het Rasch model)

Stel testen A en B, met

In het Rasch model:
(̂


̂
̂
∑
gemeenschappelijke items
Itemmoeilijkheden
) en (̂
(̂
̂
̂
) zijn identiek (op een additieve constante
na)
)
Bijvoorbeeld: Numerieke intelligentie bij kinderen
A = 5-7 jaar
en
B = 8-12 jaar
o
Vraag ontwikkelingspsychologie: Groeit numerieke vaardigheid met de leeftijd?
(Hoe evolueert de 1e categorie t.o.v. de 2e categorie?)
o
2 verschillende testen die minimum een aantal items gelijk hebben (test A en B)
 subjectgroepen situeren op eenzelfde schaal: kan niet bij KTT (enkel
binnen subjectgroepvergelijking)
o
Binnen de KTT zijn dit soort vragen moeilijk op te lossen
Item bias

Natrekken of testitems bepaalde subjectgroepen benadelen

Differential Item Functioning (DIF) als indicatie voor item bias: gegeven dezelfde waarde
voor de trek heeft de ene groep systematisch minder kans om het item correct op te
lossen dan de andere groep
Bijvoorbeeld: numerieke vaardigheden
-
Bovenste lijn = mannen
Onderste lijn = vrouwen
 De kans om het item correct op te
lossen is voor vrouwen kleiner dan
voor mannen (discriminatie)
3. Itemresponstheorieën
 Is het zo dat een bepaalde test vrouwen, zwarten, allochtonen, … discrimineert?
78

Nagaan van DIF: Vergelijk de itemparameterschattingen bekomen via aparte analyses van
de subgroepdata
Geautomatiseerd testen

Testafname, scoring en (eventueel) omscoring naar normen gebeurt computergestuurd

Bijvoorbeeld:
o RAVEN MATRICES / WAIS
o MMPI / CATELL16PF
 ability
 persoonlijkheid
VOORDELEN

Afname en scoring zonder personeel

Grotere standaardisatie van de afnamecondities

Snelheid van de afname en de scoring: onmiddellijk scores, normen en profielen

Flexibiliteit in testafname (de test kan aangepast worden aan specifieke noden)

Gemakkelijk bijhouden van data en updaten van normen

Testbeveiliging: geen boekjes die verdwijnen
Adaptief testen

Testen op maat van het individu. Een test is adaptief als de keuze van het volgend aan te
bieden item bepaald wordt door het responsgedrag van het individu op de voorgaande
items
 De aanbieding van het volgende testitem is in functie van het voorafgaande
responsgedrag
Er zijn verschillende types van adaptief testen:
o
Fixed branching
o
Model based branching


Vooral power (capaciteiten, bekwaamheden)
Meestal IRT-gebaseerd
3. Itemresponstheorieën

79
FIXED BRANCHING

Zelfde aantal items per subject (en iedereen begint met hetzelfde item)

De boomstructuur ligt vast (voor het geheel van items)

Keuzes zijn irreversibel

Na elk antwoord is de keuze beperkt tot 2 items (eenvoudig geval)
o
Bv.: wanneer iemand item 2 juist beantwoordde, kan deze item 4 niet meer krijgen

Problematische estimatie subject ability

Bv: De boom is 20 items ‘diep’, maar proefpersonen krijgen mogelijk 20 verschillende items
MODEL BASED BRANCHING

 Vooral power (capaciteiten, bekwaamheden); meestal IRT-gebaseerd

Power (geen speed) tests  praktische beperking voor het soort kenmerken dat je kan
meten

Begin: fixed branching
Eventueel: Bayesiaans algoritme

Eens {
} kan een schatting ̂ (een eerste initiële schatting), van de subjectparameter
via maximum likelihood bepaald worden en kan de
keuze van het volgend item via infomaximalisatie berekend worden (als het subject altijd juist
(de waarde van een trek van een individu)
of fout blijft antwoorden, kan men geen 1e initiële schatting maken)
Het aantal items is niet vast per subject, want de test wordt geconstrueerd op maat van
het individu (het proces van convergerende schattingen zal sneller gaan bij het ene individu dan bij de
ander)
o
( ̂ ) : de informatiewaarde van item
, vertrekkende van de gegeven schatting voor
 doel: item met de meeste informatiewaarde bekomen
3. Itemresponstheorieën

80

Voorbeeld Model Based Branching:
o
o
Startitems:

Populatiegemiddelde


Normgemiddelde
Bayesiaans
We kunnen pas een schatting maken als het individu min. 1 juist en 1 fout
antwoord heeft gegeven, omdat we pas een eindige waarde verkrijgen na 1 juist
en 1 fout antwoord van het subject (niemand is oneindig slim of oneindig dom)
Item met
gestandaardiseerde
moeilijkheid van
1.65 (slechts 5%
antwoordt juist)

Cfr. geautomatiseerd testen

Power van de test is hoger
o
± 50% tijdsefficiënt (bij andere testen moet je eerst alle items door)
o
Uniforme meetaccuraatheid (IRT)
o
Globaal accurater

Meer gemotiveerde subjecten

Item-bias kan nagegaan worden

Vertical equating mogelijk (IRT)

Nog grotere testbeveiliging: geen communicatie over items meer mogelijk
3. Itemresponstheorieën
VOORDELEN
81
VERGELIJKING ADAPTIEVE TEST EN CONVENTIONELE TEST
Meet overal even accuraat
3. Itemresponstheorieën
Nauwkeuriger in het midden
82
4. Schaalmethoden
Document pssm105
Document pssm205
Inleiding

Doel: gegeven passende gegevens, schalen (meten) van psychologische objecten volgens
een bepaald model (theorie)
o Passende gegevens: gegevens van een meetniveau dat niet groter is dan
categorisch of ordinaal niveau  overzetten naar een hoger intervalniveau

Assumptie: unidimensionaliteit  d.w.z. dat er wordt aangenomen dat de te schalen
objecten wezenlijk in slechts één, enkelvoudig aspect van elkaar verschillen
o
 multidimensionaliteit: de te schalen objecten bevatten meerdere aspecten

Schaaltechniek vs. schaalcriterium: bij een schaalcriterium ligt de klemtoon niet op de
schaling van de objecten (= het daadwerkelijk toewijzen van scores aan objecten) maar op
het natrekken van het vooropgesteld model

Belang: constructie van attitudevragenlijsten, enz.
Overzicht: welke schaaltechnieken/schaalcriteria?

Paarsgewijze vergelijking (Wet van het vergelijkend oordeel, Thurstone, 1927)

Cumulatieve schalen (criterium) (eerste IRT, Guttman, ca. 1940)

Gelijkschijnende intervallen (Thurstone en Chave, 1929)

Successieve intervallen volgens Edwards

Successieve intervallen volgens Thurstone (Wet van het categorisch oordeel)

Summated ratings techniek van Likert (1932)
Inleiding

Bijvoorbeeld: het historisch belang van bepaalde figuren schalen
4. Schaalmethoden
Paarsgewijze vergelijking (Wet van het vergelijkend oordeel, Thurstone,
1927)
83
Overzicht






Passende gegevens
Frequentie-matrix (F-matrix) opstellen, vervolledigen en herordenen
Van frequenties naar proporties (P-matrix)
Van proporties naar z-waarden (Z-matrix)
 Interval-meetniveau
Schaalwaarde items bepalen
Controle interne consistentie
Passende gegevens
 Paren toevoegen aan onze objecten:
GEGEVENS: 1 INDIVIDU
-
N = Napoleon
C = Caesar
R = Rousseau
V = Voltaire
E = Einstein
 De rijstimulus wordt verkozen boven de kolomstimulus
0: preferentie kolomstimulus
1: preferentie rijstimulus
Bv.:
Einstein boven Voltaire
Voltaire boven Caesar
En toch Caesar boven Einstein
 intransiviteit
Vóór aggregatie: Zijn er intransiviteiten? Zijn er schendingen op de regel van de
intransitiviteit?
o
Verklarende noot: intransiviteiten


Het keuzepatroon van het individu moet transitief zijn als we de situatie
unidimensioneel bekijken
Dus:
(R,V)
(V,E)
(R,E)
V
E
E

Daartoe vervolledigen van de gegevensmatrix (onderdriehoek): a.d.h.v. de gegevens uit
de bovendriehoek, individu per individu

Alle schendingen over de individuen optellen (men wil die eruit halen)
4. Schaalmethoden

84
Frequentie-matrix (F-matrix) opstellen, vervolledigen en herordenen
F-MATRIX VAN EEN GROEP (N = 200)
 De frequentiematrix geeft aan hoeveel keer de
rijstimulus boven de kolomstimulus verkozen werd
Ordenen van de totaliteit van het geheel van de stimuli
Als er 186 voor Caesar hebben gekozen, dan hebben de
overige 14 personen voor Napoleon gekozen
Totaal van de afwijzingen
Som van de verkozenen en afwijzingen


∑
:
totaal afgewezen
∑
:
totaal verkozen (aantal keer dat een rijstimulus verkozen wordt boven de
kolomstimulus; marginale frequentie)

Bovendriehoek eerst invullen en dan kun je gemakkelijk de onderdriehoek vervolledigen (som = N)

Merk op:
HERORDENEN VAN DE F-MATRIX
 ! ordinale schaling van de objecten !
Van frequenties (F-matrix) naar proporties (P-matrix)
Als je moet kiezen tussen bv. Einstein en Einstein, kies
je het ene moment voor de ene Einstein en het andere
moment voor de andere Einstein
4. Schaalmethoden
 Proporties uitgedrukt in standaarnormaaldeviaties
85
Van proporties (P-matrix) naar z-waarden (Z-matrix)
 Interval-meetniveau
INLEIDING

Waarom? In plaats van een ordinale, beogen we een interval meting

Achtergrond: Law of comparative judgement (Thurstone, 1927)

Praktisch: zie tabel
WET VAN HET VERGELIJKEND OORDEEL (LAW OF COMPARATIVE JUDGEMENT, THURSTONE)
Individuele oordelen

en
: (normaalverdeelde) kansveranderlijken i.v.m. het oordeel (rating)
Stimulus en : {
(̅
)
(̅
)

Vergelijkende oordelen

: vergelijkend oordeel stimulus
(̅
(Zo (
)
) 
Het individueel oordeel van stimulus
heeft een grotere variantie (en spreiding)
dan het individueel oordeel van stimulus
Het verschil van 2 (normaal verdeelde) kansveranderlijken
is ook een (normaal verdeelde) kansveranderlijke
vs.
)
het verschil van 2 individuele oordelen is enkel normaal
verdeeld als de 2 kansveranderlijken bivariaat normaal
verdeeld zijn (niet per definitie)
4. Schaalmethoden

86

: Gestandaardiseerd equivalent
̅


is standaardnormaalverdeeld
De proportie stimulus verkozen boven stimulus is gelijk aan de kans dat een standaardnormaalverdeelde kansveranderlijke kleiner is dan de standaardscore !
((
)
̅
(
Kennen we

)
̅
(
)
)
(
)
?
JA, want bij de standaardnormaalverdeling is er een éénduidige correspondentie tussen
en
zodat we, gegeven
(
)
,
kunnen bepalen
als:
(

Bijgevolg, daar
kwantielfunctie)
)
gekend is, kan
bepaald worden a.d.h.v. de z-tabel (
is een
 Als we de proportie kennen, kunnen we via de tabel vinden wat de waarde is van
het overeenstemmende equivalent van

Bijvoorbeeld:
o
Stel
, dan is de corresponderende waarde
o
Stel
, dan is de corresponderende waarde
4. Schaalmethoden
 Dan: de proporties omzetten naar -waarden
87
Tabel omzetting P-waarde naar z-waarde
Wat weten we nu over ̅ en ̅ ?

̅
Daar
, volgt dat:
̅
̅
̅
̅

̅
Op de meeteenheid (
) na kunnen we het verschil in schaalwaarde van stimulus
en
afleiden uit
Wat omtrent
?

(
)
( )
(
(

(
)
)
)
Correlatie tussen de 2 kansveranderlijken die de
individuele oordelen representeren
Bijgevolg is:
Samenvattend
̅
Standaardnormaalscore (= waarde van het
bijhorend kwantiel)
̅
√
Wortel uit de variantie
4. Schaalmethoden

(
)
88
Case V: het beste onderdeel van ‘Law of Comparative Judgement’
 2 bijkomende veronderstellingen/assumpties
De standaarddeviaties van de kansveranderlijken zijn voor alle individuele oordelen gelijk
√
Stel {
}
{ ̅
̅
√
√
De kansveranderlijken zijn niet gecorreleerd

De keuze van de meeteenheid is vrij bij schaling op intervalniveau! (dus kiezen we hier
√ )  je mag de meeteenheid vrij kiezen (deze varieert niet meer voor paren van stimuli)
VAN DE P-MATRIX NAAR DE Z-MATRIX
P-matrix
Intervalschalen die van elkaar verschillen
op gebied van meeteenheid en nulpunt
Z-matrix
̅
̅
̅
̅
̅
̅
De z-waarden zijn symmetrisch over de diagonaal
̅
̅
̅
̅
̅
̅
De stimulus met de laagste schaalwaarde
wijzen we de waarde 0 toe
4. Schaalmethoden
̅
Dus: alle 3 equivalent
89
Controle interne consistentie

Nagaan of hetgeen dat we hebben vergeleken wel unidimensioneel is (screening): we
kijken of de aannames realistisch zijn
 We komen tot een nominaal niveau.


̅
reconstrueren
pseudo P
pseudo Z
STAP 1: Z’-MATRIX
 reconstructie van de Z-matrix
Schaalwaarde van de stimuli
STAP 2: P’-MATRIX
 corresponderende gereconstrueerde proportiematrix (P-matrix)
4. Schaalmethoden
STAP 3: VERGELIJKING VAN DE P- MET DE P’-MATRIX
90

Gemiddelde absolute verschil P vs. P’: (0.057 + 0.012 + … + 0.094) / 10 = 0.0684
o
o
Wanneer het verschil > 0,05 is  aanname onterecht
Wanneer het verschil < 0,05 is  aanname terecht
BETERE TOETSING
Zie slide 24 en 25: niet te kennen
WAT INDIEN EXTREME PROPORTIES?

Bijvoorbeeld: wanneer je er Hitler zou bijnemen (niemand verkiest hem)
P-matrix
 Stel dat bij een bepaald paar (hier: Einstein – Caesar) iedereen voor dezelfde stimulus
kiest, dan krijgen we een extreme proportie
4. Schaalmethoden
Z-matrix
91
 Dat systeem werkt niet meer bij extreme proporties (en oneindige waarde gaat niet)

Zie z-tabel: het verschil tussen P0.001 en P0.002 is meer dan 200 honderdsten, wat erg groot is
in de vergelijking met de verschillen tussen andere waarden in de tabel. Er is symmetrie,
dus hetzelfde geldt voor P0.998 en P0.999
 ook
en
Bijvoorbeeld: -0.789
Verschillenmatrix
3 schattingen o.b.v. dezelfde kwantiteit, nl. N – E
Gemiddelde schaalwaarden voor de
verschillende schattingen
De schaalwaarde van
V is -0,901 keer groter
dan die van R
Bij de verschillenmatrix moet je beginnen met de onderste rij: die is het verschil met de waarde van de rij erboven
Bepaling van de schaalwaarden van de items

̅
̅
 We kiezen het nulpunt zo dat ̅

̅
̅
̅
̅
(want minst populair?)
⏟
̅

̅
̅
̅
⏟
̅

̅
̅
̅
⏟
Cumulatieve schalen (criterium)

Kenmerken:
o
De schaal is uni-dimensioneel (alle items doen vraag naar hetzelfde aspect)
o
Items hebben een welbepaalde monotone traceline (= weergave van de
regressie)
4. Schaalmethoden
̅
92
*
o
* Vanaf een bepaalde waarde wordt
o
Met
voor
: kans dat men akkoord gaat met het item, op voorwaarde de waarde

De cumulatieve schaaltechniek van Guttman is in eerste instantie een schaalcriterium
(manier om een vooropgestelde hypothese te toetsen), geen (metrische) schaaltechniek

De schaal is cumulatief  dat wil zeggen dat er een beperkt aantal responspatronen zijn
(hier: akkoord (1) vs. niet akkoord (0))

Bijvoorbeeld: dichotome items:
o
# toegestane responspatronen = # items + 1
(niet: 2# items)

 # items = 5

 # toegestane responspatronen = 5 + 1 = 6 (niet: 25 = 32)
Dichotome items
BEPALING VAN DE TOEGESTANE ANTWOORDPATRONEN

3 stappen:
o
Bepaal de basispopulariteit van de items
o
Maak een ordening naar dalende populariteit (proportie individuen uit de
steekproef die akkoord gaan)  volgorde van de tracelines
o
De orde van de tracelines bepaalt de toegestane antwoordpatronen
Er moet verder geen rekening worden gehouden met de exacte waarden van de
populariteit van de items, enkel de ordening is van belang voor de bepaling van het
aantal toegestane antwoordpatronen
4. Schaalmethoden

93
VOORBEELD: 4 DICHOTOME ITEMS

Toegestane responspatronen: 4 items + 1 = 5
I.
II.
III.
IV.
V.

Responsvector (0, 0, 0, 0); kans dat een individu in gebied I akkoord gaat met één
van de items
(0, 1, 0, 0)
(1, 1, 0, 0)
(1, 1, 0, 1)
(1, 1, 1, 1)
Met elk van de vijf zones stemt een bepaald antwoordpatroon overeen. Alle andere
antwoordpatronen mogen niet voorkomen!
Polychotome items
Geen tussenliggende kansen
4. Schaalmethoden
REPRESENTATIE VAN EEN ITEM MET 4 ANTWOORDMOGELIJKHEDEN
94

Bv: ik ga … helemaal akkoord (0) – akkoord (1) – niet akkoord (2) – helemaal niet akkoord (3)
 # tracelines = # antwoordalternatieven – 1 (overgang is het ene antwoord naar het andere)
TOEGESTANE ANTWOORDPATRONEN
Frequentie
Kolommen: percentage individuen
die kozen voor een bepaald item
Bv.: cumulatieve populariteit
= 40 + 30 = 70
(je moet kijken naar wat er naast staat)

Cumulatieve populariteit: de populariteit van deze of een hogere antwoordcategorie

Je kan die tracelines in een tabel zetten
o
8 deelgebieden (7 + 1): Voor elk deelgebied kunnen we nu vaststellen – a.d.h.v. de
tracelines – wat de toegestane antwoordpatronen zijn
4. Schaalmethoden
*
95
Toepassing als schaalcriterium
1e lijn = empirisch antwoordpatroon
2e lijn = theoretisch antwoordpatroon
Voor het aantal fouten: zie
*
vorige pagina
 Totaal fouten: 2 + 0 + 2 + 0 + 2 = 6
De totale score = som item 1 + item 2 + item 3
Reproduceerbaarheidscoëfficiënt

TAF: totaal aantal fouten

TAMF: totaal aantal mogelijke fouten (aantal items x aantal subjecten)
o
Bv: hier: 3 items x 5 subjecten = 15

Reproduceerbaarheidscoëfficiënt =

Bijvoorbeeld: hier:
 Dit is te laag om te geloven (aanvaarden) dat de items voldoen aan het idee van
cumulatieve schalen (minstens 0.80, liefst meer dan 0.90)
Gelijkschijnende intervallen (Thurstone en Chave, 1929)

De methode der gelijkschijnende intervallen werd oorspronkelijk ontwikkeld door
Thurstone en Chave (1929)

De methode van paarsgewijze vergelijking is enkel toepasbaar als het aantal te schalen
objecten klein is (nadeel van die methode)
o
Bv: 200 items;
4. Schaalmethoden
Situering
96

Bij de ontwikkeling van een attitudeschaal vertrekt men evenwel vaak van een groot
aantal items
o

Een mogelijke oplossing hier is dat we enkel die items overhouden die zorgen
voor een grote spreiding
Om de items voor de definitieve schaal te selecteren, willen we de schaalwaarde én de
eenduidigheid of ambiguïteit van de items kennen
o
Bv: qua inhoud is “student zijn is fantastisch” ambigue
Gegevens

De te schalen stimuli (d.i. beweringen in de context van de attitudemeting) worden één
per één aan beoordelaars voorgelegd

Taak van de beoordelaars: het plaatsen van elke stimulus op een reeds in intervallen
opgedeeld positief/negatief continuüm of rating schaal. Elke stimulus dient geplaatst te
worden in het interval dat het beste overeenstemt met de positief/negatieve inhoud van
de bewering
 Rating vraagt uiteindelijk een ordinale meting van het individu. We proberen
niet te veel niveaus te gebruiken en meestal een oneven aantal om een
middelpunt te creëren

De rating schaal (of, attitudecontinuüm) wordt, in geval van bv. 11 intervallen,
gebruikelijk als volgt verankerd:
interval 1 – extreem negatief, interval 6 – neutraal, interval 11 – extreem positief

Per bewering wordt de frequentieverdeling van de antwoorden van de beoordelaars
opgesteld; dit zijn de vertrekgegevens
Model

Assumpties:
o
De beoordelaars percipiëren de intervallen van het attitudecontinuüm als gelijk
van breedte
o
De schaalwaarde en de ambiguïteit van de beweringen kunnen geschat worden
als respectievelijk de mediaan (tweede kwartiel, ) en de interkwartielafstand
(
) van de geassocieerde frequentieverdeling
Uit de initiële set van beweringen wordt een subset geselecteerd zodat de geselecteerde
beweringen goed spreiden over het gehele attitudecontinuüm en dat ze alle een lage
ambiguïteit hebben
4. Schaalmethoden

97
Berekening kwartielen

{
p-de kwartiel:
Met:

}
: de schaalwaarde van de ondergrens van het interval waarbinnen het
kwartiel ligt
: het aantal subjecten
: de cumulatieve frequentie van de beoordelingen tot aan de
ondergrens van
: de frequentie aanstrepingen binnen het interval
: de breedte van het interval (waarbinnen het kwartiel zich bevindt)




VOORBEELD
 Proporties
 Cumulatieve frequentie
 Cumulatieve proporties
{
}
o
{
o
{
}
o
{
}

Ambiguïteit:

Schaalwaarde:
}
Problematische aspecten

In de praktijk gebeurt het vaak dat de beoordelaars nogal wat beweringen in de
extreme intervallen stapelen: het end-effect

Hoewel dit end-effect samenhangt met de gegevensinzamelingsprocedure, suggereert
het eveneens dat de intervallen niet als gelijk van breedte gepercipieerd worden
4. Schaalmethoden

98

Het een en ander wordt bevestigd wanneer de schaalwaarden van stimuli, bepaald
volgens de methode der gelijkschijnende intervallen, vergeleken worden met de
schaalwaarden van diezelfde stimuli zoals verkregen via de methode der paarsgewijze
vergelijking

 Ontwikkeling van de techniek van successieve intervallen
Successieve intervallen volgens Edwards
Gegevens

Dezelfde methode van gegevensverzameling en bijgevolg ook dezelfde gegevens als bij
de methode der gelijkschijnende intervallen
Model

Assumpties:
o De frequentieverdeling van de ratings is een normaalverdeling
o De verdeling van de ratings binnen de extreme intervallen is symmetrisch

Methode der gelijkschijnende intervallen: de schaalwaarde en de ambiguïteit van de
beweringen kunnen geschat worden als de mediaan (tweede kwartiel,
) en de
interkwartielafstand (
) van de geassocieerde frequentieverdeling

De 1ste en de 2de assumptie zijn tegenstrijdig: ze zijn in principe niet verenigbaar
(inconsistentie)
Hoe verder komen?
Overzicht
Verschillende stappen:
o
o
Schatting van de intervalbreedtes

Middelste intervallen

Extreme intervallen (bv. interval 1 (links) en interval 7 (rechts))

 schaalwaarde intervalgrenzen
Schaalwaarde en ambiguïteitswaarde van de items
4. Schaalmethoden

99
Schatting van de intervalbreedtes
GEGEVENS (FREQUENTIE)
 Totaal: 500 beoordelaars
CUMULATIEVE PROPORTIONELE MATRIX (P-MATRIX)
Q1: 0,25
Q2: 0,50
Q3: 0,75
Z-MATRIX
MIDDELSTE INTERVALLEN
 Alles behalve het eerste en het laatste interval
4. Schaalmethoden
Breedte middelste interval
100
 Soms laat een interval geen schatting toe, als het niet gebruikt is door een subject
EXTREME INTERVALLEN
 Het eerste en het laatste interval

Bij extreme intervallen kunnen we niet zoals hierboven te werk gaan, dan zouden we een
onderschatting maken. De ondergrens van het eerste interval is namelijk 0. Om dit op te
lossen, nemen we de helft van de breedte van de proportie. Eigenlijk doen we met deze
correctie nog altijd een onderschatting, maar in de praktijk voldoet dit
Opgelet: dit is een onderschatting!
4. Schaalmethoden
Breedte eerste interval
101
Breedte laatste interval
Schaalwaarde en ambiguïteitswaarde van de items
SCHAALWAARDE INTERVALGRENZEN
De ondergrens (nulpunt) is het punt
dat de geschatte helft is, niet de
werkelijke helft!
SCHAALWAARDE KWARTIELEN VOOR ITEM 1
}
{

}
{
}
{
}
Ambiguïteit:
 Wanneer is de ambiguïteit voldoende laag? Dit kunnen we niet vooraf bepalen
omdat het afhangt van het aantal intervallen dat we gebruiken

4. Schaalmethoden
{
Schaalwaarde:
102
Problematische aspecten

Het model is niet consistent: een aantal assumpties zijn onderling niet verenigbaar.

De praktijk wijst uit dat het end-effect op zijn best slechts partieel opgevangen wordt
o In de zin van het niet overeenstemmen van de intervalschatting van de extreme
stimuli volgens paarsgewijze vergelijking en de successieve intervallen

Een modelmatig attractievere variant is de ‘methode der successieve intervallen’
(Thurstone)
Successieve intervallen volgens Thurstone
NIET TE KENNEN !!
Summated ratings Likert

Schaalconstructie en –afname (responsfase) gebeuren in 1 keer

De items zijn duidelijk positief of negatief van inhoud (het individu wordt direct naar zijn
mening gevraagd)  er zijn dus geen neutrale items

De items hebben een monotone traceline
 Volledig niet akkoord: positief item met een lage waarde voor trek
negatief item met een hoge waarde voor trek

Gegevens: scores op de verschillende antwoordmogelijkheden (1 – 5)

Model

Schaalconstructie
OF

Voor elk item genereren de antwoordcategorieën een partitie (d.i. een opdeling van
intervalletjes van het onderliggend attitude-item) van het attitudecontinuüm
o De antwoorden zijn item per item normaal verdeeld

Niemand zegt dat de intervallen niet kunnen verschillen van item tot items: de schaling
van de intervalgrenzen kan variëren van item tot item (verschillende partities)
4. Schaalmethoden
Model
103
ITEM 1
ITEM 2
ITEM 3
Schaling antwoordcategorieën

Er is een hele hoge correlatie (
) gevonden, dus vanaf nu werken met
standaarscores

Berekenen van de totaalscores met geschaalde scores

Bv: individu 1
totaalscore individu 1
Responsen en hun verdeling zijn een normaalverdeling (binnen de populatie althans)
≠ gelijkschijnende of successieve intervallen (andere frequentieverdeling; hier:
antwoordcategorieën)
zie boven
0.35 + 0.30
0.35 + (½ 0.30)
4. Schaalmethoden

VNA: 0.7
NA: 0.2
? : 0.3
104

Nadien kijken we welke items goed discrimineren (d.i. een item dat een gelijksoortige
opdeling weergeeft voor de gemeten steekproef en voor de totaalscore van de
individuen)  die in de lijst laten
Gegevens
27% met hoogste score
27% met laagste score

: alle individuen die op grond van score op een bepaald item zich als pro hebben laten
kennen (pro voor dat item)

: pro voor dat item, ondanks contra groep

: contra voor dat item, ondanks pro groep

: alle individuen die op grond van score op een bepaald item zich als contra hebben
laten kennen (contra voor dat item)
 Een perfecte overeenstemming laat enkel individuen zien in

en
We proberen 5 antwoordmogelijkheden te reduceren tot 2:
De dichotomiseringslijn zo dat
o
maximaal is
Hier: (129 + 101) – (51 + 23) = 156
Φ-coëfficiënt
De discriminatieve kracht van het item:
√

Echter: let steeds op de betekenis van de cellen A, B, C en D !!
4. Schaalmethoden

105

Trucje:
Voorbeeld
Een negatief item:
Bijvoorbeeld: 50 items (P) en (C)
Alle items die onvoldoende discrimineren (
), laten we vallen
32 items (P) en (C) op grond van de totaalscores van de behouden items
…
Tot het proces stopt!
4. Schaalmethoden

106