Academiejaar 2013-2014 PSYCHOMETRIE 0. Psychometrie LESSEN + NOTA’S Dr. Wilfried De Corte | Door: Delfien Vansteelandt 0 Inhoudsopgave 0. PSYCHOMETRIE 1 Verantwoordelijk lesgevers 1 Leerstof 1 Vragen? 1 Situering 1 Overzicht van de lessen 2 Belang 2 Extra Meetniveau: categorische vs. continue variabelen Voorbeeld intervalniveau Voorbeeld van een construct: “Verhaaltje over stress” 2 2 3 3 1. FORMULERING KLASSIEKE TESTTHEORIE 5 Overzicht 5 Wat is een psychologische test? Verklarende noot Meetniveaus 5 5 5 Klassieke testtheorie als meetmodel 6 Formulering van de klassieke testtheorie Verklarende noot Kansveranderlijken Kansdichtheidsfuncties: f(u), g(v) Distributie- of verdelingsfunctie van een kansveranderlijke: F(X = t) = P(X ≤ t) Dichtheidsfunctie (densiteitsfunctie) f(v) (Cummulatieve) Distributiefunctie (verdelingsfunctie) F(v) Verwachting (gemiddelde) van de kansveranderlijke Variantie en covariantie van de kansveranderlijke Calculus kansveranderlijken Andere notatie voor verwachting, variantie en covariantie Extra Formulering KTT: 3 stappen 1. Formulering KTT voor 1 subject en 1 test 2. Formulering KTT voor een populatie van subjecten en 1 test 3. Formulering KTT voor een populatie van subjecten en voor meerdere tests Recapitulatie verder te gebruiken notatie 6 7 7 7 7 7 8 8 8 9 10 10 11 11 12 14 15 Betrouwbaarheid Definitie van de betrouwbaarheid van een test Noot: notatie populatie- en steekproefgrootheden Noot: onderscheid schatter – schatting Methoden om betrouwbaarheid te schatten Spearman-Brown formule Verklarende noot Coëfficiënt (= Chronbach’s alfa) Verklarende noot Toepassingen van betrouwbaarheid Bepaling standaardmeetfout Schatten ware score Verklarende noot: Regressiefunctie Bepaling standaardschattingsfout (precisie waarmee de ware score geschat wordt) Correctie voor attenuatie (correlatie ware scores test X met ware scores test Y) Precisie van verschilscores Enkele problemen i.v.m. de klassieke test / betrouwbaarheids- theorie 15 15 17 18 18 18 21 21 24 24 24 25 26 27 28 29 29 Validiteit Definitie en traditionele validiteitsstrategieën Validiteit van de meting op zich: inhoudsvaliditeit - constructvaliditeit Validiteit van de meting in een beslissingscontext: criteriumvaliditeit 30 30 30 34 Itemanalyse Descriptieve analyse van de itemresponsen Distractoranalyse (mc-item) Itemmoeilijkheid: p-waarde Itemvariantie Samenhang item-testtotaalscore: itemdiscriminatie Studie van de relatie tussen de items onderling 35 35 35 36 36 36 38 Beschrijvend/descriptief gebruik van testscores Transformatie van ruwe testscores Lineaire transformaties Niet-lineaire transformaties Normering 39 39 39 40 42 2. GENERALISEERBAARHEIDSTHEORIE 45 Overzicht 45 Inleiding 45 Situering, basisconcepten en overzicht 45 (Statistisch) model van de generaliseerbaarheidstheorie Basismodel: gekruist opzet met 1 meetfacet Model voor gekruist opzet met 2 meetfacetten Model voor genest opzet met 1 meetfacet Modellen voor (gedeeltelijk) geneste opzetten met 2 meetfacetten 46 47 48 50 51 Generaliseerbaarheidsstudies (G-studies) Bepaling van de variantiecomponenten 56 56 Decisiestudies (D-studies) Meetnauwkeurigheid Principes van de bepaling van de meetfoutvariantie Coëfficiënten van meetnauwkeurigheid Ontwerp D-studies met beoogde meetnauwkeurigheid 56 57 57 58 60 Extra 61 3. ITEMRESPONSTHEORIEËN 63 Overzicht 63 Inleiding 63 Situering, basisconcepten en aannamen Situering en basisconcepten Aannamen onderliggend aan IRT voor dichotome items 63 63 64 Soorten Itemresponstheorieën: soorten unidimensionele IRT-modellen voor dichotome items Deterministische modellen Guttman model Stochastische modellen Normaalogiefmodel (Lord, 1953) Eén parameter logistisch model: Rasch model Basisformulering Multiplicatieve formulering Rasch Karakteristieken van item- en subjectparameters Specifieke objectiviteit: vergelijking tussen twee items Specifieke objectiviteit: enkel Rasch model Twee- en drie-parameter model 64 65 65 65 65 67 67 67 68 68 69 69 Schatting van de modelparameters: subject- en itemparameters Schatten van de subjectparameters Aannemelijkheid van een geheel van antwoordpatronen, Bij het Rasch model Eigenschappen van een maximale aannemelijkheidschatter 70 70 71 71 73 Testinformatie en testconstructie Informatiefunctie van een test Informatiefunctie van een item 73 73 74 Modeltoetsen Toets van Wright & Panachapakesan Toets van Andersen 74 74 75 Toepassingen Ontwerp mastery tests Informatiefunctie van een mastery test Mastery test: hoe? 75 76 76 76 Vertical equating Item bias Geautomatiseerd testen Voordelen Adaptief testen Fixed branching Model based branching Voordelen Vergelijking adaptieve test en conventionele test 4. SCHAALMETHODEN 78 78 79 79 79 80 80 81 82 83 Inleiding 83 Overzicht: welke schaaltechnieken/schaalcriteria? 83 Paarsgewijze vergelijking (Wet van het vergelijkend oordeel, Thurstone, 1927) Inleiding Overzicht Passende gegevens Gegevens: 1 individu Frequentie-matrix (F-matrix) opstellen, vervolledigen en herordenen F-matrix van een groep (n = 200) Herordenen van de F-matrix Van frequenties (F-matrix) naar proporties (P-matrix) Van proporties (P-matrix) naar z-waarden (Z-matrix) Inleiding Wet van het vergelijkend oordeel (Law of comparative judgement, Thurstone) Van de P-matrix naar de Z-matrix Controle interne consistentie Stap 1: Z’-matrix Stap 2: P’-Matrix Stap 3: Vergelijking van de P- met de P’-matrix Betere toetsing Wat indien extreme proporties? Bepaling van de schaalwaarden van de items 83 83 84 84 84 85 85 85 85 86 86 86 89 90 90 90 90 91 91 92 Cumulatieve schalen (criterium) Dichotome items Bepaling van de toegestane antwoordpatronen Voorbeeld: 4 dichotome items Polychotome items Representatie van een item met 4 antwoordmogelijkheden Toegestane antwoordpatronen Toepassing als schaalcriterium Reproduceerbaarheidscoëfficiënt 92 93 93 94 94 94 95 96 96 Gelijkschijnende intervallen (Thurstone en Chave, 1929) Situering Gegevens Model 96 96 97 97 Berekening kwartielen Voorbeeld Problematische aspecten 98 98 98 Successieve intervallen volgens Edwards Gegevens Model Overzicht Schatting van de intervalbreedtes Gegevens (frequentie) Cumulatieve proportionele matrix (P-matrix) Z-matrix Middelste intervallen Extreme intervallen Schaalwaarde en ambiguïteitswaarde van de items Schaalwaarde intervalgrenzen Schaalwaarde kwartielen voor item 1 Problematische aspecten 99 99 99 99 100 100 100 100 100 101 102 102 102 103 Successieve intervallen volgens Thurstone 103 Summated ratings Likert Model Schaling antwoordcategorieën Gegevens Φ-coëfficiënt Voorbeeld 103 103 104 105 105 106 0. Psychometrie Verantwoordelijk lesgevers De Corte Wilfried Leonard Vanbrabant Sanne Roels Leerstof Leerstof = alles wat in de les gezegd wordt (slides overgeslagen = niet kennen) Vragen? Als je iets wil weten/hebben/kwijt wil over psychometrie: zie Minerva Situering Wat? Formele (i.e., wiskundig-statistische) theorie omtrent het meten in de psychologie Omvat 2 grotere delen: Testleer of testtheorie: formele theorie omtrent het meten (= getalwaarde) in de psychologie gegeven de gescoorde item-, test- of vragenlijstresponsen (hieruit vertrekken we) voornaamste onderdelen: o o Klassieke testtheorie Jaren ’40-‘50 Hoe nauwkeurig meten we? Toespitsen op meetnauwkeurigheid/precisie Enkel toevallige meetfouten (betrouwbaarheid) Generaliseerbaarheidstheorie Veralgemening KTT: nauwkeurigheid, maar ook systematisch Itemresponstheorieën Van recentere datum Respons en achterliggende oorzaak van de respons Schaalmethoden: meten (schalen) van psychologische objecten (e.g., scoren van item-, test- of vragenlijstresponsen) o Data opwaarderen tot interval-ratio niveau o Toekennen van getalwaarden aan niveaus van respons (gegevens die meestal op nominaal of ordinaal niveau verzameld worden) 0. Psychometrie o 1 Overzicht van de lessen Les 1: Les 2 & 3: Les 4: Les 5: Les 6 & 7: Les 8: Les 9: Les 10: Les 11 & 12: Formulering klassieke testtheorie (KTT) Betrouwbaarheid Validiteit en Itemanalyse Descriptief gebruik testscores Generaliseerbaarheidstheorie Itemresponstheorieën 1 Itemresponstheorieën 2 Schaalmethoden 1 Schaalmethoden 2 psfkt05 psbet05 psval05 psdes05 psgen05 psir105 psir205 pssm105 pssm205 Belang Belang: Psychologie is goeddeels een geheel van “theorieën in wording”. Om deze theorieën op hun adequaatheid te onderzoeken dienen de erin figurerende constructen vertaald te worden tot meetbare variabelen Constructen komen in theorieën voor en staan centraal in de psychologie Meetbare variabelen zijn noodzakelijk om te kijken of theorieën weerlegbaar zijn of niet Meten is weten! (= vraagstuk van operationalisatie) Waarom: Het meten van voor de psychologie relevante kenmerken (e.g., intelligentie, persoonlijkheid, faalangst) stelt speciale problemen De relevante kenmerken zijn slechts indirect observeerbaar via gerelateerd gedrag o Bv.: Stress op het werk = niet direct observeerbaar (abstracte wereld) o Dat gerelateerd gedrag helpt zicht te krijgen op die constructen De meetresultaten zijn alles behalve nauwkeurig; meetfout is aanzienlijk o Zie ‘extra’ o De manier van meten dat vervat zit in dat construct kan tegenvallen Extra Nominaal: categorie/groep (bv. geslacht) Ordinaal: volgorde, geen meetschaal (bv. rangschikking wielerwedstrijd) Interval: meeteenheid, geen vast nulpunt (bv. temperatuur) Ratio: meeteenheid, vast nulpunt (bv. lengte), schaal nog te kiezen Absoluut: vaste meeteenheid, vast nulpunt (bv. aantal) 0. Psychometrie Meetniveau: categorische vs. continue variabelen 2 Nominaal + ordinaal = categorische/discrete variabelen Interval + ratio + absoluut = continue/numerieke/metrische variabelen Opmerking: Likert-schalen (ordinaal) worden vaak als continue variabelen beschouwd vanaf 5-puntschalen en als de scores min of meer ~ N(0,1) Voorbeeld intervalniveau volstrekt equivalent vrij te kiezen nulpunt en meeteenheid (enkel verhoudingen tussen getalsverschillen zijn vast) Intervalniveau: A B C 3 5 8 3x4 5x4 8x4 +5 +5 +5 = 17 = 25 = 37 eenheid nulpunt Voorbeeld van een construct: “Verhaaltje over stress” Eisen op het werk Copingstijl Belasting/spanning Mate van autonomie Stress Sociale stress ovaaltjes = constructen (hypothetisch begrip) Moderatie: Sociale steun Copingstijl aard van relatie is anders bij verschillende copingstijlen Stress proberen te meten via gerelateerd gedrag MAAR: Theorieën gaan over constructen die niet direct geobserveerd kunnen worden Bv.: IQ, karaktereigenschappen, … Men moet ze gaan vertalen in meetbare constructen door metingen te ontwerpen o Bv. bij stress: operationalisatie via observatie en vragenlijsten Meetbare variabelen voor élk construct ontwerpen !!! PSYCHOMETRIE = OPERATIONALISEREN VAN CONSTRUCTEN !!! 0. Psychometrie Bv. de score op een vragenlijst toont aan wat de score is voor een bepaald construct 3 4 0. Psychometrie 1. Formulering Klassieke Testtheorie Document psfkt05 Overzicht Wat is een psychologische test? Klassieke testtheorie als meetmodel Formulering van de klassieke testtheorie Betrouwbaarheid: definitie, bepaling en toepassingen Validiteit Itemanalyse Beschrijvend gebruik van testscores Wat is een psychologische test? Solliciteert een steekproef van gedragingen (testgedrag = antwoord) Het testgedrag wordt onder gestandaardiseerde omstandigheden verkregen Er zijn duidelijk gespecificeerde regels om het bekomen testgedrag te vertalen (schalen) tot testscores. Het niveau van schalen (meten) kan variëren (tussen verschillende testen). o Scoring is aan duidelijke specifieke regels gebonden o Schalen = meten = scoren o Meestal nominaal/ordinaal Bv.: totaalscore bij MC o Gewogen score waarbij gewicht van de items op voorhand wordt vastgelegd o Validiteit komt ook aan bod bij KTT, maar niet als prioriteit Verklarende noot Laag Nominaal, bv. beroep (= categorieën) Ordinaal, meeste metingen in de psychologie (verschillende varianten van het kenmerk labelen gradatie binnen het niveau van een kenmerk + orde blijft behouden bij het toekennen van getallen, bv. hoog – laag) Interval o Geen vast nulpunt o Meeteenheid arbitrair o Bv. temperatuur o Bewerkingen: optellen, aftrekken Ratio, bv. lengte 1. Formulering Klassieke Testtheorie MEETNIVEAUS Hoog 5 via model of theorie tot hoger meetniveau schaling kunnen komen Klassieke testtheorie als meetmodel Klassiek meetmodel: o o o o KTT: men gaat een model opstellen met een achterliggend echt construct Item – respons theorie Latent kenmerk T = de ‘true score’ en aldus niet observeerbaar Ook de meetfout E is niet direct te observeren De testscore X is meestal een De klassieke testtheorie spitst zich toe op de testscore (somscore) en stelt geen model voorop omtrent de relatie tussen de respons op de individuele testitems en het beoogde latente kenmerk o De betekenis van het latente kenmerk heeft een andere invulling en heeft niets te maken met de in se beoogde meting o Bv. IQ als true score: intelligentie ≠ betekenis achterliggend construct De klassieke testtheorie beoogt in eerste instantie het probleem van de meetnauwkeurigheid aan te pakken o = problemen met validiteit o Men gaat niet veel aandacht schenken aan de relatie tussen de testscore en het latente kenmerk, maar wel aan de relatie tussen de testscore en de meetfout a priori gewogen somscore empirisch De formulering van de KTT gebeurt m.b.v. kansveranderlijken (KV.): Symbool Betekenis Xj Testscore subject j Ej Foutscore subject j X Testscore van een willekeurig (random) gekozen subject E Foutscore van het willekeurig (random) gekozen subject * Subscript = individu Geen subscript = ad random gekozen subject van de populatie Grote letter: verschil tussen variabelen die wordt gepresenteerd door een kansveranderlijke Kleine letter: de waarde die daaraan gegeven wordt 1. Formulering Klassieke Testtheorie Formulering van de klassieke testtheorie 6 Verklarende noot KANSVERANDERLIJKEN Discrete vs. continue kansveranderlijken o Discrete kansveranderlijke U Met elke mogelijke waarde u van U is een kans, P(U = u) = f(u), geassocieerd eindig aantal mogelijke waarden Voorbeeld: het aantal ogen van een dobbelsteen o Continue kansveranderlijke V Met elke mogelijke waarde v van V is een kansdichtheid, g(v)dv, geassocieerd oneindig aantal mogelijke waarden Voorbeeld: lengte KANSDICHTHEIDSFUNCTIES: f(u), g(v) Met ∑ , respectievelijk ∫ DISTRIBUTIE- OF VERDELINGSFUNCTIE VAN EEN KANSVERANDERLIJKE: F(X = t) = P(X ≤ t) Discrete kansveranderlijke: ∑ Continue kansveranderlijke: ∫ 1. Formulering Klassieke Testtheorie DICHTHEIDSFUNCTIE (DENSITEITSFUNCTIE) f(v) 7 (CUMMULATIEVE) DISTRIBUTIEFUNCTIE (VERDELINGSFUNCTIE) F(v) VERWACHTING (GEMIDDELDE) VAN DE KANSVERANDERLIJKE Verwachting van V: E(V) o V discreet: ∑ 1) 2) o ∑ Waarde van Vx zijn kans Som van al deze producten nemen V continu: ∫ 1) 2) Waarden van Vx zijn kansdichtheid Dichtheidsfunctie VARIANTIE EN COVARIANTIE VAN DE KANSVERANDERLIJKE Variantie van V: Var(V): E [ ( V – E(V) ) ² ] o Idee van heterogeniteit van een kansveranderlijke van de populatie o V discreet: ∑ [( ) ] o V continu: ∫ [( ) ] Covariantie van V en W: Cov(V, W) = E [ ( V – E(V) ) ( W – E(W) ) ] 1. Formulering Klassieke Testtheorie 8 CALCULUS KANSVERANDERLIJKEN Regels i.v.m. verwachting E a: constante E(a) = a E(aX) = aE(X) E(a + X) = a + E(X) E(X + Y) = E(X) + E(Y) Is X, Y, Y1, …, Yk : kansveranderlijken ∑ ∑ (∑ , dan is ) ∑ o Bv. o De coëfficiënten zijn hier niet noodzakelijk 1 en mintekens kunnen voorkomen X en Y onafhankelijk => E(XY) = E(X) E(Y) o Enkel en alleen als X en Y onafhankelijk zijn o Covariantie = 0 Regels i.v.m. covariantie en variantie Cov(X, X) = Var(X) Cov(X + Y, Y) = Cov(Y, Y) zo Cov(X, Y) = 0 Var(a ± X) = Var(X) Var(aX) = a²Var(X) Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y) ∑ ∑ // Var(X – Y) = Var(X) + Var(Y) – 2Cov(X, Y) ∑ ( ) o = subscript van de eerste samengestelde kansveranderlijke o = subscript van de tweede samengestelde kansveranderlijke o o Bewijs: [ [ ] ( ) ] 1. Formulering Klassieke Testtheorie 9 ANDERE NOTATIE VOOR VERWACHTING, VARIANTIE EN COVARIANTIE Bijgevolg: EXTRA Wat is de covariantie van een kansveranderlijke Z die een som is van andere kansveranderlijken, met een kansveranderlijke Y die een som is van dezelfde kansveranderlijke? Bv. en o Z = algebraïsche som van Y = de som van de zelfde oorspronkelijke kansveranderlijken maar met andere coëfficiënten o Covariantie (Z, Y) ? o Beroep doen op een matrix: een geordende tabel met waarden Variantie-covariantiematrix en , 1. Formulering Klassieke Testtheorie en 10 o We gaan deze matrix vermenigvuldigen met een vector (rij of kolom vector) De gewichten waarmee coëfficiënten en gecombineerd worden in Z zijn Dus: (a, b) o = product van de elementen uit de rijvector met overeenstemmende elementen in de matrix 1e kolom [ ] 2e kolom Nieuwe vector Formulering KTT: 3 stappen ! Let op voor de notatie ! = de verwachting van de kansveranderlijke (de verwachte waarde is een constante) = de meetfout 1. FORMULERING KTT VOOR 1 SUBJECT EN 1 TEST , met als de ware testscore van subject j gedefinieerd als met ( ): de verwachte waarde van over (oneindig veel) replicaties als de meetfout ! De true score Gevolg 1: heeft niets te maken met een latent construct het is niets anders dan een wiskundig gedefinieerde entiteit (en is dus niet de verwachte waarde) ! ( ) De over replicaties verwachte meetfout voor subject j = 0 KTT spitst zich bijgevolg toe op toevallige meetfouten (want: bij systematische meetfouten zou de verwachting niet 0 zijn) Gevolg 2: ( ) ( 1. Formulering Klassieke Testtheorie en , ) 11 De variantie van de testscore van subject j is gelijk aan de variantie van de meetfout ( ) Merk tevens op dat gevolg 1 impliceert dat: ( ) [ ( )] Alternatieve notatie ( ) ( ) : de standaardmeetfout voor subject j ; ook nog de voorwaardelijke meetprecisie genoemd 2. FORMULERING KTT VOOR EEN POPULATIE VAN SUBJECTEN EN 1 TEST , met en : de testscore, de ware score en de foutscore van een toevallig uit de populatie gekozen subject o De kansveranderlijke X zonder subscript kan variëren over 2 dimensies: over replicaties en subjecten De ware score varieert nu over de subjecten en daarom wordt ervoor de notatie voor een kansariabele (i.e., T) gebruikt De definitie ( ) blijft behouden ( Gevolg 1: ( )) De verwachte foutscore over replicaties en het geheel van subjecten is 0 ( ) Gevolg 2: De variantie van de foutscore over subjecten en replicaties is gelijk aan het gemiddelde over personen van de individuele meetfoutvarianties Betekent: de variantie van de kansveranderlijke over personen en replicaties [ ( ) ( ) ( ) ( ) ] [ ( )] 1. Formulering Klassieke Testtheorie 12 Voeren we de alternatieve notatie ( schrijven: o voor in, dan is gevolg 2 ook als volgt te ) : de standaardmeetfout van de test (= wortel van de variantie die kan variëren over personen en replicaties) Gevolg 3: De correlaties tussen de foutscores en de ware scores is gelijk aan nul Merk op dat en dat de variantie is van de ware testscores binnen de populatie van subjecten: = de true score die varieert over personen Bemerk ook dat gevolg 3 bewezen is zo we kunnen aantonen dat [( )( [( )] ) ] ( ( ( ( )) ( ( )) ) ) ( ) De verwachte (of gemiddelde) testscore (over personen en replicaties) is gelijk aan de verwachte (of gemiddelde) ware score In alternatieve notatie: met en 1. Formulering Klassieke Testtheorie Gevolg 4: 13 Gevolg 5: De variantie van de testscores (over personen en replicaties) is gelijk aan de som van de variantie van de ware scores en de variantie van de foutscores (meetfouten) In alternatieve notatie: met en SAMENGEVAT: ( 1. ( 2. ( )) ) 3. 4. 5. 3. FORMULERING KTT VOOR EEN POPULATIE VAN SUBJECTEN EN VOOR MEERDERE TESTS Voor elk van de tests (aangeduid met subscripts g, h) wordt de hiervoor gegeven karakterisering gehandhaafd Dus, voor bijvoorbeeld test g geldt opnieuw dat: , met , en : de testscore, de ware score en de foutscore van een toevallig (aselect) uit de populatie gekozen subject op de test g. Bovenop de hiervoor genoemde gevolgen 1 tot 5 voor elke test afzonderlijk kan, zo verondersteld wordt dat voor verschillende tests g en h de testscores en van een aselect gekozen individu onafhankelijk (en dus niet covariëren) van elkaar verdeeld zijn, nu ook het volgende bewezen worden (voor de testen g en h): Gevolg 6: ( ) De meetfouten van de ene test zijn niet gecorreleerd met de ware scores van de andere test 1. Formulering Klassieke Testtheorie 14 Gevolg 7: ( ) De meetfouten van de ene test zijn niet gecorreleerd met de meetfouten van de andere test Recapitulatie verder te gebruiken notatie De meetfoutvariantie (= variantie van de foutscores/meetfouten van een test) De standaardmeetfout van een test (= de standaardafwijking van de foutscores van een test) De variantie van de testscores van een test De standaardafwijking van de testscores van een test De correlatie van de testscores en ware scores van een test De covariantie van de testscores en de ware scores van een test Bemerk dat bijvoorbeeld De covariantie van de meetfout en de ware scores van een test Bemerk dat Betrouwbaarheid Document psbet05 Definitie van de betrouwbaarheid van een test De betrouwbaarheid van een test wordt gedefinieerd als maat voor de onvoorwaardelijke meetprecisie en wordt gezien als een Het model van de klassieke testtheorie (KTT) impliceert dat ⁄ : 1. Formulering Klassieke Testtheorie Het is de gekwadrateerde correlatie van de testscore X . de true score T 15 Omdat Probleem: Bovenstaande formule laat niet toe de betrouwbaarheid te schatten omdat noch noch gekend zijn Oplossing: invoeren van de notie van paralleltests: o ⁄ , is de betrouwbaarheid eveneens gelijk aan De tests X en X’ zijn paralleltests wanneer voor elk subject j de ware testscores en aan elkaar gelijk zijn en de twee tests dezelfde meetfoutvariantie hebben o Uit de definitie van paralleltests volgt dat zo X en X’ paralleltests zijn, ze dezelfde verwachte (gemiddelde) testscore en dezelfde testscorevariantie hebben: o variantie van de geobserveerde score: voor elke deeltest dezelfde waarde 1. Formulering Klassieke Testtheorie 16 Zo X’ een paralleltest is van X, dan is de betrouwbaarheid van X, , gelijk aan dit is in principe wel observeerbaar De betrouwbaarheid van de test X en van (X’) is gelijk aan de correlatie tussen de testscores van tests X en X’ (*) Men gebruikt hier een regel van calculus van kansveranderlijken die we niet besproken hebben (komt na vectoren, matrices, …) Omdat voor elk subject T = T’, is Bij de formulering van KTT voor meerdere tests zagen we dat Daarnet toonden we dat Merk op dat de betrouwbaarheid van een test een niet-negatieve grootheid is, die ten hoogste gelijk is aan 1 In de praktijk wordt (een populatiegrootheid) geschat via de steekproefschatter ̂ met de correlatie tussen de scores op beide testen zoals bekomen bij een (representatieve) steekproef NOOT: NOTATIE POPULATIE- EN STEEKPROEFGROOTHEDEN Zoals hiervoor aangegeven, worden populatiegrootheden middels Griekse letters genoteerd 1. Formulering Klassieke Testtheorie Bijgevolg is 17 De corresponderende grootheden, zoals berekend aan de hand van steekproefgegevens, worden middels Romeinse letter dan wel via het plaatsen van een ‘hoedje’ bovenop de Griekse letter aangeduid Voorbeelden: o en ̂ of en ̂ of o NOOT: ONDERSCHEID SCHATTER – SCHATTING Schatter: de regel aan de hand waarvan je een kwantiteit bepaalt (bv. rekenkundig gemiddelde) Schatting: daadwerkelijke waarde die je bekomt als je de schatter toepast op een specifieke steekproef Dit onderscheid wordt in de psychometrie niet gemaakt Methoden om betrouwbaarheid te schatten Betrouwbaarheid = onvoorwaardelijke meetprecisie, nauwkeurigheid Verschillende methoden: 1. M.b.v. twee paralleltests X en X’. De resulterende schatting equivalentiecoëfficiënt ̂ is een 2. Twee afnames van dezelfde test (met tijdsinterval). De correlatie tussen de twee testscores, wordt een stabiliteitscoëfficiënt genoemd 3. M.b.v. één test die uit k parallele delen met gekende betrouwbaarheid, , bestaat. De resulterende betrouwbaarheid (in de zin van interne consistentie), , wordt via de 4. M.b.v. één test die uit k parallele delen met ongekende betrouwbaarheid bestaat. De betrouwbaarheid (interne consistentie), , wordt bepaald via coëfficiënt α (Cronbach’s α) SPEARMAN-BROWN FORMULE Testscore op de test, X, is gelijk aan de som van de testscores delen en de betrouwbaarheid van zo’n deel , is gekend: op de k parallelle (allemaal dezelfde betrouwbaarheid), 1. Formulering Klassieke Testtheorie Spearman-Brown formule verkregen: 18 ∑ Betrouwbaarheid van de test X is, per definitie, gelijk aan ⁄ met ∑ en ∑ o ? ∑ ∑ ∑ Voor de k parallelle delen is en h, . Ook is voor 2 willekeurige delen, g voor elk subject zodat alle deeltesten hebben dezelfde truescore en dezelfde variantie ! o ? ∑ ∑ Voor de k parallelle delen is ∑ . Ook is voor 2 willekeurige delen, g Bijgevolg is: De betrouwbaarheid van 1 parallel deel, , is gelijk aan ! Belangrijk te onthouden bij paralleltesten ! Elke waarde van de verschillende paralleltesten is gelijk 1. Formulering Klassieke Testtheorie en h, 19 Toepassing 1: Bepaling betrouwbaarheid m.b.v. Spearman-Brown formule Stel test X bestaat uit 5 parallelle delen, .40 Betrouwbaarheid test X is dan Een test die uit meerdere parallelle delen bestaat, is minstens zo betrouwbaar als de individuele deeltesten o Is , elk met betrouwbaarheid, , gelijk aan zo Ja, want Hoe meer items, hoe hoger de betrouwbaarheid ( ), bv. MC-examen vs. schriftelijk examen Stel test X heeft een betrouwbaarheid van .30. Met hoeveel aan X parallelle tests moet X uitgebreid worden om een test te bekomen die een betrouwbaarheid van minstens .80 heeft? M.a.w. wat is de minimale waarde voor k zodat .06 k (= het aantal deeltesten) moet minstens 10 zijn 1. Formulering Klassieke Testtheorie Toepassing 2: Verlengen test voor voldoende betrouwbaarheid 20 Toepassing 3: Betrouwbaarheid van een deeltest Stel test X, bestaande uit 3 parallelle delen, heeft een betrouwbaarheid van .90. Wat is de betrouwbaarheid van de parallelle delen? Noteren we voor de betrouwbaarheid van X en voor de (onbekende) betrouwbaarheid van de deeltests, dan laat de Spearman-Brown formule zien dat volgende gelijkheden moet voldoen: dus: aan de = .75 VERKLARENDE NOOT Rekenkundig gemiddelde , ̅: Het rekenkundig gemiddelde van n testscores ∑ ̅ Steekproefvariantie De steekproefvariantie van n testscores COËFFICIËNT ̅ ∑ : (= CHRONBACH’S ALFA) Zo een test, X, uit k parallelle delen met ongekende betrouwbaarheid bestaat, dan kan getoond worden dat de betrouwbaarheid van de test X, , gelijk is aan: ( *∑ * , ∑ ) ( ∑ ) teller = 2 x geheel vd. cov. = som van de varianties van de deeltesten van test X = variantie van de geobserveerde scores van de totaaltest X De bovenstaande gelijkheid geldt tevens zo de delen essentieel equivalent zijn dus: als de deeltesten niet meer parallel zijn, maar wel essentieel equivalent, kun je ook nog de betrouwbaarheid bepalen De delen geldt dat en zijn essentieel , met equivalent zo voor en een constante (die kan variëren over de betrokken deeltesten) Bemerk dat de delen een verschillende foutvariantie kunnen hebben ! Examen: als deeltesten parallel zijn, zijn ze dan essentieel equivalent? JA! (noodzakelijk!) 1. Formulering Klassieke Testtheorie 21 Zo delen niet essentieel equivalent (en niet parallel) zijn, maar wel voldoen aan en , met en onderschatting van de betrouwbaarheid. Praktisch belang: coëfficiënt zin van interne consistentie) , dan levert coëfficiënt een is de meest gebruikte maat voor de betrouwbaarheid (in de Bepaling coëfficiënt ∑ De formule voor , In de praktijk zijn enkel steekproefgegevens beschikbaar. M.b.v. deze laatste gegevens wordt met geschat als ̂ ( ( ), betreft populatiegrootheden ∑ ) (̂ is de schatter van ) de steekproefvariantie van de totale testscores en bv. de steekproefvariantie van de testscores op deeltest g. Steekproefgegevens Rekenkundig gemiddelde totaaltestscores: ̂ 1. Formulering Klassieke Testtheorie Voorbeeld berekening ̂ 22 (Steekproef)variantie totaaltestscores: (Steekproef)variantie deeltestscores : d (Steekproef)varianties deeltestscores Bijgevolg kan de betrouwbaarheid voor test X geschat worden als ̂ ∑ ( Omdat 0.98 ) : ( niet essentieel ) equivalent zijn, is de betrouwbaarheid van X minstens Betrouwbaarheid voor dichotoom gescoorde deeltests (items) Voor een dichotoom gescoorde deeltest is de variantie (in de populatie) van de deeltestscores, , gelijk aan , met de kans dat deeltest (item) goed beantwoord wordt In het geval van dichotoom gescoorde deeltests kan de betrouwbaarheid bijgevolg als volgt geschat worden: ∑ ( De formule en Richardson (1937). ) ( ∑ ( ∑ ) ) staat bekend als de coëfficiënt KR20 van Kuder 1. Formulering Klassieke Testtheorie 23 Voorbeeld berekening KR20 ∑ ( ) De schatter voor KR20 , ̂ We hebben ̅ Bijgevolg ̂ VERKLARENDE de ( ) ̂ en ∑ , kan ( , is: betrouwbaarheid ∑ ( ( ) ) geschat worden als (minstens) ) NOOT Een binaire kansveranderlijke, Y, heeft als mogelijke waarden 1 en 0 De verwachte waarde van Y is met P(Y = 1) de kans dat Y gelijk is aan 1. Voor steekproefgegevens wordt de populatiewaarde, observaties waarvoor Y de waarde 1 heeft. , geschat via , de proportie De variantie van Y, Voor steekproefgegevens met N observaties wordt de populatiewaarde van de variantie, , is: [ ] , geschat als Toepassingen van betrouwbaarheid BEPALING STANDAARDMEETFOUT Standaardmeetfout 1. Formulering Klassieke Testtheorie Dichotome (binaire) kansveranderlijken is de standaardafwijking/standaarddeviatie van de foutscore 24 De betrouwbaarheid van een test is gelijk aan Bijgevolg is De standaardmeetfout, De steekproefschatter voor √ , is dan ook , ̂ √ , is SCHATTEN WARE SCORE De eerste benadering sluit aan op de 1 subject formulering van de KTT en resulteert in een schatter, ̂ , voor de waarde van de ware score voor het subject j gegeven de waarde voor de geobserveerde score van het subject j. De tweede benadering sluit aan op de populatie formulering van de KTT en resulteert in de zogenaamde regressieschatter ( ̂ | ) voor de verwachte waarde van de ware score T gegeven dat (= conditioneel) de geobserveerde score X gelijk is aan . Mits zekere assumpties leiden de benaderingen tot een betrouwbaarheidsinterval voor de waarde van de ware score. Eerste benadering De waarde van de ware score van subject j wordt geschat als ̂ van de voor het subject j geobserveerde score . Om het betrouwbaarheidsinterval (in %) voor te bekomen veronderstellen we dat de verdeling van de geobserveerde score van een bepaald maar willekeurig , normaal is met verwachting Deze assumptie impliceert dat en variantie Ofwel: o Ofwel: o Ofwel: ( ⁄ ⁄ ( ⁄ ) (i.e., ) standaard normaal verdeeld is en dat er een kans is dat: o de waarde ⁄ ⁄ ) 1. Formulering Klassieke Testtheorie gekozen individu j, , met ⁄ 25 ( Uit ⁄ ⁄ ) ⁄ het de standaard normaal verdeling, volgt dat een betrouwbaarheidsinterval voor Vervangen we nu ⁄ ⁄ is. door de actueel geobserveerde score dan bekomen we het volgende, geschatte ⁄ de percentielpunt van en door de schatter , betrouwbaarheidsinterval voor : ⁄ Voorbeeld: In een steekproef van subjecten is de spreiding (standaarddeviatie) van de geobserveerde scores, , gelijk aan 4, de geschatte betrouwbaarheid van de test, ̂, bedraagt 0.75, en subject 7 heeft een geobserveerde score, , van 15. Waaraan is het 95 procent betrouwbaarheidsinterval gelijk? Uit en ̂ volgt dat ̂ . De benodigde √ √ percentielpunten zijn z0.025 = -1.96 en z0.975 = 1.96. Bijgevolg is het 95 procent betrouwbaarheidsinterval voor de ware score, , gegeven een geobserveerde score van 15, gelijk aan . Of nog, Tweede benadering Sluit aan bij de populatieredenering van de KTT Zo verondersteld wordt dat de regressie van T op X lineair is, dan is de regressie(functie) van T op X gelijk aan Score T = de verwachte waarde van x aangezien , en ̂ De (regressie)schatter voor de verwachte score ̂ is Bemerk dat de ordening van de subjecten op grond van de geschatte verwachte ware score dezelfde is als de ordening op grond van de geobserveerde testscores. ̂ VERKLARENDE NOOT: REGRESSIEFUNCTIE Zijn X en Y twee kansvariabelen, dan is de regressie(functie) van X op Y gedefinieerd als de (conditionele) verwachting van X, gegeven dat Y gelijk is aan y, 1. Formulering Klassieke Testtheorie o 26 Als X en Y gezamenlijk bivariaat normaal verdeeld zijn (d.i. dan is de regressie(functie) van X op Y lineair. ), o Met verwachting o o N2: 2 kansveranderlijken: bivariaatverdeling (x< y gezamenlijk bivariaat verdeeld) Vet: vector = kolomvector met 2 elementen en variantie/covariantiematrix ( ) In dat geval is de (conditionele) verdeling van X gegeven Y = y (i.e., de verdeling van X|y) eveneens normaal verdeeld. Voorts is in dat geval: o ⏟ (cfr. Statistiek II: E(X) = β0 + β1) ⏟ ⏟ Tenslotte is de (conditionele) variantie van X, gegeven Y = y, gelijk aan: Samengevat: univariaat verdeeld met conditionele verwachting en conditionele variantie Vergelijking benadering 1 en benadering 2 Enkel wanneer de geobserveerde score groter is dan het gemiddelde, is ̂ geschat door de 1ste benadering groter dan wanneer geschat door de 2de benadering. Wanneer de geobserveerde score kleiner is dan het gemiddelde, gebeurt het omgekeerde. (Hoe kleiner de betrouwbaarheid, hoe sterker de regressie naar het gemiddelde) Wat bepaalt de breedte bij Standaardmeetfout ( de 2de benadering? Standaardschattingsfout ( ) ) De standaardschattingsfout is sowieso kleiner dan de standaardmeetfout, dus dat impliceert een kleiner interval bij de 2de benadering. BEPALING STANDAARDSCHATTINGSFOUT de 1ste benadering? (PRECISIE WAARMEE DE WARE SCORE GESCHAT WORDT) De standaardschattingsfout, , is de vierkantswortel uit de conditionele variantie van de ware score T gegeven de waarde x voor de geobserveerde score X. o De standaardschattingsfout is de precisie waarmee de ware score geschat wordt, oftewel de conditionele spreiding. 1. Formulering Klassieke Testtheorie 27 Zijn X en T gezamenlijk normaal verdeeld, dan is Uit volgt dat √ √ √ √ zodat √ met de standaardmeetfout (minstens gelijk – en meestal hoger – dan de standaardschattingsfout) o De variantie van de true scores kan nooit groter zijn dan de variantie van de geobserveerde scores (verhouding 0-1) De (steekproef)schatter van , √̂ , is o Deze schatter kan gebruikt worden bij een alternatieve bepaling van het 100( ) % betrouwbaarheidsinterval voor de ware score van subject j, tj o Het 100( ̂ ) % betrouwbaarheidsinterval is: ̂ ⁄ ⁄ Voorbeeld: In een steekproef van subjecten is ̅ , , Waaraan is het 95 procent betrouwbaarheidsinterval gelijk? Uit en ̂ ̂ volgt dat ̂ √ en is en . . Voorts is ̂ √ √̂ √ . De benodigde percentielpunten zijn z0.025 = -1.96 en z0.975 = 1.96. Bijgevolg is het 95 procent betrouwbaarheidsinterval voor de ware score, een geobserveerde score van 15, gelijk aan ̂ ⁄ , gegeven ̂ ⁄ Of nog, CORRECTIE VOOR ATTENUATIE (CORRELATIE WARE SCORES TEST X MET WARE SCORES TEST Y) Attenuatie: De correlatie tussen de geobserveerde scores is altijd kleiner dan (of gelijk aan) de correlatie tussen de true scores. Meetfouten hebben tot gevolg dat de correlatie/samenhang tussen twee tests (metingen), X en Y, lager uitvalt dan de werkelijke correlatie/samenhang, dus: { met de correlatie van de geobserveerde scores, gedeeld door een getal kleiner dan 1. 1. Formulering Klassieke Testtheorie (Volledige betrouwbaarheid: standaardmeetfout en standaardschattingsfout = 0) 28 √ o √ De validiteitscoëfficiënt betrouwbaarheid van die test. √ √ van een test kan nooit groter zijn dan de wortel van de √ √ want Voorbeeld: Stel dat twee tests, X en Y, bij een steekproef van subjecten afgenomen worden. Voor deze steekproefgegevens zijn de geschatte betrouwbaarheden voor X en Y, ̂ en ̂ , beide gelijk aan 0.80. De berekening van de correlatie tussen de scores op X en Y resulteert in een waarde 0.40 ( i.e., ̂ ) Toepassing van de correctie voor attenuatie levert in dat geval de volgende geschatte waarde op voor de correlatie tussen de ware scores van X en Y: √̂ √̂ Correctie voor attenuatie kan ook beperkt worden tot één van de twee metingen (e.g., X representeert intelligentie en Y correspondeert met lengte): o √ Lengte = perfect betrouwbaar te meten: niet nodig (true score van Y = Y zelf) Bovenstaand speciaal geval laat ook zien dat de validiteitscoëfficiënt van een test (hier de correlatie van de test, X, met een willekeurig andere meting, Y) nooit groter kan zijn dan de wortel uit de betrouwbaarheid van de test √ √ , want er wordt een bovengrens opgelegd PRECISIE VAN VERSCHILSCORES Niet te kennen Enkele problemen i.v.m. de klassieke test / betrouwbaarheids- theorie De formule voor de betrouwbaarheid van een test X, , laat duidelijk zien dat betrouwbaarheid geen karakteristiek van enkel de test is. De betrouwbaarheid varieert al naargelang de heterogeniteit van de populatie in termen van de ware testscores. Bv: De true score op een test numerieke intelligentie zal niet zo’n grote spreiding hebben bij studenten exacte wetenschappen, i.t.t. studenten psychologie. De betrouwbaarheid van de test is dus afhankelijk van de variantie in de betrekkelijke populatie, wat maakt dat de test een grotere betrouwbaarheid heeft voor studenten exacte wetenschappen dan voor studenten psychologie. 1. Formulering Klassieke Testtheorie 29 Soms wordt ook het volgend speciaal geval van de formule voor correctie voor attenuatie als probleem genoemd, maar dit is geen geldige formule! o √ √ Normaal gezien is de correlatie tussen dezelfde test gelijk aan 1, maar door deze formule wordt hij groter dan 1! Validiteit Document psval05 Definitie en traditionele validiteitsstrategieën Validiteit: de mate waarin de test datgene meet wat hij pretendeert te meten. Traditioneel zijn er 4 benaderingen die geassocieerd zijn met verschillende nagestreefde doeleinden, namelijk de: o o o o Inhoudsvaliditeit Constructvaliditeit Criteriumvaliditeit Concurrente validiteit Nu wordt de namelijk de: o o validiteitsproblematiek vaak vanuit 2 perspectieven benaderd, Validiteit van de meting op zich Validiteit van de meting in een beslissingscontext Validiteit van de meting op zich: inhoudsvaliditeit - constructvaliditeit Binnen het perspectief van ‘validiteit van de meting op zich’ zijn er 2 hoofdbenaderingen: o o Inhoudsvaliditeit Constructvaliditeit De inhoudsvaliditeit is de mate waarin het testgegenereerde gedrag (d.i. het geheel aan responsen) een representatieve steekproef vormt m.b.t. het te meten kenmerk. o Bv: Motivatie (intrinsiek – extrinsiek); een test is niet valide als we maar één van beiden meten dat onderscheid moet dus in het meetinstrument vervat zitten o De problematiek van inhoudsvaliditeit generaliseerbaarheidstheorie. is verwant aan die van de Bij constructvaliditeit stelt men zich de vraag of de test het beoogde construct meet. o De constructgeoriënteerde validiteitsstrategie benaderingen (~ moeder van alle validiteiten) overkoepelt de andere 1. Formulering Klassieke Testtheorie 30 o Constructvalidering gebeurt a.d.h.v. een nomologisch netwerk i.v.m. het construct. In het bijzonder door na te gaan of de meting de in het nomologisch netwerk vooropgestelde interrelaties heeft met de metingen van andere constructen. Nomologisch = algemene regels gevend Dus kijken of de metingen van die constructen (bv. stress – burnout – gezondheidsklachten) correleren met elkaar Bijvoorbeeld: Een veelgebruikte benadering hierbij is de Multitrek Multimethode (MTMM) aanpak van Campbell en Fiske (1959) Er zijn verschillende soorten metingen (= indicatoren) voor eenzelfde construct Er worden 2 vragen gesteld: o Werd er gemeten volgens dezelfde methode? o Is het een meting van hetzelfde construct (= zelfde trek)? De correlatie van twee verschillende metingen van eenzelfde construct = de validiteit 1. Formulering Klassieke Testtheorie MTMM-benadering 31 Bij de MTMM-benadering wordt er een onderscheid gemaakt tussen: o Convergente validiteit Kunnen we de verwachte verbanden aantonen? (homotrekheteromethode; validiteitsdiagonalen) Metingen van eenzelfde kenmerk door verschillende methoden: correleren goed met elkaar, want correleren wat moet correleren o Divergente validiteit: Zijn die verbanden die er niet mogen zijn er ook echt niet? (heterotrekmonomethode en heterotrek-heteromethode) lage correlatie = goede/hoge validiteit Metingen van verschillende kenmerken met dezelfde methode hebben slechts een kleine correlatie (kleiner dan de correlaties van de metingen van hetzelfde kenmerk met verschillende methodes), want niet correleren wat niet mag correleren Interpretatie van de MTMM correlatiematrix: o Zijn de correlaties in de betrouwbaarheidsdiagonaal de grootste? Autocorrelaties van een construct met zichzelf (methode 1 – A1 vs. methode 1 – A1) o Zijn de correlaties in de validiteitsdiagonaal voldoende hoog? Correlaties tussen dezelfde trekken, maar met andere methodes (methode 1 – A1 vs. methode 3 – A3) 1. Formulering Klassieke Testtheorie 32 Binnen de heteromethode blokken dienen de validiteitscoëfficiënten hoger te zijn dan de andere waarden in het blok. o Validiteitscoëfficiënten moeten hoger zijn dan de waarden in de heterotrekmonomethode driehoeken. Vraag: Hoeveel procent van de variantie kan worden toegewezen aan het construct, hoeveel aan de methode en hoeveel aan de meetfout? Variantie van het construct > variantie van de methode > variantie van de meetfout De interpretatie van MTMM matrices blijft, ondanks de voornoemde principes, problematisch. Er is een betere benadering mogelijk via structurele vergelijkingsmodellen. 1. Formulering Klassieke Testtheorie o 33 Validiteit van de meting in een beslissingscontext: criteriumvaliditeit Principe: correleren de testscores met de scores van een andere (directe) meting van het kenmerk of met scores van een ander, nomologisch gerelateerd kenmerk? Predictieve validiteit vs. gelijktijdige (concurrente) validiteit Bij predictieve validiteit is range restrictie vaak een probleem. o Range restrictieprobleem: de correlatie tussen de test en het criterium wordt te laag geschat omdat voor het criterium enkel scores beschikbaar zijn voor de voor de test ‘geslaagde’ subjecten. De spreiding van de scores op de test is ingeperkt. Bv: Toelatingsproef geneeskunde met X = drempelscore en Y = resultaten 1ste Bachelorstudenten een goede toelatingsproef heeft een hoge validiteit (hier: 0.40) Directe range restrictie vs. ste 1 test is selectiecriterium indirecte range restrictie 3de test geldt als selectiecriterium Er bestaan formules voor de correctie van range restrictie. Bvb.: formule voor de correctie van de directe range restrictie m.b.t. de predictor, X: ( √ ) ( ) de spreiding (standaarddeviatie) van de testscores in de totale groep de spreiding van de testscores in de geselecteerde groep de correlatie tussen de predictor X en de criteriumvariabele in de geselecteerde groep de voor range restrictie gecorrigeerde correlatie (correlatie tussen de test en het criterium) Voorbeeld: TC = kritieke testscore ≥12/20 mag aan de studie beginnen o rTC = correlatie tussen de test en het criterium (enkel voor diegenen met ≥12) o Onderschatting: niet iedereen zit er in directe range districtie! Ook indirect mogelijk: op grond van een derde meting (niet op grond v. T) 1. Formulering Klassieke Testtheorie Met: 34 Besluit: De validiteit van een test is een eerder gebrekkige indicator van de waarde van een test in een beslissingscontext Een meer adequate benadering via de zogenaamde utiliteitstheorie (betere manier dan de validiteitcoëfficiënt om de waarde van testgebruik te bepalen en uit te drukken): o o o Taylor & Russell: schatten van de succesratio van testgebaseerde selecties Bv: toelatingsproef geneeskunde Brogden en Cronbach & Gleser: utiliteit (geldwaarde) van een testgebaseerde selectie De Corte: Integratie van beide voorgaande aspecten en uitbreiding naar gefaseerde testgebaseerde selecties Itemanalyse Document psval05 Itemanalyse = onderzoek naar de psychometrische kwaliteit van de items (de bespreking is hier beperkt tot de procedures die aansluiten bij de KTT) Doel? Een subset (uit een set items) selecteren van items met gemiddelde moeilijkheidsgraad en goede discrimineerbaarheid (homogene set verkrijgen), en dit ten behoeve van de samenstelling van de definitieve set Itemanalyse omvat: o o o De descriptieve analyse van de itemresponsen (e.g. de itemmoeilijkheid) De analyse van de samenhang van de items met de test(totaal)score De studie van de relatie tussen de items onderling Descriptieve analyse van de itemresponsen Stel een multiple choice item met 4 antwoordalternatieven: A, B (correct), C en D. In het optimaal geval zal elk van de drie distractoren even populair zijn. o Populariteit van een distractor: percentage van de subjecten dat de distractor kiest. Voorbeeld: 55% lost het item correct op; de optimale populariteit van de distractoren is dan . De resultaten van de distractoranalyse kunnen best bekeken worden in het licht van andere itemanalyseresultaten (bv.: itemmoeilijkheid). 1. Formulering Klassieke Testtheorie DISTRACTORANALYSE (MC-ITEM) 35 ITEMMOEILIJKHEID: P-WAARDE De p-waarde is het percentage van de subjecten dat het item correct oplost (of onderschrijft). Hoe hoger de p-waarde, hoe gemakkelijker het item. Bij dichotoom gescoorde items van een attitudevragenlijst wordt de p-waarde ook wel de (basis)populariteit van een item genoemd (of ook: de proportie individuen dat akkoord gaat met het item) Er zijn evidente relaties tussen de itemmoeilijkheid en o De itemvariantie (té makkelijke of moeilijke items zorgen voor een lage variantie) Cf. de variantie van de scores van een dichotoom item wordt geschat als: o De itemdiscriminatie In het algemeen zijn items met een gemiddelde moeilijkheid te verkiezen (want deze laten de grootste variantie zien) ITEMVARIANTIE Er is een onderscheid tussen metrische items (minstens op intervalniveau) en dichotoom gescoorde items Bij metrische items kan de itemvariantie van item i, , geschat worden via de ∑ Met: J xij , met: het aantal subjecten de score van subject j op item i de gemiddelde itemscore op item i Voor dichotome items is de steekproefschatter voor de itemvariantie, ( , gelijk aan: ) Met: de moeilijkheid van item i Samenhang item-testtotaalscore: itemdiscriminatie Itemdiscriminatie: In hoeverre onderscheidt een item individuen met een hoge totaalscore van individuen met een lage totaalscore? ook: itemhomogeniteit (cfr. de notie van interne consistentie) 1. Formulering Klassieke Testtheorie steekproefschatter, 36 De samenhang tussen score item i (Xi) en de testtotaalscore (T) is voor metrische items gelijk aan de correlatie De waarde van is te schatten via de productmomentcorrelatiecoëfficiënt ∑ √(∑ ( ( Met: )( ) ) (∑ ( ) ) o Scores van 8 (i.e., J = 8) subjecten op 4 items o De correlatie item 1-tesstotaalscore √(∑ ( ( is: )( ) ) (∑ ) ( ) ) √ De item-testtotaalscorecorrelatie geeft een wat geflatteerd beeld van de samenhang omdat het item de totaalscore mee bepaalt. Daarom wordt, vooral in het geval dat de test weinig items telt, vaak gebruikt gemaakt van de item-restcorrelatie. o De item-restcorrelatie voor item i is de correlatie tussen de scores op item i en de totaalscore verminderd met de score op het item ) Voorbeeld: ∑ : de score voor subject j op item i de testtotaalscore van subject j (heeft niets te maken met een ‘true score’) de gemiddelde totaalscore de gemiddelde score voor item i : Voor het voorbeeld is de item-restcorrelatie voor item 1 gelijk aan 0.836 Is het item dichotoom, dan kan de samenhang item-totaalscore bepaald worden door middel van de punt-biseriële correlatiecoëfficiënt : 1. Formulering Klassieke Testtheorie 37 √ Met de gemiddelde testscore van de subjecten die item i correct oplossen de gemiddelde testscore van de subjecten die het item fout oplossen de moeilijkheid van item i Voor steekproefgegevens wordt de waarde van de punt-biseriële correlatiecoëfficiënt op de gebruikelijke manier geschat Andere soms gebruikte maten voor de samenhang item-totaalscore zijn: o De biseriële correlatie tussen een dichotoom item en een metrische totaalscore Deze maat is van toepassing zo verondersteld wordt dat de dichotome itemscores het resultaat zijn van het dichotomiseren van een onderliggende, continue distributie van itemscores o De Ф (phi-) coëfficiënt wanneer zowel de item- als de totaalscore dichotoom zijn (zie ook verder bij schaaltechnieken) o De tetrachorische correlatie wanneer zowel de item- als de totaalscore dichotoom zijn Deze maat is van toepassing zo verondersteld wordt dat de dichotome itemscores het resultaat zijn van het dichotomiseren van een onderliggende, continue distributie van item- en totaalscores Studie van de relatie tussen de items onderling De samenhang tussen de items (inter)itemcorrelatiematrix R, met o onderling ( wordt ) bepaald m.b.v. de (R = vet: matrix) Deze (inter)itemcorrelatiematrix is het uitgangspunt voor factoranalyse Voor metrische items is het algemeen element van R, ( ) (het item in de k-de rij en de l-de kolom) gelijk aan de productmomentcorrelatiecoëfficiënt: ∑ √(∑ ( ( )( ) ) (∑ ) ( ) ) Voor dichotome items wordt het algemeen element van R, m.b.v. de Ф-coëfficiënt of de tetrachorische correlatiecoëfficiënt berekend 1. Formulering Klassieke Testtheorie 38 Beschrijvend/descriptief gebruik van testscores Document psdes05 Hierbij wordt er een onderscheid gemaakt tussen: o De transformatie van ruwe testscores tot: Standaardscores Percentielscores Genormaliseerde scores o Normering: het opstellen van normtabellen en het situeren van ruwe scores t.o.v. normscores Transformatie van ruwe testscores Op zich zegt een ruwe score weinig of niks. Ze wordt dan ook vaak getransformeerd tot een score die duidelijker aangeeft hoe het individu zich situeert t.a.v. de individuen van een adequaat gekozen referentiegroep Om een dergelijke transformatie te kunnen uitvoeren, moet het gemiddelde en de spreiding/standaarddeviatie (of de verdeling van de testscores) binnen de referentiegroep gekend zijn Sommige transformaties zijn lineair (i.e. van de soort: ), waarbij het (eventueel) metrisch niveau van de oorspronkelijke scores wordt behouden LINEAIRE TRANSFORMATIES Gegeven: o Het gemiddelde ( ) en de spreiding ( ) van de ruwe scores in de referentiegroep o Het gemiddelde ( scores ) en spreiding ( De conversie van de ruwe scores X naar de getransformeerde scores X(t) gaat dan: ( ) Eerst de ruwe scores standaardiseren Dan vermenigvuldigen met de beoogde deviatie ) van de beoogde, getransformeerde Dan optellen met het gemiddelde dat je beoogt Voorbeelden: o Omzetting naar standaard- of Z-scores (scores met ( ) en ): 1. Formulering Klassieke Testtheorie 39 o Omzetting naar T-scores (scores met ( en ): ) NIET-LINEAIRE TRANSFORMATIES De toepassing van de in de psychometrie gebruikelijke niet-lineaire transformaties veronderstelt dat de distributie (frequentie) van de ruwe scores binnen de referentiegroep gegeven is o o o o Percentielscores Decielscores Genormaliseerde standaard- of T-scores Stanines (Standard nines) Opgelet: hier kan het meetniveau veranderen o Dus: je moet niet enkel het gemiddelde en de spreiding kennen, maar ook de frequentieverdeling van de scores binnen de referentiegroep Percentielscores De percentielscore van het subject j, Pj, geassocieerd met de ruwe score, Xj, is gelijk aan het percentage personen in de groep (d.i. de representatieve steekproef en dus niet op grond van de populatie) dat dezelfde of een lagere ruwe score behaalt De percentielscore wordt in het algemeen berekend als: Fj fj J ) de cumulatieve frequentie behorend bij ruwe score Xj (d.i. het aantal subjecten met een score ten hoogste gelijk aan Xj) de frequentie waarmee de ruwe score Xj voorkomt het aantal subjecten in de groep Voorbeeld: berekening percentielscore ( ) 1. Formulering Klassieke Testtheorie Met ( 40 Decielscores De decielscore, Dj, geassocieerd met de ruwe score Xj, is gelijk aan: ( ) +1 wanneer géén geheel getal is +0 wanneer een geheel getal is ( ) het grootste geheel getal dat kleiner of gelijk is aan Met Voorbeelden: o ( ) o ( ) o ( ) Noot: Standaardnormaaldensiteit en standaardnormaalverdeling Standaarnormaaldensiteitsfunctie: Standaardnormaaldistributiefunctie De functie Z (d.i. [ De inverse van , genoteerd als heeft als element een proportie en als beeld de met deze proportie overeenstemmende waarde van de standaardscore met met √ ∫ Genormaliseerde scores Principe: De ruwe scores worden zo getransformeerd dat de verdeling van de getransformeerde scores (nagenoeg) normaal is Werkwijze: 1. Omzetten van de ruwe scores naar percentielscores 2. Omzetten van de percentielscores ( via: naar genormaliseerde standaard(normaal)scores ) 1. Formulering Klassieke Testtheorie heeft als domein de mogelijke waarden voor de standaard(normaal)score ]) en als codomein de mogelijke waarden voor een proportie (d.i. [ ]) Deze zijn nagenoeg normaal verdeeld 41 I.e., is de normaalscore zodat % van de waarden van een standaardnormaal verdeelde kansvariabele beneden de waarde Dit is de kwantielfunctie van de normaalverdeling 3. Omzetten van de genormaliseerde standaardscores naar scores met het gewenste ( gemiddelde en spreiding via de transformatie: Met vallen ) voor de standaardnormaalscores Voorbeeld: P naar Z tabel gebruiken Zj = 1,555 = 1,6 Stanines Staninescores worden bekomen via een lineaire transformatie van de genormaliseerde standaardscores De staninescore, ( , geassocieerd met een genormaliseerde standaardscore, , is: ) Met : de naar het dichtstbijzijnde gehele getal afgeronde waarde van (≠ trunceren) Is Voorbeeld: dan // Is , dan Normering Normeringonderzoek wordt uitgevoerd teneinde de verdeling te kennen van de testscores binnen één of meerdere vooraf afgebakende referentie- of normgroepen. De 1. Formulering Klassieke Testtheorie 42 zo bekomen verdeling wordt meestal samengevat in een zogenaamde normtabel (dit is het resultaat) Het normeringsonderzoek omvat gebruikelijk de volgende stappen: 1. Het vastleggen van de beoogde referentiegroepen of –populaties 2. Keuze van de nauwkeurigheid waarmee we de waarde van de populatieparameters wensen te schatten (deze stap wordt vaak vergeten) Voorbeeld populatieparameter: het gemiddelde / de variantie van de testscores binnen de referentiegroep Voorbeeld nauwkeurigheid: Stel dat de mogelijke testscores liggen tussen 50 en 150. Dan kunnen we bijvoorbeeld vooropstellen dat de (geschatte) standaardfout van het gemiddelde ̅ , (i.e., de geschatte ̅ standaarddeviatie van de steekproevenverdeling van ̅ , of nog: de geschatte standaardfout van het rekenkundig gemiddelde ), ten hoogste gelijk is aan 2 3. Afleiden van de minimale steekproefgrootte, gegeven de vooropgestelde nauwkeurigheid en de (geschatte) waarde van de variantie van de testscores, , binnen de normgroep Voorbeeld: Stel dat we, uitgaand van de vorige situatie, vinden dat (we weten de waarde van de variantie van de testscores dus ook de standaarddeviatie en zo kunnen we van de geobserveerde ruwe scores in een steekproef weten). Gelet op de vereiste nauwkeurigheid dat , is het benodigd aantal subjecten, J, te bepalen door het oplossen van de volgende vergelijking: √ √ Het benodigd aantal subjecten is dus minimaal 100. 4. Trekken van de benodigde steekproeven, met als doel een steekproef te trekken die representatief is voor de vooraf gestelde populatie: Aselecte steekproeven (elk element uit de populatie heeft dezelfde kans om in de steekproef terecht te komen) Gestratificeerde steekproeven (eerst een onderverdeling/strata maken, dan daaruit aselect een steekproef trekken) Cluster- of getrapte steekproef (een onderverdeling van de onderverdeling van de onderverdeling maken, dan aselect een steekproef trekken) 1. Formulering Klassieke Testtheorie 43 5. Berekening van de vereiste testscorestatistieken aan de hand van de bekomen steekproefgegevens en bundeling ervan in normtabellen Voorbeeld: normtabellen rekenvaardigheid 1. Formulering Klassieke Testtheorie 44 2. Generaliseerbaarheidstheorie Document psgen05 Overzicht Situering, basisconcepten en overzicht o Generaliseerbaarheidstheorie = een veralgemening van de K.T.T. (Statistisch) model van de generaliseerbaarheidstheorie Generaliseerbaarheidsstudies (G-studies): bepaling variantiecomponenten o Met als doel het schatten van kwantiteiten om nieuwe testinstrumenten te ontwikkelen (met nauwkeurigheid!) Decisiestudies coëfficiënt En verder … (D-studies): schatten meetfoutvariantie en generaliseerbaarheids- Inleiding Naast niet-systematische meetfouten zijn er ook systematische meetfouten oftewel meetaspecten die het resultaat beïnvloeden Er kan pas vanaf 2 meetfacetten sprake zijn van een interactie-effect (bv: examenvorm én student) De generaliseerbaarheidstheorie biedt een veralgemening van de klassieke betrouwbaarheidstheorie via de modellering van de bronnen van systematische meetfouten of systematische meetvariatie In het bijzonder laat deze generaliseerbaarheidstheorie toe het belang van de diverse fout- en meetvariatiebronnen te bepalen Er wordt aandacht besteed aan zowel toevallige als systematische meetfouten o Systematische meetfouten zijn variaties in het meetresultaat te wijten aan een echt kenmerk van de meting Hierbij is er sprake van een onderscheid (bv: meting kennis psychometrie) tussen: o Object van meting: de entiteit waarop het te meten kenmerk betrekking heeft Bv: de studenten o Meetfacetten: aspecten of componenten die het meetresultaat mee bepalen Bv: examenvorm, beoordelaar 2. Generaliseerbaarheidstheorie Situering, basisconcepten en overzicht 45 Daarnaast wordt er ook een onderscheid gemaakt tussen: o Populatie: het geheel van meetobjecten o Universum: de set van alle mogelijke metingen over het geheel (van de combinaties van de niveaus) van de meetfacetten voor 1 bepaald object Bv: 20 examenvragen en 10 beoordelaars universum is 200: geheel van 200 mogelijke metingen/scores die je zou kunnen bekomen De universumscore ( ) is de verwachte meetscore, over het universum, van het object van meting (Statistisch) model van de generaliseerbaarheidstheorie Hét model van de generaliseerbaarheidstheorie bestaat niet. Er zijn, naargelang de eigen aard van de meetsituatie, vele modellen mogelijk. o Men wil meetinstrumenten ontwerpen die de beoogde generaliseerbaarheid (nauwkeurigheid, betrouwbaarheid) hebben De modellen variëren m.b.t.: o Het aantal meetfacetten o De aard van de meetfacetten: fixed vs. random meetfacetten o Fixed: tellen maar een beperkt aantal niveaus (bv. soort examens: MC, open boek, open vragen en mondeling) Random: niet beperkt? De opzet waarin de meetfacetten onderling gecombineerd worden (d.i. factoren die een aantal niveaus hebben): Meetfacetten kunnen volledig gekruist zijn (factoriële opzet): elke beoordelaar beoordeelt hetzelfde deel en hetzelfde aantal vragen (elk niveau van ene meetfacet combineren met zelfde niveaus van het andere meetfacet (bv. altijd 3 dezelfde beoordelaars)) per definitie gebalanceerd Meetfacetten kunnen volledig genest zijn (volledig geneste of hiërarchische opzet): elke beoordelaar beoordeelt een ander gedeelte van de vragen, maar wel hetzelfde aantal (bv. elk niveau van examenvraag is geassocieerd met verschillende beoordelaars (bv. V1 beoordelaars 1 tot 3 en V2 beoordelaars 4 tot 6)) Bv: v(b) = vragen genest binnen het facet beoordelaar Meetfacetten kunnen deels gekruist en deels genest zijn 2. Generaliseerbaarheidstheorie 46 Basismodel: gekruist opzet met 1 meetfacet elk subject krijgt dezelfde vragen : meetscore van de student (meetobject) op examenvorm gemiddelde universumscore effect van het object van meting effect van het meetfacet residu Er zijn altijd wel een paar fouten/een beetje ruis (+ interactie-effect, maar dat kan niet in het model worden gestoken) het populatiegemiddelde (verwachte waarde) van universumscores (bv. de verwachte score voor alle studenten en alle examenvragen) de universumscore van het object van meting (cfr. ware score) (bv. de verwachte score voor alle niveaus van het meetfacet, dus alle vragen) de populatiescore voor niveau moeilijkheidsgraad van de examenvorm) het meetfacet (cfr. is een constante; en zijn kansvariabelen met waarden die verdeeld zijn/variëren over respectievelijk de populatie (bv: studenten) en het universum (bv: geheel van mogelijke examenvormen) Ook is een kansveranderlijke met verwachting o representeert de toevallige meetfout Verwachting van de effecten: o De verwachte waarde van het effect van het meetobject is 0: ( o ) De verwachte waarde van het effect van het meetfacet is 0: ( en variantie ) Variantie van de effecten: o De variantie van het effect van het meetobject komt overeen met de universumscorevariantie: [ ⏟ ] 2. Generaliseerbaarheidstheorie van de 47 o De variantie van het effect van het meetfacet komt overeen met de variantie van de populatiescores geassocieerd met de (verschillende) niveaus van het meetfacet: [ o ⏟ ] De variantie van de meetscores is: Variantie van de meetscores = De variantie van de meetscores = De variantie t.g.v. verschillen tussen meetobjecten (universumvariantie) + De variantie t.g.v. verschillen tussen de niveaus van het meetfacet (d.i. de systematische variantie die niets te maken heeft met de meting zelf m.b.t. een bepaald kenmerk, maar er wel effect op heeft) + De rest (variantie van de meetfout, toe te schrijven aan een toevallige meetfout of interactie-effecten) De varianties De gebruikelijke manier om het opzet aan te duiden is o o , en worden de variantiecomponenten van het model genoemd De factor die correspondeert met het object van meting is gekruist met de factor die correspondeert met het meetniveau Elk model heeft een factor die correspondeert met het object van meting + meetfacetten … De meetobjecten (d.i. de niveaus van het object van meting) worden gescoord onder elke combinatie van niveaus van de meetfacetten Bijvoorbeeld: Stel 3 examenvormen psychometrie en 2 assistenten die de examens verbeteren. Elke student (meetobject) beantwoordt de 3 examenvormen en alle examens worden door beide assistenten verbeterd er zijn 3 verschillende variatiebronnen: o Meetfacet examenvorm met 3 niveaus o Meetfacet beoordelaar met 2 niveaus o Object van meting de student Dus 6 combinaties van de niveaus van de meetfacetten en per student hebben we 6 scores: elke willekeurige score: 2. Generaliseerbaarheidstheorie Model voor gekruist opzet met 2 meetfacetten 48 gemiddelde universumscore effect van het object van meting s effect van meetfacet v E=0 effect van meetfacet b student x examen effect student x beoordelaar effect examen x beoordelaar effect Interactie-effecten: slechts 1 meting per subject residu, toevallige meetfout (niet volledig zuiver) het populatiegemiddelde (de verwachte waarde) van de universumscores de universumscore van het object van meting (cfr. ware score) de populatiescore voor niveau van het meetfacet examenvorm (cfr. moeilijkheidsgraad examenvorm) de populatiescore voor niveau (cfr. strengheid beoordelaars) de gemiddelde score (over de beoordelaars) voor meetobject en niveau van het meetfacet examenvorm (de moeilijkheidsgraad van de examenvorm kan variëren over studenten) de gemiddelde score (over de examenvormen) voor meetobject en niveau van het meetfacet beoordelaar (strengheid beoordelaars kan variëren over studenten) de gemiddelde score (over studenten) voor examenvorm beoordeeld door beoordelaar (moeilijkheidsgraad examenvorm kan variëren over beoordelaars) is opnieuw een constante, terwijl , , , , en is eveneens een kansveranderlijke met verwachting Verwachting van de effecten: ⏟ kansvariabelen zijn. en variantie 2. Generaliseerbaarheidstheorie van het meetfacet beoordelaar 49 Variantie van de effecten: o variantie van de universumscores o variantie t.g.v. examenvormen o variantie t.g.v. beoordelaars o variantie t.g.v. het variëren van de moeilijkheidsgraad van de examenvormen over studenten o … De variantiecomponenten van het model zijn nu: Tenslotte is, analoog , de variantie van de meetscores en kan getoond worden dat die variantie van de meetscores: , , , , , , Dit is een goede meetmethode, want het grootste deel van de variantie wordt verklaard door de universumvariantie De gebruikelijke manier om het opzet aan te duiden is o De factor die correspondeert met het object van meting is gekruist met de factor die correspondeert met examenvragen en beoordelaars (factor gekruist met 2 meetfacetten) Model voor genest opzet met 1 meetfacet Elke student krijgt hetzelfde aantal vragen, maar niet dezelfde Een factor, (meetfacet of object van meting), is genest binnen een andere factor, (meetfacet of object van meting) zo … o Meerdere niveaus van met elk niveau van b geassocieerd zijn o Verschillende niveaus van met elk niveau van geassocieerd zijn Bijvoorbeeld: Voor het examen psychometrie zijn 500 vragen gemaakt. Elke student krijgt een verschillende steekproef van 10 vragen uit dit totaal o Object van meting: studenten, o Meetfacet: examenvragen, Maar: elke student krijgt een verschillende set van 10 vragen Meetfacet examenvragen is genest binnen studenten 2. Generaliseerbaarheidstheorie ( ) 50 Bovenstaand opzet wordt gebruikelijk genoteerd als meetfacet genest is binnen studenten, om aan te geven dat het Er is dus een interactie tussen het meetfacet en het object van meting Is de score van student op vraag , dan is het passend model: de gemiddelde universumscore, effect van student residu, toevallige meetfout Merk op dat het effect van het meetfacet vragen, ( ), niet kan onderscheiden worden van de toevallige fout, , en daarom niet gemodelleerd wordt (want het meetfacet is genest binnen het subject) en zijn kansveranderlijken met een verwachting De variantiecomponenten van het model zijn o en en met: , de variantie geassocieerd met het student-effect o Opnieuw is de variantie van de meetscores: o = de variantie van de meetscore o = de variantie van de echte toevallige meetfout + de variantie van de interactie van en + de variantie van het meetfacet Modellen voor (gedeeltelijk) geneste opzetten met 2 meetfacetten Bijvoorbeeld: Studenten zijn meetobjecten, (open) examenvragen meetfacet en beoordelaars het tweede meetfacet. Er zijn verschillende types van dergelijke geneste opzetten: o of o ( ) o ( o o vormen het eerste ( of ( ) ) of ( )( ) = ( ( )) of ( ) )( ) ( ( )) verschillende meetfacetten zijn op verschillende manieren genest 2. Generaliseerbaarheidstheorie 51 Bemerk dat opzetten waarin het aspect i.v.m. het object van meting genest is binnen een meetfacet (e.g., ) niet voorkomen. Dergelijke opzetten scheppen problemen om de variantiecomponent geassocieerd met het object van meting te schatten Type 1: (of: ) Object van meting gekruist met meetfacet examenvragen dat genest zit in meetfacet beoordelaars Voorbeeld: Elke student krijgt alle vragen (met, bv. ) en alle studenten worden door iedere beoordelaar (met, bv ) beoordeeld, maar beoordelaar 1 verbetert enkel de vragen 1 en 2, terwijl beoordelaar 2 enkel de vragen 3 en 4 beoordeelt Model: gemiddelde universumscore effect van student effect van beoordelaar zit genest in er is dus geen aparte term voor het effect van de vragen ZIT VERVAT IN HET INTERACTIE-EFFECT student x beoordelaar effect vragen x beoordelaar effect Interactie-effecten: verwachting = 0 genest, dus zonder + residu, toevallige meetfout x ), 2de interactie-effect Variantie van de meetscores: Het effect van de examenvraag is verward (confounded) / kan niet onderscheiden worden van het effect i.v.m. de interactie van vragen en beoordelaar 2. Generaliseerbaarheidstheorie puur residuele fout, interactie-effect ( x ( x ) 52 Type 2: (of: ) Het meetfacet examenvragen dat genest zit in het object van meting, gekruist met het meetfacet beoordelaars Voorbeeld: Elke student krijgt een verschillende set van vragen, , en alle examens worden door iedere beoordelaar, , verbeterd Model: gemiddelde universumscore effect van student effect van beoordelaar zit genest in er is dus geen aparte term voor het effect van de vragen ZIT VERVAT IN HET INTERACTIE-EFFECT student x beoordelaar effect student x vragen effect Interactie-effecten: verwachting = 0 genest, dus zonder + residu, toevallige meetfout x ), 2de interactie-effect Variantie van de meetscores: Het effect van de examenvraag is verward (confounded) / kan niet onderscheiden worden van het effect i.v.m. de interactie van vragen en student Type 3: ( ) (of: ( )) Het meetfacet examenvragen zit genest in de kruising van het object van meting met het meetfacet beoordelaars Voorbeeld: Elke student wordt door iedere beoordelaar geëvalueerd, maar de set van gescoorde vragen is verschillend voor iedere combinatie van de niveaus van en (de beoordelaars verbeteren telkens 2 verschillende vragen) 2. Generaliseerbaarheidstheorie puur residuele fout, interactie-effect ( x ( x ) 53 ( Model: ) gemiddelde universumscore effect van student effect van beoordelaar student x beoordelaar effect Interactie-effect: verwachting = 0 residu, toevallige meetfout puur residuele fout, interactie-effect ( x ( x ) x ), 2de interactie-effect Variantie van de meetscores: Het effect van de examenvraag is genest binnen de gekruiste opzet van het meetobject en het meetfacet beoordelaars, waardoor er geen genest interactie-effect is Type 4: ( )( ) = ( )( ) De kruising van het meetfacet examenvragen met het meetfacet beoordelaars zit genest in het object van meting Voorbeeld: De beoordelaars en de vragen verschillen van student tot student en iedere beoordelaar van een student scoort alle aan de student gestelde vragen (er zijn verschillende vragen en elke vraag wordt door dezelfde 2 beoordelaars beoordeeld) 2. Generaliseerbaarheidstheorie 54 ( Model: Er is geen interactie tussen en want deze zit genest in )( ) gemiddelde universumscore je moet dus erbij nemen effect van student student x vragen effect Interactie-effect: verwachting = 0 student x beoordelaar effect residu, toevallige meetfout puur residuele fout, interactie-effect ( x ( x ) x ), 2de interactie-effect Variantie van de meetscores: Het gekruiste opzet tussen het meetfacet examenvragen en meetfacet beoordelaars zit genest binnen het meetobject, wat betekent dat er wel interactie-effecten zijn Type 5: ( ( )) (of: ( ( )) ) Het meetfacet examenvragen zit genest in het meetfacet beoordelaars, dat op zijn beurt genest zit in het object van meting Voorbeeld: De beoordelaars en de vragen verschillen van student tot student en iedere beoordelaar van een student scoort slechts een deel van de aan de student gestelde vragen (er zijn 2 verschillende beoordelaars en elke beoordelaar beoordeelt 2 verschillende vragen) Model: ( ( )) gemiddelde universumscore Er is geen interactie terug te vinden tussen en want zit genest in , die genest zit in je moet dus erbij nemen effect van student student x beoordelaar effect Interactie-effect: verwachting = 0 residu, toevallige meetfout puur residuele fout, interactie-effect ( x ( x ) 2. Generaliseerbaarheidstheorie x ), 2de interactie-effect 55 Variantie van de meetscores: Generaliseerbaarheidsstudies (G-studies) Bepaling van de variantiecomponenten Doel: schatten van de variantiecomponenten voor een zo ruim mogelijk universum van meetscores (d.i., m.b.t. zo veel mogelijk relevante meetfacetten) Opmerking: Een volledig gekruist opzet laat, in vergelijking met (partieel) geneste opzetten, de schatting van een groter aantal variantiecomponenten toe De actuele bepaling van de waarde van de variantiecomponenten gebeurt m.b.v. procedures uit de variantie-analyse dit is een methode van data-analyse o De methode is een speciaal geval voor de analyse van responsvariabelen volgens het algemeen lineair model Voorbeeld: Een G-studie aan de hand van een volledig gekruist opzet ( x x ) van studenten ( ), vragen ( ) en beoordelaars ( ) levert, na toepassing van variantie-analyse de volgende schattingen (notatie: met een hoedje) van de variantiecomponenten: De schattingen van de variantiecomponenten wijzen op twee problemen: o Aanzienlijke verschillen in de moeilijkheid tussen de examenvormen o De moeilijkheid van de examenvormen varieert aanzienlijk van student tot student Doel: gebruik van de in de G-studie bekomen schatting van de variantiecomponenten voor beslissingen i.v.m. de samenstelling van een meetinstrument met een aanvaardbare nauwkeurigheid. De beslissingen betreffen o.m. het vereiste aantal niveaus voor de meetfacetten (Hoeveel vragen? Hoeveel beoordelaars? Welke vorm?) M.b.t. de nauwkeurigheid van de meting wordt een onderscheid gemaakt tussen de nauwkeurigheid van: o Relatieve metingen: de onderlinge positie van de meetobjecten t.o.v. elkaar (relatieve positie) meting beogen op intervalniveau 2. Generaliseerbaarheidstheorie Decisiestudies (D-studies) 56 o Absolute metingen: (een schatting van) de absolute universumscore (dit is t.b.v. de vergelijking met een drempelwaarde) meting beogen op rationiveau Bv: examenuitslag vergelijken met een vooropgestelde drempelwaarde Meetnauwkeurigheid In de KTT kent men twee maten voor de meetnauwkeurigheid: o Onvoorwaardelijke meetnauwkeurigheid: de betrouwbaarheid o Voorwaardelijke meetnauwkeurigheid ( ) met: (standaardmeetfout) met: √ Bij de generaliseerbaarheidstheorie wordt de meetnauwkeurigheid van een D-studie in het algemeen gedefinieerd als: Merk op: men gebruikt universumscores i.p.v. truescores De variantie van de meetfout is afhankelijk van / verschillend naargelang: o De opzet van de studie (combinatie van meetfacetten) o Het aantal niveaus van de meetfacetten o De aard van de meting (d.i. relatieve vs. absolute meting) Principes van de bepaling van de meetfoutvariantie Bij de bepaling van de meetfoutvariantie bij een relatieve meting ( ), spelen enkel de variantiecomponenten i.v.m. de interactie van de meetfacetten met het object van meting een rol, omdat enkel deze effecten de relatieve orde van de meetobjecten verstoren o Voorbeeld: Bij een gekruist opzet ( x x ) met object van meting, zijn enkel de componenten en , als meetfacetten en het en belangrijk Bij de bepaling van de meetfoutvariantie bij een absolute meting ( ), spelen alle variantiecomponenten, uitgezonderd de component i.v.m. het meetobject, een rol o Voorbeeld: Bij een gekruist opzet ( x belangrijk x ) zijn de componenten , en 2. Generaliseerbaarheidstheorie 57 Zowel bij de relatieve als bij de absolute meting is de bijdrage van een relevante variantiecomponent tot de meetfoutvariantie omgekeerd evenredig met het aantal (combinaties van) niveaus van de meetfacetten die met de component geassocieerd zijn o Voorbeeld 1: Bij een gekruist opzet ( x x ) met en object van meting, is niveaus voor de meetfacetten o als meetfacetten en het , met en en in de D-studie Voorbeeld 2: Bij datzelfde opzet ( x x ) met en als meetfacetten en object van meting, is , met het aantal niveaus voor de meetfacetten o Voorbeeld 3: Bij een genest opzet o het en en in de D-studie x ( ) met en object van meting, is niveaus voor de meetfacetten het aantal als meetfacetten en , met en het het aantal en in de D-studie Voorbeeld 4: Bij datzelfde opzet x ( ) met en als meetfacetten en object van meting, is aantal niveaus voor de meetfacetten , met en het het en in de D-studie Coëfficiënten van meetnauwkeurigheid M.b.t. relatieve metingen wordt de meetnauwkeurigheid van een meetprocedure uitgedrukt via de generaliseerbaarheidscoëfficiënt, , met: De componenten van (dit is en beoogde ) worden geschat via de in een passende G-studie bekomen waarden voor de variantiecomponenten De -coëfficiënt stemt overeen met de verwachte waarde van de gekwadrateerde correlatie tussen de geobserveerde scores en de universumscores van de meetobjecten = ( o ) Voorbeeld 1: Stel dat een -studie voor een gekruist opzet met en als meetfacetten en het object van meting resulteerde in de volgende schattingen van de variantiecomponenten: 2. Generaliseerbaarheidstheorie 58 We plannen een -studie met een gekruist opzet waarbij de studenten, , allen dezelfde twee examenvragen, , afleggen, verbeterd door dezelfde twee beoordelaars, . In dat geval is: Voorts is voor de geplande -studie, op basis van de geschatte variantiecomponenten, de generaliseerbaarheidscoëfficiënt, , gelijk aan: ̂ o ̂ ̂ Voorbeeld 2: Gebruik makend van de gegevens van de vorige -studie plannen we deze keer een -studie met een gedeeltelijk genest opzet, , met twee examenvormen ( ) en vier beoordelaars ( ): Voor dit opzet geldt de volgende decompositie: en is ̂ ̂ Voorts is voor de geplande -studie, op basis van de geschatte variantiecomponenten, de generaliseerbaarheidscoëfficiënt, , gelijk aan: o Voorbeeld 3: Nog steeds gebruik makend van de gegevens van de vorige -studie plannen we deze keer een -studie met het volgende gedeeltelijk genest opzet, , met vijf examenvormen ( ) en drie beoordelaars ( ): Voor dit opzet geldt de volgende decompositie: 2. Generaliseerbaarheidstheorie ̂ ̂ ̂ 59 ̂ ̂ en is ̂ ̂ Voorts is voor de geplande -studie, op basis van de geschatte variantiecomponenten, de generaliseerbaarheidscoëfficiënt, , gelijk aan: ̂ ̂ ̂ M.b.t. absolute metingen wordt de meetnauwkeurigheid meetprocedure uitgedrukt via de index of dependability, , met: van een beoogde Ontwerp D-studies met beoogde meetnauwkeurigheid Doel: het ontwerpen van meetprocedures m.b.v. een D-studie zodat de meting voldoende nauwkeurig is (d.w.z. zodat de G-coëfficiënt voldoende hoog is) Voorbeeld: Aansluitend op de volgende -studie plan ik een meting a.d.h.v. een gekruist opzet ( x x ), zodat de generaliseerbaarheidscoëfficiënt minstens 0.80 is Er zijn minstens 4 beoordelaars en 5 vragen nodig ̂ ̂ ̂ ̂ 2. Generaliseerbaarheidstheorie Hoeveel examenvormen en/of beoordelaars moet ik minstens inschakelen zodat de Gcoëfficiënt minstens x is? ̂ 60 Generaliseerbaarheidstheorie voor het opzetten met zowel fixed (bv: het hele curriculum beschikbaar, maar we hebben enkel het vak psychometrie nodig) als random meetfacetten. Generaliseerbaarheidstheorie voor ongebalanceerde opzetten (d.i. het opzetten met ongelijke aantallen facetniveaus genest binnen een ander facet) Multivariate generaliseerbaarheidstheorie 2. Generaliseerbaarheidstheorie Extra 61 62 2. Generaliseerbaarheidstheorie 3. Itemresponstheorieën Document psir105 Document psir205 Overzicht Situering, basisconcepten en aannamen Soorten Itemresponstheorieën Schatting subject- en itemparameters Testinformatie en testconstructie Modeltoetsen Toepassingen: o o Geautomatiseerd testen Adaptief testen Inleiding Dit wordt ook wel de Moderne Testtheorie genoemd De focus ligt op gescoord itemgedrag; men probeert expliciet de relatie tussen het gescoorde item en het latent kenmerk te modelleren Situering, basisconcepten en aannamen Situering en basisconcepten Itemresponstheorieën betreffen de samenhang tussen het gescoord responsgedrag op een testitem (d.i. het gescoord antwoord op testitem ) en de positie van het subject m.b.t. het vermoede, onderliggende latent kenmerk (d.i. de trekscore van subject op trek ) en zijn kansvariabelen De samenhang tussen het gescoord antwoord op testitem individu wordt gedefinieerd m.b.v. de regressiefunctie De regressiefunctie (voor het geheel van mogelijke waarden van ) wordt ook de Itemkarakteristieke functie of curve (IKF) of traceline van het item genoemd Er wordt een onderscheid gemaakt voor itemresponstheorieën voor metrisch en discreet gescoorde items o Bij metrische items is het responsgedrag continu en wordt het metrisch (dus op interval of ratio niveau) gescoord o Bij discrete items is het responsgedrag discreet en wordt het nominaal gescoord (bv: juist (score 1) of fout (score 0) bij dichotome items) 3. Itemresponstheorieën en de trekscore van een 63 Itemresponstheorieën kunnen ook opgedeeld worden in latente klassenmodellen (de trek is discreet, d.w.z. met een beperkt aantal mogelijke waarden) en latente trekmodellen (de trek is continu) Vanaf hier enkel aandacht voor unidimensionele latente trekmodellen voor discrete (meer bepaald, dichotome) items Aannamen onderliggend aan IRT voor dichotome items De itemrespons is een functie van een onderliggend continu latent kenmerk De items zijn unidimensioneel: één enkele latente trek volstaat om de samenhang tussen de items te verklaren (d.w.z. dat de items lokaal onafhankelijk zijn) met : de (voorwaardelijke) kans om item correct op te lossen, gegeven de waarde voor de trek Al naargelang het IRT model wordt ook een specifieke aanname omtrent de aard van de regressiefunctie gemaakt Bemerk dat met dichotome items: Er zijn maar twee mogelijke uitkomsten Soorten Itemresponstheorieën: soorten unidimensionele IRT-modellen voor dichotome items Er wordt een onderscheid itemresponstheorieën: gemaakt tussen verschillende modellen voor o Deterministische modellen (de kans heeft maar 2 mogelijke waarden 0 en 1) o Probabilistische/stochastische modellen (de kans neemt alle mogelijke waarden aan tussen 0 en 1) Parametrische modellen (bij deze modellen is de regressiefunctie gekenmerkt door een aantal parameters, er wordt verwezen naar de items) Niet-parametrische modellen (de functie is niet belast met items) Hierna worden enkel de meer gebruikelijke parametrische modellen behandeld 3. Itemresponstheorieën 64 Deterministische modellen GUTTMAN MODEL Oudste model: ca. 1940 (context: attitudemetingen) Regressiefunctie gedefinieerd als: { met de itemmoeilijkheid Opmerking: dit is niet echt een realistisch model, want het laat maar twee kansen toe, nl. 0 en 1 (het is dus te simpel) Stochastische modellen NORMAALOGIEFMODEL (LORD, 1953) De regressiefunctie (IKF) [ met is: ] ∫ ( √ )∫ ⁄ de standaardnormaaldistributiefunctie de standaardnormaaldichtheidsfunctie Normaalogiefmodel met 2 itemparameters met waarde 1 3. Itemresponstheorieën 65 [ ] Zeer slecht item, want het discrimineert niet. Waar je je ook bevindt op het -continuüm, je hebt altijd evenveel kans om het item correct op te lossen Dit is het makkelijkste item Dit is het moeilijkste item Zeer slecht item, maar beter als traceline (1), want het discrimineert minimum is een waarde om te discrimineren tussen een hoge en lage waarde op de trek: hoe hoger, hoe preciezer het item discrimineert Bij een parameter gaat het over de moeilijkheid van een item: hoe hoger, hoe meer rechts de traceline zich bevindt hoe hoger de waarde o Waar je je ook bevindt op het continuüm, … Je hebt altijd meer kans om item (3) op te lossen dan item (4) Je hebt altijd meer kans om item (5) op te lossen dan item (6) Parameters: : parameter van de discriminatieve kracht van het item : parameter i.v.m. de moeilijkheid van het item o Als o Als o (( Als [ [ { ] voor alle waarden voor dan is: ] [ [ ]] [ [ [ ]] [ ] ] 3. Itemresponstheorieën o moet zijn 66 [ [ ( ] √ )] √ De helling van de raaklijn voor is evenredig met )) Er is echter een numeriek probleem met het normaalogiefmodel: De waarde van de standaardnormaaldistributiefunctie is niet analytisch evalueerbaar (het is met andere woorden moeilijk uit te rekenen wat de waarde is van die functie) o Echter: met o : de logistische functie Dus: [ ] [ ] Eén parameter logistisch model: Rasch model BASISFORMULERING Alle items hebben dezelfde discriminatieve kracht en dan houd je maar 1 parameter over Regressiefunctie (IKF) van het model is: [ met constant voor alle ( ] ) ( ) kan vervangen worden door (want de discriminatieve kracht is voor elk item gelijk) Noteer: o : subject abilit : itemmoeilijkheid { ( dan ) ( ) Subject ability = de plaats van het subject op het onderliggend continuüm Immers: : : itemgemakkelijkheid subject ability De relatie tussen en is omgekeerd (kunnen nooit negatieve waarden zijn) 3. Itemresponstheorieën MULTIPLICATIEVE FORMULERING RASCH 67 Opmerking: i.t.t. KARAKTERISTIEKEN VAN ITEM- EN SUBJECTPARAMETERS Parameters kunnen bepaald worden tot op een additieve resp. multiplicatieve constante: ( ) ( ) Item- resp. subjectparameters kunnen onafhankelijk van elkaar bepaald worden: specifieke objectiviteit Welke steekproef we ook gebruiken om de parameters te schatten, de geschatte parameters zullen altijd dezelfde waarden hebben, op de constante na (afh. van de formulering). D.w.z. dat we dezelfde schaling zullen vinden SPECIFIEKE OBJECTIVITEIT: VERGELIJKING TUSSEN TWEE ITEMS Odd = : de kans om het item juist op te lossen in verhouding tot de kans om het item verkeerd op te lossen ⁄ Odds-ratio voor het oplossen van item vs. : ⁄ { } De verhouding tussen de itemgemakkelijkheden is constant, ongeacht de latente trekscore van de subjecten. Vergelijk met de moeilijkheidswaarden zoals gedefinieerd in de KTT Dus bij de vergelijking tussen 2 objecten: ⁄ ⁄ 3. Itemresponstheorieën ⁄ ⁄ 68 SPECIFIEKE OBJECTIVITEIT: ENKEL RASCH MODEL Veronderstelling: tracelines hebben dezelfde helling Maar: welke van de items de moeilijkste is, hangt af van individu tot individu o Subject v vindt item i het moeilijkst om op te lossen, terwijl subject w item j het moeilijkst vindt (?) dat verschil mag niet bij het Rasch model: dus geen sprake van specif. object. o De helling van de traceline van de 2 items is verschillend (en beide items hebben dus een verschillende discriminatieve kracht) o Bij het tweede item j is de kans groter dan 0 om het item juist op te lossen, zelfs al scoor je oneindig laag Twee- en drie-parameter model Traceline = discrimineerbaarheid van het item (hoe steiler de helling, hoe beter discrimineerbaar) Er is geen specifieke objectiviteit meer, maar de modellen zijn realistischer Twee-parameter model: ] De tracelines hebben een verschillende helling; dit heeft te maken met de aparameter Drie-parameter model: (Opgesteld om te vermijden dat mensen juist antwoorden door te gissen) [ ] met : gis-coëfficiënt 3. Itemresponstheorieën [ 69 Schatting van de modelparameters: subject- en itemparameters De modelparameters omvatten het geheel van de item- en de subjectparameters Bv: Rasch model o Itemparameters: de set , of de formulering van het model o Subjectparameters: de set , met = 1, …, of (aantal items), al naargelang met = 1, …, (aantal subjecten) In wat volgt, bekijken we eerst het geval waar de itemparameterwaarden bekend (reeds geschat) zijn en enkel nog de subjectparameters dienen bepaald te worden Schatten van de subjectparameters De itemparameterwaarden zijn reeds bekend/geschat Het schatten van de subjectparameters gebeurt m.b.v. de methode/het principe van de maximale aannemelijkheid (vgl. met ‘methode van de kleinste kwadranten’, Statistiek II) Aannemelijkheid (likelihood): kans van het antwoordpatroon Notatie: { Voorbeeld: Voor het antwoordpatroon is de aannemelijkheid (cfr. principe van lokale onafhankelijkheid) Alle drie de componenten kunnen op dezelfde manier worden uitgedrukt (niet soms P, soms Q) DUS: ∏ Bemerk dat de aannemelijkheid (likelihood) functie is van de waarde van Dus: de aannemelijkheid (de kans om het item juist op te lossen) varieert naargelang de waarde van 3. Itemresponstheorieën o met bijvoorbeeld 70 We gaan de hoogste score van corresponderend met de hoogste aannemelijkheid (max. likelihood) gebruiken als schatter (( Opmerking: Schatten van de subjectparameter betekent zo bepalen dat maximaal is. M.a.w. bepaal of met: [ {∏ ∑ { ( } ) ∑ ( )} ] : natuurlijke logaritme van de likelihood { (een functie van ) } ∑ )) Aannemelijkheid van een geheel van antwoordpatronen, de subjecten zijn onderling onafhankelijk, iedere rij is een subject ( ) ∏ ∏ functie van het geheel van subjectparameters BIJ HET RASCH MODEL Eigenlijk geen parameter meer Kans om het item juist op te lossen Kans om het item fout op te lossen ∏ ∏ ] [ ] ∏ heeft waarde 0 of waarde 1; deze formule klopt voor beide waarden De likelihood ( ∏ ) is functie van de waarde van de subjectparameter multiplicatieve formulering) of van (basisformulering) Voorbeeld: Schatting (in de , gegeven Hoe hoger, hoe moeilijker het item Gegeven: en 3. Itemresponstheorieën o [ 71 Itemgemakkelijkheid Dus: Probleem: Bepaal Oplossing: Iteratieve methode Illustratie berekening aannemelijkheid: ∏ zo, dat Stel, bijvoorbeeld: { De aannemelijkheid : Stel, anderzijds, De aannemelijkheid maximaal is { : hier is de aannemelijkheid al heel wat groter Enzovoort voor andere waarden voor Overzicht: …… Maximale aannemelijkheid wordt geprefereerd (toepasbaar; psychometrie), maar anders is methode van de kleinste kwadraten (statistiek) ook goed. Dezelfde schatting van de parameters 3. Itemresponstheorieën 72 Eigenschappen van een maximale aannemelijkheidschatter Is ̂ een MA-schatter voor , dan is ̂ : o Consistent: (| ̂ | ) De schatter ̂ convergeert naar (de ware waarde van) naarmate het convergeert naar de exacte parameterwaarde naarmate het op een groeiend aantal items gebaseerd is = consistent o Efficiënt: De variantie van de steekproevenverdeling van ̂ ( ̂) is asymptotisch minimaal asymptotisch minimaal (bij groeiend aantal items): zo klein mogelijk (~gekenmerkt door een steekproevenverdeling met de kleinste variantie) o (Asymptotisch) normaal verdeeld als het op een groeiend aantal items gebaseerd is, neigt het meer en meer naar een normaalverdeling (de steekproevenverdeling van ) o Functie van een voldoende statistiek: Een voldoende statistiek is een functie van de data (d.i. de gescoorde itemantwoorden) die alle informatie bevatten die nodig is om de waarde van de parameter te schatten (Statistiek II) Schatters zijn realisaties van kansveranderlijken Bv.: Om mijn schatter te bekomen, is de statistiek ( ̅) voldoende. Ik heb de afzonderlijke scores niet nodig (een statistiek = elke functie van de data (1 element = een statistiek, som = een statistiek, …) Testinformatie en testconstructie Informatiefunctie van een test De meetprecisie (hoeveelheid info) van een test als functie van de waarde van (~ voorwaardelijke meetprecisie uit de KTT) : ̂ ( ∑ ) ( ) ALGEMEEN: hoe preciezer je dit kan schatten, hoe smaller de steekproevenverdeling ALGEMEEN: generieke vergelijking (geldt voor elke likelihoodschatter) ∑ RASCH: geldt enkel voor het Rasch-model met Bemerk dat een functie is van omdat en dat zijn 3. Itemresponstheorieën 73 Informatiefunctie van een item De meetprecisie (hoeveelheid info) van een item als functie van de waarde van : RASCH: geldt enkel voor het Rasch-model Bemerk dat maximaal is als (dit is een kans van 0.50 om het item correct op te lossen) Voor welke waarde van item) maximaal zijn? Als zal de waarde van (= de informatiefunctie van een precies gelijk is aan de moeilijkheidswaarde van het item Bemerk dat we, gegeven een schatting voor en de itemparameters, de meetprecisie van elk item (ook een nog niet aangeboden item) kunnen berekenen Dit is een gegeven van groot praktisch belang voor de testconstructie: de test kan aan het individu aangepast worden (adaptief testen) Modeltoetsen De informatiefunctie (van een toets of item) berekenen is niet beperkt tot het Raschmodel, maar kan ook bij andere modellen gebruikt worden, zoals het twee- en drieparameter model. Het Rasch-model is enkel simpeler Om na te trekken of de assumpties van een IRT-model in overeenstemming zijn met de data (testen op houdbaarheid), zijn tientallen procedures en toetsen ontwikkeld Toetsen die natrekken of een itemcollectie voldoet aan de vereisten van het Raschmodel: o Toets van Wright & Panachapakesan o Toets van Andersen Toets van Wright & Panachapakesan [ ] ∑ De gestandaardiseerde frequentie wordt gesommeerd ∑ Met [ [ ( )] ] ( ) ( ) ⁄ 3. Itemresponstheorieën : aantal items 74 : aantal scoregroepen (d.i. groepen van individuen met dezelfde totaalscore) : aantal individuen in scoregroep : aantal individuen uit scoregroep dat item correct beantwoordt (= binomiale kansveranderlijke) : de uit het model afgeleide kans dat een individu uit scoregroep item oplost Wanneer de toetsgrootheid > de kritieke waarde, wordt de nulhypothese verworpen Toets van Andersen De toets is toepasbaar als de individuen op grond van een ander kenmerk dan hun testscore in groepen kunnen ingedeeld worden o Bv.: man-vrouw, leeftijd, kleur van ogen, … De toets is eveneens een [ ( ] toets: ̂ ∏ ̂ De volledige matrix (bv. groene + bruine + blauwe ogen) ) Bv. de groep met blauwe ogen Met ̂ : de met geschatte parameterwaarden samenhangende likelihood ̂ van de data van subgroep j de geschatte likelihood voor het geheel van de subgroepen : Toepassingen Er zijn verschillende toepassingen mogelijk van de itemresponstheorieën: o Ontwerp mastery tests o Vertical equating: het gelijkschakelen van testen die éénzelfde kenmerk meten maar m.b.t. dit kenmerk een verschillend bereik hebben o Item bias: natrekken of testitems bepaalde subjectgroepen benadelen o Adaptief testen: testen op maat van het individu Een test is adaptief zo de keuze van het volgend aan te bieden item bepaald wordt door het responsgedrag van het individu op de voorgaande items 3. Itemresponstheorieën 75 Ontwerp mastery tests Dit is het ontwerpen van een test die zo goed mogelijk discrimineert tussen individuen die onder een bepaalde vooraf opgestelde kritieke waarde scoren en individuen die erboven scoren Masters hebben een trekwaarde zodat Non-masters: o De trekwaarde moet minstens gelijk zijn aan een vooropgestelde kritieke waarde (drempel), bv. je slaagt voor het examen psychometrie als je minstens 10/20 haalt o Bij non-masters ligt de score lager dan die kritieke drempelwaarde Een mastery test is een test met een speciale informatiefunctie. Het is namelijk een test die bijzonder goed discrimineert tussen masters en non-masters, en die m.a.w. zeer gevoelig is (een grote informatiewaarde heeft) in de nabijheid van de waarde voor de latente trek Deze test wordt vooral toegepast in een educatieve context Elk examen beoogt een masterytest te zijn INFORMATIEFUNCTIE VAN EEN MASTERY TEST Als we over schattingen van de itemparameterwaarden beschikken, dan kunnen we technieken voor het oplossen van 0-1 lineair programmeringsproblemen aanwenden Verklarende noot: (0-1) lineair programmeringsprobleem o Een programmeringsprobleem is een probleem waarbij een functie van de probleemvariabelen (d.i. de doelfunctie) moet geoptimaliseerd (gemaximaliseerd of geminimaliseerd) worden 3. Itemresponstheorieën MASTERY TEST: HOE? 76 o Constrained programmeringsprobleem: het optimum van de doelfunctie moet gevonden worden onder de conditie dat de oplossingswaarden voor de probleemvariabelen aan een aantal restricties voldoen o Lineair programmeringsprobleem: de doelfunctie en restricties zijn lineair in de probleemvariabelen (anders: niet-lineair programmeringsprobleem) o (0-1) programmeringsprobleem: alleen de waarden 0 en 1 zijn toegelaten voor de probleemvariabelen (dit geldt zowel voor een lineair als een niet-lineair programmeringsprobleem) o Voorbeeld niet-lineair programmeringsprobleem: (niet-lineaire doelfunctie) Mits (lineaire restrictie) (lineaire restrictie) Met de set van probleemvariabelen Oplossing: en waarde voor de doelfunctie met - als geoptimaliseerde Benadering 1: Opstellen van een test met zo weinig mogelijk items die toch voldoende onderscheid maakt tussen masters en non-masters. D.w.z. een zo kort mogelijke test die voldoende informatie biedt voor gelijk aan (d.i. een informatiewaarde minstens gelijk aan ): ∑ Mits ∑ o : item i wordt toegelaten in de test o : item i wordt niet toegelaten in de test o De informatiewaarde van een test is iets minder dan het geheel aan informatiewaarden van de items. Het doel is dus om die items die voldoende informatie bieden in de test te steken Benadering 2: Opstellen van een test die maximaal uit items bestaat en toch zo goed als mogelijk een onderscheid maakt tussen masters en non-masters: 3. Itemresponstheorieën Kritieke drempelwaarde voor de trek Mits 77 ∑ o Met, zoals voorheen, probleem: de set van (0-1) variabelen van het programmeringswaarbij o : item i wordt toegelaten in de test o : item i wordt niet toegelaten in de test Vertical equating Dit is het gelijkschakelen van testen die éénzelfde kenmerk meten maar m.b.t. dit kenmerk een verschillend bereik hebben (Vertical equating kan je hanteren als items voldoen aan het Rasch model) Stel testen A en B, met In het Rasch model: (̂ ̂ ̂ ∑ gemeenschappelijke items Itemmoeilijkheden ) en (̂ (̂ ̂ ̂ ) zijn identiek (op een additieve constante na) ) Bijvoorbeeld: Numerieke intelligentie bij kinderen A = 5-7 jaar en B = 8-12 jaar o Vraag ontwikkelingspsychologie: Groeit numerieke vaardigheid met de leeftijd? (Hoe evolueert de 1e categorie t.o.v. de 2e categorie?) o 2 verschillende testen die minimum een aantal items gelijk hebben (test A en B) subjectgroepen situeren op eenzelfde schaal: kan niet bij KTT (enkel binnen subjectgroepvergelijking) o Binnen de KTT zijn dit soort vragen moeilijk op te lossen Item bias Natrekken of testitems bepaalde subjectgroepen benadelen Differential Item Functioning (DIF) als indicatie voor item bias: gegeven dezelfde waarde voor de trek heeft de ene groep systematisch minder kans om het item correct op te lossen dan de andere groep Bijvoorbeeld: numerieke vaardigheden - Bovenste lijn = mannen Onderste lijn = vrouwen De kans om het item correct op te lossen is voor vrouwen kleiner dan voor mannen (discriminatie) 3. Itemresponstheorieën Is het zo dat een bepaalde test vrouwen, zwarten, allochtonen, … discrimineert? 78 Nagaan van DIF: Vergelijk de itemparameterschattingen bekomen via aparte analyses van de subgroepdata Geautomatiseerd testen Testafname, scoring en (eventueel) omscoring naar normen gebeurt computergestuurd Bijvoorbeeld: o RAVEN MATRICES / WAIS o MMPI / CATELL16PF ability persoonlijkheid VOORDELEN Afname en scoring zonder personeel Grotere standaardisatie van de afnamecondities Snelheid van de afname en de scoring: onmiddellijk scores, normen en profielen Flexibiliteit in testafname (de test kan aangepast worden aan specifieke noden) Gemakkelijk bijhouden van data en updaten van normen Testbeveiliging: geen boekjes die verdwijnen Adaptief testen Testen op maat van het individu. Een test is adaptief als de keuze van het volgend aan te bieden item bepaald wordt door het responsgedrag van het individu op de voorgaande items De aanbieding van het volgende testitem is in functie van het voorafgaande responsgedrag Er zijn verschillende types van adaptief testen: o Fixed branching o Model based branching Vooral power (capaciteiten, bekwaamheden) Meestal IRT-gebaseerd 3. Itemresponstheorieën 79 FIXED BRANCHING Zelfde aantal items per subject (en iedereen begint met hetzelfde item) De boomstructuur ligt vast (voor het geheel van items) Keuzes zijn irreversibel Na elk antwoord is de keuze beperkt tot 2 items (eenvoudig geval) o Bv.: wanneer iemand item 2 juist beantwoordde, kan deze item 4 niet meer krijgen Problematische estimatie subject ability Bv: De boom is 20 items ‘diep’, maar proefpersonen krijgen mogelijk 20 verschillende items MODEL BASED BRANCHING Vooral power (capaciteiten, bekwaamheden); meestal IRT-gebaseerd Power (geen speed) tests praktische beperking voor het soort kenmerken dat je kan meten Begin: fixed branching Eventueel: Bayesiaans algoritme Eens { } kan een schatting ̂ (een eerste initiële schatting), van de subjectparameter via maximum likelihood bepaald worden en kan de keuze van het volgend item via infomaximalisatie berekend worden (als het subject altijd juist (de waarde van een trek van een individu) of fout blijft antwoorden, kan men geen 1e initiële schatting maken) Het aantal items is niet vast per subject, want de test wordt geconstrueerd op maat van het individu (het proces van convergerende schattingen zal sneller gaan bij het ene individu dan bij de ander) o ( ̂ ) : de informatiewaarde van item , vertrekkende van de gegeven schatting voor doel: item met de meeste informatiewaarde bekomen 3. Itemresponstheorieën 80 Voorbeeld Model Based Branching: o o Startitems: Populatiegemiddelde Normgemiddelde Bayesiaans We kunnen pas een schatting maken als het individu min. 1 juist en 1 fout antwoord heeft gegeven, omdat we pas een eindige waarde verkrijgen na 1 juist en 1 fout antwoord van het subject (niemand is oneindig slim of oneindig dom) Item met gestandaardiseerde moeilijkheid van 1.65 (slechts 5% antwoordt juist) Cfr. geautomatiseerd testen Power van de test is hoger o ± 50% tijdsefficiënt (bij andere testen moet je eerst alle items door) o Uniforme meetaccuraatheid (IRT) o Globaal accurater Meer gemotiveerde subjecten Item-bias kan nagegaan worden Vertical equating mogelijk (IRT) Nog grotere testbeveiliging: geen communicatie over items meer mogelijk 3. Itemresponstheorieën VOORDELEN 81 VERGELIJKING ADAPTIEVE TEST EN CONVENTIONELE TEST Meet overal even accuraat 3. Itemresponstheorieën Nauwkeuriger in het midden 82 4. Schaalmethoden Document pssm105 Document pssm205 Inleiding Doel: gegeven passende gegevens, schalen (meten) van psychologische objecten volgens een bepaald model (theorie) o Passende gegevens: gegevens van een meetniveau dat niet groter is dan categorisch of ordinaal niveau overzetten naar een hoger intervalniveau Assumptie: unidimensionaliteit d.w.z. dat er wordt aangenomen dat de te schalen objecten wezenlijk in slechts één, enkelvoudig aspect van elkaar verschillen o multidimensionaliteit: de te schalen objecten bevatten meerdere aspecten Schaaltechniek vs. schaalcriterium: bij een schaalcriterium ligt de klemtoon niet op de schaling van de objecten (= het daadwerkelijk toewijzen van scores aan objecten) maar op het natrekken van het vooropgesteld model Belang: constructie van attitudevragenlijsten, enz. Overzicht: welke schaaltechnieken/schaalcriteria? Paarsgewijze vergelijking (Wet van het vergelijkend oordeel, Thurstone, 1927) Cumulatieve schalen (criterium) (eerste IRT, Guttman, ca. 1940) Gelijkschijnende intervallen (Thurstone en Chave, 1929) Successieve intervallen volgens Edwards Successieve intervallen volgens Thurstone (Wet van het categorisch oordeel) Summated ratings techniek van Likert (1932) Inleiding Bijvoorbeeld: het historisch belang van bepaalde figuren schalen 4. Schaalmethoden Paarsgewijze vergelijking (Wet van het vergelijkend oordeel, Thurstone, 1927) 83 Overzicht Passende gegevens Frequentie-matrix (F-matrix) opstellen, vervolledigen en herordenen Van frequenties naar proporties (P-matrix) Van proporties naar z-waarden (Z-matrix) Interval-meetniveau Schaalwaarde items bepalen Controle interne consistentie Passende gegevens Paren toevoegen aan onze objecten: GEGEVENS: 1 INDIVIDU - N = Napoleon C = Caesar R = Rousseau V = Voltaire E = Einstein De rijstimulus wordt verkozen boven de kolomstimulus 0: preferentie kolomstimulus 1: preferentie rijstimulus Bv.: Einstein boven Voltaire Voltaire boven Caesar En toch Caesar boven Einstein intransiviteit Vóór aggregatie: Zijn er intransiviteiten? Zijn er schendingen op de regel van de intransitiviteit? o Verklarende noot: intransiviteiten Het keuzepatroon van het individu moet transitief zijn als we de situatie unidimensioneel bekijken Dus: (R,V) (V,E) (R,E) V E E Daartoe vervolledigen van de gegevensmatrix (onderdriehoek): a.d.h.v. de gegevens uit de bovendriehoek, individu per individu Alle schendingen over de individuen optellen (men wil die eruit halen) 4. Schaalmethoden 84 Frequentie-matrix (F-matrix) opstellen, vervolledigen en herordenen F-MATRIX VAN EEN GROEP (N = 200) De frequentiematrix geeft aan hoeveel keer de rijstimulus boven de kolomstimulus verkozen werd Ordenen van de totaliteit van het geheel van de stimuli Als er 186 voor Caesar hebben gekozen, dan hebben de overige 14 personen voor Napoleon gekozen Totaal van de afwijzingen Som van de verkozenen en afwijzingen ∑ : totaal afgewezen ∑ : totaal verkozen (aantal keer dat een rijstimulus verkozen wordt boven de kolomstimulus; marginale frequentie) Bovendriehoek eerst invullen en dan kun je gemakkelijk de onderdriehoek vervolledigen (som = N) Merk op: HERORDENEN VAN DE F-MATRIX ! ordinale schaling van de objecten ! Van frequenties (F-matrix) naar proporties (P-matrix) Als je moet kiezen tussen bv. Einstein en Einstein, kies je het ene moment voor de ene Einstein en het andere moment voor de andere Einstein 4. Schaalmethoden Proporties uitgedrukt in standaarnormaaldeviaties 85 Van proporties (P-matrix) naar z-waarden (Z-matrix) Interval-meetniveau INLEIDING Waarom? In plaats van een ordinale, beogen we een interval meting Achtergrond: Law of comparative judgement (Thurstone, 1927) Praktisch: zie tabel WET VAN HET VERGELIJKEND OORDEEL (LAW OF COMPARATIVE JUDGEMENT, THURSTONE) Individuele oordelen en : (normaalverdeelde) kansveranderlijken i.v.m. het oordeel (rating) Stimulus en : { (̅ ) (̅ ) Vergelijkende oordelen : vergelijkend oordeel stimulus (̅ (Zo ( ) ) Het individueel oordeel van stimulus heeft een grotere variantie (en spreiding) dan het individueel oordeel van stimulus Het verschil van 2 (normaal verdeelde) kansveranderlijken is ook een (normaal verdeelde) kansveranderlijke vs. ) het verschil van 2 individuele oordelen is enkel normaal verdeeld als de 2 kansveranderlijken bivariaat normaal verdeeld zijn (niet per definitie) 4. Schaalmethoden 86 : Gestandaardiseerd equivalent ̅ is standaardnormaalverdeeld De proportie stimulus verkozen boven stimulus is gelijk aan de kans dat een standaardnormaalverdeelde kansveranderlijke kleiner is dan de standaardscore ! (( ) ̅ ( Kennen we ) ̅ ( ) ) ( ) ? JA, want bij de standaardnormaalverdeling is er een éénduidige correspondentie tussen en zodat we, gegeven ( ) , kunnen bepalen als: ( Bijgevolg, daar kwantielfunctie) ) gekend is, kan bepaald worden a.d.h.v. de z-tabel ( is een Als we de proportie kennen, kunnen we via de tabel vinden wat de waarde is van het overeenstemmende equivalent van Bijvoorbeeld: o Stel , dan is de corresponderende waarde o Stel , dan is de corresponderende waarde 4. Schaalmethoden Dan: de proporties omzetten naar -waarden 87 Tabel omzetting P-waarde naar z-waarde Wat weten we nu over ̅ en ̅ ? ̅ Daar , volgt dat: ̅ ̅ ̅ ̅ ̅ Op de meeteenheid ( ) na kunnen we het verschil in schaalwaarde van stimulus en afleiden uit Wat omtrent ? ( ) ( ) ( ( ( ) ) ) Correlatie tussen de 2 kansveranderlijken die de individuele oordelen representeren Bijgevolg is: Samenvattend ̅ Standaardnormaalscore (= waarde van het bijhorend kwantiel) ̅ √ Wortel uit de variantie 4. Schaalmethoden ( ) 88 Case V: het beste onderdeel van ‘Law of Comparative Judgement’ 2 bijkomende veronderstellingen/assumpties De standaarddeviaties van de kansveranderlijken zijn voor alle individuele oordelen gelijk √ Stel { } { ̅ ̅ √ √ De kansveranderlijken zijn niet gecorreleerd De keuze van de meeteenheid is vrij bij schaling op intervalniveau! (dus kiezen we hier √ ) je mag de meeteenheid vrij kiezen (deze varieert niet meer voor paren van stimuli) VAN DE P-MATRIX NAAR DE Z-MATRIX P-matrix Intervalschalen die van elkaar verschillen op gebied van meeteenheid en nulpunt Z-matrix ̅ ̅ ̅ ̅ ̅ ̅ De z-waarden zijn symmetrisch over de diagonaal ̅ ̅ ̅ ̅ ̅ ̅ De stimulus met de laagste schaalwaarde wijzen we de waarde 0 toe 4. Schaalmethoden ̅ Dus: alle 3 equivalent 89 Controle interne consistentie Nagaan of hetgeen dat we hebben vergeleken wel unidimensioneel is (screening): we kijken of de aannames realistisch zijn We komen tot een nominaal niveau. ̅ reconstrueren pseudo P pseudo Z STAP 1: Z’-MATRIX reconstructie van de Z-matrix Schaalwaarde van de stimuli STAP 2: P’-MATRIX corresponderende gereconstrueerde proportiematrix (P-matrix) 4. Schaalmethoden STAP 3: VERGELIJKING VAN DE P- MET DE P’-MATRIX 90 Gemiddelde absolute verschil P vs. P’: (0.057 + 0.012 + … + 0.094) / 10 = 0.0684 o o Wanneer het verschil > 0,05 is aanname onterecht Wanneer het verschil < 0,05 is aanname terecht BETERE TOETSING Zie slide 24 en 25: niet te kennen WAT INDIEN EXTREME PROPORTIES? Bijvoorbeeld: wanneer je er Hitler zou bijnemen (niemand verkiest hem) P-matrix Stel dat bij een bepaald paar (hier: Einstein – Caesar) iedereen voor dezelfde stimulus kiest, dan krijgen we een extreme proportie 4. Schaalmethoden Z-matrix 91 Dat systeem werkt niet meer bij extreme proporties (en oneindige waarde gaat niet) Zie z-tabel: het verschil tussen P0.001 en P0.002 is meer dan 200 honderdsten, wat erg groot is in de vergelijking met de verschillen tussen andere waarden in de tabel. Er is symmetrie, dus hetzelfde geldt voor P0.998 en P0.999 ook en Bijvoorbeeld: -0.789 Verschillenmatrix 3 schattingen o.b.v. dezelfde kwantiteit, nl. N – E Gemiddelde schaalwaarden voor de verschillende schattingen De schaalwaarde van V is -0,901 keer groter dan die van R Bij de verschillenmatrix moet je beginnen met de onderste rij: die is het verschil met de waarde van de rij erboven Bepaling van de schaalwaarden van de items ̅ ̅ We kiezen het nulpunt zo dat ̅ ̅ ̅ ̅ ̅ (want minst populair?) ⏟ ̅ ̅ ̅ ̅ ⏟ ̅ ̅ ̅ ̅ ⏟ Cumulatieve schalen (criterium) Kenmerken: o De schaal is uni-dimensioneel (alle items doen vraag naar hetzelfde aspect) o Items hebben een welbepaalde monotone traceline (= weergave van de regressie) 4. Schaalmethoden ̅ 92 * o * Vanaf een bepaalde waarde wordt o Met voor : kans dat men akkoord gaat met het item, op voorwaarde de waarde De cumulatieve schaaltechniek van Guttman is in eerste instantie een schaalcriterium (manier om een vooropgestelde hypothese te toetsen), geen (metrische) schaaltechniek De schaal is cumulatief dat wil zeggen dat er een beperkt aantal responspatronen zijn (hier: akkoord (1) vs. niet akkoord (0)) Bijvoorbeeld: dichotome items: o # toegestane responspatronen = # items + 1 (niet: 2# items) # items = 5 # toegestane responspatronen = 5 + 1 = 6 (niet: 25 = 32) Dichotome items BEPALING VAN DE TOEGESTANE ANTWOORDPATRONEN 3 stappen: o Bepaal de basispopulariteit van de items o Maak een ordening naar dalende populariteit (proportie individuen uit de steekproef die akkoord gaan) volgorde van de tracelines o De orde van de tracelines bepaalt de toegestane antwoordpatronen Er moet verder geen rekening worden gehouden met de exacte waarden van de populariteit van de items, enkel de ordening is van belang voor de bepaling van het aantal toegestane antwoordpatronen 4. Schaalmethoden 93 VOORBEELD: 4 DICHOTOME ITEMS Toegestane responspatronen: 4 items + 1 = 5 I. II. III. IV. V. Responsvector (0, 0, 0, 0); kans dat een individu in gebied I akkoord gaat met één van de items (0, 1, 0, 0) (1, 1, 0, 0) (1, 1, 0, 1) (1, 1, 1, 1) Met elk van de vijf zones stemt een bepaald antwoordpatroon overeen. Alle andere antwoordpatronen mogen niet voorkomen! Polychotome items Geen tussenliggende kansen 4. Schaalmethoden REPRESENTATIE VAN EEN ITEM MET 4 ANTWOORDMOGELIJKHEDEN 94 Bv: ik ga … helemaal akkoord (0) – akkoord (1) – niet akkoord (2) – helemaal niet akkoord (3) # tracelines = # antwoordalternatieven – 1 (overgang is het ene antwoord naar het andere) TOEGESTANE ANTWOORDPATRONEN Frequentie Kolommen: percentage individuen die kozen voor een bepaald item Bv.: cumulatieve populariteit = 40 + 30 = 70 (je moet kijken naar wat er naast staat) Cumulatieve populariteit: de populariteit van deze of een hogere antwoordcategorie Je kan die tracelines in een tabel zetten o 8 deelgebieden (7 + 1): Voor elk deelgebied kunnen we nu vaststellen – a.d.h.v. de tracelines – wat de toegestane antwoordpatronen zijn 4. Schaalmethoden * 95 Toepassing als schaalcriterium 1e lijn = empirisch antwoordpatroon 2e lijn = theoretisch antwoordpatroon Voor het aantal fouten: zie * vorige pagina Totaal fouten: 2 + 0 + 2 + 0 + 2 = 6 De totale score = som item 1 + item 2 + item 3 Reproduceerbaarheidscoëfficiënt TAF: totaal aantal fouten TAMF: totaal aantal mogelijke fouten (aantal items x aantal subjecten) o Bv: hier: 3 items x 5 subjecten = 15 Reproduceerbaarheidscoëfficiënt = Bijvoorbeeld: hier: Dit is te laag om te geloven (aanvaarden) dat de items voldoen aan het idee van cumulatieve schalen (minstens 0.80, liefst meer dan 0.90) Gelijkschijnende intervallen (Thurstone en Chave, 1929) De methode der gelijkschijnende intervallen werd oorspronkelijk ontwikkeld door Thurstone en Chave (1929) De methode van paarsgewijze vergelijking is enkel toepasbaar als het aantal te schalen objecten klein is (nadeel van die methode) o Bv: 200 items; 4. Schaalmethoden Situering 96 Bij de ontwikkeling van een attitudeschaal vertrekt men evenwel vaak van een groot aantal items o Een mogelijke oplossing hier is dat we enkel die items overhouden die zorgen voor een grote spreiding Om de items voor de definitieve schaal te selecteren, willen we de schaalwaarde én de eenduidigheid of ambiguïteit van de items kennen o Bv: qua inhoud is “student zijn is fantastisch” ambigue Gegevens De te schalen stimuli (d.i. beweringen in de context van de attitudemeting) worden één per één aan beoordelaars voorgelegd Taak van de beoordelaars: het plaatsen van elke stimulus op een reeds in intervallen opgedeeld positief/negatief continuüm of rating schaal. Elke stimulus dient geplaatst te worden in het interval dat het beste overeenstemt met de positief/negatieve inhoud van de bewering Rating vraagt uiteindelijk een ordinale meting van het individu. We proberen niet te veel niveaus te gebruiken en meestal een oneven aantal om een middelpunt te creëren De rating schaal (of, attitudecontinuüm) wordt, in geval van bv. 11 intervallen, gebruikelijk als volgt verankerd: interval 1 – extreem negatief, interval 6 – neutraal, interval 11 – extreem positief Per bewering wordt de frequentieverdeling van de antwoorden van de beoordelaars opgesteld; dit zijn de vertrekgegevens Model Assumpties: o De beoordelaars percipiëren de intervallen van het attitudecontinuüm als gelijk van breedte o De schaalwaarde en de ambiguïteit van de beweringen kunnen geschat worden als respectievelijk de mediaan (tweede kwartiel, ) en de interkwartielafstand ( ) van de geassocieerde frequentieverdeling Uit de initiële set van beweringen wordt een subset geselecteerd zodat de geselecteerde beweringen goed spreiden over het gehele attitudecontinuüm en dat ze alle een lage ambiguïteit hebben 4. Schaalmethoden 97 Berekening kwartielen { p-de kwartiel: Met: } : de schaalwaarde van de ondergrens van het interval waarbinnen het kwartiel ligt : het aantal subjecten : de cumulatieve frequentie van de beoordelingen tot aan de ondergrens van : de frequentie aanstrepingen binnen het interval : de breedte van het interval (waarbinnen het kwartiel zich bevindt) VOORBEELD Proporties Cumulatieve frequentie Cumulatieve proporties { } o { o { } o { } Ambiguïteit: Schaalwaarde: } Problematische aspecten In de praktijk gebeurt het vaak dat de beoordelaars nogal wat beweringen in de extreme intervallen stapelen: het end-effect Hoewel dit end-effect samenhangt met de gegevensinzamelingsprocedure, suggereert het eveneens dat de intervallen niet als gelijk van breedte gepercipieerd worden 4. Schaalmethoden 98 Het een en ander wordt bevestigd wanneer de schaalwaarden van stimuli, bepaald volgens de methode der gelijkschijnende intervallen, vergeleken worden met de schaalwaarden van diezelfde stimuli zoals verkregen via de methode der paarsgewijze vergelijking Ontwikkeling van de techniek van successieve intervallen Successieve intervallen volgens Edwards Gegevens Dezelfde methode van gegevensverzameling en bijgevolg ook dezelfde gegevens als bij de methode der gelijkschijnende intervallen Model Assumpties: o De frequentieverdeling van de ratings is een normaalverdeling o De verdeling van de ratings binnen de extreme intervallen is symmetrisch Methode der gelijkschijnende intervallen: de schaalwaarde en de ambiguïteit van de beweringen kunnen geschat worden als de mediaan (tweede kwartiel, ) en de interkwartielafstand ( ) van de geassocieerde frequentieverdeling De 1ste en de 2de assumptie zijn tegenstrijdig: ze zijn in principe niet verenigbaar (inconsistentie) Hoe verder komen? Overzicht Verschillende stappen: o o Schatting van de intervalbreedtes Middelste intervallen Extreme intervallen (bv. interval 1 (links) en interval 7 (rechts)) schaalwaarde intervalgrenzen Schaalwaarde en ambiguïteitswaarde van de items 4. Schaalmethoden 99 Schatting van de intervalbreedtes GEGEVENS (FREQUENTIE) Totaal: 500 beoordelaars CUMULATIEVE PROPORTIONELE MATRIX (P-MATRIX) Q1: 0,25 Q2: 0,50 Q3: 0,75 Z-MATRIX MIDDELSTE INTERVALLEN Alles behalve het eerste en het laatste interval 4. Schaalmethoden Breedte middelste interval 100 Soms laat een interval geen schatting toe, als het niet gebruikt is door een subject EXTREME INTERVALLEN Het eerste en het laatste interval Bij extreme intervallen kunnen we niet zoals hierboven te werk gaan, dan zouden we een onderschatting maken. De ondergrens van het eerste interval is namelijk 0. Om dit op te lossen, nemen we de helft van de breedte van de proportie. Eigenlijk doen we met deze correctie nog altijd een onderschatting, maar in de praktijk voldoet dit Opgelet: dit is een onderschatting! 4. Schaalmethoden Breedte eerste interval 101 Breedte laatste interval Schaalwaarde en ambiguïteitswaarde van de items SCHAALWAARDE INTERVALGRENZEN De ondergrens (nulpunt) is het punt dat de geschatte helft is, niet de werkelijke helft! SCHAALWAARDE KWARTIELEN VOOR ITEM 1 } { } { } { } Ambiguïteit: Wanneer is de ambiguïteit voldoende laag? Dit kunnen we niet vooraf bepalen omdat het afhangt van het aantal intervallen dat we gebruiken 4. Schaalmethoden { Schaalwaarde: 102 Problematische aspecten Het model is niet consistent: een aantal assumpties zijn onderling niet verenigbaar. De praktijk wijst uit dat het end-effect op zijn best slechts partieel opgevangen wordt o In de zin van het niet overeenstemmen van de intervalschatting van de extreme stimuli volgens paarsgewijze vergelijking en de successieve intervallen Een modelmatig attractievere variant is de ‘methode der successieve intervallen’ (Thurstone) Successieve intervallen volgens Thurstone NIET TE KENNEN !! Summated ratings Likert Schaalconstructie en –afname (responsfase) gebeuren in 1 keer De items zijn duidelijk positief of negatief van inhoud (het individu wordt direct naar zijn mening gevraagd) er zijn dus geen neutrale items De items hebben een monotone traceline Volledig niet akkoord: positief item met een lage waarde voor trek negatief item met een hoge waarde voor trek Gegevens: scores op de verschillende antwoordmogelijkheden (1 – 5) Model Schaalconstructie OF Voor elk item genereren de antwoordcategorieën een partitie (d.i. een opdeling van intervalletjes van het onderliggend attitude-item) van het attitudecontinuüm o De antwoorden zijn item per item normaal verdeeld Niemand zegt dat de intervallen niet kunnen verschillen van item tot items: de schaling van de intervalgrenzen kan variëren van item tot item (verschillende partities) 4. Schaalmethoden Model 103 ITEM 1 ITEM 2 ITEM 3 Schaling antwoordcategorieën Er is een hele hoge correlatie ( ) gevonden, dus vanaf nu werken met standaarscores Berekenen van de totaalscores met geschaalde scores Bv: individu 1 totaalscore individu 1 Responsen en hun verdeling zijn een normaalverdeling (binnen de populatie althans) ≠ gelijkschijnende of successieve intervallen (andere frequentieverdeling; hier: antwoordcategorieën) zie boven 0.35 + 0.30 0.35 + (½ 0.30) 4. Schaalmethoden VNA: 0.7 NA: 0.2 ? : 0.3 104 Nadien kijken we welke items goed discrimineren (d.i. een item dat een gelijksoortige opdeling weergeeft voor de gemeten steekproef en voor de totaalscore van de individuen) die in de lijst laten Gegevens 27% met hoogste score 27% met laagste score : alle individuen die op grond van score op een bepaald item zich als pro hebben laten kennen (pro voor dat item) : pro voor dat item, ondanks contra groep : contra voor dat item, ondanks pro groep : alle individuen die op grond van score op een bepaald item zich als contra hebben laten kennen (contra voor dat item) Een perfecte overeenstemming laat enkel individuen zien in en We proberen 5 antwoordmogelijkheden te reduceren tot 2: De dichotomiseringslijn zo dat o maximaal is Hier: (129 + 101) – (51 + 23) = 156 Φ-coëfficiënt De discriminatieve kracht van het item: √ Echter: let steeds op de betekenis van de cellen A, B, C en D !! 4. Schaalmethoden 105 Trucje: Voorbeeld Een negatief item: Bijvoorbeeld: 50 items (P) en (C) Alle items die onvoldoende discrimineren ( ), laten we vallen 32 items (P) en (C) op grond van de totaalscores van de behouden items … Tot het proces stopt! 4. Schaalmethoden 106
© Copyright 2025 ExpyDoc