Spelling niet-werkwoorden voor groep 7 en 8

Cito | Primair onderwijs
Cito maakt wereldwijd werk van goed en
eerlijk toetsen en beoordelen. Met de
meet- en volgmethoden van Cito krijgen
mensen een objectief beeld van kennis,
vaardigheden en competenties.
Hierdoor zijn verantwoorde keuzes op het
gebied van persoonlijke en professionele
ontwikkeling mogelijk. Onze expertise
zetten we niet alleen in voor ons eigen
werk maar ook om advies, ondersteuning
en onderzoek te bieden aan anderen.
Cito
Amsterdamseweg 13
Postbus 1034
6801 MG Arnhem
T (026) 352 11 11
F (026) 352 13 56
www.cito.nl
Klantenservice
T (026) 352 11 11
[email protected]
Fotografie: Ron Steemers
Wetenschappelijke verantwoording van de toetsen
Spelling niet-werkwoorden voor groep 7 en 8
Astrid Mols en Frans Kamphuis
Wetenschappelijke verantwoording van de
toetsen Spelling niet-werkwoorden voor groep 7
en 8
Astrid Mols
Frans Kamphuis
Cito,
Arnhem, 2012
1
© Cito B.V. Arnhem (2012)
Niets uit dit werk mag zonder voorafgaande schriftelijke toestemming van Cito B.V. worden openbaar
gemaakt en/of verveelvoudigd door middel van druk, fotografie, scanning, computersoftware of andere
elektronische verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op welke
wijze dan ook.
2
Inhoud
1
Inleiding
2
2.1
2.2
2.3
2.4
2.4.1
2.4.2
Uitgangspunten van de toetsconstructie
Meetpretentie 7
Doelgroep 7
Gebruiksdoel en functie 7
Theoretische inkadering 9
Inhoudelijk 9
Psychometrisch 12
3
3.1
3.2
Beschrijving van de toets 19
Opbouw en structuur van de toets
Inhoudsverantwoording 21
4
4.1
4.1.1
4.1.2
4.2
4.2.1
4.2.2
4.2.3
4.3
4.3.1
4.3.2
Kalibratieonderzoek en normering 29
Opzet en verloop van de kalibratieonderzoeken
Kalibratieonderzoek 29
Aanvullend kalibratieonderzoek 30
Resultaten van de kalibratieonderzoeken 31
Gekalibreerde opgavenbank 31
Stappen in de kalibratie 31
Toetsing van het IRT-model 33
Normering 38
Procedure 38
Representativiteit 41
5
5.1
5.2
Betrouwbaarheid en meetnauwkeurigheid
Betrouwbaarheid 45
Nauwkeurigheid 47
6
6.1
6.2
6.2.1
6.2.2
6.2.3
Validiteit 53
Inhoudsvaliditeit 53
Begripsvaliditeit 53
Passing van het meetmodel 53
Equivalentie met eerdere toetsen 53
Longitudinale vaardigheidstoename 54
7
Samenvatting
8
Literatuur
Bijlagen
1
2
5
7
19
29
45
57
59
61
Overzicht resultaten methodeonderzoek spellingcategorieën 62
Definitieve normering: representativiteit van de afnamemomenten M7, E7 en B8/M8
3
64
4
1
Inleiding
Deze wetenschappelijke verantwoording heeft betrekking op de toetsen Spelling niet-werkwoorden voor
groep 7 en 8 die deel uitmaken van het toetspakket Spelling voor groep 3 tot en met 8 uit het Cito
Volgsysteem primair onderwijs (LOVS). De verantwoording van groep 3 tot en met 6 is al beschikbaar.
Deze verantwoording biedt tezamen met de inhoud van de toetspakketten Spelling groep 7 en 8 van het
Cito Volgsysteem (Cito, 2011) alle informatie die nodig is voor een snelle en efficiënte beoordeling van de
kwaliteit van de betreffende meetinstrumenten. Het genoemde materiaal maakt een beoordeling van de
toetsen LOVS Spelling niet-werkwoorden mogelijk op de volgende aspecten:
– Uitgangspunten van de toetsconstructie;
– De kwaliteit van het toetsmateriaal;
– De kwaliteit van de handleiding;
– Normen;
– Betrouwbaarheid;
– Validiteit.
Het laatstgenoemde aspect betreft alleen begripsvaliditeit en geen criteriumvaliditeit. Omdat de toetsen van
het Cito Volgsysteem niet bedoeld zijn voor 'voorspellend gebruik' is criteriumvaliditeit niet van toepassing.
Het voorliggende document heeft met name betrekking op de uitgangspunten van de constructie (hoofdstuk
2 en 3), de normen (hoofdstuk 4), de betrouwbaarheid en meetnauwkeurigheid (hoofdstuk 5) en de
begripsvaliditeit (hoofdstuk 6) van de toetsen Spelling niet-werkwoorden voor de jaargroepen 7 en 8.
De kwaliteit van het toetsmateriaal en de handleiding is te bepalen door kennis te nemen van de inhoud van
de toetspakketten.
De toetspakketten Spelling groep 7 en 8 bevatten naast toetsen voor het spellen van niet-werkwoorden ook
toetsen voor het spellen van werkwoorden. Deze wetenschappelijke verantwoording heeft alleen betrekking
op de toetsen Spelling niet-werkwoorden (verderop voor de leesbaarheid gewoon toetsen Spelling
genoemd). In een aparte wetenschappelijke verantwoording beschrijven en verantwoorden we de toetsen
Spelling werkwoorden.
5
6
2
Uitgangspunten van de toetsconstructie
2.1
Meetpretentie
Bij het spellen wordt de gesproken taal omgezet in geschreven taal. Om woorden correct te schrijven,
moeten leerlingen spellingstrategieën kunnen gebruiken en/of spellingregels kunnen toepassen.
De toetsen in de toetspakketten Spelling van het Cito Volgsysteem zijn bedoeld om vast te stellen hoe goed
een leerling kan spellen en hoe de spellingvaardigheid van de leerling zich in de loop van de jaren
ontwikkelt. Het vaststellen van de spellingvaardigheid gebeurt op twee manieren: door de leerling woorden
te laten opschrijven en door de leerling te vragen het fout gespelde woord te herkennen in een groepje van
vier woorden. De spellingregels zelf worden niet expliciet bevraagd. De leerling laat indirect zien dat hij of zij
de spellingregels beheerst door de gevraagde woorden correct te schrijven en door de fout gespelde
woorden te herkennen (zie verder paragraaf 2.4.1).
2.2
Doelgroep
De toetsen Spelling groep 7 en 8 zijn bestemd voor en genormeerd bij leerlingen in groep 7 en 8 in het
Nederlandse basisonderwijs. Voor bijna alle toetsen Spelling van het Cito Volgsysteem zijn de populatieparameters zowel op 'midden leerjaar' als op 'einde leerjaar' bepaald. De toets in groep 8 vormt hierop een
uitzondering. Voor de toets van groep 8 zijn zowel voor ‘begin leerjaar’ (oktober, november) als voor
‘midden leerjaar’ populatieparameters bepaald.
De toetsen kunnen desgewenst ook op andere momenten in het schooljaar worden afgenomen, maar dat
maakt het moeilijker om uitspraken te doen over het niveau van de leerling ten opzichte van andere
leerlingen in Nederland.
2.3
Gebruiksdoel en functie
De toetsen Spelling van het Cito Volgsysteem hebben twee doelen: niveaubepaling en progressiebepaling.
Tevens wordt in de toetsen Spelling de mogelijkheid geboden de door de leerling gemaakte fouten te
analyseren met het oog op het aanbieden van gerichte remediëring. Deze 'signalering' staat geheel los van
de niveau- en progressiebepaling en is in de kalibratie- en normeringsonderzoeken niet wetenschappelijk
getoetst.
Niveaubepaling
De toetsafnamen in het kader van Spelling geven de leerkracht informatie over het niveau van de
spellingvaardigheid van de leerlingen, individueel of als groep. Iedere behaalde vaardigheidsscore kan
daartoe normgericht geïnterpreteerd worden op basis van de vaardigheidsverdeling in een adequate
referentiegroep (zie paragraaf 4.2).
In de toetsmaterialen zijn twee niveau-indelingen opgenomen, waarmee de leerkracht de scores van een
leerling kan vergelijken met die van een grote groep leerlingen.
De leerkracht kan een keuze maken uit:
– de indeling in de niveaus A tot en met E;
– de indeling in de niveaus I tot en met V.
7
Bij de indeling in de niveaus A tot en met E is de verdeling over de groepen als volgt:
Niveau
%
Interpretatie
A
25
De 25% hoogst scorende leerlingen
B
25
De 25% leerlingen die net boven tot ruim boven
het landelijk gemiddelde scoren
C
25
De 25% leerlingen die net onder tot ruim onder
het landelijk gemiddelde scoren
D
15
De 15% leerlingen die ruim onder het landelijk
gemiddelde scoren
E
10
De 10% laagst scorende leerlingen
Bij de indeling in de niveaus I tot en met V wordt uitgegaan van vijf groepen van 20%:
Niveau
%
Interpretatie
I
20
Ver boven het gemiddelde
II
20
Boven het gemiddelde
III
20
De gemiddelde groep leerlingen
IV
20
Onder het gemiddelde
V
20
Ver onder het gemiddelde
Bij de indeling in I tot en met V worden op de registratieoverzichten de laagste groep en de hoogste groep
nog onderverdeeld in twee groepen die ieder 10% leerlingen bevatten. Deze groepen worden van elkaar
gescheiden door een stippellijn.
In de eerste versie van de LVS-toetsen werd alleen de indeling A tot en met E gebruikt. In de praktijk bleek
deze enkele nadelen te hebben. Zo is de indeling niet symmetrisch. Bovendien zien sommige leerkrachten
C als de gemiddelde groep. In de indeling A tot en met E bestaat echter geen gemiddelde groep, alleen
groepen boven (A, B) of onder (C, D, E) het gemiddelde.
Daarom is bij de tweede versie van de toetsen voor het Cito Volgsysteem een indeling toegevoegd met de
niveaus I tot en met V. De indeling in de niveaus I tot en met V is symmetrisch opgebouwd en heeft als
voordeel dat er een gemiddelde groep1 is. Deze indeling sluit aan bij de niveau-indeling van andere Citotoetsinstrumenten zoals de Entreetoetsen.
Progressiebepaling
De toetsen Spelling geven de leerkracht informatie over de ontwikkeling van de spellingvaardigheid van de
leerlingen, individueel of als groep, gedurende (bijna) de gehele basisschoolperiode. Ze geven antwoord op
vragen als: is er sprake van vooruitgang, achteruitgang of van stabilisering? Is de vooruitgang – gelet op de
gemiddelde vooruitgang in de populatie – volgens verwachting?
Het gehanteerde meetmodel (zie paragraaf 2.4.2) maakt het mogelijk om de scores van een leerling op
verschillende toetsen, op verschillende momenten afgenomen, onderling te vergelijken. De ruwe scores op
de toetsen – het aantal opgaven goed – zijn daartoe te transformeren in scores op één vaardigheidsschaal.
Deze unidimensionele vaardigheidsschaal die aan de toetsen Spelling ten grondslag ligt, is ontwikkeld met
behulp van het One Parameter Logistic Model (Verhelst, 1993; Verhelst & Glas, 1995; Verhelst, Glas &
Verstralen, 1995).
1
Het betreft hier geen gemiddelde in de statistische betekenis van het woord. In feite is het zo dat de gemiddelde ruwe score
(bij een scheve verdeling) niet eens in de middelste groep hoeft te liggen.
8
'Signalering' via categorieënanalyse
Als veel leerlingen fouten maken bij dezelfde spellingcategorie, kan dat een signaal zijn dat het
aangeboden onderwijs in die categorie ontoereikend is geweest. Dat hoeft niet direct alarmerend te zijn;
misschien komt de betreffende spellingcategorie in de gebruikte lesmethode pas op een later tijdstip aan de
orde. Als de categorie daarentegen al wel is behandeld, kan de tegenvallende prestatie van de leerlingen
voor de leerkracht een reden zijn om nogmaals expliciet en voor de hele groep op de bij die categorie
behorende spellingregels terug te komen. Door het invullen van een analyseformulier of het invoeren van
de antwoorden van de leerling in het Computerprogramma LOVS kan de leerkracht nagaan met welke
spellingcategorieën een of meerdere leerlingen problemen hadden in de toets Spelling.
Individuele leerlingen die blijk geven van onvoldoende beheersing van een of meerdere categorieën zullen
wellicht baat hebben bij extra instructie en gerichte oefeningen. Omdat het aantal opgaven per categorie in
een toets Spelling beperkt is (er zijn veel categorieën en de toets mag niet te lang worden), kan niet worden
uitgesloten dat de leerling bij toeval juist de opgaven uit deze categorie fout heeft beantwoord. Om meer
zekerheid te verkrijgen over de beheersing van de categorie door deze leerling, kan de leerkracht
gebruikmaken van een controledictee uit het Hulpboek Spelling. Elk controledictee bevat tien opgaven uit
één bepaalde categorie. Als de leerling in zo'n dictee vier of meer fouten maakt, lijkt zijn of haar beheersing
van die categorie inderdaad te wensen over te laten. De leerkracht kan deze leerling vervolgens
aanvullende instructie en/of oefenmateriaal aanbieden.
Zoals al aan het begin van deze paragraaf werd gezegd, is er geen kwalitatief of kwantitatief onderzoek
gedaan naar het adequaat functioneren van de categorieënanalyse en de 'doorverwijzing' via de controledictees. De signalering via categorieënanalyse heeft dan ook geen enkele wetenschappelijke status of
pretentie. Haar enige functie is het doen van een handreiking naar leerkrachten die gericht extra
ondersteuning willen bieden aan leerlingen die moeite hebben met het correct spellen van bepaalde woorden.
2.4
Theoretische inkadering
2.4.1
Inhoudelijk
Wat is spelling?
Spelling is een ondersteunende taalactiviteit die instrumenteel is voor schrijven. Ze is een aspect van
codeervaardigheid, waarbij het gaat om de correcte schrijfwijze van woorden. Het gaat dan om actieve
spellingvaardigheid: het correct schrijven van woorden. Maar ook om passieve spellingvaardigheid: het
kunnen onderkennen en corrigeren van spellingfouten in een tekst (zie ook Expertisecentrum Nederlands,
2003). Ondersteunende taalactiviteiten hebben tot doel de zogeheten functionele taalactiviteiten
– activiteiten waarbij de taal als communicatiemiddel fungeert, zoals het schrijven en eventueel corrigeren
van een briefje – beter te kunnen uitvoeren.
Voor een beschrijving van het begrip spelling hanteren we de definitie van De Schryver & Neijt (2002).
Zij omschrijven spelling als '…een systeem van regels met behulp waarvan we een bepaalde gesproken
taal schriftelijk weergeven.' (2002: 17) De laatste 'versie' van de spelling van het Nederlands is in 2005
vastgelegd in de Woordenlijst Nederlandse Taal, oftewel 'het Groene Boekje'. Het gebruik van deze spelling
is verplicht binnen het onderwijs.
Het probleem met de Nederlandse spelling is dat er geen een-op-een relatie is tussen klank en letterteken.
Het Nederlands kent circa 40 klanken, maar het alfabet heeft maar 26 letters. Dit betekent dat dezelfde
letters voor verschillende klanken gebruikt moeten worden: deling, bel, rafel. Maar andersom wordt een
klank ook door verschillende tekens weergegeven: pijl, peil.
De spelling van de Nederlandse taal is gebaseerd op vier basisprincipes: het fonologisch, het morfologisch,
het etymologisch en het syllabisch principe (zie onder meer Huizenga, 1997; Van Bon, 1993).
Het fonologisch principe houdt in dat je woorden spelt door '…hun spraakklanken systematisch met letters
weer te geven, op zo'n manier dat de spelling de uitspraak weerspiegelt.' (Van Bon, 1993: 20) Hierbij
worden kleine uitspraaknuances die ontstaan door persoonsgebonden verschillen of door klanken in de
omgeving van het woord (bijvoorbeeld de /z/ in 'ik zet' versus 'zet ik') genegeerd. Het fonologisch principe is
9
het basisprincipe, maar er zijn allerlei uitzonderingen op deze hoofdregel. Die uitzonderingen zijn veelal niet
willekeurig, maar hebben weer te maken met andere regels of principes.
Het morfologisch principe doorkruist het fonologisch principe en gaat uit van de morfologische structuur van
een woord. Een morfeem is een betekenisdragend woorddeel. Het kan zowel om gehele woorden gaan als
om voor- of achtervoegsels, zoals 'on-' en '-heid'. Bij het morfologisch principe is sprake van twee regels: de
regel van de gelijkvormigheid en de regel van de overeenkomst. De regel van de gelijkvormigheid houdt in
dat we een woord of een voor- of achtervoegsel steeds op dezelfde manier schrijven. Bijvoorbeeld: we
schrijven 'hond' omdat we in het meervoud 'honden' een /d/ horen. De regel van de overeenkomst houdt in
dat de opbouw van een woord duidelijk wordt in de spelling. Bijvoorbeeld: een woord als 'breedte' wordt zo
gespeld, en niet als 'brete', omdat in 'breedte' de morfologische structuur van het woord zichtbaar is. Het
morfologisch principe geldt zolang het niet met de uitspraak in conflict is. Bijvoorbeeld: je spelt 'bloempje'
omdat je het zo hoort, en niet 'bloemtje'.
Het etymologisch principe houdt in dat als er meerdere mogelijkheden zijn om een woord te schrijven, de
schrijfwijze wordt gekozen zoals deze zich in het verleden heeft gevormd. Er is hier geen sprake van een
regel, maar van kennis die we ons per woord eigen moeten maken. Voorbeelden hiervan zijn de
lettercombinaties ou/au en ei/ij. Vroeger, en in sommige dialecten nog steeds, gaven deze verschillende
lettercombinaties verschillende klanken weer, maar nu zullen we in de meeste gevallen de spelling van
dergelijke woorden gewoon uit het hoofd moeten leren.
Het syllabisch principe heeft betrekking op de spelling van syllaben, klankstukken, in een woord.
Een syllabe is een klank die bij een gesegmenteerde uitspraak van woorden als één groep wordt
uitgesproken, bijvoorbeeld /zi/ /tun/ in het woord 'zitten'. Hier wordt ook meteen het verschil met
lettergrepen duidelijk: 'zitten' bestaat uit de lettergrepen 'zit' en 'ten'. Lettergrepen geven een visuele
verdeling van een woord. Het syllabisch principe kent twee regels, die voor verenkeling en die voor
verdubbeling. De regel voor verenkeling schrijft voor dat als een syllabe eindigt op een lange klank we maar
één letter schrijven, bijvoorbeeld in 'boten'. De verdubbelingsregel houdt in dat als een syllabe eindigt op
een korte klank, de medeklinker die daarop volgt verdubbeld wordt, bijvoorbeeld in 'botten'. Ook op deze
regels zijn echter weer uitzonderingen.
Spellingstrategieën
Van Bon (1993) hanteert als raamwerk voor de bespreking van de ontwikkeling van spelling de opdeling
van spellingcompetentie van Marsh, Friedman, Welch & Desberg (1980). Volgens deze opdeling hanteren
kinderen in eerste instantie een fonologisch principe met een sequentiële strategie. Eerst deelt het kind het
gesproken woord op in spraakeenheden en vervolgens vertaalt het deze in letters. Later leert het kind
hiërarchische regels bij het fonologisch principe, namelijk dat er bepaalde voorwaarden verbonden zijn aan
het gebruik van bepaalde letters voor klanken. Het kind leert bijvoorbeeld dat je 'toren' schrijft en niet
'toorun'. Weer een volgende stap is het schrijven naar analogie, dat wil zeggen dat onbekende woorden
worden geschreven naar het voorbeeld van bekende.
Huizenga (1997) splitst de manieren die spellers gebruiken om tot de juiste schrijfwijze te komen
(spellingstrategieën) uit in een directe strategie en indirecte strategieën. De directe strategie wil zeggen dat
het spellen geautomatiseerd is; je schrijft een woord op zonder erbij na te denken. Indirecte strategieën
vinden plaats als je bij het spellen een bepaalde denkhandeling toepast. Huizenga onderscheidt vijf
indirecte spellingstrategieën: de fonologische strategie, de woordbeeldstrategie, de regelstrategie, de
analogiestrategie en de hulpstrategie.
De fonologische strategie houdt in dat iemand bij het spellen uitgaat van de klanken of klankgroepen
waaruit een woord bestaat. Er zijn twee verschillende fonologische strategieën: de elementaire
spellinghandeling, waarbij een woord wordt ontleed in fonemen, en de klankclusterstrategie, waarbij een
woord wordt ontleed in klankgroepen. De elementaire spellinghandeling is normaal gesproken de eerste die
een kind leert (voor het Nederlands). Ze is bruikbaar zolang een leerling alleen klankzuivere woorden moet
schrijven (in het basisonderwijs wordt vaak gesproken van 'luisterwoorden'). De klankclusterstrategie is
bruikbaar voor het schrijven van klankgroepen die altijd door dezelfde lettercombinatie worden
weergegeven, bijvoorbeeld -ooi of -uw. In het basisonderwijs wordt dit wel aangeduid met de term
'luisterwoorden met speciale klankgroepen'. Deze strategie is voor leerlingen wat lastiger dan de
elementaire spellinghandeling.
10
De woordbeeldstrategie houdt in dat iemand een woord correct schrijft door een beroep te doen op zijn of
haar woordgeheugen. Deze strategie is vooral bruikbaar bij leenwoorden of woorden waarvan de
schrijfwijze moet worden ingeprent, bijvoorbeeld woorden met -ou- of -au-. In het basisonderwijs duidt men
dergelijke woorden wel aan met de termen 'weetwoorden' of 'afspraakwoorden'.
De regelstrategie wordt gebruikt als iemand bij het schrijven van een woord een spellingregel toepast.
Voorbeelden daarvan zijn de verenkelingsregel en de verdubbelingsregel, maar ook regels als 'Hoor je op
het einde /-ies/, dan schrijf je -isch.' Op de meeste spellingregels zijn weer uitzonderingen en dat maakt
deze strategie lastig. In het basisonderwijs gebruikt men wel de term 'regelwoorden'.
Bij de analogiestrategie schrijft iemand een woord door het te vergelijken met een ander woord.
Die vergelijking kan gebaseerd zijn op overeenkomst in klank (bijvoorbeeld 'komen' en 'dromen'), maar ook
op overeenkomst in betekenis (bijvoorbeeld 'vertrouwelijk' en 'trouwen'). De strategie leidt niet altijd tot het
juiste resultaat, omdat de gemaakte vergelijking niet altijd opgaat (bijvoorbeeld 'hond', 'wond', 'lont'). In het
basisonderwijs worden de termen 'voorbeeldwoorden' of 'net-als woorden' gehanteerd.
De hulpstrategie houdt in dat iemand ezelsbruggetjes of hulpregels gebruikt om te onthouden hoe een
woord gespeld moet worden. Deze kunnen zelfbedacht zijn, maar ook aangeleerd zijn in het onderwijs.
Woorden kunnen vaak met verschillende strategieën goed geschreven worden. Een volwassen speller zal
voor veelvoorkomende, gemakkelijke woorden zoals 'school' waarschijnlijke de directe strategie gebruiken,
maar hij kan ook de woordbeeldstrategie gebruiken.
Spelling in het basisonderwijs
Vanaf het moment dat een kind op school leert lezen en schrijven, wordt er aandacht besteed aan spelling.
Voor het correct spellen van woorden zijn vele strategieën mogelijk. Een kind dat leert spellen, moet deze
spellingstrategieën aanleren en op elkaar afstemmen. Binnen het onderwijs wordt steeds meer rekening
gehouden met het feit dat leerlingen gebruik kunnen maken van verschillende strategieën om een woord
correct te spellen. In de recente spellingmethoden komen dan ook de hierboven genoemde strategieën, zij
het soms onder een andere naam, steeds weer terug.
Om te bepalen welke leerstof aan bod moet komen in het spellingonderwijs worden meestal de volgende
criteria gebruikt:
1. de frequentie van woorden
2. de indeling in spellingcategorieën
3. de moeilijkheid van woorden.
Ad 1. In spellingmethoden wordt tegenwoordig vooral de spelling behandeld van de 3000 tot 4000 meest
frequente woorden in Nederlandse teksten. Dit is een efficiënte werkwijze, want als leerlingen deze
woorden correct kunnen spellen, zullen zij al veel teksten vrijwel foutloos schrijven. Leerlingen leren
om in geval van minder bekende woorden het woordenboek te raadplegen.
Ad 2. Voor de ordening van de leerstof wordt verder uitgegaan van een indeling in spellingcategorieën,
groepen woorden met dezelfde spellingmoeilijkheid. Deze categorieën zijn een hulpmiddel voor
leerkrachten en methodemakers om de leerstof te ordenen. De volgorde waarin de verschillende
categorieën aan bod komen in de verschillende spellingmethoden en leerjaren is over het algemeen
vergelijkbaar. Zo beginnen alle methoden met de klankzuivere woorden en wordt er in groep 6 een
begin gemaakt met de werkwoordspelling.
Ad 3. Ten slotte is ook de moeilijkheid van woorden een criterium. De meest frequente woorden zijn vaak
niet het moeilijkst om te spellen. In het spellingonderwijs komen daarom (in de hogere leerjaren) ook
woorden aan bod die minder frequent voorkomen, maar die vaak fout gespeld worden. Aan deze
woorden wordt aandacht besteed omdat het bij het schrijven niet handig is deze woorden steeds op
te moeten zoeken. Het gaat dan om woorden als: museum, enigszins, directie, chauffeur.
Wat wordt er in de toetsen Spelling getoetst?
Omdat het Nederlandse spellingsysteem gebaseerd is op verschillende principes, hebben kinderen een hele
weg te gaan om goed te leren spellen. Bij het (leren) spellen kunnen verschillende strategieën worden ingezet.
Wat wij met onze toetsen beogen te meten is of leerlingen weten hoe een woord correct gespeld dient te
worden. Het gaat dan zowel om het zelf correct kunnen schrijven van een woord als ook om het herkennen
11
van een fout gespeld woord in een tekst of zin. Op welke wijze of volgens welke strategie leerlingen tot die
juiste spelling komen, is voor ons doel niet interessant. Er leiden verschillende wegen naar Rome …
Bepaalde woorden zijn eenvoudiger correct te spellen of te herkennen als fout gespelde woorden dan
andere woorden. Dit wordt ook in het onderwijs onderkend: alle spellingmethoden kennen een opbouw van
gemakkelijker te spellen woorden naar moeilijker te spellen woorden. De criteria voor het ordenen van de
leerstof staan hierboven genoemd.
Ook bij het toetsen van de vaardigheid spelling gaan we uit van een indeling van makkelijk (eenlettergrepig,
klankzuiver) naar moeilijk (meerlettergrepig, niet klankzuiver). Op basis van literatuurstudie en een
uitgebreide methodeanalyse is een overzicht van spellingcategorieën tot stand gekomen, met een indeling
van de categorieën over de leerjaren en afnamemomenten van de verschillende spellingtoetsen.
Zie paragraaf 3.2 voor een beschrijving van de totstandkoming van dit categorieënoverzicht.
Deze verantwoording gaat overigens alleen over de toetsen Spelling niet-werkwoorden en niet over de
toetsen Spelling werkwoorden. Werkwoordspelling wordt getoetst in groep 7 en 8. In deze toetsen is geen
sprake van de spellingstrategieën zoals hierboven vermeld. Om de toetsen werkwoordspelling te kunnen
maken, moet de leerling ook een zekere kennis hebben van de grammaticaregels. Voor deze toetsen is dan
ook een apart categorieënoverzicht gemaakt dat daarop is toegespitst. Om een voorbeeld te noemen: in de
toetsen werkwoordspelling is het van belang dat leerlingen onderscheid kunnen maken tussen
tegenwoordige tijd en verleden tijd, als het gaat om homofone woorden (zoals gebeurt en gebeurd). Voor
deze toetsen komt er om die reden een aparte verantwoording.
2.4.2
Psychometrisch
Opgavenbanken Primair onderwijs
Voor het samenstellen van toetsen voor het primair onderwijs beschikt Cito over opgavenbanken.
Die liggen ten grondslag aan onder meer de toetsen in het Cito Volgsysteem primair onderwijs, de
Entreetoetsen en de Eindtoets Basisonderwijs. Voor de constructie van de toetsen Spelling hebben we
gebruikgemaakt van de opgavenbank Spelling. In deze itembank staan alleen maar opgaven die bestemd
zijn voor toetsen van de vaardigheid spelling niet-werkwoorden, voor groep 3 tot en met 8.
Ook voor andere vakgebieden in het Cito Volgsysteem primair onderwijs als begrijpend lezen,
woordenschat, rekenen en studievaardigheden zijn opgavenbanken in gebruik.
Een opgavenbank is nadrukkelijk niet 'zomaar' een verzameling opgaven of items waaruit een toetsconstructeur min of meer naar willekeur een aantal items selecteert om een nieuwe toets te construeren.
We geven hier kort aan wat de vereisten zijn om van een deugdelijke en psychometrisch goed gefundeerde
opgavenbank te kunnen spreken.
Unidimensionaal continuüm
Het algemene uitgangspunt is dat de vaardigheid spellen kan worden opgevat als een unidimensionaal
continuüm (de reële lijn), en dat elke leerling voorgesteld kan worden als een punt op die lijn, met andere
woorden: als een getal. Het getal drukt de mate van spellingvaardigheid uit, waarbij een groter getal wijst op
een grotere vaardigheid. Het doel van de meetprocedure – het afnemen van een toets – is de plaats van de
leerling op dit continuüm zo nauwkeurig mogelijk te bepalen. De uitkomst van de meetprocedure bestaat
strikt genomen uit twee grootheden. De eerste is de schatting van de plaats van de leerling op het
vaardigheidscontinuüm, de tweede geeft aan hoe nauwkeurig die schatting is, en heeft dus de status van
een standaardfout, te vergelijken met de standaardmeetfout uit de klassieke testtheorie.
Latente vaardigheid
De antwoorden die een leerling op de opgaven geeft, worden beschouwd als indicatoren van de
vaardigheid spellen, hetgeen ruwweg betekent dat men verwacht dat alle opgaven in de bank spellen
meten. De vaardigheid zelf wordt als niet observeerbaar beschouwd en daarom gewoonlijk omschreven als
een latente vaardigheid.
12
'Moeilijkheid' in de Item Response Theorie
Hoewel items dezelfde vaardigheid meten, kunnen ze toch systematisch van elkaar verschillen.
Het belangrijkste verschil tussen de items is hun moeilijkheidsgraad. In de klassieke testtheorie wordt
moeilijkheidsgraad uitgedrukt met een zogenaamde p-waarde, de proportie correcte antwoorden op het item
in een welbepaalde populatie van leerlingen. In de Item Response Theorie (IRT) die voor het construeren van
de opgavenbanken werd gebruikt, hanteert men echter een andere definitie van moeilijkheid: ruwweg
gesproken is het de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden. Dit verschil
in definitie van de moeilijkheidsgraad tussen klassieke theorie en IRT is uitermate belangrijk. Men kan
verwachten dat de p-waarde van een item in groep 8 groter zal zijn dan in groep 6, waardoor duidelijk wordt
dat de p-waarde een relatief begrip is: ze geeft de moeilijkheid aan van een item in een bepaalde populatie.
Binnen de IRT is de moeilijkheid van een item gedefinieerd in termen van de onderliggende vaardigheid,
zonder enige referentie naar een bepaalde populatie van leerlingen. Zo kan men ook de uitspraak begrijpen
dat in de IRT vaardigheid en moeilijkheid op eenzelfde schaal liggen.
Kansmodel
De ruwe omschrijving van de moeilijkheidsgraad die in de vorige alinea werd gehanteerd (de mate van
vaardigheid nodig om het item goed te kunnen beantwoorden) behoeft enige verdere uitwerking. Men zou
deze omschrijving kunnen opvatten als een soort drempel: heeft een leerling die mate van vaardigheid niet,
dan kan hij het item niet juist beantwoorden; heeft hij die drempel wel gehaald, dan geeft hij (gegarandeerd)
het juiste antwoord. Deze interpretatie weerspiegelt een deterministische kijk op het antwoordgedrag van
de leerling, die echter in de praktijk geen stand houdt, omdat er uit volgt dat een leerling die een moeilijk
item correct beantwoordt geen fout kan maken op een gemakkelijk item. Daarom wordt in de IRT een
kansmodel gebruikt: hoe groter de vaardigheid, des te groter de kans dat een item juist wordt beantwoord.
De moeilijkheidsgraad van een item wordt dan gedefinieerd als de mate van vaardigheid die nodig is om
met een kans van precies een half een juist antwoord te kunnen produceren.
Kalibratie
In het voorgaande zijn nogal wat veronderstellingen aangevoerd (unidimensionaliteit; alle items zijn
indicatoren voor dezelfde vaardigheid; kansmodel) die niet zonder meer voor waar kunnen worden
aangenomen; we zullen methoden moeten bedenken om aan te tonen dat al die veronderstellingen
deugdelijk zijn. Dit 'aantonen' gebeurt met statistische gereedschappen waarop we in de volgende
paragraaf dieper zullen ingaan. Maar voor we de items in een toets kunnen gebruiken moeten we ook
proberen de waarden van de moeilijkheidsgraden te achterhalen. Dit gebeurt met een statistische
schattingsmethode die wordt toegepast op de itemantwoorden, die bij een steekproef van leerlingen zijn
verzameld. Het hele proces van moeilijkheidsgraden schatten en verifiëren of de modelveronderstellingen
houdbaar zijn wordt kalibratie of ijking genoemd; de steekproef van leerlingen die hiervoor wordt gebruikt
noemen we kalibratiesteekproef.
Afnamedesigns
Meestal bevat een opgavenbank meer items dan een doorsnee toets, zodat het praktisch niet doenbaar is
om alle items aan alle leerlingen voor te leggen. Elke leerling in de kalibratiesteekproef krijgt derhalve
slechts een (klein) gedeelte van de items uit de opgavenbank voorgelegd. Dit gedeeltelijk voorleggen moet
met de nodige omzichtigheid gebeuren. Verderop wordt ingegaan op het afnamedesign dat voor de
kalibratie is gebruikt (een 'onvolledig design'); we verwijzen de geïnteresseerde lezer naar Eggen (1993).
Belangrijke implicaties gekalibreerde opgavenverzameling
Als we erin slagen de kalibratie met succes uit te voeren houden we een zogenaamde gekalibreerde
itembank over. In dat kalibratieproces worden de items die niet passen bij de verzameling uit de collectie
verwijderd. De opgavenbank bevat voor elk item niet alleen zijn feitelijke inhoud, maar ook zijn
psychometrische eigenschappen, en de statistische zekerheid dat alle items dezelfde vaardigheid
aanspreken. Dit houdt onder meer het volgende in:
1. In principe kunnen we met een willekeurige selectie items uit de bank de vaardigheid meten bij een
willekeurige leerling. In principe, want een willekeurige toets die uit de itembank wordt getrokken zal in
13
de praktijk meestal niet voldoen omdat het meetresultaat (de schatting van de vaardigheid)
onvoldoende nauwkeurig zal zijn. Willen we een nauwkeuriger meting (bij een gegeven aantal items in
de toets) dan zullen we de moeilijkheidsgraden van de items in overeenstemming moeten brengen met
het vaardigheidsniveau van de leerlingen.
Het voorgaande geldt tevens voor de digitale items. Ook deze items komen uit de itembank Spelling.
Dus ook met een selectie van digitale items kan de vaardigheid van een leerling bepaald worden.
Al hetgeen dat geldt voor de 'papieren' items uit de itembank Spelling geldt ook voor 'digitale' items uit
dezelfde itembank.
2. We kunnen een schatting maken van de verdeling van de vaardigheid in een welomschreven
populatie, door selecties van items voor te leggen aan aselecte steekproeven van leerlingen uit
populaties die van belang zijn voor de normering. In het geval van het Cito Volgsysteem zijn dat
steekproeven van leerlingen op de verschillende normeringsmomenten vanaf eind groep 3 (E3) tot eind
groep 8 (E8). Daarbij maakt het, behoudens wat bij 1 is vermeld over nauwkeurigheid, niet uit welke
selectie van items aan een leerling binnen een normeringsgroep wordt afgenomen. Een van de
eigenschappen van gekalibreerde itembanken is immers dat met elke selectie items de vaardigheid
van leerlingen kan worden bepaald. Zie voor een voorbeeld hiervan Staphorsius (1994). In de praktijk
komt dit meestal neer op het schatten van gemiddelde en standaardafwijking in de veronderstelling dat
de vaardigheid normaal verdeeld is. Met deze uitkomsten kunnen dan ook weer schattingen gemaakt
worden van de percentielen in de populatie.
3. Aan leerlingen die niet behoren tot de betreffende referentiepopulatie kan dezelfde toets worden
voorgelegd. De toetsscore wordt omgezet in een schatting van de vaardigheid en deze schatting kan
geplaatst worden in de vaardigheidsverdeling van de populatie. Een leerling met achterstand in groep 8
kan een toets maken die normaliter aan groep 6 wordt voorgelegd, en zijn of haar
vaardigheidsschatting kan behalve met de populatie van groep 8 ook vergeleken worden met de
populatie van groep 6, met bijvoorbeeld de uitspraak: “De vaardigheid van deze leerling komt overeen
met de mediane vaardigheid in groep 6.”
4. De vergelijking die bij punt 3 gemaakt is, kan evengoed plaatsvinden als de (achterstands)leerling een
andere toets (i.e. een selectie uit de opgavenbank) maakt dan de toets die normaliter aan groep 6
wordt voorgelegd. Immers het kalibratieonderzoek heeft ons overtuigd dat alle items dezelfde
vaardigheid meten. Met een nieuwe toets meten we dus dezelfde vaardigheid, zodat schattingen die
van verschillende toetsen afkomstig zijn zinvol met elkaar kunnen worden vergeleken.
Tot zover onze nadere bepaling van het begrip ‘opgavenbank’. In de volgende hoofdstukken van dit deel
van de verantwoording worden de begrippen die hierboven aan de orde zijn geweest nader uitgewerkt en
toegelicht voor de opgavenbank Spelling. Voor de verantwoording van de constructie van deze
opgavenbank verwijzen we naar hoofdstuk 3. In hoofdstuk 6 wordt de validering van de opgavenbanken
besproken.
Het gehanteerde meetmodel
In het normeringsonderzoek is gebruikgemaakt van een op de itemresponstheorie (IRT) gebaseerd
meetmodel zoals dat bij Cito gebruikelijk is. Dergelijke modellen verschillen in een aantal opzichten nogal
sterk van de klassieke testtheorie (Verhelst, 1993; Verhelst en Glas, 1995). Bij de klassieke testtheorie
staan de toets en de toetsscore centraal. Het theoretisch belangrijkste begrip in deze theorie is de
zogenaamde ware score, de gemiddelde score die de persoon zou behalen indien de test een oneindig
aantal keren onder dezelfde condities zou worden afgenomen. Die notie geeft een van de belangrijkste
(praktische) obstakels van deze theorie voor ons onderzoek weer: het is problematisch om toetsscores te
vergelijken die verkregen zijn in een onvolledig design. Hoewel er methoden bestaan binnen de klassieke
testtheorie om toetsscores te equivaleren (Engelen & Eggen, 1993), schiet deze benadering tekort als het
gaat om de centrale vraag: hoe weten we dat de equivalering zinvol is? Op die vraag heeft IRT een
antwoord.
In de IRT staat het te meten begrip of de te meten eigenschap centraal. De IRT beschouwt het antwoord op
een item als een indicator voor de mate waarin die eigenschap aanwezig is. Het verband tussen
eigenschap en itemantwoord is van probabilistische aard en wordt weergegeven in de zogenaamde
14
itemresponsfunctie. Die geeft aan hoe groot de kans is op een correct antwoord als functie van de
onderliggende eigenschap of vaardigheid. Formeler: zij Xi de toevalsvariabele die het antwoord op item i
voorstelt. Xi neemt de waarde 1 aan in geval van een correct antwoord en 0 in geval van een fout antwoord.
Als symbool voor de vaardigheid kiezen we θ (theta). We wijzen erop dat θ niet rechtstreeks observeerbaar
is. Dat zijn alleen de antwoorden op de opgaven. Dat is de reden waarom θ een 'latente' variabele wordt
genoemd2. De itemresponsfunctie fi(θ) is gedefinieerd als een conditionele kans:
f i (  ) = P ( X i = 1 | )
(2.1)
Een IRT-model is een speciale toepassing van (2.1) waarbij aan de functie fi(θ) een meer of minder
specifieke functionele vorm wordt toegekend. Een eenvoudig en zeer populair voorbeeld is het
zogenaamde Raschmodel (Rasch, 1960) waarin fi(θ) gegeven is door
f i ( )=
exp (  -  i )
1 + exp (  -  i )
(2.2)
waarin βi de moeilijkheidsparameter van item i is. Dat is een onbekende grootheid die geschat wordt uit de
observaties. De grafiek van (2.2) is weergegeven in figuur 2.1 voor twee items, i en j, die in moeilijkheid
verschillen. Deze figuur illustreert dat de itemresponsfunctie een stijgende functie is van θ: hoe groter de
vaardigheid, des te groter de kans op een juist antwoord. Indien de latente vaardigheid precies gelijk is aan
de moeilijkheidsparameter βi, krijgen we
f i (  i )=
exp (  i -  i )
1
1
=
=
1 + exp (  i -  i ) 1 + 1 2
(2.3)
Daaruit volgt onmiddellijk een interpretatie voor de parameter βi: het is de 'hoeveelheid' vaardigheid die
nodig is voor de kans van precies een half om het item i juist te beantwoorden. Uit de figuur blijkt duidelijk
dat voor item j een grotere vaardigheid nodig is om diezelfde kans te bereiken, maar dit is hetzelfde als te
zeggen dat item j moeilijker is dan item i. We kunnen de parameter βi dus terecht omschrijven als de
moeilijkheidsparameter van item i. De implicatie van het bovenstaande is dat 'moeilijkheid' en 'vaardigheid'
op dezelfde schaal liggen.
Figuur 2.1
2
Twee itemresponscurven in het Raschmodel
Dit maakt duidelijk waarom men de modellen die ressorteren onder de IRT ook wel aanduidt met 'latente trek'-modellen.
15
Formule (2.2) is geen beschrijving van de werkelijkheid, het is een hypothese over de werkelijkheid die
getoetst kan worden op haar houdbaarheid. Hoe zo'n toetsing grofweg verloopt, is te verduidelijken aan de
hand van figuur 2.1. Daaruit blijkt dat, voor welk vaardigheidsniveau dan ook, de kans om item j juist te
beantwoorden steeds kleiner is dan de kans op een juist antwoord op item i. Daaruit volgt de statistisch te
toetsen voorspelling dat de verwachte proportie juiste antwoorden op item j kleiner is dan op item i in een
willekeurige steekproef van personen. Splitst men nu een grote steekproef in twee deelsteekproeven, een
'laaggroep' met de vijftig procent laagste scores en een 'hooggroep' met de vijftig procent hoogste scores,
dan kan men nagaan of de geobserveerde p-waarden van de opgaven in beide deelsteekproeven op
dezelfde wijze geordend zijn. Daarvan kan strikt genomen alleen sprake zijn als, in termen van de klassieke
testtheorie uitgedrukt, alle opgaven eenzelfde discriminatie-index hebben. Dat echter blijkt lang niet altijd zo
te zijn. Ook in ons geval niet. Veel van de items blijken dan ook niet te kunnen worden beschreven met het
Raschmodel. Daarom is bij dit instrument gekozen voor een ander IRT-model.
Alvorens het hier gebruikte model te introduceren, is een kanttekening nodig bij het schatten van de
moeilijkheidsparameters in het Raschmodel. Een vaak toegepaste schattingsmethode is de 'conditionele
grootste aannemelijkheidsmethode' (in het Engels: Conditional Maximum Likelihood, verder aangeduid als
CML). Die maakt gebruik van het feit dat in het Raschmodel een afdoende steekproefgrootheid ('sufficient
statistic') bestaat voor de latente variabele θ, namelijk de ruwe score of het aantal correct beantwoorde
items. Dat betekent grofweg dat, indien de itemparameters bekend zijn, alle informatie die het
antwoordpatroon over de vaardigheid bevat, kan worden samengevat in de ruwe score; het doet er dan
verder niet meer toe welke opgaven goed en welke fout zijn gemaakt. Hieruit vloeit voort dat de conditionele
kans op een juist antwoord op item i, gegeven de ruwe score, een functie is die alleen afhankelijk is van de
itemparameters en onafhankelijk van de waarde van θ3. De CML-schattingsmethode maakt van deze
functie gebruik. Deze methode maakt geen enkele veronderstelling over de verdeling van de vaardigheid in
de populatie, en is ook onafhankelijk van de wijze waarop de steekproef is getrokken.
De CML-schattingsmethode is echter niet bij elk meetmodel toepasbaar. In het zogenaamde éénparameter
logistisch model (One Parameter Logistic Model, afgekort: OPLM) is CML mogelijk. Dit model is, anders
dan het Raschmodel, wel bestand tegen 'omwisseling' van 'proporties juist' in verschillende steekproeven
(Glas & Verhelst, 1993; Eggen, 1993; Verhelst & Kleintjes, 1993). De itemresponsfunctie van het OPLM is
gegeven door
f i ( )=
exp [ ai (  -  i ) ]
1 + exp [ ai (  -  i )]
(2.4)
,
waarin ai de zogenaamde discriminatie-index van het item is. Door deze indices te beperken tot (positieve)
gehele getallen, en door ze a priori als constanten in te voeren, is het mogelijk CML-schattingen van de
itemparameters βi te maken. In figuur 2.2 is de itemresponscurve weergegeven van twee items i en j, die
even moeilijk zijn maar verschillend discrimineren.
3
Een gedetailleerde uiteenzetting hierover kan men vinden in Verhelst, 1992.
16
Figuur 2.2
Twee itemresponscurven in het OPLM: zelfde moeilijkheid, verschillende discriminatie
De schattingen worden berekend met het computerprogramma OPLM (Verhelst, Glas en Verstralen, 1995).
Dit programma voert ook statistische toetsen uit op grond waarvan kan worden bepaald of het model de
gegevens adequaat beschrijft. Omdat een aantal van deze toetsen bijzonder gevoelig is voor een verkeerde
specificatie van de discriminatie-indices, zijn de uitkomsten van deze toetsen bruikbaar als modificatieindices: ze geven een aanwijzing in welke richting deze discriminatie-indices moeten worden aangepast om
een betere overeenkomst tussen model en gegevens te verkrijgen. Kalibratie van items volgens het OPLM
is dan ook een iteratief proces waarin alternerend de modelfit van items wordt onderzocht door middel van
statistische toetsing en de waarden van de discriminatie-indices worden aangepast op grond van de
resultaten van deze toetsen. Deze aanpassingen geschieden in de praktijk op basis van een en hetzelfde
gegevensbestand. Er kan dus kanskapitalisatie optreden. Indien een steekproef een voldoende grootte
heeft, is het effect van deze kanskapitalisatie echter gering (Verhelst, Verstralen en Eggen, 1991).
Hoewel het OPLM aanzienlijk flexibeler is dan het Raschmodel, heeft het met dit model toch een nadeel
gemeen, waardoor het bij het kalibreren van meerkeuzeopgaven niet zonder meer bruikbaar is. Uit de
formules (2.2) en (2.4) volgt dat, indien θ zeer klein is, de kans op een juist antwoord zeer dicht in de buurt
van nul komt. Maar de items in het normeringsonderzoek zijn meerkeuze-items, zodat blind gokken een
zekere kans op een juist antwoord impliceert. Er bestaan modellen die rekening houden met de raadkans
(Lord & Novick, 1968), maar die laten geen CML-schattingsmethode toe. De ongeschiktheid van het
Raschmodel of OPLM voor meerkeuzevragen is echter relatief: indien de items in vergelijking met de
vaardigheid van de leerling niet al te moeilijk zijn, blijkt dat het effect van het raden op de overeenkomst
tussen model en gegevens klein is. Door een verstandige dataverzamelingsprocedure toe te passen en met
name niet te moeilijke opgaven te selecteren in de toets kan het OPLM toch toegepast worden op
meerkeuzevragen, waarbij de overeenkomst tussen model en data de uiteindelijke doorslag over die
geschiktheid moet geven. Ook in de normering wordt hiermee rekening gehouden.
Voor de schatting van de populatieverdeling wordt gebruikgemaakt van de 'marginale grootste
aannemelijkheidsmethode' (in het Engels: Marginal Maximum Likelihood, verder afgekort als MML).
Deze schattingsmethode veronderstelt naast (2.2) ook nog dat de vaardigheid θ in de populatie een
bepaalde verdeling heeft. De meeste computerprogramma’s die IRT-analyses kunnen uitvoeren,
veronderstellen een normale verdeling. Bovendien stelt deze methode de voorwaarde dat de steekproef die
voor de schatting gebruikt wordt uit die verdeling een aselecte steekproef is. Omdat leerlingen gevolgd
worden, is het mogelijk gelijktijdig de verdelingen op de verschillende normeringsmomenten te schatten.
Bij de analyse is gebruikgemaakt van multivariate latente analysetechnieken waarmee gemiddelden en
covarianties voor alle variabelen worden geschat in een onvolledig design. Daarvoor hebben we speciale
software gebruikt (Multi) in combinatie met het OPLM als meetmodel (Kamphuis, 1992, 1993, Kamphuis en
Engelen, 1992).
17
18
3
Beschrijving van de toets
3.1
Opbouw en structuur van de toets
De toetsen Spelling niet-werkwoorden voor de jaargroepen 7 en 8 uit het Cito Volgsysteem primair
onderwijs, bevatten drie toetsen: M7, E7 en B8/M8, primair bedoeld voor – achtereenvolgens – leerlingen
halverwege (medio) groep 7, einde groep 7 en begin groep 8 of halverwege groep 8.
De meeste toetsen van het Cito Volgsysteem primair onderwijs worden afgenomen halverwege of op het
einde van een leerjaar. De toets voor groep 8 is echter behalve voor ‘midden leerjaar’ ook genormeerd voor
‘begin leerjaar’, halverwege de afnamemomenten E7 en M8. Vandaar de aanduiding B8/M8. De geringe
vaardigheidstoename tussen de afname aan het begin en halverwege groep 8 maakt het mogelijk om voor
beide afnamemomenten dezelfde toets te gebruiken. Deze toets is dus zowel geschikt voor begin (B8) als
voor medio (M8) groep 8. Dit biedt de mogelijkheid om al eind oktober, begin november (dus enkele
maanden voordat leerlingen eventueel deelnemen aan de Eindtoets), de stand van zaken in kaart te
brengen. Bovendien loopt het afnamemoment M8 parallel aan dat van de Eindtoets Basisonderwijs
waaraan veel scholen deelnemen. Dit kan voor veel scholen een bezwaar zijn vanwege de toetsdruk en
belasting voor leerlingen. Er is geen toets voor einde groep 8.
Van alle toetsen vanaf E3 is een digitale variant beschikbaar. Dit is ook het geval voor de toetsen M7, E7
en B8/M8. De digitale variant bevat precies dezelfde opgaven als de papieren variant, maar nu tikken de
leerlingen het gevraagde dicteewoord in via het toetsenbord in plaats van het op te schrijven. Bij de
meerkeuzeopgaven klikken zij de zin met het fout gespelde woord aan (in plaats van de letter A, B, C, D
vóór de zin te omcirkelen of te noteren). De papieren en de digitale toetsen Spelling bevatten niet alleen
dezelfde opgaven, ook de modulaire opbouw van beide toetsvarianten is identiek.
Omdat de spellingvaardigheid van leerlingen in één groep sterk kan uiteenlopen, zijn voor ieder afnamemoment twee in moeilijkheid verschillende toetsen samengesteld, die leerkrachten gedifferentieerd kunnen
toewijzen aan hun leerlingen. De opgaven in de toetsen Spelling van het Cito Volgsysteem zijn daartoe per
afnamemoment verdeeld over drie toetsmodules. Deze drie modules verschillen in moeilijkheid en maken
vertakt toetsen (multistage testing) mogelijk. (Zie voor de informatiewinst bij vertakt toetsen: Verhelst,
1989.)
De modules in de toets Spelling M7 zijn: M7 Start, M7 Vervolg 1 en M7 Vervolg 2. M7 Start past bij de
gemiddelde vaardigheid van leerlingen halverwege jaargroep 7. M7 Vervolg 1 is gemakkelijker dan M7 Start
en M7 Vervolg 2 is moeilijker dan M7 Start. Alle leerlingen in groep 7 maken eerst M7 Start. Minder goede
spellers maken daarna M7 Vervolg 1; de betere spellers maken M7 Vervolg 2. (Zie ook figuur 3.1.)
Eenzelfde modulering van deeltoetsen is gehanteerd voor alle toetsen Spelling vanaf M3. Dit geldt dus ook
voor de toetsen E7 en B8/M8. De startmodule wordt door alle leerlingen in de groep gemaakt; na de
startmodule wordt de groep gesplitst en maakt elke leerling de vervolgmodule die het best aansluit bij zijn of
haar spellingvaardigheid.
In de handleiding bij elk toetspakket wordt voor elke toets aangegeven bij welke score op de startmodule
welke vervolgmodule het best passend is. In paragraaf 5.2 van deze verantwoording wordt uitgelegd hoe
deze 'cut-off score' wordt bepaald.
19
Figuur 3.1
Vertakt toetsen in LOVS Spelling
module Vervolg 1
de minder goede spellers
module Start
alle leerlingen
in de groep
module Vervolg 2
de betere spellers
De toetsmodules voor groep 7 en 8 bevatten elk 30 opgaven. In totaal maken de leerlingen dan dus
60 opgaven. Ondanks het feit dat bij adaptief toetsen niet alle leerlingen dezelfde toets maken, biedt het
gehanteerde meetmodel de mogelijkheid om leerlingen met elkaar en met de leerlingen in de landelijke
normgroep te vergelijken. De onderliggende meettechniek voorziet er namelijk in dat iedere ruwe score
– op welk van beide combinaties van toetsmodules deze score ook behaald is – kan worden omgezet in
een score op één en dezelfde vaardigheidsschaal.
De gedifferentieerde toewijzing van opgaven aan leerlingen heeft een belangrijke achtergrond: de meting
van de vaardigheid geeft een nauwkeuriger resultaat naarmate de moeilijkheid van de opgaven beter past
bij het vaardigheidsniveau van een leerling. En uiteraard is het maken van een toets op maat prettiger voor
de leerlingen.
De papieren toetsen Spelling worden in principe klassikaal gemaakt. De startmodule bestaat steeds uit
dicteeopgaven; een korte mondelinge instructie van de leerkracht volstaat om het principe van het dictee uit
te leggen. De leerkracht leest vervolgens de dicteezinnen voor. Hiervoor is een voorleesblad beschikbaar.
In de handleiding staat een instructie voor de leerkracht, met daarin concrete aanwijzingen voor de afname
van de dicteemodule. Een van de aanwijzingen is om bij het dicteren de woorden waar het om gaat niet
overdreven correct uit te spreken, maar eerder zoals dit in het dagelijks taalgebruik gebeurt. Er is destijds
voor gekozen geen audioversie van de dicteemodule bij te leveren. De toets sluit zo aan bij wat leerlingen
al gewend zijn uit de dagelijkse praktijk. De toets zou wellicht nog aan betrouwbaarheid winnen als voor de
dicteeopgaven een audioversie bijgeleverd werd. Immers, dan krijgen alle leerlingen precies dezelfde
uitspraak van de dicteezinnen te horen en is er zeker geen beïnvloeding van de toetsresultaten door dialect
of overdreven dictie. Dat vraagt natuurlijk wel dat leerkrachten consequent de audioversie gebruiken en
daarvan kunnen we niet zeker zijn. Ook zonder gebruik van een audioversie scoren de toetsen overigens
hoog op betrouwbaarheid (zie ook hoofdstuk 5).
De vervolgmodules voor groep 7 en 8 bestaan uit meerkeuzeopgaven. Voor Vervolg 1 en Vervolg 2 zal de
leerkracht de leerlingen dus opnieuw een klassikale instructie moeten geven, maar nu over het invullen van
de meerkeuzeopgaven. Leerlingen noteren hun antwoorden op losse antwoordbladen.
Van alle toetsen voor groep 7 en 8 is ook een digitale versie beschikbaar. De digitale toetsen Spelling
bestaan uit dezelfde opgaven als de papieren toetsen Spelling. Uit onderzoeken waarin de papieren en de
digitale versie met elkaar zijn vergeleken, is gebleken dat de resultaten op papieren en digitale toetsen
uitwisselbaar zijn (zie voor meer informatie hierover ook hoofdstuk 4). De digitale toetsen Spelling worden
individueel gemaakt. Afhankelijk van het aantal beschikbare computers kunnen meerdere leerlingen
gelijktijdig aan dezelfde toets werken. Bij de digitale versies van de toetsen wordt in de dicteemodules bij
elke opgave automatisch het bijbehorende geluidsfragment afgespeeld. De leerling kan desgewenst (door
het klikken op een oortje op het beeldscherm) het geluidsfragment nogmaals beluisteren.
De opgaven in de meerkeuzemodules worden in principe niet voorgelezen. Voor dyslectische leerlingen en
leerlingen met ernstige leesproblemen bestaat echter die mogelijkheid wel. Zij moeten daartoe bij elke
meerkeuzeopgave op het oortje klikken dat staat weergegeven in het scherm.
20
De toetsen Spelling zijn zowel handmatig na te kijken en te analyseren als via de computer met behulp van
het Computerprogramma LOVS. Voor het handmatig nakijken van iedere toets kan gebruikgemaakt worden
van een lijst met goede antwoorden, die in de bijlage van de handleiding is opgenomen. Indien gewenst kan
de leerkracht in het Computerprogramma LOVS de goede antwoorden aanklikken.
Bij de digitale versies van de toetsen worden de antwoorden van de leerlingen door de computer gescoord
en hoeft de leerkracht de toetsen dus niet zelf na te kijken.
Na de toetsafname en de correctie van de leerlingantwoorden kunnen de toetsresultaten verwerkt worden
op speciaal ontwikkelde rapportageformulieren. In de handleiding bij de toetspakketten Spelling (hoofdstuk
4: Interpretatie en gebruik op leerlingniveau en hoofdstuk 5: Interpretatie en gebruik op schoolniveau) en de
handleiding bij het computerprogramma (module schoolzelfevaluatie) worden de mogelijkheden besproken
om verschillende soorten overzichten te maken, zoals leerlingrapporten, groepsrapporten,
dwarsdoorsneden en trendanalyses. Met behulp van deze overzichten kan de kwaliteit van het gegeven
onderwijs ook op groepsniveau en schoolniveau geanalyseerd worden.
3.2
Inhoudsverantwoording
In deze paragraaf geven wij eerst een beschrijving van de opgaventypen in de toetsen Spelling nietwerkwoorden voor groep 7 en 8. Vervolgens beschrijven wij de gedetailleerde uitkomsten van het methodeonderzoek dat ten grondslag lag aan de keuze voor de spellingcategorieën in de toetsen en geven we een
overzicht van spellingcategorieën uit het Cito Volgsysteem met de aantallen opgaven per spellingcategorie.
Ten slotte beschrijven we de selectiecriteria die gebruikt zijn bij de keuze van de opgaven in de toetsen
Spelling.
De informatie in deze paragraaf vormt een aanvulling op de Inhoudsverantwoording die opgenomen is in de
toetspakketten Spelling. In de Inhoudsverantwoording in het toetspakket staat per jaargroep en afnamemoment een overzicht van alle getoetste woorden en informatie over de moeilijkheid van elk woord (in de
vorm van grafieken). Ook vindt u daar een toelichting bij het totaaloverzicht van spellingcategorieën voor
groep 3 tot en met 8, gevolgd door een beschrijving van het methodeonderzoek op basis waarvan het
overzicht van spellingcategorieën is ontwikkeld. Dat categorieënoverzicht is in elk toetspakket als bijlage
achter in de Inhoudsverantwoording opgenomen.
Opgaventypen in de toetsen Spelling
De toetsen Spelling voor groep 7 en 8 bevatten twee soorten opgaven:
– zinsdictee (module M7 Start, E7 Start en B8/M8 Start);
– meerkeuzeopgaven (module M7 Vervolg 1, M7 Vervolg 2, E7 Vervolg 1, E7 Vervolg 2, B8/M8 Vervolg
1 en B8M8 Vervolg 2)
De toetsen Spelling voor groep 7 en 8 bevatten steeds een module Start met alleen opgaven zinsdictee.
Bij een zinsdictee leest de leerkracht (of in het geval van de digitale toets: de voorleesstem) een zin voor en
herhaalt vervolgens uit deze zin één woord. Dat woord moeten de leerlingen opschrijven. Door de
toetswoorden in zinsverband aan te bieden is twijfel over welk woord bedoeld wordt vrijwel uitgesloten.
Alle vervolgmodules van de toetsen Spelling voor groep 7 en 8 bestaan uit meerkeuzeopgaven.
Een meerkeuzeopgave bestaat uit vier losse zinnen, die elk één dikgedrukt woord bevatten. Eén van de
vier dikgedrukte woorden is fout gespeld. De leerlingen moeten aangeven in welke zin het fout gespelde
woord staat.
Bij de beslissing om naast dicteeopgaven ook meerkeuzeopgaven op te nemen in de toetsen Spelling
speelden de volgende overwegingen een rol:

Spelling kent een actieve kant (zelf foutloos woorden schrijven) en een passieve kant (fouten in
geschreven tekst herkennen en verbeteren). De actieve kant staat natuurlijk voorop. Het zelf kunnen
schrijven van begrijpelijke en correct gespelde teksten is een heel belangrijke communicatieve
vaardigheid. Met behulp van dictees en invuloefeningen kun je toetsen hoe deze vaardigheid zich bij
de leerling ontwikkelt. De passieve kant van spelling komt op de tweede plaats. Ook deze vaardigheid
is echter niet onbelangrijk. Als leerlingen een tekst geschreven hebben, staan daar meestal toch nog
21


wat foutjes in. Het is dan zaak dat zij geleerd hebben deze fouten op te sporen en te verbeteren.
Anders heeft het weinig zin om hen te vragen hun eigen werk nog eens na te kijken voor ze het
inleveren. Foutenherkenning kan getoetst worden met meerkeuzeopgaven of met open opgaven,
waarbij de leerling het fout geschreven woord moet verbeteren. Bij de hierboven beschreven twee
kanten van spelling gaat het niet precies om dezelfde vaardigheden. Er is een duidelijke relatie tussen
beide, maar de correlatie is niet 100%. Dat blijkt uit onze proefafnames en normeringsonderzoeken.
Leerlingen die goed zijn in het zelf foutloos schrijven, zijn vaak ook goed in het herkennen van fouten –
– maar niet altijd. En andersom is het net zo: leerlingen die snel fouten herkennen, kunnen vaak zelf
ook goed schrijven – maar niet altijd.
De vroegere SVS (Schaal Vorderingen in Spellingvaardigheid, de voorloper van de toetsen uit het Cito
Volgsysteem primair onderwijs) bestond geheel uit dictee-opgaven. Het onderdeel Spelling in de
Eindtoets Basisonderwijs en de Entreetoets bestaat uitsluitend uit meerkeuzeopgaven. Al deze toetsen
maken deel uit van het Cito Volgsysteem primair onderwijs. We proberen de toetsen in het Cito
Volgsysteem primair onderwijs zo optimaal mogelijk op elkaar af te stemmen, ook qua opgavenvorm.
Het is niet de verwachting dat de Eindtoets ooit (deels) uit open opgaven zal bestaan. Daarvoor zijn de
aantallen leerlingen te groot en is de verwerkingstijd van de resultaten te kort. Aansluiting moest dus
vanuit de toetsen Spelling komen. Dat was ook een reden om ook meerkeuzeopgaven op te nemen in
de huidige toetsen Spelling.
Leerlingen die nog niet zo lang spellingonderwijs hebben en daarnaast ook niet zo goed kunnen
spellen, kunnen in verwarring gebracht worden door het zien van fout gespelde woorden. Dat is de
reden waarom we in de huidige toetsen Spelling voor groep 4 en 5 in principe alleen de betere spellers
meerkeuzeopgaven voorleggen. Het zou natuurlijk raar zijn als juist de zwakkere spellers pas bij
afname van de Entreetoets of de Eindtoets met meerkeuzeopgaven voor spelling geconfronteerd
worden, terwijl de betere spellers al vertrouwd zijn met deze opgavenvorm. Vandaar dat we in de
huidige toetsen Spelling vanaf groep 6 ook de zwakkere spellers meerkeuzeopgaven voorleggen.
Vanzelfsprekend sluit het niveau van deze meerkeuzeopgaven goed aan bij het niveau van de
spellingvaardigheid van de zwakkere speller.
Overigens bleek dat de verschillende opgaventypen die in de toetsen Spelling gebruikt worden
(woorddictee (groep 3), zinsdictee, meerkeuzeopgave) wel alle drie op één en dezelfde schaal te plaatsen
waren. Dat betekent dat alle opgaven iets zeggen over de spellingvaardigheid.
Spellingcategorieën in Nederlandse taalmethoden
De opgaven in de toetsen Spelling maken deel uit van een omvangrijke opgavenbank die gevuld is met
woorden die enerzijds ondergebracht zijn in verschillende opgavenvormen (woorddictee, zinsdictee,
meerkeuzeopgave) en anderzijds in verschillende spellingcategorieën.
Deze spellingcategorieën (48 in totaal) zijn gebaseerd op de spellingkwesties die we eind 2005 en begin
2006 aantroffen in zeven veel gebruikte onderwijsmethoden:
methode
Taalactief
Taaljournaal
Taalleesland
Taaltijd
Taalverhaal
Veilig leren lezen
Zin in taal
Uitgever
Uitgeverij Malmberg, ’s-Hertogenbosch
Uitgeverij Malmberg, ’s-Hertogenbosch
Bekadidact, Baarn
Wolters-Noordhoff, Groningen
ThiemeMeulenhoff, Utrecht/Zutphen
Uitgeverij Zwijsen B.V., Tilburg
Uitgeverij Zwijsen B.V., Tilburg
22
jaar van uitgave
2003
2003
1995-1999
1995-1999
2002-2003
2003
1996-2001
Uit een onderzoek van Cito in 2005 naar leesvaardigheid in het basisonderwijs (in het kader van het
onderzoeksproject Periodieke Peiling van het Onderwijsniveau) blijkt dat deze taalmethoden in het
onderwijs het meest gebruikt worden.4
De gedetailleerde resultaten van het methodeonderzoek zijn te vinden in bijlage 1. Om de daar afgebeelde
tabel te kunnen interpreteren, volgt hier een korte beschrijving van het onderzoek en de gehanteerde
werkwijze.
Als uitgangspunt voor het methodeonderzoek dienden de in totaal 40 spellingcategorieën die in de
handleiding en de hulpboeken bij de toetsen Schaal Vorderingen in Spellingvaardigheid (SVS, de voorloper
van de toetsen Spelling van het Cito Volgsysteem) staan. Van elke daar genoemde categorie werd bekeken
of de betreffende spellingkwestie expliciet aan de orde kwam in de spellingleergang en zo ja, op welk
moment. Om het moment van behandeling te bepalen, hebben we in eerste instantie gezocht naar
aanwijzingen in de handleiding bij de leergang. Als daar bijvoorbeeld stond dat de lessen 1 tot en met 5
bedoeld waren voor het eerste semester en de lessen 6 tot en met 9 voor het tweede semester, dan
hebben we spellingkwesties die in de eerste vijf lessen aan de orde kwamen de aanduiding 'm'
meegegeven en spellingkwesties die in de laatste vier lessen aan de orde kwamen de aanduiding 'e'. De
'm' staat dan voor: is behandeld en zou getoetst kunnen worden op het mediomoment; de 'e' staat voor: is
behandeld en zou getoetst kunnen worden op het eindmoment. Door de 'm' en 'e' te koppelen aan het
leerjaar, konden we per categorie per leergang aangeven wanneer de betreffende spellingkwestie aan de
orde werd gesteld, bijvoorbeeld '4m' betekende dat de spellingkwestie in groep 4 aan de orde kwam, in de
eerste helft van het schooljaar.
Als in de handleiding bij de leergang geen duidelijke planning werd gegeven voor het verdelen van de
lessen over het schooljaar, dan hebben we het totale aantal lessen voor een bepaald jaar in twee gelijke
delen gesplitst en de spellingkwesties in het eerste deel de aanduiding 'm' en in het tweede deel de
aanduiding 'e' gegeven. Bij een oneven aantal lessen kreeg de middelste les de aanduiding 'e'.
Categorieën die in een leergang op verschillende tijdstippen aan bod komen, werden voorzien van alle
relevante aanduidingen (bijvoorbeeld '4m,5me' betekent dat een categorie voor het eerst behandeld wordt
in groep 4, in de eerste helft van het schooljaar, en dat de categorie opnieuw behandeld wordt in groep 5,
zowel in de eerste als in de tweede helft van het schooljaar). Een grijs gearceerd vakje in de tabel geeft aan
dat betreffende spellingcategorie in de methode niet expliciet aan de orde kwam. Omgekeerd kwam het ook
voor dat taalmethoden categorieën aanboden die niet in het SVS-overzicht stonden. Een voorbeeld
daarvan is de categorie die in bijlage 1 wordt aangeduid met 'xx' (tussen categorie 7 en categorie 8): éénof tweelettergrepige woorden met f-, v-, s- of z-.
Nadat alle SVS-spellingcategorieën voorzien waren van een aanduiding van het leerjaar en het moment
van behandelen (zie bijlage 1), hebben we gekeken of er categorieën bijgesteld moesten worden qua
omschrijving en/of moment van toetsafname.
De categorieënindeling van de oude SVS-toetsen bleek niet meer goed aan te sluiten bij de moderne
taalmethoden. Voor de nieuwe toetsen Spelling is daarom een nieuw categorieënoverzicht gemaakt, het
'Overzicht spellingcategorieën in de toetsen Spelling', dat is opgenomen in elk toetspakket Spelling.
Dit nieuwe categorieënoverzicht verschilt in twee opzichten van het oude SVS-overzicht:
1. Het nieuwe overzicht bevat in totaal 48 spellingcategorieën in plaats van de 40 categorieën van de
SVS, omdat in de methoden meer dan 40 verschillende categorieën aan bod bleken te komen.
De meeste nieuwe categorieën komen voor in de hogere leerjaren. Belangrijke categorieën die
voorheen ontbraken zijn bijvoorbeeld die van de Franse leenwoorden (categorie 38) en die van de
Engelse leenwoorden (categorie 39). Beide worden zowel in groep 7 als in groep 8 getoetst. In totaal
zijn er acht spellingcategorieën toegevoegd. Deze categorieën zijn 'tussengeschoven' in het overzicht
op een plaats die recht doet aan het moment waarop de categorie getoetst wordt. Een consequentie
van het invoegen van nieuwe categorieën is dat de categorienummers van daaropvolgende
categorieën veranderen (volgnummers schuiven op).
4
De rapportage van dit onderzoek is in 2007 verschenen in de vorm van twee balansen, Balans van het leesonderwijs aan het
einde van de basisschool en Balans van het leesonderwijs halverwege de basisschool.
23
2.
Een tweede wijziging betreft niet de categorieën zelf, maar het moment waarop deze in het onderwijs
(en dus ook in de toetsen) aan bod komen. Het afnamemoment in de SVS-toetsen sloot niet altijd meer
aan bij het aanbiedingsmoment in de methoden. Bijvoorbeeld categorie 22 (verandering van -f in -v- en
-s in -z- bij vervoeging en meervoudsvorming) kwam in de SVS-toetsen voor vanaf afnamemoment M4,
maar uit het onderzoek bleek dat vier methoden deze spellingkwestie pas voor het eerst in de loop van
groep 5 behandelen. In de nieuwe toetsen Spelling is dan ook besloten deze categorie pas vanaf
afnamemoment E5 te toetsen. Bij andere categorieën was een tegengestelde beweging waar te
nemen. Bijvoorbeeld categorie 16+ (meerlettergrepige woorden met au, auw, ou of ouw) kwam in de
SVS-toetsen voor vanaf afnamemoment M6, maar vijf methoden behandelen deze kwestie al in groep
5. Omdat we graag zo goed mogelijk willen aansluiten bij wat in het onderwijs gebruikelijk is, wordt
categorie 16+ in de nieuwe toetsen Spelling al vanaf afnamemoment E5 getoetst.
Ook het verschuiven van het afnamemoment van spellingcategorieën heeft consequenties voor de
nummering in het categorieënoverzicht. Immers de categorieën in het overzicht zijn in principe
gerangschikt naar het moment van toetsing.
Het uitgangspunt bij de keuze voor het wel of niet opnemen van een spellingcategorie in de nieuwe toetsen
Spelling was dat de betreffende categorie op het beoogde moment van afname in ten minste vier van de
zeven (eigenlijk zes) taalmethoden expliciet aan de orde moest zijn geweest. De consequentie van dit
uitgangspunt is dat er soms categorieën in de toetsen zijn opgenomen die op het moment van toetsafname
nog niet in alle methoden aan bod gekomen zijn. Toch hebben wij er bewust voor gekozen niet te wachten
met het opnemen van een categorie tot deze in alle (zes van de zes) onderzochte methoden behandeld is.
Een ongewenst gevolg van wachten zou zijn dat er in de toetsen voor groep 4 en groep 5 bijna geen
nieuwe categorieën aan bod zouden komen (in die twee leerjaren zijn de verschillen tussen de methoden
het grootst), terwijl in groep 6 ineens een grote hoeveelheid nieuwe spellingproblemen een plaats zou
moeten krijgen in de toetsen. Daarnaast zou het voor een deel van de leerlingen dan erg lang duren voor
een bij hen vroeg behandelde categorie getoetst werd. In groep 6 zijn de verschillen tussen de
taalmethoden goeddeels bijgetrokken en voor groep 7 en 8 speelt dit probleem dus niet meer.
Voor de aansluiting van de toetsen Spelling bij het gegeven onderwijs zou het natuurlijk ideaal zijn als alle
taalmethoden eenzelfde aanbiedingsvolgorde van spellingcategorieën zouden hanteren. Dat is echter niet
het geval.
Spellingcategorieën in de toetsen Spelling van het Cito Volgsysteem primair onderwijs
Per toets (per afnamemoment) komt slechts een deel van de in totaal 48 spellingcategorieën aan de orde.
In de onderstaande tabel is opgenomen welke categorieën deel uitmaken van welke toets Spelling en
hoeveel opgaven het betreft. Deze verantwoording betreft de toetsen voor groep 7 en 8. In deze groepen
komen 17 categorieën aan de orde. Voor de volledigheid zijn in de tabel hieronder alle categorieën van
groep 3 tot en met groep 8 opgenomen. Het gaat dan om 48 spellingcategorieën.
Omwille van de hanteerbaarheid van de tabel is per afnamemoment telkens het totaal aantal opgaven per
categorie gegeven. Dat komt niet overeen met het aantal opgaven dat daadwerkelijk door een individuele
leerling wordt gemaakt. Immers elke leerling maakt eerst module Start en daarna ofwel module Vervolg 1
ofwel module Vervolg 2; nooit allebei de vervolgmodules. Leerlingen maken dus ongeveer tweederde deel
van de hieronder genoemde aantallen opgaven. In de Inhoudsverantwoording in elk toetspakket Spelling
staan de precieze aantallen opgaven vermeld per afnamemoment per categorie per combinatie van
startmodule en vervolgmodule. Onderstaande tabel biedt een samenvatting van de overzichten in de
verschillende Inhoudsverantwoordingen.
Er wordt op twee manieren samengevat: enerzijds worden de aantallen opgaven in de modules Start,
Vervolg 1 en Vervolg 2 bij elkaar opgeteld tot de totalen in de kolommen onder elk afnamemoment;
anderzijds worden de spellingcategorieën alleen weergegeven met hun nummer, niet aangevuld met
eventuele 'plussen'. In het uitgebreide overzicht van spellingcategorieën dat als bijlage in elk toetspakket
Spelling is opgenomen, worden categorieën die in meerdere (clusters van) leerjaren aan de orde komen, in
de latere leerjaren voorzien van een + (of zelfs een ++) om de toenemende moeilijkheid en woordlengte
aan te geven. Het spellingprobleem waar het om gaat verandert daarmee echter niet wezenlijk
(bijvoorbeeld categorie 11: woorden met ei of ij). In de tabel hieronder zijn de plussen weggelaten.
24
Figuur 3.2
Cat.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
Spellingcategorieën in de toetsen Spelling groep 3 tot en met groep 8 van het Cito
Volgsysteem primair onderwijs.
Omschrijving
mkm-woorden
mmkm- en mkmm-woorden
mmkmm-woorden
tussenklank die niet geschreven wordt
meer dan twee medeklinkers na elkaar
woorden met sch of schr
woorden met ng of nk
woorden met (-)f-, (-)v-, (-)s- of (-)zverkleinwoorden met -je, -(e)tje, -pje
woorden met ge-, be-, ver-, -el, -er, -en
woorden met ei of ij
woorden met aai, ooi of oei
samengestelde woorden
woorden met eer, oor of eur
woorden met -a, -o of -u
woorden met au(w) of ou(w)
woorden met ch of cht
woorden met -d(-)
woorden met eeuw, ieuw of uw
woorden met open lettergreep
woorden met gesloten lettergreep
verandering van -f(-) in -v- en -s(-) in -zwoorden met -em, -elen, -enen, -eren
woorden met -lijk of -ig
/ie/ wordt geschreven als i
/s/ wordt geschreven als c
/k/ wordt geschreven als c
/zju/ wordt geschreven als ge
woorden met 's
woorden met -tie
woorden met -teit of -heid
woorden met (-)y(-)
woorden met -b
tussenletters -n- en -s- in samenstellingen
koppelteken in samenstellingen
woorden met een trema
woorden met een hoofdletter
Franse leenwoorden
Engelse leenwoorden
woorden waarin /t/ geschreven wordt als th
woorden met -sch(e)
woorden met -iaal, -ieel, -ueel of -eaal
meervoud van woorden op onbeklemtoonde -es, -ik of -et
woorden waarin /ks/ geschreven wordt als x
stoffelijke bijvoeglijke naamwoorden
verkleinwoorden met -aatje, -ootje, -uutje en met de
uitgang -nkje
woorden met open en/of gesloten lettergreep
restwoorden
25
M3 E3 M4
26 7
49 9 4
14 3
12 7
10 4
10 5
13 5
5
4
6
6
6
7
7
6
E4 M5 E5 M6 E6 M7 E7 M8
6
6
6
3
6
6
6
6
7
6
5
6
6
4
5
4
5
5
4
5
5
4
6
5
5
6
5
7
6
5
5
9
5
6
9
5
7
6
6
5
6
6
5
5
5
7
4
5
6
7
6
10 6
6
5
7
6
6
7
6
6
8
9
5
5
7
6
8
7
6
7
7
6
6
6
6
6
6
5
6
5
6
4
4
6
6
4
5
5
9
4
5
6
4
5
5
5
5
7
6
6
4
5
6
5
5
6
3
6
2
5
6
5
5
5
6
6
5
5
De totale aantallen opgaven per toets Spelling zijn gemakkelijk uit bovenstaande tabel af te leiden door de
aantallen opgaven per kolom bij elkaar op te tellen. De toetsen in groep 3, 4 en 5 bevatten 75 opgaven
verdeeld over drie modules (elke leerling maakt 50 opgaven); de toetsen vanaf groep 6 bevatten 90
opgaven verdeeld over drie modules (elke leerling maakt 60 opgaven). De reden dat vanaf groep 6 de
modules langer worden, is gelegen in het toenemend aantal spellingcategorieën dat aan bod moet komen.
Leerlingen in de bovenbouw van het basisonderwijs lezen en schrijven over het algemeen sneller dan
leerlingen in de lagere groepen, zodat in de praktijk de afnametijd per module niet of nauwelijks toeneemt
door de vijf extra opgaven vanaf groep 6.
Selectie van opgaven voor de toetsen Spelling
Alle opgaven die in de toetsen Spelling zijn opgenomen werden speciaal voor deze toetsen geconstrueerd
door twee verschillende constructiegroepen, voornamelijk bestaande uit leerkrachten uit het basisonderwijs.
De eerste groep was werkzaam in 2004 en 2005 en heeft opgaven gemaakt voor de groepen 3, 4 en 5.
De tweede groep was werkzaam in 2006 en 2007 en heeft opgaven gemaakt voor de groepen 6, 7 en 8.
De opgaven zijn eerst in een proefafname voorgelegd aan leerlingen in de jaargroepen waarvoor ze
bedoeld waren (waarbij elke opgave door minimaal 200 leerlingen gemaakt is). Het doel van dergelijke
proefafnames is het verkrijgen van informatie over de moeilijkheid van elke opgave. Tevens kunnen
eventuele slecht functionerende opgaven (bijvoorbeeld opgaven die vaker door goede spellers dan door
minder goede spellers fout gemaakt worden) geïdentificeerd en verwijderd worden. Daarnaast hebben wij
de proefafname aangegrepen als een mogelijkheid om aan de deelnemende leerkrachten te vragen of zij
inhoudelijke of andersoortige bezwaren hadden tegen bepaalde opgaven of toetswoorden. Sommige
leerkrachten gaven aan dat zij sommige opgaven nogal moeilijk vonden. Uit de proefafnameresultaten
kwamen de betreffende opgaven echter niet als (te) moeilijk naar voren.
Alle opgaven met een acceptabele moeilijkheid (in klassieke termen een p-waarde tussen .40 en .90) die
door de betere spellers significant vaker goed werden gemaakt dan door de minder goede spellers (rir
vanaf .20) kwamen in principe in aanmerking voor opname in de definitieve toetsen Spelling. Voor sommige
spellingcategorieën bleken er na afloop van de proefafname te weinig psychometrisch acceptabele
opgaven over te blijven. Voor die categorieën werden na de proefafname nog nieuwe opgaven
geconstrueerd.
De opgaven die uit de proefafname waren overgebleven plus de in voorkomende gevallen extra
geconstrueerde opgaven werden vervolgens ingedeeld voor opname in de aanvullende kalibratieonderzoeken. In tegenstelling tot de proefafnames, waar opgaven willekeurig over toetsboekjes werden
verdeeld, zijn in de aanvullende kalibratieonderzoeken met zorg modules samengesteld volgens het model
van een Startmodule van een gemiddelde moeilijkheid, een module Vervolg 1 die gemakkelijker was dan de
Startmodule en een module Vervolg 2 die moeilijker was dan de Startmodule. Elke module bevatte opgaven
uit alle te toetsen spellingcategorieën, in een evenwichtige verdeling (bijvoorbeeld niet alle opgaven over
ei/ij direct na elkaar). De modules in het aanvullend kalibratieonderzoek leken dus al zoveel mogelijk op de
definitief samen te stellen modules. Wel bevatte elke module vijf opgaven méér dan de definitieve modules,
met het oog op eventuele uitval van items wegens slecht functioneren. De kans daarop was overigens niet
zo groot, omdat slecht functionerende items al verwijderd waren na de proefafname. De nieuw
geconstrueerde items waren echter niet gepretest, zodat de kans op uitval daar wel reëel was.
Van alle opgaven in het aanvullend kalibratieonderzoek is om te beginnen opnieuw de p-waarde en de rir
bepaald. Vervolgens zijn uit elke module vijf opgaven verwijderd om te komen tot het gewenste aantal
opgaven in de definitieve toets. Sommige opgaven die afvielen, vertoonden in het aanvullend kalibratieonderzoek een te hoge of te lage p-waarde of een te lage rir. Soms ook vielen opgaven af die
psychometrisch gezien goed functioneerden, maar die tot een spellingcategorie behoorden die al
voldoende vertegenwoordigd was in de module. Daarentegen werden soms opgaven gehandhaafd die
eigenlijk wat te moeilijk of te makkelijk waren, maar waarvoor in de betreffende spellingcategorie geen beter
functionerende alternatieven voorhanden waren. Bij elke individuele opgave vond dus een afweging plaats
op zowel psychometrische als inhoudelijke gronden.
26
Bij het samenstellen van de definitieve toetsen was immers niet alleen de psychometrische kwaliteit van de
opgaven van belang. De toetsen moesten daarnaast inhoudelijk zo dicht mogelijk aansluiten bij de leerstof
die op de scholen werd aangeboden. Dat wilden wij bereiken aan de hand van de volgende criteria:
1. Als in de spellingmethoden in een bepaald leerjaar bepaalde spellingcategorieën werden behandeld,
dan wilden wij die categorieën op het eerstvolgende afnamemoment in de toets terug laten komen.
2. Het aantal categorieën dat op enig afnamemoment in een toets Spelling aan de orde kwam, mocht niet
zodanig hoog zijn dat de leerling minder dan drie opgaven per categorie kreeg voorgelegd.
3. De verdeling van opgaven over categorieën moest binnen de twee mogelijke combinaties van modules
(Start + Vervolg 1 of Start + Vervolg 2) zo gelijkmatig mogelijk zijn.
In de praktijk bleek het niet altijd mogelijk ons aan deze criteria te houden.
Een belangrijke oorzaak daarvan is al eerder in dit hoofdstuk aan de orde geweest: de onderzochte
spellingmethoden hanteren elk hun eigen volgorde van aanbieden van spellingcategorieën. Over het geheel
genomen lopen de spellingmethoden redelijk gelijk op, maar op detailniveau (het niveau van losse
categorieën) zijn er opmerkelijke verschillen. In bijlage 1 zijn deze verschillen in een oogopslag zichtbaar.
Soms wordt een bepaalde categorie in de ene methode een vol jaar eerder aangeboden dan in de andere
methode (zie bijvoorbeeld categorie 18 in de tabel in bijlage 1). Het hierboven eerstgenoemde criterium
voor de toetssamenstelling is bij dergelijke grote verschillen tussen de methoden niet haalbaar. Immers het
ideale afnamemoment voor opgaven in een bepaalde categorie (kort volgend op de aanbieding van de
categorie in de les) ligt voor de ene school een jaar eerder dan voor een andere school, afhankelijk van
welke taalmethode gebruikt wordt.
Wij hebben ervoor gekozen een categorie pas in de toetsen op te nemen als ten minste vier van de zes
onderzochte methoden de categorie expliciet behandeld hadden.
Het tweede criterium (leerlingen krijgen in hun toets minimaal drie opgaven per categorie voorgelegd) is
alleen haalbaar als in een toets van 60 opgaven maximaal 20 categorieën voorkomen. Deze maxima zijn
nergens overschreden. Om dat te bereiken hebben we soms op een bepaald afnamemoment een of twee
categorieën moeten schrappen die – gezien het aanbod in de methoden – op dat afnamemoment wel
degelijk in de toets hadden mogen voorkomen. Deze werkwijze is zichtbaar in de 'gaatjes' in figuur 3.2
('Spellingcategorieën in de toetsen Spelling groep 3 tot en met groep 8 van het Cito Volgsysteem primair
onderwijs') eerder in deze paragraaf. De reden voor het ontbreken van categorie 30 in de toets Spelling M7
is niet dat deze categorie op het betreffende afnamemoment in het onderwijs niet zou worden aangeboden,
maar dat we moesten kiezen tussen verschillende relevante categorieën om ervoor te zorgen dat elke
leerling minstens drie opgaven per categorie zou kunnen maken. Aan dit criterium is in groep 7 en 8 voor
bijna alle categorieën voldaan. Een uitzondering is categorie 48, de categorie restwoorden, in groep 7 en 8.
Deze categorie is dan ook een categorie apart. De woorden die in categorie 48 terechtkomen, verschillen te
veel van elkaar om echt onder één noemer te vallen. Toch willen we deze woorden wel toetsen, omdat het
woorden zijn die regelmatig voorkomen in de Nederlandse taal en omdat ze wel duidelijk een
spellingmoeilijkheid hebben. De spellingmoeilijkheid is alleen niet dezelfde voor alle woorden in de
categorie. Fouten die in deze categorie gemaakt worden, worden dan ook benoemd als ‘andere fout’ en niet
als ‘categoriefout’. Omdat deze woorden niet duidelijk onder te brengen zijn in één bepaalde categorie, zijn
er niet zo veel van opgenomen in de toetsen. Er is wel voor gezorgd dat in elke module tenminste één
restwoord zat.
Het derde criterium, een zo gelijkmatig mogelijke verdeling van het aantal opgaven per categorie, is overal
waar mogelijk gehanteerd. Echter op grond van de resultaten uit het aanvullend kalibratieonderzoek
moesten er opgaven vervallen om de definitieve modules samen te stellen, en de opgaven die het
psychometrisch gezien niet goed deden, kwamen soms uit spellingcategorieën die toch al niet zo ruim
bedeeld waren. Er is telkens opnieuw een afweging gemaakt: ofwel de opgave handhaven ondanks de
tegenvallende p-waarde en/of rir, ofwel de opgave laten vallen met het gevolg dat de betreffende
spellingcategorie minder opgaven bevat dan wenselijk is (en een andere spellingcategorie dus meer
opgaven dan nodig is). Figuur 3.2 maakt dit dilemma aanschouwelijk: op afnamemoment M8 bijvoorbeeld
bevatten de drie modules samen negen opgaven van categorie 29 en slechts vier opgaven van de
categorieën 30 en 34. Graag hadden we enkele opgaven van categorie 29 willen 'omruilen' voor goed
functionerende opgaven van de andere categorieën. Die waren echter niet voorhanden.
27
De uiteindelijke verdeling van aantallen opgaven per categorie per afnamemoment is een zo goed mogelijk
compromis tussen eisen van psychometrische en inhoudelijke kwaliteit en overwegingen van meer
praktische aard (afnameduur, aantal opgaven per module, aantal categorieën per toets).
28
4
Kalibratieonderzoeken en normering
Voor de ontwikkeling van de toetsen Spelling zijn in 2006 en 2007 voor groep 7 en 8 opgaven
geconstrueerd voor de afnamemomenten medio groep 7 (M7), eind groep 7 (E7), en begin en medio groep
8 (B8/M8). Deze opgaven zijn in de jaren 2008 en 2009 in een eerste kalibratieonderzoek voorgelegd aan
groepen leerlingen van een groot aantal scholen. Op deze manier konden we gegevens verzamelen over
de kwaliteit en de moeilijkheid van een grote verzameling opgaven. Hierover gaat paragraaf 4.1.1.
Op de eerste kalibratieonderzoeken volgden aanvullende kalibratieonderzoeken. Hierbij werden de
definitieve toetsen voorgelegd aan leerlingen uit de doelgroep op de normeringsmomenten B (begin
leerjaar; dit geldt alleen voor groep 8), M (midden leerjaar) of E (einde leerjaar). Voor moment M7 vond dit
onderzoek plaats in januari 2009, voor moment E7 in juni 2009, voor moment B8 in november 2009 en voor
moment M8 in januari 2010. Voor de aanvullende kalibratieonderzoeken toetsten we dezelfde leerlingen op
tenminste twee tijdstippen. Zo was het mogelijk om in een landelijke groep referentiegegevens te
verzamelen voor de verschillende toetsen en dus afnamemomenten. In paragraaf 4.1.2 gaan we hier verder
op in.
De resultaten van de kalibratieonderzoeken komen vervolgens aan bod in paragraaf 4.2.
De definitieve normtabellen voor groep 7 en 8 zijn in 2011 vastgesteld door middel van een onderzoek op
basis van de gegevens uit data-retour. Aangezien we voor dit onderzoek gebruik konden maken van een
zeer grote hoeveelheid gegevens, kregen we een duidelijk en representatief beeld van de verdeling van de
resultaten. Dit onderzoek komt aan de orde in paragraaf 4.3.
4.1
Opzet en verloop van de kalibratieonderzoeken
4.1.1
Kalibratieonderzoek
We merkten al eerder op dat in het kalibratieonderzoek, dat aan de opgavenbanken ten grondslag ligt, is
uitgegaan van een onvolledig design: niet alle leerlingen in de steekproef van het kalibratieonderzoek
maakten alle opgaven.
Opgaven werden verdeeld over clusters, en aan elke leerling werden een of meer clusters van items
voorgelegd. Clusters die gezamenlijk aan een groep leerlingen worden voorgelegd, worden 'boekjes'
(booklets) genoemd. De verschillende boekjes overlappen elkaar. Deze overlap zorgt voor ervoor dat het
design verbonden is, een noodzakelijke voorwaarde om CML-schattingen (zie paragraaf 2.4.2) van de
itemparameters te kunnen bepalen. Een voorbeeld van zo’n design staat in de verantwoording van de
Toetsen Begrijpend lezen (afgekort: TBL; Staphorsius, Krom, Kleintjes en Verhelst, 2001).
In 2008 zijn 400 items in het kalibratieonderzoek afgenomen bij 931 leerlingen in groep 7. In 2009 zijn in
groep 8, 179 opgaven voorgelegd aan 549 leerlingen. De resultaten van deze onderzoeken zijn gebruikt
voor de selectie van geschikte items voor de aanvullende kalibratieonderzoeken in 2009 (M7, E7 en B8) en
in 2010 (M8).
Kalibratieonderzoek digitale items
Om voor de digitale items en dus ook de digitale toetsen de 'papieren' normering te kunnen gebruiken is in
een apart kalibratieonderzoek onderzocht of de digitale items ook op de schaal Spelling passen.
Een voorbeeld van het gebruikte design voor de kalibratie van de digitale toets M7 staat in tabel 4.1. Voor
de andere toetsen is eenzelfde onderzoeksopzet gebruikt. Merk op dat de data die verzameld worden in het
papier-digitaalonderzoek toegevoegd worden aan de dataset die dient voor de schaling van de items in de
itembank. Het aantal itemantwoorden per item voor de papieren items is dan ook veel hoger dan in het
29
design van tabel 4.1, omdat voor deze items zowel in het kalibratieonderzoek als later in het aanvullende
kalibratieonderzoek gegevens verzameld zijn.
Tabel 4.1
Booklet
Afnamedesign kalibratieonderzoek papier-digitaal
M7 Start
M7 Start
M7 Vervolg 1
M7 Vervolg 2
M7 Vervolg 1
M7 Vervolg 2
Aantal
Papier
Digitaal
Papier
Papier
Digitaal
Digitaal
leerlingen
1
X
2
X
X
X
3
X
4
X
Tabel 4.2
X
300
150
X
150
Aantal leerlingen in het kalibratieonderzoek papier-digitaal
Toetsversie
M7
E7
B8/M8
Aantal leerlingen
1056
1060
912
4.1.2
300
Aanvullend kalibratieonderzoek
In een aanvullende kalibratieronde zijn de definitief samengestelde toetsen beproefd in een authentieke
setting. Dat wil zeggen dat de toetsen zijn afgenomen in een omgeving die overeenkomt met die van de
daadwerkelijke toetssituatie. Voor alle toetsen is in het aanvullende kalibratieonderzoek eenzelfde
onderzoeksopzet gebruikt. In tabel 4.3 is een voorbeeld van het gebruikte design weergegeven, in dit geval
van de toets voor het afnamemoment M7. Bij de toetsen Spelling maken leerlingen altijd eerst het
toetsonderdeel Start en vervolgens toetsonderdeel Vervolg 1 (V1) of Vervolg 2 (V2), afhankelijk van de
score op het onderdeel Start (zie ook paragraaf 3.1). Ook is er steeds een toetsonderdeel opgenomen van
een voorafgaand afnamemoment, M6-V2 in dit geval, om een extra verankering tussen de opeenvolgende
toetsen te verkrijgen. In het design staat het beoogde aantal leerlingen. Tabel 4.4 geeft het aantal leerlingen
weer dat werkelijk deelnam aan de aanvullende kalibratieonderzoeken.
Tabel 4.3
Voorbeelddesign aanvullend onderzoek M7
Toetsonderdeel
Boekje 1
Boekje 2
X
M6-V2
anker
M7-start
nieuw
X
M7-V1
nieuw
X
M7-V2
nieuw
Tabel 4.4
Boekje 3
Boekje 4
Beoogd aantal
leerlingen
X
X
200
200
X
200
X
X
Aantal leerlingen in het aanvullend kalibratieonderzoek
Afnamemoment
Aantal leerlingen
M7
520
E7
1938
B8
3819
M8
587
30
200
De gegevens uit de aanvullende kalibratieonderzoeken zijn samen met die van de kalibratieonderzoeken
gebruikt om voorlopige vaardigheidsverdelingen op de verschillende normeringsmomenten te bepalen.
De definitieve normeringen zijn gebaseerd op de beschikbare data uit de dataretour via het
Computerprogramma LOVS en worden beschreven en verantwoord in paragraaf 4.4.
4.2
Resultaten van de kalibratieonderzoeken
4.2.1
Gekalibreerde opgavenbank
Zoals al eerder gemeld, is in het kalibratieonderzoek dat aan de opgavenbanken ten grondslag ligt,
uitgegaan van een onvolledig design. Ook voor de aanvullende kalibratieonderzoeken gebruikten we een
onvolledig design dat verbonden is met het eerste kalibratieonderzoek. Uiteindelijk zijn alle gegevens
samen geanalyseerd. De opgaven vormen na de kalibratie een gekalibreerde opgavenbank. Bij de analyse
van de antwoorden van de leerlingen op de opgaven is nagegaan of de verschillende opgaven en opgaventypen een beroep doen op hetzelfde complex aan vaardigheden. Dit bleek het geval te zijn. Items die niet
voldeden aan de passingscriteria die we hierna beschrijven werden uit de verzameling verwijderd.
In het kalibratieonderzoek was voorzien in een koppeling met de opgaven in de itembank Spelling, en dus
ook met de reeds bestaande spellingvaardigheidsschaal (zie verantwoording toetsen Schaal Vorderingen in
Spellingvaardigheid: Moelands en Kamphuis, 2001). De opgaven en dus ook de toetsen Spelling liggen op
de al bestaande, nu uitgebreide schaal.
4.2.2
Stappen in de kalibratie
Hieronder gaan we nog wat nauwkeuriger in op de stappen die in het kader van de kalibratie zijn genomen.
Met kalibratie wordt bedoeld dat we kengetallen zoeken bij de items die de antwoorden van de leerlingen
goed representeren. Hoe de kengetallen gezocht worden, ligt deels vast door het gekozen model (zie
paragraaf 2.4.2) en hoe succesvol deze operatie is, kan statistisch getoetst worden. Eenvoudig gezegd; we
schatten in OPLM met de CML-methode de itemparameters en we controleren of deze de data goed
voorspellen. Voor een exacte beschrijving van de statistische toetsen die in OPLM gebruikt worden, hun
eigenschappen en feitelijke implementatie in OPLM verwijzen we naar Verhelst (1993). Hier beperken we
ons tot een korte beschrijving van de principes van de statistische toetsen die gebruikt zijn in de
kalibratieprocedure. De statistische toetsen in OPLM hebben goede statistische en asymptotische
eigenschappen daar OPLM behoort tot de exponentiële familie, met de gewogen somscore,
k
s   ai xi
i 1
(4.1)
,
als een ‘afdoende statistiek’ voor de vaardigheid  . Dit betekent dat alle informatie in de data met
betrekking tot de vaardigheid in deze statistiek aanwezig is. Hiervan wordt gebruikgemaakt bij de
statistische toetsen in OPLM. Het basisprincipe van de statistische toetsen in OPLM is dat op grond van de
afdoende statistiek s de personen in de data kunnen worden gegroepeerd.
En binnen deze groepen kan de verwachte proportie goede antwoorden op een item onder het model,
p( | s) , vergeleken worden met de feitelijk geobserveerde proportie goede antwoorden, prop ( | s) . In het
polytome geval worden de items gedichotomiseerd, de proportie goede antwoorden verwijst dan naar de
hoge itemscore (zie Verhelst, 1993, hoofdstuk 7). Via de basisvergelijking van OPLM kunnen we eenvoudig
de conditionele kans op het goed beantwoorden van de items afleiden en daarmee kunnen we p( | s)
evalueren, prop (  | s ) volgt uit de data. Discrepanties tussen p( | s) en prop (  | s ) duiden op
31
schendingen van het model. Deze discrepanties vormen de basis voor de diverse statistische toetsen in
OPLM. De toetsingsgrootheid voor de veronderstelde discriminatie-indices is gegeven door
M  f sH ( p ( | s )  prop ( | s ))  f sL ( prop ( | s )  p ( | s )).
(4.2)
Deze zogenaamde M-toetsen verdelen de scoregroepen in een laag deel ( L ) en een hoog deel ( H ) en
f is een monotone functie. M-toetsen hebben een duidelijke interpretatie: is M significant positief dan is de
veronderstelde steilheid van de ICC (item karakteristieke curve) overschat in het model, is M daarentegen
erg laag dan is de index te klein. Verhelst laat zien voor welke functie, f , M  N (0,1) . In OPLM zijn drie
verschillende M-toetsen geïmplementeerd die verschillen in de definitie van de hoge en lage scoregroepen.
Naast deze M-toetsen is er een algemene itemtoets die de volgende vorm heeft:
S  f ( p ( | s )  prop ( | s )) .
Deze zogenaamde S-toets heeft een  verdeling onder het model. Analoog hieraan is er ook een toets
om vormen van vraagonzuiverheid (in het Engels ‘item bias’ of ‘differential item functioning’, afgekort DIF)
op te sporen:
2
S  h( p I ( | s)  propI ( | s), ( p II ( | s)  propII ( | s)) ,
waarbij I en II de twee niveaus van de variabele indiceren waarvoor we de bias onderzoeken.
Als globale modeltoets is de R1c-toets geschikt. Ook de distributie van alle afzonderlijke S-toetsen komt
hiervoor in aanmerking. Als we deze S-toetsen opvatten als onafhankelijk, wat ze strikt genomen niet zijn,
dan zouden de overschrijdingskansen uniform verdeeld moeten zijn op het (0,1) interval.
Kortom, als we afzien van de formeel-statistische achtergrond van de gehanteerde toetsen, kan de
kalibratieprocedure als volgt worden samengevat:
1
2
3
4
5
6
Met behulp van het programma OPCAT stellen we de discriminatie-indices in OPLM in en hercoderen
we indien noodzakelijk de antwoordcategorieën in de data.
Vervolgens schatten we de itemparameters met behulp van de CML-methode.
Met behulp van de M-toetsen controleren we of de discriminatie-indices goed zijn ingesteld.
Een volgende controle betreft de overschrijdingskansen van de S-toetsen en een grafische
modelcontrole door middel van het programma OPDRAW (grafische inspectie van de ICC’s).
Vervolgens vindt een globale modelcontrole plaats in de vorm van een R1c-toets en de verdeling van
de overschrijdingskansen van de S-toetsen.
Daarna toetsen we nadrukkelijk op vormen van item bias, in dit geval naar afnamemoment.
De stappen 1 tot en met 6 worden een aantal malen doorlopen tot het resultaat bevredigend is. Afhankelijk
van de uitkomsten kunnen items worden verwijderd. Ook inhoudelijke overwegingen (zie hiervoor
hoofdstuk 3 over de achtergronden van de toetsinhoud) spelen een rol in dit beslissingsproces. In het
kalibratieonderzoek was voorzien in een koppeling met de opgaven in de itembank Spelling en dus ook met
de reeds bestaande schaal Spelling voor het reguliere onderwijs (zie wetenschappelijke verantwoording
Spelling groep 3 tot en met 6; De Wijs, Kamphuis, Kleintjes & Tomesen, 2010).
32
4.2.3
Toetsing van het IRT-model
In de kalibratieonderzoeken voor de opgavenbanken Spelling is steeds getoetst of de opgaven pasten bij
het model. In deze paragraaf geven we de achtergronden van de toetsing van de opgaven.
Figuur 4.1
Grafische voorstelling van een Si -toets
De passing van het model illustreren we met figuur 4.1 (zie Staphorsius, 1994, blz. 239). Daarin beelden we
voor een opgave de gegevens af waarop de zogenaamde Si -toetsen gebaseerd zijn. Ten behoeve van
deze toetsing wordt de totale groep van leerlingen die een verzameling opgaven gemaakt heeft, ingedeeld
in een aantal (meestal acht) zogenaamde scoregroepen. Elke groep bestaat uit leerlingen met een
ongeveer even hoge score. De geobserveerde proporties juiste antwoorden van deze groepen (telkens
gesymboliseerd door een x) zijn door de middelste stippellijn verbonden. De volle lijn verbindt de proporties
die we op grond van de parameterschattingen kunnen voorspellen. De twee buitenste lijnen geven het
95%-betrouwbaarheidsinterval aan. De breedte van dit interval is in belangrijke mate afhankelijk van het
aantal leerlingen dat de opgave heeft beantwoord. In het voorbeeld van figuur 4.1 bedraagt dit aantal meer
dan 3000. Uit de figuur blijkt duidelijk dat de geobserveerde proporties, zoals bedoeld, binnen het 95%betrouwbaarheidsinterval van de (geschatte) voorspelde proporties liggen. Dit komt in grote lijnen overeen
met een niet-significante Si -toetsingsgrootheid.
Bij de opgaven in onze opgavenbanken hoort een grafische voorstelling van de Si -toetsing die in grote
lijnen met figuur 4.1 overeenkomt. Daarnaast waren er relatief grote aantallen observaties. Samen vormt dit
een zeer sterke aanduiding dat het meetinstrument en het meetmodel dat we hebben ontwikkeld en
gebruikt, adequaat zijn om het gedrag van de leerlingen te verklaren. Bovendien blijkt, en dat is vanuit
theoretisch oogpunt nog belangrijker, dat gemeten verschillen in gedrag tussen de leerlingen te verklaren
zijn door één unidimensionaal concept.
33
Figuur 4.2
Voorbeelden van S-toetsen voor de toetsen Spelling papier M7, E7 en B8/M8 met per toets
van links naar rechts de best passende, de slechtst passende en een qua passing
representatieve opgave
Rel. item #: 36 Abs. item #: 2600 Label: 1404 [:1]
Rel. item #: 38 Abs. item #: 2602 Label: 1397 [:1]
-.07
.29
-.07
Rel. item #: 67 Abs. item #: 2635 Label: 1063 [:1]
.43
-.06
.45
M7
Rel. item #: 39 Abs. item #: 2771 Label: 1311 [:1]
-.05
Rel. item #: 17 Abs. item #: 2746 Label: 685 [:1]
.39
-.09
Rel. item #: 23 Abs. item #: 2752 Label: 664 [:1]
.41
-.09
.47
E7
Rel. item #: 40 Abs. item #: 3070 Label: 1427 [:1]
-.13
Rel. item #: 76 Abs. item #: 3229 Label: 1693 [:1]
.37
-.14
Rel. item #: 58 Abs. item #: 3130 Label: 1264 [:1]
.45
B8/M8
34
-.13
.37
Figuur 4.3
Voorbeelden van S-toetsen voor de toetsen Spelling digitaal M7, E7 en B8/M8 met per toets
van links naar rechts de best passende, de slechtst passende en een qua passing
representatieve opgave
Rel. item #: 34 Abs. item #: 3648 Label: d1404 [:1]
-.07
Rel. item #: 26 Abs. item #: 3635 Label: d1057 [:1]
Rel. item #: 80 Abs. item #: 3697 Label: d662 [:1]
.41
-.06
.46
-.07
.47
M7
Rel. item #: 59 Abs. item #: 3572 Label: d1350 [:1]
-.12
Rel. item #: 44 Abs. item #: 3557 Label: d1314 [:1]
.26
-.08
Rel. item #: 12 Abs. item #: 3522 Label: d1190 [:1]
.35
-.08
.45
E7
Rel. item #: 41 Abs. item #: 3757 Label: d1693 [:1]
Rel. item #: 29 Abs. item #: 3741 Label: d1265 [:1]
-.15
.18
-.08
Rel. item #: 4 Abs. item #: 3716 Label: d1411 [:1]
.52
-.15
.33
B8/M8
In feite kan men bij de kalibratie beter varen op deze grafische weergaven (zoals in figuur 4.2 en 4.3) dan
op toetsingsresultaten in termen van exacte getallen en de significantie daarvan. In de figuren is in een
oogopslag te zien dat zelfs bij de slechtst passende items de schendingen van het model binnen de perken
blijven. Waar mogelijk is bij de definitieve selectie natuurlijk gekozen voor items met een goede of
representatieve passing. In enkele gevallen is de passing wat minder, maar het aantal items wat dit betreft
is zeer beperkt.
Niettemin zijn er bij de kalibratie S-toetsen uitgevoerd die een indicatie geven van de kwaliteit van de
kalibratie. Daarbij zijn we vooral geïnteresseerd in de distributie van de overschrijdingskansen van deze
verzameling toetsingsresultaten. De overschrijdingskansen zouden uniform verdeeld moeten zijn binnen het
(0,1) interval, uiteraard met zo weinig mogelijk significante resultaten. Tabel 4.5 en 4.6 geven een beeld van
de uitkomsten bij een kalibratie van alle opgaven van de toetsen Spelling M7, E7 en B8/M8. In deze
tabellen is het (0,1) interval is opgedeeld in tien gelijke stukken. Daarnaast is aangegeven in hoeveel
gevallen de overschrijdingskans kleiner was dan .01, respectievelijk .05. Het is duidelijk dat voor beide
toetsen de verdeling redelijk gelijkmatig is over het gehele interval van overschrijdingskansen. Deze
resultaten geven een bevestiging van het eerder geschetste beeld, dat met uitzondering van enkele
opgaven, sprake is van niet-significante S-toetsen. Zij vormen een kwantitatieve ondersteuning van de
conclusie dat de opgaven een unidimensionaal construct representeren.
35
Tabel 4.5
M7
E7
B8/M8
Verdeling van overschrijdingskansen bij S-toetsen voor M7, E7 en B8/M8 papier
0.-/---/---------.1------------.2------------.3-----------.4----------.5----------.6-----------.7----------.8-----------.9---------1.
1 6
7
10
8
7
13
8
8
7
7
8
3 7
7
5
13
11
7
7
9
4
9
8
7 6
6
13
9
7
7
6
6
9
6
8
Tabel 4.6
M7
E7
B8/M8
Verdeling van overschrijdingskansen bij S-toetsen voor M7, E7 en B8/M8 digitaal
0.-/---/---------.1------------.2------------.3-----------.4----------.5----------.6-----------.7----------.8-----------.9---------1.
1 2
4
12
9
8
10
7
10
9
9
9
2 5
4
12
8
8
10
7
10
8
9
7
1 1
3
10
5
10
13
8
8
9
11
11
In tabel 4.7 en 4.8 zijn de R1c-waarden weergegeven voor dezelfde afnames waarvoor in tabel 4.5 en 4.6
de resultaten van de S-toetsen zijn weergegeven. R1c is een statistiek die zicht geeft op de modelpassing
van de toets als geheel. De R1c-toets combineert alle S-toetsen in een overall statistic en wordt over het
algemeen acceptabel bevonden indien zijn waarde niet groter is dan anderhalf keer het aantal
vrijheidsgraden (df).
Het is duidelijk dat de modelpassing van de toetsen acceptabel is. Voor zowel de digitale als de papieren
toetsen geldt dat de R1c minder dan anderhalf maal het aantal vrijheidsgraden is.
Tabel 4.7
Toetsversie
M7
E7
B8/M8
Tabel 4.8
Toetsversie
M7
E7
B8/M8
R1c-waarden voor M7, E7 en B8/M8 papier
R1c
1069.126
1974.599
1940.044
df
781
1459
1366
p
0.000
0.000
0.000
R1c-waarden voor M7, E7 en B8/M8 digitaal
R1c
673.342
666.625
540.076
df
565
574
520
p
0.001
0.004
0.264
36
Daarnaast hanteren we nog een methode om de modelpassing te verantwoorden. Deze methode wordt
besproken in het COTAN Beoordelingssysteem (COTAN 2010, p. 40). Hier gaat het erom de
nauwkeurigheid van de itemparameterschattingen te beoordelen op basis van een constante (in het
COTAN-Beoordelingssysteem met ‘c’ aangeduid). Deze constante geeft weer hoe de relatie is tussen de
standaardfout van de moeilijkheidsparameter van een item en de standaarddeviatie van de
vaardigheidsverdeling van de kalibratiepopulatie. Het beoordelingssysteem geeft ook richtlijnen voor het
beoordelen van de grootte van deze ‘c’. Deze dient te worden beoordeeld als goed als de waarde lager is
dan of gelijk aan .20. Waarden tussen .30 en .40 kunnen nog als voldoende worden beschouwd.
De waarden voor deze constante zijn weergegeven in tabel 4.9 en 4.10. De gemiddelde waarden van de
constante zijn uitstekend te noemen. Geen enkele opgave heeft een waarde boven .20. De conclusie mag
luiden dat we ook op basis van deze analyse tevreden kunnen zijn over de kalibratie.
Tabel 4.9
Toetsversie
M7
E7
B8/M8
Tabel 4.10
Toetsversie
M7
E7
B8/M8
Nauwkeurigheid van de itemparameterschattingen (constante ‘c’) papier
Constante ‘c’
Range
Gemiddelde
0.057-0.172
0.104
0.040-0.132
0.072
0.029-0.137
0.054
Nauwkeurigheid van de itemparameterschattingen (constante ‘c’) digitaal
Constante ‘c’
Range
Gemiddelde
0.080-0.178
0.131
0.086-0.172
0.126
0.084-0.189
0.140
Op basis van de hierboven beschreven resultaten luidt de conclusie dat de kalibratie geslaagd is voor de
toetsen Spelling niet-werkwoorden. Hiermee is het laatste woord nog niet gezegd over de validiteit, maar
het kalibratieonderzoek brengt in ieder geval een essentieel aspect van het validiteitsvraagstuk naar voren:
de rechtvaardiging van wat in de meeste toetstoepassingen gebruikelijk is, namelijk het reduceren van alles
wat de leerling heeft geantwoord tot een enkele toetsscore (of afgeleid daarvan, een enkele schatting van
zijn onderliggende vaardigheid). De kalibratieanalyse als puur formeel proces (het analyseren van een
grote onvolledige tabel met nullen en enen) kan geen uitspraken doen over de inhoudsvaliditeit of over de
constructvaliditeit als antwoord op de vraag: hoe kan worden aangetoond dat het concept dat de items in de
bank meten dekkend is voor en samenvalt met het construct 'spellen' zoals dat in het didactisch en het
wetenschappelijk forum wordt bedoeld? De vraag is dan in het geval van het onderdeel 'spellen': kan het
unidimensionale concept onder de items in de opgavenbank Spelling inderdaad worden opgevat als de
vaardigheid 'spellen'? Zie hoofdstuk 6 over de validiteit voor een antwoord op deze vraag.
Tot slot is bij de analyses nagegaan of er DIF (differential item functioning) optreedt. We hebben hiervoor
gekeken naar verschillen in antwoordgedrag van leerlingen op de ankeritems voor papier en digitaal. Om
DIF op te sporen gebruiken we een variant van de eerder beschreven S-toetsen. In figuur 4.4 zijn voor twee
representatieve opgaven de resultaten van het DIF-onderzoek weergegeven. Boven een item dat op papier
is afgenomen in het kalibratieonderzoek en onder een item dat is afgenomen in het onderzoek papierdigitaal. De DIF tussen de papieren en de digitale versie is verwaarloosbaar en de digitale en papieren
versie mogen dus als equivalent worden beschouwd.
37
Figuur 4.4
Resultaten van het DIF-onderzoek (toelichting in tekst)
Rel. item #: 75 Abs. item #: 2773 Label: 1347 [:1] E7 PAP
-.08
4.3
Rel. item #: 75 Abs. item #: 2773 Label: 1347 [:1] E7 DIG
.45
-.08
.45
Normering
Hier schetsen we de totstandkoming van de normering voor de afnamemomenten M7 tot en met M8.
Achtereenvolgens gaan we in op de beschikbare data in het archief van het Cito Volgsysteem primair
onderwijs, de schoolinformatie uit de DUO-database voor het steekproefkader, het onderliggende model, de
weging en de representativiteit van de gevolgde procedure.
4.3.1
Procedure
Data
De data die gebruikt zijn, zijn de gegevens uit dataretour voor spelling uit het schooljaar 2010/2011, voor de
afnamemomenten M7, E7 en M8. De dataretour bestaat uit gegevens die Cito automatisch retour krijgt van
afnames van de toetsen van het Cito Volgsysteem, via het Computerprogramma LOVS. Voor afnamemoment B8 hadden we niet voldoende gegevens, aangezien de toets in de praktijk niet zo vaak op dit
moment afgenomen wordt. De normering voor afnamemoment B8 hebben we daarom vastgesteld door
middel van intrapolatie van afnamemomenten E7 en M8. De data bevatten naast de schaalscores ook
school- en leerlinggegevens. Voor de normering op afnamemoment M7 zijn 22364 leerlingen meegenomen
in de analyse. Deze leerlingen zaten op 993 scholen. De aantallen voor de momenten E7 en M8 staan in
tabel 4.16. Deze leerlingen zijn niet zonder meer representatief voor de populatie leerlingen. Gezien de
grote aantallen leerlingen en scholen, is het echter mogelijk op een verantwoorde manier via een
steekproefkader tot een representatieve normering te komen. Ten behoeve van de eenvoud zijn we
hieronder steeds uitgegaan van de gegevens voor afnamemoment M7. De resultaten voor afnamemomenten E7 en M8 zijn echter vergelijkbaar.
38
Steekproefkader
Om de representativiteit van de steekproef van scholen te onderzoeken is gebruikgemaakt van steekproefkader PO2009/2010, de DUO-gegevens (Dienst Uitvoering Onderwijs, was voorheen IB-groep en CFI) van
de populatie scholen in het reguliere basisonderwijs. Dit bestand bevat een stratificatievariabele met 8
niveaus. De niveaus zijn gebaseerd op een combinatie van schoolgewicht en schoolgrootte:
1. schoolgrootte < 200; proportie gewichtenleerlingen <.10
2. schoolgrootte ≥ 200; proportie gewichtenleerlingen <.10
3. schoolgrootte < 200; proportie gewichtenleerlingen ≥ .10, maar <.25
4. schoolgrootte ≥ 200; proportie gewichtenleerlingen ≥ .10, maar <.25
5. schoolgrootte < 200; proportie gewichtenleerlingen ≥ .25, maar <.40
6. schoolgrootte ≥ 200; proportie gewichtenleerlingen ≥ .25, maar <.40
7. schoolgrootte < 200; proportie gewichtenleerlingen ≥ .40
8. schoolgrootte ≥ 200; proportie gewichtenleerlingen ≥ .40
Schoolgewicht en in mindere mate schoolgrootte worden gezien als belangrijke voorspellers van
leerresultaten.
In de onderstaande tabel wordt weergegeven hoe de leerlingen verdeeld waren over de verschillende
strata. Het label ‘S’ in de kolom ’jaar’ geeft aan dat het om de totale steekproef van leerlingen gaat voor
afnamemoment M7; ‘P’ geeft aan dat het om de populatie gaat.
Tabel 4.11
Jaar
Str1
Percentage scholen per stratum voor afnamemoment M7
Str2
Str3
Str4
Str5
Str6
Str7
Str8
S
35.7
17.0
23.7
9.5
6.1
1.7
5.0
1.3
P
23.7
30.3
14.7
15.1
4.9
3.1
5.1
3.2
In tabel 4.12 staan de wegingsfactoren per stratum voor de steekproef van leerlingen. Stel dat we een
representatieve steekproef van scholen willen trekken via het steekproefkader. Dan trekken we 6% van de
scholen uit stratum 1, 17% uit stratum 2 en zo verder. Voor de normering hebben we ervoor gekozen alle
informatie mee te nemen uit de beschikbare gegevens in de dataretour. Dataretour van alle scholen is dus
meegenomen. Hiertoe is een multilevel model gespecificeerd dat hieronder wordt beschreven.
Tabel 4.12
Wegingsfactoren per stratum voor afnamemoment M7
Jaar
Str1
Str2
Str3
Str4
Str5
Str6
Str7
Str8
S
0.06
0.17
0.06
0.15
0.07
0.17
0.10
0.23
Model
Het model dat we beschrijven wordt gebruikt om normtabellen te maken op schoolniveau voor
gewichtenleerlingen. Ook biedt het de mogelijkheid om normeringen te maken op school- en leerlingniveau.
Er zijn twee normtabellen op schoolniveau gemaakt: één voor scholen met minder dan 15 procent
gewichtenleerlingen en één voor scholen met 15 procent of meer gewichtenleerlingen. De variabele
’GewLrl’ in het steekproefkaderbestand geeft aan tot welke groep een school behoort: < 15 procent = 1, ≥
15 procent = -1.
39
Om tot een dergelijke normering op schoolniveau te komen is het volgende multilevel model geschat:
Niveau 1:
eij ~ N (0, σ 2 )
Yij = β0j + eij
voor i ∈ {1,2, ..., n } leerlingen per school en j ∈ {1,2, ..., J } scholen, waarin Yij de score van leerling i in
school j is, β0j het gemiddelde van school j, eij de afwijking van leerling i ten opzichte van het gemiddelde
van zijn school j, en waarin σ 2 de binnengroepsvariantie is.
Niveau 2:
µ0j ~ N (0, τ
β0j = γ00 + γ01 Xj + µ0j
2
|xj
)
waarin γ00 het algemeen gemiddelde is γ01 het effect van variabele Xj (i.e., GewLrl), µ0j de afwijking
van school j ten opzichte van het algemeen gemiddelde, en waarin τ 2|xj de tussengroepvariantie is.
Het model is geschat onder de aanname van ongelijke varianties op niveau 2.
Het model is geschat in een bootstrap procedure. Er is 50 keer een steekproef van k scholen uit de totale
dataset getrokken, waarbij k gelijk is aan het aantal scholen in het oorspronkelijke databestand met een
maximum van 1000. Het trekken van de scholen gebeurde met teruglegging. Er is rekening gehouden met
de wegingsfactoren zoals gegeven in tabel 4.13. Steeds zijn alle leerlingen van een getrokken school in de
analyse meegenomen. Onderstaande tabel geeft de resultaten van de analyse. De kolommen ’Lower’ en
’Upper’ geven de onder- en bovengrens aan van het 90%-betrouwbaarheidsinterval zoals bepaald in de
bootstrap.
Tabel 4.13
Maximum Likelihood schattingen multilevel model
Fixed effects
Coëfficiënt
Lower
Upper
γ00 = intercept
γ01 = coëfficiënt voor GewLrl
138.3
0.69
138.15
0.52
138.46
0.92
Random effects
Variantiecomponent
Lower
Upper
40.81
5.71
3.1
42.18
10.88
4.7
Niveau 1 variantie (σ 2 )
Niveau 2 variantie (τ 2|x−1)
Niveau 2 variantie (τ 2|x1)
41.37
7.88
3.82
Op basis van de gegevens in de tabel kan de intraklassecorrelatie uitgerekend worden. De intraklassecorrelatie is een maat voor de (on)afhankelijkheid van individuen. Naarmate de individuen binnen een groep
sterker op elkaar lijken wordt de intraklassecorrelatie hoger. Als vuistregel wordt vaak aangehouden dat
een multilevelanalyse zinvol is als de intraklassecorrelatie .04 of meer bedraagt. In ons geval is de
intraklassecorrelatie voor de groep scholen met 15 of meer procent gewichtenleerlingen gelijk aan 0.16.
De intraklassecorrelatie voor de groep scholen met minder dan 15 procent gewichtenleerlingen is gelijk aan
0.08.
40
Normen
De resultaten in tabel 4.14 vormen de basis voor de normering op schoolniveau. Onderstaande tabel geeft
de normering op schoolniveau als we uitgaan van de in het Cito Volgsysteem onderscheiden niveaus I tot
en met V. Voor de volledigheid is ook een normering gemaakt voor de totale groep van scholen.
Tabel 4.14
Normeringsgegevens op schoolniveau M7
Groep
M
SD
P20
P40
P60
P80
≥ 15 procent GewLrl
˂ 15 procent GewLrl
totaal
137.6
139.0
138.5
2.8
2.0
2.3
135.3
137.4
136.6
136.9
138.5
137.9
138.3
139.5
139.1
140.0
140.6
140.5
Als aanvulling op de normering op schoolniveau is een normtabel gemaakt op leerlingniveau. Voor deze
normering is gebruikgemaakt van de intercept (γ00 ), het effect voor ’GewLrl’ (γ01 ) en de niveau 1 variantie
σ2 .
Tabel 4.15
Normeringsgegevens op leerlingniveau M7
Groep
M
SD
P20
P40
P60
P80
totaal
138.5
41.4
103.7
128.0
149
173.3
In tabel 4.16 staat een overzicht van de vaardigheidsverdelingen voor alle normeringsmomenten op
leerlingniveau.
Tabel 4.16
Normeringsmoment
Overzicht van de vaardigheidsverdelingen per normeringsmoment op leerlingniveau
Aantal leerlingen
Aantal
scholen
Gemiddelde
vaardigheid
Standaardafwijking
M7
22364
993
138,5
6,4
E7
20120
866
139,7
6,9
M8
9808
498
142,5
7,5
4.3.2
Representativiteit
De representativiteit van de normeringssteekproeven is geëvalueerd met betrekking tot het stratum (zie
steekproefkader), de geografische spreiding, de mate van verstedelijking en het percentage
gewichtenleerlingen. Resultaten geven we weer voor afnamemoment M7, de resultaten voor de overige
afnamemomenten staan vermeld in bijlage 2.
In tabel 4.17 staan de percentages voor de stratificatievariabele met 8 niveaus, een combinatie van
schoolgewicht en schoolgrootte, in de steekproef en de populatie. Uiteraard komen de percentages
overeen, immers met behulp van deze variabele is de steekproef gewogen. Uit de tabel blijkt dat de
gevolgde procedure correct is verlopen.
41
Tabel 4.17
Percentage scholen per stratum in de steekproef en populatie M7
Stratum
Percentage steekproef
Percentage populatie
schoolgrootte < 200
proportie gewichtenleerlingen <.10
23,7
23,7
schoolgrootte ≥ 200
proportie gewichtenleerlingen <.10
30,3
30,3
schoolgrootte < 200
proportie gewichtenleerlingen ≥ .10, maar <.25
14,7
14,7
schoolgrootte ≥ 200
proportie gewichtenleerlingen ≥ .10, maar <.25
15,0
15,0
schoolgrootte < 200
proportie gewichtenleerlingen ≥ .25, maar <.40
4,9
4,9
schoolgrootte ≥ 200
proportie gewichtenleerlingen ≥ .25, maar <.40
3,1
3,1
schoolgrootte < 200
proportie gewichtenleerlingen ≥ .40
5,1
5,1
schoolgrootte ≥ 200
proportie gewichtenleerlingen ≥ .40
Totaal
3,2
3,2
100,00
100,00
De representativiteit naar geografische verdeling staat in tabel 4.18. Regio Noord bevat de provincies
Groningen, Friesland en Drenthe, regio Oost de provincies Overijssel, Gelderland en Flevoland, regio West
de provincies Utrecht, Noord-Holland, Zuid-Holland en Zeeland en de regio Zuid bestaat uit Noord-Brabant
en Limburg. Er is in de steekproef een ondervertegenwoordiging van regio West en met name regio Oost is
iets oververtegenwoordigd. Dit heeft echter geen consequenties voor de representativiteit. Na controle voor
stratum verschillen de schaalscores uitgesplitst naar regio niet meer. Dit gaat ook op voor de
afnamemomenten E7 en M8 (zie bijlage).
Tabel 4.18
Regio
Percentage scholen per regio in de steekproef en populatie M7
Percentage steekproef
Percentage populatie
Noord
12,3
10,4
Oost
29,7
22,8
West
34,6
46,3
Zuid
23,4
20,5
100,00
100,00
Totaal
Bezien we de representativiteit naar verstedelijking in tabel 4.19, dan concluderen we dat de percentages in
steekproef en populatie van scholen redelijk in de pas lopen.
42
Tabel 4.19
Percentage scholen naar urbanisatie in de steekproef en populatie M7
Urbanisatie
Percentage steekproef
Zeer sterk stedelijk
Percentage populatie
9,3
15,2
Sterk stedelijk
24,6
27,5
Matig stedelijk
24,3
21,0
Weinig stedelijk
25,5
23,1
Niet stedelijk
Totaal
16,4
13,1
100,00
100,00
In de steekproef en populatie van scholen verschillen de gewichtenleerlingen niet of nauwelijks.
Deze variabele maakt immers ook deel uit van het wegingsproces.
Tabel 4.20
Percentage scholen voor de gewichtenleerlingen in de steekproef en populatie M7
Gewichtenleerlingen
Percentage steekproef
Percentage populatie
≥15%
30
31
<15%
70
69
Totaal
100,00
100,00
Daar er in Nederland geen aparte jongens- en meisjesscholen zijn nemen wij aan – gegeven het
gehanteerde steekproefkader – dat er een goede vertegenwoordiging van jongens en meisjes is.
Om dezelfde reden nemen wij eveneens aan dat alle leeftijden behorende bij een jaargroep representatief
vertegenwoordigd zijn.
43
44
5
Betrouwbaarheid en meetnauwkeurigheid
5.1
Betrouwbaarheid
In hoofdstuk 4 is onder meer aangegeven dat elke leerling die deelgenomen heeft aan het aanvullend
kalibratieonderzoek slechts een deel van de items gemaakt heeft die uiteindelijk in de toetsen Spelling
opgenomen zijn. De betrouwbaarheid van de toetsen in klassieke zin is dan ook niet rechtstreeks te
bepalen. Het is echter wel mogelijk om de betrouwbaarheid van iedere toets te schatten door gebruik te
maken van het feit dat alle items die zijn opgenomen in de toetsen OPLM-geschaald zijn. Ook andere
beschrijvende gegevens, zoals de gemiddelde score en de standaardmeetfout, zijn te schatten op grond
van het feit dat de toetsen volledig bestaan uit OPLM-gekalibreerde items. Om relevante beschrijvende
gegevens bij de verschillende toetsen te genereren, is gebruikgemaakt van het programma OPTAL
(Verstralen, 1997).
In OPTAL wordt een door Verhelst, Glas en Verstralen (1995, pp. 99-100) ontwikkelde coëfficiënt berekend
die qua interpretatie een grote overeenkomst vertoont met de betrouwbaarheidscoëfficiënt uit de klassieke
testtheorie. Het begrip ware score is wat meer geëxpliciteerd, namelijk als de verwachte score op een
(vaste) toets, maar dan gezien als functie van de latente variabele θ. Deze verwachte waarde duiden we
aan met τ(θ). Als we bovendien weten hoe θ in de populatie verdeeld is, kunnen we ook het gemiddelde en
de variantie van de ware scores in de populatie bepalen. De variantie van de ware scores in de populatie
duiden we aan met het symbool Var(τ). Tussen θ en τ(θ) bestaat een een-op-een relatie, immers de een
kan uit de andere berekend worden. Het is echter niet zo dat een persoon met vaardigheid θ per se de
toetsscore τ(θ) moet behalen (dat is alleen zo als de toets oneindig lang wordt). De geobserveerde score bij
een eenmalige afname zal dan ook een afwijking vertonen van de verwachte score, waardoor we met een
eenmalige toetsafname niet meer zonder fout de waarde van θ kunnen bepalen. De variantie van de
geobserveerde toetsscore duiden we aan met Var(t|τ(θ)), en door weer gebruik te maken van de distributie
van θ in de populatie kunnen we ook de gemiddelde variantie van de geobserveerde toetsscores gaan
berekenen.
Var(t) = E[Var(t |  (  ))]
(5.1)
Deze variantie kunnen we opvatten als de (gemiddelde) meetfoutvariantie in de metriek van de
geobserveerde scores t. In analogie met de theorie over de betrouwbaarheid definiëren we dan
MAcc =
Var(  )
Var(  ) + Var(t)
(5.2)
waarin MAcc staat voor 'Accuracy of Measurement'.
Tabel 5.1 bevat informatie over de meeteigenschappen van de vaardigheidsschaal Spelling. In de eerste
kolom staan voor elk afnamemoment de twee mogelijke combinaties van modules: een leerling maakt ofwel
eerst module Start en daarna module Vervolg 1 (S+V1) ofwel eerst module Start en daarna module Vervolg
2 (S+V2). De maximumscore voor iedere toets is gelijk aan het aantal opgaven dat deel uitmaakt van de
totale toets. De derde kolom geeft de geschatte gemiddelde scores van de leerlingen op de verschillende
toetsen. De vierde kolom bevat informatie over de geschatte standaardmeetfout van iedere toets. In kolom
5 zijn de resultaten van een test-hertest simulatie weergegeven. Het feit dat alle items OPLM-gekalibreerd
zijn, maakt het mogelijk een hertest te simuleren. Steeds zijn twee bij de vaardigheid Spelling horende
toetsafnames gesimuleerd. Uiteindelijk is de correlatie tussen deze (virtuele) afnames berekend. Men kan
deze simulatie beschouwen als een test-hertestonderzoek onder ideale condities. De tweede toetsafname
is immers volledig onafhankelijk van de eerste en wordt niet beïnvloed door de kennis die de leerling
45
mogelijk verworven heeft via de eerste toetsafname. Daarnaast is er geen sprake van invloed van een testhertest-interval: beide afnames worden gesimuleerd alsof zij op hetzelfde moment plaats zouden vinden.
De uitkomsten komen vrijwel exact overeen met de eerder berekende MAcc en leiden dan ook tot dezelfde
conclusies met betrekking tot de betrouwbaarheid van de toets Spelling.
De betrouwbaarheidscoëfficiënten zijn zonder uitzondering hoog. Voor toetsen van het type waar geen
zware consequenties voor leerlingen aan verbonden zijn (zoals de toetsen Spelling) geeft de COTAN
(COmmissie TestAangelegenheden Nederland van het Nederlands Instituut van Psychologen) aan dat een
betrouwbaarheidscoëfficiënt lager dan 0,70 onvoldoende is, een betrouwbaarheidscoëfficiënt tussen 0,70
en 0,80 voldoende, en een betrouwbaarheidscoëfficiënt hoger dan 0,80 goed (COTAN
Beoordelingssysteem voor de kwaliteit van tests, 2010, p. 33). Op grond van dit criterium is de
meetnauwkeurigheid van alle toetsen goed te noemen.
Tabel 5.1
Beschrijvende gegevens bij de papieren versie van de toetsen Spelling van het Cito
Volgsysteem primair onderwijs
Toets
Maximumscore
Gemiddelde
Standaardmeetfout
Betrouwbaarheid
(MAcc)
Test-hertest
(simulatie)
M7 S+V1
60
47,53
2,71
0,91
0,91
M7 S+V2
60
44,18
2,97
0,92
0,92
E7 S+V1
60
47,28
2,69
0,94
0,93
E7 S+V2
60
42,82
3,01
0,93
0,93
B8 S+V1
60
43,73
2,90
0,92
0,92
B8 S+V2
60
39,87
3,13
0,92
0,92
M8 S+V1
60
45,29
2,81
0,92
0,92
M8 S+V2
60
41,59
3,05
0,92
0,92
In tabel 5.2 vindt u de gegevens voor de digitale versies van de toetsen Spelling.
Tabel 5.2
Beschrijvende gegevens bij de digitale versie van de toetsen Spelling van het Cito
Volgsysteem primair onderwijs
Toets
Maximumscore
Gemiddelde
Standaardmeetfout
Betrouwbaarheid
(MAcc)
Test-hertest
(simulatie)
M7 S+V1
60
44,30
2,73
0,92
0,92
M7 S+V2
60
40,93
2,99
0,92
0,92
E7 S+V1
60
46,79
2,72
0,93
0,93
E7 S+V2
60
41,84
3,02
0,94
0,94
B8 S+V1
60
42,24
2,84
0,92
0,92
B8 S+V2
60
38,13
3,09
0,93
0,93
M8 S+V1
60
43,82
2,75
0,92
0,92
M8 S+V2
60
39,98
3,01
0,93
0,92
46
5.2
Nauwkeurigheid
De hiervoor vermelde betrouwbaarheidscoëfficiënten hebben alleen betrekking op de globale meetnauwkeurigheid en geven geen beeld van de lokale meetnauwkeurigheid van de verschillende toetsen
Spelling. De betrouwbaarheidstabellen 5.3 en 5.4 doen dat wel.
Zo laat tabel 5.3 bijvoorbeeld zien dat 81,8 procent van de leerlingen die bij de M7-toets in scoregroep E
vallen met hun geschatte vaardigheidsscore ook met hun werkelijke vaardigheidsscore in deze scoregroep
vallen. Anders gezegd: de kans dat een E-leerling terecht als een E-leerling wordt bestempeld is ongeveer
82 procent. Verder laat de tabel zien dat 18,1 procent van de leerlingen in niveaugroep E een vaardigheidsscore heeft die in werkelijkheid in scoregroep D valt. Bij het berekenen van deze betrouwbaarheidstabellen
is rekening gehouden met vertakt toetsen (multistage testing). Dit houdt in dat leerlingen die lager scoren
dan de grensscore op de module Start, module Vervolg 1 maken en leerlingen die hoger scoren module
Vervolg 2 maken. In de betrouwbaarheidstabellen is de populatie dus geëvalueerd met betrekking tot die
toets die ze volgens dit voorschrift moeten maken. Zie tabel 5.5 voor alle grensscores op de modules Start.
Verdere gedetailleerde informatie over de meetnauwkeurigheid van de toetsen is te vinden in de
handleidingen van de toetspakketten (Cito, 2011). In de schaalscoretabellen van bijlage 2 van de
handleidingen is een kolom opgenomen waarin het score-interval vermeld is. In deze kolom staat voor
iedere ruwe score op elke toets het 67-procents-betrouwbaarheidsinterval voor de bijbehorende
vaardigheidsschatting.
47
Tabel 5.3
Betrouwbaarheidstabellen bij de papieren versie van de toetsen Spelling van het Cito
Volgsysteem primair onderwijs
Toets M7
Toets M7
Scoregroepen E tot en met A
Scoregroep
waarin ware
score valt
Scoregroepen V tot en met I
E
D
C
B
A
Scoregroep
waarin ware
score valt
V
IV
III
II
I
E
81.8
9.0
0.0
0.0
0.0
V
86.7
11.6
0.1
0.0
0.0
D
18.1
67.7
11.0
0.1
0.0
IV
13.2
63.9
15.2
0.9
0.0
C
0.1
23.2
70.6
18.3
0.4
III
0.1
23.2
56.3
20.0
1.4
B
0.0
0.1
18.1
63.0
18.1
II
0.0
1.3
27.0
56.7
20.8
A
0.0
0.0
0.3
18.6
81.5
I
0.0
0.0
1.5
22.5
77.8
Toets E7
Toets E7
Scoregroepen E tot en met A
Scoregroep
waarin ware
score valt
Scoregroepen V tot en met I
E
D
C
B
A
Scoregroep
waarin ware
score valt
V
IV
III
II
I
E
85.8
7.5
0.0
0.0
0.0
V
87.1
10.5
0.1
0.0
0.0
D
14.2
70.7
9.5
0.0
0.0
IV
12.8
68.7
16.3
0.5
0.0
C
0.0
21.8
72.2
17.4
0.4
III
0.1
20.2
58.9
17.9
0.7
B
0.0
0.1
18.0
66.6
19.6
II
0.0
0.6
23.9
57.2
17.2
A
0.0
0.0
0.2
16.0
80.1
I
0.0
0.0
0.9
24.3
82.1
Toets B8
Toets B8
Scoregroepen E tot en met A
Scoregroepen V tot en met I
E
D
C
B
A
Scoregroep
waarin ware
score valt
V
IV
III
II
I
E
81.1
8.1
0.0
0.0
0.0
V
86.7
12.8
0.2
0.0
0.0
D
18.8
66.2
10.6
0.1
0.0
IV
13.2
65.8
18.7
0.9
0.0
C
0.1
25.5
70.2
17.5
0.3
III
0.1
20.4
57.3
21.5
1.1
B
0.0
0.2
19.0
63.9
16.4
II
0.0
0.9
22.9
57.8
20.3
A
0.0
0.0
0.2
18.4
83.4
I
0.0
0.0
0.9
19.9
78.6
Scoregroep
waarin ware
score valt
Toets M8
Toets B8
Scoregroepen E tot en met A
Scoregroep
waarin ware
score valt
Scoregroepen V tot en met I
E
D
C
B
A
Scoregroep
waarin ware
score valt
V
IV
III
II
I
E
81.6
7.9
0.0
0.0
0.0
V
82.8
9.2
0.1
0.0
0.0
D
18.3
67.3
10.8
0.1
0.0
IV
16.9
63.6
15.7
0.8
0.0
C
0.1
24.7
70.5
19.6
0.5
III
0.3
25.7
57.0
19.4
0.9
B
0.0
0.2
18.4
64.3
20.1
II
0.0
1.5
26.0
55.8
17.8
A
0.0
0.0
0.2
16.0
79.4
I
0.0
0.0
1.3
24.0
81.2
48
Tabel 5.4
Betrouwbaarheidstabellen bij de digitale versie van de toetsen Spelling van het Cito
Volgsysteem primair onderwijs
Toets M7
Toets M7
Scoregroepen E tot en met A
Scoregroep
waarin ware
score valt
Scoregroepen V tot en met I
E
D
C
B
A
Scoregroep
waarin ware
score valt
V
IV
III
II
I
E
81.9
8.4
0.0
0.0
0.0
V
84.6
11.0
0.1
0.0
0.0
D
18.0
68.1
10.6
0.1
0.0
IV
15.2
66.7
17.9
0.8
0.0
C
0.1
23.4
70.0
16.6
0.3
III
0.2
21.5
58.4
21.2
0.9
B
0.0
0.1
19.2
66.3
17.0
II
0.0
0.9
22.8
59.4
19.7
A
0.0
0.0
0.2
17.1
82.8
I
0.0
0.0
0.7
18.5
79.4
Toets E7
Toets E7
Scoregroepen E tot en met A
Scoregroep
waarin ware
score valt
Scoregroepen V tot en met I
E
D
C
B
A
Scoregroep
waarin ware
score valt
V
IV
III
II
I
E
84.0
7.5
0.0
0.0
0.0
V
86.8
9.7
0.0
0.0
0.0
D
16.0
72.9
9.2
0.0
0.0
IV
13.1
70.9
15.1
0.3
0.0
C
0.0
19.6
73.8
14.1
0.1
III
0.0
19.1
62.9
18.3
0.5
B
0.0
0.0
16.9
69.4
15.2
II
0.0
0.3
21.6
62.4
18.1
A
0.0
0.0
0.1
16.5
84.6
I
0.0
0.0
0.4
19.0
81.4
Toets B8
Toets B8
Scoregroepen E tot en met A
Scoregroepen V tot en met I
E
D
C
B
A
Scoregroep
waarin ware
score valt
V
IV
III
II
I
E
83.1
8.3
0.0
0.0
0.0
V
86.1
10.6
0.1
0.0
0.0
D
16.9
70.3
10.2
0.0
0.0
IV
13.8
68.7
16.5
0.5
0.0
C
0.1
21.4
72.1
15.5
0.2
III
0.1
20.1
61.8
20.1
0.6
B
0.0
0.1
17.7
68.7
15.9
II
0.0
0.5
21.3
61.8
18.1
A
0.0
0.0
0.1
15.8
84.0
I
0.0
0.0
0.4
17.7
81.3
Scoregroep
waarin ware
score valt
Toets M8
Toets M8
Scoregroepen E tot en met A
Scoregroep
waarin ware
score valt
Scoregroepen V tot en met I
E
D
C
B
A
Scoregroep
waarin ware
score valt
V
IV
III
II
I
E
83.2
7.8
0.0
0.0
0.0
V
86.2
10.3
0.1
0.0
0.0
D
16.7
70.8
9.6
0.0
0.0
IV
13.7
68.8
16.5
0.5
0.0
C
0.0
21.4
72.4
15.1
0.2
III
0.1
20.4
61.2
19.5
0.6
B
0.0
0.0
17.9
68.0
15.5
II
0.0
0.5
21.8
61.1
17.7
A
0.0
0.0
0.1
16.9
84.3
I
0.0
0.0
0.5
18.9
81.6
De figuren 5.1 tot en met 5.4 op de pagina’s 41 en 42 geven nog eens grafisch weer hoe het gesteld is met
de lokale meetnauwkeurigheid bij de verschillende toetsen. In deze figuren staat voor iedere toets de
grootte van de meetfout afgebeeld. Hierbij is onderscheid gemaakt tussen de twee mogelijke
samenstellingen van de toets op elk afnamemoment: ofwel Start plus Vervolg 1 (in de grafieken
49
weergegeven als SV1) ofwel Start plus Vervolg 2 (in de grafieken SV2 genoemd). Ook zijn de
kansdichtheidfuncties voor de normgroepen op de verschillende afnamemomenten opgenomen. Deze laten
zien hoe de vaardigheid van de leerlingen verdeeld is over de vaardigheidsschaal in de populatie die de
toets gemaakt heeft. De figuren maken duidelijk dat de meetfout kleiner is in de lagere en gemiddelde
vaardigheidsregionen dan in de hogere vaardigheidsregionen.
Verder wordt duidelijk dat de meetnauwkeurigheid voor de toetsen SV1 en SV2 verschillend is gegeven de
schaalscore. In nagenoeg alle gevallen meet de SV1-toets nauwkeuriger in de lagere vaardigheidsregionen
en de SV2-toets nauwkeuriger in de hogere vaardigheidsregionen. De schaalscore behorend bij het
snijpunt van deze curven, daar waar de meetfout voor SV1 en SV2 even groot is, wordt aangeduid als de
cut-off score bij het vertakt toetsen. Leerlingen die onder deze score presteren krijgen na de startmodule
Vervolg 1, de anderen krijgen Vervolg 2. De cut-off scores zijn afgebeeld op de toetsscores op de modules
Start voor de verschillende normeringsmomenten. Vervolgens zijn ze onder de term 'grensscores' vermeld
in de afzonderlijke handleidingen in de toetspakketten. In tabel 5.5 staat een overzicht van deze
grensscores. De grensscore is telkens het eerstgenoemde getal in de kolommen 'Vervolg 2'. In tabel 5.6 en
5.7 zijn de percentages leerlingen aangegeven die bepaalde toetscombinaties maken, voor respectievelijk
de papieren en de digitale toetsen.
Tabel 5.5
Toewijzing vervolgmodules papieren en digitale toetsen Spelling van het Cito Volgsysteem
primair onderwijs
Papier
Digitaal
Vervolg 1
Vervolg 2
Vervolg 1
Vervolg 2
M7
0-15
16-30
0-13
14-30
E7
0-17
18-30
0-15
16-30
B8/M8 0-18
19-30
0-13
14-30
Tabel 5.6
Verdeling leerlingpercentages vertakt toetsen papier
afname
toets
percentage
M7
Start+Vervolg1
13
Start+Vervolg 2
87
Start+Vervolg1
20
Start+Vervolg 2
80
E7
B8
M8
Tabel 5.7
Start+Vervolg1
34
Start+Vervolg 2
66
Start+Vervolg1
28
Start+Vervolg 2
72
Verdeling leerlingpercentages vertakt toetsen digitaal
afname
toets
percentage
M7
Start+Vervolg1
17
Start+Vervolg 2
83
E7
B8
M8
Start+Vervolg1
18
Start+Vervolg 2
82
Start+Vervolg1
22
Start+Vervolg 2
78
Start+Vervolg1
18
Start+Vervolg 2
82
50
Figuur 5.1
Grootte van de meetfouten voor de papieren toetsen M7 en E7 en de kansdichtheidfuncties
voor de M7- en E7-populatie
Spelling M7-E7
Toets M7-SV1 papier
Toets M7-SV2 papier
Toets E7-SV1 papier
Toets E7-SV2 papier
Populatie M7
Populatie E7
0.06
0.04
4
kansdichtheid
standaardmeetfout
6
0.02
2
0
0.00
120
130
140
150
schaalscore
Figuur 5.2
Grootte van de meetfouten voor de papieren toetsen B8 en M8 en de kansdichtheidfuncties
voor de B8- en M8-populatie
Spelling B8-M8
Toets B8M8-SV1 papier
Toets B8M8-SV2 papier
Populatie B8
Populatie M8
0.05
0.04
4
0.03
0.02
2
0.01
0
120
0.00
130
140
150
schaalscore
51
160
kansdichtheid
standaardmeetfout
6
Figuur 5.5
Grootte van de meetfouten voor de digitale toetsen M7 en E7 en de kansdichtheidfuncties
voor de M7- en E7-populatie
Spelling M7-E7
Toets M7-SV1 digitaal
Toets M7-SV2 digitaal
Toets E7-SV1 digitaal
Toets E7-SV2 digitaal
Populatie M7
Populatie E7
0.06
0.04
4
kansdichtheid
standaardmeetfout
6
0.02
2
0
120
0.00
130
140
150
schaalscore
Figuur 5.6
Grootte van de meetfouten voor de digitale toetsen B8 en M8 en de kansdichtheidfuncties
voor de B8- en M8-populatie
Spelling B8-M8
Toets B8M8-SV1 digitaal
Toets B8M8-SV2 digitaal
Populatie B8
Populatie M8
0.05
0.04
4
0.03
0.02
2
0.01
0
120
0.00
130
140
150
schaalscore
52
160
kansdichtheid
standaardmeetfout
6
6
Validiteit
6.1
Inhoudsvaliditeit
De inhoudsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de opgaven in een toets een
welomschreven en afgebakend universum representeren van mogelijk in de toets op te nemen opgaven.
De inhoudsvaliditeit van de toetsen Spelling wordt gegarandeerd door de wijze waarop de opgaven
ontwikkeld zijn. In paragraaf 3.2 ('Inhoudsverantwoording') is al aangegeven dat aan de ontwikkeling van de
opgaven een uitgebreide methodeanalyse is voorafgegaan. Deze methodeanalyse maakte duidelijk in
welke groepen de verschillende spellingcategorieën aan de orde komen. De toetsen Spelling zijn zodanig
samengesteld dat alle voor de verschillende afnamemomenten relevante spellingcategorieën erin
vertegenwoordigd zijn.
6.2
Begripsvaliditeit
De begripsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de toetsscores toe te schrijven
zijn aan verklarende concepten en constructen die deel uitmaken van het theoretische kader dat aan de
ontwikkeling van de toets ten grondslag ligt. Hieronder worden drie aanwijzingen voor de begripsvaliditeit
van de toetsen Spelling beschreven.
6.2.1
Passing van het meetmodel
Een eerste belangrijke aanwijzing voor de begripsvaliditeit van de toetsen is dat de opgaven die uiteindelijk
in de toetsen zijn opgenomen en die betrekking hadden op de boven beschreven spellingcategorieën,
voldeden aan de aannamen van het OPLM-model. Dat is een goede waarborg voor de constructvaliditeit
van de toets, omdat er evidentie is voor de aanname dat een en dezelfde vaardigheid ten grondslag ligt aan
de responsen op de opgaven in de toets.
De opgaven Spelling vormen na de kalibratie een gekalibreerde opgavenbank. Bij de analyse van de
antwoorden van de leerlingen op de opgaven is nagegaan of de verschillende opgaven en opgaventypen
een beroep doen op hetzelfde complex aan vaardigheden. Items die niet voldeden aan de passingscriteria
die we beschreven in 4.2.2, werden uit de verzameling verwijderd. Het betrof items waarop waarschijnlijk
wordt gegokt, items die niet juist geformuleerd zijn, items die een slecht onderscheidend vermogen bleken
te hebben, of items die bij nader inzien toch niet alleen spellingvaardigheid bleken te meten.
Op basis van de inhoud en inhoudsvaliditeit hebben we alle reden om aan te nemen dat er bij Spelling
sprake is van een unidimensionale onderliggende latente trek spellingvaardigheid. Hierbij gaat het om de
toetsen Spelling niet-werkwoorden, zoals nader toegelicht in hoofdstuk 2.
6.2.2
Equivalentie met eerdere toetsen
Een tweede aanwijzing voor de begripsvaliditeit is te vinden in de relaties met andere vaardigheden.
Met het oog op de validering van de opgavenbank Spelling zijn ten behoeve van de verantwoording van de
toetsen Schaal Vorderingen in Spellingvaardigheid (SVS 1, 2 en 3) al eerder studies uitgevoerd en
gerapporteerd (Moelands & Kamphuis, 2001). Hier wordt in aanvulling daarop een analyse gegeven van
onderzoeksgegevens die in 2000 verzameld zijn op basis van de Entreetoets groep 6 (Cito, 2000) en groep
7 (Cito, 2010). In de Entreetoets groep 6 en 7 (zie ook de handleiding bij deze toetsen) bestaat het
onderdeel Spelling – evenals bij de toetsen Spelling van het Cito Volgsysteem – uit opgaven uit de
opgavenbank Spelling. De andere onderdelen zijn: Begrijpend lezen, Schrijfvaardigheid , Begrijpend
luisteren, Leestempo, Woordenschat, Rekenen 'Getallen en bewerkingen', Rekenen 'Meten Tijd en Geld',
53
Studievaardigheden 'Hanteren van Naslagwerken', Studievaardigheden 'Kaartlezen' en Studievaardigheden
'Lezen van Schema’s Tabellen en Grafieken'. In tabel 6.1 rapporteren we de correlatiecoëfficiënten tussen
het onderdeel Spelling met de overige onderdelen van de Entreetoets.
Tabel 6.1
Correlaties tussen Spelling en andere variabelen gemeten met de Entreetoets groep 6 en
groep 7
Entreetoets groep 6
Entreetoets groep 7
Schrijven
0,57
0,55
Persoonsvorm
0,40
0,37
Spelling totaal
-
0,91
Spelling niet werkwoorden
-
-
Spelling werkwoorden
-
0,72
Leestekens
nvt
0,54
Begrijpend luisteren
0,34
0,28
Begrijpend lezen
0,56
0,53
Leestempo
0,44
0,38
Woordenschat
0,48
0,46
Rekenen totaal
0,52
0,49
Getallen en bewerkingen
0,51
0,48
Verhoudingen, breuken en procenten
0,41
0,44
Meten, meetkunde tijd en geld
0,48
0,47
Meten en meetkundige vraagstukken
0,41
0,43
Tijd en geld
0,47
0,45
Studievaardigheden totaal
0,53
0,55
(Studieteksten en) informatiebronnen
0,53
0,49
Kaartlezen
0,43
0,45
Schema's tabellen en grafieken
0,46
0,45
nvt
0,49
Studieteksten
Uit de tabel blijkt dat de correlatie tussen enerzijds Spelling en anderzijds Schrijven en Begrijpend lezen
van de Entreetoets groep 6 het grootst is. Voor de Entreetoets groep 7 zien we een vergelijkbaar beeld.
De correlaties zijn over de hele linie overigens middelmatig hoog. Dat is volgens verwachting: de
spellingvaardigheid heeft een eigen structuur, die tot op grote hoogte bepaald wordt door kennis en
toepassing van regels en conventies. Verreweg de meeste criteriumtaken zijn meer semantisch van aard
en daarmee duidelijk te onderscheiden van de vaardigheid spelling.
6.2.3
Longitudinale vaardigheidstoename
Een derde aanwijzing voor de begripsvaliditeit vinden we in de longitudinale vaardigheidstoename in de tijd.
Het normeringsonderzoek dat referentiegegevens opleverde voor de toetsen uit het Cito Volgsysteem staat
reeds beschreven in hoofdstuk 4. In deze paragraaf nemen we tabel 4.13 (overzicht vaardigheidsverdelingen, hier tabel 6.2) voor de duidelijkheid opnieuw op.
In tabel 6.2 staan voor alle daar vermelde normeringsmomenten de schatting van het gemiddelde, de
standaarddeviatie en het aantal leerlingen in de normeringssteekproef.
54
Tabel 6.2
Overzicht van de vaardigheidsverdelingen per normeringsmoment
Normeringsmoment
Aantal leerlingen
Aantal scholen
Gemiddelde
vaardigheid
Standaardafwijking
M7
22364
993
138,5
6,4
E7
20120
866
139,7
6,9
B8/M8
9808
498
142,5
7,5
De items van de nieuwe toetsen zijn gekalibreerd op de oude, bestaande schaal Spelling, en de toetsen op
de verschillende meetmomenten leiden tot vergelijkbare normeringen. Deze gelijkheid van de normeringsgegevens is een onderbouwing van de validiteit van de nieuwe toetsen. Tevens blijkt de gemiddelde
vaardigheid van de leerlingen van afname tot afname toe te nemen. Dat impliceert dat de methodeanalyse
die ten grondslag lag aan de samenstelling van de toetsen een correct beeld heeft gegeven van de wijze
waarop het spellingonderwijs in de regel vormgegeven is. De toename in vaardigheid wordt overigens
kleiner naarmate leerlingen in een hogere groep komen. Dat is ook wel te verwachten; vaak gaat het bij
Spelling in de hogere groepen om voortbouwen op de kennis die er al is. In een aantal gevallen wordt een
categorie herhaald en is er daarbij alleen een toename in de moeilijkheid van de woorden. Dat is een
verschil ten opzichte van de lage groepen, waar alles nog nieuw is en van het begin af aan geleerd moet
worden. De vaardigheid neemt dus nog steeds wel toe tussen twee afnamemomenten, alleen niet meer zo
veel.
Correlaties tussen meetmomenten
Er zijn toetsen Spelling voor verschillende afnamemomenten van groep 3 tot en met groep 8 (M3 tot en met
M8). Deze toetsen zijn tot op zekere hoogte vergelijkbare operationalisaties van hetzelfde onderliggende
construct, namelijk spelling. We verwachten dus dat er hoge correlaties zijn tussen de meetmomenten mits
er sprake is van een zekere stabiliteit in de verschillen tussen leerlingen. Die stabiliteit is nooit perfect, dus
naarmate de afstanden tussen de afnamemomenten groter worden zullen de correlaties ook lager zijn.
Zeker tussen twee opeenvolgende meetmomenten zou de correlatie hoog moeten zijn.
Op basis van de normeringssteekproef van groep 3 tot en met 6, aangevuld met de resultaten van deze
leerlingen uit de dataretour voor groep 7 en 8, zijn de latente correlaties uitgerekend tussen de
afnamemomenten (n=3448). In tabel 6.3 is te zien dat er inderdaad sprake is van hoge correlaties tussen
opeenvolgende afnamemomenten. De hoofddiagonaal in figuur 6.3 geeft de correlatie weer tussen deze
momenten. De correlatie ligt in veel gevallen boven de .90, tot zelfs .96 tussen moment M6 en E6.
Naarmate de afnamemomenten verder van elkaar afliggen worden de correlaties inderdaad lager. Toch is
er aan de hand van de resultaten op de toets Spelling in groep 3 al in zekere zin een voorspelling te doen
over de verwachte resultaten op de toets Spelling in groep 8. Tussen moment M3 en M8 is nog steeds een
correlatie van .49.
Ondanks het feit dat er op verschillende momenten verschillende toetsen Spelling worden afgenomen, zijn
de correlaties zeer hoog. We kunnen er dus vanuit gaan dat de toetsen steeds hetzelfde onderliggende
construct meten. Deze hoge correlaties zijn daarom een indicatie van de validiteit van de toetsen Spelling.
55
Tabel 6.3
Latente correlaties tussen leerlingen op de verschillende normeringsmomenten
Normeringsmoment
M3
E3
M4
E4
M5
E5
M6
E6
M7
E7
M8
M3
E3
M4
E4
M5
E5
M6
E6
M7
E7
.73
.67
.61
.55
.55
.55
.49
.52
.46
.49
.75
.66
.65
.67
.63
.62
.55
.54
.54
.88
.83
.82
.81
.79
.72
.66
.68
.90
.86
.83
.81
.75
.69
.71
.91
.91
.91
.79
.79
.80
.92
.92
.80
.79
.82
.96
.87
.86
.88
.91
.88
.91
.91
.90
.91
56
7
Samenvatting
In dit hoofdstuk wordt kort weergegeven wat in de voorafgaande hoofdstukken is besproken.
Nadat in hoofdstuk 2 de uitgangspunten bij de toetsconstructie en in hoofdstuk 3 de inhoud van de toetsen
uitvoerig zijn beschreven, werd in hoofdstuk 4 over de kalibratieonderzoeken en het normeringsonderzoek
gerapporteerd. Daar is verantwoord hoe de dataverzamelingsdesigns voor de papieren afnames en de
gecombineerde papier-digitale afnames zijn opgezet. In datzelfde hoofdstuk is ook aangegeven hoe de
steekproeftrekking is uitgevoerd. De wijze van steekproeftrekking en de controles achteraf (wat betreft
spreiding over regio's) wijzen uit dat de steekproeven representatief genoemd kunnen worden voor de
populatie van scholen in Nederland. De analyse van deze gegevens leverde een overzicht op van de
vaardigheidsverdelingen per normeringsmoment bij de toetsen Spelling. De vergelijkbaarheid van de
‘nieuwe’ normering met de bestaande ‘oude’ normering van de SVS-toetsen is ook aangevoerd als
onderbouwing van de representativiteit van de nieuwe normeringsgroepen.
In hoofdstuk 5 werd over de betrouwbaarheidscoëfficiënten gerapporteerd. De betrouwbaarheidscoëfficiënten (MAcc’s) zijn hoog, zowel voor de papieren als de digitale versie van de toetsen Spelling: ze
variëren van 0,91 tot 0,94. In de figuren 5.1 tot en met 5.7 is af te lezen hoe het is gesteld met de lokale
meetnauwkeurigheid van de toetsen. Daarbij is de lokale meetnauwkeurigheid het grootst waar dit het
meest gewenst werd geacht, namelijk bij de lagere en gemiddelde vaardigheidsniveaus. Daarnaast worden
in tabel 5.3 en 5.4 betrouwbaarheidstabellen gerapporteerd die op een iets andere manier een beeld geven
van de lokale meetnauwkeurigheid. De percentages in deze tabellen bevestigen het eerder geschetste
beeld van een goede betrouwbaarheid, ook op lokaal niveau.
Over validiteit werd in hoofdstuk 6 gerapporteerd. De toetsen Spelling van het Cito Volgsysteem sluiten
nauw aan bij het doel en de inhoud van het onderwijs in spellingvaardigheid in de basisschool (zie de
paragrafen 2.4.1 en 3.2). In de toetsen komen alle spellingcategorieën aan bod die behandeld worden in de
verschillende taalmethoden voor het basisonderwijs.
Een belangrijke indicatie voor de validiteit van de opgaven Spelling van het Cito Volgsysteem komt uit het
kalibratieonderzoek (hoofdstuk 4). Uit dat onderzoek bleek dat de verzameling opgaven waaruit de toetsen
Spelling zijn samengesteld, beschreven kunnen worden met OPLM. Dat betekent dat de met de toetsen
gemeten verschillen in gedrag tussen de leerlingen te verklaren zijn door één unidimensionaal concept.
De correlaties met andere toetsen bleken verder een bevestiging te vormen van de verwachtingen.
Een aanwijzing voor begripsvaliditeit is af te leiden uit de longitudinale vaardigheidstoename in de tijd.
Een prachtig voorbeeld zijn ook de bijzonder hoge correlaties die gevonden werden tussen twee
opeenvolgende afnamemomenten. Dit duidt erop dat de toetsen spelling steeds hetzelfde construct meten
en dat er zelfs al op afnamemoment M3 iets te zeggen is over de resultaten van dezelfde leerling op een
toets spelling in groep 8.
57
58
8
Literatuur
Aarnoutse L., Verhoeven, C., Zandt, R. van het & H. Biemond (2003). Tussendoelen gevorderde
geletterdheid. Nijmegen: Expertisecentrum Nederlands.
Alberts, N., Horsels, L., Vloedgraven, J. & F. Kamphuis (2012). Wetenschappelijke verantwoording Spelling
niet-werkwoorden Toetsen Speciale leerlingen Functioneringsniveaus groep 6 tot en met 8. Arnhem: Cito.
Bon, W.H.J. van (1993). Spellingproblemen: Theorie en praktijk. Rotterdam: Lemniscaat.
Cito (2000). Entreetoets groep 6. Arnhem: Cito.
Cito (2010). Entreetoets groep 7. Arnhem: Cito.
Cito (2011). LOVS Spelling groep 7. Arnhem: Cito.
Cito (2011). LOVS Spelling groep 8. Arnhem: Cito.
COTAN Beoordelingssysteem voor de kwaliteit van tests (2010). Amsterdam: NIP/Cotan.
Eggen, T.J.H.M., (1993). Itemresponstheorie en onvolledige gegevens. In: T.J.H.M. Eggen & P.F. Sanders
(red.). Psychometrie in de praktijk. (pp. 239-284). Arnhem: Cito.
Engelen, R.J.H. & T.J.H.M. Eggen (1993). Equivaleren. In: T.J.H.M. Eggen & P.F. Sanders (red.).
Psychometrie in de praktijk. (pp. 239-284). Arnhem: Cito.
Glas, C.A.W. & N.D. Verhelst (1993). Een overzicht van itemresponsmodellen. In: T.J.H.M. Eggen &
P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 179-238). Arnhem: Cito.
Hambleton, R.K., H. Swaminathan & H.J. Rogers (1991). Fundamentals of Item response Theory. Newbury
Park, CA: Sage.
Huizenga, H. (1997). Spelling & didactiek (2e herziene druk). Groningen: Wolters-Noordhoff.
Kamphuis, F. (1992). Multi. Arnhem: Cito.
Kamphuis, F. (1993). Estimation and prediction of individual ability in longitudinal studies. In: J.H.L. Oud &
R.A.W. van den Blokland-Vogelesang (Eds.), Advances in long and multivariate analysis in the behavioral
sciences. Nijmegen: ITS.
Kamphuis, F.H., & R.J.H. Engelen (1992). Estimation and testing of structured latent ability covariance
matrices in IRT models. Arnhem, The Netherlands: Cito.
Lord, F.M. & M.R. Novick (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley.
Marsh, G., M. Friedman, V. Welch & P. Desberg (1980). The development of strategies in spelling. In: U.
Frith (red.). Cognitive processes in spelling. Londen: Academic Press.
Moelands, F. & F. Kamphuis (2001). Verantwoording van de toetsen uit de pakketten Schaal Vorderingen in
Spellingvaardigheid (SVS) 1, 2 en 3. Arnhem: Citogroep.
59
Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen, Denmark:
Nielsen & Lydiche.
Schryver, J. de & A. Neijt (2002). Handboek Spelling (4e herziene druk). Mechelen: Wolters Plantyn.
Staphorsius, G. (1994). Leesbaarheid en leesvaardigheid: de ontwikkeling van een domeingericht
meetinstrument. Enschede: Universiteit Twente.
Staphorsius, G., R.S.H. Krom, F.G.M. Kleintjes & N.D. Verhelst (2000, 2004). Verantwoording van de
Toetsen Begrijpend Lezen (TBL). Arnhem: Citogroep.
Verhelst, N.D. (1989). Informatiewinst bij vertakt toetsen. In: W.J. van der Linden & L.J.Th. van der Kamp
(red.). Meetmethoden en data-analyse (pp. 89-96). Lisse: Swets en Zeitlinger.
Verhelst, N.D. (1992). Het één parameter model (OPLM). Een theoretische inleiding en een handleiding bij
het computerprogramma. Arnhem: Cito.
Verhelst, N.D. (1993). Itemresponstheorie. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de
praktijk. (pp. 83-178). Arnhem: Cito.
Verhelst, N.D., & C.A.W. Glas. (1995). The one parameter logistic model. In: G.H. Fischer & I.W. Molenaar
(Eds.). Rasch models: Foundations, recent developments and applications (pp. 215-239). New York:
Springer.
Verhelst, N.D., C.A.W. Glas & H.H.F.M. Verstralen (1995). OPLM: One Parameter Logistic Model.
Computer program and manual. Arnhem: Cito.
Verhelst, N.D. & F.G.M. Kleintjes (1993). Toepassingen van itemresponsetheorie. In: T.J.H.M. Eggen en
P.F. Sanders (Red.). Psychometrie in de praktijk. Arnhem: Cito.
Verhelst, N.D., Glas, C.A.W. & H.H.F.M. Verstralen (1995). OPLM: One Parameter Logistic Model.
Computer program and manual. Arnhem: Cito.
Verhelst, N.D., H.H.F.M. Verstralen & T.H.J.M. Eggen (1991). Finding starting values for the item
parameters and suitable discrimination indices in the one-parameter logistic model. Measurement and
Research Department Reports 91-10. Arnhem: Cito.
Verstralen, H.H.F.M. (1997). OPTAL: Inverse OPLAT and item and test characteristics in populations.
Arnhem, The Netherlands: Cito.
Wijs, A. de, Kamphuis, F., Kleintjes, F. & M. Tomesen (2010). Wetenschappelijke verantwoording Spelling
voor groep 3 tot en met 6. Arnhem: Cito.
60
Bijlagen
61
Bijlage 1
Overzicht resultaten methodeonderzoek spellingcategorieën
62
63
Bijlage 2:
Normering op basis van dataretour: representativiteit van de afnamemomenten M7, E7
en M8
Tabel B2.1
Percentage scholen per stratum in de steekproef en populatie M7
Stratum
Percentage steekproef
Percentage populatie
schoolgrootte < 200
proportie gewichtenleerlingen <.10
23,70
23,71
schoolgrootte > 200
proportie gewichtenleerlingen <.10
30,27
30,27
schoolgrootte < 200
proportie gewichtenleerlingen ≥ .10, maar <.25
14,68
14,67
schoolgrootte ≥ 200
proportie gewichtenleerlingen ≥ .10, maar <.25
15,04
15,05
schoolgrootte < 200
proportie gewichtenleerlingen ≥ .25, maar <.40
4,94
4,94
schoolgrootte ≥ 200
proportie gewichtenleerlingen ≥ .25, maar <.40
3,08
3,08
schoolgrootte < 200
proportie gewichtenleerlingen ≥ .40
5,10
5,10
schoolgrootte ≥ 200
proportie gewichtenleerlingen ≥.40
Totaal
Tabel B2.2
3,20
3,19
100,00
100,00
Percentage scholen per regio in de steekproef en populatie M7
Regio
Percentage steekproef
Percentage populatie
Noord
12,32
10,40
Oost
29,67
22,82
West
34,59
46,30
Zuid
23,42
20,47
100,00
100,00
Totaal
Tabel B2.3
Percentage scholen naar urbanisatie in de steekproef en populatie M7
Urbanisatie
Percentage steekproef
Zeer sterk stedelijk
Percentage populatie
9,26
15,21
Sterk stedelijk
24,58
27,54
Matig stedelijk
24,26
21,03
Weinig stedelijk
25,52
23,10
Niet stedelijk
16,38
13,13
100,00
100,00
Totaal
Tabel B2.4
Percentage scholen voor de gewichtenleerlingen in de steekproef en populatie M7
Gewichtenleerlingen
Percentage steekproef
Percentage populatie
≥ 15%
29,98
30,96
< 15%
70,02
69,04
Totaal
100,00
100,00
64
Tabel B2.5
Percentage scholen per stratum in de steekproef en populatie E7
Stratum
Percentage steekproef
Percentage populatie
schoolgrootte < 200
proportie gewichtenleerlingen <.10
23,71
23,71
schoolgrootte ≥ 200
proportie gewichtenleerlingen <.10
30,28
30,27
schoolgrootte < 200
proportie gewichtenleerlingen ≥ .10, maar <.25
14,66
14,67
schoolgrootte ≥ 200
proportie gewichtenleerlingen ≥ .10, maar <.25
15,05
15,05
schoolgrootte < 200
proportie gewichtenleerlingen ≥ .25, maar <.40
4,94
4,94
schoolgrootte ≥ 200
proportie gewichtenleerlingen ≥ .25, maar <.40
3,08
3,08
schoolgrootte < 200
proportie gewichtenleerlingen ≥ .40
5,10
5,10
schoolgrootte ≥ 200
proportie gewichtenleerlingen ≥ .40
Totaal
Tabel B2.6
3,19
3,19
100,00
100,00
Percentage scholen per regio in de steekproef en populatie E7
Regio
Percentage steekproef
Percentage populatie
Noord
11,85
10,40
Oost
30,15
22,82
West
30,78
46,30
Zuid
Totaal
Tabel B2.7
27,22
20,47
100,00
100,00
Percentage scholen naar urbanisatie in de steekproef en populatie E7
Urbanisatie
Percentage steekproef
Zeer sterk stedelijk
Percentage populatie
9,62
15,21
Sterk stedelijk
22,54
27,54
Matig stedelijk
24,28
21,03
Weinig stedelijk
27,68
23,10
Niet stedelijk
Totaal
Tabel B2.8
15,88
13,13
100,00
100,00
Percentage scholen voor de gewichtenleerlingen in de steekproef en populatie E7
Gewichtenleerlingen
Percentage steekproef
Percentage populatie
≥ 15%
29,42
30,96
< 15%
70,58
69,04
Totaal
100,00
100,00
65
Tabel B2.9
Percentage scholen per stratum in de steekproef en populatie M8
Stratum
Percentage steekproef
Percentage populatie
schoolgrootte < 200
proportie gewichtenleerlingen <.10
23,70
23,71
schoolgrootte ≥ 200
proportie gewichtenleerlingen <.10
30,27
30,27
schoolgrootte < 200
proportie gewichtenleerlingen ≥ .10, maar <.25
14,67
14,67
schoolgrootte ≥ 200
proportie gewichtenleerlingen ≥ .10, maar <.25
15,06
15,05
schoolgrootte < 200
proportie gewichtenleerlingen ≥ .25, maar <.40
4,94
4,94
schoolgrootte ≥ 200
proportie gewichtenleerlingen ≥ .25, maar <.40
3,08
3,08
schoolgrootte < 200
proportie gewichtenleerlingen ≥ .40
5,10
5,10
schoolgrootte ≥ 200
proportie gewichtenleerlingen ≥ .40
Totaal
3,18
3,19
100,00
100,00
Tabel B2.10 Percentage scholen per regio in de steekproef en populatie M8
Regio
Percentage steekproef
Percentage populatie
Noord
14,43
10,40
Oost
31,53
22,82
West
29,40
46,30
Zuid
Totaal
24,64
20,47
100,00
100,00
Tabel B2.11 Percentage scholen naar urbanisatie in de steekproef en populatie M8
Urbanisatie
Percentage steekproef
Zeer sterk stedelijk
Percentage populatie
8,90
15,21
Sterk stedelijk
22,78
27,54
Matig stedelijk
24,01
21,03
Weinig stedelijk
24,90
23,10
Niet stedelijk
Totaal
19,41
13,13
100,00
100,00
Tabel B2.12 Percentage scholen voor de gewichtenleerlingen in de steekproef en populatie M8
Gewichtenleerlingen
Percentage steekproef
Percentage populatie
≥ 15%
28,89
30,96
< 15%
71,11
69,04
Totaal
100,00
100,00
66
Cito | Primair onderwijs
Cito maakt wereldwijd werk van goed en
eerlijk toetsen en beoordelen. Met de
meet- en volgmethoden van Cito krijgen
mensen een objectief beeld van kennis,
vaardigheden en competenties.
Hierdoor zijn verantwoorde keuzes op het
gebied van persoonlijke en professionele
ontwikkeling mogelijk. Onze expertise
zetten we niet alleen in voor ons eigen
werk maar ook om advies, ondersteuning
en onderzoek te bieden aan anderen.
Cito
Amsterdamseweg 13
Postbus 1034
6801 MG Arnhem
T (026) 352 11 11
F (026) 352 13 56
www.cito.nl
Klantenservice
T (026) 352 11 11
[email protected]
Fotografie: Ron Steemers
Wetenschappelijke verantwoording van de toetsen
Spelling niet-werkwoorden voor groep 7 en 8
Astrid Mols en Frans Kamphuis