Cito | Primair onderwijs Cito maakt wereldwijd werk van goed en eerlijk toetsen en beoordelen. Met de meet- en volgmethoden van Cito krijgen mensen een objectief beeld van kennis, vaardigheden en competenties. Hierdoor zijn verantwoorde keuzes op het gebied van persoonlijke en professionele ontwikkeling mogelijk. Onze expertise zetten we niet alleen in voor ons eigen werk maar ook om advies, ondersteuning en onderzoek te bieden aan anderen. Cito Amsterdamseweg 13 Postbus 1034 6801 MG Arnhem T (026) 352 11 11 F (026) 352 13 56 www.cito.nl Klantenservice T (026) 352 11 11 [email protected] Fotografie: Ron Steemers Wetenschappelijke verantwoording van de toetsen Spelling niet-werkwoorden voor groep 7 en 8 Astrid Mols en Frans Kamphuis Wetenschappelijke verantwoording van de toetsen Spelling niet-werkwoorden voor groep 7 en 8 Astrid Mols Frans Kamphuis Cito, Arnhem, 2012 1 © Cito B.V. Arnhem (2012) Niets uit dit werk mag zonder voorafgaande schriftelijke toestemming van Cito B.V. worden openbaar gemaakt en/of verveelvoudigd door middel van druk, fotografie, scanning, computersoftware of andere elektronische verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op welke wijze dan ook. 2 Inhoud 1 Inleiding 2 2.1 2.2 2.3 2.4 2.4.1 2.4.2 Uitgangspunten van de toetsconstructie Meetpretentie 7 Doelgroep 7 Gebruiksdoel en functie 7 Theoretische inkadering 9 Inhoudelijk 9 Psychometrisch 12 3 3.1 3.2 Beschrijving van de toets 19 Opbouw en structuur van de toets Inhoudsverantwoording 21 4 4.1 4.1.1 4.1.2 4.2 4.2.1 4.2.2 4.2.3 4.3 4.3.1 4.3.2 Kalibratieonderzoek en normering 29 Opzet en verloop van de kalibratieonderzoeken Kalibratieonderzoek 29 Aanvullend kalibratieonderzoek 30 Resultaten van de kalibratieonderzoeken 31 Gekalibreerde opgavenbank 31 Stappen in de kalibratie 31 Toetsing van het IRT-model 33 Normering 38 Procedure 38 Representativiteit 41 5 5.1 5.2 Betrouwbaarheid en meetnauwkeurigheid Betrouwbaarheid 45 Nauwkeurigheid 47 6 6.1 6.2 6.2.1 6.2.2 6.2.3 Validiteit 53 Inhoudsvaliditeit 53 Begripsvaliditeit 53 Passing van het meetmodel 53 Equivalentie met eerdere toetsen 53 Longitudinale vaardigheidstoename 54 7 Samenvatting 8 Literatuur Bijlagen 1 2 5 7 19 29 45 57 59 61 Overzicht resultaten methodeonderzoek spellingcategorieën 62 Definitieve normering: representativiteit van de afnamemomenten M7, E7 en B8/M8 3 64 4 1 Inleiding Deze wetenschappelijke verantwoording heeft betrekking op de toetsen Spelling niet-werkwoorden voor groep 7 en 8 die deel uitmaken van het toetspakket Spelling voor groep 3 tot en met 8 uit het Cito Volgsysteem primair onderwijs (LOVS). De verantwoording van groep 3 tot en met 6 is al beschikbaar. Deze verantwoording biedt tezamen met de inhoud van de toetspakketten Spelling groep 7 en 8 van het Cito Volgsysteem (Cito, 2011) alle informatie die nodig is voor een snelle en efficiënte beoordeling van de kwaliteit van de betreffende meetinstrumenten. Het genoemde materiaal maakt een beoordeling van de toetsen LOVS Spelling niet-werkwoorden mogelijk op de volgende aspecten: – Uitgangspunten van de toetsconstructie; – De kwaliteit van het toetsmateriaal; – De kwaliteit van de handleiding; – Normen; – Betrouwbaarheid; – Validiteit. Het laatstgenoemde aspect betreft alleen begripsvaliditeit en geen criteriumvaliditeit. Omdat de toetsen van het Cito Volgsysteem niet bedoeld zijn voor 'voorspellend gebruik' is criteriumvaliditeit niet van toepassing. Het voorliggende document heeft met name betrekking op de uitgangspunten van de constructie (hoofdstuk 2 en 3), de normen (hoofdstuk 4), de betrouwbaarheid en meetnauwkeurigheid (hoofdstuk 5) en de begripsvaliditeit (hoofdstuk 6) van de toetsen Spelling niet-werkwoorden voor de jaargroepen 7 en 8. De kwaliteit van het toetsmateriaal en de handleiding is te bepalen door kennis te nemen van de inhoud van de toetspakketten. De toetspakketten Spelling groep 7 en 8 bevatten naast toetsen voor het spellen van niet-werkwoorden ook toetsen voor het spellen van werkwoorden. Deze wetenschappelijke verantwoording heeft alleen betrekking op de toetsen Spelling niet-werkwoorden (verderop voor de leesbaarheid gewoon toetsen Spelling genoemd). In een aparte wetenschappelijke verantwoording beschrijven en verantwoorden we de toetsen Spelling werkwoorden. 5 6 2 Uitgangspunten van de toetsconstructie 2.1 Meetpretentie Bij het spellen wordt de gesproken taal omgezet in geschreven taal. Om woorden correct te schrijven, moeten leerlingen spellingstrategieën kunnen gebruiken en/of spellingregels kunnen toepassen. De toetsen in de toetspakketten Spelling van het Cito Volgsysteem zijn bedoeld om vast te stellen hoe goed een leerling kan spellen en hoe de spellingvaardigheid van de leerling zich in de loop van de jaren ontwikkelt. Het vaststellen van de spellingvaardigheid gebeurt op twee manieren: door de leerling woorden te laten opschrijven en door de leerling te vragen het fout gespelde woord te herkennen in een groepje van vier woorden. De spellingregels zelf worden niet expliciet bevraagd. De leerling laat indirect zien dat hij of zij de spellingregels beheerst door de gevraagde woorden correct te schrijven en door de fout gespelde woorden te herkennen (zie verder paragraaf 2.4.1). 2.2 Doelgroep De toetsen Spelling groep 7 en 8 zijn bestemd voor en genormeerd bij leerlingen in groep 7 en 8 in het Nederlandse basisonderwijs. Voor bijna alle toetsen Spelling van het Cito Volgsysteem zijn de populatieparameters zowel op 'midden leerjaar' als op 'einde leerjaar' bepaald. De toets in groep 8 vormt hierop een uitzondering. Voor de toets van groep 8 zijn zowel voor ‘begin leerjaar’ (oktober, november) als voor ‘midden leerjaar’ populatieparameters bepaald. De toetsen kunnen desgewenst ook op andere momenten in het schooljaar worden afgenomen, maar dat maakt het moeilijker om uitspraken te doen over het niveau van de leerling ten opzichte van andere leerlingen in Nederland. 2.3 Gebruiksdoel en functie De toetsen Spelling van het Cito Volgsysteem hebben twee doelen: niveaubepaling en progressiebepaling. Tevens wordt in de toetsen Spelling de mogelijkheid geboden de door de leerling gemaakte fouten te analyseren met het oog op het aanbieden van gerichte remediëring. Deze 'signalering' staat geheel los van de niveau- en progressiebepaling en is in de kalibratie- en normeringsonderzoeken niet wetenschappelijk getoetst. Niveaubepaling De toetsafnamen in het kader van Spelling geven de leerkracht informatie over het niveau van de spellingvaardigheid van de leerlingen, individueel of als groep. Iedere behaalde vaardigheidsscore kan daartoe normgericht geïnterpreteerd worden op basis van de vaardigheidsverdeling in een adequate referentiegroep (zie paragraaf 4.2). In de toetsmaterialen zijn twee niveau-indelingen opgenomen, waarmee de leerkracht de scores van een leerling kan vergelijken met die van een grote groep leerlingen. De leerkracht kan een keuze maken uit: – de indeling in de niveaus A tot en met E; – de indeling in de niveaus I tot en met V. 7 Bij de indeling in de niveaus A tot en met E is de verdeling over de groepen als volgt: Niveau % Interpretatie A 25 De 25% hoogst scorende leerlingen B 25 De 25% leerlingen die net boven tot ruim boven het landelijk gemiddelde scoren C 25 De 25% leerlingen die net onder tot ruim onder het landelijk gemiddelde scoren D 15 De 15% leerlingen die ruim onder het landelijk gemiddelde scoren E 10 De 10% laagst scorende leerlingen Bij de indeling in de niveaus I tot en met V wordt uitgegaan van vijf groepen van 20%: Niveau % Interpretatie I 20 Ver boven het gemiddelde II 20 Boven het gemiddelde III 20 De gemiddelde groep leerlingen IV 20 Onder het gemiddelde V 20 Ver onder het gemiddelde Bij de indeling in I tot en met V worden op de registratieoverzichten de laagste groep en de hoogste groep nog onderverdeeld in twee groepen die ieder 10% leerlingen bevatten. Deze groepen worden van elkaar gescheiden door een stippellijn. In de eerste versie van de LVS-toetsen werd alleen de indeling A tot en met E gebruikt. In de praktijk bleek deze enkele nadelen te hebben. Zo is de indeling niet symmetrisch. Bovendien zien sommige leerkrachten C als de gemiddelde groep. In de indeling A tot en met E bestaat echter geen gemiddelde groep, alleen groepen boven (A, B) of onder (C, D, E) het gemiddelde. Daarom is bij de tweede versie van de toetsen voor het Cito Volgsysteem een indeling toegevoegd met de niveaus I tot en met V. De indeling in de niveaus I tot en met V is symmetrisch opgebouwd en heeft als voordeel dat er een gemiddelde groep1 is. Deze indeling sluit aan bij de niveau-indeling van andere Citotoetsinstrumenten zoals de Entreetoetsen. Progressiebepaling De toetsen Spelling geven de leerkracht informatie over de ontwikkeling van de spellingvaardigheid van de leerlingen, individueel of als groep, gedurende (bijna) de gehele basisschoolperiode. Ze geven antwoord op vragen als: is er sprake van vooruitgang, achteruitgang of van stabilisering? Is de vooruitgang – gelet op de gemiddelde vooruitgang in de populatie – volgens verwachting? Het gehanteerde meetmodel (zie paragraaf 2.4.2) maakt het mogelijk om de scores van een leerling op verschillende toetsen, op verschillende momenten afgenomen, onderling te vergelijken. De ruwe scores op de toetsen – het aantal opgaven goed – zijn daartoe te transformeren in scores op één vaardigheidsschaal. Deze unidimensionele vaardigheidsschaal die aan de toetsen Spelling ten grondslag ligt, is ontwikkeld met behulp van het One Parameter Logistic Model (Verhelst, 1993; Verhelst & Glas, 1995; Verhelst, Glas & Verstralen, 1995). 1 Het betreft hier geen gemiddelde in de statistische betekenis van het woord. In feite is het zo dat de gemiddelde ruwe score (bij een scheve verdeling) niet eens in de middelste groep hoeft te liggen. 8 'Signalering' via categorieënanalyse Als veel leerlingen fouten maken bij dezelfde spellingcategorie, kan dat een signaal zijn dat het aangeboden onderwijs in die categorie ontoereikend is geweest. Dat hoeft niet direct alarmerend te zijn; misschien komt de betreffende spellingcategorie in de gebruikte lesmethode pas op een later tijdstip aan de orde. Als de categorie daarentegen al wel is behandeld, kan de tegenvallende prestatie van de leerlingen voor de leerkracht een reden zijn om nogmaals expliciet en voor de hele groep op de bij die categorie behorende spellingregels terug te komen. Door het invullen van een analyseformulier of het invoeren van de antwoorden van de leerling in het Computerprogramma LOVS kan de leerkracht nagaan met welke spellingcategorieën een of meerdere leerlingen problemen hadden in de toets Spelling. Individuele leerlingen die blijk geven van onvoldoende beheersing van een of meerdere categorieën zullen wellicht baat hebben bij extra instructie en gerichte oefeningen. Omdat het aantal opgaven per categorie in een toets Spelling beperkt is (er zijn veel categorieën en de toets mag niet te lang worden), kan niet worden uitgesloten dat de leerling bij toeval juist de opgaven uit deze categorie fout heeft beantwoord. Om meer zekerheid te verkrijgen over de beheersing van de categorie door deze leerling, kan de leerkracht gebruikmaken van een controledictee uit het Hulpboek Spelling. Elk controledictee bevat tien opgaven uit één bepaalde categorie. Als de leerling in zo'n dictee vier of meer fouten maakt, lijkt zijn of haar beheersing van die categorie inderdaad te wensen over te laten. De leerkracht kan deze leerling vervolgens aanvullende instructie en/of oefenmateriaal aanbieden. Zoals al aan het begin van deze paragraaf werd gezegd, is er geen kwalitatief of kwantitatief onderzoek gedaan naar het adequaat functioneren van de categorieënanalyse en de 'doorverwijzing' via de controledictees. De signalering via categorieënanalyse heeft dan ook geen enkele wetenschappelijke status of pretentie. Haar enige functie is het doen van een handreiking naar leerkrachten die gericht extra ondersteuning willen bieden aan leerlingen die moeite hebben met het correct spellen van bepaalde woorden. 2.4 Theoretische inkadering 2.4.1 Inhoudelijk Wat is spelling? Spelling is een ondersteunende taalactiviteit die instrumenteel is voor schrijven. Ze is een aspect van codeervaardigheid, waarbij het gaat om de correcte schrijfwijze van woorden. Het gaat dan om actieve spellingvaardigheid: het correct schrijven van woorden. Maar ook om passieve spellingvaardigheid: het kunnen onderkennen en corrigeren van spellingfouten in een tekst (zie ook Expertisecentrum Nederlands, 2003). Ondersteunende taalactiviteiten hebben tot doel de zogeheten functionele taalactiviteiten – activiteiten waarbij de taal als communicatiemiddel fungeert, zoals het schrijven en eventueel corrigeren van een briefje – beter te kunnen uitvoeren. Voor een beschrijving van het begrip spelling hanteren we de definitie van De Schryver & Neijt (2002). Zij omschrijven spelling als '…een systeem van regels met behulp waarvan we een bepaalde gesproken taal schriftelijk weergeven.' (2002: 17) De laatste 'versie' van de spelling van het Nederlands is in 2005 vastgelegd in de Woordenlijst Nederlandse Taal, oftewel 'het Groene Boekje'. Het gebruik van deze spelling is verplicht binnen het onderwijs. Het probleem met de Nederlandse spelling is dat er geen een-op-een relatie is tussen klank en letterteken. Het Nederlands kent circa 40 klanken, maar het alfabet heeft maar 26 letters. Dit betekent dat dezelfde letters voor verschillende klanken gebruikt moeten worden: deling, bel, rafel. Maar andersom wordt een klank ook door verschillende tekens weergegeven: pijl, peil. De spelling van de Nederlandse taal is gebaseerd op vier basisprincipes: het fonologisch, het morfologisch, het etymologisch en het syllabisch principe (zie onder meer Huizenga, 1997; Van Bon, 1993). Het fonologisch principe houdt in dat je woorden spelt door '…hun spraakklanken systematisch met letters weer te geven, op zo'n manier dat de spelling de uitspraak weerspiegelt.' (Van Bon, 1993: 20) Hierbij worden kleine uitspraaknuances die ontstaan door persoonsgebonden verschillen of door klanken in de omgeving van het woord (bijvoorbeeld de /z/ in 'ik zet' versus 'zet ik') genegeerd. Het fonologisch principe is 9 het basisprincipe, maar er zijn allerlei uitzonderingen op deze hoofdregel. Die uitzonderingen zijn veelal niet willekeurig, maar hebben weer te maken met andere regels of principes. Het morfologisch principe doorkruist het fonologisch principe en gaat uit van de morfologische structuur van een woord. Een morfeem is een betekenisdragend woorddeel. Het kan zowel om gehele woorden gaan als om voor- of achtervoegsels, zoals 'on-' en '-heid'. Bij het morfologisch principe is sprake van twee regels: de regel van de gelijkvormigheid en de regel van de overeenkomst. De regel van de gelijkvormigheid houdt in dat we een woord of een voor- of achtervoegsel steeds op dezelfde manier schrijven. Bijvoorbeeld: we schrijven 'hond' omdat we in het meervoud 'honden' een /d/ horen. De regel van de overeenkomst houdt in dat de opbouw van een woord duidelijk wordt in de spelling. Bijvoorbeeld: een woord als 'breedte' wordt zo gespeld, en niet als 'brete', omdat in 'breedte' de morfologische structuur van het woord zichtbaar is. Het morfologisch principe geldt zolang het niet met de uitspraak in conflict is. Bijvoorbeeld: je spelt 'bloempje' omdat je het zo hoort, en niet 'bloemtje'. Het etymologisch principe houdt in dat als er meerdere mogelijkheden zijn om een woord te schrijven, de schrijfwijze wordt gekozen zoals deze zich in het verleden heeft gevormd. Er is hier geen sprake van een regel, maar van kennis die we ons per woord eigen moeten maken. Voorbeelden hiervan zijn de lettercombinaties ou/au en ei/ij. Vroeger, en in sommige dialecten nog steeds, gaven deze verschillende lettercombinaties verschillende klanken weer, maar nu zullen we in de meeste gevallen de spelling van dergelijke woorden gewoon uit het hoofd moeten leren. Het syllabisch principe heeft betrekking op de spelling van syllaben, klankstukken, in een woord. Een syllabe is een klank die bij een gesegmenteerde uitspraak van woorden als één groep wordt uitgesproken, bijvoorbeeld /zi/ /tun/ in het woord 'zitten'. Hier wordt ook meteen het verschil met lettergrepen duidelijk: 'zitten' bestaat uit de lettergrepen 'zit' en 'ten'. Lettergrepen geven een visuele verdeling van een woord. Het syllabisch principe kent twee regels, die voor verenkeling en die voor verdubbeling. De regel voor verenkeling schrijft voor dat als een syllabe eindigt op een lange klank we maar één letter schrijven, bijvoorbeeld in 'boten'. De verdubbelingsregel houdt in dat als een syllabe eindigt op een korte klank, de medeklinker die daarop volgt verdubbeld wordt, bijvoorbeeld in 'botten'. Ook op deze regels zijn echter weer uitzonderingen. Spellingstrategieën Van Bon (1993) hanteert als raamwerk voor de bespreking van de ontwikkeling van spelling de opdeling van spellingcompetentie van Marsh, Friedman, Welch & Desberg (1980). Volgens deze opdeling hanteren kinderen in eerste instantie een fonologisch principe met een sequentiële strategie. Eerst deelt het kind het gesproken woord op in spraakeenheden en vervolgens vertaalt het deze in letters. Later leert het kind hiërarchische regels bij het fonologisch principe, namelijk dat er bepaalde voorwaarden verbonden zijn aan het gebruik van bepaalde letters voor klanken. Het kind leert bijvoorbeeld dat je 'toren' schrijft en niet 'toorun'. Weer een volgende stap is het schrijven naar analogie, dat wil zeggen dat onbekende woorden worden geschreven naar het voorbeeld van bekende. Huizenga (1997) splitst de manieren die spellers gebruiken om tot de juiste schrijfwijze te komen (spellingstrategieën) uit in een directe strategie en indirecte strategieën. De directe strategie wil zeggen dat het spellen geautomatiseerd is; je schrijft een woord op zonder erbij na te denken. Indirecte strategieën vinden plaats als je bij het spellen een bepaalde denkhandeling toepast. Huizenga onderscheidt vijf indirecte spellingstrategieën: de fonologische strategie, de woordbeeldstrategie, de regelstrategie, de analogiestrategie en de hulpstrategie. De fonologische strategie houdt in dat iemand bij het spellen uitgaat van de klanken of klankgroepen waaruit een woord bestaat. Er zijn twee verschillende fonologische strategieën: de elementaire spellinghandeling, waarbij een woord wordt ontleed in fonemen, en de klankclusterstrategie, waarbij een woord wordt ontleed in klankgroepen. De elementaire spellinghandeling is normaal gesproken de eerste die een kind leert (voor het Nederlands). Ze is bruikbaar zolang een leerling alleen klankzuivere woorden moet schrijven (in het basisonderwijs wordt vaak gesproken van 'luisterwoorden'). De klankclusterstrategie is bruikbaar voor het schrijven van klankgroepen die altijd door dezelfde lettercombinatie worden weergegeven, bijvoorbeeld -ooi of -uw. In het basisonderwijs wordt dit wel aangeduid met de term 'luisterwoorden met speciale klankgroepen'. Deze strategie is voor leerlingen wat lastiger dan de elementaire spellinghandeling. 10 De woordbeeldstrategie houdt in dat iemand een woord correct schrijft door een beroep te doen op zijn of haar woordgeheugen. Deze strategie is vooral bruikbaar bij leenwoorden of woorden waarvan de schrijfwijze moet worden ingeprent, bijvoorbeeld woorden met -ou- of -au-. In het basisonderwijs duidt men dergelijke woorden wel aan met de termen 'weetwoorden' of 'afspraakwoorden'. De regelstrategie wordt gebruikt als iemand bij het schrijven van een woord een spellingregel toepast. Voorbeelden daarvan zijn de verenkelingsregel en de verdubbelingsregel, maar ook regels als 'Hoor je op het einde /-ies/, dan schrijf je -isch.' Op de meeste spellingregels zijn weer uitzonderingen en dat maakt deze strategie lastig. In het basisonderwijs gebruikt men wel de term 'regelwoorden'. Bij de analogiestrategie schrijft iemand een woord door het te vergelijken met een ander woord. Die vergelijking kan gebaseerd zijn op overeenkomst in klank (bijvoorbeeld 'komen' en 'dromen'), maar ook op overeenkomst in betekenis (bijvoorbeeld 'vertrouwelijk' en 'trouwen'). De strategie leidt niet altijd tot het juiste resultaat, omdat de gemaakte vergelijking niet altijd opgaat (bijvoorbeeld 'hond', 'wond', 'lont'). In het basisonderwijs worden de termen 'voorbeeldwoorden' of 'net-als woorden' gehanteerd. De hulpstrategie houdt in dat iemand ezelsbruggetjes of hulpregels gebruikt om te onthouden hoe een woord gespeld moet worden. Deze kunnen zelfbedacht zijn, maar ook aangeleerd zijn in het onderwijs. Woorden kunnen vaak met verschillende strategieën goed geschreven worden. Een volwassen speller zal voor veelvoorkomende, gemakkelijke woorden zoals 'school' waarschijnlijke de directe strategie gebruiken, maar hij kan ook de woordbeeldstrategie gebruiken. Spelling in het basisonderwijs Vanaf het moment dat een kind op school leert lezen en schrijven, wordt er aandacht besteed aan spelling. Voor het correct spellen van woorden zijn vele strategieën mogelijk. Een kind dat leert spellen, moet deze spellingstrategieën aanleren en op elkaar afstemmen. Binnen het onderwijs wordt steeds meer rekening gehouden met het feit dat leerlingen gebruik kunnen maken van verschillende strategieën om een woord correct te spellen. In de recente spellingmethoden komen dan ook de hierboven genoemde strategieën, zij het soms onder een andere naam, steeds weer terug. Om te bepalen welke leerstof aan bod moet komen in het spellingonderwijs worden meestal de volgende criteria gebruikt: 1. de frequentie van woorden 2. de indeling in spellingcategorieën 3. de moeilijkheid van woorden. Ad 1. In spellingmethoden wordt tegenwoordig vooral de spelling behandeld van de 3000 tot 4000 meest frequente woorden in Nederlandse teksten. Dit is een efficiënte werkwijze, want als leerlingen deze woorden correct kunnen spellen, zullen zij al veel teksten vrijwel foutloos schrijven. Leerlingen leren om in geval van minder bekende woorden het woordenboek te raadplegen. Ad 2. Voor de ordening van de leerstof wordt verder uitgegaan van een indeling in spellingcategorieën, groepen woorden met dezelfde spellingmoeilijkheid. Deze categorieën zijn een hulpmiddel voor leerkrachten en methodemakers om de leerstof te ordenen. De volgorde waarin de verschillende categorieën aan bod komen in de verschillende spellingmethoden en leerjaren is over het algemeen vergelijkbaar. Zo beginnen alle methoden met de klankzuivere woorden en wordt er in groep 6 een begin gemaakt met de werkwoordspelling. Ad 3. Ten slotte is ook de moeilijkheid van woorden een criterium. De meest frequente woorden zijn vaak niet het moeilijkst om te spellen. In het spellingonderwijs komen daarom (in de hogere leerjaren) ook woorden aan bod die minder frequent voorkomen, maar die vaak fout gespeld worden. Aan deze woorden wordt aandacht besteed omdat het bij het schrijven niet handig is deze woorden steeds op te moeten zoeken. Het gaat dan om woorden als: museum, enigszins, directie, chauffeur. Wat wordt er in de toetsen Spelling getoetst? Omdat het Nederlandse spellingsysteem gebaseerd is op verschillende principes, hebben kinderen een hele weg te gaan om goed te leren spellen. Bij het (leren) spellen kunnen verschillende strategieën worden ingezet. Wat wij met onze toetsen beogen te meten is of leerlingen weten hoe een woord correct gespeld dient te worden. Het gaat dan zowel om het zelf correct kunnen schrijven van een woord als ook om het herkennen 11 van een fout gespeld woord in een tekst of zin. Op welke wijze of volgens welke strategie leerlingen tot die juiste spelling komen, is voor ons doel niet interessant. Er leiden verschillende wegen naar Rome … Bepaalde woorden zijn eenvoudiger correct te spellen of te herkennen als fout gespelde woorden dan andere woorden. Dit wordt ook in het onderwijs onderkend: alle spellingmethoden kennen een opbouw van gemakkelijker te spellen woorden naar moeilijker te spellen woorden. De criteria voor het ordenen van de leerstof staan hierboven genoemd. Ook bij het toetsen van de vaardigheid spelling gaan we uit van een indeling van makkelijk (eenlettergrepig, klankzuiver) naar moeilijk (meerlettergrepig, niet klankzuiver). Op basis van literatuurstudie en een uitgebreide methodeanalyse is een overzicht van spellingcategorieën tot stand gekomen, met een indeling van de categorieën over de leerjaren en afnamemomenten van de verschillende spellingtoetsen. Zie paragraaf 3.2 voor een beschrijving van de totstandkoming van dit categorieënoverzicht. Deze verantwoording gaat overigens alleen over de toetsen Spelling niet-werkwoorden en niet over de toetsen Spelling werkwoorden. Werkwoordspelling wordt getoetst in groep 7 en 8. In deze toetsen is geen sprake van de spellingstrategieën zoals hierboven vermeld. Om de toetsen werkwoordspelling te kunnen maken, moet de leerling ook een zekere kennis hebben van de grammaticaregels. Voor deze toetsen is dan ook een apart categorieënoverzicht gemaakt dat daarop is toegespitst. Om een voorbeeld te noemen: in de toetsen werkwoordspelling is het van belang dat leerlingen onderscheid kunnen maken tussen tegenwoordige tijd en verleden tijd, als het gaat om homofone woorden (zoals gebeurt en gebeurd). Voor deze toetsen komt er om die reden een aparte verantwoording. 2.4.2 Psychometrisch Opgavenbanken Primair onderwijs Voor het samenstellen van toetsen voor het primair onderwijs beschikt Cito over opgavenbanken. Die liggen ten grondslag aan onder meer de toetsen in het Cito Volgsysteem primair onderwijs, de Entreetoetsen en de Eindtoets Basisonderwijs. Voor de constructie van de toetsen Spelling hebben we gebruikgemaakt van de opgavenbank Spelling. In deze itembank staan alleen maar opgaven die bestemd zijn voor toetsen van de vaardigheid spelling niet-werkwoorden, voor groep 3 tot en met 8. Ook voor andere vakgebieden in het Cito Volgsysteem primair onderwijs als begrijpend lezen, woordenschat, rekenen en studievaardigheden zijn opgavenbanken in gebruik. Een opgavenbank is nadrukkelijk niet 'zomaar' een verzameling opgaven of items waaruit een toetsconstructeur min of meer naar willekeur een aantal items selecteert om een nieuwe toets te construeren. We geven hier kort aan wat de vereisten zijn om van een deugdelijke en psychometrisch goed gefundeerde opgavenbank te kunnen spreken. Unidimensionaal continuüm Het algemene uitgangspunt is dat de vaardigheid spellen kan worden opgevat als een unidimensionaal continuüm (de reële lijn), en dat elke leerling voorgesteld kan worden als een punt op die lijn, met andere woorden: als een getal. Het getal drukt de mate van spellingvaardigheid uit, waarbij een groter getal wijst op een grotere vaardigheid. Het doel van de meetprocedure – het afnemen van een toets – is de plaats van de leerling op dit continuüm zo nauwkeurig mogelijk te bepalen. De uitkomst van de meetprocedure bestaat strikt genomen uit twee grootheden. De eerste is de schatting van de plaats van de leerling op het vaardigheidscontinuüm, de tweede geeft aan hoe nauwkeurig die schatting is, en heeft dus de status van een standaardfout, te vergelijken met de standaardmeetfout uit de klassieke testtheorie. Latente vaardigheid De antwoorden die een leerling op de opgaven geeft, worden beschouwd als indicatoren van de vaardigheid spellen, hetgeen ruwweg betekent dat men verwacht dat alle opgaven in de bank spellen meten. De vaardigheid zelf wordt als niet observeerbaar beschouwd en daarom gewoonlijk omschreven als een latente vaardigheid. 12 'Moeilijkheid' in de Item Response Theorie Hoewel items dezelfde vaardigheid meten, kunnen ze toch systematisch van elkaar verschillen. Het belangrijkste verschil tussen de items is hun moeilijkheidsgraad. In de klassieke testtheorie wordt moeilijkheidsgraad uitgedrukt met een zogenaamde p-waarde, de proportie correcte antwoorden op het item in een welbepaalde populatie van leerlingen. In de Item Response Theorie (IRT) die voor het construeren van de opgavenbanken werd gebruikt, hanteert men echter een andere definitie van moeilijkheid: ruwweg gesproken is het de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden. Dit verschil in definitie van de moeilijkheidsgraad tussen klassieke theorie en IRT is uitermate belangrijk. Men kan verwachten dat de p-waarde van een item in groep 8 groter zal zijn dan in groep 6, waardoor duidelijk wordt dat de p-waarde een relatief begrip is: ze geeft de moeilijkheid aan van een item in een bepaalde populatie. Binnen de IRT is de moeilijkheid van een item gedefinieerd in termen van de onderliggende vaardigheid, zonder enige referentie naar een bepaalde populatie van leerlingen. Zo kan men ook de uitspraak begrijpen dat in de IRT vaardigheid en moeilijkheid op eenzelfde schaal liggen. Kansmodel De ruwe omschrijving van de moeilijkheidsgraad die in de vorige alinea werd gehanteerd (de mate van vaardigheid nodig om het item goed te kunnen beantwoorden) behoeft enige verdere uitwerking. Men zou deze omschrijving kunnen opvatten als een soort drempel: heeft een leerling die mate van vaardigheid niet, dan kan hij het item niet juist beantwoorden; heeft hij die drempel wel gehaald, dan geeft hij (gegarandeerd) het juiste antwoord. Deze interpretatie weerspiegelt een deterministische kijk op het antwoordgedrag van de leerling, die echter in de praktijk geen stand houdt, omdat er uit volgt dat een leerling die een moeilijk item correct beantwoordt geen fout kan maken op een gemakkelijk item. Daarom wordt in de IRT een kansmodel gebruikt: hoe groter de vaardigheid, des te groter de kans dat een item juist wordt beantwoord. De moeilijkheidsgraad van een item wordt dan gedefinieerd als de mate van vaardigheid die nodig is om met een kans van precies een half een juist antwoord te kunnen produceren. Kalibratie In het voorgaande zijn nogal wat veronderstellingen aangevoerd (unidimensionaliteit; alle items zijn indicatoren voor dezelfde vaardigheid; kansmodel) die niet zonder meer voor waar kunnen worden aangenomen; we zullen methoden moeten bedenken om aan te tonen dat al die veronderstellingen deugdelijk zijn. Dit 'aantonen' gebeurt met statistische gereedschappen waarop we in de volgende paragraaf dieper zullen ingaan. Maar voor we de items in een toets kunnen gebruiken moeten we ook proberen de waarden van de moeilijkheidsgraden te achterhalen. Dit gebeurt met een statistische schattingsmethode die wordt toegepast op de itemantwoorden, die bij een steekproef van leerlingen zijn verzameld. Het hele proces van moeilijkheidsgraden schatten en verifiëren of de modelveronderstellingen houdbaar zijn wordt kalibratie of ijking genoemd; de steekproef van leerlingen die hiervoor wordt gebruikt noemen we kalibratiesteekproef. Afnamedesigns Meestal bevat een opgavenbank meer items dan een doorsnee toets, zodat het praktisch niet doenbaar is om alle items aan alle leerlingen voor te leggen. Elke leerling in de kalibratiesteekproef krijgt derhalve slechts een (klein) gedeelte van de items uit de opgavenbank voorgelegd. Dit gedeeltelijk voorleggen moet met de nodige omzichtigheid gebeuren. Verderop wordt ingegaan op het afnamedesign dat voor de kalibratie is gebruikt (een 'onvolledig design'); we verwijzen de geïnteresseerde lezer naar Eggen (1993). Belangrijke implicaties gekalibreerde opgavenverzameling Als we erin slagen de kalibratie met succes uit te voeren houden we een zogenaamde gekalibreerde itembank over. In dat kalibratieproces worden de items die niet passen bij de verzameling uit de collectie verwijderd. De opgavenbank bevat voor elk item niet alleen zijn feitelijke inhoud, maar ook zijn psychometrische eigenschappen, en de statistische zekerheid dat alle items dezelfde vaardigheid aanspreken. Dit houdt onder meer het volgende in: 1. In principe kunnen we met een willekeurige selectie items uit de bank de vaardigheid meten bij een willekeurige leerling. In principe, want een willekeurige toets die uit de itembank wordt getrokken zal in 13 de praktijk meestal niet voldoen omdat het meetresultaat (de schatting van de vaardigheid) onvoldoende nauwkeurig zal zijn. Willen we een nauwkeuriger meting (bij een gegeven aantal items in de toets) dan zullen we de moeilijkheidsgraden van de items in overeenstemming moeten brengen met het vaardigheidsniveau van de leerlingen. Het voorgaande geldt tevens voor de digitale items. Ook deze items komen uit de itembank Spelling. Dus ook met een selectie van digitale items kan de vaardigheid van een leerling bepaald worden. Al hetgeen dat geldt voor de 'papieren' items uit de itembank Spelling geldt ook voor 'digitale' items uit dezelfde itembank. 2. We kunnen een schatting maken van de verdeling van de vaardigheid in een welomschreven populatie, door selecties van items voor te leggen aan aselecte steekproeven van leerlingen uit populaties die van belang zijn voor de normering. In het geval van het Cito Volgsysteem zijn dat steekproeven van leerlingen op de verschillende normeringsmomenten vanaf eind groep 3 (E3) tot eind groep 8 (E8). Daarbij maakt het, behoudens wat bij 1 is vermeld over nauwkeurigheid, niet uit welke selectie van items aan een leerling binnen een normeringsgroep wordt afgenomen. Een van de eigenschappen van gekalibreerde itembanken is immers dat met elke selectie items de vaardigheid van leerlingen kan worden bepaald. Zie voor een voorbeeld hiervan Staphorsius (1994). In de praktijk komt dit meestal neer op het schatten van gemiddelde en standaardafwijking in de veronderstelling dat de vaardigheid normaal verdeeld is. Met deze uitkomsten kunnen dan ook weer schattingen gemaakt worden van de percentielen in de populatie. 3. Aan leerlingen die niet behoren tot de betreffende referentiepopulatie kan dezelfde toets worden voorgelegd. De toetsscore wordt omgezet in een schatting van de vaardigheid en deze schatting kan geplaatst worden in de vaardigheidsverdeling van de populatie. Een leerling met achterstand in groep 8 kan een toets maken die normaliter aan groep 6 wordt voorgelegd, en zijn of haar vaardigheidsschatting kan behalve met de populatie van groep 8 ook vergeleken worden met de populatie van groep 6, met bijvoorbeeld de uitspraak: “De vaardigheid van deze leerling komt overeen met de mediane vaardigheid in groep 6.” 4. De vergelijking die bij punt 3 gemaakt is, kan evengoed plaatsvinden als de (achterstands)leerling een andere toets (i.e. een selectie uit de opgavenbank) maakt dan de toets die normaliter aan groep 6 wordt voorgelegd. Immers het kalibratieonderzoek heeft ons overtuigd dat alle items dezelfde vaardigheid meten. Met een nieuwe toets meten we dus dezelfde vaardigheid, zodat schattingen die van verschillende toetsen afkomstig zijn zinvol met elkaar kunnen worden vergeleken. Tot zover onze nadere bepaling van het begrip ‘opgavenbank’. In de volgende hoofdstukken van dit deel van de verantwoording worden de begrippen die hierboven aan de orde zijn geweest nader uitgewerkt en toegelicht voor de opgavenbank Spelling. Voor de verantwoording van de constructie van deze opgavenbank verwijzen we naar hoofdstuk 3. In hoofdstuk 6 wordt de validering van de opgavenbanken besproken. Het gehanteerde meetmodel In het normeringsonderzoek is gebruikgemaakt van een op de itemresponstheorie (IRT) gebaseerd meetmodel zoals dat bij Cito gebruikelijk is. Dergelijke modellen verschillen in een aantal opzichten nogal sterk van de klassieke testtheorie (Verhelst, 1993; Verhelst en Glas, 1995). Bij de klassieke testtheorie staan de toets en de toetsscore centraal. Het theoretisch belangrijkste begrip in deze theorie is de zogenaamde ware score, de gemiddelde score die de persoon zou behalen indien de test een oneindig aantal keren onder dezelfde condities zou worden afgenomen. Die notie geeft een van de belangrijkste (praktische) obstakels van deze theorie voor ons onderzoek weer: het is problematisch om toetsscores te vergelijken die verkregen zijn in een onvolledig design. Hoewel er methoden bestaan binnen de klassieke testtheorie om toetsscores te equivaleren (Engelen & Eggen, 1993), schiet deze benadering tekort als het gaat om de centrale vraag: hoe weten we dat de equivalering zinvol is? Op die vraag heeft IRT een antwoord. In de IRT staat het te meten begrip of de te meten eigenschap centraal. De IRT beschouwt het antwoord op een item als een indicator voor de mate waarin die eigenschap aanwezig is. Het verband tussen eigenschap en itemantwoord is van probabilistische aard en wordt weergegeven in de zogenaamde 14 itemresponsfunctie. Die geeft aan hoe groot de kans is op een correct antwoord als functie van de onderliggende eigenschap of vaardigheid. Formeler: zij Xi de toevalsvariabele die het antwoord op item i voorstelt. Xi neemt de waarde 1 aan in geval van een correct antwoord en 0 in geval van een fout antwoord. Als symbool voor de vaardigheid kiezen we θ (theta). We wijzen erop dat θ niet rechtstreeks observeerbaar is. Dat zijn alleen de antwoorden op de opgaven. Dat is de reden waarom θ een 'latente' variabele wordt genoemd2. De itemresponsfunctie fi(θ) is gedefinieerd als een conditionele kans: f i ( ) = P ( X i = 1 | ) (2.1) Een IRT-model is een speciale toepassing van (2.1) waarbij aan de functie fi(θ) een meer of minder specifieke functionele vorm wordt toegekend. Een eenvoudig en zeer populair voorbeeld is het zogenaamde Raschmodel (Rasch, 1960) waarin fi(θ) gegeven is door f i ( )= exp ( - i ) 1 + exp ( - i ) (2.2) waarin βi de moeilijkheidsparameter van item i is. Dat is een onbekende grootheid die geschat wordt uit de observaties. De grafiek van (2.2) is weergegeven in figuur 2.1 voor twee items, i en j, die in moeilijkheid verschillen. Deze figuur illustreert dat de itemresponsfunctie een stijgende functie is van θ: hoe groter de vaardigheid, des te groter de kans op een juist antwoord. Indien de latente vaardigheid precies gelijk is aan de moeilijkheidsparameter βi, krijgen we f i ( i )= exp ( i - i ) 1 1 = = 1 + exp ( i - i ) 1 + 1 2 (2.3) Daaruit volgt onmiddellijk een interpretatie voor de parameter βi: het is de 'hoeveelheid' vaardigheid die nodig is voor de kans van precies een half om het item i juist te beantwoorden. Uit de figuur blijkt duidelijk dat voor item j een grotere vaardigheid nodig is om diezelfde kans te bereiken, maar dit is hetzelfde als te zeggen dat item j moeilijker is dan item i. We kunnen de parameter βi dus terecht omschrijven als de moeilijkheidsparameter van item i. De implicatie van het bovenstaande is dat 'moeilijkheid' en 'vaardigheid' op dezelfde schaal liggen. Figuur 2.1 2 Twee itemresponscurven in het Raschmodel Dit maakt duidelijk waarom men de modellen die ressorteren onder de IRT ook wel aanduidt met 'latente trek'-modellen. 15 Formule (2.2) is geen beschrijving van de werkelijkheid, het is een hypothese over de werkelijkheid die getoetst kan worden op haar houdbaarheid. Hoe zo'n toetsing grofweg verloopt, is te verduidelijken aan de hand van figuur 2.1. Daaruit blijkt dat, voor welk vaardigheidsniveau dan ook, de kans om item j juist te beantwoorden steeds kleiner is dan de kans op een juist antwoord op item i. Daaruit volgt de statistisch te toetsen voorspelling dat de verwachte proportie juiste antwoorden op item j kleiner is dan op item i in een willekeurige steekproef van personen. Splitst men nu een grote steekproef in twee deelsteekproeven, een 'laaggroep' met de vijftig procent laagste scores en een 'hooggroep' met de vijftig procent hoogste scores, dan kan men nagaan of de geobserveerde p-waarden van de opgaven in beide deelsteekproeven op dezelfde wijze geordend zijn. Daarvan kan strikt genomen alleen sprake zijn als, in termen van de klassieke testtheorie uitgedrukt, alle opgaven eenzelfde discriminatie-index hebben. Dat echter blijkt lang niet altijd zo te zijn. Ook in ons geval niet. Veel van de items blijken dan ook niet te kunnen worden beschreven met het Raschmodel. Daarom is bij dit instrument gekozen voor een ander IRT-model. Alvorens het hier gebruikte model te introduceren, is een kanttekening nodig bij het schatten van de moeilijkheidsparameters in het Raschmodel. Een vaak toegepaste schattingsmethode is de 'conditionele grootste aannemelijkheidsmethode' (in het Engels: Conditional Maximum Likelihood, verder aangeduid als CML). Die maakt gebruik van het feit dat in het Raschmodel een afdoende steekproefgrootheid ('sufficient statistic') bestaat voor de latente variabele θ, namelijk de ruwe score of het aantal correct beantwoorde items. Dat betekent grofweg dat, indien de itemparameters bekend zijn, alle informatie die het antwoordpatroon over de vaardigheid bevat, kan worden samengevat in de ruwe score; het doet er dan verder niet meer toe welke opgaven goed en welke fout zijn gemaakt. Hieruit vloeit voort dat de conditionele kans op een juist antwoord op item i, gegeven de ruwe score, een functie is die alleen afhankelijk is van de itemparameters en onafhankelijk van de waarde van θ3. De CML-schattingsmethode maakt van deze functie gebruik. Deze methode maakt geen enkele veronderstelling over de verdeling van de vaardigheid in de populatie, en is ook onafhankelijk van de wijze waarop de steekproef is getrokken. De CML-schattingsmethode is echter niet bij elk meetmodel toepasbaar. In het zogenaamde éénparameter logistisch model (One Parameter Logistic Model, afgekort: OPLM) is CML mogelijk. Dit model is, anders dan het Raschmodel, wel bestand tegen 'omwisseling' van 'proporties juist' in verschillende steekproeven (Glas & Verhelst, 1993; Eggen, 1993; Verhelst & Kleintjes, 1993). De itemresponsfunctie van het OPLM is gegeven door f i ( )= exp [ ai ( - i ) ] 1 + exp [ ai ( - i )] (2.4) , waarin ai de zogenaamde discriminatie-index van het item is. Door deze indices te beperken tot (positieve) gehele getallen, en door ze a priori als constanten in te voeren, is het mogelijk CML-schattingen van de itemparameters βi te maken. In figuur 2.2 is de itemresponscurve weergegeven van twee items i en j, die even moeilijk zijn maar verschillend discrimineren. 3 Een gedetailleerde uiteenzetting hierover kan men vinden in Verhelst, 1992. 16 Figuur 2.2 Twee itemresponscurven in het OPLM: zelfde moeilijkheid, verschillende discriminatie De schattingen worden berekend met het computerprogramma OPLM (Verhelst, Glas en Verstralen, 1995). Dit programma voert ook statistische toetsen uit op grond waarvan kan worden bepaald of het model de gegevens adequaat beschrijft. Omdat een aantal van deze toetsen bijzonder gevoelig is voor een verkeerde specificatie van de discriminatie-indices, zijn de uitkomsten van deze toetsen bruikbaar als modificatieindices: ze geven een aanwijzing in welke richting deze discriminatie-indices moeten worden aangepast om een betere overeenkomst tussen model en gegevens te verkrijgen. Kalibratie van items volgens het OPLM is dan ook een iteratief proces waarin alternerend de modelfit van items wordt onderzocht door middel van statistische toetsing en de waarden van de discriminatie-indices worden aangepast op grond van de resultaten van deze toetsen. Deze aanpassingen geschieden in de praktijk op basis van een en hetzelfde gegevensbestand. Er kan dus kanskapitalisatie optreden. Indien een steekproef een voldoende grootte heeft, is het effect van deze kanskapitalisatie echter gering (Verhelst, Verstralen en Eggen, 1991). Hoewel het OPLM aanzienlijk flexibeler is dan het Raschmodel, heeft het met dit model toch een nadeel gemeen, waardoor het bij het kalibreren van meerkeuzeopgaven niet zonder meer bruikbaar is. Uit de formules (2.2) en (2.4) volgt dat, indien θ zeer klein is, de kans op een juist antwoord zeer dicht in de buurt van nul komt. Maar de items in het normeringsonderzoek zijn meerkeuze-items, zodat blind gokken een zekere kans op een juist antwoord impliceert. Er bestaan modellen die rekening houden met de raadkans (Lord & Novick, 1968), maar die laten geen CML-schattingsmethode toe. De ongeschiktheid van het Raschmodel of OPLM voor meerkeuzevragen is echter relatief: indien de items in vergelijking met de vaardigheid van de leerling niet al te moeilijk zijn, blijkt dat het effect van het raden op de overeenkomst tussen model en gegevens klein is. Door een verstandige dataverzamelingsprocedure toe te passen en met name niet te moeilijke opgaven te selecteren in de toets kan het OPLM toch toegepast worden op meerkeuzevragen, waarbij de overeenkomst tussen model en data de uiteindelijke doorslag over die geschiktheid moet geven. Ook in de normering wordt hiermee rekening gehouden. Voor de schatting van de populatieverdeling wordt gebruikgemaakt van de 'marginale grootste aannemelijkheidsmethode' (in het Engels: Marginal Maximum Likelihood, verder afgekort als MML). Deze schattingsmethode veronderstelt naast (2.2) ook nog dat de vaardigheid θ in de populatie een bepaalde verdeling heeft. De meeste computerprogramma’s die IRT-analyses kunnen uitvoeren, veronderstellen een normale verdeling. Bovendien stelt deze methode de voorwaarde dat de steekproef die voor de schatting gebruikt wordt uit die verdeling een aselecte steekproef is. Omdat leerlingen gevolgd worden, is het mogelijk gelijktijdig de verdelingen op de verschillende normeringsmomenten te schatten. Bij de analyse is gebruikgemaakt van multivariate latente analysetechnieken waarmee gemiddelden en covarianties voor alle variabelen worden geschat in een onvolledig design. Daarvoor hebben we speciale software gebruikt (Multi) in combinatie met het OPLM als meetmodel (Kamphuis, 1992, 1993, Kamphuis en Engelen, 1992). 17 18 3 Beschrijving van de toets 3.1 Opbouw en structuur van de toets De toetsen Spelling niet-werkwoorden voor de jaargroepen 7 en 8 uit het Cito Volgsysteem primair onderwijs, bevatten drie toetsen: M7, E7 en B8/M8, primair bedoeld voor – achtereenvolgens – leerlingen halverwege (medio) groep 7, einde groep 7 en begin groep 8 of halverwege groep 8. De meeste toetsen van het Cito Volgsysteem primair onderwijs worden afgenomen halverwege of op het einde van een leerjaar. De toets voor groep 8 is echter behalve voor ‘midden leerjaar’ ook genormeerd voor ‘begin leerjaar’, halverwege de afnamemomenten E7 en M8. Vandaar de aanduiding B8/M8. De geringe vaardigheidstoename tussen de afname aan het begin en halverwege groep 8 maakt het mogelijk om voor beide afnamemomenten dezelfde toets te gebruiken. Deze toets is dus zowel geschikt voor begin (B8) als voor medio (M8) groep 8. Dit biedt de mogelijkheid om al eind oktober, begin november (dus enkele maanden voordat leerlingen eventueel deelnemen aan de Eindtoets), de stand van zaken in kaart te brengen. Bovendien loopt het afnamemoment M8 parallel aan dat van de Eindtoets Basisonderwijs waaraan veel scholen deelnemen. Dit kan voor veel scholen een bezwaar zijn vanwege de toetsdruk en belasting voor leerlingen. Er is geen toets voor einde groep 8. Van alle toetsen vanaf E3 is een digitale variant beschikbaar. Dit is ook het geval voor de toetsen M7, E7 en B8/M8. De digitale variant bevat precies dezelfde opgaven als de papieren variant, maar nu tikken de leerlingen het gevraagde dicteewoord in via het toetsenbord in plaats van het op te schrijven. Bij de meerkeuzeopgaven klikken zij de zin met het fout gespelde woord aan (in plaats van de letter A, B, C, D vóór de zin te omcirkelen of te noteren). De papieren en de digitale toetsen Spelling bevatten niet alleen dezelfde opgaven, ook de modulaire opbouw van beide toetsvarianten is identiek. Omdat de spellingvaardigheid van leerlingen in één groep sterk kan uiteenlopen, zijn voor ieder afnamemoment twee in moeilijkheid verschillende toetsen samengesteld, die leerkrachten gedifferentieerd kunnen toewijzen aan hun leerlingen. De opgaven in de toetsen Spelling van het Cito Volgsysteem zijn daartoe per afnamemoment verdeeld over drie toetsmodules. Deze drie modules verschillen in moeilijkheid en maken vertakt toetsen (multistage testing) mogelijk. (Zie voor de informatiewinst bij vertakt toetsen: Verhelst, 1989.) De modules in de toets Spelling M7 zijn: M7 Start, M7 Vervolg 1 en M7 Vervolg 2. M7 Start past bij de gemiddelde vaardigheid van leerlingen halverwege jaargroep 7. M7 Vervolg 1 is gemakkelijker dan M7 Start en M7 Vervolg 2 is moeilijker dan M7 Start. Alle leerlingen in groep 7 maken eerst M7 Start. Minder goede spellers maken daarna M7 Vervolg 1; de betere spellers maken M7 Vervolg 2. (Zie ook figuur 3.1.) Eenzelfde modulering van deeltoetsen is gehanteerd voor alle toetsen Spelling vanaf M3. Dit geldt dus ook voor de toetsen E7 en B8/M8. De startmodule wordt door alle leerlingen in de groep gemaakt; na de startmodule wordt de groep gesplitst en maakt elke leerling de vervolgmodule die het best aansluit bij zijn of haar spellingvaardigheid. In de handleiding bij elk toetspakket wordt voor elke toets aangegeven bij welke score op de startmodule welke vervolgmodule het best passend is. In paragraaf 5.2 van deze verantwoording wordt uitgelegd hoe deze 'cut-off score' wordt bepaald. 19 Figuur 3.1 Vertakt toetsen in LOVS Spelling module Vervolg 1 de minder goede spellers module Start alle leerlingen in de groep module Vervolg 2 de betere spellers De toetsmodules voor groep 7 en 8 bevatten elk 30 opgaven. In totaal maken de leerlingen dan dus 60 opgaven. Ondanks het feit dat bij adaptief toetsen niet alle leerlingen dezelfde toets maken, biedt het gehanteerde meetmodel de mogelijkheid om leerlingen met elkaar en met de leerlingen in de landelijke normgroep te vergelijken. De onderliggende meettechniek voorziet er namelijk in dat iedere ruwe score – op welk van beide combinaties van toetsmodules deze score ook behaald is – kan worden omgezet in een score op één en dezelfde vaardigheidsschaal. De gedifferentieerde toewijzing van opgaven aan leerlingen heeft een belangrijke achtergrond: de meting van de vaardigheid geeft een nauwkeuriger resultaat naarmate de moeilijkheid van de opgaven beter past bij het vaardigheidsniveau van een leerling. En uiteraard is het maken van een toets op maat prettiger voor de leerlingen. De papieren toetsen Spelling worden in principe klassikaal gemaakt. De startmodule bestaat steeds uit dicteeopgaven; een korte mondelinge instructie van de leerkracht volstaat om het principe van het dictee uit te leggen. De leerkracht leest vervolgens de dicteezinnen voor. Hiervoor is een voorleesblad beschikbaar. In de handleiding staat een instructie voor de leerkracht, met daarin concrete aanwijzingen voor de afname van de dicteemodule. Een van de aanwijzingen is om bij het dicteren de woorden waar het om gaat niet overdreven correct uit te spreken, maar eerder zoals dit in het dagelijks taalgebruik gebeurt. Er is destijds voor gekozen geen audioversie van de dicteemodule bij te leveren. De toets sluit zo aan bij wat leerlingen al gewend zijn uit de dagelijkse praktijk. De toets zou wellicht nog aan betrouwbaarheid winnen als voor de dicteeopgaven een audioversie bijgeleverd werd. Immers, dan krijgen alle leerlingen precies dezelfde uitspraak van de dicteezinnen te horen en is er zeker geen beïnvloeding van de toetsresultaten door dialect of overdreven dictie. Dat vraagt natuurlijk wel dat leerkrachten consequent de audioversie gebruiken en daarvan kunnen we niet zeker zijn. Ook zonder gebruik van een audioversie scoren de toetsen overigens hoog op betrouwbaarheid (zie ook hoofdstuk 5). De vervolgmodules voor groep 7 en 8 bestaan uit meerkeuzeopgaven. Voor Vervolg 1 en Vervolg 2 zal de leerkracht de leerlingen dus opnieuw een klassikale instructie moeten geven, maar nu over het invullen van de meerkeuzeopgaven. Leerlingen noteren hun antwoorden op losse antwoordbladen. Van alle toetsen voor groep 7 en 8 is ook een digitale versie beschikbaar. De digitale toetsen Spelling bestaan uit dezelfde opgaven als de papieren toetsen Spelling. Uit onderzoeken waarin de papieren en de digitale versie met elkaar zijn vergeleken, is gebleken dat de resultaten op papieren en digitale toetsen uitwisselbaar zijn (zie voor meer informatie hierover ook hoofdstuk 4). De digitale toetsen Spelling worden individueel gemaakt. Afhankelijk van het aantal beschikbare computers kunnen meerdere leerlingen gelijktijdig aan dezelfde toets werken. Bij de digitale versies van de toetsen wordt in de dicteemodules bij elke opgave automatisch het bijbehorende geluidsfragment afgespeeld. De leerling kan desgewenst (door het klikken op een oortje op het beeldscherm) het geluidsfragment nogmaals beluisteren. De opgaven in de meerkeuzemodules worden in principe niet voorgelezen. Voor dyslectische leerlingen en leerlingen met ernstige leesproblemen bestaat echter die mogelijkheid wel. Zij moeten daartoe bij elke meerkeuzeopgave op het oortje klikken dat staat weergegeven in het scherm. 20 De toetsen Spelling zijn zowel handmatig na te kijken en te analyseren als via de computer met behulp van het Computerprogramma LOVS. Voor het handmatig nakijken van iedere toets kan gebruikgemaakt worden van een lijst met goede antwoorden, die in de bijlage van de handleiding is opgenomen. Indien gewenst kan de leerkracht in het Computerprogramma LOVS de goede antwoorden aanklikken. Bij de digitale versies van de toetsen worden de antwoorden van de leerlingen door de computer gescoord en hoeft de leerkracht de toetsen dus niet zelf na te kijken. Na de toetsafname en de correctie van de leerlingantwoorden kunnen de toetsresultaten verwerkt worden op speciaal ontwikkelde rapportageformulieren. In de handleiding bij de toetspakketten Spelling (hoofdstuk 4: Interpretatie en gebruik op leerlingniveau en hoofdstuk 5: Interpretatie en gebruik op schoolniveau) en de handleiding bij het computerprogramma (module schoolzelfevaluatie) worden de mogelijkheden besproken om verschillende soorten overzichten te maken, zoals leerlingrapporten, groepsrapporten, dwarsdoorsneden en trendanalyses. Met behulp van deze overzichten kan de kwaliteit van het gegeven onderwijs ook op groepsniveau en schoolniveau geanalyseerd worden. 3.2 Inhoudsverantwoording In deze paragraaf geven wij eerst een beschrijving van de opgaventypen in de toetsen Spelling nietwerkwoorden voor groep 7 en 8. Vervolgens beschrijven wij de gedetailleerde uitkomsten van het methodeonderzoek dat ten grondslag lag aan de keuze voor de spellingcategorieën in de toetsen en geven we een overzicht van spellingcategorieën uit het Cito Volgsysteem met de aantallen opgaven per spellingcategorie. Ten slotte beschrijven we de selectiecriteria die gebruikt zijn bij de keuze van de opgaven in de toetsen Spelling. De informatie in deze paragraaf vormt een aanvulling op de Inhoudsverantwoording die opgenomen is in de toetspakketten Spelling. In de Inhoudsverantwoording in het toetspakket staat per jaargroep en afnamemoment een overzicht van alle getoetste woorden en informatie over de moeilijkheid van elk woord (in de vorm van grafieken). Ook vindt u daar een toelichting bij het totaaloverzicht van spellingcategorieën voor groep 3 tot en met 8, gevolgd door een beschrijving van het methodeonderzoek op basis waarvan het overzicht van spellingcategorieën is ontwikkeld. Dat categorieënoverzicht is in elk toetspakket als bijlage achter in de Inhoudsverantwoording opgenomen. Opgaventypen in de toetsen Spelling De toetsen Spelling voor groep 7 en 8 bevatten twee soorten opgaven: – zinsdictee (module M7 Start, E7 Start en B8/M8 Start); – meerkeuzeopgaven (module M7 Vervolg 1, M7 Vervolg 2, E7 Vervolg 1, E7 Vervolg 2, B8/M8 Vervolg 1 en B8M8 Vervolg 2) De toetsen Spelling voor groep 7 en 8 bevatten steeds een module Start met alleen opgaven zinsdictee. Bij een zinsdictee leest de leerkracht (of in het geval van de digitale toets: de voorleesstem) een zin voor en herhaalt vervolgens uit deze zin één woord. Dat woord moeten de leerlingen opschrijven. Door de toetswoorden in zinsverband aan te bieden is twijfel over welk woord bedoeld wordt vrijwel uitgesloten. Alle vervolgmodules van de toetsen Spelling voor groep 7 en 8 bestaan uit meerkeuzeopgaven. Een meerkeuzeopgave bestaat uit vier losse zinnen, die elk één dikgedrukt woord bevatten. Eén van de vier dikgedrukte woorden is fout gespeld. De leerlingen moeten aangeven in welke zin het fout gespelde woord staat. Bij de beslissing om naast dicteeopgaven ook meerkeuzeopgaven op te nemen in de toetsen Spelling speelden de volgende overwegingen een rol: Spelling kent een actieve kant (zelf foutloos woorden schrijven) en een passieve kant (fouten in geschreven tekst herkennen en verbeteren). De actieve kant staat natuurlijk voorop. Het zelf kunnen schrijven van begrijpelijke en correct gespelde teksten is een heel belangrijke communicatieve vaardigheid. Met behulp van dictees en invuloefeningen kun je toetsen hoe deze vaardigheid zich bij de leerling ontwikkelt. De passieve kant van spelling komt op de tweede plaats. Ook deze vaardigheid is echter niet onbelangrijk. Als leerlingen een tekst geschreven hebben, staan daar meestal toch nog 21 wat foutjes in. Het is dan zaak dat zij geleerd hebben deze fouten op te sporen en te verbeteren. Anders heeft het weinig zin om hen te vragen hun eigen werk nog eens na te kijken voor ze het inleveren. Foutenherkenning kan getoetst worden met meerkeuzeopgaven of met open opgaven, waarbij de leerling het fout geschreven woord moet verbeteren. Bij de hierboven beschreven twee kanten van spelling gaat het niet precies om dezelfde vaardigheden. Er is een duidelijke relatie tussen beide, maar de correlatie is niet 100%. Dat blijkt uit onze proefafnames en normeringsonderzoeken. Leerlingen die goed zijn in het zelf foutloos schrijven, zijn vaak ook goed in het herkennen van fouten – – maar niet altijd. En andersom is het net zo: leerlingen die snel fouten herkennen, kunnen vaak zelf ook goed schrijven – maar niet altijd. De vroegere SVS (Schaal Vorderingen in Spellingvaardigheid, de voorloper van de toetsen uit het Cito Volgsysteem primair onderwijs) bestond geheel uit dictee-opgaven. Het onderdeel Spelling in de Eindtoets Basisonderwijs en de Entreetoets bestaat uitsluitend uit meerkeuzeopgaven. Al deze toetsen maken deel uit van het Cito Volgsysteem primair onderwijs. We proberen de toetsen in het Cito Volgsysteem primair onderwijs zo optimaal mogelijk op elkaar af te stemmen, ook qua opgavenvorm. Het is niet de verwachting dat de Eindtoets ooit (deels) uit open opgaven zal bestaan. Daarvoor zijn de aantallen leerlingen te groot en is de verwerkingstijd van de resultaten te kort. Aansluiting moest dus vanuit de toetsen Spelling komen. Dat was ook een reden om ook meerkeuzeopgaven op te nemen in de huidige toetsen Spelling. Leerlingen die nog niet zo lang spellingonderwijs hebben en daarnaast ook niet zo goed kunnen spellen, kunnen in verwarring gebracht worden door het zien van fout gespelde woorden. Dat is de reden waarom we in de huidige toetsen Spelling voor groep 4 en 5 in principe alleen de betere spellers meerkeuzeopgaven voorleggen. Het zou natuurlijk raar zijn als juist de zwakkere spellers pas bij afname van de Entreetoets of de Eindtoets met meerkeuzeopgaven voor spelling geconfronteerd worden, terwijl de betere spellers al vertrouwd zijn met deze opgavenvorm. Vandaar dat we in de huidige toetsen Spelling vanaf groep 6 ook de zwakkere spellers meerkeuzeopgaven voorleggen. Vanzelfsprekend sluit het niveau van deze meerkeuzeopgaven goed aan bij het niveau van de spellingvaardigheid van de zwakkere speller. Overigens bleek dat de verschillende opgaventypen die in de toetsen Spelling gebruikt worden (woorddictee (groep 3), zinsdictee, meerkeuzeopgave) wel alle drie op één en dezelfde schaal te plaatsen waren. Dat betekent dat alle opgaven iets zeggen over de spellingvaardigheid. Spellingcategorieën in Nederlandse taalmethoden De opgaven in de toetsen Spelling maken deel uit van een omvangrijke opgavenbank die gevuld is met woorden die enerzijds ondergebracht zijn in verschillende opgavenvormen (woorddictee, zinsdictee, meerkeuzeopgave) en anderzijds in verschillende spellingcategorieën. Deze spellingcategorieën (48 in totaal) zijn gebaseerd op de spellingkwesties die we eind 2005 en begin 2006 aantroffen in zeven veel gebruikte onderwijsmethoden: methode Taalactief Taaljournaal Taalleesland Taaltijd Taalverhaal Veilig leren lezen Zin in taal Uitgever Uitgeverij Malmberg, ’s-Hertogenbosch Uitgeverij Malmberg, ’s-Hertogenbosch Bekadidact, Baarn Wolters-Noordhoff, Groningen ThiemeMeulenhoff, Utrecht/Zutphen Uitgeverij Zwijsen B.V., Tilburg Uitgeverij Zwijsen B.V., Tilburg 22 jaar van uitgave 2003 2003 1995-1999 1995-1999 2002-2003 2003 1996-2001 Uit een onderzoek van Cito in 2005 naar leesvaardigheid in het basisonderwijs (in het kader van het onderzoeksproject Periodieke Peiling van het Onderwijsniveau) blijkt dat deze taalmethoden in het onderwijs het meest gebruikt worden.4 De gedetailleerde resultaten van het methodeonderzoek zijn te vinden in bijlage 1. Om de daar afgebeelde tabel te kunnen interpreteren, volgt hier een korte beschrijving van het onderzoek en de gehanteerde werkwijze. Als uitgangspunt voor het methodeonderzoek dienden de in totaal 40 spellingcategorieën die in de handleiding en de hulpboeken bij de toetsen Schaal Vorderingen in Spellingvaardigheid (SVS, de voorloper van de toetsen Spelling van het Cito Volgsysteem) staan. Van elke daar genoemde categorie werd bekeken of de betreffende spellingkwestie expliciet aan de orde kwam in de spellingleergang en zo ja, op welk moment. Om het moment van behandeling te bepalen, hebben we in eerste instantie gezocht naar aanwijzingen in de handleiding bij de leergang. Als daar bijvoorbeeld stond dat de lessen 1 tot en met 5 bedoeld waren voor het eerste semester en de lessen 6 tot en met 9 voor het tweede semester, dan hebben we spellingkwesties die in de eerste vijf lessen aan de orde kwamen de aanduiding 'm' meegegeven en spellingkwesties die in de laatste vier lessen aan de orde kwamen de aanduiding 'e'. De 'm' staat dan voor: is behandeld en zou getoetst kunnen worden op het mediomoment; de 'e' staat voor: is behandeld en zou getoetst kunnen worden op het eindmoment. Door de 'm' en 'e' te koppelen aan het leerjaar, konden we per categorie per leergang aangeven wanneer de betreffende spellingkwestie aan de orde werd gesteld, bijvoorbeeld '4m' betekende dat de spellingkwestie in groep 4 aan de orde kwam, in de eerste helft van het schooljaar. Als in de handleiding bij de leergang geen duidelijke planning werd gegeven voor het verdelen van de lessen over het schooljaar, dan hebben we het totale aantal lessen voor een bepaald jaar in twee gelijke delen gesplitst en de spellingkwesties in het eerste deel de aanduiding 'm' en in het tweede deel de aanduiding 'e' gegeven. Bij een oneven aantal lessen kreeg de middelste les de aanduiding 'e'. Categorieën die in een leergang op verschillende tijdstippen aan bod komen, werden voorzien van alle relevante aanduidingen (bijvoorbeeld '4m,5me' betekent dat een categorie voor het eerst behandeld wordt in groep 4, in de eerste helft van het schooljaar, en dat de categorie opnieuw behandeld wordt in groep 5, zowel in de eerste als in de tweede helft van het schooljaar). Een grijs gearceerd vakje in de tabel geeft aan dat betreffende spellingcategorie in de methode niet expliciet aan de orde kwam. Omgekeerd kwam het ook voor dat taalmethoden categorieën aanboden die niet in het SVS-overzicht stonden. Een voorbeeld daarvan is de categorie die in bijlage 1 wordt aangeduid met 'xx' (tussen categorie 7 en categorie 8): éénof tweelettergrepige woorden met f-, v-, s- of z-. Nadat alle SVS-spellingcategorieën voorzien waren van een aanduiding van het leerjaar en het moment van behandelen (zie bijlage 1), hebben we gekeken of er categorieën bijgesteld moesten worden qua omschrijving en/of moment van toetsafname. De categorieënindeling van de oude SVS-toetsen bleek niet meer goed aan te sluiten bij de moderne taalmethoden. Voor de nieuwe toetsen Spelling is daarom een nieuw categorieënoverzicht gemaakt, het 'Overzicht spellingcategorieën in de toetsen Spelling', dat is opgenomen in elk toetspakket Spelling. Dit nieuwe categorieënoverzicht verschilt in twee opzichten van het oude SVS-overzicht: 1. Het nieuwe overzicht bevat in totaal 48 spellingcategorieën in plaats van de 40 categorieën van de SVS, omdat in de methoden meer dan 40 verschillende categorieën aan bod bleken te komen. De meeste nieuwe categorieën komen voor in de hogere leerjaren. Belangrijke categorieën die voorheen ontbraken zijn bijvoorbeeld die van de Franse leenwoorden (categorie 38) en die van de Engelse leenwoorden (categorie 39). Beide worden zowel in groep 7 als in groep 8 getoetst. In totaal zijn er acht spellingcategorieën toegevoegd. Deze categorieën zijn 'tussengeschoven' in het overzicht op een plaats die recht doet aan het moment waarop de categorie getoetst wordt. Een consequentie van het invoegen van nieuwe categorieën is dat de categorienummers van daaropvolgende categorieën veranderen (volgnummers schuiven op). 4 De rapportage van dit onderzoek is in 2007 verschenen in de vorm van twee balansen, Balans van het leesonderwijs aan het einde van de basisschool en Balans van het leesonderwijs halverwege de basisschool. 23 2. Een tweede wijziging betreft niet de categorieën zelf, maar het moment waarop deze in het onderwijs (en dus ook in de toetsen) aan bod komen. Het afnamemoment in de SVS-toetsen sloot niet altijd meer aan bij het aanbiedingsmoment in de methoden. Bijvoorbeeld categorie 22 (verandering van -f in -v- en -s in -z- bij vervoeging en meervoudsvorming) kwam in de SVS-toetsen voor vanaf afnamemoment M4, maar uit het onderzoek bleek dat vier methoden deze spellingkwestie pas voor het eerst in de loop van groep 5 behandelen. In de nieuwe toetsen Spelling is dan ook besloten deze categorie pas vanaf afnamemoment E5 te toetsen. Bij andere categorieën was een tegengestelde beweging waar te nemen. Bijvoorbeeld categorie 16+ (meerlettergrepige woorden met au, auw, ou of ouw) kwam in de SVS-toetsen voor vanaf afnamemoment M6, maar vijf methoden behandelen deze kwestie al in groep 5. Omdat we graag zo goed mogelijk willen aansluiten bij wat in het onderwijs gebruikelijk is, wordt categorie 16+ in de nieuwe toetsen Spelling al vanaf afnamemoment E5 getoetst. Ook het verschuiven van het afnamemoment van spellingcategorieën heeft consequenties voor de nummering in het categorieënoverzicht. Immers de categorieën in het overzicht zijn in principe gerangschikt naar het moment van toetsing. Het uitgangspunt bij de keuze voor het wel of niet opnemen van een spellingcategorie in de nieuwe toetsen Spelling was dat de betreffende categorie op het beoogde moment van afname in ten minste vier van de zeven (eigenlijk zes) taalmethoden expliciet aan de orde moest zijn geweest. De consequentie van dit uitgangspunt is dat er soms categorieën in de toetsen zijn opgenomen die op het moment van toetsafname nog niet in alle methoden aan bod gekomen zijn. Toch hebben wij er bewust voor gekozen niet te wachten met het opnemen van een categorie tot deze in alle (zes van de zes) onderzochte methoden behandeld is. Een ongewenst gevolg van wachten zou zijn dat er in de toetsen voor groep 4 en groep 5 bijna geen nieuwe categorieën aan bod zouden komen (in die twee leerjaren zijn de verschillen tussen de methoden het grootst), terwijl in groep 6 ineens een grote hoeveelheid nieuwe spellingproblemen een plaats zou moeten krijgen in de toetsen. Daarnaast zou het voor een deel van de leerlingen dan erg lang duren voor een bij hen vroeg behandelde categorie getoetst werd. In groep 6 zijn de verschillen tussen de taalmethoden goeddeels bijgetrokken en voor groep 7 en 8 speelt dit probleem dus niet meer. Voor de aansluiting van de toetsen Spelling bij het gegeven onderwijs zou het natuurlijk ideaal zijn als alle taalmethoden eenzelfde aanbiedingsvolgorde van spellingcategorieën zouden hanteren. Dat is echter niet het geval. Spellingcategorieën in de toetsen Spelling van het Cito Volgsysteem primair onderwijs Per toets (per afnamemoment) komt slechts een deel van de in totaal 48 spellingcategorieën aan de orde. In de onderstaande tabel is opgenomen welke categorieën deel uitmaken van welke toets Spelling en hoeveel opgaven het betreft. Deze verantwoording betreft de toetsen voor groep 7 en 8. In deze groepen komen 17 categorieën aan de orde. Voor de volledigheid zijn in de tabel hieronder alle categorieën van groep 3 tot en met groep 8 opgenomen. Het gaat dan om 48 spellingcategorieën. Omwille van de hanteerbaarheid van de tabel is per afnamemoment telkens het totaal aantal opgaven per categorie gegeven. Dat komt niet overeen met het aantal opgaven dat daadwerkelijk door een individuele leerling wordt gemaakt. Immers elke leerling maakt eerst module Start en daarna ofwel module Vervolg 1 ofwel module Vervolg 2; nooit allebei de vervolgmodules. Leerlingen maken dus ongeveer tweederde deel van de hieronder genoemde aantallen opgaven. In de Inhoudsverantwoording in elk toetspakket Spelling staan de precieze aantallen opgaven vermeld per afnamemoment per categorie per combinatie van startmodule en vervolgmodule. Onderstaande tabel biedt een samenvatting van de overzichten in de verschillende Inhoudsverantwoordingen. Er wordt op twee manieren samengevat: enerzijds worden de aantallen opgaven in de modules Start, Vervolg 1 en Vervolg 2 bij elkaar opgeteld tot de totalen in de kolommen onder elk afnamemoment; anderzijds worden de spellingcategorieën alleen weergegeven met hun nummer, niet aangevuld met eventuele 'plussen'. In het uitgebreide overzicht van spellingcategorieën dat als bijlage in elk toetspakket Spelling is opgenomen, worden categorieën die in meerdere (clusters van) leerjaren aan de orde komen, in de latere leerjaren voorzien van een + (of zelfs een ++) om de toenemende moeilijkheid en woordlengte aan te geven. Het spellingprobleem waar het om gaat verandert daarmee echter niet wezenlijk (bijvoorbeeld categorie 11: woorden met ei of ij). In de tabel hieronder zijn de plussen weggelaten. 24 Figuur 3.2 Cat. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 Spellingcategorieën in de toetsen Spelling groep 3 tot en met groep 8 van het Cito Volgsysteem primair onderwijs. Omschrijving mkm-woorden mmkm- en mkmm-woorden mmkmm-woorden tussenklank die niet geschreven wordt meer dan twee medeklinkers na elkaar woorden met sch of schr woorden met ng of nk woorden met (-)f-, (-)v-, (-)s- of (-)zverkleinwoorden met -je, -(e)tje, -pje woorden met ge-, be-, ver-, -el, -er, -en woorden met ei of ij woorden met aai, ooi of oei samengestelde woorden woorden met eer, oor of eur woorden met -a, -o of -u woorden met au(w) of ou(w) woorden met ch of cht woorden met -d(-) woorden met eeuw, ieuw of uw woorden met open lettergreep woorden met gesloten lettergreep verandering van -f(-) in -v- en -s(-) in -zwoorden met -em, -elen, -enen, -eren woorden met -lijk of -ig /ie/ wordt geschreven als i /s/ wordt geschreven als c /k/ wordt geschreven als c /zju/ wordt geschreven als ge woorden met 's woorden met -tie woorden met -teit of -heid woorden met (-)y(-) woorden met -b tussenletters -n- en -s- in samenstellingen koppelteken in samenstellingen woorden met een trema woorden met een hoofdletter Franse leenwoorden Engelse leenwoorden woorden waarin /t/ geschreven wordt als th woorden met -sch(e) woorden met -iaal, -ieel, -ueel of -eaal meervoud van woorden op onbeklemtoonde -es, -ik of -et woorden waarin /ks/ geschreven wordt als x stoffelijke bijvoeglijke naamwoorden verkleinwoorden met -aatje, -ootje, -uutje en met de uitgang -nkje woorden met open en/of gesloten lettergreep restwoorden 25 M3 E3 M4 26 7 49 9 4 14 3 12 7 10 4 10 5 13 5 5 4 6 6 6 7 7 6 E4 M5 E5 M6 E6 M7 E7 M8 6 6 6 3 6 6 6 6 7 6 5 6 6 4 5 4 5 5 4 5 5 4 6 5 5 6 5 7 6 5 5 9 5 6 9 5 7 6 6 5 6 6 5 5 5 7 4 5 6 7 6 10 6 6 5 7 6 6 7 6 6 8 9 5 5 7 6 8 7 6 7 7 6 6 6 6 6 6 5 6 5 6 4 4 6 6 4 5 5 9 4 5 6 4 5 5 5 5 7 6 6 4 5 6 5 5 6 3 6 2 5 6 5 5 5 6 6 5 5 De totale aantallen opgaven per toets Spelling zijn gemakkelijk uit bovenstaande tabel af te leiden door de aantallen opgaven per kolom bij elkaar op te tellen. De toetsen in groep 3, 4 en 5 bevatten 75 opgaven verdeeld over drie modules (elke leerling maakt 50 opgaven); de toetsen vanaf groep 6 bevatten 90 opgaven verdeeld over drie modules (elke leerling maakt 60 opgaven). De reden dat vanaf groep 6 de modules langer worden, is gelegen in het toenemend aantal spellingcategorieën dat aan bod moet komen. Leerlingen in de bovenbouw van het basisonderwijs lezen en schrijven over het algemeen sneller dan leerlingen in de lagere groepen, zodat in de praktijk de afnametijd per module niet of nauwelijks toeneemt door de vijf extra opgaven vanaf groep 6. Selectie van opgaven voor de toetsen Spelling Alle opgaven die in de toetsen Spelling zijn opgenomen werden speciaal voor deze toetsen geconstrueerd door twee verschillende constructiegroepen, voornamelijk bestaande uit leerkrachten uit het basisonderwijs. De eerste groep was werkzaam in 2004 en 2005 en heeft opgaven gemaakt voor de groepen 3, 4 en 5. De tweede groep was werkzaam in 2006 en 2007 en heeft opgaven gemaakt voor de groepen 6, 7 en 8. De opgaven zijn eerst in een proefafname voorgelegd aan leerlingen in de jaargroepen waarvoor ze bedoeld waren (waarbij elke opgave door minimaal 200 leerlingen gemaakt is). Het doel van dergelijke proefafnames is het verkrijgen van informatie over de moeilijkheid van elke opgave. Tevens kunnen eventuele slecht functionerende opgaven (bijvoorbeeld opgaven die vaker door goede spellers dan door minder goede spellers fout gemaakt worden) geïdentificeerd en verwijderd worden. Daarnaast hebben wij de proefafname aangegrepen als een mogelijkheid om aan de deelnemende leerkrachten te vragen of zij inhoudelijke of andersoortige bezwaren hadden tegen bepaalde opgaven of toetswoorden. Sommige leerkrachten gaven aan dat zij sommige opgaven nogal moeilijk vonden. Uit de proefafnameresultaten kwamen de betreffende opgaven echter niet als (te) moeilijk naar voren. Alle opgaven met een acceptabele moeilijkheid (in klassieke termen een p-waarde tussen .40 en .90) die door de betere spellers significant vaker goed werden gemaakt dan door de minder goede spellers (rir vanaf .20) kwamen in principe in aanmerking voor opname in de definitieve toetsen Spelling. Voor sommige spellingcategorieën bleken er na afloop van de proefafname te weinig psychometrisch acceptabele opgaven over te blijven. Voor die categorieën werden na de proefafname nog nieuwe opgaven geconstrueerd. De opgaven die uit de proefafname waren overgebleven plus de in voorkomende gevallen extra geconstrueerde opgaven werden vervolgens ingedeeld voor opname in de aanvullende kalibratieonderzoeken. In tegenstelling tot de proefafnames, waar opgaven willekeurig over toetsboekjes werden verdeeld, zijn in de aanvullende kalibratieonderzoeken met zorg modules samengesteld volgens het model van een Startmodule van een gemiddelde moeilijkheid, een module Vervolg 1 die gemakkelijker was dan de Startmodule en een module Vervolg 2 die moeilijker was dan de Startmodule. Elke module bevatte opgaven uit alle te toetsen spellingcategorieën, in een evenwichtige verdeling (bijvoorbeeld niet alle opgaven over ei/ij direct na elkaar). De modules in het aanvullend kalibratieonderzoek leken dus al zoveel mogelijk op de definitief samen te stellen modules. Wel bevatte elke module vijf opgaven méér dan de definitieve modules, met het oog op eventuele uitval van items wegens slecht functioneren. De kans daarop was overigens niet zo groot, omdat slecht functionerende items al verwijderd waren na de proefafname. De nieuw geconstrueerde items waren echter niet gepretest, zodat de kans op uitval daar wel reëel was. Van alle opgaven in het aanvullend kalibratieonderzoek is om te beginnen opnieuw de p-waarde en de rir bepaald. Vervolgens zijn uit elke module vijf opgaven verwijderd om te komen tot het gewenste aantal opgaven in de definitieve toets. Sommige opgaven die afvielen, vertoonden in het aanvullend kalibratieonderzoek een te hoge of te lage p-waarde of een te lage rir. Soms ook vielen opgaven af die psychometrisch gezien goed functioneerden, maar die tot een spellingcategorie behoorden die al voldoende vertegenwoordigd was in de module. Daarentegen werden soms opgaven gehandhaafd die eigenlijk wat te moeilijk of te makkelijk waren, maar waarvoor in de betreffende spellingcategorie geen beter functionerende alternatieven voorhanden waren. Bij elke individuele opgave vond dus een afweging plaats op zowel psychometrische als inhoudelijke gronden. 26 Bij het samenstellen van de definitieve toetsen was immers niet alleen de psychometrische kwaliteit van de opgaven van belang. De toetsen moesten daarnaast inhoudelijk zo dicht mogelijk aansluiten bij de leerstof die op de scholen werd aangeboden. Dat wilden wij bereiken aan de hand van de volgende criteria: 1. Als in de spellingmethoden in een bepaald leerjaar bepaalde spellingcategorieën werden behandeld, dan wilden wij die categorieën op het eerstvolgende afnamemoment in de toets terug laten komen. 2. Het aantal categorieën dat op enig afnamemoment in een toets Spelling aan de orde kwam, mocht niet zodanig hoog zijn dat de leerling minder dan drie opgaven per categorie kreeg voorgelegd. 3. De verdeling van opgaven over categorieën moest binnen de twee mogelijke combinaties van modules (Start + Vervolg 1 of Start + Vervolg 2) zo gelijkmatig mogelijk zijn. In de praktijk bleek het niet altijd mogelijk ons aan deze criteria te houden. Een belangrijke oorzaak daarvan is al eerder in dit hoofdstuk aan de orde geweest: de onderzochte spellingmethoden hanteren elk hun eigen volgorde van aanbieden van spellingcategorieën. Over het geheel genomen lopen de spellingmethoden redelijk gelijk op, maar op detailniveau (het niveau van losse categorieën) zijn er opmerkelijke verschillen. In bijlage 1 zijn deze verschillen in een oogopslag zichtbaar. Soms wordt een bepaalde categorie in de ene methode een vol jaar eerder aangeboden dan in de andere methode (zie bijvoorbeeld categorie 18 in de tabel in bijlage 1). Het hierboven eerstgenoemde criterium voor de toetssamenstelling is bij dergelijke grote verschillen tussen de methoden niet haalbaar. Immers het ideale afnamemoment voor opgaven in een bepaalde categorie (kort volgend op de aanbieding van de categorie in de les) ligt voor de ene school een jaar eerder dan voor een andere school, afhankelijk van welke taalmethode gebruikt wordt. Wij hebben ervoor gekozen een categorie pas in de toetsen op te nemen als ten minste vier van de zes onderzochte methoden de categorie expliciet behandeld hadden. Het tweede criterium (leerlingen krijgen in hun toets minimaal drie opgaven per categorie voorgelegd) is alleen haalbaar als in een toets van 60 opgaven maximaal 20 categorieën voorkomen. Deze maxima zijn nergens overschreden. Om dat te bereiken hebben we soms op een bepaald afnamemoment een of twee categorieën moeten schrappen die – gezien het aanbod in de methoden – op dat afnamemoment wel degelijk in de toets hadden mogen voorkomen. Deze werkwijze is zichtbaar in de 'gaatjes' in figuur 3.2 ('Spellingcategorieën in de toetsen Spelling groep 3 tot en met groep 8 van het Cito Volgsysteem primair onderwijs') eerder in deze paragraaf. De reden voor het ontbreken van categorie 30 in de toets Spelling M7 is niet dat deze categorie op het betreffende afnamemoment in het onderwijs niet zou worden aangeboden, maar dat we moesten kiezen tussen verschillende relevante categorieën om ervoor te zorgen dat elke leerling minstens drie opgaven per categorie zou kunnen maken. Aan dit criterium is in groep 7 en 8 voor bijna alle categorieën voldaan. Een uitzondering is categorie 48, de categorie restwoorden, in groep 7 en 8. Deze categorie is dan ook een categorie apart. De woorden die in categorie 48 terechtkomen, verschillen te veel van elkaar om echt onder één noemer te vallen. Toch willen we deze woorden wel toetsen, omdat het woorden zijn die regelmatig voorkomen in de Nederlandse taal en omdat ze wel duidelijk een spellingmoeilijkheid hebben. De spellingmoeilijkheid is alleen niet dezelfde voor alle woorden in de categorie. Fouten die in deze categorie gemaakt worden, worden dan ook benoemd als ‘andere fout’ en niet als ‘categoriefout’. Omdat deze woorden niet duidelijk onder te brengen zijn in één bepaalde categorie, zijn er niet zo veel van opgenomen in de toetsen. Er is wel voor gezorgd dat in elke module tenminste één restwoord zat. Het derde criterium, een zo gelijkmatig mogelijke verdeling van het aantal opgaven per categorie, is overal waar mogelijk gehanteerd. Echter op grond van de resultaten uit het aanvullend kalibratieonderzoek moesten er opgaven vervallen om de definitieve modules samen te stellen, en de opgaven die het psychometrisch gezien niet goed deden, kwamen soms uit spellingcategorieën die toch al niet zo ruim bedeeld waren. Er is telkens opnieuw een afweging gemaakt: ofwel de opgave handhaven ondanks de tegenvallende p-waarde en/of rir, ofwel de opgave laten vallen met het gevolg dat de betreffende spellingcategorie minder opgaven bevat dan wenselijk is (en een andere spellingcategorie dus meer opgaven dan nodig is). Figuur 3.2 maakt dit dilemma aanschouwelijk: op afnamemoment M8 bijvoorbeeld bevatten de drie modules samen negen opgaven van categorie 29 en slechts vier opgaven van de categorieën 30 en 34. Graag hadden we enkele opgaven van categorie 29 willen 'omruilen' voor goed functionerende opgaven van de andere categorieën. Die waren echter niet voorhanden. 27 De uiteindelijke verdeling van aantallen opgaven per categorie per afnamemoment is een zo goed mogelijk compromis tussen eisen van psychometrische en inhoudelijke kwaliteit en overwegingen van meer praktische aard (afnameduur, aantal opgaven per module, aantal categorieën per toets). 28 4 Kalibratieonderzoeken en normering Voor de ontwikkeling van de toetsen Spelling zijn in 2006 en 2007 voor groep 7 en 8 opgaven geconstrueerd voor de afnamemomenten medio groep 7 (M7), eind groep 7 (E7), en begin en medio groep 8 (B8/M8). Deze opgaven zijn in de jaren 2008 en 2009 in een eerste kalibratieonderzoek voorgelegd aan groepen leerlingen van een groot aantal scholen. Op deze manier konden we gegevens verzamelen over de kwaliteit en de moeilijkheid van een grote verzameling opgaven. Hierover gaat paragraaf 4.1.1. Op de eerste kalibratieonderzoeken volgden aanvullende kalibratieonderzoeken. Hierbij werden de definitieve toetsen voorgelegd aan leerlingen uit de doelgroep op de normeringsmomenten B (begin leerjaar; dit geldt alleen voor groep 8), M (midden leerjaar) of E (einde leerjaar). Voor moment M7 vond dit onderzoek plaats in januari 2009, voor moment E7 in juni 2009, voor moment B8 in november 2009 en voor moment M8 in januari 2010. Voor de aanvullende kalibratieonderzoeken toetsten we dezelfde leerlingen op tenminste twee tijdstippen. Zo was het mogelijk om in een landelijke groep referentiegegevens te verzamelen voor de verschillende toetsen en dus afnamemomenten. In paragraaf 4.1.2 gaan we hier verder op in. De resultaten van de kalibratieonderzoeken komen vervolgens aan bod in paragraaf 4.2. De definitieve normtabellen voor groep 7 en 8 zijn in 2011 vastgesteld door middel van een onderzoek op basis van de gegevens uit data-retour. Aangezien we voor dit onderzoek gebruik konden maken van een zeer grote hoeveelheid gegevens, kregen we een duidelijk en representatief beeld van de verdeling van de resultaten. Dit onderzoek komt aan de orde in paragraaf 4.3. 4.1 Opzet en verloop van de kalibratieonderzoeken 4.1.1 Kalibratieonderzoek We merkten al eerder op dat in het kalibratieonderzoek, dat aan de opgavenbanken ten grondslag ligt, is uitgegaan van een onvolledig design: niet alle leerlingen in de steekproef van het kalibratieonderzoek maakten alle opgaven. Opgaven werden verdeeld over clusters, en aan elke leerling werden een of meer clusters van items voorgelegd. Clusters die gezamenlijk aan een groep leerlingen worden voorgelegd, worden 'boekjes' (booklets) genoemd. De verschillende boekjes overlappen elkaar. Deze overlap zorgt voor ervoor dat het design verbonden is, een noodzakelijke voorwaarde om CML-schattingen (zie paragraaf 2.4.2) van de itemparameters te kunnen bepalen. Een voorbeeld van zo’n design staat in de verantwoording van de Toetsen Begrijpend lezen (afgekort: TBL; Staphorsius, Krom, Kleintjes en Verhelst, 2001). In 2008 zijn 400 items in het kalibratieonderzoek afgenomen bij 931 leerlingen in groep 7. In 2009 zijn in groep 8, 179 opgaven voorgelegd aan 549 leerlingen. De resultaten van deze onderzoeken zijn gebruikt voor de selectie van geschikte items voor de aanvullende kalibratieonderzoeken in 2009 (M7, E7 en B8) en in 2010 (M8). Kalibratieonderzoek digitale items Om voor de digitale items en dus ook de digitale toetsen de 'papieren' normering te kunnen gebruiken is in een apart kalibratieonderzoek onderzocht of de digitale items ook op de schaal Spelling passen. Een voorbeeld van het gebruikte design voor de kalibratie van de digitale toets M7 staat in tabel 4.1. Voor de andere toetsen is eenzelfde onderzoeksopzet gebruikt. Merk op dat de data die verzameld worden in het papier-digitaalonderzoek toegevoegd worden aan de dataset die dient voor de schaling van de items in de itembank. Het aantal itemantwoorden per item voor de papieren items is dan ook veel hoger dan in het 29 design van tabel 4.1, omdat voor deze items zowel in het kalibratieonderzoek als later in het aanvullende kalibratieonderzoek gegevens verzameld zijn. Tabel 4.1 Booklet Afnamedesign kalibratieonderzoek papier-digitaal M7 Start M7 Start M7 Vervolg 1 M7 Vervolg 2 M7 Vervolg 1 M7 Vervolg 2 Aantal Papier Digitaal Papier Papier Digitaal Digitaal leerlingen 1 X 2 X X X 3 X 4 X Tabel 4.2 X 300 150 X 150 Aantal leerlingen in het kalibratieonderzoek papier-digitaal Toetsversie M7 E7 B8/M8 Aantal leerlingen 1056 1060 912 4.1.2 300 Aanvullend kalibratieonderzoek In een aanvullende kalibratieronde zijn de definitief samengestelde toetsen beproefd in een authentieke setting. Dat wil zeggen dat de toetsen zijn afgenomen in een omgeving die overeenkomt met die van de daadwerkelijke toetssituatie. Voor alle toetsen is in het aanvullende kalibratieonderzoek eenzelfde onderzoeksopzet gebruikt. In tabel 4.3 is een voorbeeld van het gebruikte design weergegeven, in dit geval van de toets voor het afnamemoment M7. Bij de toetsen Spelling maken leerlingen altijd eerst het toetsonderdeel Start en vervolgens toetsonderdeel Vervolg 1 (V1) of Vervolg 2 (V2), afhankelijk van de score op het onderdeel Start (zie ook paragraaf 3.1). Ook is er steeds een toetsonderdeel opgenomen van een voorafgaand afnamemoment, M6-V2 in dit geval, om een extra verankering tussen de opeenvolgende toetsen te verkrijgen. In het design staat het beoogde aantal leerlingen. Tabel 4.4 geeft het aantal leerlingen weer dat werkelijk deelnam aan de aanvullende kalibratieonderzoeken. Tabel 4.3 Voorbeelddesign aanvullend onderzoek M7 Toetsonderdeel Boekje 1 Boekje 2 X M6-V2 anker M7-start nieuw X M7-V1 nieuw X M7-V2 nieuw Tabel 4.4 Boekje 3 Boekje 4 Beoogd aantal leerlingen X X 200 200 X 200 X X Aantal leerlingen in het aanvullend kalibratieonderzoek Afnamemoment Aantal leerlingen M7 520 E7 1938 B8 3819 M8 587 30 200 De gegevens uit de aanvullende kalibratieonderzoeken zijn samen met die van de kalibratieonderzoeken gebruikt om voorlopige vaardigheidsverdelingen op de verschillende normeringsmomenten te bepalen. De definitieve normeringen zijn gebaseerd op de beschikbare data uit de dataretour via het Computerprogramma LOVS en worden beschreven en verantwoord in paragraaf 4.4. 4.2 Resultaten van de kalibratieonderzoeken 4.2.1 Gekalibreerde opgavenbank Zoals al eerder gemeld, is in het kalibratieonderzoek dat aan de opgavenbanken ten grondslag ligt, uitgegaan van een onvolledig design. Ook voor de aanvullende kalibratieonderzoeken gebruikten we een onvolledig design dat verbonden is met het eerste kalibratieonderzoek. Uiteindelijk zijn alle gegevens samen geanalyseerd. De opgaven vormen na de kalibratie een gekalibreerde opgavenbank. Bij de analyse van de antwoorden van de leerlingen op de opgaven is nagegaan of de verschillende opgaven en opgaventypen een beroep doen op hetzelfde complex aan vaardigheden. Dit bleek het geval te zijn. Items die niet voldeden aan de passingscriteria die we hierna beschrijven werden uit de verzameling verwijderd. In het kalibratieonderzoek was voorzien in een koppeling met de opgaven in de itembank Spelling, en dus ook met de reeds bestaande spellingvaardigheidsschaal (zie verantwoording toetsen Schaal Vorderingen in Spellingvaardigheid: Moelands en Kamphuis, 2001). De opgaven en dus ook de toetsen Spelling liggen op de al bestaande, nu uitgebreide schaal. 4.2.2 Stappen in de kalibratie Hieronder gaan we nog wat nauwkeuriger in op de stappen die in het kader van de kalibratie zijn genomen. Met kalibratie wordt bedoeld dat we kengetallen zoeken bij de items die de antwoorden van de leerlingen goed representeren. Hoe de kengetallen gezocht worden, ligt deels vast door het gekozen model (zie paragraaf 2.4.2) en hoe succesvol deze operatie is, kan statistisch getoetst worden. Eenvoudig gezegd; we schatten in OPLM met de CML-methode de itemparameters en we controleren of deze de data goed voorspellen. Voor een exacte beschrijving van de statistische toetsen die in OPLM gebruikt worden, hun eigenschappen en feitelijke implementatie in OPLM verwijzen we naar Verhelst (1993). Hier beperken we ons tot een korte beschrijving van de principes van de statistische toetsen die gebruikt zijn in de kalibratieprocedure. De statistische toetsen in OPLM hebben goede statistische en asymptotische eigenschappen daar OPLM behoort tot de exponentiële familie, met de gewogen somscore, k s ai xi i 1 (4.1) , als een ‘afdoende statistiek’ voor de vaardigheid . Dit betekent dat alle informatie in de data met betrekking tot de vaardigheid in deze statistiek aanwezig is. Hiervan wordt gebruikgemaakt bij de statistische toetsen in OPLM. Het basisprincipe van de statistische toetsen in OPLM is dat op grond van de afdoende statistiek s de personen in de data kunnen worden gegroepeerd. En binnen deze groepen kan de verwachte proportie goede antwoorden op een item onder het model, p( | s) , vergeleken worden met de feitelijk geobserveerde proportie goede antwoorden, prop ( | s) . In het polytome geval worden de items gedichotomiseerd, de proportie goede antwoorden verwijst dan naar de hoge itemscore (zie Verhelst, 1993, hoofdstuk 7). Via de basisvergelijking van OPLM kunnen we eenvoudig de conditionele kans op het goed beantwoorden van de items afleiden en daarmee kunnen we p( | s) evalueren, prop ( | s ) volgt uit de data. Discrepanties tussen p( | s) en prop ( | s ) duiden op 31 schendingen van het model. Deze discrepanties vormen de basis voor de diverse statistische toetsen in OPLM. De toetsingsgrootheid voor de veronderstelde discriminatie-indices is gegeven door M f sH ( p ( | s ) prop ( | s )) f sL ( prop ( | s ) p ( | s )). (4.2) Deze zogenaamde M-toetsen verdelen de scoregroepen in een laag deel ( L ) en een hoog deel ( H ) en f is een monotone functie. M-toetsen hebben een duidelijke interpretatie: is M significant positief dan is de veronderstelde steilheid van de ICC (item karakteristieke curve) overschat in het model, is M daarentegen erg laag dan is de index te klein. Verhelst laat zien voor welke functie, f , M N (0,1) . In OPLM zijn drie verschillende M-toetsen geïmplementeerd die verschillen in de definitie van de hoge en lage scoregroepen. Naast deze M-toetsen is er een algemene itemtoets die de volgende vorm heeft: S f ( p ( | s ) prop ( | s )) . Deze zogenaamde S-toets heeft een verdeling onder het model. Analoog hieraan is er ook een toets om vormen van vraagonzuiverheid (in het Engels ‘item bias’ of ‘differential item functioning’, afgekort DIF) op te sporen: 2 S h( p I ( | s) propI ( | s), ( p II ( | s) propII ( | s)) , waarbij I en II de twee niveaus van de variabele indiceren waarvoor we de bias onderzoeken. Als globale modeltoets is de R1c-toets geschikt. Ook de distributie van alle afzonderlijke S-toetsen komt hiervoor in aanmerking. Als we deze S-toetsen opvatten als onafhankelijk, wat ze strikt genomen niet zijn, dan zouden de overschrijdingskansen uniform verdeeld moeten zijn op het (0,1) interval. Kortom, als we afzien van de formeel-statistische achtergrond van de gehanteerde toetsen, kan de kalibratieprocedure als volgt worden samengevat: 1 2 3 4 5 6 Met behulp van het programma OPCAT stellen we de discriminatie-indices in OPLM in en hercoderen we indien noodzakelijk de antwoordcategorieën in de data. Vervolgens schatten we de itemparameters met behulp van de CML-methode. Met behulp van de M-toetsen controleren we of de discriminatie-indices goed zijn ingesteld. Een volgende controle betreft de overschrijdingskansen van de S-toetsen en een grafische modelcontrole door middel van het programma OPDRAW (grafische inspectie van de ICC’s). Vervolgens vindt een globale modelcontrole plaats in de vorm van een R1c-toets en de verdeling van de overschrijdingskansen van de S-toetsen. Daarna toetsen we nadrukkelijk op vormen van item bias, in dit geval naar afnamemoment. De stappen 1 tot en met 6 worden een aantal malen doorlopen tot het resultaat bevredigend is. Afhankelijk van de uitkomsten kunnen items worden verwijderd. Ook inhoudelijke overwegingen (zie hiervoor hoofdstuk 3 over de achtergronden van de toetsinhoud) spelen een rol in dit beslissingsproces. In het kalibratieonderzoek was voorzien in een koppeling met de opgaven in de itembank Spelling en dus ook met de reeds bestaande schaal Spelling voor het reguliere onderwijs (zie wetenschappelijke verantwoording Spelling groep 3 tot en met 6; De Wijs, Kamphuis, Kleintjes & Tomesen, 2010). 32 4.2.3 Toetsing van het IRT-model In de kalibratieonderzoeken voor de opgavenbanken Spelling is steeds getoetst of de opgaven pasten bij het model. In deze paragraaf geven we de achtergronden van de toetsing van de opgaven. Figuur 4.1 Grafische voorstelling van een Si -toets De passing van het model illustreren we met figuur 4.1 (zie Staphorsius, 1994, blz. 239). Daarin beelden we voor een opgave de gegevens af waarop de zogenaamde Si -toetsen gebaseerd zijn. Ten behoeve van deze toetsing wordt de totale groep van leerlingen die een verzameling opgaven gemaakt heeft, ingedeeld in een aantal (meestal acht) zogenaamde scoregroepen. Elke groep bestaat uit leerlingen met een ongeveer even hoge score. De geobserveerde proporties juiste antwoorden van deze groepen (telkens gesymboliseerd door een x) zijn door de middelste stippellijn verbonden. De volle lijn verbindt de proporties die we op grond van de parameterschattingen kunnen voorspellen. De twee buitenste lijnen geven het 95%-betrouwbaarheidsinterval aan. De breedte van dit interval is in belangrijke mate afhankelijk van het aantal leerlingen dat de opgave heeft beantwoord. In het voorbeeld van figuur 4.1 bedraagt dit aantal meer dan 3000. Uit de figuur blijkt duidelijk dat de geobserveerde proporties, zoals bedoeld, binnen het 95%betrouwbaarheidsinterval van de (geschatte) voorspelde proporties liggen. Dit komt in grote lijnen overeen met een niet-significante Si -toetsingsgrootheid. Bij de opgaven in onze opgavenbanken hoort een grafische voorstelling van de Si -toetsing die in grote lijnen met figuur 4.1 overeenkomt. Daarnaast waren er relatief grote aantallen observaties. Samen vormt dit een zeer sterke aanduiding dat het meetinstrument en het meetmodel dat we hebben ontwikkeld en gebruikt, adequaat zijn om het gedrag van de leerlingen te verklaren. Bovendien blijkt, en dat is vanuit theoretisch oogpunt nog belangrijker, dat gemeten verschillen in gedrag tussen de leerlingen te verklaren zijn door één unidimensionaal concept. 33 Figuur 4.2 Voorbeelden van S-toetsen voor de toetsen Spelling papier M7, E7 en B8/M8 met per toets van links naar rechts de best passende, de slechtst passende en een qua passing representatieve opgave Rel. item #: 36 Abs. item #: 2600 Label: 1404 [:1] Rel. item #: 38 Abs. item #: 2602 Label: 1397 [:1] -.07 .29 -.07 Rel. item #: 67 Abs. item #: 2635 Label: 1063 [:1] .43 -.06 .45 M7 Rel. item #: 39 Abs. item #: 2771 Label: 1311 [:1] -.05 Rel. item #: 17 Abs. item #: 2746 Label: 685 [:1] .39 -.09 Rel. item #: 23 Abs. item #: 2752 Label: 664 [:1] .41 -.09 .47 E7 Rel. item #: 40 Abs. item #: 3070 Label: 1427 [:1] -.13 Rel. item #: 76 Abs. item #: 3229 Label: 1693 [:1] .37 -.14 Rel. item #: 58 Abs. item #: 3130 Label: 1264 [:1] .45 B8/M8 34 -.13 .37 Figuur 4.3 Voorbeelden van S-toetsen voor de toetsen Spelling digitaal M7, E7 en B8/M8 met per toets van links naar rechts de best passende, de slechtst passende en een qua passing representatieve opgave Rel. item #: 34 Abs. item #: 3648 Label: d1404 [:1] -.07 Rel. item #: 26 Abs. item #: 3635 Label: d1057 [:1] Rel. item #: 80 Abs. item #: 3697 Label: d662 [:1] .41 -.06 .46 -.07 .47 M7 Rel. item #: 59 Abs. item #: 3572 Label: d1350 [:1] -.12 Rel. item #: 44 Abs. item #: 3557 Label: d1314 [:1] .26 -.08 Rel. item #: 12 Abs. item #: 3522 Label: d1190 [:1] .35 -.08 .45 E7 Rel. item #: 41 Abs. item #: 3757 Label: d1693 [:1] Rel. item #: 29 Abs. item #: 3741 Label: d1265 [:1] -.15 .18 -.08 Rel. item #: 4 Abs. item #: 3716 Label: d1411 [:1] .52 -.15 .33 B8/M8 In feite kan men bij de kalibratie beter varen op deze grafische weergaven (zoals in figuur 4.2 en 4.3) dan op toetsingsresultaten in termen van exacte getallen en de significantie daarvan. In de figuren is in een oogopslag te zien dat zelfs bij de slechtst passende items de schendingen van het model binnen de perken blijven. Waar mogelijk is bij de definitieve selectie natuurlijk gekozen voor items met een goede of representatieve passing. In enkele gevallen is de passing wat minder, maar het aantal items wat dit betreft is zeer beperkt. Niettemin zijn er bij de kalibratie S-toetsen uitgevoerd die een indicatie geven van de kwaliteit van de kalibratie. Daarbij zijn we vooral geïnteresseerd in de distributie van de overschrijdingskansen van deze verzameling toetsingsresultaten. De overschrijdingskansen zouden uniform verdeeld moeten zijn binnen het (0,1) interval, uiteraard met zo weinig mogelijk significante resultaten. Tabel 4.5 en 4.6 geven een beeld van de uitkomsten bij een kalibratie van alle opgaven van de toetsen Spelling M7, E7 en B8/M8. In deze tabellen is het (0,1) interval is opgedeeld in tien gelijke stukken. Daarnaast is aangegeven in hoeveel gevallen de overschrijdingskans kleiner was dan .01, respectievelijk .05. Het is duidelijk dat voor beide toetsen de verdeling redelijk gelijkmatig is over het gehele interval van overschrijdingskansen. Deze resultaten geven een bevestiging van het eerder geschetste beeld, dat met uitzondering van enkele opgaven, sprake is van niet-significante S-toetsen. Zij vormen een kwantitatieve ondersteuning van de conclusie dat de opgaven een unidimensionaal construct representeren. 35 Tabel 4.5 M7 E7 B8/M8 Verdeling van overschrijdingskansen bij S-toetsen voor M7, E7 en B8/M8 papier 0.-/---/---------.1------------.2------------.3-----------.4----------.5----------.6-----------.7----------.8-----------.9---------1. 1 6 7 10 8 7 13 8 8 7 7 8 3 7 7 5 13 11 7 7 9 4 9 8 7 6 6 13 9 7 7 6 6 9 6 8 Tabel 4.6 M7 E7 B8/M8 Verdeling van overschrijdingskansen bij S-toetsen voor M7, E7 en B8/M8 digitaal 0.-/---/---------.1------------.2------------.3-----------.4----------.5----------.6-----------.7----------.8-----------.9---------1. 1 2 4 12 9 8 10 7 10 9 9 9 2 5 4 12 8 8 10 7 10 8 9 7 1 1 3 10 5 10 13 8 8 9 11 11 In tabel 4.7 en 4.8 zijn de R1c-waarden weergegeven voor dezelfde afnames waarvoor in tabel 4.5 en 4.6 de resultaten van de S-toetsen zijn weergegeven. R1c is een statistiek die zicht geeft op de modelpassing van de toets als geheel. De R1c-toets combineert alle S-toetsen in een overall statistic en wordt over het algemeen acceptabel bevonden indien zijn waarde niet groter is dan anderhalf keer het aantal vrijheidsgraden (df). Het is duidelijk dat de modelpassing van de toetsen acceptabel is. Voor zowel de digitale als de papieren toetsen geldt dat de R1c minder dan anderhalf maal het aantal vrijheidsgraden is. Tabel 4.7 Toetsversie M7 E7 B8/M8 Tabel 4.8 Toetsversie M7 E7 B8/M8 R1c-waarden voor M7, E7 en B8/M8 papier R1c 1069.126 1974.599 1940.044 df 781 1459 1366 p 0.000 0.000 0.000 R1c-waarden voor M7, E7 en B8/M8 digitaal R1c 673.342 666.625 540.076 df 565 574 520 p 0.001 0.004 0.264 36 Daarnaast hanteren we nog een methode om de modelpassing te verantwoorden. Deze methode wordt besproken in het COTAN Beoordelingssysteem (COTAN 2010, p. 40). Hier gaat het erom de nauwkeurigheid van de itemparameterschattingen te beoordelen op basis van een constante (in het COTAN-Beoordelingssysteem met ‘c’ aangeduid). Deze constante geeft weer hoe de relatie is tussen de standaardfout van de moeilijkheidsparameter van een item en de standaarddeviatie van de vaardigheidsverdeling van de kalibratiepopulatie. Het beoordelingssysteem geeft ook richtlijnen voor het beoordelen van de grootte van deze ‘c’. Deze dient te worden beoordeeld als goed als de waarde lager is dan of gelijk aan .20. Waarden tussen .30 en .40 kunnen nog als voldoende worden beschouwd. De waarden voor deze constante zijn weergegeven in tabel 4.9 en 4.10. De gemiddelde waarden van de constante zijn uitstekend te noemen. Geen enkele opgave heeft een waarde boven .20. De conclusie mag luiden dat we ook op basis van deze analyse tevreden kunnen zijn over de kalibratie. Tabel 4.9 Toetsversie M7 E7 B8/M8 Tabel 4.10 Toetsversie M7 E7 B8/M8 Nauwkeurigheid van de itemparameterschattingen (constante ‘c’) papier Constante ‘c’ Range Gemiddelde 0.057-0.172 0.104 0.040-0.132 0.072 0.029-0.137 0.054 Nauwkeurigheid van de itemparameterschattingen (constante ‘c’) digitaal Constante ‘c’ Range Gemiddelde 0.080-0.178 0.131 0.086-0.172 0.126 0.084-0.189 0.140 Op basis van de hierboven beschreven resultaten luidt de conclusie dat de kalibratie geslaagd is voor de toetsen Spelling niet-werkwoorden. Hiermee is het laatste woord nog niet gezegd over de validiteit, maar het kalibratieonderzoek brengt in ieder geval een essentieel aspect van het validiteitsvraagstuk naar voren: de rechtvaardiging van wat in de meeste toetstoepassingen gebruikelijk is, namelijk het reduceren van alles wat de leerling heeft geantwoord tot een enkele toetsscore (of afgeleid daarvan, een enkele schatting van zijn onderliggende vaardigheid). De kalibratieanalyse als puur formeel proces (het analyseren van een grote onvolledige tabel met nullen en enen) kan geen uitspraken doen over de inhoudsvaliditeit of over de constructvaliditeit als antwoord op de vraag: hoe kan worden aangetoond dat het concept dat de items in de bank meten dekkend is voor en samenvalt met het construct 'spellen' zoals dat in het didactisch en het wetenschappelijk forum wordt bedoeld? De vraag is dan in het geval van het onderdeel 'spellen': kan het unidimensionale concept onder de items in de opgavenbank Spelling inderdaad worden opgevat als de vaardigheid 'spellen'? Zie hoofdstuk 6 over de validiteit voor een antwoord op deze vraag. Tot slot is bij de analyses nagegaan of er DIF (differential item functioning) optreedt. We hebben hiervoor gekeken naar verschillen in antwoordgedrag van leerlingen op de ankeritems voor papier en digitaal. Om DIF op te sporen gebruiken we een variant van de eerder beschreven S-toetsen. In figuur 4.4 zijn voor twee representatieve opgaven de resultaten van het DIF-onderzoek weergegeven. Boven een item dat op papier is afgenomen in het kalibratieonderzoek en onder een item dat is afgenomen in het onderzoek papierdigitaal. De DIF tussen de papieren en de digitale versie is verwaarloosbaar en de digitale en papieren versie mogen dus als equivalent worden beschouwd. 37 Figuur 4.4 Resultaten van het DIF-onderzoek (toelichting in tekst) Rel. item #: 75 Abs. item #: 2773 Label: 1347 [:1] E7 PAP -.08 4.3 Rel. item #: 75 Abs. item #: 2773 Label: 1347 [:1] E7 DIG .45 -.08 .45 Normering Hier schetsen we de totstandkoming van de normering voor de afnamemomenten M7 tot en met M8. Achtereenvolgens gaan we in op de beschikbare data in het archief van het Cito Volgsysteem primair onderwijs, de schoolinformatie uit de DUO-database voor het steekproefkader, het onderliggende model, de weging en de representativiteit van de gevolgde procedure. 4.3.1 Procedure Data De data die gebruikt zijn, zijn de gegevens uit dataretour voor spelling uit het schooljaar 2010/2011, voor de afnamemomenten M7, E7 en M8. De dataretour bestaat uit gegevens die Cito automatisch retour krijgt van afnames van de toetsen van het Cito Volgsysteem, via het Computerprogramma LOVS. Voor afnamemoment B8 hadden we niet voldoende gegevens, aangezien de toets in de praktijk niet zo vaak op dit moment afgenomen wordt. De normering voor afnamemoment B8 hebben we daarom vastgesteld door middel van intrapolatie van afnamemomenten E7 en M8. De data bevatten naast de schaalscores ook school- en leerlinggegevens. Voor de normering op afnamemoment M7 zijn 22364 leerlingen meegenomen in de analyse. Deze leerlingen zaten op 993 scholen. De aantallen voor de momenten E7 en M8 staan in tabel 4.16. Deze leerlingen zijn niet zonder meer representatief voor de populatie leerlingen. Gezien de grote aantallen leerlingen en scholen, is het echter mogelijk op een verantwoorde manier via een steekproefkader tot een representatieve normering te komen. Ten behoeve van de eenvoud zijn we hieronder steeds uitgegaan van de gegevens voor afnamemoment M7. De resultaten voor afnamemomenten E7 en M8 zijn echter vergelijkbaar. 38 Steekproefkader Om de representativiteit van de steekproef van scholen te onderzoeken is gebruikgemaakt van steekproefkader PO2009/2010, de DUO-gegevens (Dienst Uitvoering Onderwijs, was voorheen IB-groep en CFI) van de populatie scholen in het reguliere basisonderwijs. Dit bestand bevat een stratificatievariabele met 8 niveaus. De niveaus zijn gebaseerd op een combinatie van schoolgewicht en schoolgrootte: 1. schoolgrootte < 200; proportie gewichtenleerlingen <.10 2. schoolgrootte ≥ 200; proportie gewichtenleerlingen <.10 3. schoolgrootte < 200; proportie gewichtenleerlingen ≥ .10, maar <.25 4. schoolgrootte ≥ 200; proportie gewichtenleerlingen ≥ .10, maar <.25 5. schoolgrootte < 200; proportie gewichtenleerlingen ≥ .25, maar <.40 6. schoolgrootte ≥ 200; proportie gewichtenleerlingen ≥ .25, maar <.40 7. schoolgrootte < 200; proportie gewichtenleerlingen ≥ .40 8. schoolgrootte ≥ 200; proportie gewichtenleerlingen ≥ .40 Schoolgewicht en in mindere mate schoolgrootte worden gezien als belangrijke voorspellers van leerresultaten. In de onderstaande tabel wordt weergegeven hoe de leerlingen verdeeld waren over de verschillende strata. Het label ‘S’ in de kolom ’jaar’ geeft aan dat het om de totale steekproef van leerlingen gaat voor afnamemoment M7; ‘P’ geeft aan dat het om de populatie gaat. Tabel 4.11 Jaar Str1 Percentage scholen per stratum voor afnamemoment M7 Str2 Str3 Str4 Str5 Str6 Str7 Str8 S 35.7 17.0 23.7 9.5 6.1 1.7 5.0 1.3 P 23.7 30.3 14.7 15.1 4.9 3.1 5.1 3.2 In tabel 4.12 staan de wegingsfactoren per stratum voor de steekproef van leerlingen. Stel dat we een representatieve steekproef van scholen willen trekken via het steekproefkader. Dan trekken we 6% van de scholen uit stratum 1, 17% uit stratum 2 en zo verder. Voor de normering hebben we ervoor gekozen alle informatie mee te nemen uit de beschikbare gegevens in de dataretour. Dataretour van alle scholen is dus meegenomen. Hiertoe is een multilevel model gespecificeerd dat hieronder wordt beschreven. Tabel 4.12 Wegingsfactoren per stratum voor afnamemoment M7 Jaar Str1 Str2 Str3 Str4 Str5 Str6 Str7 Str8 S 0.06 0.17 0.06 0.15 0.07 0.17 0.10 0.23 Model Het model dat we beschrijven wordt gebruikt om normtabellen te maken op schoolniveau voor gewichtenleerlingen. Ook biedt het de mogelijkheid om normeringen te maken op school- en leerlingniveau. Er zijn twee normtabellen op schoolniveau gemaakt: één voor scholen met minder dan 15 procent gewichtenleerlingen en één voor scholen met 15 procent of meer gewichtenleerlingen. De variabele ’GewLrl’ in het steekproefkaderbestand geeft aan tot welke groep een school behoort: < 15 procent = 1, ≥ 15 procent = -1. 39 Om tot een dergelijke normering op schoolniveau te komen is het volgende multilevel model geschat: Niveau 1: eij ~ N (0, σ 2 ) Yij = β0j + eij voor i ∈ {1,2, ..., n } leerlingen per school en j ∈ {1,2, ..., J } scholen, waarin Yij de score van leerling i in school j is, β0j het gemiddelde van school j, eij de afwijking van leerling i ten opzichte van het gemiddelde van zijn school j, en waarin σ 2 de binnengroepsvariantie is. Niveau 2: µ0j ~ N (0, τ β0j = γ00 + γ01 Xj + µ0j 2 |xj ) waarin γ00 het algemeen gemiddelde is γ01 het effect van variabele Xj (i.e., GewLrl), µ0j de afwijking van school j ten opzichte van het algemeen gemiddelde, en waarin τ 2|xj de tussengroepvariantie is. Het model is geschat onder de aanname van ongelijke varianties op niveau 2. Het model is geschat in een bootstrap procedure. Er is 50 keer een steekproef van k scholen uit de totale dataset getrokken, waarbij k gelijk is aan het aantal scholen in het oorspronkelijke databestand met een maximum van 1000. Het trekken van de scholen gebeurde met teruglegging. Er is rekening gehouden met de wegingsfactoren zoals gegeven in tabel 4.13. Steeds zijn alle leerlingen van een getrokken school in de analyse meegenomen. Onderstaande tabel geeft de resultaten van de analyse. De kolommen ’Lower’ en ’Upper’ geven de onder- en bovengrens aan van het 90%-betrouwbaarheidsinterval zoals bepaald in de bootstrap. Tabel 4.13 Maximum Likelihood schattingen multilevel model Fixed effects Coëfficiënt Lower Upper γ00 = intercept γ01 = coëfficiënt voor GewLrl 138.3 0.69 138.15 0.52 138.46 0.92 Random effects Variantiecomponent Lower Upper 40.81 5.71 3.1 42.18 10.88 4.7 Niveau 1 variantie (σ 2 ) Niveau 2 variantie (τ 2|x−1) Niveau 2 variantie (τ 2|x1) 41.37 7.88 3.82 Op basis van de gegevens in de tabel kan de intraklassecorrelatie uitgerekend worden. De intraklassecorrelatie is een maat voor de (on)afhankelijkheid van individuen. Naarmate de individuen binnen een groep sterker op elkaar lijken wordt de intraklassecorrelatie hoger. Als vuistregel wordt vaak aangehouden dat een multilevelanalyse zinvol is als de intraklassecorrelatie .04 of meer bedraagt. In ons geval is de intraklassecorrelatie voor de groep scholen met 15 of meer procent gewichtenleerlingen gelijk aan 0.16. De intraklassecorrelatie voor de groep scholen met minder dan 15 procent gewichtenleerlingen is gelijk aan 0.08. 40 Normen De resultaten in tabel 4.14 vormen de basis voor de normering op schoolniveau. Onderstaande tabel geeft de normering op schoolniveau als we uitgaan van de in het Cito Volgsysteem onderscheiden niveaus I tot en met V. Voor de volledigheid is ook een normering gemaakt voor de totale groep van scholen. Tabel 4.14 Normeringsgegevens op schoolniveau M7 Groep M SD P20 P40 P60 P80 ≥ 15 procent GewLrl ˂ 15 procent GewLrl totaal 137.6 139.0 138.5 2.8 2.0 2.3 135.3 137.4 136.6 136.9 138.5 137.9 138.3 139.5 139.1 140.0 140.6 140.5 Als aanvulling op de normering op schoolniveau is een normtabel gemaakt op leerlingniveau. Voor deze normering is gebruikgemaakt van de intercept (γ00 ), het effect voor ’GewLrl’ (γ01 ) en de niveau 1 variantie σ2 . Tabel 4.15 Normeringsgegevens op leerlingniveau M7 Groep M SD P20 P40 P60 P80 totaal 138.5 41.4 103.7 128.0 149 173.3 In tabel 4.16 staat een overzicht van de vaardigheidsverdelingen voor alle normeringsmomenten op leerlingniveau. Tabel 4.16 Normeringsmoment Overzicht van de vaardigheidsverdelingen per normeringsmoment op leerlingniveau Aantal leerlingen Aantal scholen Gemiddelde vaardigheid Standaardafwijking M7 22364 993 138,5 6,4 E7 20120 866 139,7 6,9 M8 9808 498 142,5 7,5 4.3.2 Representativiteit De representativiteit van de normeringssteekproeven is geëvalueerd met betrekking tot het stratum (zie steekproefkader), de geografische spreiding, de mate van verstedelijking en het percentage gewichtenleerlingen. Resultaten geven we weer voor afnamemoment M7, de resultaten voor de overige afnamemomenten staan vermeld in bijlage 2. In tabel 4.17 staan de percentages voor de stratificatievariabele met 8 niveaus, een combinatie van schoolgewicht en schoolgrootte, in de steekproef en de populatie. Uiteraard komen de percentages overeen, immers met behulp van deze variabele is de steekproef gewogen. Uit de tabel blijkt dat de gevolgde procedure correct is verlopen. 41 Tabel 4.17 Percentage scholen per stratum in de steekproef en populatie M7 Stratum Percentage steekproef Percentage populatie schoolgrootte < 200 proportie gewichtenleerlingen <.10 23,7 23,7 schoolgrootte ≥ 200 proportie gewichtenleerlingen <.10 30,3 30,3 schoolgrootte < 200 proportie gewichtenleerlingen ≥ .10, maar <.25 14,7 14,7 schoolgrootte ≥ 200 proportie gewichtenleerlingen ≥ .10, maar <.25 15,0 15,0 schoolgrootte < 200 proportie gewichtenleerlingen ≥ .25, maar <.40 4,9 4,9 schoolgrootte ≥ 200 proportie gewichtenleerlingen ≥ .25, maar <.40 3,1 3,1 schoolgrootte < 200 proportie gewichtenleerlingen ≥ .40 5,1 5,1 schoolgrootte ≥ 200 proportie gewichtenleerlingen ≥ .40 Totaal 3,2 3,2 100,00 100,00 De representativiteit naar geografische verdeling staat in tabel 4.18. Regio Noord bevat de provincies Groningen, Friesland en Drenthe, regio Oost de provincies Overijssel, Gelderland en Flevoland, regio West de provincies Utrecht, Noord-Holland, Zuid-Holland en Zeeland en de regio Zuid bestaat uit Noord-Brabant en Limburg. Er is in de steekproef een ondervertegenwoordiging van regio West en met name regio Oost is iets oververtegenwoordigd. Dit heeft echter geen consequenties voor de representativiteit. Na controle voor stratum verschillen de schaalscores uitgesplitst naar regio niet meer. Dit gaat ook op voor de afnamemomenten E7 en M8 (zie bijlage). Tabel 4.18 Regio Percentage scholen per regio in de steekproef en populatie M7 Percentage steekproef Percentage populatie Noord 12,3 10,4 Oost 29,7 22,8 West 34,6 46,3 Zuid 23,4 20,5 100,00 100,00 Totaal Bezien we de representativiteit naar verstedelijking in tabel 4.19, dan concluderen we dat de percentages in steekproef en populatie van scholen redelijk in de pas lopen. 42 Tabel 4.19 Percentage scholen naar urbanisatie in de steekproef en populatie M7 Urbanisatie Percentage steekproef Zeer sterk stedelijk Percentage populatie 9,3 15,2 Sterk stedelijk 24,6 27,5 Matig stedelijk 24,3 21,0 Weinig stedelijk 25,5 23,1 Niet stedelijk Totaal 16,4 13,1 100,00 100,00 In de steekproef en populatie van scholen verschillen de gewichtenleerlingen niet of nauwelijks. Deze variabele maakt immers ook deel uit van het wegingsproces. Tabel 4.20 Percentage scholen voor de gewichtenleerlingen in de steekproef en populatie M7 Gewichtenleerlingen Percentage steekproef Percentage populatie ≥15% 30 31 <15% 70 69 Totaal 100,00 100,00 Daar er in Nederland geen aparte jongens- en meisjesscholen zijn nemen wij aan – gegeven het gehanteerde steekproefkader – dat er een goede vertegenwoordiging van jongens en meisjes is. Om dezelfde reden nemen wij eveneens aan dat alle leeftijden behorende bij een jaargroep representatief vertegenwoordigd zijn. 43 44 5 Betrouwbaarheid en meetnauwkeurigheid 5.1 Betrouwbaarheid In hoofdstuk 4 is onder meer aangegeven dat elke leerling die deelgenomen heeft aan het aanvullend kalibratieonderzoek slechts een deel van de items gemaakt heeft die uiteindelijk in de toetsen Spelling opgenomen zijn. De betrouwbaarheid van de toetsen in klassieke zin is dan ook niet rechtstreeks te bepalen. Het is echter wel mogelijk om de betrouwbaarheid van iedere toets te schatten door gebruik te maken van het feit dat alle items die zijn opgenomen in de toetsen OPLM-geschaald zijn. Ook andere beschrijvende gegevens, zoals de gemiddelde score en de standaardmeetfout, zijn te schatten op grond van het feit dat de toetsen volledig bestaan uit OPLM-gekalibreerde items. Om relevante beschrijvende gegevens bij de verschillende toetsen te genereren, is gebruikgemaakt van het programma OPTAL (Verstralen, 1997). In OPTAL wordt een door Verhelst, Glas en Verstralen (1995, pp. 99-100) ontwikkelde coëfficiënt berekend die qua interpretatie een grote overeenkomst vertoont met de betrouwbaarheidscoëfficiënt uit de klassieke testtheorie. Het begrip ware score is wat meer geëxpliciteerd, namelijk als de verwachte score op een (vaste) toets, maar dan gezien als functie van de latente variabele θ. Deze verwachte waarde duiden we aan met τ(θ). Als we bovendien weten hoe θ in de populatie verdeeld is, kunnen we ook het gemiddelde en de variantie van de ware scores in de populatie bepalen. De variantie van de ware scores in de populatie duiden we aan met het symbool Var(τ). Tussen θ en τ(θ) bestaat een een-op-een relatie, immers de een kan uit de andere berekend worden. Het is echter niet zo dat een persoon met vaardigheid θ per se de toetsscore τ(θ) moet behalen (dat is alleen zo als de toets oneindig lang wordt). De geobserveerde score bij een eenmalige afname zal dan ook een afwijking vertonen van de verwachte score, waardoor we met een eenmalige toetsafname niet meer zonder fout de waarde van θ kunnen bepalen. De variantie van de geobserveerde toetsscore duiden we aan met Var(t|τ(θ)), en door weer gebruik te maken van de distributie van θ in de populatie kunnen we ook de gemiddelde variantie van de geobserveerde toetsscores gaan berekenen. Var(t) = E[Var(t | ( ))] (5.1) Deze variantie kunnen we opvatten als de (gemiddelde) meetfoutvariantie in de metriek van de geobserveerde scores t. In analogie met de theorie over de betrouwbaarheid definiëren we dan MAcc = Var( ) Var( ) + Var(t) (5.2) waarin MAcc staat voor 'Accuracy of Measurement'. Tabel 5.1 bevat informatie over de meeteigenschappen van de vaardigheidsschaal Spelling. In de eerste kolom staan voor elk afnamemoment de twee mogelijke combinaties van modules: een leerling maakt ofwel eerst module Start en daarna module Vervolg 1 (S+V1) ofwel eerst module Start en daarna module Vervolg 2 (S+V2). De maximumscore voor iedere toets is gelijk aan het aantal opgaven dat deel uitmaakt van de totale toets. De derde kolom geeft de geschatte gemiddelde scores van de leerlingen op de verschillende toetsen. De vierde kolom bevat informatie over de geschatte standaardmeetfout van iedere toets. In kolom 5 zijn de resultaten van een test-hertest simulatie weergegeven. Het feit dat alle items OPLM-gekalibreerd zijn, maakt het mogelijk een hertest te simuleren. Steeds zijn twee bij de vaardigheid Spelling horende toetsafnames gesimuleerd. Uiteindelijk is de correlatie tussen deze (virtuele) afnames berekend. Men kan deze simulatie beschouwen als een test-hertestonderzoek onder ideale condities. De tweede toetsafname is immers volledig onafhankelijk van de eerste en wordt niet beïnvloed door de kennis die de leerling 45 mogelijk verworven heeft via de eerste toetsafname. Daarnaast is er geen sprake van invloed van een testhertest-interval: beide afnames worden gesimuleerd alsof zij op hetzelfde moment plaats zouden vinden. De uitkomsten komen vrijwel exact overeen met de eerder berekende MAcc en leiden dan ook tot dezelfde conclusies met betrekking tot de betrouwbaarheid van de toets Spelling. De betrouwbaarheidscoëfficiënten zijn zonder uitzondering hoog. Voor toetsen van het type waar geen zware consequenties voor leerlingen aan verbonden zijn (zoals de toetsen Spelling) geeft de COTAN (COmmissie TestAangelegenheden Nederland van het Nederlands Instituut van Psychologen) aan dat een betrouwbaarheidscoëfficiënt lager dan 0,70 onvoldoende is, een betrouwbaarheidscoëfficiënt tussen 0,70 en 0,80 voldoende, en een betrouwbaarheidscoëfficiënt hoger dan 0,80 goed (COTAN Beoordelingssysteem voor de kwaliteit van tests, 2010, p. 33). Op grond van dit criterium is de meetnauwkeurigheid van alle toetsen goed te noemen. Tabel 5.1 Beschrijvende gegevens bij de papieren versie van de toetsen Spelling van het Cito Volgsysteem primair onderwijs Toets Maximumscore Gemiddelde Standaardmeetfout Betrouwbaarheid (MAcc) Test-hertest (simulatie) M7 S+V1 60 47,53 2,71 0,91 0,91 M7 S+V2 60 44,18 2,97 0,92 0,92 E7 S+V1 60 47,28 2,69 0,94 0,93 E7 S+V2 60 42,82 3,01 0,93 0,93 B8 S+V1 60 43,73 2,90 0,92 0,92 B8 S+V2 60 39,87 3,13 0,92 0,92 M8 S+V1 60 45,29 2,81 0,92 0,92 M8 S+V2 60 41,59 3,05 0,92 0,92 In tabel 5.2 vindt u de gegevens voor de digitale versies van de toetsen Spelling. Tabel 5.2 Beschrijvende gegevens bij de digitale versie van de toetsen Spelling van het Cito Volgsysteem primair onderwijs Toets Maximumscore Gemiddelde Standaardmeetfout Betrouwbaarheid (MAcc) Test-hertest (simulatie) M7 S+V1 60 44,30 2,73 0,92 0,92 M7 S+V2 60 40,93 2,99 0,92 0,92 E7 S+V1 60 46,79 2,72 0,93 0,93 E7 S+V2 60 41,84 3,02 0,94 0,94 B8 S+V1 60 42,24 2,84 0,92 0,92 B8 S+V2 60 38,13 3,09 0,93 0,93 M8 S+V1 60 43,82 2,75 0,92 0,92 M8 S+V2 60 39,98 3,01 0,93 0,92 46 5.2 Nauwkeurigheid De hiervoor vermelde betrouwbaarheidscoëfficiënten hebben alleen betrekking op de globale meetnauwkeurigheid en geven geen beeld van de lokale meetnauwkeurigheid van de verschillende toetsen Spelling. De betrouwbaarheidstabellen 5.3 en 5.4 doen dat wel. Zo laat tabel 5.3 bijvoorbeeld zien dat 81,8 procent van de leerlingen die bij de M7-toets in scoregroep E vallen met hun geschatte vaardigheidsscore ook met hun werkelijke vaardigheidsscore in deze scoregroep vallen. Anders gezegd: de kans dat een E-leerling terecht als een E-leerling wordt bestempeld is ongeveer 82 procent. Verder laat de tabel zien dat 18,1 procent van de leerlingen in niveaugroep E een vaardigheidsscore heeft die in werkelijkheid in scoregroep D valt. Bij het berekenen van deze betrouwbaarheidstabellen is rekening gehouden met vertakt toetsen (multistage testing). Dit houdt in dat leerlingen die lager scoren dan de grensscore op de module Start, module Vervolg 1 maken en leerlingen die hoger scoren module Vervolg 2 maken. In de betrouwbaarheidstabellen is de populatie dus geëvalueerd met betrekking tot die toets die ze volgens dit voorschrift moeten maken. Zie tabel 5.5 voor alle grensscores op de modules Start. Verdere gedetailleerde informatie over de meetnauwkeurigheid van de toetsen is te vinden in de handleidingen van de toetspakketten (Cito, 2011). In de schaalscoretabellen van bijlage 2 van de handleidingen is een kolom opgenomen waarin het score-interval vermeld is. In deze kolom staat voor iedere ruwe score op elke toets het 67-procents-betrouwbaarheidsinterval voor de bijbehorende vaardigheidsschatting. 47 Tabel 5.3 Betrouwbaarheidstabellen bij de papieren versie van de toetsen Spelling van het Cito Volgsysteem primair onderwijs Toets M7 Toets M7 Scoregroepen E tot en met A Scoregroep waarin ware score valt Scoregroepen V tot en met I E D C B A Scoregroep waarin ware score valt V IV III II I E 81.8 9.0 0.0 0.0 0.0 V 86.7 11.6 0.1 0.0 0.0 D 18.1 67.7 11.0 0.1 0.0 IV 13.2 63.9 15.2 0.9 0.0 C 0.1 23.2 70.6 18.3 0.4 III 0.1 23.2 56.3 20.0 1.4 B 0.0 0.1 18.1 63.0 18.1 II 0.0 1.3 27.0 56.7 20.8 A 0.0 0.0 0.3 18.6 81.5 I 0.0 0.0 1.5 22.5 77.8 Toets E7 Toets E7 Scoregroepen E tot en met A Scoregroep waarin ware score valt Scoregroepen V tot en met I E D C B A Scoregroep waarin ware score valt V IV III II I E 85.8 7.5 0.0 0.0 0.0 V 87.1 10.5 0.1 0.0 0.0 D 14.2 70.7 9.5 0.0 0.0 IV 12.8 68.7 16.3 0.5 0.0 C 0.0 21.8 72.2 17.4 0.4 III 0.1 20.2 58.9 17.9 0.7 B 0.0 0.1 18.0 66.6 19.6 II 0.0 0.6 23.9 57.2 17.2 A 0.0 0.0 0.2 16.0 80.1 I 0.0 0.0 0.9 24.3 82.1 Toets B8 Toets B8 Scoregroepen E tot en met A Scoregroepen V tot en met I E D C B A Scoregroep waarin ware score valt V IV III II I E 81.1 8.1 0.0 0.0 0.0 V 86.7 12.8 0.2 0.0 0.0 D 18.8 66.2 10.6 0.1 0.0 IV 13.2 65.8 18.7 0.9 0.0 C 0.1 25.5 70.2 17.5 0.3 III 0.1 20.4 57.3 21.5 1.1 B 0.0 0.2 19.0 63.9 16.4 II 0.0 0.9 22.9 57.8 20.3 A 0.0 0.0 0.2 18.4 83.4 I 0.0 0.0 0.9 19.9 78.6 Scoregroep waarin ware score valt Toets M8 Toets B8 Scoregroepen E tot en met A Scoregroep waarin ware score valt Scoregroepen V tot en met I E D C B A Scoregroep waarin ware score valt V IV III II I E 81.6 7.9 0.0 0.0 0.0 V 82.8 9.2 0.1 0.0 0.0 D 18.3 67.3 10.8 0.1 0.0 IV 16.9 63.6 15.7 0.8 0.0 C 0.1 24.7 70.5 19.6 0.5 III 0.3 25.7 57.0 19.4 0.9 B 0.0 0.2 18.4 64.3 20.1 II 0.0 1.5 26.0 55.8 17.8 A 0.0 0.0 0.2 16.0 79.4 I 0.0 0.0 1.3 24.0 81.2 48 Tabel 5.4 Betrouwbaarheidstabellen bij de digitale versie van de toetsen Spelling van het Cito Volgsysteem primair onderwijs Toets M7 Toets M7 Scoregroepen E tot en met A Scoregroep waarin ware score valt Scoregroepen V tot en met I E D C B A Scoregroep waarin ware score valt V IV III II I E 81.9 8.4 0.0 0.0 0.0 V 84.6 11.0 0.1 0.0 0.0 D 18.0 68.1 10.6 0.1 0.0 IV 15.2 66.7 17.9 0.8 0.0 C 0.1 23.4 70.0 16.6 0.3 III 0.2 21.5 58.4 21.2 0.9 B 0.0 0.1 19.2 66.3 17.0 II 0.0 0.9 22.8 59.4 19.7 A 0.0 0.0 0.2 17.1 82.8 I 0.0 0.0 0.7 18.5 79.4 Toets E7 Toets E7 Scoregroepen E tot en met A Scoregroep waarin ware score valt Scoregroepen V tot en met I E D C B A Scoregroep waarin ware score valt V IV III II I E 84.0 7.5 0.0 0.0 0.0 V 86.8 9.7 0.0 0.0 0.0 D 16.0 72.9 9.2 0.0 0.0 IV 13.1 70.9 15.1 0.3 0.0 C 0.0 19.6 73.8 14.1 0.1 III 0.0 19.1 62.9 18.3 0.5 B 0.0 0.0 16.9 69.4 15.2 II 0.0 0.3 21.6 62.4 18.1 A 0.0 0.0 0.1 16.5 84.6 I 0.0 0.0 0.4 19.0 81.4 Toets B8 Toets B8 Scoregroepen E tot en met A Scoregroepen V tot en met I E D C B A Scoregroep waarin ware score valt V IV III II I E 83.1 8.3 0.0 0.0 0.0 V 86.1 10.6 0.1 0.0 0.0 D 16.9 70.3 10.2 0.0 0.0 IV 13.8 68.7 16.5 0.5 0.0 C 0.1 21.4 72.1 15.5 0.2 III 0.1 20.1 61.8 20.1 0.6 B 0.0 0.1 17.7 68.7 15.9 II 0.0 0.5 21.3 61.8 18.1 A 0.0 0.0 0.1 15.8 84.0 I 0.0 0.0 0.4 17.7 81.3 Scoregroep waarin ware score valt Toets M8 Toets M8 Scoregroepen E tot en met A Scoregroep waarin ware score valt Scoregroepen V tot en met I E D C B A Scoregroep waarin ware score valt V IV III II I E 83.2 7.8 0.0 0.0 0.0 V 86.2 10.3 0.1 0.0 0.0 D 16.7 70.8 9.6 0.0 0.0 IV 13.7 68.8 16.5 0.5 0.0 C 0.0 21.4 72.4 15.1 0.2 III 0.1 20.4 61.2 19.5 0.6 B 0.0 0.0 17.9 68.0 15.5 II 0.0 0.5 21.8 61.1 17.7 A 0.0 0.0 0.1 16.9 84.3 I 0.0 0.0 0.5 18.9 81.6 De figuren 5.1 tot en met 5.4 op de pagina’s 41 en 42 geven nog eens grafisch weer hoe het gesteld is met de lokale meetnauwkeurigheid bij de verschillende toetsen. In deze figuren staat voor iedere toets de grootte van de meetfout afgebeeld. Hierbij is onderscheid gemaakt tussen de twee mogelijke samenstellingen van de toets op elk afnamemoment: ofwel Start plus Vervolg 1 (in de grafieken 49 weergegeven als SV1) ofwel Start plus Vervolg 2 (in de grafieken SV2 genoemd). Ook zijn de kansdichtheidfuncties voor de normgroepen op de verschillende afnamemomenten opgenomen. Deze laten zien hoe de vaardigheid van de leerlingen verdeeld is over de vaardigheidsschaal in de populatie die de toets gemaakt heeft. De figuren maken duidelijk dat de meetfout kleiner is in de lagere en gemiddelde vaardigheidsregionen dan in de hogere vaardigheidsregionen. Verder wordt duidelijk dat de meetnauwkeurigheid voor de toetsen SV1 en SV2 verschillend is gegeven de schaalscore. In nagenoeg alle gevallen meet de SV1-toets nauwkeuriger in de lagere vaardigheidsregionen en de SV2-toets nauwkeuriger in de hogere vaardigheidsregionen. De schaalscore behorend bij het snijpunt van deze curven, daar waar de meetfout voor SV1 en SV2 even groot is, wordt aangeduid als de cut-off score bij het vertakt toetsen. Leerlingen die onder deze score presteren krijgen na de startmodule Vervolg 1, de anderen krijgen Vervolg 2. De cut-off scores zijn afgebeeld op de toetsscores op de modules Start voor de verschillende normeringsmomenten. Vervolgens zijn ze onder de term 'grensscores' vermeld in de afzonderlijke handleidingen in de toetspakketten. In tabel 5.5 staat een overzicht van deze grensscores. De grensscore is telkens het eerstgenoemde getal in de kolommen 'Vervolg 2'. In tabel 5.6 en 5.7 zijn de percentages leerlingen aangegeven die bepaalde toetscombinaties maken, voor respectievelijk de papieren en de digitale toetsen. Tabel 5.5 Toewijzing vervolgmodules papieren en digitale toetsen Spelling van het Cito Volgsysteem primair onderwijs Papier Digitaal Vervolg 1 Vervolg 2 Vervolg 1 Vervolg 2 M7 0-15 16-30 0-13 14-30 E7 0-17 18-30 0-15 16-30 B8/M8 0-18 19-30 0-13 14-30 Tabel 5.6 Verdeling leerlingpercentages vertakt toetsen papier afname toets percentage M7 Start+Vervolg1 13 Start+Vervolg 2 87 Start+Vervolg1 20 Start+Vervolg 2 80 E7 B8 M8 Tabel 5.7 Start+Vervolg1 34 Start+Vervolg 2 66 Start+Vervolg1 28 Start+Vervolg 2 72 Verdeling leerlingpercentages vertakt toetsen digitaal afname toets percentage M7 Start+Vervolg1 17 Start+Vervolg 2 83 E7 B8 M8 Start+Vervolg1 18 Start+Vervolg 2 82 Start+Vervolg1 22 Start+Vervolg 2 78 Start+Vervolg1 18 Start+Vervolg 2 82 50 Figuur 5.1 Grootte van de meetfouten voor de papieren toetsen M7 en E7 en de kansdichtheidfuncties voor de M7- en E7-populatie Spelling M7-E7 Toets M7-SV1 papier Toets M7-SV2 papier Toets E7-SV1 papier Toets E7-SV2 papier Populatie M7 Populatie E7 0.06 0.04 4 kansdichtheid standaardmeetfout 6 0.02 2 0 0.00 120 130 140 150 schaalscore Figuur 5.2 Grootte van de meetfouten voor de papieren toetsen B8 en M8 en de kansdichtheidfuncties voor de B8- en M8-populatie Spelling B8-M8 Toets B8M8-SV1 papier Toets B8M8-SV2 papier Populatie B8 Populatie M8 0.05 0.04 4 0.03 0.02 2 0.01 0 120 0.00 130 140 150 schaalscore 51 160 kansdichtheid standaardmeetfout 6 Figuur 5.5 Grootte van de meetfouten voor de digitale toetsen M7 en E7 en de kansdichtheidfuncties voor de M7- en E7-populatie Spelling M7-E7 Toets M7-SV1 digitaal Toets M7-SV2 digitaal Toets E7-SV1 digitaal Toets E7-SV2 digitaal Populatie M7 Populatie E7 0.06 0.04 4 kansdichtheid standaardmeetfout 6 0.02 2 0 120 0.00 130 140 150 schaalscore Figuur 5.6 Grootte van de meetfouten voor de digitale toetsen B8 en M8 en de kansdichtheidfuncties voor de B8- en M8-populatie Spelling B8-M8 Toets B8M8-SV1 digitaal Toets B8M8-SV2 digitaal Populatie B8 Populatie M8 0.05 0.04 4 0.03 0.02 2 0.01 0 120 0.00 130 140 150 schaalscore 52 160 kansdichtheid standaardmeetfout 6 6 Validiteit 6.1 Inhoudsvaliditeit De inhoudsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de opgaven in een toets een welomschreven en afgebakend universum representeren van mogelijk in de toets op te nemen opgaven. De inhoudsvaliditeit van de toetsen Spelling wordt gegarandeerd door de wijze waarop de opgaven ontwikkeld zijn. In paragraaf 3.2 ('Inhoudsverantwoording') is al aangegeven dat aan de ontwikkeling van de opgaven een uitgebreide methodeanalyse is voorafgegaan. Deze methodeanalyse maakte duidelijk in welke groepen de verschillende spellingcategorieën aan de orde komen. De toetsen Spelling zijn zodanig samengesteld dat alle voor de verschillende afnamemomenten relevante spellingcategorieën erin vertegenwoordigd zijn. 6.2 Begripsvaliditeit De begripsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de toetsscores toe te schrijven zijn aan verklarende concepten en constructen die deel uitmaken van het theoretische kader dat aan de ontwikkeling van de toets ten grondslag ligt. Hieronder worden drie aanwijzingen voor de begripsvaliditeit van de toetsen Spelling beschreven. 6.2.1 Passing van het meetmodel Een eerste belangrijke aanwijzing voor de begripsvaliditeit van de toetsen is dat de opgaven die uiteindelijk in de toetsen zijn opgenomen en die betrekking hadden op de boven beschreven spellingcategorieën, voldeden aan de aannamen van het OPLM-model. Dat is een goede waarborg voor de constructvaliditeit van de toets, omdat er evidentie is voor de aanname dat een en dezelfde vaardigheid ten grondslag ligt aan de responsen op de opgaven in de toets. De opgaven Spelling vormen na de kalibratie een gekalibreerde opgavenbank. Bij de analyse van de antwoorden van de leerlingen op de opgaven is nagegaan of de verschillende opgaven en opgaventypen een beroep doen op hetzelfde complex aan vaardigheden. Items die niet voldeden aan de passingscriteria die we beschreven in 4.2.2, werden uit de verzameling verwijderd. Het betrof items waarop waarschijnlijk wordt gegokt, items die niet juist geformuleerd zijn, items die een slecht onderscheidend vermogen bleken te hebben, of items die bij nader inzien toch niet alleen spellingvaardigheid bleken te meten. Op basis van de inhoud en inhoudsvaliditeit hebben we alle reden om aan te nemen dat er bij Spelling sprake is van een unidimensionale onderliggende latente trek spellingvaardigheid. Hierbij gaat het om de toetsen Spelling niet-werkwoorden, zoals nader toegelicht in hoofdstuk 2. 6.2.2 Equivalentie met eerdere toetsen Een tweede aanwijzing voor de begripsvaliditeit is te vinden in de relaties met andere vaardigheden. Met het oog op de validering van de opgavenbank Spelling zijn ten behoeve van de verantwoording van de toetsen Schaal Vorderingen in Spellingvaardigheid (SVS 1, 2 en 3) al eerder studies uitgevoerd en gerapporteerd (Moelands & Kamphuis, 2001). Hier wordt in aanvulling daarop een analyse gegeven van onderzoeksgegevens die in 2000 verzameld zijn op basis van de Entreetoets groep 6 (Cito, 2000) en groep 7 (Cito, 2010). In de Entreetoets groep 6 en 7 (zie ook de handleiding bij deze toetsen) bestaat het onderdeel Spelling – evenals bij de toetsen Spelling van het Cito Volgsysteem – uit opgaven uit de opgavenbank Spelling. De andere onderdelen zijn: Begrijpend lezen, Schrijfvaardigheid , Begrijpend luisteren, Leestempo, Woordenschat, Rekenen 'Getallen en bewerkingen', Rekenen 'Meten Tijd en Geld', 53 Studievaardigheden 'Hanteren van Naslagwerken', Studievaardigheden 'Kaartlezen' en Studievaardigheden 'Lezen van Schema’s Tabellen en Grafieken'. In tabel 6.1 rapporteren we de correlatiecoëfficiënten tussen het onderdeel Spelling met de overige onderdelen van de Entreetoets. Tabel 6.1 Correlaties tussen Spelling en andere variabelen gemeten met de Entreetoets groep 6 en groep 7 Entreetoets groep 6 Entreetoets groep 7 Schrijven 0,57 0,55 Persoonsvorm 0,40 0,37 Spelling totaal - 0,91 Spelling niet werkwoorden - - Spelling werkwoorden - 0,72 Leestekens nvt 0,54 Begrijpend luisteren 0,34 0,28 Begrijpend lezen 0,56 0,53 Leestempo 0,44 0,38 Woordenschat 0,48 0,46 Rekenen totaal 0,52 0,49 Getallen en bewerkingen 0,51 0,48 Verhoudingen, breuken en procenten 0,41 0,44 Meten, meetkunde tijd en geld 0,48 0,47 Meten en meetkundige vraagstukken 0,41 0,43 Tijd en geld 0,47 0,45 Studievaardigheden totaal 0,53 0,55 (Studieteksten en) informatiebronnen 0,53 0,49 Kaartlezen 0,43 0,45 Schema's tabellen en grafieken 0,46 0,45 nvt 0,49 Studieteksten Uit de tabel blijkt dat de correlatie tussen enerzijds Spelling en anderzijds Schrijven en Begrijpend lezen van de Entreetoets groep 6 het grootst is. Voor de Entreetoets groep 7 zien we een vergelijkbaar beeld. De correlaties zijn over de hele linie overigens middelmatig hoog. Dat is volgens verwachting: de spellingvaardigheid heeft een eigen structuur, die tot op grote hoogte bepaald wordt door kennis en toepassing van regels en conventies. Verreweg de meeste criteriumtaken zijn meer semantisch van aard en daarmee duidelijk te onderscheiden van de vaardigheid spelling. 6.2.3 Longitudinale vaardigheidstoename Een derde aanwijzing voor de begripsvaliditeit vinden we in de longitudinale vaardigheidstoename in de tijd. Het normeringsonderzoek dat referentiegegevens opleverde voor de toetsen uit het Cito Volgsysteem staat reeds beschreven in hoofdstuk 4. In deze paragraaf nemen we tabel 4.13 (overzicht vaardigheidsverdelingen, hier tabel 6.2) voor de duidelijkheid opnieuw op. In tabel 6.2 staan voor alle daar vermelde normeringsmomenten de schatting van het gemiddelde, de standaarddeviatie en het aantal leerlingen in de normeringssteekproef. 54 Tabel 6.2 Overzicht van de vaardigheidsverdelingen per normeringsmoment Normeringsmoment Aantal leerlingen Aantal scholen Gemiddelde vaardigheid Standaardafwijking M7 22364 993 138,5 6,4 E7 20120 866 139,7 6,9 B8/M8 9808 498 142,5 7,5 De items van de nieuwe toetsen zijn gekalibreerd op de oude, bestaande schaal Spelling, en de toetsen op de verschillende meetmomenten leiden tot vergelijkbare normeringen. Deze gelijkheid van de normeringsgegevens is een onderbouwing van de validiteit van de nieuwe toetsen. Tevens blijkt de gemiddelde vaardigheid van de leerlingen van afname tot afname toe te nemen. Dat impliceert dat de methodeanalyse die ten grondslag lag aan de samenstelling van de toetsen een correct beeld heeft gegeven van de wijze waarop het spellingonderwijs in de regel vormgegeven is. De toename in vaardigheid wordt overigens kleiner naarmate leerlingen in een hogere groep komen. Dat is ook wel te verwachten; vaak gaat het bij Spelling in de hogere groepen om voortbouwen op de kennis die er al is. In een aantal gevallen wordt een categorie herhaald en is er daarbij alleen een toename in de moeilijkheid van de woorden. Dat is een verschil ten opzichte van de lage groepen, waar alles nog nieuw is en van het begin af aan geleerd moet worden. De vaardigheid neemt dus nog steeds wel toe tussen twee afnamemomenten, alleen niet meer zo veel. Correlaties tussen meetmomenten Er zijn toetsen Spelling voor verschillende afnamemomenten van groep 3 tot en met groep 8 (M3 tot en met M8). Deze toetsen zijn tot op zekere hoogte vergelijkbare operationalisaties van hetzelfde onderliggende construct, namelijk spelling. We verwachten dus dat er hoge correlaties zijn tussen de meetmomenten mits er sprake is van een zekere stabiliteit in de verschillen tussen leerlingen. Die stabiliteit is nooit perfect, dus naarmate de afstanden tussen de afnamemomenten groter worden zullen de correlaties ook lager zijn. Zeker tussen twee opeenvolgende meetmomenten zou de correlatie hoog moeten zijn. Op basis van de normeringssteekproef van groep 3 tot en met 6, aangevuld met de resultaten van deze leerlingen uit de dataretour voor groep 7 en 8, zijn de latente correlaties uitgerekend tussen de afnamemomenten (n=3448). In tabel 6.3 is te zien dat er inderdaad sprake is van hoge correlaties tussen opeenvolgende afnamemomenten. De hoofddiagonaal in figuur 6.3 geeft de correlatie weer tussen deze momenten. De correlatie ligt in veel gevallen boven de .90, tot zelfs .96 tussen moment M6 en E6. Naarmate de afnamemomenten verder van elkaar afliggen worden de correlaties inderdaad lager. Toch is er aan de hand van de resultaten op de toets Spelling in groep 3 al in zekere zin een voorspelling te doen over de verwachte resultaten op de toets Spelling in groep 8. Tussen moment M3 en M8 is nog steeds een correlatie van .49. Ondanks het feit dat er op verschillende momenten verschillende toetsen Spelling worden afgenomen, zijn de correlaties zeer hoog. We kunnen er dus vanuit gaan dat de toetsen steeds hetzelfde onderliggende construct meten. Deze hoge correlaties zijn daarom een indicatie van de validiteit van de toetsen Spelling. 55 Tabel 6.3 Latente correlaties tussen leerlingen op de verschillende normeringsmomenten Normeringsmoment M3 E3 M4 E4 M5 E5 M6 E6 M7 E7 M8 M3 E3 M4 E4 M5 E5 M6 E6 M7 E7 .73 .67 .61 .55 .55 .55 .49 .52 .46 .49 .75 .66 .65 .67 .63 .62 .55 .54 .54 .88 .83 .82 .81 .79 .72 .66 .68 .90 .86 .83 .81 .75 .69 .71 .91 .91 .91 .79 .79 .80 .92 .92 .80 .79 .82 .96 .87 .86 .88 .91 .88 .91 .91 .90 .91 56 7 Samenvatting In dit hoofdstuk wordt kort weergegeven wat in de voorafgaande hoofdstukken is besproken. Nadat in hoofdstuk 2 de uitgangspunten bij de toetsconstructie en in hoofdstuk 3 de inhoud van de toetsen uitvoerig zijn beschreven, werd in hoofdstuk 4 over de kalibratieonderzoeken en het normeringsonderzoek gerapporteerd. Daar is verantwoord hoe de dataverzamelingsdesigns voor de papieren afnames en de gecombineerde papier-digitale afnames zijn opgezet. In datzelfde hoofdstuk is ook aangegeven hoe de steekproeftrekking is uitgevoerd. De wijze van steekproeftrekking en de controles achteraf (wat betreft spreiding over regio's) wijzen uit dat de steekproeven representatief genoemd kunnen worden voor de populatie van scholen in Nederland. De analyse van deze gegevens leverde een overzicht op van de vaardigheidsverdelingen per normeringsmoment bij de toetsen Spelling. De vergelijkbaarheid van de ‘nieuwe’ normering met de bestaande ‘oude’ normering van de SVS-toetsen is ook aangevoerd als onderbouwing van de representativiteit van de nieuwe normeringsgroepen. In hoofdstuk 5 werd over de betrouwbaarheidscoëfficiënten gerapporteerd. De betrouwbaarheidscoëfficiënten (MAcc’s) zijn hoog, zowel voor de papieren als de digitale versie van de toetsen Spelling: ze variëren van 0,91 tot 0,94. In de figuren 5.1 tot en met 5.7 is af te lezen hoe het is gesteld met de lokale meetnauwkeurigheid van de toetsen. Daarbij is de lokale meetnauwkeurigheid het grootst waar dit het meest gewenst werd geacht, namelijk bij de lagere en gemiddelde vaardigheidsniveaus. Daarnaast worden in tabel 5.3 en 5.4 betrouwbaarheidstabellen gerapporteerd die op een iets andere manier een beeld geven van de lokale meetnauwkeurigheid. De percentages in deze tabellen bevestigen het eerder geschetste beeld van een goede betrouwbaarheid, ook op lokaal niveau. Over validiteit werd in hoofdstuk 6 gerapporteerd. De toetsen Spelling van het Cito Volgsysteem sluiten nauw aan bij het doel en de inhoud van het onderwijs in spellingvaardigheid in de basisschool (zie de paragrafen 2.4.1 en 3.2). In de toetsen komen alle spellingcategorieën aan bod die behandeld worden in de verschillende taalmethoden voor het basisonderwijs. Een belangrijke indicatie voor de validiteit van de opgaven Spelling van het Cito Volgsysteem komt uit het kalibratieonderzoek (hoofdstuk 4). Uit dat onderzoek bleek dat de verzameling opgaven waaruit de toetsen Spelling zijn samengesteld, beschreven kunnen worden met OPLM. Dat betekent dat de met de toetsen gemeten verschillen in gedrag tussen de leerlingen te verklaren zijn door één unidimensionaal concept. De correlaties met andere toetsen bleken verder een bevestiging te vormen van de verwachtingen. Een aanwijzing voor begripsvaliditeit is af te leiden uit de longitudinale vaardigheidstoename in de tijd. Een prachtig voorbeeld zijn ook de bijzonder hoge correlaties die gevonden werden tussen twee opeenvolgende afnamemomenten. Dit duidt erop dat de toetsen spelling steeds hetzelfde construct meten en dat er zelfs al op afnamemoment M3 iets te zeggen is over de resultaten van dezelfde leerling op een toets spelling in groep 8. 57 58 8 Literatuur Aarnoutse L., Verhoeven, C., Zandt, R. van het & H. Biemond (2003). Tussendoelen gevorderde geletterdheid. Nijmegen: Expertisecentrum Nederlands. Alberts, N., Horsels, L., Vloedgraven, J. & F. Kamphuis (2012). Wetenschappelijke verantwoording Spelling niet-werkwoorden Toetsen Speciale leerlingen Functioneringsniveaus groep 6 tot en met 8. Arnhem: Cito. Bon, W.H.J. van (1993). Spellingproblemen: Theorie en praktijk. Rotterdam: Lemniscaat. Cito (2000). Entreetoets groep 6. Arnhem: Cito. Cito (2010). Entreetoets groep 7. Arnhem: Cito. Cito (2011). LOVS Spelling groep 7. Arnhem: Cito. Cito (2011). LOVS Spelling groep 8. Arnhem: Cito. COTAN Beoordelingssysteem voor de kwaliteit van tests (2010). Amsterdam: NIP/Cotan. Eggen, T.J.H.M., (1993). Itemresponstheorie en onvolledige gegevens. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 239-284). Arnhem: Cito. Engelen, R.J.H. & T.J.H.M. Eggen (1993). Equivaleren. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 239-284). Arnhem: Cito. Glas, C.A.W. & N.D. Verhelst (1993). Een overzicht van itemresponsmodellen. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 179-238). Arnhem: Cito. Hambleton, R.K., H. Swaminathan & H.J. Rogers (1991). Fundamentals of Item response Theory. Newbury Park, CA: Sage. Huizenga, H. (1997). Spelling & didactiek (2e herziene druk). Groningen: Wolters-Noordhoff. Kamphuis, F. (1992). Multi. Arnhem: Cito. Kamphuis, F. (1993). Estimation and prediction of individual ability in longitudinal studies. In: J.H.L. Oud & R.A.W. van den Blokland-Vogelesang (Eds.), Advances in long and multivariate analysis in the behavioral sciences. Nijmegen: ITS. Kamphuis, F.H., & R.J.H. Engelen (1992). Estimation and testing of structured latent ability covariance matrices in IRT models. Arnhem, The Netherlands: Cito. Lord, F.M. & M.R. Novick (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley. Marsh, G., M. Friedman, V. Welch & P. Desberg (1980). The development of strategies in spelling. In: U. Frith (red.). Cognitive processes in spelling. Londen: Academic Press. Moelands, F. & F. Kamphuis (2001). Verantwoording van de toetsen uit de pakketten Schaal Vorderingen in Spellingvaardigheid (SVS) 1, 2 en 3. Arnhem: Citogroep. 59 Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen, Denmark: Nielsen & Lydiche. Schryver, J. de & A. Neijt (2002). Handboek Spelling (4e herziene druk). Mechelen: Wolters Plantyn. Staphorsius, G. (1994). Leesbaarheid en leesvaardigheid: de ontwikkeling van een domeingericht meetinstrument. Enschede: Universiteit Twente. Staphorsius, G., R.S.H. Krom, F.G.M. Kleintjes & N.D. Verhelst (2000, 2004). Verantwoording van de Toetsen Begrijpend Lezen (TBL). Arnhem: Citogroep. Verhelst, N.D. (1989). Informatiewinst bij vertakt toetsen. In: W.J. van der Linden & L.J.Th. van der Kamp (red.). Meetmethoden en data-analyse (pp. 89-96). Lisse: Swets en Zeitlinger. Verhelst, N.D. (1992). Het één parameter model (OPLM). Een theoretische inleiding en een handleiding bij het computerprogramma. Arnhem: Cito. Verhelst, N.D. (1993). Itemresponstheorie. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 83-178). Arnhem: Cito. Verhelst, N.D., & C.A.W. Glas. (1995). The one parameter logistic model. In: G.H. Fischer & I.W. Molenaar (Eds.). Rasch models: Foundations, recent developments and applications (pp. 215-239). New York: Springer. Verhelst, N.D., C.A.W. Glas & H.H.F.M. Verstralen (1995). OPLM: One Parameter Logistic Model. Computer program and manual. Arnhem: Cito. Verhelst, N.D. & F.G.M. Kleintjes (1993). Toepassingen van itemresponsetheorie. In: T.J.H.M. Eggen en P.F. Sanders (Red.). Psychometrie in de praktijk. Arnhem: Cito. Verhelst, N.D., Glas, C.A.W. & H.H.F.M. Verstralen (1995). OPLM: One Parameter Logistic Model. Computer program and manual. Arnhem: Cito. Verhelst, N.D., H.H.F.M. Verstralen & T.H.J.M. Eggen (1991). Finding starting values for the item parameters and suitable discrimination indices in the one-parameter logistic model. Measurement and Research Department Reports 91-10. Arnhem: Cito. Verstralen, H.H.F.M. (1997). OPTAL: Inverse OPLAT and item and test characteristics in populations. Arnhem, The Netherlands: Cito. Wijs, A. de, Kamphuis, F., Kleintjes, F. & M. Tomesen (2010). Wetenschappelijke verantwoording Spelling voor groep 3 tot en met 6. Arnhem: Cito. 60 Bijlagen 61 Bijlage 1 Overzicht resultaten methodeonderzoek spellingcategorieën 62 63 Bijlage 2: Normering op basis van dataretour: representativiteit van de afnamemomenten M7, E7 en M8 Tabel B2.1 Percentage scholen per stratum in de steekproef en populatie M7 Stratum Percentage steekproef Percentage populatie schoolgrootte < 200 proportie gewichtenleerlingen <.10 23,70 23,71 schoolgrootte > 200 proportie gewichtenleerlingen <.10 30,27 30,27 schoolgrootte < 200 proportie gewichtenleerlingen ≥ .10, maar <.25 14,68 14,67 schoolgrootte ≥ 200 proportie gewichtenleerlingen ≥ .10, maar <.25 15,04 15,05 schoolgrootte < 200 proportie gewichtenleerlingen ≥ .25, maar <.40 4,94 4,94 schoolgrootte ≥ 200 proportie gewichtenleerlingen ≥ .25, maar <.40 3,08 3,08 schoolgrootte < 200 proportie gewichtenleerlingen ≥ .40 5,10 5,10 schoolgrootte ≥ 200 proportie gewichtenleerlingen ≥.40 Totaal Tabel B2.2 3,20 3,19 100,00 100,00 Percentage scholen per regio in de steekproef en populatie M7 Regio Percentage steekproef Percentage populatie Noord 12,32 10,40 Oost 29,67 22,82 West 34,59 46,30 Zuid 23,42 20,47 100,00 100,00 Totaal Tabel B2.3 Percentage scholen naar urbanisatie in de steekproef en populatie M7 Urbanisatie Percentage steekproef Zeer sterk stedelijk Percentage populatie 9,26 15,21 Sterk stedelijk 24,58 27,54 Matig stedelijk 24,26 21,03 Weinig stedelijk 25,52 23,10 Niet stedelijk 16,38 13,13 100,00 100,00 Totaal Tabel B2.4 Percentage scholen voor de gewichtenleerlingen in de steekproef en populatie M7 Gewichtenleerlingen Percentage steekproef Percentage populatie ≥ 15% 29,98 30,96 < 15% 70,02 69,04 Totaal 100,00 100,00 64 Tabel B2.5 Percentage scholen per stratum in de steekproef en populatie E7 Stratum Percentage steekproef Percentage populatie schoolgrootte < 200 proportie gewichtenleerlingen <.10 23,71 23,71 schoolgrootte ≥ 200 proportie gewichtenleerlingen <.10 30,28 30,27 schoolgrootte < 200 proportie gewichtenleerlingen ≥ .10, maar <.25 14,66 14,67 schoolgrootte ≥ 200 proportie gewichtenleerlingen ≥ .10, maar <.25 15,05 15,05 schoolgrootte < 200 proportie gewichtenleerlingen ≥ .25, maar <.40 4,94 4,94 schoolgrootte ≥ 200 proportie gewichtenleerlingen ≥ .25, maar <.40 3,08 3,08 schoolgrootte < 200 proportie gewichtenleerlingen ≥ .40 5,10 5,10 schoolgrootte ≥ 200 proportie gewichtenleerlingen ≥ .40 Totaal Tabel B2.6 3,19 3,19 100,00 100,00 Percentage scholen per regio in de steekproef en populatie E7 Regio Percentage steekproef Percentage populatie Noord 11,85 10,40 Oost 30,15 22,82 West 30,78 46,30 Zuid Totaal Tabel B2.7 27,22 20,47 100,00 100,00 Percentage scholen naar urbanisatie in de steekproef en populatie E7 Urbanisatie Percentage steekproef Zeer sterk stedelijk Percentage populatie 9,62 15,21 Sterk stedelijk 22,54 27,54 Matig stedelijk 24,28 21,03 Weinig stedelijk 27,68 23,10 Niet stedelijk Totaal Tabel B2.8 15,88 13,13 100,00 100,00 Percentage scholen voor de gewichtenleerlingen in de steekproef en populatie E7 Gewichtenleerlingen Percentage steekproef Percentage populatie ≥ 15% 29,42 30,96 < 15% 70,58 69,04 Totaal 100,00 100,00 65 Tabel B2.9 Percentage scholen per stratum in de steekproef en populatie M8 Stratum Percentage steekproef Percentage populatie schoolgrootte < 200 proportie gewichtenleerlingen <.10 23,70 23,71 schoolgrootte ≥ 200 proportie gewichtenleerlingen <.10 30,27 30,27 schoolgrootte < 200 proportie gewichtenleerlingen ≥ .10, maar <.25 14,67 14,67 schoolgrootte ≥ 200 proportie gewichtenleerlingen ≥ .10, maar <.25 15,06 15,05 schoolgrootte < 200 proportie gewichtenleerlingen ≥ .25, maar <.40 4,94 4,94 schoolgrootte ≥ 200 proportie gewichtenleerlingen ≥ .25, maar <.40 3,08 3,08 schoolgrootte < 200 proportie gewichtenleerlingen ≥ .40 5,10 5,10 schoolgrootte ≥ 200 proportie gewichtenleerlingen ≥ .40 Totaal 3,18 3,19 100,00 100,00 Tabel B2.10 Percentage scholen per regio in de steekproef en populatie M8 Regio Percentage steekproef Percentage populatie Noord 14,43 10,40 Oost 31,53 22,82 West 29,40 46,30 Zuid Totaal 24,64 20,47 100,00 100,00 Tabel B2.11 Percentage scholen naar urbanisatie in de steekproef en populatie M8 Urbanisatie Percentage steekproef Zeer sterk stedelijk Percentage populatie 8,90 15,21 Sterk stedelijk 22,78 27,54 Matig stedelijk 24,01 21,03 Weinig stedelijk 24,90 23,10 Niet stedelijk Totaal 19,41 13,13 100,00 100,00 Tabel B2.12 Percentage scholen voor de gewichtenleerlingen in de steekproef en populatie M8 Gewichtenleerlingen Percentage steekproef Percentage populatie ≥ 15% 28,89 30,96 < 15% 71,11 69,04 Totaal 100,00 100,00 66 Cito | Primair onderwijs Cito maakt wereldwijd werk van goed en eerlijk toetsen en beoordelen. Met de meet- en volgmethoden van Cito krijgen mensen een objectief beeld van kennis, vaardigheden en competenties. Hierdoor zijn verantwoorde keuzes op het gebied van persoonlijke en professionele ontwikkeling mogelijk. Onze expertise zetten we niet alleen in voor ons eigen werk maar ook om advies, ondersteuning en onderzoek te bieden aan anderen. Cito Amsterdamseweg 13 Postbus 1034 6801 MG Arnhem T (026) 352 11 11 F (026) 352 13 56 www.cito.nl Klantenservice T (026) 352 11 11 [email protected] Fotografie: Ron Steemers Wetenschappelijke verantwoording van de toetsen Spelling niet-werkwoorden voor groep 7 en 8 Astrid Mols en Frans Kamphuis
© Copyright 2025 ExpyDoc