Het probleem van meetinvariantie bij het

Het probleem van meetinvariantie bij het
vergelijken van subgroepen op basis van
somscores
Vermijdingsgedrag als casestudy
Arne De Boeck, Wim Hardyns & Lieven Pauwels
Vergelijkingen tussen groepen van respondenten op basis van gesommeerde schaalscores zijn enkel zinvol indien men kan aannemen dat de schaal in elk van deze groepen op
dezelfde wijze peilt naar dezelfde onderliggende eigenschap. Deze assumptie wordt
meetinvariantie genoemd. In deze bijdrage leggen de auteurs uit hoe moderne statistische meetmodellen gebruikt kunnen worden om schendingen van deze assumptie en de
eventuele gevolgen daarvan voor de vergelijking van groepsgemiddelden na te gaan. In
een empirisch luik illustreren ze hun uiteenzetting door na te gaan in welke mate een
schaal voor vermijdingsgedrag – vaak gebruikt in onderzoek naar onveiligheidsgevoelens – invariant is naargelang geslacht en leeftijd.
Het begrip measurement kan worden gedefinieerd als de systematische toewijzing
van waarden aan variabelen om een weergave te creëren van kenmerken van personen, objecten of gebeurtenissen (Vandenberg & Lance, 2000, 4). In kwantitatief
criminologisch onderzoek hebben we doorgaans nogal veel vertrouwen in de
weergavekracht van de waarden die opduiken in onze datasets. Een vraag die
eigenlijk te weinig aandacht krijgt, is de volgende: in welke mate reflecteren verschillen in de waarden die wij observeren via onze meetinstrumenten ook werkelijke verschillen in de onderliggende kenmerken die we willen meten? Deze vraag
is nochtans cruciaal in een heleboel onderzoeksdomeinen, zeker wanneer verschillen tussen groepen van respondenten bestudeerd worden. Denk bijvoorbeeld
aan onderzoek naar geslachtsverschillen in onveiligheidsgevoelens of naar etniciteitverschillen in het vertrouwen in de politie. Telkens wanneer we op basis van
gegevens uit surveys uitspraken doen zoals ‘vrouwen voelen zich onveiliger dan
mannen’, gaan we ervan uit dat ons meetinstrument zowel bij mannen als bij
vrouwen op dezelfde wijze gepeild heeft naar eenzelfde onderliggende eigenschap.
Zonder de correctheid van deze assumptie, meetinvariantie genoemd, heeft zo’n
vergelijking inhoudelijk weinig zin (Horn & McArdle, 1992).
In deze bijdrage gaan we dieper in op het belang van meetinvariantie bij een courante praktijk in surveyonderzoek: het vergelijken van subgroepen in de steekproef op basis van hun gemiddelde somscores op een meetschaal. In de eerste
plaats leggen we uit dat mogelijke problemen inzake meetinvariantie uit het zicht
blijven in de gangbare manier waarop gegevens uit meetschalen nu geanalyseerd
worden. We tonen aan dat deze nalatigheid in het slechtste geval kan leiden tot
het trekken van foute conclusies in groepsvergelijkingen. Daarna staan we uitgebreid stil bij een modern statistisch meetmodel dat de formele toetsing van meet-
42
Tijdschrift voor Criminologie 2014 (56) 1
Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores
invariantie wel mogelijk maakt. We gaan na welke voorwaarden binnen zo’n
model vervuld moeten zijn alvorens men kan overgaan tot het zinvol vergelijken
van groepsgemiddelden. We leggen uit wanneer een schending van deze voorwaarden een ernstig probleem is en wanneer niet. In het empirische luik van deze
bijdrage illustreren we hoe meetinvariantie kan getoetst en beoordeeld worden
aan de hand van een schaal die in onderzoek naar angst voor criminaliteit vaak
gebruikt wordt om vermijdingsgedrag te meten. Daarbij staan de volgende onderzoeksvragen centraal: in welke mate is deze schaal invariant naargelang leeftijd en
geslacht, en wat zijn de praktische gevolgen van een eventuele schending voor het
vergelijken van de groepsgemiddelden?
Meetinvariantie, bias en de gangbare criminologische praktijk
In surveyonderzoek worden theoretische constructen die moeilijk rechtstreeks
empirisch observeerbaar zijn vaak gemeten met behulp van een meetschaal. Zo’n
meetschaal is samengesteld uit verschillende indicatoren die worden verondersteld de meer eenvoudig observeerbare manifestaties van het construct te zijn. In
die zin kun je hun werking een beetje vergelijken met (niet gelijkstellen aan) de
symptomen van een ziekte. Net zoals een verkoudheid zich meestal uit in keelpijn, niezen en/of een lopende neus, kunnen we ervan uitgaan dat ‘vertrouwen in
de politie’ zich zal manifesteren in zaken zoals ‘het geloof dat de politie een succesvolle rol speelt in de aanpak van criminaliteit’ of ‘steun voor het feit dat er een
aanzienlijke hoeveelheid belastinggeld naar het politieapparaat vloeit’.1
De kwaliteit van een meetschaal wordt in kwantitatief onderzoek meestal als
volgt nagegaan: eerst wordt een exploratieve factoranalyse uitgevoerd om te
toetsen in hoeverre de samenhang tussen de verschillende schaalindicatoren kan
verklaard worden door één achterliggende factor die het theoretisch construct
vertegenwoordigt, dan wordt op basis van de factorladingen de sterkte van de
samenhang tussen elke indicator en die factor nagegaan, en ten slotte wordt met
behulp van Cronbach’s alpha de betrouwbaarheid van de schaal gemeten. Indien de
resultaten van vorenstaande analyses gunstig zijn (i.e. voldoen aan de standaarden), worden de antwoordscores van de verschillende indicatoren in de schaal
gesommeerd en vervolgens gebruikt in statistische analyses om bijvoorbeeld verschillen tussen subgroepen van respondenten na te gaan. In deze werkwijze wordt
echter niet nagegaan of het meetinstrument wel op dezelfde manier functioneert
in de subgroepen die men wil vergelijken. Geobserveerde verschillen in de gemiddelde scores van bijvoorbeeld migranten en autochtonen op een schaal voor vertrouwen in de politie kunnen dan zowel echte verschillen in vertrouwen weerspiegelen als een systematische vertekening in de manier waarop de indicatoren uit de
schaal werden gebruikt. Dit probleem is gemakkelijk te illustreren aan de hand
van het volgende voorbeeld. Stel dat men via een Nederlandstalige vragenlijst het
vertrouwen van de bevolking in de politie wil nagaan, maar dat een aanzienlijk
1
De keuze van de indicatoren en de relatie tussen deze indicatoren en het theoretisch construct
dat men wil meten, vereisen uiteraard grondige theoretische en empirische rechtvaardiging.
Tijdschrift voor Criminologie 2014 (56) 1
43
Arne De Boeck, Wim Hardyns & Lieven Pauwels
deel van de bevraagde migranten de Nederlandse woordenschat nog niet in al zijn
finesses beheerst. Dan zou het kunnen dat zij de schaalindicatoren op een andere
manier interpreteren en daardoor systematisch anders antwoorden dan zij die
taalvaardiger zijn. In een worst-casescenario zijn de geobserveerde verschillen in
de scores dan grotendeels toe te schrijven aan verschillen in taalvaardigheid, en
niet aan werkelijke verschillen in het vertrouwen in de politie. Op die manier
bedreigt de schending van de assumptie van meetinvariantie de validiteit van de
empirische toetsing van criminologische theorieën, maar kan ze ook kwalijke
gevolgen hebben in de praktijk (denk maar aan een multiculturele gemeente die
via een survey het vertrouwen van de burgers in de lokale politie wil nagaan).
Steunend op het basiswerk van Van de Vijver en Leung (1997) kunnen we drie
vormen van systematische vertekening (of bias) onderscheiden die een inhoudelijk zinvolle vergelijking van schaalscores tussen verschillende (culturele) groepen
kunnen bemoeilijken. Afhankelijk van het niveau waarop de vertekening
optreedt, wordt een onderscheid gemaakt tussen construct bias, method bias en
item bias. Bij construct bias gaat het er in essentie om dat het theoretisch construct niet helemaal dezelfde betekenis of empirische inhoud heeft in de groepen
die men wil vergelijken. In criminologisch onderzoek kan dit bijvoorbeeld het
geval zijn wanneer men constructen gebruikt die onderhevig zijn aan cultuurverschillen. Onder de noemer method bias kunnen we verschillende subtypen van
vertekeningen onderbrengen die gelinkt zijn aan de manier waarop de data zijn
verzameld. Method bias kan onder andere ontstaan wanneer de vergeleken groepen verschillen met betrekking tot een aantal kenmerken die inhoudelijk losstaan
van het theoretisch construct dat men wil meten, maar wel het gebruik van het
meetinstrument in zijn geheel beïnvloeden. Het is deze vorm van method bias die
speelde in ons voorbeeld van de migranten die, omwille van een minder goede
kennis van het Nederlands, de schaalindicatoren anders interpreteerden. De laatste vorm van bias die men kan onderscheiden, is item bias of differential item functioning (DIF). Deze termen gebruikt men om te verwijzen naar vertekeningen die
optreden bij één of slechts enkele items. Dit is bijvoorbeeld het geval wanneer een
item uit de schaal slecht vertaald werd en daardoor anders functioneert in een
aantal landen die deelnemen aan een crossnationaal onderzoek. DIF kan echter
ook ontstaan wanneer een bepaalde schaalindicator een minder goede meting
vormt van het achterliggend construct in een van de groepen die men wil vergelijken. Dit kan erop wijzen dat de empirische inhoud van een bepaald theoretisch
construct slechts gedeeltelijk dezelfde is in de groepen die men wil vergelijken.2 In
het empirische luik van deze bijdrage illustreren we hoe deze vorm van item bias
opgespoord kan worden.
2
44
In die zin kan item bias gezien worden als een voldoende (maar geen noodzakelijke) voorwaarde
om te spreken van construct bias. Er zijn immers nog andere zaken die construct bias kunnen
veroorzaken (zie ook Pauwels & Pleysier, 2003).
Tijdschrift voor Criminologie 2014 (56) 1
Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores
Meetinvariantie opsporen en beoordelen
We hebben hiervoor meetinvariantie omschreven als de assumptie dat een
bepaald meetinstrument – meestal een schaal in kwantitatief onderzoek – in
diverse subpopulaties op dezelfde wijze hetzelfde theoretisch concept meet.
Moderne statistische meetmodellen die gebruik maken van zogenaamde latente
variabelen bieden een formeel kader waarbinnen deze assumptie verder kan worden gespecificeerd en getoetst. Dergelijke modellen worden in de eerste plaats
gebruikt om na te gaan in welke mate de samenhang tussen een set van indicatoren – oftewel geobserveerde variabelen – kan verklaard worden in termen van één
onderliggende verdeling – oftewel latente variabele – die het theoretisch construct vertegenwoordigt (Bollen, 2002). Het interessante is echter dat ze de
onderzoeker ook toelaten om een dergelijke analyse tegelijkertijd in verschillende
subgroepen van respondenten uit te voeren. Dit wordt een veelvoudige groepsvergelijking genoemd. Er is in deze methode sprake van meetinvariantie indien
dezelfde set van indicatoren op dezelfde manier gerelateerd is aan hetzelfde
onderliggend construct in elke subgroep. Statistisch gezien betekent dit meer specifiek dat de wiskundige functies die de geobserveerde variabelen aan de achterliggende latente variabele linken equivalent zijn in alle subgroepen die men wil
vergelijken (Borsboom, 2006; Mellenbergh, 1989; Meredith, 1993).
Afhankelijk van de assumpties die gemaakt worden over de vorm van de latente
variabele en het meetniveau van de geobserveerde variabelen kan men binnen
zo’n veelvoudige groepsvergelijking verschillende analysetechnieken aanwenden.3
Van de beschikbare analysetechnieken zal de confirmatorische factoranalyse (CFA)
kwantitatieve criminologen allicht het bekendst in de oren klinken. In dit populaire meetmodel wordt de latente variabele geacht een kwantitatieve structuur te
hebben. Concreet betekent dit dus dat de positie van de respondenten op het theoretisch construct dat men wil meten enkel in haar kwantitatieve dimensie kan
variëren. Bijvoorbeeld: sommige mensen hebben in grote en andere in minder
grote mate vertrouwen in de politie, en het zijn die kwantitatieve verschillen tussen respondenten die zorgen voor de verschillen die we observeren in hun antwoordpatronen op onze schaalindicatoren.4 Wat het vereiste meetniveau van de
geobserveerde variabelen betreft is een CFA relatief flexibel geworden. Moderne
statistische programma’s bevatten tegenwoordig aangepaste procedures die ons
toelaten om zowel metrische als ordinale en binaire geobserveerde variabelen te
analyseren (Brown, 2006, 378-410). Wanneer men in een veelvoudige groepsvergelijking gebruik maakt van een CFA spreekt men van een multigroup confirmatory
3
4
Zie Bartholomew e.a. (2002) voor een overzicht.
Men kan echter ook veronderstellen dat respondenten op basis van hun positie op het theoretisch construct clusteren in een aantal onderscheiden groepen die eerder op een kwalitatieve
manier van elkaar verschillen. In dat geval heeft de latente variabele een categorische structuur
en kan men, zoals bijvoorbeeld Jackson en Kuha (2012), kiezen voor een latente klassenanalyse.
De keuze voor een kwantitatieve of kwalitatieve structuur wordt best gemaakt op basis van een
grondige theoretische reflectie over de aard van het construct dat men wil meten en het type van
indicatoren dat hiervoor nodig is (zie Borsboom, 2008).
Tijdschrift voor Criminologie 2014 (56) 1
45
Arne De Boeck, Wim Hardyns & Lieven Pauwels
factor analysis (MGCFA). In de rest van deze bijdrage focussen we op het toetsen
van meetinvariantie aan de hand van deze methode.
Er wordt in een MGCFA een onderscheid gemaakt tussen verschillende niveaus
van meetinvariantie en het gewenste niveau is vooral afhankelijk van wat men als
onderzoeker wil doen met de data (Vandenberg & Lance, 2000). Het belangrijkste
onderscheid dat we dienen te maken, is dat tussen (1) het vergelijken van de relaties tussen variabelen in verschillende subgroepen en (2) het vergelijken van gemiddelde scores. In een eerdere bijdrage van Pauwels en Pleysier (2003) lag vooral de
nadruk op het eerste, in deze bijdrage gaan we dieper in op het tweede. De eisen
die aan meetinvariantie worden gesteld, zijn hoger wanneer men groepsgemiddelden5 wil vergelijken. Waar bij het vergelijken van relaties tussen variabelen
slechts metric invariance vereist is, kunnen groepsgemiddelden enkel vergeleken
worden als er sprake is van scalar invariance (Vandenberg & Lance, 2000). Er is
sprake van scalar variance als aan alle van de volgende op elkaar voortbouwende
voorwaarden is voldaan:
– Alle geobserveerde variabelen moeten voldoende hoog laden op één en
dezelfde latente variabele in beide groepen (ook wel configural invariance
genoemd). Dit wijst erop dat alle schaalindicatoren naar eenzelfde achterliggend construct verwijzen.
– De factorladingen moeten identiek zijn in beide groepen (ook wel metric
invariance genoemd). Eenvoudigweg betekent dit dat de geobserveerde variabelen even sterk gerelateerd zijn aan de latente variabele. Indien dit niet het
geval is, dan kan het bijvoorbeeld zijn dat het construct in groep A vooral
door de antwoorden op de indicatoren X1 en X2 wordt bepaald, terwijl in
groep B de antwoorden op de indicatoren X3 en X4 meer doorwegen.
– De intercepten moeten identiek zijn in beide groepen (vanaf hier is het
niveau van scalar invariance bereikt). Als niet alleen de factorladingen, maar
tevens de intercepten gelijk zijn, dan zullen respondenten met dezelfde positie op de latente variabele ook dezelfde verwachte score hebben op de geobserveerde variabelen, onafhankelijk van de groep waartoe ze behoren. Enkel
dan kan men verschillen in de geobserveerde groepsgemiddelden ook toeschrijven aan verschillen op de onderliggende latente variabele.
Alvorens we kunnen overgaan naar het empirische luik van deze bijdrage, dienen
we nog even stil te staan bij de volgende belangrijke vraag: hoe ernstig zijn nu de
gevolgen van het ontbreken van scalar invariance voor het vergelijken van groepsgemiddelden? Deze vraag is eigenlijk moeilijk op voorhand te beantwoorden.
Zoals Borsboom (2006) terecht stelt, is invariance een strikt begrip, omdat zij verwijst naar een – zeker in de sociale wetenschappen – ideale situatie waarbij de
parameters (intercepten en factorladingen) van het meetmodel dat de geobserveerde variabelen aan de achterliggende latente variabele linkt, exact dezelfde
waarden hebben in de groepen die men wil vergelijken. Met andere woorden, elke
vertekening is per definitie een inbreuk op de assumptie. Dit terwijl de grootte
5
46
Hetzij de somscores op een set van geobserveerde variabelen, hetzij de latente gemiddelden die
men in een meetmodel met latente variabelen kan berekenen.
Tijdschrift voor Criminologie 2014 (56) 1
Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores
van systematische vertekeningen in de praktijk natuurlijk fluctueert op een continuüm van miniem tot heel groot. Of het ontbreken van scalar invariance een probleem is, zal dan vooral afhangen van de grootte van de werkelijke verschillen in
de groepsgemiddelden. Als migranten bijvoorbeeld een veel lager vertrouwen hebben in de politie dan autochtonen, dan zullen minieme vertekeningen in onze
metingen deze werkelijkheid niet kunnen verdoezelen. Als de werkelijke verschillen echter klein zijn, dan kunnen zelfs minieme vertekeningen snel leiden tot
foute conclusies. Aangezien we in de sociale wetenschappen zelden met grote
zekerheid voorspellingen kunnen doen over de grootte van effecten of verschillen, is meetinvariantie eigenlijk altijd een potentieel probleem dat dient onderzocht te worden. Deze vaststelling kan dus gezien worden als opstap naar (en
rechtvaardiging voor) het empirische luik van deze bijdrage.
Een praktische toepassing: de meting van vermijdingsgedrag
In navolging van de Angelsaksische landen heeft zich ook in België en Nederland
de laatste jaren een onderzoekstraditie ontwikkeld rond het thema ‘angst voor
criminaliteit’ (bijv. Vanderveen, 2006; Pleysier, 2010). Angst voor criminaliteit
wordt door vele auteurs gezien als een multidimensioneel construct dat emoties,
gedachten en gedragingen omvat (Gabriel & Greve, 2003; Vanderveen, 2006;
Pleysier, 2010). In deze bijdrage gaat onze aandacht uit naar de gedragsmatige
dimensie, en meer specifiek naar de meting van vermijdingsgedrag.6 Er is sprake
van vermijdingsgedrag wanneer mensen bepaalde plaatsen of situaties vermijden
omdat die geassocieerd worden met een verhoogd risico op slachtofferschap of
het ervaren van een gevoel van dreiging (Miethe, 1995). Zowel in fundamenteel
als in beleidsgericht onderzoek wordt regelmatig naar vermijdingsgedrag gepeild.
Omdat het vaak gaat om gedragingen die plaatsvinden in de woonbuurt (bijv.
‘bepaalde plaatsen mijden in buurt omdat men het niet veilig vindt’) is het een
interessant construct wanneer men bijvoorbeeld de link tussen buurtkenmerken
en onveiligheidsbeleving wil nagaan (Hardyns e.a., 2010). Het is waarschijnlijk
omwille van die link met de buurt en het vrij tastbare karakter van de gebruikte
indicatoren dat ook in beleidsgericht onderzoek zoals de Belgische Veiligheidsmonitor regelmatig naar vermijdingsgedrag wordt gepeild.
In deze bijdrage willen we nagaan of een schaal met een aantal vaak gebruikte
indicatoren voor vermijdingsgedrag (zie tabel 1) invariant is naargelang geslacht
en leeftijd. De specifieke keuze om de invariantie van deze schaal na te gaan naargelang geslacht en leeftijd is ingegeven door het belang van deze variabelen in
surveyonderzoek naar subjectieve en objectieve onveiligheid. Zo hebben vele
onderzoeken geconcludeerd dat ouderen en vrouwen zich vaker onveiliger voelen
en onveilige situaties sneller gaan vermijden (Hale, 1996; Pleysier, 2010; Vanderveen, 2006). Deze bevindingen worden vaak verklaard vanuit het kwetsbaarheids6
Miethe (1995) maakt binnen de gedragscomponent van angst voor criminaliteit daarnaast ook
nog een onderscheid tussen beschermingsgedrag (bijv. het kopen van een alarmsysteem), aanpassingen van de levensstijl (bijv. steeds de auto nemen in plaats van het openbaar vervoer) en deelname aan relevante collectieve activiteiten (bijv. een buurtinformatienetwerk).
Tijdschrift voor Criminologie 2014 (56) 1
47
Arne De Boeck, Wim Hardyns & Lieven Pauwels
model, dat aandacht besteedt aan twee typen van kwetsbaarheid, met name
fysieke kwetsbaarheid en sociale kwetsbaarheid (Franklin e.a., 2008; Liu e.a.,
2009). Het geslacht en de leeftijd van een individu worden in de literatuur
beschouwd als dé twee kernindicatoren van fysieke kwetsbaarheid. Vrouwen en
oudere personen zullen vaker dan mannen en jongeren vermijdingsgedrag ontwikkelen omdat ze zich ervan bewust zijn zich minder te kunnen verweren wanneer lichamelijk geweld gebruikt wordt.
We kunnen ons echter de vraag stellen of vermijdingsgedrag zich wel op dezelfde
manier manifesteert bij mannen en vrouwen, of bij jongeren en ouderen. Aangezien men voor alle respondenten dezelfde set van observeerbare indicatoren
gebruikt, gaat men er eigenlijk impliciet van uit dat deze allen op dezelfde wijze
peilen naar vermijdingsgedrag in deze subgroepen. Indien dit voor een of meer
indicatoren niet of in mindere mate het geval zou zijn, is er sprake van DIF. In
wat volgt gaan we na of alle indicatoren van een schaal voor vermijdingsgedrag
wel op dezelfde wijze functioneren in verschillende subgroepen van respondenten
op basis van leeftijd en geslacht. Indien er sprake blijkt te zijn van DIF gaan we
ook na wat hiervan de gevolgen zijn voor groepsvergelijkingen op basis van de
gemiddelde schaalscores. Omdat we a priori geen specifieke verwachtingen hebben over de resultaten van onze analyse, gaat het hier om een verkennende oefening.
Data en methoden
De data die we gebruiken voor onze analyses zijn afkomstig van de Social capital
and Well-being In Neighbourhoods in Ghent (SWING) Survey. De eerste wave van
deze survey werd in 2011 afgenomen bij 1.025 inwoners uit 50 Gentse buurten.
Gent is als derde grootste stad van België onderverdeeld in 201 statistische sectoren (buurten). Onder de statistische sectoren die meer dan 200 inwoners telden,
werden er 50 geselecteerd. Binnen elke geselecteerde buurt werd vervolgens een
proportioneel gestratificeerde toevalssteekproef (naargelang geslacht, leeftijd en
origine) van inwoners getrokken uit het bevolkingsregister. De data werden via
face-to-face-interviews verzameld. De SWING Survey besteedt aandacht aan individuele verschillen en verschillen tussen buurten op het vlak van sociaal kapitaal,
gezondheid en veiligheid. De survey bevat een schaal die peilt naar vermijdingsgedrag en die gebaseerd is op de meting van dit concept in het kader van de Belgische Veiligheidsmonitor. Deze Likertschaal bestaat uit drie indicatoren, telkens
met een vijfpuntsantwoordschaal, gaande van 1 (nooit) tot 5 (heel vaak). Tabel 1
biedt een overzicht van de items uit deze schaal.
We maken gebruik van een MGCFA, uitgevoerd in de Mplussoftware versie 6.11
(Muthén & Muthén, 1998-2010), om na te gaan in welke mate er bij deze schaal
sprake is van DIF naargelang geslacht en leeftijd. Naast de opdeling tussen mannen en vrouwen verdelen we onze respondenten ook onder in drie groepen naar-
48
Tijdschrift voor Criminologie 2014 (56) 1
Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores
Tabel 1:
Indicatoren uit de schaal voor vermijdingsgedrag
Indicator
Originele vraag
[Plekken]
Gebeurt het dat u bepaalde plekken in uw buurt mijdt omdat u het niet veilig
vindt?
[Onbekenden] Gebeurt het dat u vermijdt om open te doen voor onbekenden omdat u het
niet veilig vindt?
[Donker]
Gebeurt het dat u als het donker is wel eens vermijdt om weg te gaan van huis?
Mogelijke antwoorden: nooit/zelden/soms/vaak/heel vaak.
gelang hun leeftijd: jongeren (18 tot 35 jaar), een tussengroep (36 tot 54 jaar) en
ouderen >55jaar).7
Zoals reeds gezegd, focussen we in deze bijdrage op scalar invariance, omdat dit
niveau van invariantie nodig is om op een valide manier de geobserveerde groepsgemiddelden op de schaal te kunnen vergelijken. In onze analyses zijn er echter
twee methodologische kwesties die extra aandacht verdienen. Ten eerste werden
onze respondenten niet volledig onafhankelijk van elkaar geselecteerd, maar per
buurt. Onderzoek heeft aangetoond dat inwoners uit dezelfde buurt gemiddeld
gezien meer op elkaar gelijken dan inwoners uit verschillende buurten wat betreft
zelfgerapporteerd vermijdingsgedrag (Hardyns e.a., 2010). Als we met deze structuur van de data geen rekening houden, zullen de standaardfouten van de parameters in ons model vertekend zijn. Door de woonbuurt van de respondent aan te
duiden als cluster variable worden standaardfouten en andere teststatistieken
automatisch aangepast in Mplus (Muthén & Muthén, 1998-2010, 6). Ten tweede
gaat een klassieke CFA ervan uit dat de antwoorden op de indicatoren uit de
schaal continu en normaal verdeeld zijn. In onze schaal voor vermijdingsgedrag
zijn de indicatoren van een ordinaal meetniveau en helemaal niet normaal verdeeld. De Mplussoftware gebruikt een specifieke strategie om ordinale variabelen
op te nemen in de CFA (Millsap & Yun-Tein, 2004). Normaal wordt de relatie tussen een geobserveerde variabele en de latente variabele gemodelleerd via een
lineaire regressie, die een intercept en een factorlading bevat. In Mplus wordt de
relatie tussen een ordinale schaalindicator en de latente variabele echter gemodelleerd via een probitregressie, die naast een intercept en een factorlading ook thresholds bevat als extra parameters.8 Deze manier van werken laat ons toe om voor
elke antwoordcategorie van elke indicator apart de gemiddelde kans te modelleren dat een respondent deze aanduidt, gegeven zijn positie op de latente variabele. Deze strategie heeft twee belangrijke gevolgen voor het testen van meetin7
8
Onze keuze voor deze indeling is gebaseerd op methodologische en pragmatische gronden. Deze
verdeling zorgt er namelijk voor dat we drie groepen hebben die inhoudelijk betekenisvol genoeg
zijn, maar ook telkens evenveel respondenten bevatten. Dit laatste maakt de vergelijking van de
geschatte parameters gemakkelijker. Om de kans te verkleinen dat onze resultaten deels een
methodologisch artefact zouden zijn, hebben we de analyses herhaald met een andere indeling:
jongeren (18 tot 29 jaar), een tussengroep (30 tot 60 jaar) en ouderen (>60 jaar). In beide gevallen kwamen we tot dezelfde conclusies.
Het aantal thresholds is gelijk aan het aantal antwoordcategorieën van een indicator min één (zie
Millsap & Yun-Tein, 2004).
Tijdschrift voor Criminologie 2014 (56) 1
49
Arne De Boeck, Wim Hardyns & Lieven Pauwels
variantie. In de eerste plaats is aan de voorwaarde van scalar invariance nu enkel
voldaan als niet alleen de factorlading en het intercept van elke indicator, maar
ook de thresholds gelijk zijn in de verschillende groepen. Met andere woorden, er
is sprake van scalar invariance wanneer twee respondenten met dezelfde positie
op de latente variabele dezelfde verwachte kans hebben om een bepaalde antwoordcategorie aan te duiden, ook al komen ze uit verschillende subgroepen. In
de tweede plaats is het zo dat de factorlading en de thresholds samen de sterkte
van de relatie tussen de geobserveerde indicator en de latente variabele bepalen.
Ze moeten daarom steeds in tandem vrijgelaten of gelijkgesteld worden in de te
vergelijken groepen (Davidov e.a., 2011).
Al onze modellen werden geschat met behulp van de Robust Weighted Least Squares-schattingsmethoden (Brown, 2006, 388). De mate waarin onze modellen passen bij de data evalueren we aan de hand van de chi² test, die nagaat of er substantiële verschillen bestaan tussen de geobserveerde data en de data die door het
model worden geschat (Brown, 2006, 81). Een niet-significante chi² test wijst op
een goed passend model. Daarnaast werden ook de volgende drie fit indices
gebruikt: (1) de Root Mean Square Error of Approximation (RMSEA), waarbij waarden <0,06 duiden op een goed passend model, (2) de Comparative Fit Index (CFI),
waarbij waarden >0,95 duiden op een goed passend model, en (3) de Tucker-Lewis
Index (TLI), waarbij waarden >0,95 duiden op een goed passend model (Hu &
Bentler, 1999).
Resultaten
In eerste instantie bespreken we hier de resultaten van het model waarin de
schaal getoetst wordt voor de hele steekproef, zonder onderscheid te maken tussen bepaalde subgroepen van respondenten (zie figuur 1).9 In de volgende stappen zullen we kijken in welke mate er sprake is van invariantie naargelang leeftijd
en geslacht.
De resultaten van dit basismodel wijzen erop dat de samenhang tussen onze
schaalindicatoren op voldoende wijze kan verklaard worden door één achterliggende latente variabele die het theoretisch construct vertegenwoordigt.10 De hoge
gestandaardiseerde factorladingen11 geven aan dat elke indicator op zich ook
9
10
11
50
In dit basismodel stelden we de variantie van de latente variabele gelijk aan 1, wat neerkomt op
een standaardisatie. Verkennende analyses toonden aan dat de laatste twee indicatoren even
sterk gerelateerd waren aan het achterliggende construct. Daarom stelden we hun factorladingen
in het model gelijk aan elkaar.
Om de interpretatie van onze figuren eenvoudig te houden gaven we de latente variabele hier de
naam ‘vermijdingsgedrag’. Het zou echter correcter zijn om te spreken over ‘onveiligheidsgevoelens’. We veronderstellen immers dat de verschillen tussen respondenten in hun zelfrapportage
van vermijdende gedragingen een empirisch observeerbare manifestatie zijn van verschillen in
onderliggende onveiligheidsgevoelens.
Om de presentatie van de modellen overzichtelijk te houden geven we enkel factorladingen en
meetfouten weer in de figuren. Een appendix met thresholds is beschikbaar op aanvraag bij de
auteurs. De intercepten worden in Mplus gelijkgesteld aan 0 om de modellen te kunnen identificeren (zie Davidov e.a., 2011). Deze opmerkingen gelden ook voor figuur 2 en 3.
Tijdschrift voor Criminologie 2014 (56) 1
Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores
0,69
Vermijdingsgedrag
0,85
0,85
Plekken
0,52
Onbekende
0,28
Donker
0,27
Chi-square=0,075; df=1; p=0,78; RMSEA=0,00; CFI=1,00; TLI=1,0
Figuur 1:
Factorladingen en meetfouten in het gestandaardiseerde basismodel
voor de hele steekproef (N=1.025)
sterk gerelateerd is aan die latente variabele. De niet-significante chi² test en de
overige fit indices geven aan dat het model uitstekend bij de data past.
Meetinvariantie naargelang geslacht
Om te kijken of het model uit figuur 1 scalar invariant is naargelang geslacht, testen we een meergroepsmodel waarbij de relaties tussen de latente variabele en de
indicatoren (meer specifiek dus de intercepten, thresholds en factorladingen) volledig gelijk worden gesteld voor mannen en vrouwen. In lijn met de strategie
voorgesteld door Muthén en Asparouhov (2002) beginnen we dus met het meest
restrictieve model en gaan we vervolgens na of het nodig is om dit model aan te
passen. De resultaten worden visueel weergegeven in figuur 2.12
De niet-significante chi² test en de waarden van de fit indices geven aan dat dit
model in zijn globaliteit zeer goed bij de data past. Concreet wil dit zeggen dat
onze drie indicatoren voor vermijdingsgedrag op dezelfde manier gerelateerd zijn
aan één achterliggende latente variabele in beide groepen, en dat mannen en
vrouwen met dezelfde positie op die latente variabele ook dezelfde verwachte antwoordscores hebben op de indicatoren. Inhoudelijke conclusies kan men trekken
door te kijken naar verschillen tussen mannen en vrouwen wat betreft hun
gemiddelde score op de latente variabele uit ons meetmodel. Een vergelijking van
deze latente gemiddelde scores heeft als voordeel dat er rekening wordt gehouden
met meetfouten. Aangezien het niveau van scalar invariance is bereikt, kan men
echter ook de gemiddelde somscore op de schalen vergelijken met een gewone ttest. De resultaten van beide methoden worden hierna weergegeven in tabel 2.
Zoals verwacht vertonen vrouwen gemiddeld gezien meer vermijdingsgedrag dan
mannen, maar het verschil is niet groot.13
12
13
Om het model te kunnen identificeren werd de factorlading van de laatste indicator in beide
groepen gelijkgesteld aan 1. Deze referentie-indicator bepaalt tevens de eenheid van de schaal van
de latente variabele.
De meeteenheid van de somscores is niet dezelfde als die van de latente scores. Men kan de
grootte van de verschillen dus niet in absolute zin vergelijken. Het zou ons in het kader van deze
bijdrage echter te ver leiden om hier dieper op in te gaan.
Tijdschrift voor Criminologie 2014 (56) 1
51
Arne De Boeck, Wim Hardyns & Lieven Pauwels
0,79
Plekken
0,50
0,92
Onbekende
0,32
1,00
Donker
0,19
0,79
Plekken
0,52
0,92
Onbekende
0,24
1,00
Donker
0,28
Vermijdingsgedrag
(mannen)
Vermijdingsgedrag
(vrouwen)
Chi-square=18,203; df=10; p=0,0516; RMSEA=0,04; CFI=0,99;
Figuur 2:
Volledig invariant model voor mannen (N=494) en voor vrouwen
(N=529) (ongestandaardiseerde factorladingen en meetfouten)
Tabel 2:
Vergelijking van groepsgemiddelden op de schaal voor
vermijdingsgedrag naargelang geslacht
Somscore
Min. Max. Gemiddelde
mannen
Gemiddelde
vrouwen
Verschil (standaardfout)
0
Latente score /
12
5,09
6,54
1,46 (0,135)***
/
/
/
0,571 (0,098)***
*** p<0,0
Meetinvariantie naargelang leeftijd
Eenzelfde procedure wordt gevolgd voor het opsporen van meetinvariantie naargelang leeftijd. We beginnen terug met een volledig scalar invariant model waarbij
de relaties tussen de indicatoren en de latente variabele volledig gelijk worden
gesteld in de drie subgroepen van respondenten: jongeren (18-35 jaar), een tussengroep (36-54 jaar) en ouderen (55+). De chi² test (χ²=65,119 met df=20 en
p=0,000) en de RMSEA (>0,06) geven echter aan dat dit invariant model in zijn
geheel bekeken eigenlijk niet zo goed past bij de data. Aan de hand van de modification indices14 (MI) kunnen we nagaan welke parameters in het model hiervoor
verantwoordelijk zijn. Daaruit blijkt dat het model hoofdzakelijk in de groep van
14
Modification indices geven aan waar in het model significante verbeteringen kunnen aangebracht worden door het wijzigen van een bepaalde parameter.
52
Tijdschrift voor Criminologie 2014 (56) 1
Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores
Vermijdingsgedrag
(jongeren)
Vermijdingsgedrag
(tussengroep)
Vermijdingsgedrag
(ouderen)
0,85
Plekken
0,49
0,98
Onbekende
0,33
1,00
Donker
0,30
0,85
Plekken
0,35
0,98
Onbekende
0,44
1,00
Donker
0,31
0,66
Plekken
0,53
0,98
Onbekende
0,38
1,00
Donker
0,46
Chi-square=13,387; df=16; p=0,64; RMSEA=0,00; CFI=1,00; TLI=1,0
Figuur 3:
Gedeeltelijk invariant model voor jongeren (N=335), tussengroep
(N=351) en ouderen (N=335) (ongestandaardiseerde factorladingen
en meetfouten)
oudere respondenten niet zo goed bij de data past, en dat dit te wijten is aan de
relatie tussen de latente variabele en de eerste indicator (‘Gebeurt het dat u
bepaalde plekken in uw buurt mijdt omdat u het niet veilig vindt?’). In een tweede
model staan we daarom toe dat deze relatie anders is in de groep van de oudste
respondenten dan in de andere twee leeftijdsgroepen.15 Deze aanpassing leidt tot
een significante verbetering van het model. De chi² test en de waarden van de fit
indices geven aan dat het model in zijn globaliteit nu wel zeer goed bij de data
past (zie figuur 3 voor de resultaten van dit model).16
15
We doen dit meer specifiek door toe te staan dat de factorlading en de thresholds andere waarden aannemen in de oudste groep van respondenten. Intercepten worden in Mplus steeds constant gehouden (zie Davidov e.a., 2011).
Tijdschrift voor Criminologie 2014 (56) 1
53
Arne De Boeck, Wim Hardyns & Lieven Pauwels
De lagere factorlading (0,66) wijst erop dat de vraag naar het mijden van bepaalde
plekken in de buurt mogelijk een minder goede indicator is voor het achterliggende construct in de groep van oudste respondenten. Om op een eenvoudige
manier duidelijk te maken wat dit nu precies zegt over het antwoordpatroon van
de oudste respondenten op onze schaal, hebben we figuur 4 opgesteld. Deze
figuur geeft de verwachte kans weer dat respondenten antwoorden dat ze ‘nooit
bepaalde plekken in de buurt’ mijden naargelang hun positie op de achterliggende
latente variabele (gemiddelde score versus anderhalve standaardafwijking boven
dat gemiddelde) en naargelang de leeftijdsgroep waartoe ze behoren (jongeren/
tussengroep versus ouderen). We kozen hier voor een illustratie aan de hand van
de antwoordcategorie ‘nooit’, omdat de verschillen tussen de leeftijdsgroepen zich
daar het sterkst aftekenen. In beide grafieken zien we aan de hand van de curve,
logischerwijs, dat de kans op het geven van dit antwoord afneemt naarmate de
score op de achterliggende latente variabele toeneemt en men dus een sterkere
neiging tot het stellen van vermijdingsgedrag vertoont.
Een markante vaststelling is echter dat oudere respondenten een grotere kans
(81 procent) hebben om te stellen dat ze ‘nooit’ bepaalde plaatsen in de buurt mijden dan de jongere respondenten (62 procent), ook al hebben ze dezelfde gemiddelde score (0) op de achterliggende latente variabele. Het verschil tussen oud en
jong wordt zelfs nog een klein beetje groter (31 procent versus 8 procent) naarmate we één standaardafwijking opschuiven op de latente variabele en de vergelijking maken voor hen die de sterkste neiging tot het stellen van vermijdingsgedrag
vertonen.
Twee vragen dringen zich op bij het bekijken van deze resultaten: (1) hoe komt
het dat we in de groep met de oudste respondenten een grotere kans hebben om
iemand tegen te komen die aangeeft nooit bepaalde plekken in de buurt te mijden, ongeacht de positie op de achterliggende latente variabele, en (2) wat zijn de
gevolgen van deze vorm van meetinvariantie? Bij gebrek aan bewijsmateriaal kunnen we de eerste vraag slechts beantwoorden door het formuleren van een hypothese. De activity space van de oudste respondenten is mogelijk beperkter dan die
van de jongere respondenten in de steekproef. Oudere respondenten geven inderdaad sneller aan dat ze zelden of nooit bepaalde plaatsen in de buurt mijden,
maar dat heeft dan misschien niets met onveiligheidsgevoelens te maken, maar
eerder met het feit dat ze over het algemeen gewoon minder vaak buiten komen.
Onderzoek heeft herhaaldelijk aangetoond dat de mate waarin mensen deelnemen aan fysieke activiteiten binnens- en buitenshuis (sporten, een wandeling
maken, enz.) daalt met de leeftijd (voor een overzicht, zie Trost e.a., 2002). Als
deze redenering klopt, is de eerste schaalindicator minder geschikt om te peilen
naar het vermijdingsgedrag van oudere respondenten. Wat zijn nu de gevolgen
van deze vertekening voor het vergelijken van de verschillende leeftijdsgroepen?
Dit illustreren we door in tabel 3 het verschil tussen de latente gemiddelden voor
de schaal naargelang leeftijd weer te geven voor de volgende twee modellen:
16
Ook in dit model werd de factorlading voor de derde indicator in beide groepen gelijkgesteld aan
1. Zie noot 12.
54
Tijdschrift voor Criminologie 2014 (56) 1
Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores
1
Verwachte kans
0,9
Jongeren/tussengroep
0,8
0,7
0,6
0,5
0,4
0,3
0,2
2
2,5
3
2
2,5
3
1,5
1
0,5
0
-0,5
-1
-1.5
-2
-3
0
-2,5
0,1
Achterliggende latente variabele
1
Verwachte kans
0,9
Ouderen
0,8
0,7
0,6
0,5
0,4
0,3
0,2
1,5
1
0,5
0
-0,5
-1
-1.5
-2
-3
0
-2,5
0,1
Achterliggende latente variabele
Figuur 4:
Verwachte kans op het antwoord ‘Ik mijd nooit plaatsen in mijn buurt’
in functie van de leeftijd van de respondent en zijn positie op de
achterliggende latente variabele
(1) het volledig invariant model, waarin we ervan uitgaan dat alle indicatoren
even sterk gerelateerd zijn aan één achterliggend construct in alle leeftijdsgroepen, en (2) het aangepaste model, dat het beste past bij de data, en waarin we toestaan dat de eerste indicator anders functioneert in de groep van oudste respon-
Tijdschrift voor Criminologie 2014 (56) 1
55
Arne De Boeck, Wim Hardyns & Lieven Pauwels
Tabel 3:
Verschil tussen de latente gemiddelde scores van ouderen en jongeren
in de twee modellen
Verschil ‘ouderen’ versus ‘jongeren’ (standaardfout)
Volledig invariant model
0,838 (0,125)***
Gedeeltelijk invariant model
1,006 (0,119)***
*** p<0,01
denten. Bij wijze van illustratie vergelijken we hier enkel de oudste met de jongste
groep van respondenten.
Op basis van deze tabel kunnen we zowel een methodologische als een substantiele conclusie trekken. Ten eerste kunnen we zien dat het verschil in de latente
gemiddelden tussen de oudste en de jongste groep van respondenten kleiner is in
het volledig invariant model. Dat komt omdat we in dat model geen rekening
houden met het feit dat oudere respondenten anders reageren op de eerste schaalindicator en dat deze indicator dus mogelijk minder goed is in het meten van vermijdingsgedrag in die leeftijdsgroep. Dit verdoezelt de werkelijke verschillen in
vermijdingsgedrag naargelang leeftijd een beetje. Wanneer we hier in het gedeeltelijk invariant model wel rekening mee houden, dan kunnen we zien dat het verschil tussen de latente gemiddelden groter wordt. Op basis van een vergelijking
van de gemiddelde somscores zouden we dit niet kunnen nagaan.17 Op inhoudelijk vlak kunnen we echter zien dat er niets ten gronde verandert. Voor beide
modellen geldt dat de oudste groep van respondenten meer vermijdingsgedrag
vertoont dan de jongste. Zij scoren respectievelijk 08 en 1 standaardafwijking
hoger op de latente variabele dan de jongeren.
Ten slotte dienen we hier op te merken dat de latente gemiddelden (en a fortiori
dus ook de gemiddelde geobserveerde somscores) niet meer vergeleken kunnen
worden wanneer er onvoldoende indicatoren invariant zijn. In dat geval moet
men zich afvragen of men nog wel hetzelfde construct aan het meten is in de verschillende subgroepen. In de literatuur gaat men ervan uit dat men zinvolle vergelijkingen kan maken tussen groepen wanneer een meerderheid van de schaalindicatoren invariant is – wat hier het geval is. Men verwijst hiernaar met de term
partial measurement invariance (zie Byrne e.a., 1989).
Conclusie en discussie
De Schotse wiskundige Eric Temple Belle zei ooit: ‘Euclid taught me that without
assumptions there is no proof. Therefore, in any argument, examine the assumptions.’ In deze bijdrage hebben we gefocust op een belangrijke assumptie die cri17
Hier wordt dan ook een groot voordeel geïllustreerd van het werken met latente gemiddelden. De
latente gemiddelden in ons meetmodel zijn niet alleen gecorrigeerd voor meetfouten, maar houden ook rekening met het feit dat niet alle indicators in het model op dezelfde manier functioneren.
56
Tijdschrift voor Criminologie 2014 (56) 1
Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores
minologen maken wanneer ze in surveyonderzoek op basis van gemiddelde scores
op meetschalen groepen van respondenten vergelijken, namelijk dat hun meetinstrument op dezelfde wijze peilt naar hetzelfde onderliggende theoretisch construct in elk van die groepen. We argumenteerden dat een schending van deze
assumptie, meetinvariantie genoemd, in het ergste geval zou kunnen leiden tot
het trekken van foute conclusies in kwantitatief onderzoek.
Moderne statistische meetmodellen op basis van latente variabelen bieden een
formeel kader om de assumptie van meetinvariantie empirisch te toetsen. We
illustreerden een dergelijke toetsing aan de hand van een schaal die in onderzoek
naar angst voor criminaliteit vaak gebruikt wordt om vermijdingsgedrag te
meten. Daarbij stelden we ons de vraag of de indicatoren van deze schaal wel op
dezelfde manier peilden naar eenzelfde onderliggende eigenschap in verschillende
subgroepen van respondenten op basis van leeftijd en geslacht. De resultaten van
onze analyses gaven aan dat mannen en vrouwen de schaal op een gelijkaardige
manier hanteerden. Een van de drie indicatoren bleek echter anders te functioneren naargelang de leeftijd van de respondenten. In tegenstelling tot wat verwacht
kon worden op basis van hun antwoorden op de twee andere indicatoren, gaven
de oudste respondenten veel vaker dan de jongeren aan dat ze nooit bepaalde
plekken in hun buurt vermeden omwille van de onveiligheid daar. Als verklaring
voor onze resultaten schoven we de hypothese naar voor dat ouderen, los van
eventuele onveiligheidsgevoelens, sowieso al minder buitenkomen in de buurt
dan jongeren. Daardoor is deze indicator mogelijk minder geschikt wanneer men
vermijdingsgedrag in verschillende leeftijdsgroepen wil vergelijken. De vertekening op deze indicator was echter niet sterk genoeg om de werkelijke verschillen
in vermijdingsgedrag tussen jongeren en ouderen te verhullen. Onze resultaten
tonen dus aan dat een schending van de assumptie van meetinvariantie niet noodzakelijk leidt tot het trekken van foute conclusies. Dit is enkel het geval wanneer
vertekeningen in het meetinstrument zo groot zijn dat de werkelijke groepsverschillen erdoor verhuld worden, of omgekeerd, dat verschillen worden gevonden
waar er in werkelijkheid geen zijn. Deze resultaten zijn echter niet zomaar generaliseerbaar naar andere schaalconstructen en iedere onderzoeker zou bij het maken
van vergelijkingen steeds moeten nagaan in welke mate meetinvariantie een
bedreiging vormt voor de validiteit van zijn conclusies. In navolging van Pauwels
en Pleysier (2003) hopen we dat de controle op meetinvariantie verder zijn
ingang zal vinden in de Nederlandstalige criminologie. Er zijn immers verschillende typen van bedreigingen die zinvolle vergelijkingen tussen subgroepen op
basis van meetschalen kunnen hypothekeren. Sommige van die bedreigingen opereren relatief onafhankelijk van de inhoud van de theoretisch constructen die we
willen meten; denk bijvoorbeeld aan method bias als gevolg van verschillen in
taalvaardigheid tussen bepaalde subgroepen. Andere, zoals geïllustreerd in deze
bijdrage, kunnen niet los van die inhoud gezien worden. In criminologisch surveyonderzoek maken we steeds gebruik van dezelfde set van indicatoren voor alle
respondenten in onze steekproef. De vraag is dan ook of brede theoretische constructen, zoals bijvoorbeeld ‘onveiligheidsgevoelens’, zich wel steeds op dezelfde
wijze empirisch manifesteren bij alle respondenten. Het zou interessant zijn om
bij het beantwoorden van die vraag niet enkel op statistische modellen te vertrou-
Tijdschrift voor Criminologie 2014 (56) 1
57
Arne De Boeck, Wim Hardyns & Lieven Pauwels
wen om de controle achteraf door te voeren, maar ook aan de hand van bijvoorbeeld cognitieve interviews diepgaand onderzoek te doen naar de manier waarop
verschillende subgroepen van respondenten reageren op de vragen uit onze meetschalen.
Literatuur
Bartholomew, D.J., Steel, F., Moustaki, I. & Galbraith, J. (2002). The analysis and interpretation of multivariate data for social scientists. Boca Raton: Chapman & Hall/CRC Press.
Bollen, K.A. (2002). Latent variables in psychology and the social sciences. Annual Review of
Psychology, 53, 605-634.
Borsboom, D. (2006). When does measurement invariance matter? Medical Care, 44(11),
176-181.
Borsboom, D. (2008). Latent variable theory. Measurement, 6, 25-53.
Brown, T.A. (2006). Confirmatory factor analysis for applied research. New York: The Guilford
Press.
Byrne, B.M., Shavelson, R.J. & Muthén, B. (1989). Testing for the equivalence of factor
covariance and mean structures: the issue of partial measurement invariance. Psychological Bulletin, 105(3), 456-466.
Davidov, E., Datler, G., Schmidt, P. & Schwartz, S.H. (2011). Testing the invariance of
values in the Benelux countries: accounting for ordinality. In: E. Davidov, P. Schmidt
& J. Billiet (eds.). Cross-cultural analysis. Methods and applications. New York: Routledge, 149-172.
Franklin, T.W., Franklin, C.A. & Fearn, N.E. (2008). A multilevel analysis of the vulnerability, disorder, and social integration models of fear of crime. Social Justice Research,
21(2), 204-227.
Gabriel, U. & Greve, W. (2003). The psychology of fear of crime. Conceptual and methodological perspectives. British Journal of Criminology, 43, 600-614.
Hale, C. (1996). Fear of crime: A review of the literature. International Review of Victimology, 4(2), 79-150.
Hardyns, W., Pleysier, S. & Pauwels, L. (2010). Oorzaken van het mijden van onveilige situaties bij mannen en vrouwen. Een contextuele analyse of basis van de ‘collective efficacy’-theorie. Tijdschrift voor Criminologie, 52(4), 374-394.
Horn, J.L. & McArdle, J.J. (1992). A practical and theoretical guide to measurement invariance in aging research. Experimental Aging Research, 105, 117-144.
Hu, L.T. & Bentler, P.M. (1999). Cutoff criteria for fit indexes in covariance structure analysis: conventional criteria versus new alternatives. Structural Equation Modeling, 6(1),
1-55.
Jackson, J & Kuha, J. (2012). Worry about Crime in a Cross-National Context: A Focus on
Measurement using European Social Survey Data. Beschikbaar via SSRN: http://
ssrn.com/abstract=1603465 of http://dx.doi.org/10.2139/ssrn.1603465
Liu, J., Messner, S.F., Zhang, L. & Zhuo, Y. (2009). Socio-demographic correlates of fear of
crime and the social context of contemporary urban China. American Journal of Community Psychology, 44, 93-108.
Mellenbergh, G.J. (1989). Generalized linear item response theory. International Journal of
Educational Research, 13, 127-143.
Meredith, W. (1993). Measurement invariance, factor analysis, and factorial invariance.
Psychometrika, 58, 525-543.
58
Tijdschrift voor Criminologie 2014 (56) 1
Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores
Miethe, T.D. (1995). Fear and withdrawal from urban life. The Annals of the American Academy of Political and Social Science, 539(1), 14-27.
Millsap, R.E. & Yun-Tein, J. (2004). Assessing factorial invariance in ordered-categorical
measures. Multivariate Behavioral Research, 39(3), 479-515.
Muthén, B.O. & Asparouhov, T. (2002). Latent variable analysis with categorical outcomes:
multi-group and growth modeling in Mplus. Mplus Web Note #4: www.statmodel.com/
mplus/examples/webnotes/ CatMGLong.pdf.
Muthén, L.K. & Muthén, B.O. (1998-2010). Mplus user’s guide. Los Angeles, CA: Muthén &
Muthén.
Pauwels, L. & Pleysier, S. (2003). Cross-culturele betrouwbaarheid in structurele vergelijkingsmodellen. Implicaties bij de meting van ‘onveiligheidsgevoelens’ in de Belgische
veiligheidsmonitor. Tijdschrift voor Criminologie, 45(3), 234-253.
Pleysier, S. (2010). ‘Angst voor criminaliteit’ onderzocht. De brede schermzone tussen alledaagse
realiteit en irrationeel fantoom. Den Haag: Boom Juridische uitgevers.
Trost, S.G., Owen, N., Bauman, A.E., Sallis, J.F. & Brown, W. (2002). Correlates of adults’
participation in physical activity: review and update. Medicine & Science in Sports &
Exercise, 34(12), 1996-2001.
Vandenberg, R.J. & Lance, C.E. (2000). A review and synthesis of the measurement invariance literature: suggestions, practices, and recommendations for organizational
research. Organizational Research Methods, 3(1), 4-69.
Vanderveen, G. (2006). Interpreting fear, crime, risk and unsafety: conceptualisation and measurement. Den Haag: Boom Juridische uitgevers.
Vijver, F.J.R. van de & Leung, K. (1997). Methods and data analysis for cross-cultural
research. Thousand Oaks: Sage.
Tijdschrift voor Criminologie 2014 (56) 1
59