Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores Vermijdingsgedrag als casestudy Arne De Boeck, Wim Hardyns & Lieven Pauwels Vergelijkingen tussen groepen van respondenten op basis van gesommeerde schaalscores zijn enkel zinvol indien men kan aannemen dat de schaal in elk van deze groepen op dezelfde wijze peilt naar dezelfde onderliggende eigenschap. Deze assumptie wordt meetinvariantie genoemd. In deze bijdrage leggen de auteurs uit hoe moderne statistische meetmodellen gebruikt kunnen worden om schendingen van deze assumptie en de eventuele gevolgen daarvan voor de vergelijking van groepsgemiddelden na te gaan. In een empirisch luik illustreren ze hun uiteenzetting door na te gaan in welke mate een schaal voor vermijdingsgedrag – vaak gebruikt in onderzoek naar onveiligheidsgevoelens – invariant is naargelang geslacht en leeftijd. Het begrip measurement kan worden gedefinieerd als de systematische toewijzing van waarden aan variabelen om een weergave te creëren van kenmerken van personen, objecten of gebeurtenissen (Vandenberg & Lance, 2000, 4). In kwantitatief criminologisch onderzoek hebben we doorgaans nogal veel vertrouwen in de weergavekracht van de waarden die opduiken in onze datasets. Een vraag die eigenlijk te weinig aandacht krijgt, is de volgende: in welke mate reflecteren verschillen in de waarden die wij observeren via onze meetinstrumenten ook werkelijke verschillen in de onderliggende kenmerken die we willen meten? Deze vraag is nochtans cruciaal in een heleboel onderzoeksdomeinen, zeker wanneer verschillen tussen groepen van respondenten bestudeerd worden. Denk bijvoorbeeld aan onderzoek naar geslachtsverschillen in onveiligheidsgevoelens of naar etniciteitverschillen in het vertrouwen in de politie. Telkens wanneer we op basis van gegevens uit surveys uitspraken doen zoals ‘vrouwen voelen zich onveiliger dan mannen’, gaan we ervan uit dat ons meetinstrument zowel bij mannen als bij vrouwen op dezelfde wijze gepeild heeft naar eenzelfde onderliggende eigenschap. Zonder de correctheid van deze assumptie, meetinvariantie genoemd, heeft zo’n vergelijking inhoudelijk weinig zin (Horn & McArdle, 1992). In deze bijdrage gaan we dieper in op het belang van meetinvariantie bij een courante praktijk in surveyonderzoek: het vergelijken van subgroepen in de steekproef op basis van hun gemiddelde somscores op een meetschaal. In de eerste plaats leggen we uit dat mogelijke problemen inzake meetinvariantie uit het zicht blijven in de gangbare manier waarop gegevens uit meetschalen nu geanalyseerd worden. We tonen aan dat deze nalatigheid in het slechtste geval kan leiden tot het trekken van foute conclusies in groepsvergelijkingen. Daarna staan we uitgebreid stil bij een modern statistisch meetmodel dat de formele toetsing van meet- 42 Tijdschrift voor Criminologie 2014 (56) 1 Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores invariantie wel mogelijk maakt. We gaan na welke voorwaarden binnen zo’n model vervuld moeten zijn alvorens men kan overgaan tot het zinvol vergelijken van groepsgemiddelden. We leggen uit wanneer een schending van deze voorwaarden een ernstig probleem is en wanneer niet. In het empirische luik van deze bijdrage illustreren we hoe meetinvariantie kan getoetst en beoordeeld worden aan de hand van een schaal die in onderzoek naar angst voor criminaliteit vaak gebruikt wordt om vermijdingsgedrag te meten. Daarbij staan de volgende onderzoeksvragen centraal: in welke mate is deze schaal invariant naargelang leeftijd en geslacht, en wat zijn de praktische gevolgen van een eventuele schending voor het vergelijken van de groepsgemiddelden? Meetinvariantie, bias en de gangbare criminologische praktijk In surveyonderzoek worden theoretische constructen die moeilijk rechtstreeks empirisch observeerbaar zijn vaak gemeten met behulp van een meetschaal. Zo’n meetschaal is samengesteld uit verschillende indicatoren die worden verondersteld de meer eenvoudig observeerbare manifestaties van het construct te zijn. In die zin kun je hun werking een beetje vergelijken met (niet gelijkstellen aan) de symptomen van een ziekte. Net zoals een verkoudheid zich meestal uit in keelpijn, niezen en/of een lopende neus, kunnen we ervan uitgaan dat ‘vertrouwen in de politie’ zich zal manifesteren in zaken zoals ‘het geloof dat de politie een succesvolle rol speelt in de aanpak van criminaliteit’ of ‘steun voor het feit dat er een aanzienlijke hoeveelheid belastinggeld naar het politieapparaat vloeit’.1 De kwaliteit van een meetschaal wordt in kwantitatief onderzoek meestal als volgt nagegaan: eerst wordt een exploratieve factoranalyse uitgevoerd om te toetsen in hoeverre de samenhang tussen de verschillende schaalindicatoren kan verklaard worden door één achterliggende factor die het theoretisch construct vertegenwoordigt, dan wordt op basis van de factorladingen de sterkte van de samenhang tussen elke indicator en die factor nagegaan, en ten slotte wordt met behulp van Cronbach’s alpha de betrouwbaarheid van de schaal gemeten. Indien de resultaten van vorenstaande analyses gunstig zijn (i.e. voldoen aan de standaarden), worden de antwoordscores van de verschillende indicatoren in de schaal gesommeerd en vervolgens gebruikt in statistische analyses om bijvoorbeeld verschillen tussen subgroepen van respondenten na te gaan. In deze werkwijze wordt echter niet nagegaan of het meetinstrument wel op dezelfde manier functioneert in de subgroepen die men wil vergelijken. Geobserveerde verschillen in de gemiddelde scores van bijvoorbeeld migranten en autochtonen op een schaal voor vertrouwen in de politie kunnen dan zowel echte verschillen in vertrouwen weerspiegelen als een systematische vertekening in de manier waarop de indicatoren uit de schaal werden gebruikt. Dit probleem is gemakkelijk te illustreren aan de hand van het volgende voorbeeld. Stel dat men via een Nederlandstalige vragenlijst het vertrouwen van de bevolking in de politie wil nagaan, maar dat een aanzienlijk 1 De keuze van de indicatoren en de relatie tussen deze indicatoren en het theoretisch construct dat men wil meten, vereisen uiteraard grondige theoretische en empirische rechtvaardiging. Tijdschrift voor Criminologie 2014 (56) 1 43 Arne De Boeck, Wim Hardyns & Lieven Pauwels deel van de bevraagde migranten de Nederlandse woordenschat nog niet in al zijn finesses beheerst. Dan zou het kunnen dat zij de schaalindicatoren op een andere manier interpreteren en daardoor systematisch anders antwoorden dan zij die taalvaardiger zijn. In een worst-casescenario zijn de geobserveerde verschillen in de scores dan grotendeels toe te schrijven aan verschillen in taalvaardigheid, en niet aan werkelijke verschillen in het vertrouwen in de politie. Op die manier bedreigt de schending van de assumptie van meetinvariantie de validiteit van de empirische toetsing van criminologische theorieën, maar kan ze ook kwalijke gevolgen hebben in de praktijk (denk maar aan een multiculturele gemeente die via een survey het vertrouwen van de burgers in de lokale politie wil nagaan). Steunend op het basiswerk van Van de Vijver en Leung (1997) kunnen we drie vormen van systematische vertekening (of bias) onderscheiden die een inhoudelijk zinvolle vergelijking van schaalscores tussen verschillende (culturele) groepen kunnen bemoeilijken. Afhankelijk van het niveau waarop de vertekening optreedt, wordt een onderscheid gemaakt tussen construct bias, method bias en item bias. Bij construct bias gaat het er in essentie om dat het theoretisch construct niet helemaal dezelfde betekenis of empirische inhoud heeft in de groepen die men wil vergelijken. In criminologisch onderzoek kan dit bijvoorbeeld het geval zijn wanneer men constructen gebruikt die onderhevig zijn aan cultuurverschillen. Onder de noemer method bias kunnen we verschillende subtypen van vertekeningen onderbrengen die gelinkt zijn aan de manier waarop de data zijn verzameld. Method bias kan onder andere ontstaan wanneer de vergeleken groepen verschillen met betrekking tot een aantal kenmerken die inhoudelijk losstaan van het theoretisch construct dat men wil meten, maar wel het gebruik van het meetinstrument in zijn geheel beïnvloeden. Het is deze vorm van method bias die speelde in ons voorbeeld van de migranten die, omwille van een minder goede kennis van het Nederlands, de schaalindicatoren anders interpreteerden. De laatste vorm van bias die men kan onderscheiden, is item bias of differential item functioning (DIF). Deze termen gebruikt men om te verwijzen naar vertekeningen die optreden bij één of slechts enkele items. Dit is bijvoorbeeld het geval wanneer een item uit de schaal slecht vertaald werd en daardoor anders functioneert in een aantal landen die deelnemen aan een crossnationaal onderzoek. DIF kan echter ook ontstaan wanneer een bepaalde schaalindicator een minder goede meting vormt van het achterliggend construct in een van de groepen die men wil vergelijken. Dit kan erop wijzen dat de empirische inhoud van een bepaald theoretisch construct slechts gedeeltelijk dezelfde is in de groepen die men wil vergelijken.2 In het empirische luik van deze bijdrage illustreren we hoe deze vorm van item bias opgespoord kan worden. 2 44 In die zin kan item bias gezien worden als een voldoende (maar geen noodzakelijke) voorwaarde om te spreken van construct bias. Er zijn immers nog andere zaken die construct bias kunnen veroorzaken (zie ook Pauwels & Pleysier, 2003). Tijdschrift voor Criminologie 2014 (56) 1 Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores Meetinvariantie opsporen en beoordelen We hebben hiervoor meetinvariantie omschreven als de assumptie dat een bepaald meetinstrument – meestal een schaal in kwantitatief onderzoek – in diverse subpopulaties op dezelfde wijze hetzelfde theoretisch concept meet. Moderne statistische meetmodellen die gebruik maken van zogenaamde latente variabelen bieden een formeel kader waarbinnen deze assumptie verder kan worden gespecificeerd en getoetst. Dergelijke modellen worden in de eerste plaats gebruikt om na te gaan in welke mate de samenhang tussen een set van indicatoren – oftewel geobserveerde variabelen – kan verklaard worden in termen van één onderliggende verdeling – oftewel latente variabele – die het theoretisch construct vertegenwoordigt (Bollen, 2002). Het interessante is echter dat ze de onderzoeker ook toelaten om een dergelijke analyse tegelijkertijd in verschillende subgroepen van respondenten uit te voeren. Dit wordt een veelvoudige groepsvergelijking genoemd. Er is in deze methode sprake van meetinvariantie indien dezelfde set van indicatoren op dezelfde manier gerelateerd is aan hetzelfde onderliggend construct in elke subgroep. Statistisch gezien betekent dit meer specifiek dat de wiskundige functies die de geobserveerde variabelen aan de achterliggende latente variabele linken equivalent zijn in alle subgroepen die men wil vergelijken (Borsboom, 2006; Mellenbergh, 1989; Meredith, 1993). Afhankelijk van de assumpties die gemaakt worden over de vorm van de latente variabele en het meetniveau van de geobserveerde variabelen kan men binnen zo’n veelvoudige groepsvergelijking verschillende analysetechnieken aanwenden.3 Van de beschikbare analysetechnieken zal de confirmatorische factoranalyse (CFA) kwantitatieve criminologen allicht het bekendst in de oren klinken. In dit populaire meetmodel wordt de latente variabele geacht een kwantitatieve structuur te hebben. Concreet betekent dit dus dat de positie van de respondenten op het theoretisch construct dat men wil meten enkel in haar kwantitatieve dimensie kan variëren. Bijvoorbeeld: sommige mensen hebben in grote en andere in minder grote mate vertrouwen in de politie, en het zijn die kwantitatieve verschillen tussen respondenten die zorgen voor de verschillen die we observeren in hun antwoordpatronen op onze schaalindicatoren.4 Wat het vereiste meetniveau van de geobserveerde variabelen betreft is een CFA relatief flexibel geworden. Moderne statistische programma’s bevatten tegenwoordig aangepaste procedures die ons toelaten om zowel metrische als ordinale en binaire geobserveerde variabelen te analyseren (Brown, 2006, 378-410). Wanneer men in een veelvoudige groepsvergelijking gebruik maakt van een CFA spreekt men van een multigroup confirmatory 3 4 Zie Bartholomew e.a. (2002) voor een overzicht. Men kan echter ook veronderstellen dat respondenten op basis van hun positie op het theoretisch construct clusteren in een aantal onderscheiden groepen die eerder op een kwalitatieve manier van elkaar verschillen. In dat geval heeft de latente variabele een categorische structuur en kan men, zoals bijvoorbeeld Jackson en Kuha (2012), kiezen voor een latente klassenanalyse. De keuze voor een kwantitatieve of kwalitatieve structuur wordt best gemaakt op basis van een grondige theoretische reflectie over de aard van het construct dat men wil meten en het type van indicatoren dat hiervoor nodig is (zie Borsboom, 2008). Tijdschrift voor Criminologie 2014 (56) 1 45 Arne De Boeck, Wim Hardyns & Lieven Pauwels factor analysis (MGCFA). In de rest van deze bijdrage focussen we op het toetsen van meetinvariantie aan de hand van deze methode. Er wordt in een MGCFA een onderscheid gemaakt tussen verschillende niveaus van meetinvariantie en het gewenste niveau is vooral afhankelijk van wat men als onderzoeker wil doen met de data (Vandenberg & Lance, 2000). Het belangrijkste onderscheid dat we dienen te maken, is dat tussen (1) het vergelijken van de relaties tussen variabelen in verschillende subgroepen en (2) het vergelijken van gemiddelde scores. In een eerdere bijdrage van Pauwels en Pleysier (2003) lag vooral de nadruk op het eerste, in deze bijdrage gaan we dieper in op het tweede. De eisen die aan meetinvariantie worden gesteld, zijn hoger wanneer men groepsgemiddelden5 wil vergelijken. Waar bij het vergelijken van relaties tussen variabelen slechts metric invariance vereist is, kunnen groepsgemiddelden enkel vergeleken worden als er sprake is van scalar invariance (Vandenberg & Lance, 2000). Er is sprake van scalar variance als aan alle van de volgende op elkaar voortbouwende voorwaarden is voldaan: – Alle geobserveerde variabelen moeten voldoende hoog laden op één en dezelfde latente variabele in beide groepen (ook wel configural invariance genoemd). Dit wijst erop dat alle schaalindicatoren naar eenzelfde achterliggend construct verwijzen. – De factorladingen moeten identiek zijn in beide groepen (ook wel metric invariance genoemd). Eenvoudigweg betekent dit dat de geobserveerde variabelen even sterk gerelateerd zijn aan de latente variabele. Indien dit niet het geval is, dan kan het bijvoorbeeld zijn dat het construct in groep A vooral door de antwoorden op de indicatoren X1 en X2 wordt bepaald, terwijl in groep B de antwoorden op de indicatoren X3 en X4 meer doorwegen. – De intercepten moeten identiek zijn in beide groepen (vanaf hier is het niveau van scalar invariance bereikt). Als niet alleen de factorladingen, maar tevens de intercepten gelijk zijn, dan zullen respondenten met dezelfde positie op de latente variabele ook dezelfde verwachte score hebben op de geobserveerde variabelen, onafhankelijk van de groep waartoe ze behoren. Enkel dan kan men verschillen in de geobserveerde groepsgemiddelden ook toeschrijven aan verschillen op de onderliggende latente variabele. Alvorens we kunnen overgaan naar het empirische luik van deze bijdrage, dienen we nog even stil te staan bij de volgende belangrijke vraag: hoe ernstig zijn nu de gevolgen van het ontbreken van scalar invariance voor het vergelijken van groepsgemiddelden? Deze vraag is eigenlijk moeilijk op voorhand te beantwoorden. Zoals Borsboom (2006) terecht stelt, is invariance een strikt begrip, omdat zij verwijst naar een – zeker in de sociale wetenschappen – ideale situatie waarbij de parameters (intercepten en factorladingen) van het meetmodel dat de geobserveerde variabelen aan de achterliggende latente variabele linkt, exact dezelfde waarden hebben in de groepen die men wil vergelijken. Met andere woorden, elke vertekening is per definitie een inbreuk op de assumptie. Dit terwijl de grootte 5 46 Hetzij de somscores op een set van geobserveerde variabelen, hetzij de latente gemiddelden die men in een meetmodel met latente variabelen kan berekenen. Tijdschrift voor Criminologie 2014 (56) 1 Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores van systematische vertekeningen in de praktijk natuurlijk fluctueert op een continuüm van miniem tot heel groot. Of het ontbreken van scalar invariance een probleem is, zal dan vooral afhangen van de grootte van de werkelijke verschillen in de groepsgemiddelden. Als migranten bijvoorbeeld een veel lager vertrouwen hebben in de politie dan autochtonen, dan zullen minieme vertekeningen in onze metingen deze werkelijkheid niet kunnen verdoezelen. Als de werkelijke verschillen echter klein zijn, dan kunnen zelfs minieme vertekeningen snel leiden tot foute conclusies. Aangezien we in de sociale wetenschappen zelden met grote zekerheid voorspellingen kunnen doen over de grootte van effecten of verschillen, is meetinvariantie eigenlijk altijd een potentieel probleem dat dient onderzocht te worden. Deze vaststelling kan dus gezien worden als opstap naar (en rechtvaardiging voor) het empirische luik van deze bijdrage. Een praktische toepassing: de meting van vermijdingsgedrag In navolging van de Angelsaksische landen heeft zich ook in België en Nederland de laatste jaren een onderzoekstraditie ontwikkeld rond het thema ‘angst voor criminaliteit’ (bijv. Vanderveen, 2006; Pleysier, 2010). Angst voor criminaliteit wordt door vele auteurs gezien als een multidimensioneel construct dat emoties, gedachten en gedragingen omvat (Gabriel & Greve, 2003; Vanderveen, 2006; Pleysier, 2010). In deze bijdrage gaat onze aandacht uit naar de gedragsmatige dimensie, en meer specifiek naar de meting van vermijdingsgedrag.6 Er is sprake van vermijdingsgedrag wanneer mensen bepaalde plaatsen of situaties vermijden omdat die geassocieerd worden met een verhoogd risico op slachtofferschap of het ervaren van een gevoel van dreiging (Miethe, 1995). Zowel in fundamenteel als in beleidsgericht onderzoek wordt regelmatig naar vermijdingsgedrag gepeild. Omdat het vaak gaat om gedragingen die plaatsvinden in de woonbuurt (bijv. ‘bepaalde plaatsen mijden in buurt omdat men het niet veilig vindt’) is het een interessant construct wanneer men bijvoorbeeld de link tussen buurtkenmerken en onveiligheidsbeleving wil nagaan (Hardyns e.a., 2010). Het is waarschijnlijk omwille van die link met de buurt en het vrij tastbare karakter van de gebruikte indicatoren dat ook in beleidsgericht onderzoek zoals de Belgische Veiligheidsmonitor regelmatig naar vermijdingsgedrag wordt gepeild. In deze bijdrage willen we nagaan of een schaal met een aantal vaak gebruikte indicatoren voor vermijdingsgedrag (zie tabel 1) invariant is naargelang geslacht en leeftijd. De specifieke keuze om de invariantie van deze schaal na te gaan naargelang geslacht en leeftijd is ingegeven door het belang van deze variabelen in surveyonderzoek naar subjectieve en objectieve onveiligheid. Zo hebben vele onderzoeken geconcludeerd dat ouderen en vrouwen zich vaker onveiliger voelen en onveilige situaties sneller gaan vermijden (Hale, 1996; Pleysier, 2010; Vanderveen, 2006). Deze bevindingen worden vaak verklaard vanuit het kwetsbaarheids6 Miethe (1995) maakt binnen de gedragscomponent van angst voor criminaliteit daarnaast ook nog een onderscheid tussen beschermingsgedrag (bijv. het kopen van een alarmsysteem), aanpassingen van de levensstijl (bijv. steeds de auto nemen in plaats van het openbaar vervoer) en deelname aan relevante collectieve activiteiten (bijv. een buurtinformatienetwerk). Tijdschrift voor Criminologie 2014 (56) 1 47 Arne De Boeck, Wim Hardyns & Lieven Pauwels model, dat aandacht besteedt aan twee typen van kwetsbaarheid, met name fysieke kwetsbaarheid en sociale kwetsbaarheid (Franklin e.a., 2008; Liu e.a., 2009). Het geslacht en de leeftijd van een individu worden in de literatuur beschouwd als dé twee kernindicatoren van fysieke kwetsbaarheid. Vrouwen en oudere personen zullen vaker dan mannen en jongeren vermijdingsgedrag ontwikkelen omdat ze zich ervan bewust zijn zich minder te kunnen verweren wanneer lichamelijk geweld gebruikt wordt. We kunnen ons echter de vraag stellen of vermijdingsgedrag zich wel op dezelfde manier manifesteert bij mannen en vrouwen, of bij jongeren en ouderen. Aangezien men voor alle respondenten dezelfde set van observeerbare indicatoren gebruikt, gaat men er eigenlijk impliciet van uit dat deze allen op dezelfde wijze peilen naar vermijdingsgedrag in deze subgroepen. Indien dit voor een of meer indicatoren niet of in mindere mate het geval zou zijn, is er sprake van DIF. In wat volgt gaan we na of alle indicatoren van een schaal voor vermijdingsgedrag wel op dezelfde wijze functioneren in verschillende subgroepen van respondenten op basis van leeftijd en geslacht. Indien er sprake blijkt te zijn van DIF gaan we ook na wat hiervan de gevolgen zijn voor groepsvergelijkingen op basis van de gemiddelde schaalscores. Omdat we a priori geen specifieke verwachtingen hebben over de resultaten van onze analyse, gaat het hier om een verkennende oefening. Data en methoden De data die we gebruiken voor onze analyses zijn afkomstig van de Social capital and Well-being In Neighbourhoods in Ghent (SWING) Survey. De eerste wave van deze survey werd in 2011 afgenomen bij 1.025 inwoners uit 50 Gentse buurten. Gent is als derde grootste stad van België onderverdeeld in 201 statistische sectoren (buurten). Onder de statistische sectoren die meer dan 200 inwoners telden, werden er 50 geselecteerd. Binnen elke geselecteerde buurt werd vervolgens een proportioneel gestratificeerde toevalssteekproef (naargelang geslacht, leeftijd en origine) van inwoners getrokken uit het bevolkingsregister. De data werden via face-to-face-interviews verzameld. De SWING Survey besteedt aandacht aan individuele verschillen en verschillen tussen buurten op het vlak van sociaal kapitaal, gezondheid en veiligheid. De survey bevat een schaal die peilt naar vermijdingsgedrag en die gebaseerd is op de meting van dit concept in het kader van de Belgische Veiligheidsmonitor. Deze Likertschaal bestaat uit drie indicatoren, telkens met een vijfpuntsantwoordschaal, gaande van 1 (nooit) tot 5 (heel vaak). Tabel 1 biedt een overzicht van de items uit deze schaal. We maken gebruik van een MGCFA, uitgevoerd in de Mplussoftware versie 6.11 (Muthén & Muthén, 1998-2010), om na te gaan in welke mate er bij deze schaal sprake is van DIF naargelang geslacht en leeftijd. Naast de opdeling tussen mannen en vrouwen verdelen we onze respondenten ook onder in drie groepen naar- 48 Tijdschrift voor Criminologie 2014 (56) 1 Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores Tabel 1: Indicatoren uit de schaal voor vermijdingsgedrag Indicator Originele vraag [Plekken] Gebeurt het dat u bepaalde plekken in uw buurt mijdt omdat u het niet veilig vindt? [Onbekenden] Gebeurt het dat u vermijdt om open te doen voor onbekenden omdat u het niet veilig vindt? [Donker] Gebeurt het dat u als het donker is wel eens vermijdt om weg te gaan van huis? Mogelijke antwoorden: nooit/zelden/soms/vaak/heel vaak. gelang hun leeftijd: jongeren (18 tot 35 jaar), een tussengroep (36 tot 54 jaar) en ouderen >55jaar).7 Zoals reeds gezegd, focussen we in deze bijdrage op scalar invariance, omdat dit niveau van invariantie nodig is om op een valide manier de geobserveerde groepsgemiddelden op de schaal te kunnen vergelijken. In onze analyses zijn er echter twee methodologische kwesties die extra aandacht verdienen. Ten eerste werden onze respondenten niet volledig onafhankelijk van elkaar geselecteerd, maar per buurt. Onderzoek heeft aangetoond dat inwoners uit dezelfde buurt gemiddeld gezien meer op elkaar gelijken dan inwoners uit verschillende buurten wat betreft zelfgerapporteerd vermijdingsgedrag (Hardyns e.a., 2010). Als we met deze structuur van de data geen rekening houden, zullen de standaardfouten van de parameters in ons model vertekend zijn. Door de woonbuurt van de respondent aan te duiden als cluster variable worden standaardfouten en andere teststatistieken automatisch aangepast in Mplus (Muthén & Muthén, 1998-2010, 6). Ten tweede gaat een klassieke CFA ervan uit dat de antwoorden op de indicatoren uit de schaal continu en normaal verdeeld zijn. In onze schaal voor vermijdingsgedrag zijn de indicatoren van een ordinaal meetniveau en helemaal niet normaal verdeeld. De Mplussoftware gebruikt een specifieke strategie om ordinale variabelen op te nemen in de CFA (Millsap & Yun-Tein, 2004). Normaal wordt de relatie tussen een geobserveerde variabele en de latente variabele gemodelleerd via een lineaire regressie, die een intercept en een factorlading bevat. In Mplus wordt de relatie tussen een ordinale schaalindicator en de latente variabele echter gemodelleerd via een probitregressie, die naast een intercept en een factorlading ook thresholds bevat als extra parameters.8 Deze manier van werken laat ons toe om voor elke antwoordcategorie van elke indicator apart de gemiddelde kans te modelleren dat een respondent deze aanduidt, gegeven zijn positie op de latente variabele. Deze strategie heeft twee belangrijke gevolgen voor het testen van meetin7 8 Onze keuze voor deze indeling is gebaseerd op methodologische en pragmatische gronden. Deze verdeling zorgt er namelijk voor dat we drie groepen hebben die inhoudelijk betekenisvol genoeg zijn, maar ook telkens evenveel respondenten bevatten. Dit laatste maakt de vergelijking van de geschatte parameters gemakkelijker. Om de kans te verkleinen dat onze resultaten deels een methodologisch artefact zouden zijn, hebben we de analyses herhaald met een andere indeling: jongeren (18 tot 29 jaar), een tussengroep (30 tot 60 jaar) en ouderen (>60 jaar). In beide gevallen kwamen we tot dezelfde conclusies. Het aantal thresholds is gelijk aan het aantal antwoordcategorieën van een indicator min één (zie Millsap & Yun-Tein, 2004). Tijdschrift voor Criminologie 2014 (56) 1 49 Arne De Boeck, Wim Hardyns & Lieven Pauwels variantie. In de eerste plaats is aan de voorwaarde van scalar invariance nu enkel voldaan als niet alleen de factorlading en het intercept van elke indicator, maar ook de thresholds gelijk zijn in de verschillende groepen. Met andere woorden, er is sprake van scalar invariance wanneer twee respondenten met dezelfde positie op de latente variabele dezelfde verwachte kans hebben om een bepaalde antwoordcategorie aan te duiden, ook al komen ze uit verschillende subgroepen. In de tweede plaats is het zo dat de factorlading en de thresholds samen de sterkte van de relatie tussen de geobserveerde indicator en de latente variabele bepalen. Ze moeten daarom steeds in tandem vrijgelaten of gelijkgesteld worden in de te vergelijken groepen (Davidov e.a., 2011). Al onze modellen werden geschat met behulp van de Robust Weighted Least Squares-schattingsmethoden (Brown, 2006, 388). De mate waarin onze modellen passen bij de data evalueren we aan de hand van de chi² test, die nagaat of er substantiële verschillen bestaan tussen de geobserveerde data en de data die door het model worden geschat (Brown, 2006, 81). Een niet-significante chi² test wijst op een goed passend model. Daarnaast werden ook de volgende drie fit indices gebruikt: (1) de Root Mean Square Error of Approximation (RMSEA), waarbij waarden <0,06 duiden op een goed passend model, (2) de Comparative Fit Index (CFI), waarbij waarden >0,95 duiden op een goed passend model, en (3) de Tucker-Lewis Index (TLI), waarbij waarden >0,95 duiden op een goed passend model (Hu & Bentler, 1999). Resultaten In eerste instantie bespreken we hier de resultaten van het model waarin de schaal getoetst wordt voor de hele steekproef, zonder onderscheid te maken tussen bepaalde subgroepen van respondenten (zie figuur 1).9 In de volgende stappen zullen we kijken in welke mate er sprake is van invariantie naargelang leeftijd en geslacht. De resultaten van dit basismodel wijzen erop dat de samenhang tussen onze schaalindicatoren op voldoende wijze kan verklaard worden door één achterliggende latente variabele die het theoretisch construct vertegenwoordigt.10 De hoge gestandaardiseerde factorladingen11 geven aan dat elke indicator op zich ook 9 10 11 50 In dit basismodel stelden we de variantie van de latente variabele gelijk aan 1, wat neerkomt op een standaardisatie. Verkennende analyses toonden aan dat de laatste twee indicatoren even sterk gerelateerd waren aan het achterliggende construct. Daarom stelden we hun factorladingen in het model gelijk aan elkaar. Om de interpretatie van onze figuren eenvoudig te houden gaven we de latente variabele hier de naam ‘vermijdingsgedrag’. Het zou echter correcter zijn om te spreken over ‘onveiligheidsgevoelens’. We veronderstellen immers dat de verschillen tussen respondenten in hun zelfrapportage van vermijdende gedragingen een empirisch observeerbare manifestatie zijn van verschillen in onderliggende onveiligheidsgevoelens. Om de presentatie van de modellen overzichtelijk te houden geven we enkel factorladingen en meetfouten weer in de figuren. Een appendix met thresholds is beschikbaar op aanvraag bij de auteurs. De intercepten worden in Mplus gelijkgesteld aan 0 om de modellen te kunnen identificeren (zie Davidov e.a., 2011). Deze opmerkingen gelden ook voor figuur 2 en 3. Tijdschrift voor Criminologie 2014 (56) 1 Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores 0,69 Vermijdingsgedrag 0,85 0,85 Plekken 0,52 Onbekende 0,28 Donker 0,27 Chi-square=0,075; df=1; p=0,78; RMSEA=0,00; CFI=1,00; TLI=1,0 Figuur 1: Factorladingen en meetfouten in het gestandaardiseerde basismodel voor de hele steekproef (N=1.025) sterk gerelateerd is aan die latente variabele. De niet-significante chi² test en de overige fit indices geven aan dat het model uitstekend bij de data past. Meetinvariantie naargelang geslacht Om te kijken of het model uit figuur 1 scalar invariant is naargelang geslacht, testen we een meergroepsmodel waarbij de relaties tussen de latente variabele en de indicatoren (meer specifiek dus de intercepten, thresholds en factorladingen) volledig gelijk worden gesteld voor mannen en vrouwen. In lijn met de strategie voorgesteld door Muthén en Asparouhov (2002) beginnen we dus met het meest restrictieve model en gaan we vervolgens na of het nodig is om dit model aan te passen. De resultaten worden visueel weergegeven in figuur 2.12 De niet-significante chi² test en de waarden van de fit indices geven aan dat dit model in zijn globaliteit zeer goed bij de data past. Concreet wil dit zeggen dat onze drie indicatoren voor vermijdingsgedrag op dezelfde manier gerelateerd zijn aan één achterliggende latente variabele in beide groepen, en dat mannen en vrouwen met dezelfde positie op die latente variabele ook dezelfde verwachte antwoordscores hebben op de indicatoren. Inhoudelijke conclusies kan men trekken door te kijken naar verschillen tussen mannen en vrouwen wat betreft hun gemiddelde score op de latente variabele uit ons meetmodel. Een vergelijking van deze latente gemiddelde scores heeft als voordeel dat er rekening wordt gehouden met meetfouten. Aangezien het niveau van scalar invariance is bereikt, kan men echter ook de gemiddelde somscore op de schalen vergelijken met een gewone ttest. De resultaten van beide methoden worden hierna weergegeven in tabel 2. Zoals verwacht vertonen vrouwen gemiddeld gezien meer vermijdingsgedrag dan mannen, maar het verschil is niet groot.13 12 13 Om het model te kunnen identificeren werd de factorlading van de laatste indicator in beide groepen gelijkgesteld aan 1. Deze referentie-indicator bepaalt tevens de eenheid van de schaal van de latente variabele. De meeteenheid van de somscores is niet dezelfde als die van de latente scores. Men kan de grootte van de verschillen dus niet in absolute zin vergelijken. Het zou ons in het kader van deze bijdrage echter te ver leiden om hier dieper op in te gaan. Tijdschrift voor Criminologie 2014 (56) 1 51 Arne De Boeck, Wim Hardyns & Lieven Pauwels 0,79 Plekken 0,50 0,92 Onbekende 0,32 1,00 Donker 0,19 0,79 Plekken 0,52 0,92 Onbekende 0,24 1,00 Donker 0,28 Vermijdingsgedrag (mannen) Vermijdingsgedrag (vrouwen) Chi-square=18,203; df=10; p=0,0516; RMSEA=0,04; CFI=0,99; Figuur 2: Volledig invariant model voor mannen (N=494) en voor vrouwen (N=529) (ongestandaardiseerde factorladingen en meetfouten) Tabel 2: Vergelijking van groepsgemiddelden op de schaal voor vermijdingsgedrag naargelang geslacht Somscore Min. Max. Gemiddelde mannen Gemiddelde vrouwen Verschil (standaardfout) 0 Latente score / 12 5,09 6,54 1,46 (0,135)*** / / / 0,571 (0,098)*** *** p<0,0 Meetinvariantie naargelang leeftijd Eenzelfde procedure wordt gevolgd voor het opsporen van meetinvariantie naargelang leeftijd. We beginnen terug met een volledig scalar invariant model waarbij de relaties tussen de indicatoren en de latente variabele volledig gelijk worden gesteld in de drie subgroepen van respondenten: jongeren (18-35 jaar), een tussengroep (36-54 jaar) en ouderen (55+). De chi² test (χ²=65,119 met df=20 en p=0,000) en de RMSEA (>0,06) geven echter aan dat dit invariant model in zijn geheel bekeken eigenlijk niet zo goed past bij de data. Aan de hand van de modification indices14 (MI) kunnen we nagaan welke parameters in het model hiervoor verantwoordelijk zijn. Daaruit blijkt dat het model hoofdzakelijk in de groep van 14 Modification indices geven aan waar in het model significante verbeteringen kunnen aangebracht worden door het wijzigen van een bepaalde parameter. 52 Tijdschrift voor Criminologie 2014 (56) 1 Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores Vermijdingsgedrag (jongeren) Vermijdingsgedrag (tussengroep) Vermijdingsgedrag (ouderen) 0,85 Plekken 0,49 0,98 Onbekende 0,33 1,00 Donker 0,30 0,85 Plekken 0,35 0,98 Onbekende 0,44 1,00 Donker 0,31 0,66 Plekken 0,53 0,98 Onbekende 0,38 1,00 Donker 0,46 Chi-square=13,387; df=16; p=0,64; RMSEA=0,00; CFI=1,00; TLI=1,0 Figuur 3: Gedeeltelijk invariant model voor jongeren (N=335), tussengroep (N=351) en ouderen (N=335) (ongestandaardiseerde factorladingen en meetfouten) oudere respondenten niet zo goed bij de data past, en dat dit te wijten is aan de relatie tussen de latente variabele en de eerste indicator (‘Gebeurt het dat u bepaalde plekken in uw buurt mijdt omdat u het niet veilig vindt?’). In een tweede model staan we daarom toe dat deze relatie anders is in de groep van de oudste respondenten dan in de andere twee leeftijdsgroepen.15 Deze aanpassing leidt tot een significante verbetering van het model. De chi² test en de waarden van de fit indices geven aan dat het model in zijn globaliteit nu wel zeer goed bij de data past (zie figuur 3 voor de resultaten van dit model).16 15 We doen dit meer specifiek door toe te staan dat de factorlading en de thresholds andere waarden aannemen in de oudste groep van respondenten. Intercepten worden in Mplus steeds constant gehouden (zie Davidov e.a., 2011). Tijdschrift voor Criminologie 2014 (56) 1 53 Arne De Boeck, Wim Hardyns & Lieven Pauwels De lagere factorlading (0,66) wijst erop dat de vraag naar het mijden van bepaalde plekken in de buurt mogelijk een minder goede indicator is voor het achterliggende construct in de groep van oudste respondenten. Om op een eenvoudige manier duidelijk te maken wat dit nu precies zegt over het antwoordpatroon van de oudste respondenten op onze schaal, hebben we figuur 4 opgesteld. Deze figuur geeft de verwachte kans weer dat respondenten antwoorden dat ze ‘nooit bepaalde plekken in de buurt’ mijden naargelang hun positie op de achterliggende latente variabele (gemiddelde score versus anderhalve standaardafwijking boven dat gemiddelde) en naargelang de leeftijdsgroep waartoe ze behoren (jongeren/ tussengroep versus ouderen). We kozen hier voor een illustratie aan de hand van de antwoordcategorie ‘nooit’, omdat de verschillen tussen de leeftijdsgroepen zich daar het sterkst aftekenen. In beide grafieken zien we aan de hand van de curve, logischerwijs, dat de kans op het geven van dit antwoord afneemt naarmate de score op de achterliggende latente variabele toeneemt en men dus een sterkere neiging tot het stellen van vermijdingsgedrag vertoont. Een markante vaststelling is echter dat oudere respondenten een grotere kans (81 procent) hebben om te stellen dat ze ‘nooit’ bepaalde plaatsen in de buurt mijden dan de jongere respondenten (62 procent), ook al hebben ze dezelfde gemiddelde score (0) op de achterliggende latente variabele. Het verschil tussen oud en jong wordt zelfs nog een klein beetje groter (31 procent versus 8 procent) naarmate we één standaardafwijking opschuiven op de latente variabele en de vergelijking maken voor hen die de sterkste neiging tot het stellen van vermijdingsgedrag vertonen. Twee vragen dringen zich op bij het bekijken van deze resultaten: (1) hoe komt het dat we in de groep met de oudste respondenten een grotere kans hebben om iemand tegen te komen die aangeeft nooit bepaalde plekken in de buurt te mijden, ongeacht de positie op de achterliggende latente variabele, en (2) wat zijn de gevolgen van deze vorm van meetinvariantie? Bij gebrek aan bewijsmateriaal kunnen we de eerste vraag slechts beantwoorden door het formuleren van een hypothese. De activity space van de oudste respondenten is mogelijk beperkter dan die van de jongere respondenten in de steekproef. Oudere respondenten geven inderdaad sneller aan dat ze zelden of nooit bepaalde plaatsen in de buurt mijden, maar dat heeft dan misschien niets met onveiligheidsgevoelens te maken, maar eerder met het feit dat ze over het algemeen gewoon minder vaak buiten komen. Onderzoek heeft herhaaldelijk aangetoond dat de mate waarin mensen deelnemen aan fysieke activiteiten binnens- en buitenshuis (sporten, een wandeling maken, enz.) daalt met de leeftijd (voor een overzicht, zie Trost e.a., 2002). Als deze redenering klopt, is de eerste schaalindicator minder geschikt om te peilen naar het vermijdingsgedrag van oudere respondenten. Wat zijn nu de gevolgen van deze vertekening voor het vergelijken van de verschillende leeftijdsgroepen? Dit illustreren we door in tabel 3 het verschil tussen de latente gemiddelden voor de schaal naargelang leeftijd weer te geven voor de volgende twee modellen: 16 Ook in dit model werd de factorlading voor de derde indicator in beide groepen gelijkgesteld aan 1. Zie noot 12. 54 Tijdschrift voor Criminologie 2014 (56) 1 Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores 1 Verwachte kans 0,9 Jongeren/tussengroep 0,8 0,7 0,6 0,5 0,4 0,3 0,2 2 2,5 3 2 2,5 3 1,5 1 0,5 0 -0,5 -1 -1.5 -2 -3 0 -2,5 0,1 Achterliggende latente variabele 1 Verwachte kans 0,9 Ouderen 0,8 0,7 0,6 0,5 0,4 0,3 0,2 1,5 1 0,5 0 -0,5 -1 -1.5 -2 -3 0 -2,5 0,1 Achterliggende latente variabele Figuur 4: Verwachte kans op het antwoord ‘Ik mijd nooit plaatsen in mijn buurt’ in functie van de leeftijd van de respondent en zijn positie op de achterliggende latente variabele (1) het volledig invariant model, waarin we ervan uitgaan dat alle indicatoren even sterk gerelateerd zijn aan één achterliggend construct in alle leeftijdsgroepen, en (2) het aangepaste model, dat het beste past bij de data, en waarin we toestaan dat de eerste indicator anders functioneert in de groep van oudste respon- Tijdschrift voor Criminologie 2014 (56) 1 55 Arne De Boeck, Wim Hardyns & Lieven Pauwels Tabel 3: Verschil tussen de latente gemiddelde scores van ouderen en jongeren in de twee modellen Verschil ‘ouderen’ versus ‘jongeren’ (standaardfout) Volledig invariant model 0,838 (0,125)*** Gedeeltelijk invariant model 1,006 (0,119)*** *** p<0,01 denten. Bij wijze van illustratie vergelijken we hier enkel de oudste met de jongste groep van respondenten. Op basis van deze tabel kunnen we zowel een methodologische als een substantiele conclusie trekken. Ten eerste kunnen we zien dat het verschil in de latente gemiddelden tussen de oudste en de jongste groep van respondenten kleiner is in het volledig invariant model. Dat komt omdat we in dat model geen rekening houden met het feit dat oudere respondenten anders reageren op de eerste schaalindicator en dat deze indicator dus mogelijk minder goed is in het meten van vermijdingsgedrag in die leeftijdsgroep. Dit verdoezelt de werkelijke verschillen in vermijdingsgedrag naargelang leeftijd een beetje. Wanneer we hier in het gedeeltelijk invariant model wel rekening mee houden, dan kunnen we zien dat het verschil tussen de latente gemiddelden groter wordt. Op basis van een vergelijking van de gemiddelde somscores zouden we dit niet kunnen nagaan.17 Op inhoudelijk vlak kunnen we echter zien dat er niets ten gronde verandert. Voor beide modellen geldt dat de oudste groep van respondenten meer vermijdingsgedrag vertoont dan de jongste. Zij scoren respectievelijk 08 en 1 standaardafwijking hoger op de latente variabele dan de jongeren. Ten slotte dienen we hier op te merken dat de latente gemiddelden (en a fortiori dus ook de gemiddelde geobserveerde somscores) niet meer vergeleken kunnen worden wanneer er onvoldoende indicatoren invariant zijn. In dat geval moet men zich afvragen of men nog wel hetzelfde construct aan het meten is in de verschillende subgroepen. In de literatuur gaat men ervan uit dat men zinvolle vergelijkingen kan maken tussen groepen wanneer een meerderheid van de schaalindicatoren invariant is – wat hier het geval is. Men verwijst hiernaar met de term partial measurement invariance (zie Byrne e.a., 1989). Conclusie en discussie De Schotse wiskundige Eric Temple Belle zei ooit: ‘Euclid taught me that without assumptions there is no proof. Therefore, in any argument, examine the assumptions.’ In deze bijdrage hebben we gefocust op een belangrijke assumptie die cri17 Hier wordt dan ook een groot voordeel geïllustreerd van het werken met latente gemiddelden. De latente gemiddelden in ons meetmodel zijn niet alleen gecorrigeerd voor meetfouten, maar houden ook rekening met het feit dat niet alle indicators in het model op dezelfde manier functioneren. 56 Tijdschrift voor Criminologie 2014 (56) 1 Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores minologen maken wanneer ze in surveyonderzoek op basis van gemiddelde scores op meetschalen groepen van respondenten vergelijken, namelijk dat hun meetinstrument op dezelfde wijze peilt naar hetzelfde onderliggende theoretisch construct in elk van die groepen. We argumenteerden dat een schending van deze assumptie, meetinvariantie genoemd, in het ergste geval zou kunnen leiden tot het trekken van foute conclusies in kwantitatief onderzoek. Moderne statistische meetmodellen op basis van latente variabelen bieden een formeel kader om de assumptie van meetinvariantie empirisch te toetsen. We illustreerden een dergelijke toetsing aan de hand van een schaal die in onderzoek naar angst voor criminaliteit vaak gebruikt wordt om vermijdingsgedrag te meten. Daarbij stelden we ons de vraag of de indicatoren van deze schaal wel op dezelfde manier peilden naar eenzelfde onderliggende eigenschap in verschillende subgroepen van respondenten op basis van leeftijd en geslacht. De resultaten van onze analyses gaven aan dat mannen en vrouwen de schaal op een gelijkaardige manier hanteerden. Een van de drie indicatoren bleek echter anders te functioneren naargelang de leeftijd van de respondenten. In tegenstelling tot wat verwacht kon worden op basis van hun antwoorden op de twee andere indicatoren, gaven de oudste respondenten veel vaker dan de jongeren aan dat ze nooit bepaalde plekken in hun buurt vermeden omwille van de onveiligheid daar. Als verklaring voor onze resultaten schoven we de hypothese naar voor dat ouderen, los van eventuele onveiligheidsgevoelens, sowieso al minder buitenkomen in de buurt dan jongeren. Daardoor is deze indicator mogelijk minder geschikt wanneer men vermijdingsgedrag in verschillende leeftijdsgroepen wil vergelijken. De vertekening op deze indicator was echter niet sterk genoeg om de werkelijke verschillen in vermijdingsgedrag tussen jongeren en ouderen te verhullen. Onze resultaten tonen dus aan dat een schending van de assumptie van meetinvariantie niet noodzakelijk leidt tot het trekken van foute conclusies. Dit is enkel het geval wanneer vertekeningen in het meetinstrument zo groot zijn dat de werkelijke groepsverschillen erdoor verhuld worden, of omgekeerd, dat verschillen worden gevonden waar er in werkelijkheid geen zijn. Deze resultaten zijn echter niet zomaar generaliseerbaar naar andere schaalconstructen en iedere onderzoeker zou bij het maken van vergelijkingen steeds moeten nagaan in welke mate meetinvariantie een bedreiging vormt voor de validiteit van zijn conclusies. In navolging van Pauwels en Pleysier (2003) hopen we dat de controle op meetinvariantie verder zijn ingang zal vinden in de Nederlandstalige criminologie. Er zijn immers verschillende typen van bedreigingen die zinvolle vergelijkingen tussen subgroepen op basis van meetschalen kunnen hypothekeren. Sommige van die bedreigingen opereren relatief onafhankelijk van de inhoud van de theoretisch constructen die we willen meten; denk bijvoorbeeld aan method bias als gevolg van verschillen in taalvaardigheid tussen bepaalde subgroepen. Andere, zoals geïllustreerd in deze bijdrage, kunnen niet los van die inhoud gezien worden. In criminologisch surveyonderzoek maken we steeds gebruik van dezelfde set van indicatoren voor alle respondenten in onze steekproef. De vraag is dan ook of brede theoretische constructen, zoals bijvoorbeeld ‘onveiligheidsgevoelens’, zich wel steeds op dezelfde wijze empirisch manifesteren bij alle respondenten. Het zou interessant zijn om bij het beantwoorden van die vraag niet enkel op statistische modellen te vertrou- Tijdschrift voor Criminologie 2014 (56) 1 57 Arne De Boeck, Wim Hardyns & Lieven Pauwels wen om de controle achteraf door te voeren, maar ook aan de hand van bijvoorbeeld cognitieve interviews diepgaand onderzoek te doen naar de manier waarop verschillende subgroepen van respondenten reageren op de vragen uit onze meetschalen. Literatuur Bartholomew, D.J., Steel, F., Moustaki, I. & Galbraith, J. (2002). The analysis and interpretation of multivariate data for social scientists. Boca Raton: Chapman & Hall/CRC Press. Bollen, K.A. (2002). Latent variables in psychology and the social sciences. Annual Review of Psychology, 53, 605-634. Borsboom, D. (2006). When does measurement invariance matter? Medical Care, 44(11), 176-181. Borsboom, D. (2008). Latent variable theory. Measurement, 6, 25-53. Brown, T.A. (2006). Confirmatory factor analysis for applied research. New York: The Guilford Press. Byrne, B.M., Shavelson, R.J. & Muthén, B. (1989). Testing for the equivalence of factor covariance and mean structures: the issue of partial measurement invariance. Psychological Bulletin, 105(3), 456-466. Davidov, E., Datler, G., Schmidt, P. & Schwartz, S.H. (2011). Testing the invariance of values in the Benelux countries: accounting for ordinality. In: E. Davidov, P. Schmidt & J. Billiet (eds.). Cross-cultural analysis. Methods and applications. New York: Routledge, 149-172. Franklin, T.W., Franklin, C.A. & Fearn, N.E. (2008). A multilevel analysis of the vulnerability, disorder, and social integration models of fear of crime. Social Justice Research, 21(2), 204-227. Gabriel, U. & Greve, W. (2003). The psychology of fear of crime. Conceptual and methodological perspectives. British Journal of Criminology, 43, 600-614. Hale, C. (1996). Fear of crime: A review of the literature. International Review of Victimology, 4(2), 79-150. Hardyns, W., Pleysier, S. & Pauwels, L. (2010). Oorzaken van het mijden van onveilige situaties bij mannen en vrouwen. Een contextuele analyse of basis van de ‘collective efficacy’-theorie. Tijdschrift voor Criminologie, 52(4), 374-394. Horn, J.L. & McArdle, J.J. (1992). A practical and theoretical guide to measurement invariance in aging research. Experimental Aging Research, 105, 117-144. Hu, L.T. & Bentler, P.M. (1999). Cutoff criteria for fit indexes in covariance structure analysis: conventional criteria versus new alternatives. Structural Equation Modeling, 6(1), 1-55. Jackson, J & Kuha, J. (2012). Worry about Crime in a Cross-National Context: A Focus on Measurement using European Social Survey Data. Beschikbaar via SSRN: http:// ssrn.com/abstract=1603465 of http://dx.doi.org/10.2139/ssrn.1603465 Liu, J., Messner, S.F., Zhang, L. & Zhuo, Y. (2009). Socio-demographic correlates of fear of crime and the social context of contemporary urban China. American Journal of Community Psychology, 44, 93-108. Mellenbergh, G.J. (1989). Generalized linear item response theory. International Journal of Educational Research, 13, 127-143. Meredith, W. (1993). Measurement invariance, factor analysis, and factorial invariance. Psychometrika, 58, 525-543. 58 Tijdschrift voor Criminologie 2014 (56) 1 Het probleem van meetinvariantie bij het vergelijken van subgroepen op basis van somscores Miethe, T.D. (1995). Fear and withdrawal from urban life. The Annals of the American Academy of Political and Social Science, 539(1), 14-27. Millsap, R.E. & Yun-Tein, J. (2004). Assessing factorial invariance in ordered-categorical measures. Multivariate Behavioral Research, 39(3), 479-515. Muthén, B.O. & Asparouhov, T. (2002). Latent variable analysis with categorical outcomes: multi-group and growth modeling in Mplus. Mplus Web Note #4: www.statmodel.com/ mplus/examples/webnotes/ CatMGLong.pdf. Muthén, L.K. & Muthén, B.O. (1998-2010). Mplus user’s guide. Los Angeles, CA: Muthén & Muthén. Pauwels, L. & Pleysier, S. (2003). Cross-culturele betrouwbaarheid in structurele vergelijkingsmodellen. Implicaties bij de meting van ‘onveiligheidsgevoelens’ in de Belgische veiligheidsmonitor. Tijdschrift voor Criminologie, 45(3), 234-253. Pleysier, S. (2010). ‘Angst voor criminaliteit’ onderzocht. De brede schermzone tussen alledaagse realiteit en irrationeel fantoom. Den Haag: Boom Juridische uitgevers. Trost, S.G., Owen, N., Bauman, A.E., Sallis, J.F. & Brown, W. (2002). Correlates of adults’ participation in physical activity: review and update. Medicine & Science in Sports & Exercise, 34(12), 1996-2001. Vandenberg, R.J. & Lance, C.E. (2000). A review and synthesis of the measurement invariance literature: suggestions, practices, and recommendations for organizational research. Organizational Research Methods, 3(1), 4-69. Vanderveen, G. (2006). Interpreting fear, crime, risk and unsafety: conceptualisation and measurement. Den Haag: Boom Juridische uitgevers. Vijver, F.J.R. van de & Leung, K. (1997). Methods and data analysis for cross-cultural research. Thousand Oaks: Sage. Tijdschrift voor Criminologie 2014 (56) 1 59
© Copyright 2025 ExpyDoc