Handvatten voor evaluaties van effectiviteit Carolien Klein Haarhuis & Annemarije Oosterwaal1 De roep om verantwoording afleggen over de werking van (rijks)beleid blijft onverminderd aanwezig. Effectiviteitsevaluaties zijn het gewezen middel om deze werking te onderzoeken. Maar in de praktijk is het vaak niet makkelijk gebleken om een verband tussen het beleid en de gevonden uitkomsten plausibel te maken. Was het beleid wel de trigger voor verandering, of toch (ook) iets anders? En als het beleid daadwerkelijk een trigger was, hoe ging dat dan precies in zijn werk? De beleidspraktijk kan beantwoording van dergelijke vragen flink compliceren. Maar ook kiezen beleidsmakers niet altijd het meest geschikte evaluatietype. Deze bijdrage biedt algemene handvatten om tot een passende evaluatie te komen: rekening houdend met de vraag die moet worden beantwoord én met typische praktijkomstandigheden. 1. In theorie: verantwoorden en leren Ministeries en zelfstandige bestuursorganen zijn verplicht het lopende of afgeronde beleid periodiek te onderzoeken op doeltreffendheid en doelmatigheid.2 Aan verantwoording afleggen over het gevoerde beleid zijn in de loop der jaren herhaaldelijk impulsen gegeven, onder meer met de VBTB-operatie (Van Beleidsbegroting tot Beleidsverantwoording) en het instrument van de beleidsdoorlichting, waarin periodiek vragen moeten worden beantwoord over relevantie, uitvoering en effectiviteit.3 Hoewel op veel gebieden nog geen harde eis, lijken ontwikkelingen in de richting van evidence based policy of EBP (o.a. Weiss et al., 2008) ook steeds meer van de beleidsmaker te vragen. In de EBP-benadering dient beleid onderzocht – en zo mogelijk gebaseerd – te worden op in de praktijk bewezen effecten.4 Ook dit brengt de vraag werkt het wat we doen of deden en hoe kan het beter? naar de voorgrond. Het mooist is natuurlijk als met een evaluatie niet alleen de ‘of’-vraag van resultaten of effecten wordt beantwoord, maar ook die naar het hoe precies en waarom. Alleen als wordt begrepen waarom effecten al dan niet optreden, kan immers maximaal worden geleerd met het oog op hoe verder en beter. 2. De weerbarstige praktijk Maar in de praktijk ligt het niet zo eenvoudig. Bij een effectiviteitsevaluatie gaat om het leggen van een plausibele relatie tussen gevoerd beleid en behaalde uitkomsten. Dat gaat verder dan het alleen in kaart brengen van (a) het gevoerde beleid en (b) de uitkomsten op het doel: dit zegt immers nog niets over het aandeel dat de beleidsinterventies in het bereiken van die uitkomsten hebben gehad. Het leggen van een onderbouwd verband tussen beleid en uitkomsten is geen simpele opgave gebleken. Zo concludeerde de Algemene Rekenkamer (2011) dat in de periode 2005-2009 van de 633 subsidieregelingen er 81 zijn onderworpen aan een evaluatie. In de meeste van deze gevallen maakten de evaluaties niet duidelijk of de subsidies effect hadden gesorteerd of niet. Toch waren beslissingen door bewindspersonen over de voortzetting van de subsidies gebaseerd op deze evaluaties. In deze bijdrage benoemen we twee zaken die mogelijk hebben bijgedragen aan dit probleem. Ten eerste verenigt de beleidspraktijk zich lang niet altijd met goed evaluatieonderzoek. Ten tweede zijn beleidsmedewerkers over de hele linie maar in beperkte mate vertrouwd met de aanpak van dit type onderzoek.5 Evalueren in de beleidspraktijk 1 Carolien Klein Haarhuis is werkzaam als onderzoeker bij het Wetenschappelijk Onderzoek- en Documentatiecentrum (WODC) van het Ministerie van Veiligheid en Justitie. Annemarije Oosterwaal is Adviseur bij KPMG Plexus en als onderzoeker/docent verbonden aan de Vrije Universiteit Amsterdam. 2 Comptabiliteitswet 2001, artikel 20, lid2. 3 Voor een overzicht van uitgevoerde beleidsdoorlichtingen met betrekking tot verschillende hoofddoelstellingen in de rijksbegroting zie: www.rijksbegroting.nl/algemeen/overzichten,Beleidsdoorlichtingen.html. 4 In Nederland bestaan inmiddels bijvoorbeeld de Erkenningscommissie Gedragsinterventies en de Erkenningscommissie Jeugdinterventies, die voorgestelde maatregelen toetsen aan beschikbare inzichten. De Erkenningscommissie Jeugdinterventies hanteert bijvoorbeeld verschillende niveaus waarop deze een interventie kan erkennen: niveau I (theoretisch goed onderbouwd); niveau II (waarschijnlijk effectief) en niveau III (bewezen effectief). Voor meer, zie: www.nji.nl/nji/projectenDownloads/erkenningscommissie/Werkwijze_en_Procedure_Erkenningscommissie_Interventies.pdf. 5 Dit zijn betrekkelijk ‘technische’ problemen in een complexe wisselwerking tussen politiek, beleid en onderzoek. Deze wisselwerking speelt in de praktijk een uiterst belangrijke rol maar is niet het onderwerp van dit artikel. 1 De beleidspraktijk is complex en vloeibaar en dat geldt zowel voor het beleid zelf als voor de context waarin het wordt uitgerold. Interventies worden herhaaldelijk aangepast of er worden verschillende beleidsprogramma’s tegelijkertijd uitgevoerd. En in de context ontstaat bijvoorbeeld een economische crisis (vgl. Ferwerda et al., 2006). De hamvraag ‘in hoeverre heeft het beleid bijgedragen aan het gestelde doel?’ zou men het liefst onderzoeken onder constante condities. Eenmaal vastgezet kunnen deze condities immers niet de oorzaak zijn van veranderingen op de indicator voor doelbereiking. Zo kan het netto-effect van de interventie worden vastgesteld. Helaas is de beleidspraktijk geen laboratorium. Hierdoor valt het lastiger te achterhalen wat nu de trigger van de verandering is geweest. Burssens (2007) geeft een voorbeeld hiervan: “Een buurtgericht preventieproject ter voorkoming van jeugddelinquentie kan bijvoorbeeld goede resultaten boeken zonder dat het project daar noodzakelijk [aan] heeft (…) bijgedragen. Misschien opende tijdens de onderzoeksperiode een jeugdhuis de deuren of werd de ruimtelijke structuur beter aangepast aan de noden van jongeren. Of een groep probleemjongeren bereikte de leeftijd waarop velen automatisch uit de delinquentie groeien. Of ouders besloten, na enkele incidenten, uit eigen beweging om hun jongeren aan meer controle te onderwerpen. Zowel individuele als contextuele variabelen kunnen verwachte resultaten van interventies zo beïnvloeden.“ (Burssens, 2007:54). Een tweede factor die het uitvoeren van een effectmeting compliceert is de vaak bewust gekozen vaagheid van politiek afgestemde beleidsdoelen. Hoe stel je bijvoorbeeld vast of “het vergroten van de veiligheid” of “het verlagen van kwetsbaarheid” zijn bereikt? Dit vergt dus een extra stap in de evaluatie: concreet en meetbaar maken. Ingewikkeld, juist voor degenen die verantwoordelijk zijn voor het beleid in kwestie. Verder geldt voor de meeste beleidsmaatregelen dat effecten kunnen verschillen per persoon, omstandigheid, locatie of tijd (Pawson en Tilley, 2002). Zo is herhaaldelijk uit onderzoek gebleken dat sommige typen beleid, denk aan interventies ter bestrijding van criminaliteit of corruptie, vooral aanslaan bij groepen die het voorheen al aardig deden op doelindicatoren, zoals ‘gematigde delinquenten’ of ontwikkelingslanden met een relatief integer bestuur. Een oordeel over de effectiviteit van beleid moet dan meer zijn dan de algemene conclusie dat beleid wel of niet effectief is. Doolhof van evaluatieaanpakken? Een goede evaluatie begint met een aanpak die aansluit op de kennisbehoefte en op de situatie in kwestie. Dit veronderstelt een zekere mate van kennis over evalueren van beleidsmedewerkers – of nu voor uitbesteding wordt gekozen of niet. Maar sociaalwetenschappelijk (evaluatie-)onderzoek is niet altijd de major van beleidsmakers. Een belangrijke reden die departementen zelf opgeven voor het niet evalueren op eindeffectiviteit (Algemene Rekenkamer, 2013) is (a) de complexiteit van dit type onderzoek en (b) de beperkte verwachte toegevoegde waarde, gelet op de beleidspraktijk. Ook als wordt gekozen voor uitbesteding van de evaluatie, dan nog is het van belang dat de juiste vragen gesteld worden en dat evaluatieproducten door beleidsmakers op hun merites kunnen worden beoordeeld. Hoe kies je als beleidsmedewerker in deze weerbarstige beleidspraktijk dan toch een adequaat en ook haalbaar evaluatiedesign? In wat nu volgt bieden we handvatten om een beleidsevaluatie uit te (laten) voeren die past bij de kennisbehoefte in een gegeven situatie.6 3. Van beleid naar evaluatie: willen en kunnen 3.1 Willen: de gewenste inzichten Figuur 1 geeft een overzicht van de stappen om te komen tot een evaluatiedesign dat past bij de inzichten die een beleidsmaker wil vergaren. 6 We beschouwen voor deze bijdrage de vraagstelling / kennisbehoefte daarbij als gegeven. Maar ook over het stellen van de juiste evaluatievragen (deels ook een verantwoordelijkheid van de onderzoekers) bestaat veel literatuur. Of zie de (inmiddels) 15 vragen die ten grondslag liggen aan de op rijksniveau verplichte periodieke beleidsdoorlichtingen. 2 Is er medewerking vanuit het veld? Hoe is het beleid geïmplementeerd? Inzicht in implementatie proces Wat zijn knelpunten bij de implementatie van het beleid? Procesevaluatie Wat zijn de eerste ervaringen met het beleid? Doelbereikingsonderzoek Wat wil je weten? Vaststellen of doel bereikt is (evt. aandacht voor efficiency en neveneffecten) Heeft beleid bijgedragen aan doelbereiking? Toetsend design Effectiviteitsevaluatie Hoe heeft het beleid bijgedragen? (Quasi) experiment Bijv. C-M-Oheuristiek Reconstruerend design Toetsing beleidstheorie Figuur 1. Stapsgewijze koppeling tussen kennisbehoefte en evaluatiedesign Stap 1. De eerste stap om te komen tot een ontwerp van een beleidsevaluatie, is vaststellen welke inzichten de opdrachtgever wil vergaren. Bijvoorbeeld: 1. Vaststellen of de gestelde einddoelen zijn bereikt? Of: 2. Achterhalen hoe het implementatieproces van het beleid verloopt? In geval van de eerste vraag kan onderscheid gemaakt worden tussen onderzoek naar doelbereiking aan de ene kant en effectiviteitsonderzoek aan de andere kant. Bij doelbereikingsonderzoek staat alleen de vraag centraal of de doelen bereikt zijn. Daarbij is het niet van belang of en in hoeverre het gevoerde beleid hiervan de oorzaak is. Zo brengen veel monitorstudies fenomenen in kaart (bijv. recidive) die wellicht iets zeggen over (trends in) beleidsdoelen, zonder het effect van beleidsinstrumenten daarop te onderzoeken. Bij effectiviteitsonderzoek speelt de vraag mee of doelbereiking daadwerkelijk aan het beleid kan worden toegeschreven; bijvoorbeeld, door de ontwikkeling van recidive over de tijd onder specifieke doelgroepen te bestuderen vóór en na een interventieprogramma en deze te vergelijken met de ontwikkeling bij diegenen die niet onder dit programma vielen. In geval van de tweede vraag is een procesevaluatie7 passend: de focus ligt op de in- en uitvoering van beleid. Een procesevaluatie kan tussentijds helpen om te bezien of bijsturing nodig is. Mogelijke vragen voor een procesevaluatie zijn: Hoe is of wordt het beleid geïmplementeerd? Wat zijn knelpunten bij de implementatie van het beleid? Is er medewerking vanuit het veld? Wat zijn de eerste ervaringen? (eventueel:) Wat is de eerste voorlopige impact? Een procesevaluatie zegt dus nog lang niet alles over de uiteindelijke effectiviteit! 7 Bijvoorbeeld Rossi, Lipsey & Freeman (2003). 3 De processen kunnen bijvoorbeeld met behulp van interviews of enquêtes van betrokkenen worden geëvalueerd, bij voorkeur gecombineerd met feiten en cijfers, bijvoorbeeld of de implementatieprotocollen uitgewerkt en in werking gezet zijn, of het aantal uitgegeven vergunningen en de eerste reacties daarop in termen van attitudes of gedrag. Overigens is een procesevaluatie een cruciaal onderdeel van bijna elke (latere) effectevaluatie: is de implementatie bij bijvoorbeeld het UWV of gemeenten (nog) niet voltooid, dan vergroot dat het inzicht in het achterwege blijven van het gewenste gedrag van bijvoorbeeld burgers of bedrijven. Toetsen of reconstrueren? Stap 2. Als de relatie tussen beleid en de uiteindelijke uitkomsten verhelderd moet worden, is het de vraag of je wilt: 1. Hard maken of / in hoeverre het beleid heeft bijgedragen aan de doelen? 2. Begrijpen hoe / waarom het beleid heeft bijgedragen aan de doelen? Als je wilt vaststellen of (en in hoeverre) het beleid effectief is, is een toetsend evaluatiedesign het meest geëigend. Daarbij past een experimentele opzet. Maar als je vooral wilt begrijpen hoe en waarom het beleid heeft bijgedragen aan de doelen, dan is reconstrueren de best passende insteek. We lichten beide opties toe. Bij toetsende beleidsevaluatie wordt de eerder al genoemde ‘laboratorium-opzet’ in de praktijk zo goed mogelijk benaderd. Dit moet resulteren in een betrekkelijk ‘cleane’, relatief zekere uitspraak: heeft het beleid gewerkt? M.a.w. is het verantwoordelijk voor (eventuele) veranderingen op het gestelde doel? Bij toetsend evaluatieonderzoek is doorgaans sprake van experimentele of quasi-experimentele8 designs. Het komt erop neer dat een groep die het beleid ‘toegediend’ krijgt wordt vergeleken met een op achtergrondkenmerken vergelijkbare groep die dat niet krijgt, of iets anders. Zo kunnen de effecten van De derde editie van het Grotestedenbeleid (GSBte evalueren beleid worden geïsoleerd van andere, externe III) heeft in de periode 2005-2009 een aantoonbare invloeden zoals bijvoorbeeld andere beleidsmaatregelen of de bijdrage geleverd aan de opleving van de financiële en economische crisis. In de praktijk blijkt het lastig om Nederlandse steden (Marlet en Van Woerkens, experimentele designs toe te passen. Om praktische, ethische of 2011). De situatie in de GSB-steden is op financiële redenen is het soms niet mogelijk om een verschillende terreinen meer verbeterd dan in andere steden. Dat geldt vooral voor de kwaliteit experimenteel evaluatiedesign te gebruiken.9 Dit vergt immers dat van de woonomgeving, de aantrekkingskracht op beleid wel voor groep A en niet voor groep B mag worden hoogopgeleide en economisch kansrijke toegepast, wat kan leiden tot (rechts)ongelijkheid. Een huishoudens en de samenstelling van de bevolking. mogelijkheid om toch een experimentele studie te doen is door Met statistische analyses is onderzocht of die gunstige ontwikkelingen kunnen worden een uitgebreide pilotfase in te lassen, voorafgaand aan landelijke toegeschreven aan GSB. Allereerst zijn daartoe invoering (vgl. Mulder, Daalder en Leeuw, 2013). Dit kan steeds GSB-steden met niet-GSB-steden vergeleken. bovendien de invoering van ineffectieve interventies voorkómen. Ten tweede is rekening gehouden met zoveel Ook met statistische controles zoals in het voorbeeld van GSB-III mogelijk andere factoren, die verschillen tussen kan veel bereikt worden als een echt experiment opzetten niet steden en die van invloed kunnen zijn op de beoogde ontwikkelingen. Zo bleek langdurige (meer) kan. Een andere mogelijkheid is om behalve een voor- en (jeugd)werkloosheid steeds een belangrijke nameting meerdere tussentijdse metingen te doen. Dit worden verklaring voor overlast en onveiligheid in een wijk, wel tijdreeksanalyses van doelen of tussendoelen genoemd (bijv. vooral in een economisch kansrijke omgeving. In de aantal arrestaties, recidive of CO2-uitstoot). Zo kan worden analyses bleef meestal een positief verband overeind tussen de beleidsindicatoren en de relatief onderzocht in hoeverre trends hierin samenvallen met gunstige ontwikkelingen in de GSB-steden. beleidswijzigingen of nieuw beleid en dus mogelijk hieraan zijn toe te schrijven. 8 Met een quasi-experimenteel design wordt gedoeld op het type onderzoek waarin de ene groep personen, regio’s of landen ‘blootstaat’ – of heeft blootgestaan – aan bijv. een (proef-)interventie of programma (de ‘experimentele’ groep) wordt vergeleken met een groep waaraan het beleid wordt of is onthouden (de ‘controlegroep’). De indeling in de ene of andere groep is niet bewust bepaald op basis van willekeur, zoals in een echt experiment, maar door haalbaarheid ingegeven. Zo kan een quasi-experiment na invoering van het beleid alsnog worden opgezet. De experimentele en controlegroep zijn liefst zoveel mogelijk vergelijkbaar op andere mogelijk relevante factoren (bijv. op sociale achtergrondkenmerken in geval van jeugdbeleid) zodat die niet een hoofdoorzaak van gemeten verschillen op de doelindicator kunnen zijn. 9 Er zijn binnen deze karakterisering vele mogelijke designs en alternatieven denkbaar. Deze bespreken we hier niet, maar we verwijzen naar onder andere Mulder, Daalder en Leeuw (2013) voor een overzicht van designs en alternatieven in justitiële contexten. 4 Anders dan toetsen evalueren geeft een reconstruerende benadering inzicht in hoe en waarom de gevonden mate van doelbereiking – en eventuele andere effecten – precies tot stand zijn gekomen.10 Centraal staat het begrijpen van de werking van beleid, teneinde onzekerheid over het Er wordt cameratoezicht geplaatst op een verlaten verband tussen beleid en doelbereiking zoveel mogelijk terug te parkeerplaats. Na de installatie van de camera’s dringen. Zelfs bij een relatief eenvoudige beleidsinterventie kan worden minder auto-inbraken en andere het nog lastig zijn om uitkomsten te begrijpen (Tilley, 2000), criminaliteit gemeten. Twee mogelijke verklaringen getuige het voorbeeld van cameratoezicht op de verlaten voor de effecten zijn. 1. Bewakers hebben meer zicht op wat er gebeurt parkeerplaats.11 (direct effect camera toezicht), wat de objectieve De aanpak is gericht op het nagaan en verklaren van pakkans vergroot en potentiële daders afschrikt. gebeurtenissen sinds de invoering van beleid. Een denkhulp 2. Toegenomen sociale controle door meer daarbij is C-M-O: in welke omstandigheden (Context-C), hoe geparkeerde auto’s dankzij een gestegen gevoel van (Mechanisme-M), voor wie en onder welke omstandigheden veiligheid bij bezoekers. treedt werking (Outcome-O) op? (o.a. Pawson & Tilley, 2007; Wat met experimenteel onderzoek niet kan – deze Pawson, 2006). Deze drie kernvragen kunnen aan de hand van verklaringen nagaan of toetsen – kan wel met een bijvoorbeeld interviews, focusgroepen, desk study van reconstruerende, verklarende benadering: de statistieken, uitvoeringsverslagen etc. worden beantwoord. factoren die in de praktijk een bijdrage hebben geleverd aan de vermindering van criminaliteit In deze benadering wordt de redenering achter het beleid staan centraal. expliciet gemaakt: waarom zal beleid x leiden tot uitkomst y? Is het omdat het altijd zo, en nooit anders, gedaan is? Of omdat er harde bewijzen voor zijn? Dit wordt ook wel de beleidstheorie genoemd (o.a. Leeuw, 2003), of de interventielogica. Gezamenlijke beoordeling betreft een wijze van In de praktijk worden de aannames achter beleid vaak niet, of samenwerking tussen verschillende hulpverlenende instanties, bijvoorbeeld samenwerking tussen maar voor een deel, expliciet gemaakt (o.a. Leeuw & Van Gils, schuldhulpverleningsorganisaties, gemeente, 2010; Veerman, 2013). De vergelijking van voorgenomen met woningcorporaties en GGZ. Bij de evaluatie van daadwerkelijke gebeurtenissen komt dan in de knel: welke verschillende pilots in het land is gekeken naar de stappen zijn gezet, welke gedragsreacties volgden er van welke wijze waarop ‘gezamenlijke beoordeling’ werkt, en doelgroep(en)? Op welke punten zijn deze zoals beoogd en waar voor wie. In de evaluatie is met behulp van ging het minder? Een bijvangst van tijdig reconstrueren is dat het enquêtes, documentanalyse en interviews gekeken ondervragen van betrokkenen over de beleidstheorie nieuwe naar wat, werkt voor wie, in welke inzichten in de mogelijke werking kan opleveren. Deze kunnen omstandigheden. Zo bleken bepaalde aspecten van het programma, zoals de wijze van coördinatie, een dan al vroeg tot onderbouwde aanpassingen leiden. belangrijke verklaring voor de effecten van beleid. Bovenstaande twee benaderingen sluiten elkaar niet uit, Ook bleken in kleine gemeenten andere maar vullen elkaar aan. Allebei inzetten kan veel extra inzichten mechanismen werkzaam dan in grote gemeenten. opleveren. Aanvullende vragen: is het beleid efficiënt uitgevoerd? Wat zijn neveneffecten? In aanvulling op genoemde benaderingen van effectevaluaties kan met behulp van efficiencyonderzoek inzichtelijk worden gemaakt of het einddoel of de outcome doelmatig is bereikt. Hierbij worden de output (bijv. het aantal arrestaties, het aantal opgeknapte huurwoningen) en de outcome (bijv. de criminaliteitsontwikkeling, het aandeel hoger opgeleiden in stad of wijk) onderzocht met inachtneming van de input: de kosten in termen van geld, tijd, personele middelen, opportunity costs12 etc. Tevens kan worden onderzocht wat neveneffecten zijn van beleid. Zo’n effectenevaluatie is niet alleen gericht op de doelstelling maar ook op (neven)effecten voor bijvoorbeeld milieu, of in termen van administratieve lasten voor bedrijven, burgers of bestuursorganen. 3.2 Kunnen: de situatie van het beleid Behalve van wat de beleidsmaker – of een andere partij – wil met een evaluatieonderzoek, is de keuze voor een type evaluatie afhankelijk van wat praktisch kàn. We onderscheiden hier twee omstandigheden die maken dat het ene type evaluatie passender is dan het andere. Deze zijn tevens uitgewerkt in Figuur 2. 10 Het zicht op de werkzame mechanismen wordt zelden meegenomen in voornoemd experimenteel onderzoek (Pawson & Tilley, 2002). Zie bijvoorbeeld de website Better Evaluation (online initiatief van wetenschappers en beleidsmakers wereldwijd): http://betterevaluation.org/plan/approach/contribution_analysis. 12 Beleid voeren betekent dat op andere vlakken dingen niet gebeuren en dit kan betekenen dat opbrengsten worden misgelopen. 11 5 1. Het stadium waarin het beleid zich bevindt: plan-fase, beleid (net) vastgesteld, beleid ingevoerd, beleid in uitvoering of later? 2. De complexiteit van het beleid: betreft het een meerledig programma of operatie (bijv. ‘Schoon & Zuinig’, decentralisatie van zorg) of juist een overzichtelijke interventie (bijv. bewakingscamera’s)? Beleidstheorie Vóór vaststelling Ex ante evaluatie Evidence, Best practices analyse Tijdens uitvoering Procesevaluatie (voorlopige) Impact Stadium? Effectevaluatie Na uitvoering Ex post evaluatie Procesevaluatie Situatie Complexiteit? Hoog Laag Reconstructie, (C-M-O) Toetsend design (quasi-) experiment Figuur 2. Stadium, complexiteit en evaluatiedesign Stap 1: Stadium: hoe ‘ver’ is het beleid? Het stadium waarin het beleid zich bevindt is bepalend voor het evaluatiedesign. In het planstadium, dus (ruim) vóór de vaststelling van beleid is het verstandig om een ex ante evaluatie te (laten) doen: kan beleid X in de toekomst leiden tot het bereiken van het beoogde doel – met inachtneming van wat we al weten? De keuze voor een kansrijke interventie is mogelijk effectiever en goedkoper dan beleid achteraf bijstellen op basis van ex post-evaluatie. Soms kan vooraf worden volstaan met een quickscan, zeker als veel literatuur over de werking van een specifieke (soort) interventie in bijvoorbeeld andere landen, of het verleden, beschikbaar is. Waar we in dit verband ook op wijzen is op het belang van nulmetingen in deze vroege fase. Dit met het oog op latere effectevaluatie. Wat is de stand van de ‘doel-indicator’ vóórdat – of op het moment dat – het beleid van start gaat? In de beleidspraktijk wordt dit meetmoment vaak gemist, wat zijn weerslag heeft op de kwaliteit van latere evaluaties. Zonder nulmeting is er immers geen ijkpunt om te kunnen spreken van een verbetering of verslechtering na de invoering van beleid. Het achteraf alsnog reconstrueren van de nul-situatie levert doorgaans een minder volledig en betrouwbaar beeld op. Voor een nulmeting ten bate van een latere effectevaluatie moet al in de beleidsvoorbereiding geld en tijd worden vrijgemaakt. Om een moment als dat van de nulmeting (maar ook het tijdig vormen van eventuele experimentele en controlegroepen) niet te missen, is een evaluatieprogrammering voor beleidsmedewerkers een onmisbaar hulpmiddel. Bevindt het beleid zich in het stadium van de invoering of implementatie, dan ligt procesevaluatie in de rede. Eindeffecten kunnen dan immers nog niet worden verwacht. Zo kunnen effecten van maatregelen tegen recidive pas na minstens twee jaar worden waargenomen. Gaat men dan toch over tot een effectevaluatie, dan luidt het oordeel misschien ‘niet tot nauwelijks’ terwijl het beleid in potentie wel effectief kan zijn. Een te voorbarige conclusie. Pas als het beleid al enige tijd in werking is geweest en te verwachten valt dat de doelgroep erop heeft kunnen reageren, is de tijd rijp voor effectevaluatie. Een deel van de wetten bevat tegenwoordig een evaluatiebepaling die stelt dat het beleid binnen vier of vijf (maar soms ook anderhalf) jaar op effectiviteit geëvalueerd moet worden. Soms gaan deze 6 termijnen – vaak als gevolg van politieke onderhandelingen – voorbij aan de tijd die nodig is totdat beleidseffecten zich kunnen manifesteren. Alleen al het implementatietraject zelf duurt soms langer. Dit alles onderstreept nog eens het belang van een vooraf doordachte programmering (planning) van één of meerdere evaluatieonderzoeken in de tijd, met een eventuele nulmeting of de vorming van een controlegroep.13 Stap 2: Hoe complex is het? De complexiteit van het te onderzoeken beleid bepaalt in grote mate welk type evaluatie het meest passend is. Hoe overzichtelijker de te evalueren beleidsinterventie, hoe passender toetsend onderzoek. Simpele interventies zijn beter ‘los te laten’ op experimentele groepen en te onthouden aan controlegroepen, waarmee hun werking relatief eenvoudig valt te isoleren van andere mogelijke factoren. Bovendien vallen de gemeten effecten relatief eenvoudig te begrijpen. Maar veel beleid is natuurlijk een stuk complexer. Denk aan de basisvormingsoperatie in het onderwijs in de jaren negentig en de latere liberaliseringsoperatie in de zorg. Hoe complexer de interventie, hoe toepasselijker (een combinatie met) reconstruerend onderzoek (bijv. Pawson, 2006). Immers: je wilt begrijpen welk onderdeel van het beleid heeft bijgedragen aan de gemeten verandering en hoe dit in zijn werk is gegaan. Was het bijvoorbeeld de normstelling in de Wet op de Orgaandonatie zelf, of vooral de flankerende wervingscampagne? Bij (quasi-)experimentele designs (werkte het?) blijft dit een ‘black box’; in geval van reconstruerende analyse kan men proberen de werking van verschillende elementen van een programma te ontrafelen. Behalve het stadium en de complexiteit van het beleid spelen ook de doelen een rol bij de keuze voor een evaluatiedesign. In geval van procesmatige doelstellingen of ‘output-doelen’ zoals het realiseren van ‘meer blauw op straat’ ligt een procesevaluatie gericht op het implementatieproces voor de hand. Bij verder gelegen doelen zoals de mate van (ervaren) veiligheid in de publieke ruimte (outcome) is er een keus tussen toetsend dan wel reconstruerend evaluatieonderzoek. Een toetsende evaluatie kan sowieso passend zijn: achterhalen wat de nettobijdrage van het beleid is geweest, door andere factoren constant te houden (bijv. economische situatie, ander gelijktijdig beleid, incidenten etc.). Een probleem met toetsend onderzoek naar zo’n verre outcome is echter de lange keten van (gedrags-)reacties die vereist is. Als het al lukt om een beleidseffect aan te tonen, hoe valt dat dan te begrijpen? Aan welke schakels in de lange keten van interventies en verwachte gedragsreacties is dat dan ‘te danken of te wijten’? Reconstructie is onontbeerlijk voor het trekken van lessen in geval van zulke ambitieuze doelstellingen. Ook het formuleren van meetbare tussendoelen maakt hier onderdeel van uit. 4. De kloof tussen willen en kunnen verkleinen Soms is het doel van effectevaluatie – de werking van beleid toetsen en/of begrijpen – in de praktijk nauwelijks haalbaar. Hieronder beschrijven we drie mogelijkheden voor de beleidsmaker om deze kloof tussen willen en kunnen te verkleinen, voor zichzelf of voor evaluatieonderzoekers. Ten eerste een zo tastbaar mogelijke beleidsdoelstelling, ten tweede expliciteren van de beleidstheorie en ten derde beperken van tussentijdse beleidswijzigingen of nieuwe interventies. 4.1 Streef naar een tastbaar en meetbaar doel De operationele beleidsdoelstellingen zoals verwoord in de begroting zijn vaak verre van panklaar voor evaluatie van de effectiviteit. Zo zijn ze onderdeel geweest van politieke onderhandelingen en daarmee een compromis tussen belangen, wat ze er niet meetbaarder op maakt. Soms liggen begrotingsdoelstellingen dusdanig ‘ver weg’ (bijv. ‘een bijdrage leveren aan de vergroting van de veiligheid’; …. ‘verbetering van het leefmilieu’) dat ze zonder het verder operationaliseren ervan geen goede basis voor evaluatie zijn. Andere beleidsdoelstellingen liggen juist weer dusdanig ‘dichtbij’ (bijv. jaarlijkse stortingen in een internationaal fonds) dat hooguit van outputonderzoek sprake is. Dat beleidsdoelstellingen het resultaat zijn van een politiek onderhandelingsproces valt natuurlijk niet te veranderen, maar in samenspraak tussen beleidsmaker en onderzoeker vallen doelstellingen met het oog op evaluatie vaak wel concreter te maken, bijvoorbeeld door tussendoelen of deelindicatoren te formuleren. 13 Bijvoorbeeld: eerst (op ‘t0’) een nulmeting (ook bij een eventuele controlegroep in geval van een beoogde toetsende evaluatie), na anderhalf jaar procesevaluatie gericht op het implementatietraject en uiteindelijk na vijf jaar een effectiviteitsstudie met een nameting voor zowel de experimentele als de controlegroep. Tussendoor is ook nog een evaluatie van de tussentijdse impact (voorlopige effectiviteit) mogelijk. 7 4.2 Maak de beleidstheorie expliciet Een benodigde stap voor een goede evaluatie is het expliciet maken van de logica achter het beleid door de beleidsmakers: de beleidstheorie. Hiermee wordt bedoeld het systeem van middelen, doelen en aannames waaruit duidelijk wordt hoe beleid X moe(s)t leiden tot gedragsreactie Y bij doelgroep Z en waarom dat zo zou moeten gaan. Bij uitbesteding van de evaluatie is het zaak om deze logica te communiceren naar de (beoogde) evaluatoren. Anders is het stap één voor de evaluator om tot die reconstructie over te gaan. Dit kan door middel van gesprekken met beleidsmedewerkers en met eventuele andere belanghebbenden – afhankelijk van de gekozen aanpak (zie daarvoor Leeuw, 2003). 4.3 Beperk tussentijdse beleids- (of budget)wijzigingen Om te kunnen leren van gevoerd beleid zou een interventie of programma voor enige tijd stabiel moeten blijven, dus niet onnodig worden gewijzigd. Immers, als het evaluatieobject teveel ‘beweegt’ wordt het bestuderen van zijn werking lastig, en daarmee het trekken van een samenhangende conclusie erover. Ook de introductie van aanvullende of nieuwe interventies in de evaluatieperiode leidt tot complicaties. 5. Samenvattend De roep om verantwoording afleggen en om kennis te laten doorklinken in beleid wordt niet minder en stelt beleidsmakers voor lastige keuzes als het gaat om beleidsevaluatie. Dit artikel is bedoeld om bij te dragen aan bewustzijn over wat mogelijk is in termen van effectevaluatie, en vervolgens over wat realistisch en haalbaar is.14 Allereerst stuurt het doel van de effectevaluatie de keuze voor een toetsend (werkt het?) of juist reconstruerend evaluatiedesign (hoe, waarom werkt het wel of niet?). In de tweede plaats moet die keuze aansluiten op de beleidspraktijk in termen van: (a) de ontwikkelingsfase en (b) de complexiteit van interventies of programma’s en (c) het soort doelstelling(en). Via een stappenplan is gekomen tot een koppeling tussen wat de evaluatie moet opleveren en welk evaluatiedesign daarbij het beste past. Willen: wat moet de evaluatie opleveren? o Wil men vaststellen of en in hoeverre het beleid verantwoordelijk is geweest voor veranderingen in termen van het doel, dan is een toetsend evaluatiedesign het meest passend. Hiermee worden andere mogelijke invloeden op de doelstelling zoveel mogelijk uitgeschakeld. o Wil men vooral begrijpen hoe en waarom het beleid heeft bijgedragen aan de doelen, dan is reconstructie de passende wijze van evalueren: het in kaart brengen van de keten van gebeurtenissen cq. respons van de doelgroep(en) op het beleid en de omstandigheden waaronder die respons optrad (de context). Van beide benaderingen zijn beknopte voorbeelden gegeven. o De twee benaderingen sluiten elkaar niet uit, maar vullen elkaar aan. Beide toepassen kan veel opleveren. Kunnen: wat is mogelijk? Behalve van wat men wil met het evaluatieonderzoek, is de keuze voor een type evaluatie afhankelijk van wat praktisch kán. Dat hangt vooral af van: o De fase waarin het beleid zich bevindt: plan, net ingevoerd of al jaren lopend? o Wees er vroeg bij. Is het beleid nog niet van start gegaan, dan is een nulmeting meestal een goede investering. Hetzelfde kan gelden voor het vormen van een controlegroep, als voor een toetsende aanpak wordt gekozen. In dit vroege stadium kan ook de al beschikbare kennis over de werking van voorgenomen interventie(s) goed geïnventariseerd worden, om te voorkomen dat duidelijk ineffectieve interventies worden ingezet. Helaas wordt dit momentum vaak gemist. Een goed doordachte evaluatieprogrammering die bij voorkeur parallel loopt aan de beleidsontwikkeling, zal helpen. o De complexiteit: een simpele interventie of een complex samenstel? 14 Dit is bewust gedaan op het niveau van algemene designkeuzes, vanuit het perspectief van de beleidsmaker of –medewerker en met nadruk op ex post (achteraf-)evaluatie. Op methodologisch niveau zijn talloze verwijzingen mogelijk naar een scala van handboeken en wetenschappelijke artikelen – die we hier achterwege laten. 8 o Hoe complexer het beleid, hoe toepasselijker reconstruerend in plaats van toetsend onderzoek: welke onderdelen van het complexe beleid hebben al dan niet bijgedragen aan het doel, en hoe is dat feitelijk in zijn werk gegaan? Was dat in lijn met de aannames en verwachtingen bij de beleidsmaker – de zogeheten beleidstheorie – of niet? Wat zijn knel- en dus verbeterpunten? Ten slotte onderstrepen we het belang van de volgende – door beleidsontwerpers beïnvloedbare – factoren voor de kwaliteit van evaluaties: meetbare hoofd- en tussendoelen, het expliciet maken van de beleidstheorie en het voorkómen van snel elkaar opvolgende beleidsinterventies of -wijzigingen. Bronnen Algemene Rekenkamer (2013). Overzicht Effecitiviteitsonderzoek Rijksoverheid. Vervolgonderzoek. Den Haag: Algemene Rekenkamer. Algemene Rekenkamer (2011). Leren van subsidie-evaluaties. Den Haag: Algemene Rekenkamer. / Tweede Kamer, vergaderjaar 2011–2012, 33 034, nr. 2. Burssens, D. (2007). Hoe evident is evidence based beleid? Alert, 33(3) , pp. 52-63. Ferwerda, H., I. van Leiden, N. Arts, A. Hauber. (2006). Halt: Het alternatief? De effecten van Halt beschreven. Den Haag, Wetenschappelijk onderzoek- en documentatiecentrum (WODC). Leeuw, F.L. (2003). Reconstructing program theories: Methods available and problems to be solved. American Journal of Evaluation, 24(1): 5-20. Leeuw, F.L., & Gils, G.H.C. van (2010). Leren van evalueren. Onderzoek naar het gebruik van evaluatieonderzoek bij het Ministerie van Buitenlandse Zaken. Den Haag: Ministerie van Binnenlandse Zaken. Marlet, G., & Woerkens, C. van (2011). De effectiviteit van grotestedenbeleid. Kwantitatieve evaluatie GSB-III, 20052009. Utrecht: Atlas voor Gemeenten. Mulder, J., Daalder, A., & Leeuw, F.L. (2013). Verslag expertmeeting ‘Designs van effectstudies in justitiële contexten’. Den Haag: WODC. Pawson, R., & N. Tilley (2002). Realist evaluation. Londen: Sage Pawson, R. (2006). Evidence-based policy, a realist perspective. Londen: Sage. Rossi, P.H., Lipsey, M.W., & H.E. Freeman (2003). Evaluation. A systematic approach. Thousand Oaks (CA): Sage (7e druk). Tilley (2000). Realistic evaluation: an overview. Presentatie voor de Founding Conference of the Danish Evaluation Society, September. Veerman, G.J., m.m.v. Mulder, R.J., & E. Meijsing (2013). Een empathische wetgever. Den Haag: Sdu Uitgevers. 9
© Copyright 2024 ExpyDoc