Handvatten voor evaluaties van effectiviteit

Handvatten voor evaluaties van effectiviteit
Carolien Klein Haarhuis & Annemarije Oosterwaal1
De roep om verantwoording afleggen over de werking van (rijks)beleid blijft onverminderd aanwezig.
Effectiviteitsevaluaties zijn het gewezen middel om deze werking te onderzoeken. Maar in de praktijk is het vaak niet
makkelijk gebleken om een verband tussen het beleid en de gevonden uitkomsten plausibel te maken. Was het beleid
wel de trigger voor verandering, of toch (ook) iets anders? En als het beleid daadwerkelijk een trigger was, hoe ging
dat dan precies in zijn werk? De beleidspraktijk kan beantwoording van dergelijke vragen flink compliceren. Maar ook
kiezen beleidsmakers niet altijd het meest geschikte evaluatietype. Deze bijdrage biedt algemene handvatten om tot
een passende evaluatie te komen: rekening houdend met de vraag die moet worden beantwoord én met typische
praktijkomstandigheden.
1.
In theorie: verantwoorden en leren
Ministeries en zelfstandige bestuursorganen zijn verplicht het lopende of afgeronde beleid periodiek te onderzoeken
op doeltreffendheid en doelmatigheid.2 Aan verantwoording afleggen over het gevoerde beleid zijn in de loop der
jaren herhaaldelijk impulsen gegeven, onder meer met de VBTB-operatie (Van Beleidsbegroting tot
Beleidsverantwoording) en het instrument van de beleidsdoorlichting, waarin periodiek vragen moeten worden
beantwoord over relevantie, uitvoering en effectiviteit.3
Hoewel op veel gebieden nog geen harde eis, lijken ontwikkelingen in de richting van evidence based policy
of EBP (o.a. Weiss et al., 2008) ook steeds meer van de beleidsmaker te vragen. In de EBP-benadering dient beleid
onderzocht – en zo mogelijk gebaseerd – te worden op in de praktijk bewezen effecten.4 Ook dit brengt de vraag
werkt het wat we doen of deden en hoe kan het beter? naar de voorgrond.
Het mooist is natuurlijk als met een evaluatie niet alleen de ‘of’-vraag van resultaten of effecten wordt
beantwoord, maar ook die naar het hoe precies en waarom. Alleen als wordt begrepen waarom effecten al dan niet
optreden, kan immers maximaal worden geleerd met het oog op hoe verder en beter.
2.
De weerbarstige praktijk
Maar in de praktijk ligt het niet zo eenvoudig. Bij een effectiviteitsevaluatie gaat om het leggen van een plausibele
relatie tussen gevoerd beleid en behaalde uitkomsten. Dat gaat verder dan het alleen in kaart brengen van (a) het
gevoerde beleid en (b) de uitkomsten op het doel: dit zegt immers nog niets over het aandeel dat de
beleidsinterventies in het bereiken van die uitkomsten hebben gehad. Het leggen van een onderbouwd verband
tussen beleid en uitkomsten is geen simpele opgave gebleken. Zo concludeerde de Algemene Rekenkamer (2011)
dat in de periode 2005-2009 van de 633 subsidieregelingen er 81 zijn onderworpen aan een evaluatie. In de meeste
van deze gevallen maakten de evaluaties niet duidelijk of de subsidies effect hadden gesorteerd of niet. Toch waren
beslissingen door bewindspersonen over de voortzetting van de subsidies gebaseerd op deze evaluaties.
In deze bijdrage benoemen we twee zaken die mogelijk hebben bijgedragen aan dit probleem. Ten eerste verenigt
de beleidspraktijk zich lang niet altijd met goed evaluatieonderzoek. Ten tweede zijn beleidsmedewerkers over de
hele linie maar in beperkte mate vertrouwd met de aanpak van dit type onderzoek.5
Evalueren in de beleidspraktijk
1
Carolien Klein Haarhuis is werkzaam als onderzoeker bij het Wetenschappelijk Onderzoek- en Documentatiecentrum (WODC) van het Ministerie van Veiligheid
en Justitie. Annemarije Oosterwaal is Adviseur bij KPMG Plexus en als onderzoeker/docent verbonden aan de Vrije Universiteit Amsterdam.
2
Comptabiliteitswet 2001, artikel 20, lid2.
3
Voor een overzicht van uitgevoerde beleidsdoorlichtingen met betrekking tot verschillende hoofddoelstellingen in de rijksbegroting zie:
www.rijksbegroting.nl/algemeen/overzichten,Beleidsdoorlichtingen.html.
4
In Nederland bestaan inmiddels bijvoorbeeld de Erkenningscommissie Gedragsinterventies en de Erkenningscommissie Jeugdinterventies, die voorgestelde
maatregelen toetsen aan beschikbare inzichten. De Erkenningscommissie Jeugdinterventies hanteert bijvoorbeeld verschillende niveaus waarop deze een
interventie kan erkennen: niveau I (theoretisch goed onderbouwd); niveau II (waarschijnlijk effectief) en niveau III (bewezen effectief). Voor meer, zie:
www.nji.nl/nji/projectenDownloads/erkenningscommissie/Werkwijze_en_Procedure_Erkenningscommissie_Interventies.pdf.
5
Dit zijn betrekkelijk ‘technische’ problemen in een complexe wisselwerking tussen politiek, beleid en onderzoek. Deze wisselwerking speelt in de praktijk een
uiterst belangrijke rol maar is niet het onderwerp van dit artikel.
1
De beleidspraktijk is complex en vloeibaar en dat geldt zowel voor het beleid zelf als voor de context waarin het
wordt uitgerold. Interventies worden herhaaldelijk aangepast of er worden verschillende beleidsprogramma’s
tegelijkertijd uitgevoerd. En in de context ontstaat bijvoorbeeld een economische crisis (vgl. Ferwerda et al., 2006).
De hamvraag ‘in hoeverre heeft het beleid bijgedragen aan het gestelde doel?’ zou men het liefst onderzoeken
onder constante condities. Eenmaal vastgezet kunnen deze condities immers niet de oorzaak zijn van veranderingen
op de indicator voor doelbereiking. Zo kan het netto-effect van de interventie worden vastgesteld. Helaas is de
beleidspraktijk geen laboratorium. Hierdoor valt het lastiger te achterhalen wat nu de trigger van de verandering is
geweest. Burssens (2007) geeft een voorbeeld hiervan:
“Een buurtgericht preventieproject ter voorkoming van jeugddelinquentie kan bijvoorbeeld goede resultaten boeken zonder dat het project
daar noodzakelijk [aan] heeft (…) bijgedragen. Misschien opende tijdens de onderzoeksperiode een jeugdhuis de deuren of werd de ruimtelijke
structuur beter aangepast aan de noden van jongeren. Of een groep probleemjongeren bereikte de leeftijd waarop velen automatisch uit de
delinquentie groeien. Of ouders besloten, na enkele incidenten, uit eigen beweging om hun jongeren aan meer controle te onderwerpen.
Zowel individuele als contextuele variabelen kunnen verwachte resultaten van interventies zo beïnvloeden.“ (Burssens, 2007:54).
Een tweede factor die het uitvoeren van een effectmeting compliceert is de vaak bewust gekozen vaagheid van
politiek afgestemde beleidsdoelen. Hoe stel je bijvoorbeeld vast of “het vergroten van de veiligheid” of “het verlagen
van kwetsbaarheid” zijn bereikt? Dit vergt dus een extra stap in de evaluatie: concreet en meetbaar maken.
Ingewikkeld, juist voor degenen die verantwoordelijk zijn voor het beleid in kwestie.
Verder geldt voor de meeste beleidsmaatregelen dat effecten kunnen verschillen per persoon,
omstandigheid, locatie of tijd (Pawson en Tilley, 2002). Zo is herhaaldelijk uit onderzoek gebleken dat sommige
typen beleid, denk aan interventies ter bestrijding van criminaliteit of corruptie, vooral aanslaan bij groepen die het
voorheen al aardig deden op doelindicatoren, zoals ‘gematigde delinquenten’ of ontwikkelingslanden met een
relatief integer bestuur. Een oordeel over de effectiviteit van beleid moet dan meer zijn dan de algemene conclusie
dat beleid wel of niet effectief is.
Doolhof van evaluatieaanpakken?
Een goede evaluatie begint met een aanpak die aansluit op de kennisbehoefte en op de situatie in kwestie. Dit
veronderstelt een zekere mate van kennis over evalueren van beleidsmedewerkers – of nu voor uitbesteding wordt
gekozen of niet. Maar sociaalwetenschappelijk (evaluatie-)onderzoek is niet altijd de major van beleidsmakers. Een
belangrijke reden die departementen zelf opgeven voor het niet evalueren op eindeffectiviteit (Algemene
Rekenkamer, 2013) is (a) de complexiteit van dit type onderzoek en (b) de beperkte verwachte toegevoegde waarde,
gelet op de beleidspraktijk. Ook als wordt gekozen voor uitbesteding van de evaluatie, dan nog is het van belang dat
de juiste vragen gesteld worden en dat evaluatieproducten door beleidsmakers op hun merites kunnen worden
beoordeeld.
Hoe kies je als beleidsmedewerker in deze weerbarstige beleidspraktijk dan toch een adequaat en ook haalbaar
evaluatiedesign? In wat nu volgt bieden we handvatten om een beleidsevaluatie uit te (laten) voeren die past bij de
kennisbehoefte in een gegeven situatie.6
3.
Van beleid naar evaluatie: willen en kunnen
3.1 Willen: de gewenste inzichten
Figuur 1 geeft een overzicht van de stappen om te komen tot een evaluatiedesign dat past bij de inzichten die een
beleidsmaker wil vergaren.
6
We beschouwen voor deze bijdrage de vraagstelling / kennisbehoefte daarbij als gegeven. Maar ook over het stellen van de juiste evaluatievragen (deels ook
een verantwoordelijkheid van de onderzoekers) bestaat veel literatuur. Of zie de (inmiddels) 15 vragen die ten grondslag liggen aan de op rijksniveau verplichte
periodieke beleidsdoorlichtingen.
2
Is er medewerking vanuit het
veld?
Hoe is het beleid
geïmplementeerd?
Inzicht in
implementatie proces
Wat zijn knelpunten bij de
implementatie van het
beleid?
Procesevaluatie
Wat zijn de eerste ervaringen
met het beleid?
Doelbereikingsonderzoek
Wat wil je
weten?
Vaststellen of doel
bereikt is
(evt. aandacht voor
efficiency en
neveneffecten)
Heeft beleid
bijgedragen aan
doelbereiking?
Toetsend design
Effectiviteitsevaluatie
Hoe heeft het
beleid
bijgedragen?
(Quasi)
experiment
Bijv. C-M-Oheuristiek
Reconstruerend
design
Toetsing
beleidstheorie
Figuur 1. Stapsgewijze koppeling tussen kennisbehoefte en evaluatiedesign
Stap 1. De eerste stap om te komen tot een ontwerp van een beleidsevaluatie, is vaststellen welke inzichten de
opdrachtgever wil vergaren. Bijvoorbeeld:
1. Vaststellen of de gestelde einddoelen zijn bereikt? Of:
2. Achterhalen hoe het implementatieproces van het beleid verloopt?
In geval van de eerste vraag kan onderscheid gemaakt worden tussen onderzoek naar doelbereiking aan de ene kant
en effectiviteitsonderzoek aan de andere kant. Bij doelbereikingsonderzoek staat alleen de vraag centraal of de
doelen bereikt zijn. Daarbij is het niet van belang of en in hoeverre het gevoerde beleid hiervan de oorzaak is. Zo
brengen veel monitorstudies fenomenen in kaart (bijv. recidive) die wellicht iets zeggen over (trends in)
beleidsdoelen, zonder het effect van beleidsinstrumenten daarop te onderzoeken.
Bij effectiviteitsonderzoek speelt de vraag mee of doelbereiking daadwerkelijk aan het beleid kan worden
toegeschreven; bijvoorbeeld, door de ontwikkeling van recidive over de tijd onder specifieke doelgroepen te
bestuderen vóór en na een interventieprogramma en deze te vergelijken met de ontwikkeling bij diegenen die niet
onder dit programma vielen.
In geval van de tweede vraag is een procesevaluatie7 passend: de focus ligt op de in- en uitvoering van beleid.
Een procesevaluatie kan tussentijds helpen om te bezien of bijsturing nodig is. Mogelijke vragen voor een
procesevaluatie zijn:
 Hoe is of wordt het beleid geïmplementeerd?
 Wat zijn knelpunten bij de implementatie van het beleid?
 Is er medewerking vanuit het veld?
 Wat zijn de eerste ervaringen?
 (eventueel:) Wat is de eerste voorlopige impact?
Een procesevaluatie zegt dus nog lang niet alles over de uiteindelijke effectiviteit!
7
Bijvoorbeeld Rossi, Lipsey & Freeman (2003).
3
De processen kunnen bijvoorbeeld met behulp van interviews of enquêtes van betrokkenen worden geëvalueerd, bij
voorkeur gecombineerd met feiten en cijfers, bijvoorbeeld of de implementatieprotocollen uitgewerkt en in werking
gezet zijn, of het aantal uitgegeven vergunningen en de eerste reacties daarop in termen van attitudes of gedrag.
Overigens is een procesevaluatie een cruciaal onderdeel van bijna elke (latere) effectevaluatie: is de
implementatie bij bijvoorbeeld het UWV of gemeenten (nog) niet voltooid, dan vergroot dat het inzicht in het
achterwege blijven van het gewenste gedrag van bijvoorbeeld burgers of bedrijven.
Toetsen of reconstrueren?
Stap 2. Als de relatie tussen beleid en de uiteindelijke uitkomsten verhelderd moet worden, is het de vraag of je wilt:
1. Hard maken of / in hoeverre het beleid heeft bijgedragen aan de doelen?
2. Begrijpen hoe / waarom het beleid heeft bijgedragen aan de doelen?
Als je wilt vaststellen of (en in hoeverre) het beleid effectief is, is een toetsend evaluatiedesign het meest geëigend.
Daarbij past een experimentele opzet. Maar als je vooral wilt begrijpen hoe en waarom het beleid heeft bijgedragen
aan de doelen, dan is reconstrueren de best passende insteek. We lichten beide opties toe.
Bij toetsende beleidsevaluatie wordt de eerder al genoemde ‘laboratorium-opzet’ in de praktijk zo goed
mogelijk benaderd. Dit moet resulteren in een betrekkelijk ‘cleane’, relatief zekere uitspraak: heeft het beleid
gewerkt? M.a.w. is het verantwoordelijk voor (eventuele) veranderingen op het gestelde doel? Bij toetsend
evaluatieonderzoek is doorgaans sprake van experimentele of quasi-experimentele8 designs. Het komt erop neer dat
een groep die het beleid ‘toegediend’ krijgt wordt vergeleken met een op achtergrondkenmerken vergelijkbare
groep die dat niet krijgt, of iets anders. Zo kunnen de effecten van
De derde editie van het Grotestedenbeleid (GSBte evalueren beleid worden geïsoleerd van andere, externe
III) heeft in de periode 2005-2009 een aantoonbare
invloeden zoals bijvoorbeeld andere beleidsmaatregelen of de
bijdrage geleverd aan de opleving van de
financiële en economische crisis. In de praktijk blijkt het lastig om
Nederlandse steden (Marlet en Van Woerkens,
experimentele designs toe te passen. Om praktische, ethische of
2011). De situatie in de GSB-steden is op
financiële redenen is het soms niet mogelijk om een
verschillende terreinen meer verbeterd dan in
andere steden. Dat geldt vooral voor de kwaliteit
experimenteel evaluatiedesign te gebruiken.9 Dit vergt immers dat
van de woonomgeving, de aantrekkingskracht op
beleid wel voor groep A en niet voor groep B mag worden
hoogopgeleide en economisch kansrijke
toegepast, wat kan leiden tot (rechts)ongelijkheid. Een
huishoudens en de samenstelling van de bevolking.
mogelijkheid om toch een experimentele studie te doen is door
Met statistische analyses is onderzocht of die
gunstige ontwikkelingen kunnen worden
een uitgebreide pilotfase in te lassen, voorafgaand aan landelijke
toegeschreven aan GSB. Allereerst zijn daartoe
invoering (vgl. Mulder, Daalder en Leeuw, 2013). Dit kan
steeds GSB-steden met niet-GSB-steden vergeleken.
bovendien de invoering van ineffectieve interventies voorkómen.
Ten tweede is rekening gehouden met zoveel
Ook met statistische controles zoals in het voorbeeld van GSB-III
mogelijk andere factoren, die verschillen tussen
kan veel bereikt worden als een echt experiment opzetten niet
steden en die van invloed kunnen zijn op de
beoogde ontwikkelingen. Zo bleek langdurige
(meer) kan. Een andere mogelijkheid is om behalve een voor- en
(jeugd)werkloosheid steeds een belangrijke
nameting meerdere tussentijdse metingen te doen. Dit worden
verklaring voor overlast en onveiligheid in een wijk,
wel tijdreeksanalyses van doelen of tussendoelen genoemd (bijv.
vooral in een economisch kansrijke omgeving. In de
aantal arrestaties, recidive of CO2-uitstoot). Zo kan worden
analyses bleef meestal een positief verband
overeind tussen de beleidsindicatoren en de relatief
onderzocht in hoeverre trends hierin samenvallen met
gunstige ontwikkelingen in de GSB-steden.
beleidswijzigingen of nieuw beleid en dus mogelijk hieraan zijn toe
te schrijven.
8
Met een quasi-experimenteel design wordt gedoeld op het type onderzoek waarin de ene groep personen, regio’s of landen ‘blootstaat’ – of heeft
blootgestaan – aan bijv. een (proef-)interventie of programma (de ‘experimentele’ groep) wordt vergeleken met een groep waaraan het beleid wordt of is
onthouden (de ‘controlegroep’). De indeling in de ene of andere groep is niet bewust bepaald op basis van willekeur, zoals in een echt experiment, maar door
haalbaarheid ingegeven. Zo kan een quasi-experiment na invoering van het beleid alsnog worden opgezet. De experimentele en controlegroep zijn liefst zoveel
mogelijk vergelijkbaar op andere mogelijk relevante factoren (bijv. op sociale achtergrondkenmerken in geval van jeugdbeleid) zodat die niet een hoofdoorzaak
van gemeten verschillen op de doelindicator kunnen zijn.
9
Er zijn binnen deze karakterisering vele mogelijke designs en alternatieven denkbaar. Deze bespreken we hier niet, maar we verwijzen naar onder andere
Mulder, Daalder en Leeuw (2013) voor een overzicht van designs en alternatieven in justitiële contexten.
4
Anders dan toetsen evalueren geeft een reconstruerende benadering inzicht in hoe en waarom de gevonden mate
van doelbereiking – en eventuele andere effecten – precies tot stand zijn gekomen.10 Centraal staat het begrijpen
van de werking van beleid, teneinde onzekerheid over het
Er wordt cameratoezicht geplaatst op een verlaten
verband tussen beleid en doelbereiking zoveel mogelijk terug te
parkeerplaats. Na de installatie van de camera’s
dringen. Zelfs bij een relatief eenvoudige beleidsinterventie kan
worden minder auto-inbraken en andere
het nog lastig zijn om uitkomsten te begrijpen (Tilley, 2000),
criminaliteit gemeten. Twee mogelijke verklaringen
getuige het voorbeeld van cameratoezicht op de verlaten
voor de effecten zijn.
1. Bewakers hebben meer zicht op wat er gebeurt
parkeerplaats.11
(direct effect camera toezicht), wat de objectieve
De aanpak is gericht op het nagaan en verklaren van
pakkans vergroot en potentiële daders afschrikt.
gebeurtenissen sinds de invoering van beleid. Een denkhulp
2. Toegenomen sociale controle door meer
daarbij is C-M-O: in welke omstandigheden (Context-C), hoe
geparkeerde auto’s dankzij een gestegen gevoel van
(Mechanisme-M), voor wie en onder welke omstandigheden
veiligheid bij bezoekers.
treedt werking (Outcome-O) op? (o.a. Pawson & Tilley, 2007;
Wat met experimenteel onderzoek niet kan – deze
Pawson, 2006). Deze drie kernvragen kunnen aan de hand van
verklaringen nagaan of toetsen – kan wel met een
bijvoorbeeld interviews, focusgroepen, desk study van
reconstruerende, verklarende benadering: de
statistieken, uitvoeringsverslagen etc. worden beantwoord.
factoren die in de praktijk een bijdrage hebben
geleverd aan de vermindering van criminaliteit
In deze benadering wordt de redenering achter het beleid
staan centraal.
expliciet gemaakt: waarom zal beleid x leiden tot uitkomst y? Is
het omdat het altijd zo, en nooit anders, gedaan is? Of omdat er
harde bewijzen voor zijn? Dit wordt ook wel de beleidstheorie
genoemd (o.a. Leeuw, 2003), of de interventielogica.
Gezamenlijke beoordeling betreft een wijze van
In de praktijk worden de aannames achter beleid vaak niet, of
samenwerking tussen verschillende hulpverlenende
instanties, bijvoorbeeld samenwerking tussen
maar voor een deel, expliciet gemaakt (o.a. Leeuw & Van Gils,
schuldhulpverleningsorganisaties, gemeente,
2010; Veerman, 2013). De vergelijking van voorgenomen met
woningcorporaties en GGZ. Bij de evaluatie van
daadwerkelijke gebeurtenissen komt dan in de knel: welke
verschillende pilots in het land is gekeken naar de
stappen zijn gezet, welke gedragsreacties volgden er van welke
wijze waarop ‘gezamenlijke beoordeling’ werkt, en
doelgroep(en)? Op welke punten zijn deze zoals beoogd en waar
voor wie. In de evaluatie is met behulp van
ging het minder? Een bijvangst van tijdig reconstrueren is dat het
enquêtes, documentanalyse en interviews gekeken
ondervragen van betrokkenen over de beleidstheorie nieuwe
naar wat, werkt voor wie, in welke
inzichten in de mogelijke werking kan opleveren. Deze kunnen
omstandigheden. Zo bleken bepaalde aspecten van
het programma, zoals de wijze van coördinatie, een
dan al vroeg tot onderbouwde aanpassingen leiden.
belangrijke verklaring voor de effecten van beleid.
Bovenstaande twee benaderingen sluiten elkaar niet uit,
Ook bleken in kleine gemeenten andere
maar vullen elkaar aan. Allebei inzetten kan veel extra inzichten
mechanismen werkzaam dan in grote gemeenten.
opleveren.
Aanvullende vragen: is het beleid efficiënt uitgevoerd? Wat zijn neveneffecten?
In aanvulling op genoemde benaderingen van effectevaluaties kan met behulp van efficiencyonderzoek inzichtelijk
worden gemaakt of het einddoel of de outcome doelmatig is bereikt. Hierbij worden de output (bijv. het aantal
arrestaties, het aantal opgeknapte huurwoningen) en de outcome (bijv. de criminaliteitsontwikkeling, het aandeel
hoger opgeleiden in stad of wijk) onderzocht met inachtneming van de input: de kosten in termen van geld, tijd,
personele middelen, opportunity costs12 etc.
Tevens kan worden onderzocht wat neveneffecten zijn van beleid. Zo’n effectenevaluatie is niet alleen
gericht op de doelstelling maar ook op (neven)effecten voor bijvoorbeeld milieu, of in termen van administratieve
lasten voor bedrijven, burgers of bestuursorganen.
3.2 Kunnen: de situatie van het beleid
Behalve van wat de beleidsmaker – of een andere partij – wil met een evaluatieonderzoek, is de keuze voor een type
evaluatie afhankelijk van wat praktisch kàn. We onderscheiden hier twee omstandigheden die maken dat het ene
type evaluatie passender is dan het andere. Deze zijn tevens uitgewerkt in Figuur 2.
10
Het zicht op de werkzame mechanismen wordt zelden meegenomen in voornoemd experimenteel onderzoek (Pawson & Tilley, 2002).
Zie bijvoorbeeld de website Better Evaluation (online initiatief van wetenschappers en beleidsmakers wereldwijd):
http://betterevaluation.org/plan/approach/contribution_analysis.
12
Beleid voeren betekent dat op andere vlakken dingen niet gebeuren en dit kan betekenen dat opbrengsten worden misgelopen.
11
5
1. Het stadium waarin het beleid zich bevindt: plan-fase, beleid (net) vastgesteld, beleid ingevoerd, beleid in
uitvoering of later?
2. De complexiteit van het beleid: betreft het een meerledig programma of operatie (bijv. ‘Schoon & Zuinig’,
decentralisatie van zorg) of juist een overzichtelijke interventie (bijv. bewakingscamera’s)?
Beleidstheorie
Vóór vaststelling
Ex ante evaluatie
Evidence, Best
practices analyse
Tijdens uitvoering
Procesevaluatie
(voorlopige)
Impact
Stadium?
Effectevaluatie
Na uitvoering
Ex post evaluatie
Procesevaluatie
Situatie
Complexiteit?
Hoog
Laag
Reconstructie,
(C-M-O)
Toetsend design (quasi-)
experiment
Figuur 2. Stadium, complexiteit en evaluatiedesign
Stap 1: Stadium: hoe ‘ver’ is het beleid? Het stadium waarin het beleid zich bevindt is bepalend voor het
evaluatiedesign. In het planstadium, dus (ruim) vóór de vaststelling van beleid is het verstandig om een ex ante
evaluatie te (laten) doen: kan beleid X in de toekomst leiden tot het bereiken van het beoogde doel – met
inachtneming van wat we al weten? De keuze voor een kansrijke interventie is mogelijk effectiever en goedkoper
dan beleid achteraf bijstellen op basis van ex post-evaluatie. Soms kan vooraf worden volstaan met een quickscan,
zeker als veel literatuur over de werking van een specifieke (soort) interventie in bijvoorbeeld andere landen, of het
verleden, beschikbaar is.
Waar we in dit verband ook op wijzen is op het belang van nulmetingen in deze vroege fase. Dit met het oog
op latere effectevaluatie. Wat is de stand van de ‘doel-indicator’ vóórdat – of op het moment dat – het beleid van
start gaat? In de beleidspraktijk wordt dit meetmoment vaak gemist, wat zijn weerslag heeft op de kwaliteit van
latere evaluaties. Zonder nulmeting is er immers geen ijkpunt om te kunnen spreken van een verbetering of
verslechtering na de invoering van beleid. Het achteraf alsnog reconstrueren van de nul-situatie levert doorgaans
een minder volledig en betrouwbaar beeld op. Voor een nulmeting ten bate van een latere effectevaluatie moet al in
de beleidsvoorbereiding geld en tijd worden vrijgemaakt. Om een moment als dat van de nulmeting (maar ook het
tijdig vormen van eventuele experimentele en controlegroepen) niet te missen, is een evaluatieprogrammering voor
beleidsmedewerkers een onmisbaar hulpmiddel.
Bevindt het beleid zich in het stadium van de invoering of implementatie, dan ligt procesevaluatie in de rede.
Eindeffecten kunnen dan immers nog niet worden verwacht. Zo kunnen effecten van maatregelen tegen recidive pas
na minstens twee jaar worden waargenomen. Gaat men dan toch over tot een effectevaluatie, dan luidt het oordeel
misschien ‘niet tot nauwelijks’ terwijl het beleid in potentie wel effectief kan zijn. Een te voorbarige conclusie. Pas als
het beleid al enige tijd in werking is geweest en te verwachten valt dat de doelgroep erop heeft kunnen reageren, is
de tijd rijp voor effectevaluatie. Een deel van de wetten bevat tegenwoordig een evaluatiebepaling die stelt dat het
beleid binnen vier of vijf (maar soms ook anderhalf) jaar op effectiviteit geëvalueerd moet worden. Soms gaan deze
6
termijnen – vaak als gevolg van politieke onderhandelingen – voorbij aan de tijd die nodig is totdat beleidseffecten
zich kunnen manifesteren. Alleen al het implementatietraject zelf duurt soms langer. Dit alles onderstreept nog eens
het belang van een vooraf doordachte programmering (planning) van één of meerdere evaluatieonderzoeken in de
tijd, met een eventuele nulmeting of de vorming van een controlegroep.13
Stap 2: Hoe complex is het? De complexiteit van het te onderzoeken beleid bepaalt in grote mate welk type
evaluatie het meest passend is. Hoe overzichtelijker de te evalueren beleidsinterventie, hoe passender toetsend
onderzoek. Simpele interventies zijn beter ‘los te laten’ op experimentele groepen en te onthouden aan
controlegroepen, waarmee hun werking relatief eenvoudig valt te isoleren van andere mogelijke factoren.
Bovendien vallen de gemeten effecten relatief eenvoudig te begrijpen. Maar veel beleid is natuurlijk een stuk
complexer. Denk aan de basisvormingsoperatie in het onderwijs in de jaren negentig en de latere
liberaliseringsoperatie in de zorg. Hoe complexer de interventie, hoe toepasselijker (een combinatie met)
reconstruerend onderzoek (bijv. Pawson, 2006). Immers: je wilt begrijpen welk onderdeel van het beleid heeft
bijgedragen aan de gemeten verandering en hoe dit in zijn werk is gegaan. Was het bijvoorbeeld de normstelling in
de Wet op de Orgaandonatie zelf, of vooral de flankerende wervingscampagne? Bij (quasi-)experimentele designs
(werkte het?) blijft dit een ‘black box’; in geval van reconstruerende analyse kan men proberen de werking van
verschillende elementen van een programma te ontrafelen.
Behalve het stadium en de complexiteit van het beleid spelen ook de doelen een rol bij de keuze voor een
evaluatiedesign. In geval van procesmatige doelstellingen of ‘output-doelen’ zoals het realiseren van ‘meer blauw op
straat’ ligt een procesevaluatie gericht op het implementatieproces voor de hand. Bij verder gelegen doelen zoals de
mate van (ervaren) veiligheid in de publieke ruimte (outcome) is er een keus tussen toetsend dan wel
reconstruerend evaluatieonderzoek. Een toetsende evaluatie kan sowieso passend zijn: achterhalen wat de
nettobijdrage van het beleid is geweest, door andere factoren constant te houden (bijv. economische situatie, ander
gelijktijdig beleid, incidenten etc.). Een probleem met toetsend onderzoek naar zo’n verre outcome is echter de
lange keten van (gedrags-)reacties die vereist is. Als het al lukt om een beleidseffect aan te tonen, hoe valt dat dan te
begrijpen? Aan welke schakels in de lange keten van interventies en verwachte gedragsreacties is dat dan ‘te danken
of te wijten’? Reconstructie is onontbeerlijk voor het trekken van lessen in geval van zulke ambitieuze doelstellingen.
Ook het formuleren van meetbare tussendoelen maakt hier onderdeel van uit.
4. De kloof tussen willen en kunnen verkleinen
Soms is het doel van effectevaluatie – de werking van beleid toetsen en/of begrijpen – in de praktijk nauwelijks
haalbaar. Hieronder beschrijven we drie mogelijkheden voor de beleidsmaker om deze kloof tussen willen en
kunnen te verkleinen, voor zichzelf of voor evaluatieonderzoekers. Ten eerste een zo tastbaar mogelijke
beleidsdoelstelling, ten tweede expliciteren van de beleidstheorie en ten derde beperken van tussentijdse
beleidswijzigingen of nieuwe interventies.
4.1
Streef naar een tastbaar en meetbaar doel
De operationele beleidsdoelstellingen zoals verwoord in de begroting zijn vaak verre van panklaar voor evaluatie van
de effectiviteit. Zo zijn ze onderdeel geweest van politieke onderhandelingen en daarmee een compromis tussen
belangen, wat ze er niet meetbaarder op maakt. Soms liggen begrotingsdoelstellingen dusdanig ‘ver weg’ (bijv. ‘een
bijdrage leveren aan de vergroting van de veiligheid’; …. ‘verbetering van het leefmilieu’) dat ze zonder het verder
operationaliseren ervan geen goede basis voor evaluatie zijn. Andere beleidsdoelstellingen liggen juist weer
dusdanig ‘dichtbij’ (bijv. jaarlijkse stortingen in een internationaal fonds) dat hooguit van outputonderzoek sprake is.
Dat beleidsdoelstellingen het resultaat zijn van een politiek onderhandelingsproces valt natuurlijk niet te
veranderen, maar in samenspraak tussen beleidsmaker en onderzoeker vallen doelstellingen met het oog op
evaluatie vaak wel concreter te maken, bijvoorbeeld door tussendoelen of deelindicatoren te formuleren.
13
Bijvoorbeeld: eerst (op ‘t0’) een nulmeting (ook bij een eventuele controlegroep in geval van een beoogde toetsende evaluatie), na anderhalf jaar
procesevaluatie gericht op het implementatietraject en uiteindelijk na vijf jaar een effectiviteitsstudie met een nameting voor zowel de experimentele als de
controlegroep. Tussendoor is ook nog een evaluatie van de tussentijdse impact (voorlopige effectiviteit) mogelijk.
7
4.2
Maak de beleidstheorie expliciet
Een benodigde stap voor een goede evaluatie is het expliciet maken van de logica achter het beleid door de
beleidsmakers: de beleidstheorie. Hiermee wordt bedoeld het systeem van middelen, doelen en aannames waaruit
duidelijk wordt hoe beleid X moe(s)t leiden tot gedragsreactie Y bij doelgroep Z en waarom dat zo zou moeten gaan.
Bij uitbesteding van de evaluatie is het zaak om deze logica te communiceren naar de (beoogde) evaluatoren. Anders
is het stap één voor de evaluator om tot die reconstructie over te gaan. Dit kan door middel van gesprekken met
beleidsmedewerkers en met eventuele andere belanghebbenden – afhankelijk van de gekozen aanpak (zie daarvoor
Leeuw, 2003).
4.3
Beperk tussentijdse beleids- (of budget)wijzigingen
Om te kunnen leren van gevoerd beleid zou een interventie of programma voor enige tijd stabiel moeten blijven, dus
niet onnodig worden gewijzigd. Immers, als het evaluatieobject teveel ‘beweegt’ wordt het bestuderen van zijn
werking lastig, en daarmee het trekken van een samenhangende conclusie erover. Ook de introductie van
aanvullende of nieuwe interventies in de evaluatieperiode leidt tot complicaties.
5. Samenvattend
De roep om verantwoording afleggen en om kennis te laten doorklinken in beleid wordt niet minder en stelt
beleidsmakers voor lastige keuzes als het gaat om beleidsevaluatie. Dit artikel is bedoeld om bij te dragen aan
bewustzijn over wat mogelijk is in termen van effectevaluatie, en vervolgens over wat realistisch en haalbaar is.14
Allereerst stuurt het doel van de effectevaluatie de keuze voor een toetsend (werkt het?) of juist reconstruerend
evaluatiedesign (hoe, waarom werkt het wel of niet?). In de tweede plaats moet die keuze aansluiten op de
beleidspraktijk in termen van: (a) de ontwikkelingsfase en (b) de complexiteit van interventies of programma’s en (c)
het soort doelstelling(en). Via een stappenplan is gekomen tot een koppeling tussen wat de evaluatie moet
opleveren en welk evaluatiedesign daarbij het beste past.
Willen: wat moet de evaluatie opleveren?
o Wil men vaststellen of en in hoeverre het beleid verantwoordelijk is geweest voor veranderingen in termen
van het doel, dan is een toetsend evaluatiedesign het meest passend. Hiermee worden andere mogelijke
invloeden op de doelstelling zoveel mogelijk uitgeschakeld.
o Wil men vooral begrijpen hoe en waarom het beleid heeft bijgedragen aan de doelen, dan is reconstructie
de passende wijze van evalueren: het in kaart brengen van de keten van gebeurtenissen cq. respons van de
doelgroep(en) op het beleid en de omstandigheden waaronder die respons optrad (de context). Van beide
benaderingen zijn beknopte voorbeelden gegeven.
o De twee benaderingen sluiten elkaar niet uit, maar vullen elkaar aan. Beide toepassen kan veel opleveren.
Kunnen: wat is mogelijk?
Behalve van wat men wil met het evaluatieonderzoek, is de keuze voor een type evaluatie afhankelijk van wat
praktisch kán. Dat hangt vooral af van:
o De fase waarin het beleid zich bevindt: plan, net ingevoerd of al jaren lopend?
o Wees er vroeg bij. Is het beleid nog niet van start gegaan, dan is een nulmeting meestal een goede
investering. Hetzelfde kan gelden voor het vormen van een controlegroep, als voor een toetsende
aanpak wordt gekozen. In dit vroege stadium kan ook de al beschikbare kennis over de werking van
voorgenomen interventie(s) goed geïnventariseerd worden, om te voorkomen dat duidelijk
ineffectieve interventies worden ingezet. Helaas wordt dit momentum vaak gemist. Een goed
doordachte evaluatieprogrammering die bij voorkeur parallel loopt aan de beleidsontwikkeling, zal
helpen.
o De complexiteit: een simpele interventie of een complex samenstel?
14
Dit is bewust gedaan op het niveau van algemene designkeuzes, vanuit het perspectief van de beleidsmaker of –medewerker en met nadruk op ex post
(achteraf-)evaluatie. Op methodologisch niveau zijn talloze verwijzingen mogelijk naar een scala van handboeken en wetenschappelijke artikelen – die we hier
achterwege laten.
8
o
Hoe complexer het beleid, hoe toepasselijker reconstruerend in plaats van toetsend onderzoek:
welke onderdelen van het complexe beleid hebben al dan niet bijgedragen aan het doel, en hoe is
dat feitelijk in zijn werk gegaan? Was dat in lijn met de aannames en verwachtingen bij de
beleidsmaker – de zogeheten beleidstheorie – of niet? Wat zijn knel- en dus verbeterpunten?
Ten slotte onderstrepen we het belang van de volgende – door beleidsontwerpers beïnvloedbare – factoren voor de
kwaliteit van evaluaties: meetbare hoofd- en tussendoelen, het expliciet maken van de beleidstheorie en het
voorkómen van snel elkaar opvolgende beleidsinterventies of -wijzigingen.
Bronnen
Algemene Rekenkamer (2013). Overzicht Effecitiviteitsonderzoek Rijksoverheid. Vervolgonderzoek. Den Haag:
Algemene Rekenkamer.
Algemene Rekenkamer (2011). Leren van subsidie-evaluaties. Den Haag: Algemene Rekenkamer. / Tweede Kamer,
vergaderjaar 2011–2012, 33 034, nr. 2.
Burssens, D. (2007). Hoe evident is evidence based beleid? Alert, 33(3) , pp. 52-63.
Ferwerda, H., I. van Leiden, N. Arts, A. Hauber. (2006). Halt: Het alternatief? De effecten van Halt
beschreven. Den Haag, Wetenschappelijk onderzoek- en documentatiecentrum (WODC).
Leeuw, F.L. (2003). Reconstructing program theories: Methods available and problems to be solved. American
Journal of Evaluation, 24(1): 5-20.
Leeuw, F.L., & Gils, G.H.C. van (2010). Leren van evalueren. Onderzoek naar het gebruik van evaluatieonderzoek bij
het Ministerie van Buitenlandse Zaken. Den Haag: Ministerie van Binnenlandse Zaken.
Marlet, G., & Woerkens, C. van (2011). De effectiviteit van grotestedenbeleid. Kwantitatieve evaluatie GSB-III, 20052009. Utrecht: Atlas voor Gemeenten.
Mulder, J., Daalder, A., & Leeuw, F.L. (2013). Verslag expertmeeting ‘Designs van effectstudies in justitiële contexten’.
Den Haag: WODC.
Pawson, R., & N. Tilley (2002). Realist evaluation. Londen: Sage
Pawson, R. (2006). Evidence-based policy, a realist perspective. Londen: Sage.
Rossi, P.H., Lipsey, M.W., & H.E. Freeman (2003). Evaluation. A systematic approach. Thousand Oaks (CA): Sage (7e
druk).
Tilley (2000). Realistic evaluation: an overview. Presentatie voor de Founding Conference of the Danish Evaluation
Society, September.
Veerman, G.J., m.m.v. Mulder, R.J., & E. Meijsing (2013). Een empathische wetgever. Den Haag: Sdu Uitgevers.
9