NAAR EEN DEUGDELIJKE ROM

MGV | JAARGANG 69 | NUMMER 01 | JANUARI 2014
NAAR EEN
DEUGDELIJKE ROM
Door: Anton Hafkenscheid & Jim van Os
Willen we de kwaliteit van behandelingen meten als therapeutische interventie of willen we ermee
benchmarken? Dat maakt nogal uit voor Routine Outcome Monitoring. Het huidige systeem levert
misleidende conclusies op maar kan verbeterd worden door vijf voorwaarden te verwezenlijken.
Routine Outcome Monitoring (ROM) wordt door de brancheorganisatie GGZ Nederland en
1
Bruinsma CL, Verbraak MJPM,
Verbraak P.
door de zorgverzekeraars gezien als de methodiek bij uitstek om de ggz efficiënter, effectiever
en daarmee goedkoper te maken. Om verschillende ‘aanbieders’ van ggz onderling te kunnen
Transparantie in ggz gebaat bij ROM en
vergelijken in effectiviteit en doelmatigheid heeft de brancheorganisatie de Stichting Bench-
benchmarking.
mark GGZ (SBG) opgericht. De SBG profileert zich als een onafhankelijk kenniscentrum,
Tijdschrift voor Psychiatrie 2012;
dat zorgaanbieders en zorgverzekeraars voorziet van informatie over bereikte behandelresul-
54: 254-256.
taten aan de hand van betrouwbare en valide meetinstrumenten (www.sbggz.nl). Aan de SBG
2
zijn een bestuur en een wetenschappelijke adviesraad verbonden, die het idee van kwaliteitsver-
Blijd-Hoogewys E, Van Dyck R,
betering door de onderlinge vergelijking tussen individuele behandelaars, afdelingen en
Emmelkamp P, et al.
instellingen op basis van ROM-instrumenten verdedigen.1,2 Vooralsnog lijkt het idee echter
Benchmarken is ‘werk-in-uitvoering’.
Tijdschrift voor Psychiatrie 2012;
meer gestoeld op hoop en geloof (en wellicht ideologie), dan op empirische ondersteuning.
54: 1031-1038.
Een recent rapport van de Algemene Rekenkamer stelt vast dat 0% (!) van de huidige set
3
Algemene Rekenkamer.
kwaliteitsindicatoren in de geestelijke gezondheidszorg goed scoort op criteria zoals inhoudsvaliditeit, populatievergelijkbaarheid, registratiebetrouwbaarheid en statistische betrouwbaarheid.3
Indicatoren voor kwaliteit in de zorg.
Tweede Kamer, vergaderjaar 2012-2013, 33
585, nr. 2. Den Haag: Sdu; 2013.
SUBTIELE VARIATIES, GROTE EFFECTVERSCHILLEN
4
Inmiddels verschijnen de eerste onderzoeken waarin met behulp van verzamelde ROM-gege-
Fugard AJB, Stapley EJ, Ford T, et al.
vens wordt gedemonstreerd hoe benchmarking tot misleidende en zelfs absurde conclusies kan
(ingediend).
leiden. Instellingen die even effectieve zorg bieden blijken ogenschijnlijk sterk in effectiviteit
Ranking mental health service outcomes
is harmful: a substantive and statistical
te kunnen verschillen, louter op grond van statistische factoren: de omvang van en spreiding
alternative.
binnen de aangeleverde data per instelling bepalen de precisie van de effectiviteitschattingen.4
20
TER DISCUSSIE | NAAR EEN DEUGDELIJKE ROM
Conclusies over behandeleffectiviteit blijken verder sterk afhankelijk te zijn van subtiele variaties in de gebruikte analysemethoden.5 Op verschillende plaatsen hebben wij beargumenteerd
waarom de opzet en inhoud van ROM, zoals die nu over Nederland wordt ‘uitgerold’, principieel
ondeugdelijk zijn.6-9
In dit artikel werken wij enkele voorwaarden uit waaraan ROM-systemen moeten voldoen
om wel als deugdelijk te kunnen worden gekwalificeerd. Wij beseffen dat door praktische beperkingen (onder meer tijd en geld) aan deze voorwaarden in werkelijkheid nooit perfect kan worden
voldaan. Praktische belemmeringen zijn echter geen geldige reden om een normatief kader
voor het ‘monitoren van monitorsystemen’ dan maar gewoon achterwege te laten. Juist door
expliciete kwaliteitsvoorwaarden voor monitorsystemen te formuleren, kunnen de conclusies
die aan monitorresultaten worden verbonden het beste op hun merites worden beoordeeld.
5
Wij werken vijf voorwaarden nader uit, zonder de pretentie te hebben volledig te zijn. Met
Hoenders RHJ, Bos EH, Bartels-Velthuis
andere woorden: er zijn zeker nog andere voorwaarden te formuleren voor de opzet van een
deugdelijke ROM-systematiek. We hebben echter voor juist deze vijf voorwaarden gekozen,
AA, et al.
Pitfalls in the assessment, analysis,
and interpretation of Routine Outcome
omdat ze terreinen bestrijken waar de tekortkomingen en hiaten van de huidige ROM zich
Monitoring (ROM) data: results from an
het hardst laten voelen.
outpatient clinic for integrative mental
health.
Administration and Policy in Mental Health
ZORG VOOR EEN DOORDACHTE FLOW
Onze bezwaren tegen de benchmarkgedachte zijn niet principieel van aard, maar louter methodologisch en statistisch. Vooralsnog gaan wij ervan uit dat de staat van wetenschap onvoldoende
2013; DOI:10.1007/s10488-013-0511-7.
6
Hafkenscheid A.
Rammelende ROM in de ggz: geen ROM
is om te komen tot een nationaal systeem van onderlinge vergelijking en vergelijkbaarheid
zonder Routine Process Monitoring.
tussen instellingen, vrijgevestigde praktijken, afdelingen en individuele behandelaars. Dat GGZ
GZ-Psychologie 2010; 2: 12-17.
Nederland, SBG en de zorgverzekeraars deze wetenschappelijke twijfels niet zullen willen delen,
al was het maar uit prestigeoverwegingen, lijkt ook waarschijnlijk. ROM wordt door degenen
7
Hafkenscheid A.
die in de haalbaarheid van benchmarken geloven gepropageerd als een methodiek waarmee
Geen rad voor de ogen: reactie op De Jong
zeer uiteenlopende doelen tegelijk gediend zijn, variërend van onderlinge kwaliteitsvergelijking
en Van ’t Spijker.
op macroniveau tot het ondersteunen van de individuele behandelaar door het verschaffen van
Tijdschrift voor Psychotherapie 2013;
39: 203-207.
feedback over de voortgang van behandelingen op microniveau.
Bij de bespreking van de vijfde voorwaarde zullen wij kanttekeningen plaatsen bij de aanna-
8
me dat zulke diverse doelen in een en hetzelfde ROM-systeem gecombineerd kunnen worden.
Hafkenscheid A, Os J van.
Een goede afstemming tussen het alledaagse klinische proces enerzijds en de organisatie en de
logistiek van de gegevensverzameling anderzijds is des te urgenter als wél wordt aangenomen
Huidige ROM doet afbreuk aan valide
kwaliteitsmeting.
Tijdschrift voor Psychiatrie 2013; 55: 179-181.
dat dezelfde ROM-gegevens geschikt zijn voor zowel klinisch gebruik als voor onderzoeks- en
verantwoordingsdoeleinden. Bij het opzetten van routine dataverzamelingen in de klinische
praktijk, zoals die ten behoeve van SBG, is een optimale flow in de dataverzameling noodzake-
9
Os J van, Kahn R, Denys D, et al.
ROM: Gedragsnorm of Dwangmaatregel?
lijk.10 Hiermee wordt bedoeld dat het gebruik van bepaalde instrumenten, tijdstip van afname,
Commentaar op het Themanummer
frequentie van afname, logistiek van vastleggen en levering van data etc. zo goed mogelijk zijn
ROM.
afgestemd op en zo min mogelijk interfereren met het klinische proces. Zonder een doordachte
Tijdschrift voor Psychiatrie 2012; 54: 245-253.
flow komt de dataverzameling niet op gang, zijn de data van slechte kwaliteit en wordt weerzin
10
gevoed bij clinici die moeten toezien op de uitvoering.
Cofiel L, Bassi D, Ray R, et al. (in druk).
De poging van SBG om klinische ROM-data te verzamelen voor een landelijke registratie
Detecting dissonance in clinical and
is prototypisch voor een ondoordachte of ontbrekende flow. Een voorbeeld is de verplichte
koppeling van ROM-metingen aan de openingsdatum en sluitingsdatum van een Diagnose
21
research workflow for translational
psychiatric registries.
PLOS ONE. alternative. (in druk)
MGV | JAARGANG 69 | NUMMER 01 | JANUARI 2014
Behandelcombinatie (dbc). Mede vanwege wachtlijsten en de drukke patiëntenzorg waardoor
administratieve handelingen blijven liggen, zijn de data die een dbc markeren nogal arbitrair:
ROM-metingen verliezen aan waarde als ze worden gekoppeld aan dbc’s, in plaats van aan
natuurlijke evaluatiemomenten in de behandeling.11 Clinici immers willen ROM uitvoeren op
voor hen belangrijke momenten in het klinische proces, en worden geconfronteerd met een verplichte afname op tijdstippen die voor hen mogelijk niet klinisch relevant zijn, of met gebruik
van instrumenten die voor hen niet waardevol zijn.
De manier van uitvoeren van ROM zal vanwege de dataverzameling eronder gesystematiseerd
en verbureaucratiseerd worden, met als gevolg verlies van klinische flexibiliteit. De SBG heeft
van te voren onvoldoende nagedacht en geëxperimenteerd met afstemming tussen het klinische
proces en dataverzameling voor de ‘bureaucratische ROM’, zoals die door de zorgverzekeraars
en brancheorganisatie GGZ Nederland is overeengekomen. In hoog tempo wordt waarneembaar hoe deze opgelegde ‘bureaucratische ROM’ het gewone monitoren als good clinical practice
begint te verdrijven: de werkvloer raakt gedemotiveerd en de SBG-dataverzameling raakt achter
op schema.
MONITOR TOETSEND: WAT VINDEN WE DOELMATIG EN EFFECTIEF?
Om ROM ‘aan de man te brengen’ wordt vaak instemmend verwezen naar de uitdrukking
11
‘Meten is weten’. Dat ‘meten’ automatisch ‘weten’ impliceert, is een ernstig misverstand.
Nugter A, Keet R, Dhondt T.
Metingen spreken nooit voor zichzelf. Zelfs objectieve, telbare uitkomstmaten, zoals aantallen
Reactie op ‘ROM: Gedragsnorm of
heropnames, suïcidepogingen, contacten met justitie of gebruikte hoeveelheden alcohol, drugs
Dwangmaatregel? Overwegingen bij het
en psychofarmaca, krijgen pas betekenis binnen een context. Metingen zijn niet louter een
themanummer over routine outcome
monitoring’.
Tijdschrift voor Psychiatrie 2013; 55: 307-308.
registratie (gecondenseerde weergave) van de werkelijkheid, maar altijd een reductie en vaak
zelfs een constructie ervan. Een ‘gouden standaard’ om die metingen aan te valideren is er
zelden. Meestal zijn metingen in de ggz niet meer dan geobjectiveerde subjectieve oordelen,
12
Janssen MMM, Deurzen PAM van,
Klip H, Buitelaar JK.
en daarmee zijn ze niet inherent objectief: ze berusten op belevingen van patiënten, behandelaars
of anderen (‘naastbetrokkenen’), die middels scores op gestandaardiseerde zelfrapportagelijsten
ROM in de kinder- en jeugdpsychiatrie:
of op beoordelingsschalen worden gekwantificeerd.
kansen en verplichtingen uitvoerbaar
Het is een valkuil om scores op zulke meetinstrumenten te behandelen alsof het laborato-
combineren. In: VJA Buwalda, et al. (red),
riumuitslagen bij somatisch onderzoek betreft. Grafieken waarin het scoreverloop op een
Praktijkboek ROM in de ggz II: implementatie en gebruik bij verschillende
monitorinstrument zijn weergegeven, mogen niet zomaar worden vergeleken met bijvoorbeeld
doelgroepen.
groeidiagrammen voor lengte en gewicht op het consultatiebureau.12 Metingen in de ggz zijn
Utrecht: De Tijdstroom; 2013.
vrijwel per definitie multi-interpretabel.13 Zolang ROM louter klinisch wordt gebruikt ter
13
verbetering van behandelingen is dat geen probleem. De ROM-scores zijn dan puur bedoeld
Hafkenscheid A.
om de dialoog en een vruchtbaar onderhandelingsproces tussen patiënt en behandelaar te
Subjectiviteit bij de interpretatie van
bevorderen. Multi-interpreteerbaarheid is wel een principieel probleem wanneer ROM-
het grafisch scoreverloop op monitor-
uitkomsten bedoeld zijn om individuele behandelaars, afdelingen of instellingen onderling op
instrumenten.
Tijdschrift voor Psychiatrie 2012: 54; 29-134.
effectiviteit en doelmatigheid te vergelijken. De uitkomsten kunnen namelijk altijd ten eigen
voordele of ter eigen verontschuldiging worden geïnterpreteerd, en de kans daarop neemt toe
14
als aan deze uitkomsten direct of indirect financiële consequenties verbonden zijn.
Hofstee WKB.
Als belanghebbenden (zorgverzekeraars, patiënten, professionals) de oprechte bedoeling
De empirische discussie: theorie van het
sociaal-wetenschappelijk onderzoek.
hebben om ROM-uitkomsten te gebruiken in het kader van de ‘empirische discussie’14 over
Meppel/Amsterdam: Boom; 1980.
effectiviteit en doelmatigheid, dan moeten zij bereid zijn toetsend te monitoren.
22
TER DISCUSSIE | NAAR EEN DEUGDELIJKE ROM
Toetsend monitoren is iets anders dan het simpelweg afvuren van statistische significantietoetsen
op ROM-gegevens, waarbij de interpretatie van uitkomsten aan het significantiecriterium wordt
overgelaten. Monitorprojecten moeten worden opgezet vanuit vooraf overeengekomen afspraken over wat precies onder effectiviteit en doelmatigheid wordt verstaan. In de operationele
definities moeten ook afspraken terugkomen waaruit eenduidig kan worden afgeleid welke
ROM-uitkomsten wel en niet als effectief en doelmatig worden gekwalificeerd.
Tot slot moeten de praktische implicaties van gekwalificeerde ROM-bevindingen vooraf
helder worden vastgelegd.
Door toetsend te monitoren zullen alle betrokken partijen aangemoedigd worden om zo
scherp en kritisch mogelijk te zijn over de keuzes en operationele definities van uitkomstindicatoren, over de relevantie en kwaliteit van de gebruikte meetinstrumenten en over de toegepaste statistische analysemethoden. Bij toetsend monitoren zijn de partijen gedwongen om zich
vooraf expliciet te verbinden aan het risico om ongelijk te krijgen. Daardoor zullen zij worden
uitgedaagd om zich bij voorbaat realistischer op te stellen in hun claims ten aanzien van effectiviteit en doelmatigheid.
Door toetsend, en dus niet vrijblijvend, te monitoren worden ook de verschillen in uitkomstcriteria tussen de partijen tijdig transparant, hetgeen vruchtbare inhoudelijke discussies zal
opleveren. Het valt uiteraard niet uit te sluiten dat inhoudelijke discussies tussen de betrokken
partijen uiteindelijk niet tot overeenstemming leiden over de verschillende aspecten van toetsend monitoren. Dat kan betreurd worden, maar een expliciet "agree to disagree" voorkomt in
elk geval dat uiteenlopende opvattingen en standpunten worden verdoezeld of vooruitgeschoven, waardoor dure en belastende monitorprojecten uiteindelijk niet op commitment kunnen
rekenen. Lukt het niet om vooraf tot overeenstemming (over ondermeer beslisregels) te komen,
dan wordt in elk geval voorkomen dat betrokkenen zich bij tegenvallende ROM-uitkomsten
achteraf kunnen verschuilen achter ‘ontlastende’ en ‘verontschuldigende’ verklaringen van die
uitkomsten.
23
MGV | JAARGANG 69 | NUMMER 01 | JANUARI 2014
MONITOR VANUIT VERSCHILLENDE PERSPECTIEVEN
De vigerende ROM-systemen zijn doorgaans gebaseerd op het meten van behandeluitkomsten
vanuit niet meer dan één perspectief. In de ‘gewone’ ambulante geestelijke gezondheidszorg
leunen ROM-systemen vrijwel altijd enkel op de beoordelingen van de patiënt zelf. In andere,
meer specialistische settings wordt vaak uitsluitend gebruik gemaakt van beoordelingen door
behandelaars, verpleegkundigen of begeleiders. In de forensische psychiatrie of de langdurende psychiatrie zijn het niet de patiënten zelf die de voortgang in hun behandeling beoordelen,
maar vullen hun behandelaars een monitorinstrument in.
Uit onderzoek naar zorgbehoeften15,16,17 blijkt dat de perspectieven van patiënt en behandelaar
nogal uiteen kunnen lopen en dat zij (veranderingen in) lijdensdruk en de voortgang van de
behandeling niet per se hetzelfde beoordelen. Reductie in de discordantie tussen hulpverlener
en patiënt kan een belangrijke indicator voor benchmarking zijn.17 De huidige ROM-opzet
in de ggz kenmerkt zich door een opmerkelijke tweedeling: zelfbeoordelingen in de ‘gewone’
ambulante geestelijke gezondheidszorg en ‘expertoordelen’ in de ggz voor specifieke patiëntengroepen met ernstiger psychopathologie. De scheidslijn lijkt voor de hand liggend: ambulante
patiënten in de curatieve ambulante geestelijke gezondheidszorg zijn wel in staat om de ernst
van hun lijdensdruk en de veranderingen daarin accuraat aan te geven, terwijl meer ‘behandelingresistente’ patiënten met ernstiger psychopathologie daartoe niet in staat zouden zijn.
Op het gebied van de ‘gewone’ ambulante geestelijke gezondheidszorg wordt monitoren vanuit
15
Os J van, Altamura AC, Bobes J, et al.
Evaluation of the Two-Way Communica-
het perspectief van de behandelaar zelfs als een beetje suspect beschouwd: zelfbeoordelingen
van de patiënt zouden tegenwicht moeten bieden aan de neiging tot overschatting van behan-
tion Checklist as a clinical intervention.
deluitkomsten door de met ‘blinde vlekken’ behepte behandelaar.18 Dat risico wordt voor de
Results of a multinational, randomised
niet-curatieve geestelijke gezondheidszorg merkwaardig genoeg niet als probleem gezien.
controlled trial.
De aanname dat ambulante patiënten die bijvoorbeeld psychotherapie ontvangen, geharnast
British Journal of Psychiatry 2004:
184; 79-83.
zijn tegen bronnen van bias (zoals hello-goodbye-effecten of response drift) is net zo betwistbaar en bevooroordeeld als de aanname dat ambulante behandelaars in de curatieve geestelijke
16
Os J van, Altamura AC, Bobes J, et al.
2-COM: an instrument to facilitate
patient-professional communication in
gezondheidszorg, of patiënten met ernstige psychopathologie die care ontvangen, niet in staat
zouden zijn tot accurate beoordelingen. Monitoren vanuit verschillende perspectieven heft het
probleem van vertekende beoordelingen weliswaar niet op, maar legt het in elk geval bloot.
routine clinical practice.
Acta Psychiatrica Scandinavica 2002:
106; 446-452.
MONITOR OOK KWALITATIEF
17
Psychometrisch getoetste vragenlijsten en beoordelingsschalen zijn niet per definitie geschikt
Os J van, Triffaux JM.
voor monitordoeleinden. Een voorwaarde om een vragenlijst of beoordelingsschaal als monito-
Evidence that the Two-Way Communi-
rinstrument te kunnen inzetten is namelijk de gebleken gevoeligheid voor het meten van
cation Checklist identifies patientdoctor needs discordance resulting in
therapeutische veranderingen. Een extern criterium om die gevoeligheid te bepalen is er vaak
better 6-month outcome.
niet. Als een instrument weinig verandering laat zien over de loop van de behandeling, dan is
Acta Psychiatrica Scandinavica 2008:
niet eenvoudig te zeggen of dit moet worden toegeschreven aan de ineffectiviteit van de behan-
118; 322-326.
deling, of aan de ineffectiviteit van het instrument. Soms worden in een patiëntengroep meerdere
18
monitorinstrumenten gebruikt. Het is dan verleidelijk om de ‘eigenlijke’ effectiviteit van de
Jong K de , Spijker A van ‘t.
behandeling af te leiden uit het monitorinstrument dat de grootste of meeste veranderingen
Routine Outcome Monitoring:
registreert, vanuit de gedachte dat dit instrument de grootste sensitiviteit bezit. Die redenering
‘love it or leave it’?
Tijdschrift voor Psychotherapie 2013:
is niet zonder meer juist. Het is immers net zo goed mogelijk dat de sensitiviteit voor verande-
39; 190-193.
ringen een artefact is van het instrument, bijvoorbeeld omdat het instrument kwetsbaar is voor
24
TER DISCUSSIE | NAAR EEN DEUGDELIJKE ROM
toevalsfluctuaties. Omdat scores op monitorinstrumenten doorgaans moeilijk te vertalen zijn
naar het functioneren van patiënten in het dagelijkse leven, heeft het kwalitatieve onderzoek
ter aanvulling op de gestandaardiseerde en kwantitatieve monitorbenadering een herwaardering ondergaan.19 Kwalitatief onderzoek is omslachtiger en bewerkelijker dan de kwantitatieve
en geautomatiseerde verzameling van monitordata via de computer. Anderzijds is kwalitatief
onderzoek flexibeler, omdat direct (en eventueel kritisch) kan worden doorgevraagd op de
betekenis van de antwoorden die de patiënt (of een andere informant, zoals de behandelaar of
een familielid) geeft. Kwalitatief onderzoek kan dus beter aansluiten bij de unieke ervaringen
van de individuele patiënt en meer diepgang geven aan monitorprojecten. Anders dan bij kwantitatief monitoren hoeven de antwoorden van de patiënt niet at face value te worden aanvaard.
De patiënt die in kwalitatief onderzoek wordt gevraagd zijn antwoorden toe te lichten, wordt
gestimuleerd om overkritisch naar zijn eigen antwoorden te kijken, waardoor de kwaliteit van
verkregen gegevens in kwalitatief onderzoek soms meer is gegarandeerd dan in het traditionele
kwantitatieve onderzoek.
Kwalitatieve diepte-interviews20 waarin de patiënt regulier intensief wordt bevraagd op de
ervaren veranderingen (en eventuele stagnaties) in de behandeling, kunnen een belangrijk
tegenwicht bieden aan de antwoordstijlen door het gebruik van gestandaardiseerde zelfbeoordelingsvragenlijsten. Het verdient de voorkeur om die diepte-interviews te laten afnemen
door een therapeutisch geoefende interviewer die niet de behandelaar van de geïnterviewde is.
Kwalitatieve data lenen zich voor gesystematiseerde inhoudsanalyses (met de berekening van
tussenbeoordelaarsbetrouwbaarheid), waardoor aan de wetenschappelijke eis van repliceerbaarheid kan worden voldaan.19
ONDERSCHEID VOLGEND EN STUREND MONITOREN
De wijze waarop routine monitoren wordt vormgegeven kan worden onderscheiden in
‘volgend’ of ‘sturend’.21 Volgend of ‘passief ’ monitoren heeft als doel om de effectiviteit
van behandelingen (bij afzonderlijke patiënten) of van zorgprogramma’s (op groepsniveau:
19
Kazdin A.
bijvoorbeeld de effectiviteit per behandelafdeling of de effectiviteit per therapeut) over een
Evidence-based treatment and practice:
bepaalde tijdsperiode te evalueren. De monitorgegevens worden nadrukkelijk niet gebruikt
new opportunities to bridge clinical
om het behandelproces tussentijds te beïnvloeden. Kenmerkend voor volgend monitoren is
dat de behandeling met het verzamelen van monitorgegevens wordt vastgelegd, zonder dat
patiënt en therapeut tussentijdse feedback krijgen over de monitorscores. Zonder deze feedback kunnen de scores op monitorinstrumenten per definitie geen rechtstreekse implicaties
hebben voor de behandeling.
research and practice, enhance the
knowledge base, and improve patient
care.
American Psychologist 2008: 63; 146-159.
20
Stinckens N, Verdru H, & Leijssen M.
Vooral onder invloed van het patient-focused onderzoek van Lambert en collega’s22 heeft het
Meestertherapeuten en het geheim
sturend of ‘actief ’ monitoren inmiddels sterk aan belang gewonnen. Van een sturend gebruik
van hun succes: het belang van
van routine monitoren is sprake wanneer de monitorgegevens bedoeld zijn om de behandeling
praktijk-georiënteerd onderzoek en
rechtstreeks te beïnvloeden. Dat gebeurt door de therapeut en/of de patiënt, lopende de behan-
monitoring.
Psychopraxis 2009: 11; 96-103.
deling, regelmatig feedback te verschaffen over het scoreverloop op het monitorinstrument.
Dat scoreverloop wordt weergegeven in een grafiek. Deze grafische feedback is bedoeld om
therapeuten te helpen tegenvallende vooruitgang eerder op het spoor te komen en de behandeling sneller bij te stellen als het scoreverloop daartoe aanleiding geeft. Voorspoedig lopende
behandelingen zouden eerder kunnen worden afgerond, hetgeen kostenbesparend werkt.
25
21
Hafkenscheid A.
Routine Process Monitoring (RPM) in
partnerrelatiebehandelingen.
Directieve Therapie 2009: 29; 5-25.
MGV | JAARGANG 69 | NUMMER 01 | JANUARI 2014
Ook zou voortijdige uitval door sturend monitoren kunnen worden teruggedrongen. De tussentijdse feedback heeft als beoogd effect dat de behandeling effectiever wordt, hetgeen zou blijken
uit veranderingen in scores (of scorepatronen) op het monitorinstrument.
Anders dan bij volgend monitoren is bij de sturende vorm dus sprake van een bewuste
beïnvloeding van de behandeling door het routine monitoren zelf. Het systematisch en frequent
bespreken van de monitorscores is met andere woorden niet louter een diagnostische, maar
bovenal een therapeutische interventie.23 Claiborn & Goodyear24 maken een onderscheid
tussen descriptieve en evaluatieve feedback. Descriptieve feedback beperkt zich tot het feitelijk
benoemen van waargenomen (score)gedrag, evaluatieve feedback vergelijkt dat (score)gedrag
met een norm of te behalen standaard. De auteurs scharen het sturend monitoren van Lambert
en collega’s in instemmende zin onder de evaluatieve feedback. Uit de studies van Lambert en
collega’s blijkt dat continue systematische feedback aan de therapeut over het behandelverloop,
aan de hand van het scoreverloop op de Outcome Questionnaire25, de effectiviteit en doelmatigheid van behandelingen in de ggz verhoogt.
Het enthousiasme om ROM in Nederland collectief in te voeren is mede ingegeven door
deze bevindingen. Methodologisch zijn bij het design dat in het onderzoek naar outcome
tracking wordt gebruikt echter grote vraagtekens te zetten. Lambert en collega’s gebruiken
hun OQ-45 als meetinstrument om ‘sturend’ te monitoren.7 Hetzelfde instrument dat wordt
gebruikt om de therapeut systematisch feedback te verschaffen wordt tegelijkertijd gebruikt
om vast te stellen wat de toegevoegde waarde is van die systematische feedback. De OQ-45 is
dus tegelijkertijd monitorinstrument en effectmaat. Hiermee raakt de onafhankelijke variabele
22
(feedback op basis van de OQ-45) gecontamineerd met de afhankelijke variabele (de OQ-45 als
Lambert MJ, Shimokawa K.
criterium voor de effectiviteit van feedback). Met andere woorden: door dit design wordt prin-
Collecting client feedback.
cipieel onbeslisbaar of de scores veranderen a) doordat de feedback over de scores de behandeling
In: JC Norcross (ed.), Psychotherapy
relationships that work: evi-
daadwerkelijk sneller en effectiever maken, of b) doordat de patiënt anders gaat scoren in de
dence-based responsiveness.
wetenschap dat de therapeut over de scores gaat praten nadat hij ze onder ogen heeft gehad.
New York: Oxford University Press; 2011
Opdrachtgevers, ontwerpers en gebruikers van monitorsystemen moeten zich terdege afvra-
(pp. 203-223).
gen of zij de bedoeling hebben om te monitoren voor externe verantwoording en vergelijking
23
(benchmarking), of dat zij het monitoren als therapeutische interventie willen gebruiken.
Sapyta J, Riemer M, Bickman, A.
In het eerste geval moet het systeem ‘volgend’ zijn, in het tweede ‘sturend’. Beide doelen zijn
Feedback to clinicians: theory, research
uiteraard legitiem. Het ligt voor de hand dat behandelaars meer geïnteresseerd zullen zijn in
and practice.
Journal of Clinical Psychology 2005:
het tweede doel, en beleidsmakers meer in het eerste. ‘Volgend’ en ‘sturend’ monitoren worden
61; 145-153.
in de huidige Nederlandse ROM-praktijk tot dusverre nauwelijks onderscheiden. Daardoor
dreigt verwarring en onbedoelde misleiding.
24
Claiborn CD, Goodyear RK.
Beleidsmakers, managers en sommige wetenschappers proberen behandelaars te motiveren
Feedback in psychotherapy.
voor medewerking aan ROM door hen voor te houden dat ROM een effectieve manier is geble-
Journal of Clinical Psychology 2005:
kenom behandelaars te ondersteunen in het therapeutische werk. Die pretentie kan in elk geval
61; 209-217.
niet worden waargemaakt als het ROM-systeem ‘volgend’ is opgezet ten behoeve van externe
25
verantwoording. Anderzijds kan een monitorsysteem niet worden gebruikt ten behoeve van
Lambert MJ, Burlingame GM,
externe verantwoording als het ‘sturend’ is opgezet. Een en hetzelfde ROM-systeem kan hoe
Umphress VJ, et al.
dan ook niet tegelijk ‘volgend’ en ‘sturend’ zijn. Wel kan er voor gekozen worden om het ene (of
The reliability and validity of the
meer) monitorinstrument(en) ‘sturend’ te gebruiken als therapeutische interventie, en andere
Outcome Questionnaire.
Clinical Psychology and Psychotherapy
monitorinstrumenten ‘volgend’ ten behoeve van externe verantwoording.
1996: 3; 106-116.
Zoals gezegd geloven wij zelf niet in de haalbaarheid van benchmarking op basis van monitor-
26
TER DISCUSSIE | NAAR EEN DEUGDELIJKE ROM
instrumenten. Dat laat onverlet dat het belang van externe verantwoording wat ons betreft in
beginsel gelijkwaardig is aan de mogelijke bevordering van behandeleffectiviteit en doelmatigheid
in de klinische situatie. Daarom bepleiten wij een gedifferentieerde opzet van ROM-projecten,
waarbij het monitoren voor een deel ‘volgend’ geschiedt, en voor een ander deel ‘sturend’.
MEER VOORWAARDEN DENKBAAR
Wij hebben hierboven vijf voorwaarden geformuleerd die voor ons onontbeerlijk zijn om de
deugdelijkheid van ROM-systemen vast te stellen. Wat ons betreft moeten nieuwe ROM-systemen zo veel mogelijk conform deze voorwaarden worden opgezet en moeten bestaande
ROM-systemen aan de hand van deze vijf voorwaarden tegen het licht worden gehouden
om ze op hun merites te beoordelen. De tweede (‘Monitor toetsend’) en de vijfde (‘Monitor volgend én sturend’) voorwaarde zijn minder van belang voor monitorsystemen die zich
beperken tot de ambitie om het monitorinstrument binnen de spreekkamer als therapeutisch
instrument in te zetten.
Er zijn beslist meer voorwaarden te formuleren om de deugdelijkheid van monitorsystemen
te beoordelen. Zo menen wij dat monitorsystemen moeten voorzien in een duidelijke en evenwichtige uitleg aan de deelnemers die het ‘primaire proces’ vormen (patiënten en behandelaars)
voor welk doel de beoordelingen worden gebruikt en wat de beperkingen zijn van de monitorgegevens die zij aanleveren. Om strategisch scoregedrag of beoordelingsvermoeidheid zo veel
mogelijk tegen te gaan moeten patiënten en behandelaars niet alleen ‘van buitenaf ’ overtuigd
worden van het nut van monitoren, maar dat nut o ok daadwerkelijk aan den lijve ervaren. Ook
bereidwillige patiënten en behandelaars weten tot nu toe vaak onvoldoende wat zij met de feedback van monitorinstrumenten aan moeten26 en dat is hen geenszins aan te rekenen.
Behandelaars en patiënten moeten een stem hebben in de keuze van monitorinstrumenten
die het best aansluiten bij hun ‘lokale situatie’. Training in het gebruik van de gekozen monitorinstrumenten en in de interpretatie van scores op deze instrumenten moet worden overgelaten
aan ter zake kundige professionals, die zelf met routine monitoren werken, en niet aan bijvoorbeeld kwaliteitsfunctionarissen, die buiten het ‘primaire proces’ staan. Uiteraard moet die
training aan de start van een monitorsysteem vooraf gaan en niet pas halverwege plaatsvinden,
wanneer de motivatie tot deelname door de zo juist beschreven ervaren hulpeloosheid al is
afgekalfd.
CONCLUSIE: VIA PILOTS NAAR BENCHMARKINGSYSTEEM?
Al met al menen wij dat alle behandelaars en instellingen in Nederland de plicht mag worden
opgelegd om gebruik te maken van routine monitoren. Met alle slagen om de arm is er inmiddels voldoende empirische evidentie dat systematische feedback kan bijdragen aan de effectiviteit en doelmatigheid van individuele behandelingen. Behandelaars en instellingen moeten
26
echter de ruimte en vrijheid behouden (of liever gezegd: terug krijgen) om hun monitorsysteem
Verheul W.
zo veel mogelijk te laten aansluiten bij de specifieke problematiek van de door hen behandelde
Het volgen van de voortgang van cliënten
patiëntengroepen en bij hun specifieke behandelambities. Het mag bijvoorbeeld niet langer zo
zijn dat behandelaars en patiënten een zogenaamd generiek monitorinstrument als de OQ-45
moeten gebruiken in een patiëntengroep die voornamelijk bestaat uit alleenstaande werklozen,
27
in psychotherapie: eerste ervaringen met
monitoring.
Tijdschrift Cliëntgerichte Psychotherapie
2007: 45; 51-61.
MGV | JAARGANG 69 | NUMMER 01 | JANUARI 2014
die geen opleiding volgen en geen seksuele relatie onderhouden, voor wie bijna een kwart van
de OQ-45-items niet van toepassing is.27
In het nu opgelegde ROM-systeem is ervan uitgegaan dat ROM-gegevens van elke patiënt
bij elke instellingen op in principe elk moment in diens behandelcarrière beschikbaar moeten
zijn om te kunnen benchmarken. Dat uitgangspunt is wetenschappelijk bezien onzinnig. Wij
bepleiten een beperkter dataverzameling bij representatieve steekproeven die de diepte ingaat,
in plaats van krampachtige pogingen om ‘de hele populatie’ te ‘vangen’ door middel van een
oppervlakkige en kwalitatief povere nationale dataverzameling. Naar goed wetenschappelijk
gebruik kunnen betrouwbare en nauwkeurige schattingen over de effectiviteit en doelmatigheid
van de ggz in de populatie worden afgeleid uit steekproefbevindingen.
Ons voorstel is om eerst te experimenteren in pilot-dataverzamelingen, zodat geleidelijk naar
een zo valide mogelijk benchmarksysteem kan worden toegewerkt. In deze pilot-studies moet
ook goed worden nagedacht over afstemming van de dataverzameling op het klinisch proces,
over verwachte en reële effect sizes, case-mix confounding, bias, statistische power en bovenal
inhoudelijke validiteit. Ggz-instellingen worden nu geconfronteerd met hoge kosten om de
SBG-dataverzameling mogelijk te maken, en nog veel hogere indirecte kosten die voortvloeien uit het feit dat de ‘klinische ROM’ wordt weggedrukt ten behoeve van de bureaucratische
ROM. Alleen een systeem dat optimaal geïntegreerd is in het klinische proces en dat zonder
bijkomende kosten kan worden gerealiseerd, zal de duurzaamheid hebben die nodig is voor een
stabiel proces van benchmarken in Nederland.
De ggz staat aan de vooravond van grootscheepse introductie van E-health en M (‘mobile’)health in de gezondheidszorg, waarin een actieve rol is voorzien voor patiënten, in de zin van
continue rapportage van klachten en omstandigheden. Deze manier van data verzamelen
biedt uitstekende mogelijkheden voor benchmarking. Patiënten kan steekproefsgewijs worden
27
gevraagd om E-health en M-health gegevens te delen met een centrale server ten behoeve van
Hafkenscheid A.
benchmarken. Deze manier van werken interfereert niet met het klinisch proces, kan worden
Routine Process Monitoring: ervaringen
gerealiseerd voor een fractie van de huidige kosten, is medisch-ethisch verantwoord. De werk-
uit de praktijk.
Tijdschrift Cliëntgerichte Psychotherapie
wijze past ook beter bij de realiteit: het onderliggende contract dat benchmarken rechtvaardigt
2008: 46; 327-345.
is afgesloten tussen verzekeraar en verzekerde, niet tussen hulpverlener en zorgverzekeraar.
SAMENVATTING
Het in Nederland verplicht gestelde systeem voor Routine Outcome Monitoring (ROM) is in diverse opzichten ondeugdelijk. In dit artikel werken wij vijf
voorwaarden uit die onontbeerlijk zijn om de deugdelijkheid van ROM-
Dr. A.J.P.M. Hafkenscheid is klinisch psycholoog-psychotherapeut,
systemen vast te stellen: 1) zorg voor een doordachte afstemming van de
Sinai Centrum, Joodse Geestelijke Gezondheidszorg, Amersfoort en
dataverzameling voor ROM op het klinisch proces (flow), 2) monitor toetsend
Amstelveen.
in plaats van vrijblijvend , 3) monitor vanuit verschillende perspectieven
[email protected]
(patiënt, behandelaar, familieleden), 4) gebruik niet alleen gestandaardiseer-
Prof. dr. J. van Os is hoogleraar psychiatrische epidemiologie,
de instrumenten, maar monitor ook kwalitatief, 5) onderscheid ‘volgend’
Maastricht UMC en visiting professor Psychiatric Epidemiology at
monitoren (ten behoeve van benchmarking) van ‘sturend’ monitoren (als
King’s College, London.
therapeutische interventie). Wat ons betreft moeten nieuwe ROM-systemen
[email protected]
zo veel mogelijk conform deze voorwaarden worden opgezet en moeten
Beide auteurs schrijven dit artikel op persoonlijke titel. Hun zienswijze
bestaande ROM-systemen aan de hand van deze vijf voorwaarden tegen
verwoordt niet noodzakelijk de standpunten van de instellingen waar zij
het licht worden gehouden om ze op hun merites te beoordelen.
werkzaam zijn.
28