Verantwoording methodiek (PDF)

Verantwoording methodiek
Vierkantstatistiek.nl is een webservice van Bartels Online en Hoppesteyn Online. De webservice bevat twee
methoden voor het genereren van vierkantstatistieken, genaamd Join en IDW. De werking van beide
methoden wordt in dit document toegelicht.
Inhoud
1 Join .................................................................................................................................................................. 2
1.1 Twee voorbeelden ................................................................................................................................... 2
Voorbeeld 1 ................................................................................................................................................... 2
Voorbeeld 2 ................................................................................................................................................... 2
2 IDW ................................................................................................................................................................. 3
2.1 Twee voorbeelden ................................................................................................................................... 4
Voorbeeld 1 (fictief)....................................................................................................................................... 4
Voorbeeld 2 (praktijk).................................................................................................................................... 6
2.2 TNO versus Shepard ................................................................................................................................ 9
Verantwoording methodiek
1 Join
Met de methode Join kunnen beheerders van registratiesystemen snel ruimtelijke statistieken genereren,
conform de specificaties van het CBS1. De werkwijze wordt verduidelijkt aan de hand van twee voorbeelden.
1.1 Twee voorbeelden
Voorbeeld 1
In het eerste voorbeeld wordt gebruik gemaakt van gegevens uit de Basis Administratie Gebouwen (BAG). De
zwarte stippen in onderstaande afbeelding zijn woonadressen in een willekeurig gebied. Nadat het gebied is
opgedeeld in vierkanten – in dit geval 100 bij 100 meter – kan aan elk van deze vierkanten statistische
gegevens worden toegevoegd. Er zijn drie mogelijkheden: aantal (count), sommatie (sum) en gemiddelde
(average). Het middelste vierkant bevat elf woonadressen. De optie count geeft voor dit vierkant dus de
uitkomst 11. Met de optie average zou bijvoorbeeld de gemiddelde WOZ-waarde kunnen worden berekend.
Het resultaat, een berekende waarde per vierkant, kan de gebruiker downloaden, bijvoorbeeld in shapefileformaat. Het resultaat kan ook direct getoond worden in een viewer, zie het tweede voorbeeld.
Voorbeeld 2
In het tweede voorbeeld zijn de hierboven genoemde BAG gegevens gecombineerd met geanonimiseerde
informatie uit de Basis Registratie Personen (BRP). Het combineren van deze gegevens is een bewerking, die
vooraf is uitgevoerd door de beheerder, dus buiten de webservice. Daarbij is per woonadres in de gemeente
Rotterdam bepaald, wat de ontwikkeling van het aantal bewoners is geweest (toe- of afname) in de eerste
helft van het kalenderjaar 2014.
Het resultaat van de voorbewerking is door de gebruiker geupload naar de webservice. Dit gebeurt in de
vorm van een Excelbestand met de volgende drie kolommen:
1
Zie http://cbs.nl/NR/rdonlyres/661D884F-CF5B-4192-8138-EA959D540EFE/0/Statistischegegevenspervierkantupdatejuli2013.pdf
Vierkantstatistiek.nl | Hoppesteyn Online | Bartels Online
Pagina 2 van 10
Kolom A: X-coördinaat woonadres volgens Rijksdriehoekstelsel (RdNew)
Kolom B: Y-coördinaat woonadres volgens Rijksdriehoekstelsel (RdNew)
Kolom C: de meetwaarde, in dit geval de toe- of afname van bewonertal eerste half jaar 2014
Nadat het gebied is opgedeeld in vierkanten – bijvoorbeeld 400 bij 400 meter – kan aan elk van deze
vierkanten statistische gegevens worden toegevoegd. In dit geval kiest de gebruiker voor de optie
“sommatie” zodat de webservice per vierkant de ontwikkeling van het aantal bewoners berekent.
De gebruiker kan het resultaat van de Join methode downloaden, bijvoorbeeld in shapefile-formaat.
Het resultaat kan ook getoond worden in een viewer, zoals de volgende afbeelding laat zien.
2 IDW
In het vorige hoofdstuk is duidelijk gemaakt dat de Join methode toegepast kan worden om “harde”
vierkantstatistieken te genereren, waarbij elke berekende vierkantwaarde (aantal, sommatie, gemiddelde)
betrekking heeft op de waarnemingen binnen het gebied van het vierkant.
Met de IDW-methode kan basisinformatie van “zachtere” aard tot vierkantstatististiek worden verwerkt.
Denk hierbij aan informatie over de beleving van personen ten aanzien van hun omgeving.
De basisinformatie voor IDW betreft meestal uitkomsten van een steekproef. Dat kan bijvoorbeeld een
grondboring zijn, maar ook een enquête onder de bewoners van een bepaald gebied. Waarderingen die via
social media worden gegeven kunnen ook verwerkt worden wanneer
- de geografische locaties bekend zijn, van waaruit de waarderingen worden gegeven;
Vierkantstatistiek.nl | Hoppesteyn Online | Bartels Online
Pagina 3 van 10
-
de waarderingen ordinaal (d.w.z. oplopend of juist aflopend) gerangschikt kunnen worden, zoals in
het voorbeeld in de volgende paragraaf;
de waardering betrekking heeft op (een aspect van) de nabije omgeving van de beoordelaar;
geen real-time (‘streaming’) analyse benodigd is
We richten ons op de verwerking van waarderingen uit enquêtes en social media. Met IDW kan de
“omgevingbeleving” ten aanzien van concrete voorzieningen in beeld worden gebracht, zoals bijvoorbeeld die
van het groen in de buurt of van zorgvoorzieningen, maar ook de beleving van veiligheid(saspecten) in de
openbare ruimte kan op deze manier in beeld gebracht worden.
2.1 Twee voorbeelden
Om de werking van deze methode goed uit te kunnen leggen, wordt eerst een fictief voorbeeld besproken.
Het tweede voorbeeld is afkomstig uit de praktijk van een bestaande enquête.
Voorbeeld 1 (fictief)
Onder de bewoners van een fictief voorbeeldgebied is een enquête gehouden naar de tevredenheid met
medische zorgvoorzieningen in de buurt, zoals huisarts, fysiotherapie en dergelijke. De bewoners konden
kiezen uit vijf antwoordmogelijkheden:
1.
2.
3.
4.
5.
Zeer tevreden
Tevreden
Neutraal
Ontevreden
Zeer ontevreden
De volgende afbeelding laat dit voorbeeldgebied zien in vogelvlucht-perspectief. De respondenten en hun
antwoorden worden weergegeven middels de smiley’s, de medische zorgvoorzieningen met het oud-Griekse
esculaap symbool. De respondent linksonder kan geen gebruik maken van de getoonde voorzieningen omdat
de rivier een barrière vormt (er is helaas geen brug in de buurt).
We willen graag per 200x200 meter vierkant een indicatie van de gemiddelde tevredenheid. Hieronder is het
voorbeeldgebied alvast opgedeeld in de beoogde 200x200 meter vierkanten.
Vierkantstatistiek.nl | Hoppesteyn Online | Bartels Online
Pagina 4 van 10
Als we de average-optie van de methode Join zouden gebruiken (zie hoofdstuk 1), dan zou dat alleen
resultaten opleveren voor de vierkanten waarbinnen zich een respondent bevindt. Die resultaten zouden
onbruikbaar zijn omdat ze herleidbaar zijn tot individuele respondenten (= schending privacyrecht).
Inhoudelijk speelt ook de vraag, welke waarde je zou mogen hechten aan vierkantscores die gebaseerd zijn
op (de mening van) één respondent. Nog afgezien van de juridische kant is de betrouwbaarheid van zo’n
kaartbeeld veel te laag.
De afbeelding hieronder laat voor drie vierkanten zien hoe de methode IDW tot een betekenisvolle indicatie
van de tevredenheid per vierkant kan leiden2. Rondom elk van de drie te interpoleren vierkanten wordt een
cirkel met straal van bv. 800 meter getrokken. De mening van respondenten telt zwaarder mee (meer
gewicht) naarmate hij/zij zich dichter bij het betreffende vierkant bevindt. Het afstandverval van dit gewicht
is weergegeven door de hoogte van de drie “hoedjes”. Het middelste van de drie voorbeeldvierkanten is het
donkerst rood gekleurd omdat de berekende tevredenheid hier het hoogst is.
Hoewel de respondent linksonder zich binnen het blauwe hoedje bevindt, moet zijn mening idealiter buiten
beschouwing worden gelaten. Immers, vanwege de rivier (barrière) heeft zijn mening geen relatie met de te
interpoleren waarde van het vierkant dat zich midden onder het blauwe hoedje bevindt. Momenteel houdt
de IDW methode nog geen rekening met (vooraf door de gebruiker te definieren) barrières. Het bouwen van
functionaliteit die daar wél rekening mee kan houden, staat op onze “roadmap”.
Door de hoedjes virtueel over het voorbeeldgebied te schuiven, ontstaat voor elk vierkant een optimale
indicatie van de tevredenheid met de betreffende voorziening(en) in de omgeving . In ons fictieve voorbeeld
leidt dat tot een heatmap, zoals weergegeven op de volgende pagina.
2
Het theoretisch uitgangspunt is daarbij, dat er ruimtelijke autocorrelatie bestaat tussen de respondentwaarnemingen
en het te interpoleren vierkant.
Vierkantstatistiek.nl | Hoppesteyn Online | Bartels Online
Pagina 5 van 10
Er geldt: hoe donkerder rood het vierkant, des te groter de mate van tevredenheid. Let op, de getoonde
kleuren van de vierkanten zijn niet berekend, en zijn dus indicatief.
Voorbeeld 2 (praktijk)
In dit tweede voorbeeld wordt de werkwijze toegelicht aan de hand van bestaande enquête-gegevens (niet
fictief dus). Vr12_selectie is een selectie van respondenten met hun antwoordscores op een enquêtevraag.
De scores kunnen varieren van minimaal 1 (zeer tevreden) tot maximaal 7 (zeer ontevreden). De zwarte
stippen in onderstaande afbeelding zijn de respondenten in het gebied. De getallen zijn een weergave van
hun antwoordscores.
De onderstaande grafiek toont voor de berekening van het rode vierkant (aangeduid als E0946N4414), hoe
het gewicht van de respondent-antwoorden daalt naarmate de afstand tot het vierkantmiddelpunt toeneemt.
De blauwe curve is direct afkomstig uit een empirisch onderzoek van TNO (zie paragraaf 2.2), de groene curve
is een voorbeeld van de manier waarop deze “TNO-curve” eventueel kan worden aangepast.
Vierkantstatistiek.nl | Hoppesteyn Online | Bartels Online
Pagina 6 van 10
120
g
e
w
i
c
h
t
100
gewichten van respondenten vanuit middelpunt
vierkant "E0946N4414"
80
power=1: basiscurve TNO
60
power=5: TNO curve aangepast
40
20
2750
2500
2250
2000
1750
1500
1250
1000
750
500
250
0
0
afstand tot middelpunt vierkant (meter)
Bij de IDW-methode kan een maximale zoekafstand worden opgegeven. Vanuit het middelpunt van elk
vierkant (het rode kruisje in afbeelding vorige pagina) wordt gekeken welke puntwaarnemingen zich binnen
de zoekafstand bevinden (blauwe cirkel-lijn “buf300m”). Zijn dit er even veel als, of meer dan het opgegeven
minimum, dan wordt het gewogen gemiddelde van de antwoordscores binnen de zoekafstand berekend.
Naast de zoekafstand kan ook een waarde worden opgegeven die een exponentieel afstandverval
bewerkstelligt (Power). Bij waarden groter dan nul geldt: hoe groter de afstand tot het middelpunt, des te
kleiner het gewicht in de berekening van het gemiddelde. Met Power kan de basis TNO-curve dus worden
“ingedrukt” (met waarden groter dan 1) of “uitgerekt” (met waarden kleiner dan 1 tot een minimum van 0
= gewone gemiddeldeberekening zonder afstandverval). De onderstaande afbeelding is bedoeld ter
verduidelijking van de Power-parameter.
120
100
80
g
e
w 60
i
c
40
h
t
Power=0: geen afstandverval
power=1: basiscurve TNO
Power=2,5
Power=5
Power=7,5
Power=10
Power=15
20
2750
2500
2250
2000
1750
1500
1250
1000
750
500
250
0
0
afstand tot middelpunt vierkant (meter)
Op de volgende pagina wordt het IDW-praktijkvoorbeeld getoond, na opmaak met een GIS-programma.
Vierkantstatistiek.nl | Hoppesteyn Online | Bartels Online
Pagina 7 van 10
Vierkantstatistiek.nl | Hoppesteyn Online | Bartels Online
Pagina 8 van 10
2.2 TNO versus Shepard
De waarde van een interpolatie-berekening is afhankelijk van zowel de input (het bestand met respondenten
en hun waardering) als van de interpolatie methode.
Wie via Wikipedia zoekt naar informatie over Inverse Distance Weighting, komt al snel de zogenaamde
“simpele IDW weegfunctie” van Donald Shepard tegen. Deze functie (of curve) van Shepard verloopt wat
anders dan de hier gehanteerde TNO curve (vergelijk de basiscurve hierboven met die op Wikipedia).
Shepard concludeert (in 1968) het volgende:
“The foregoing function was developed with particular consideration for variables such as population density,
housing conditions, and others from the fields of planning and geography. For such work, little is known about
the exact properties of the variables involved; thus the investigator’s intuitive judgement, in the absence of an
objective measure, may represent an acceptable evaluation of the appropriateness of any interpolation
function used.”
De webservice Vierkantstatistiek.nl is een zogenaamde spin off van beleidsondersteunend onderzoek bij
de gemeente Rotterdam. Aanvankelijk werd de klassieke curve van Shepard gehanteerd. In het voorjaar van
2014 werd echter vanuit de gemeente geopperd om gebruik te maken van een curve die TNO in 2004 heeft
afgeleid uit empirisch onderzoek in de Randstad. De wiskundige formule van wat hierboven de “basiscurve
TNO” wordt genoemd, is als volgt:
g(d) = 2,0 / (1 + 0,036 e 0.0044d)
De formule is specifiek afgeleid voor wandelende ouderen. Het beschrijft het verband tussen de afstand en de
bereidheid die afstand wandelend te overbruggen ten behoeve van een bepaald motief (boodschappen,
verzorging, contacten, ontspanning) en is afgeleid uit een zogenaamd logit model3.
Hoewel de context en de door TNO beoogde toepassingsmogelijkheden anders zijn, leent de curve zich
intuïtief voor een beschrijving van de individuele perceptie van wat behoort tot zijn/haar “beloopbare”
omgeving. Het feit dat het is gebaseerd op een redelijk recent onderzoek in de Randstad en daarna door TNO
is gebruikt voor verdere modelontwikkeling (20084 en 20095) gaf aanleiding voor analyses op de
bovengenoemde wijkprofiel-enquête.
De resultaten zijn voorgelegd aan professionals met inhoudelijke gebiedskennis, en dat leverde
bemoedigende reacties op. Bijvoorbeeld, de ruimtelijke patronen over omgevingbeleving van het groen in de
buurt werden door de betreffende beleidsafdeling herkend leidde tot de volgende conclusie:
"Belevings- en Fysieke signalen werken synergetisch en zullen voor effectievere ingrepen gaan zorgen."
3
TNO Inro rapport 2004-35, “Hoeveel en hoe wandelen ouderen in de wijk?”, H.C. Borst en H.M.E. Miedema
Journal of Environmental Psychology 28 (2008) 353-361
5
Journal of Environmental Psychology 29 (2009) 477-484
4
Vierkantstatistiek.nl | Hoppesteyn Online | Bartels Online
Pagina 9 van 10
Naast groenbeleving zijn er ook waardevolle toepassingsmogelijkheden voor de beleving ten aanzien van
bijvoorbeeld zorgvoorzieningen, veiligheid en ….
Zorgvuldigheid is geboden, zowel bij de berekeningen als bij de interpretatie en communicatie van de
uitkomsten. Onze opgedane ervaringen zetten wij graag in ten behoeve van een optimaal en transparant
resultaat.
Marco en Karlo
Team Vierkantstatistiek
Vierkantstatistiek.nl | Hoppesteyn Online | Bartels Online
Pagina 10 van 10