Sytze de Bruin - Wanneer is goed "goed genoeg"?

Wanneer is goed “goed genoeg”?
Hoe bepaal je de juiste kwaliteit voor JOUW toepassing?
26-6-2014, Sytze de Bruin
Opzet workshopsessie
 Intro
● De professionele gebruiker
● Persoonlijke ervaringen uit onderzoek & onderwijs
 Stellingen
● Discussie
 Samen werken aan uitkomsten van deze sessie:
● Opdrachten die we meekregen
Doelgroep: de professionele gebruiker
 Is de professionele gebruiker in de zaal?
 Hoe gebruikt u datasets?
● Meerdere processen
● Combineren van datasets
● Is bekend hoe fouten zich voortplanten?
 Is datakwaliteit een probleem?
Probleem: mechanische onkruidbestrijding bieten
50 cm rijafstand; rijpadenplan + stuurondersteuning
Handbesturing
RTK
Afwijking
Henk Scheele
Onzekerheden (e.g. geometrie) kun je modelleren
Computers and electronics in Ag. 2008
TGIS 2008
Reken gevolgen voor
toepassing door:
-
misgelopen inkomsten;
-
trekker in de sloot;
-
boete.
Foutenvoortplanting
Bijdragen uit verschillende bronnen
Loodinname spelende kinderen Geuldal
Loodinname = bodemverontreiniging x consumptie
Twee bronnen dragen bij aan onzekerheid omtrent loodinname:
Verontreiniging
Consumptie
2
4
6
8
Voor deze toepassing is het niet zinvol te investeren
in betere data over de loodverontreiniging in het gebied
0
density
10
12
14
Lognormale verdeling grondconsumptie
is belangrijkste bron van onzekerheid
0.0
0.2
0.4
0.6
soil consumption [g/dag]
0.8
1.0
Citizen data met lagere nauwkeurigheid
Voorbeeld
 Apparaat 1
 € 2500, σ1 = 1.0 unit
 Apparaat 2
 € 100, σ2 = 4.0 units
(1) Meetfout gemiddelde van 25 metingen;
!!! meetfouten onafhankelijk en geen bias:
σmean2 = 𝜎2
𝑛, e.g. 4
25 = 0.8
(2) Betere gebiedsdekking  kartering (geostatistiek)
(3) σ2 voldoende
voor “early warning”
“Value of information” - beslissingstheorie
 Loss functie
 Kansen op uitkomsten
 Verwachtingswaarde
verlies rationale beslissing
gebruikmakend van
verschillende datasets
 IJGIS 2000
 PE&RS 2003
Teveel blijft liggen
Ook bruikbaar voor bemonstering
Waar en tot welk punt zijn additionele gegevens informatief?
Probability presence
Computers & Geosciences 2012
Sensors 2012
Take home:
Datakwaliteit is:
 geen intrinsieke eigenschap
 afhankelijk van gebruik!
Gevolgen gebruik te bepalen m.b.v.:
 foutenmodellen
 foutenvoortplanting
 verwachtingswaarde informatie
Stellingen
Datakwaliteit
Datakwaliteit is non-issue
 Puur academisch
 Niet sexy, valt niet mee te scoren
 Datakwaliteit heeft imagoprobleem
De gebruiker kent eigen behoeften niet
 Kost te veel moeite
 Wellicht mist expertise
 Proces ligt vast
 Data zijn schaars:
● Er valt niet te kiezen (één provider)
● Roeien met de riemen die je hebt
 ...
Producent kent eisen/wensen gebruiker niet
 Volgt uit vorige slide
 Er zijn veel gebruikers met verschillende wensen
 Fitness-for-purpose kan daarom niet worden beschreven
/ geanalyseerd
Rapportage datakwaliteit is te ingewikkeld
 Voor consument
 Voor producent
 Proof by intimidation
ISO 19157
Uitkomsten workshop
Wanneer is goed
“goed genoeg”?
NO
Open einden / vragen
voor panel?
Concrete vervolgacties
ICE
Dank u