Open Data Handleiding

Open Data
Handleiding
Praktijkgerichte handleiding voor de publicatie en het beheer
van Open Data met behulp van het Vlaams Open Data Platform
Contactpersoon:
Noël Van Herreweghe
Programma-manager Open Data bij de Vlaamse overheid
http://www.vlaanderen.be/opendata
[email protected]
Skype: opendataforum_
LinkedIn: Open Data Group
1
Voorwoord
In december 2010 organiseerde Geert Bourgeois, Vlaams minister van Bestuurszaken, de ViA rondetafel i-Vlaanderen over open
overheid en ICT. Een van de belangrijkste conclusies was dat de deelnemers zeer sterk vragende partij waren om meer overheidsdata open te maken.
Open Data zijn gegevens of informatie die door de overheid verzameld wordt in het kader van haar openbare taak, waar geen
of minimale beperkingen op rusten, die elektronisch beschikbaar zijn en gebruik maken van open standaarden.
Op 13 juni 2013 werd de nieuwe richtlijn met betrekking tot hergebruik van overheidsinformatie door het Europees Parlement
goedgekeurd. De nieuwe richtlijn vergemakkelijkt het openstellen van overheidsdata en benadrukt dat overheidsinformatie
kan bijdragen aan de economische groei en het scheppen van werkgelegenheid in de lidstaten van de Europese Unie.
Ook bij de Vlaamse overheid is Open Data de norm. De Vlaamse overheid heeft inderdaad een schat aan informatie op uiteenlopende terreinen, die openbaar is, maar waarvoor hergebruik niet is toegestaan. Hergebruik houdt in dat de data voor
niet-commerciële zowel als commerciële doeleinden kunnen gebruikt worden, gratis of tegen een billijke vergoeding. Bij hergebruik moet u denken aan het gebruik van de data in toepassingen voor smartphones (Apps), websites, onderzoek, enz. Deze
vormen van hergebruik zijn er nu ook al, maar kunnen een enorme impuls krijgen wanneer overheidsinformatie vrijelijk als
Open Data ter beschikking komt.
Het ontsluiten van informatie als Open Data is echter een activiteit die allerlei vragen met zich meebrengt, bijvoorbeeld over
auteursrecht, intellectuele eigendom en aansprakelijkheid. Voorlichting, overleg en communicatie zijn daarom erg belangrijk.
Een eerste stap in de juiste richting was het opzetten van het Open Data Forum. Dit forum is enerzijds een kennisplatform en
geeft tegelijkertijd toegang tot het Open Data Portaal van de Vlaamse overheid (http://www.vlaanderen.be/opendata). Het
Kennisplatform wil het delen van kennis en best practices rond Open Data tussen partners binnen en buiten de Vlaamse overheid stimuleren.
Deze handleiding is een praktische gids waar u de belangrijkste achtergrondinformatie vindt over Open Data, samen met
enkele richtlijnen voor het effectief ter beschikking stellen van Open Data.
Noël Van Herreweghe,
programma-manager Open Data bij de Vlaamse overheid
2
Inhoudsopgave
1/ Algemeen ...................................................................................................................................................................................................................................................... 6
1.1/ Open Data .................................................................................................................................................................................................................................... 6
1.2/ Waarom een handleiding? ................................................................................................................................................................................................. 6
1.3/ Beleid en regelgeving ............................................................................................................................................................................................................ 6
1.4/ Het Vlaams Open Data Forum en het Vlaams Open Data Platform ......................................................................................................... 7
2/ Selecteer uw dataset(s) ....................................................................................................................................................................................................................... 8
2.1/ Algemene richtlijnen ............................................................................................................................................................................................................. 8
2.2/ Voorafgaande juridische toetsing ................................................................................................................................................................................ 8
2.2.1/ Intellectuele eigendomsrechten ..................................................................................................................................................................... 8
2.2.2/ Uitzonderingen op de openbaarheid van bestuur ........................................................................................................................... 9
2.2.3/ Bescherming van persoonsgegevens ......................................................................................................................................................... 10
2.3/ Criteria en prioriteiten ....................................................................................................................................................................................................... 10
2.3.1/ Wettelijke vereisten .............................................................................................................................................................................................. 11
2.3.2/ Eerder gepubliceerde gegevens ..................................................................................................................................................................... 11
2.3.3/ Waarde van de gegevens .................................................................................................................................................................................. 11
2.3.4/ Bereik van de gegevens ..................................................................................................................................................................................... 12
2.3.5/ Prioriteiten ............................................................................................................................................................................................................... 12
3/ Kies een modellicentie ......................................................................................................................................................................................................................... 14
3.1/ Voorafgaande beslissing omtrent vergoedingen .................................................................................................................................................. 14
3.2/ Voorafgaande beslissing omtrent de mogelijke categorieën van gebruik ............................................................................................ 14
3.3/ Keuze van een modellicentie ........................................................................................................................................................................................... 15
4/ Ontsluit uw brongegevens ................................................................................................................................................................................................................ 16
4.1/ Achterliggende gedachte: gebruik van ETL technieken .................................................................................................................................... 16
4.2/ Scenario’s voor het ontsluiten van brongegevens .............................................................................................................................................. 17
4.2.1/ Scenario 1: vertrekken van een bestaande publicatie ...................................................................................................................... 18
4.2.2/ Scenario 2: Vertrekken van een bestaande dataset .......................................................................................................................... 20
4.2.3/ Scenario 3: vertrekken van een database ............................................................................................................................................... 21
4.2.4/ Scenario 4: vertrekken van een bestaand bronsysteem ................................................................................................................. 23
4.2.5/ Scenario 5: Vertrekken van verschillende bronsystemen .............................................................................................................. 25
3
4.3/ Ontsluiting van geografische en locatiegebaseerde informatie in Vlaanderen ................................................................................. 26
4.3.1/ Positionering ............................................................................................................................................................................................................ 26
4.3.2/ Leidraad voor de publicatie van geografische gegevens ............................................................................................................... 27
4.3.3/ Technische impact ................................................................................................................................................................................................ 28
4.4/ Hoe begin je aan Open Data binnen je projecten? ............................................................................................................................................ 29
5/ Structureer uw dataset(s) en kies een open formaat of API ........................................................................................................................................ 31
5.1/ Minimale vereisten ................................................................................................................................................................................................................. 31
5.1.1/ Kwaliteit ....................................................................................................................................................................................................................... 31
5.1.2/ Consistentie ............................................................................................................................................................................................................... 31
5.2/ Standaarden, open formaten en API’s ....................................................................................................................................................................... 32
5.3/ Linked Open Data .................................................................................................................................................................................................................. 34
5.4/ Maturiteitsmodel voor Open Data ............................................................................................................................................................................ 34
6/ Publiceer uw dataset(s) ...................................................................................................................................................................................................................... 35
6.1/ Voorafgaande technische toetsing ............................................................................................................................................................................... 35
6.2/ Via eigen website (datadump of API) of upload naar CKAN ........................................................................................................................ 35
7/ Documenteer uw dataset(s) ............................................................................................................................................................................................................. 36
7.1/ ‘Open Data’ contactpunt .................................................................................................................................................................................................... 36
7.2/ Contactadres voor informatie en feedback ............................................................................................................................................................ 36
7.3/ Gebruiksvoorwaarden ......................................................................................................................................................................................................... 37
7.4/ Vergoedingen ............................................................................................................................................................................................................................ 37
7.5/ Garanties betreffende de beschikbaarheid ............................................................................................................................................................. 38
7.6/ Bijsluiter ...................................................................................................................................................................................................................................... 38
7.6.1/ De data zelf ............................................................................................................................................................................................................... 39
7.6.2/ Het proces ................................................................................................................................................................................................................. 39
7.7/ Taal van de website .............................................................................................................................................................................................................. 39
8/ Maak uw dataset(s) vindbaar .......................................................................................................................................................................................................... 40
8.1/ Metadata ...................................................................................................................................................................................................................................... 40
8.1.1/ Wat is metadata? ................................................................................................................................................................................................... 40
8.1.2/ Hoe metadata opmaken .................................................................................................................................................................................... 40
8.1.3/ Metadata richtlijnen ............................................................................................................................................................................................. 41
8.2/ Metadata toevoegen in CKAN ......................................................................................................................................................................................... 42
8.2.1/ Account aanmaken .............................................................................................................................................................................................. 42
8.2.2/ Dataset creëren ..................................................................................................................................................................................................... 42
4
8.2.3/ Metadata toevoegen via de CKAN API ...................................................................................................................................................... 49
9/ Evalueer uw Open Data praktijk ................................................................................................................................................................................................... 50
Bijlage 1: Master Data Management .................................................................................................................................................................................................... 51
Bijlage 2: Toevoegen van metadata via de CKAN API ............................................................................................................................................................... 55
Bijlage 3: Mapping metadata DCAT-CKAN ........................................................................................................................................................................................ 59
Bijlage 4: Overzicht aanbevelingen ..................................................................................................................................................................................................... 62
Woordenlijst ..................................................................................................................................................................................................................................................... 63
5
Open Data Handleiding
1
ALGEMEEN
1.1 OPEN DATA
Open (Government) Data zijn gegevens of informatie die door de overheid verzameld worden in het kader van haar openbare taak, waar geen
of minimale beperkingen op rusten, die elektronisch beschikbaar zijn en gebruik maken van open standaarden.
Open Data zorgt voor grotere transparantie over de werking van de overheid, zorgt voor meer efficiëntie binnen en buiten de overheid en
leidt tot innovatief hergebruik van overheidsdata door burgers, bedrijven en organisaties.
Open Data stimuleert ook ondernemerschap, geeft aanleiding tot het ontwikkelen van innovatieve producten en diensten, biedt op het vlak
van management, planning en wetenschap instrumenten voor alternatieve besluitvorming en draagt bij tot het ontwikkelen van een Vlaamse
kenniseconomie.
Open Data creëert ook meerwaarde voor de overheid zelf, zoals een betere publieke dienstverlening, administratieve lastenverlaging en een
verhoogde interactie en samenwerking met burgers, bedrijven en organisaties. Het centraal aanbieden van Open Data zal ook aanleiding
geven tot efficiëntiewinsten voor de overheidsinstanties zelf en bijdragen tot een verhoging van de datakwaliteit.
1.2 WAAROM EEN HANDLEIDING?
Inhoudelijk wil deze handleiding richtinggevend zijn voor iedereen die gegevens wil ontsluiten als Open Data, en dus behoefte heeft aan een
stappenplan dat kan dienen als leidraad voor het introduceren en vormgeven van een Open Data strategie binnen hun organisatie, vanaf het
selecteren van gegevens tot een gerealiseerde Open Data stroom, vanaf de bron tot en met de publicatie van Open Data op het Open Data
Platform.
Het document is echter niet exhaustief. Aangepaste versies zullen aangekondigd worden op het Open Data Forum (www.vlaanderen.be/opendata). Dit Kennisplatform wil het delen van kennis en “best practices” rond Open Data tussen partners binnen en buiten de Vlaamse overheid
stimuleren. Op het forum zijn onder meer blogs, nieuws, evenementen en interessante links te vinden. De menuknop “Data” op dit forum
geeft toegang tot het Vlaams Open Data Portaal. Dit portaal geeft op zijn beurt toegang tot een groot aantal datasets die als Open Data
beschikbaar zijn voor hergebruik, ook voor commerciële doeleinden, gratis of tegen een billijke vergoeding.
De inhoud van de handleiding bij de modellicenties voor Open Data (goedgekeurd door het CAG op 12 december 2013, zie http://www.bestuurszaken.be/modellicenties-bij-het-aanbieden-van-open-data) is verwerkt en waar relevant opgenomen in deze handleiding.
1.3 BELEID EN REGELGEVING
De Vlaamse Regering keurde op 23 september 2011 de conceptnota met betrekking tot Open Data goed (http://www.bestuurszaken.be/conceptnota). Deze nota schetst de beleidscontext en het regelgevend kader voor Open Data in Vlaanderen en bevat een visie en strategische
krachtlijnen om met Open Data aan de slag te gaan.
De 6 strategische krachtlijnen zoals geformuleerd door de conceptnota zijn de volgende:
1/Open Data wordt de norm binnen de Vlaamse overheid
Open Data moet de norm worden, gesloten data kan enkel mits expliciete verantwoording;
2/Hergebruik van Open Data is toegestaan
Hergebruik van Open Data is toegestaan, ook voor commerciële doeleinden, gratis of tegen een billijke vergoeding. Open Data maakt
hierbij gebruik van eenvoudige, gestandaardiseerde licentiemodellen;
3/Open Data maakt gebruik van open standaarden
Open Data is niet echt open indien geen gebruik wordt gemaakt van open standaarden. Open Data maakt gebruik van open formaten
en open interfaces;
4/Open Data uit authentieke gegevensbronnen waar het kan
De uitbouw van Vlaamse authentieke gegevensbronnen zal aanleiding geven tot betrouwbare en kwaliteitsvolle overheidsdata;
1/ Algemeen
6
Open Data Handleiding
5/Open Data volgens een integrale benadering
Ook de lokale overheden in Vlaanderen zijn belangrijke leveranciers van data. Bovendien mag de link met het federale niveau niet
vergeten worden. Samenwerking over de bestuurslagen heen biedt een sterke meerwaarde;
6/VO-bedrijfsinformatie in een centraal repertorium
Datasets uit deze gegevens over de Vlaamse overheid kunnen na een concrete beslissing van de Vlaamse Regering als Open Data ter
beschikking gesteld.
De conceptnota is de aanleiding tot een Vlaams actieplan Open Data (goedgekeurd door de Vlaamse Regering op 19 juli 2013, zie http://www.
bestuurszaken.be/vlaams-actieplan-open-data) en omvat een aantal concrete acties op basis waarvan Open Data binnen de Vlaamse overheid
wordt aangepakt. Doelstelling van het actieplan is het realiseren van het Vlaamse Open Data beleid, voortbouwend op de strategische krachtlijnen uit de conceptnota en met een aantal aandachtspunten: de meerwaarde voor de overheid zelf, de economisch-maatschappelijke meerwaarde en de interactie met andere projecten en organisaties.
Ook in het regeerakkoord 2014-20191 is volgende ambitie met betrekking tot Open Data opgenomen: “Open Data zijn de norm bij de Vlaamse
overheid en worden versneld in praktijk gebracht.”
Bij het ontsluiten van gegevens voor hergebruik door derden moeten de entiteiten bij de Vlaamse overheid rekening houden met bestaande
regelgeving zoals:
het Decreet Openbaarheid van bestuur;
Het Decreet Hergebruik van overheidsinformatie;
De Auteurswet en de Wet betreffende de rechtsbescherming van databanken;
De Wet tot bescherming van de persoonlijke levenssfeer ten opzichte van de verwerking van persoonsgegevens (privacywet).
Op 13 juni 2013 werd de nieuwe richtlijn met betrekking tot hergebruik van overheidsinformatie door het Europees Parlement goedgekeurd.
Volgens de nieuwe richtlijnen moet data waar geen of minimale beperkingen in verband met privacy, beveiliging, patenten, copyright, tijdslimieten of andere op rusten de norm worden binnen de lidstaten van de Europese Unie. Naar aanleiding van deze herziene richtlijn zal het zal
het wettelijk kader voor Open Data in de loop van 2014 worden aangepast.
1.4 HET VLAAMS OPEN DATA FORUM EN HET VLAAMS OPEN DATA PLATFORM
Het Open Data Forum (http://www.vlaanderen.be/opendata) is in eerste instantie een kennisplatform. Het is een forum om kennis en “Best
Practices” rond Open Data te delen tussen overheidsinstanties en belanghebbenden binnen en buiten de Vlaamse overheid. Op het forum zijn
onder meer het laatste nieuws, blogs, aankondiging van evenementen en interessante links met betrekking tot Open Data te vinden.
De menuknop “Data” (actief februari 2014) op dit forum geeft toegang tot het Vlaams Open Data Platform. Dit platform geeft toegang tot een
groot aantal datasets die beschikbaar zijn voor hergebruik. Op vandaag (oktober 2014) zijn er meer dan 1.200 datasets als Open Data beschikbaar. De Vlaamse overheid maakte hiervoor gebruik van de CKAN software, een open source tool die wereldwijd door verschillende overheden
gebruikt wordt. Begin 2014 wordt dit portaal geïntegreerd met de DATATANK, een Open Data beheersysteem dat de functionaliteiten van het
Vlaams Open Data Platform fors zal uitbreiden.
1 http://www.vlaanderen.be/publicaties/detail/het-regeerakkoord-van-de-vlaamse-regering-2014-2019
1/ Algemeen
7
Open Data Handleiding
2
SELECTEER UW DATASET(S)
Een van de opmerkingen is vaak dat men niet goed weet welke datasets er (eerst) moeten ontsloten worden en in welke volgorde. In dit
hoofdstuk geven we een aantal tips om deze selectie vanuit jullie standpunt te helpen maken.
2.1 ALGEMENE RICHTLIJNEN
Hoe begin je nu aan Open Data? Het Open Data Handboek van OKFN, de Open Knowledge Foundation ( http://opendatahandbook.org/
nl_BE/), kan richtinggevend zijn in dit verband.
Er zijn vier belangrijke stappen bij het openmaken van data.
1/Kies uw dataset(s). Kies de dataset(s) die u als Open Data beschikbaar wil maken;
2/Pas een open licentie toe. Bepaal welke intellectuele eigendomsrechten eventueel van toepassing zijn. Pas een geschikte ‘open’
licentie toe die de nodige rechten gunt en die de definitie van openheid ondersteunt. De Vlaamse overheid heeft generieke Open Data
licenties gedefinieerd. (http://www.bestuurszaken.be/modellicenties-bij-het-aanbieden-van-open-data);
3/Maak de gegevens beschikbaar. In bulk en in een handig formaat. U kunt ook bijkomende manieren overwegen om gegevens beschikbaar te maken, met een API bijvoorbeeld. Het gebruik van een API is aangewezen wanneer in twee richtingen en / of real-time
gecommuniceerd moet worden, de API wordt dan aangeboden op de Open Data set;
4/Maak de gegevens vindbaar. Publiceer een verwijzing naar de dataset of de dataset zelf op het Vlaams Open Data Platform.
Vanuit een beleidsmatige focus kan er gebruik gemaakt worden van het volgende stappenplan:
1/Creëer een draagvlak. Overtuig het management, leg de beleidsbeslissing vast en verwerk Open Data in het informatiebeleidsplan;
2/Analyseer. Overtuig de medewerkers en onderzoek en beschrijf de mogelijkheden. Houd rekening met de juridische implicaties;
3/Test. Zet een pilot op;
4/Borg. Communiceer uw ervaringen;
5/Evalueer het proces en pas, wanneer nodig, het proces aan.
2.2 VOORAFGAANDE JURIDISCHE TOETSING
Vooraleer de data open te stellen voor het publiek, moet de instantie nagaan of er geen juridische belemmeringen zijn voor deze openstelling.
Hierbij moet in eerste instantie gedacht worden aan drie categorieën van belemmeringen: de intellectuele eigendomsrechten, de regels betreffende de verwerking van persoonsgegevens, en de mogelijke uitzonderingen op de openbaarheid van bestuur.
2.2.1 INTELLECTUELE EIGENDOMSRECHTEN
Wanneer er intellectuele eigendomsrechten rusten op de data die een instantie wil ter beschikking stellen, moet de instantie nagaan of zij de
rechthebbende is van die data of op één of andere manier het recht heeft verworven om de data te publiceren. Indien dit niet het geval is,
moeten de nodige rechten eerst worden verkregen door middel van een overeenkomst met de rechthebbende. Voor ambtenaren of werknemers kan dit geregeld worden in het statuut of de arbeidsovereenkomst.2
Voor datasets, documenten of ander materiaal dat op bestelling wordt gecreëerd door een private partij voor de instantie, moet de overdracht van de intellectuele eigendomsrechten geregeld zijn in een overeenkomst. Het is dan ook aan te raden dat de instantie in elke overeenkomst met (of overheidsopdracht aan) een derde partij voor het maken van auteursrechtelijk beschermd materiaal een bepaling opneemt
waarin de nodige rechten worden verleend aan de instantie om het materiaal als Open Data ter beschikking te stellen. Het kan daarbij
2 Voor de ambtenaren die onder het VPS vallen, is dit al zo. Zie het Besluit van de Vlaamse Regering van 13 januari 2006 houdende vaststelling van de
rechtspositie van het personeel van de diensten van de Vlaamse overheid, B.S. 27 maart 2006.
2/ Selecteer uw dataset(s)
8
Open Data Handleiding
enerzijds gaan om een volledige overdracht van de rechten, zodat de instantie de rechthebbende wordt. Anderzijds kan er ook voor gekozen
worden (bijvoorbeeld omdat de volledige overdracht te duur zou zijn, of omdat de private aannemer het materiaal ook zelf wil gebruiken) om
een licentie op het verstrekken van de data te eisen. In het eerste geval kan men stellen dat de instantie ‘eigenaar’ wordt van het materiaal,
terwijl in het tweede geval de instantie het recht krijgt om de data te verspreiden, maar de aannemer ‘eigenaar’ blijft.
Aanbeveling 1: Verifieer welke intellectuele eigendomsrechten rusten op de data die u ter beschikking wil stellen. Indien de
instantie niet de rechthebbende is van deze intellectuele eigendomsrechten, sluit ze een overeenkomst af met de huidige
rechthebbende. Voeg in elke toekomstige overeenkomst of overheidsopdracht met derde partijen voor het creëren van
datasets of documenten een bepaling toe waarin de instantie de nodige rechten verkrijgt om de resultaten als Open Data
beschikbaar te maken.
2.2.2 UITZONDERINGEN OP DE OPENBAARHEID VAN BESTUUR
Ook al is de instantie volledig eigenaar van de data, dit houdt niet automatisch in dat zij deze ter beschikking mag stellen van het publiek.
De bescherming van andere rechtmatige belangen kan in sommige gevallen vereisen dat de data niet publiek worden gemaakt. Deze belangen
worden opgesomd in het decreet van 26 maart 2004 betreffende de openbaarheid van bestuur. Voor elke dataset waarvan beschikbaarstelling
als Open Data wordt overwogen, moet dus eerst worden nagekeken of de uitzonderingen van het openbaarheidsdecreet gelden. In de volgende gevallen mogen de data niet worden beschikbaar gemaakt:
1/Als de openbaarmaking afbreuk doet aan een geheimhoudingsverplichting van de instantie;
2/Als de openbaarmaking afbreuk doet aan de bescherming van de persoonlijke levenssfeer (tenzij de betrokken persoon met de openbaarmaking instemt);3
3/Als de openbaarmaking afbreuk doet aan het geheim van de beraadslagingen van de Vlaamse Regering en de verantwoordelijke overheden die ervan afhangen, de organen van het Vlaams Parlement of van een instantie in Vlaanderen;
4/Als het om bestuursdocumenten gaat die uitsluitend ten behoeve van de strafvordering of de vordering van een administratieve sanctie werden opgesteld;
5/Als het om bestuursdocumenten gaat die uitsluitend ten behoeve van de mogelijke toepassing van tuchtmaatregelen worden opgesteld, zolang de mogelijkheid om een tuchtmaatregel te nemen blijft bestaan;
6/Als het om bestuursdocumenten gaat die informatie bevatten die door een derde werd verstrekt zonder dat hij daartoe verplicht werd
en die hij uitdrukkelijk als vertrouwelijk heeft bestempeld (tenzij die persoon met de openbaarmaking instemt);
7/Wanneer het belang van de openbaarmaking niet opweegt tegen een economisch, financieel of commercieel belang van een instantie
in Vlaanderen;
8/Wanneer het belang van de openbaarmaking niet opweegt tegen het vertrouwelijk karakter van de internationale betrekkingen van
Vlaanderen, of de betrekkingen van Vlaanderen met de supranationale instellingen, met de federale overheid en met andere gemeenschappen en gewesten;
9/Wanneer het belang van de openbaarmaking niet opweegt tegen het vertrouwelijk karakter van commerciële en industriële informatie,
wanneer deze informatie beschermd wordt om een gelegitimeerd economisch belang te vrijwaren (tenzij degene van wie de informatie
afkomstig is met de openbaarheid instemt);
10/Wanneer het belang van de openbaarmaking niet opweegt tegen de rechtspleging in een burgerlijk of administratief rechtsgeding en
de mogelijkheid een eerlijk proces te verkrijgen;
11/Wanneer het belang van de openbaarmaking niet opweegt tegen de vertrouwelijkheid van het handelen van een instantie voor zover
die vertrouwelijkheid noodzakelijk is voor de uitoefening van de administratieve handhaving, de uitvoering van een interne audit of de
politieke besluitvorming;
12/Wanneer het belang van de openbaarmaking niet opweegt tegen de openbare orde en de veiligheid.
3 Deze uitzondering overlapt gedeeltelijk met de regeling betreffende de verwerking van persoonsgegevens (cf. infra).
2/ Selecteer uw dataset(s)
9
Open Data Handleiding
Voor milieu-informatie gelden een aparte reeks uitzonderingen, die echter vergelijkbaar zijn met de bovenstaande belangen.4
Aanbeveling 2: controleer of met de beschikbaarstelling van de data geen belangen worden geschonden die beschermd
worden in het decreet van 26 maart 2004 betreffende de openbaarheid van bestuur.
2.2.3 BESCHERMING VAN PERSOONSGEGEVENS
Volgens de conceptnota van de Vlaamse overheid gaat Open Data over het ter beschikking stellen van niet-persoonsgebonden overheidsgegevens. Voor elke beschikbaar making van bepaalde datasets moet dus worden nagegaan of deze datasets geen persoonsgegevens bevatten.
Wanneer dit het geval is, wordt de data in principe niet beschikbaar gemaakt als Open Data.5 Het begrip ‘persoonsgegevens’ wordt als volgt
gedefinieerd: “iedere informatie betreffende een geïdentificeerde of identificeerbare natuurlijke persoon”.6 Een identificeerbaar natuurlijk persoon is op zijn beurt “een persoon die direct of indirect kan worden geïdentificeerd, met name aan de hand van een identificatienummer of
van één of meer specifieke elementen die kenmerkend zijn voor zijn of haar fysieke, fysiologische, psychische, economische, culturele of sociale
identiteit”.
Aanbeveling 3: controleer voor de data worden beschikbaar gemaakt of zij geen persoonsgegevens bevatten.
2.3 CRITERIA EN PRIORITEITEN
Houd tijdens het selectieproces rekening met de volgende parameters wanneer je datasets als Open Data wil publiceren:
Wettelijke vereisten: Is er een decretale verplichting om gegevens als Open Data ter beschikking te stellen? Welke juridische belemmeringen kunnen bestaan?
Eerder gepubliceerde gegevens: Is de informatie al openlijk beschikbaar of moet deze nog worden opengesteld?
Waarde van de gegevens: Zijn de gegevens nuttig voor sociaal engagement en/of hebben ze commerciële waarde?
Bereik van de gegevens: Zijn de gegevens bedoeld voor het grote publiek of voor specifieke doelgroepen?
Elke parameter, met voorbeelden, wordt hieronder verder behandeld.
4 Zie artikel 15 van het decreet van 26 maart 2004 betreffende de openbaarheid van bestuur:
§ 1. De in artikel 4 genoemde milieu-instanties wijzen de aanvraag tot openbaarmaking af, voorzover die betrekking heeft op milieu-informatie, indien
ze van oordeel zijn dat het belang van de openbaarheid niet opweegt tegen de bescherming van één van de volgende belangen:
de bescherming van de persoonlijke levenssfeer, tenzij de betrokken persoon met de openbaarmaking instemt;
het geheim van de beraadslagingen van de Vlaamse regering en van de verantwoordelijke overheden die ervan afhangen, het geheim van de beraadslagingen van de organen van het Vlaams Parlement, evenals het bij wet of decreet bepaalde geheim van de beraadslagingen van de organen van de
instanties, genoemd in artikel 4, § 1, 3° tot 10°;
het vertrouwelijk karakter van bestuursdocumenten die uitsluitend ten behoeve van de strafvordering of de vordering van een administratieve sanctie
werden opgesteld;
het vertrouwelijk karakter van bestuursdocumenten die uitsluitend ten behoeve van de mogelijke toepassing van tuchtmaatregelen werden opgesteld,
zolang de mogelijkheid om een tuchtmaatregel te nemen blijft bestaan;
de bescherming van de informatie die door een derde werd verstrekt zonder dat hij daartoe verplicht werd en die hij uitdrukkelijk als vertrouwelijk
heeft bestempeld, tenzij die persoon met de openbaarmaking instemt;
het vertrouwelijk karakter van de internationale betrekkingen van het Vlaamse Gewest of de Vlaamse Gemeenschap en van de betrekkingen van het
Vlaamse Gewest of de Vlaamse Gemeenschap met de supranationale instellingen, met de federale overheid en met andere gemeenschappen en gewesten;
het vertrouwelijk karakter van commerciële en industriële informatie, wanneer deze informatie beschermd wordt om een gelegitimeerd economisch
belang te vrijwaren, tenzij degene van wie de informatie afkomstig is, met de openbaarheid instemt;
de rechtspleging in een burgerlijk of administratief rechtsgeding en de mogelijkheid een eerlijk proces te verkrijgen:
de vertrouwelijkheid van het handelen van een milieu-instantie, voor zover die vertrouwelijkheid noodzakelijk is voor de uitoefening van de administratieve handhaving, de uitvoering van een interne audit of de politieke besluitvorming;
de openbare orde en veiligheid;
de bescherming van het milieu waarop de informatie betrekking heeft.
§ 2. Voor zover de verzochte informatie betrekking heeft op emissies in het milieu, zijn de in § 1, 1°, 2°, 5°, 7°, 9° en 11°, genoemde uitzonderingsgronden
niet van toepassing.
Voor de in § 1, 3°, 4°, 6°, 8° en 10°, genoemde uitzonderingsgronden wordt in aanmerking genomen of de verzochte informatie betrekking heeft op
emissies in het milieu.
§ 3. Voor informatie, bedoeld in het samenwerkingsakkoord van 21 juni 1999 tussen de federale Staat, het Vlaamse Gewest, het Waalse Gewest en het
Brussels Hoofdstedelijk Gewest betreffende de beheersing van de gevaren van zware ongevallen waarbij gevaarlijke stoffen betrokken zijn, zijn de in § 1,
9° en 11°, genoemde uitzonderingen niet van toepassing.
5 De verhouding tussen Open Data en de bescherming van persoonsgegevens is zeer complex. De Vlaamse regering heeft dan ook principieel de keuze
gemaakt om persoonsgebonden gegevens buiten beschouwing te laten en deze niet als Open Data beschikbaar te stellen. Op deze manier wordt de
bescherming van persoonsgegevens maximaal gewaarborgd.
6 Artikel 1§1 Wet van 8 december 1992 tot bescherming van de persoonlijke levenssfeer ten opzichte van de verwerking van persoonsgegevens, B.S. 18
maart 1993.
2/ Selecteer uw dataset(s)
10
Open Data Handleiding
2.3.1 WETTELIJKE VEREISTEN
Zie paragraaf 2.2 met betrekking tot het wetgevend kader en de voorafgaande juridische aftoetsing.
2.3.2 EERDER GEPUBLICEERDE GEGEVENS
Sommige gegevens zijn al elektronisch beschikbaar en kunnen dus relatief snel en gemakkelijk ook als Open Data set gepubliceerd worden.
Voorbeelden hiervan zijn:
Kadastrale informatie;
Topografische kaarten;
Verkeersinformatie;
Weersvoorspelling.
2.3.3 WAARDE VAN DE GEGEVENS
Sommige gegevens hebben vooral maatschappelijke waarde. Voorbeelden hiervan zijn:
Wetten en parlementaire gegevens (bv. gegevens van stemming vertegenwoordigers);
Gegevens voorafgaand aan de verkiezingen (bv. programma’s van politieke partijen);
Gegevens van e-government en e-participation campagnes (bv. openbare raadplegingen, crowdsourcing).
Andere gegevens hebben wellicht meer commerciële waarde:
Wegenkaarten;
Real-time verkeersinformatie;
Real-time weerinformatie.
Een recente studie7 toont aan dat er vooral interesse is in de volgende gegevens:
Hieruit blijkt dat mensen vooral op zoek zijn naar gegevens die op een kaart of map kunnen weergegeven worden, geografische gegevens
dus. Alles wat kan gevisualiseerd worden op een kaart is bijzonder interessant, zeker omdat dit dan gemakkelijk in een smartphone of tablet
applicatie te verpakken valt. Het betekent ook dat een groot deel van het publiek vooral handige en toegepaste applicaties zoekt die de vele
informatiebronnen met elkaar verbinden en grafisch voorstellen.
Ook informatie over bedrijven (business/financiële data) scoort hoog. Ook hier ziet men toegevoegde waarde om informatie van een bedrijf
te kunnen vinden via Open Data, met vanzelfsprekend respect voor de privacy van dit bedrijf.
Op de derde plaats zien we de socio-demografische / statistische informatie. Omgevingsgerelateerde informatie is vanzelfsprekend interessant
voor iedereen. Gegevens met betrekking tot scholen, verkeer, vervuiling, criminaliteit, bereikbaarheid enz., kunnen belangrijk zijn bij bijvoorbeeld het zoeken naar een nieuwe woning.
Deze eerste drie samen betekenen dat men vooral op zoek is naar applicaties die toegevoegde levenswaarde creëren of naar informatie die de
7 http://datos.gob.es/datos/sites/default/files/files/Estudio_infomediario/121001%20RED%20007%20Final%20Report_2012%20Edition_vF_en.pdf
2/ Selecteer uw dataset(s)
11
Open Data Handleiding
interactie met de overheid kunnen faciliteren. Informatie uit verschillende bronnen samenbrengen en daardoor meerwaarde creëren is vooral
de opdracht van bedrijven. Vlotte en toegankelijke beschikbaarheid van deze data is daarom cruciaal.
Enigszins verassend is de statistiek met betrekking tot culturele informatie. Ofwel is informatie via andere kanalen beschikbaar, of schat het
publiek de meerwaarde hiervan niet in. Overigens zijn de steden hier het meest actief rond.
2.3.4 BEREIK VAN DE GEGEVENS
Sommige gegevens zijn specifiek gericht op het grote publiek en dus extra interessant:
Verkeersinformatie;
Openbaar vervoer;
Verkiezingsgegevens.
Andere gegevens zijn essentieel voor kleine groepen van mensen en nichemarkten:
Informatie over faciliteiten en financiële steun voor mensen met speciale behoeften;
Economische statistieken;
Rechterlijke beslissingen.
2.3.5 PRIORITEITEN
We kunnen gerust stellen dat er heel wat informatie geschikt is voor publicatie als Open Data en meestal al beschikbaar is via publicaties
of documenten. Op voorwaarde dat voldaan is aan de wettelijke vereisten, stellen we onderstaand model voor om te bepalen wat voor elke
overheidsinstantie relevant en bepalend kan zijn:
Het uitgangspunt is dat informatie en gegevens uit bestaande publicaties het makkelijkst kunnen gepubliceerd worden als Open Data. Immers,
in de meeste publicatie zijn heel wat gegevens verwerkt en worden die getoond in de vorm van een grafiek of tabel. We stellen dus voor om
in eerste instantie deze gegevens naar een Open Data set om te buigen en te publiceren. Bij iedere publicatie kan dit gepaard gaan met een
Open Data set als aanvulling of voor detail analyse.
Daarna is aan te raden om naar de bronsystemen te kijken en na te denken welke van die gegevens kunnen ontsloten worden. Dat zal dan
wel een extra inspanning vragen om hieruit een Open Data set uit te distilleren, maar veel van die informatie is allicht al ergens gepubliceerd,
dus hiermee wordt het ook op een gestructureerde manier als Open Data ter beschikking gesteld.
Voorbeelden hier zijn:
Lijst Parkings
Lijst Openbare Toiletten
Bushaltes
2/ Selecteer uw dataset(s)
12
Open Data Handleiding
Treinhaltes
Financiële gegevens (jaarcijfers bv)
Cultuur
Toerisme
Openingsuren
Adressen
…
De volgende stap is dat men bij elk nieuw project voor informatie verzameling of verwerking een extra stap voorziet die nagaat hoe die gegevens ook als Open Data set kunnen gepubliceerd worden. Het wordt dan een extra stap die standaard in elk project wordt ingebouwd en
zorgt er meteen voor dat deze gegevens ook consistent als Open Data worden aangeboden. Door gegevens gestructureerd aan te bieden als
Open Data kunnen ze ook makkelijk worden (her)gebruikt in eigen toepassingen en publicaties.
Tot nu toe zijn we vooral aanbod gedreven bezig geweest, het is telkens de overheid die het initiatief neemt en beslist welke dataset wanneer
ontsloten wordt.
Het wordt extra interessant als de overheid ook datasets kan ontsluiten op vraag van burgers of bedrijven. Zo komt men in een vraaggedreven scenario, waar de overheid flexibel kan op inspelen.
Het is immers zo dat de maatschappelijke waarde en impact van Open Data zal stijgen naarmate er meer aanbod is, maar vooral als er voldoende snel op de vraag kan ingespeeld worden. Er is immers heel wat vraag naar gegevens, voornamelijk in de volgende sectoren:
Socio-economische informatie
GEO data
Business informatie
Statistische informatie
Wettelijke gegevens
Het punt is dus dat je best op een makkelijke en eenvoudige manier kan beginnen door te focussen op bestaande publicaties, maar dat de
(maatschappelijke) meerwaarde van Open Data toeneemt voor burger en / of overheid als je dit standaard gaat aanbieden bij elke informatie
die je beschikbaar hebt en zeker als je vraaggedreven gaat werken.
Aanbeveling 4: publiceer eerst die gegevens die al beschikbaar zijn en die een meerwaarde voor burgers, bedrijven of organisaties kunnen betekenen.
2/ Selecteer uw dataset(s)
13
Open Data Handleiding
3
KIES EEN MODELLICENTIE
Om het gebruik van Open Data zo veel mogelijk te stimuleren, en tegelijk de instanties te ondersteunen bij het beschikbaar maken van hun
data, heeft de Vlaamse Regering modellicenties opgesteld die door alle instanties kunnen worden gebruikt. De combinatie van meerdere datasets wordt bemoeilijkt door de mogelijke verschillende licentievoorwaarden die erop van toepassing kunnen zijn. Het gebruik van uniforme
licentievoorwaarden zorgt er voor dat Open Data optimaal kunnen worden gebruikt en kunnen leiden tot vernieuwende en waardevolle
toepassingen. Bovendien besparen de instanties tijd en inspanningen door het gebruik van de eenvoudige licenties opgesteld door de Vlaamse
overheid. De Vlaamse overheid heeft deze modellicenties op een dergelijke wijze opgest eld dat ze door alle instanties in Vlaanderen, ook op
lokaal niveau, kunnen worden gebruikt voor het beschikbaar maken van hun data. Door het gebruiken van deze licenties bouwen de instanties mee aan een open overheid die participatie en innovatie ondersteunt.
3.1 VOORAFGAANDE BESLISSING OMTRENT VERGOEDINGEN
De Vlaamse conceptnota Open Data vertrekt van het basisprincipe dat Open Data gratis of tegen een billijke vergoeding moet kunnen worden
hergebruikt. De instantie moet dus voor elke dataset beslissen of zij deze gratis wil beschikbaar maken of een billijke vergoeding wil vragen.
Indien gekozen wordt voor een billijke vergoeding, moet de instantie bepalen aan de hand van welke criteria deze vergoeding zal worden
vastgelegd. Onder het huidige regelgevende kader is het maximum voor de totale inkomsten van deze vergoeding vastgelegd op maximaal “de
kosten van verzameling, productie, vermenigvuldiging en verspreiding, vermeerderd met een redelijk rendement op investeringen”.8 De Europese richtlijn betreffende het hergebruik van overheidsinformatie raadt momenteel echter aan om de vergoeding te beperken tot de marginale kost voor de reproductie en verspreiding van de documenten.9 De toekomstige wijziging van deze richtlijn zal naar alle waarschijnlijkheid
het principe van dergelijke marginale kost verplicht maken (met enkele uitzonderingen).
Wanneer gekozen wordt voor het vragen van een billijke vergoeding, moet de instantie ook zorgen voor een procedure voor het betalen van
die vergoeding door de gebruikers. Dit houdt onder meer in dat de betalingswijze moet worden vastgelegd, een rekeningnummer moet worden voorzien, e.d.10.
Aanbeveling 5: bepaal of voor het hergebruik van de data een vergoeding zal worden gevraagd. Leg criteria vast voor de
berekening van deze vergoeding en organiseer de procedure voor de betaling van de vergoeding.
3.2 VOORAFGAANDE BESLISSING OMTRENT DE MOGELIJKE CATEGORIEËN VAN
GEBRUIK
Volgens het decreet van 27 april 2007 betreffende het hergebruik van overheidsinformatie en de conceptnota van de Vlaamse Regering moeten Open Data kunnen worden hergebruikt zowel voor niet-commerciële als commerciële doeleinden. Het blijft echter nog mogelijk om een
onderscheid te maken tussen commercieel en niet-commercieel gebruik met betrekking tot de vergoeding. De afgrenzing van commercieel
en niet-commercieel gebruik is niet altijd even eenvoudig, en het algemene principe van Open Data gaat ervan uit dat geen verschil wordt
gemaakt tussen soorten gebruik. Daarom wordt de instanties in eerste instantie aangeraden geen onderscheid te maken tussen verschillende
soorten gebruik.
Indien de instantie toch om bepaalde redenen genoodzaakt is een onderscheid te maken tussen commercieel en niet-commercieel gebruik van
de Open Data, is het belangrijk dat een duidelijke omschrijving van het begrip commercieel wordt opgesteld en meegedeeld aan de potentiële gebruikers. Voor deze omschrijving kan worden aangeknoopt bij de concepten van het winstoogmerk en de handelaar. Elke natuurlijke
persoon of rechtspersoon die beroepshalve daden van koophandel verricht, wordt geacht de data voor commerciële doeleinden te gebruiken
(tenzij hij het tegendeel kan bewijzen).11
Aanbeveling 6: indien het onderscheid tussen de vergoeding voor commercieel en niet-commercieel hergebruik noodzakelijk is, leg een duidelijke omschrijving van het begrip ‘commercieel’ vast, waarbij het gebruik door een handelaar met
winstoogmerk als commercieel wordt beschouwd.
8 Artikel 7 Decreet van 27 april 2007 betreffende het hergebruik van overheidsinformatie, B.S. 5 november 2007.
9 Considerans 14 Richtlijn 2003/98/EC van 17 november 2003 van het Europees Parlement en de Raad betreffende het hergebruik van overheidsinformatie, PB L 345, 90.
10 Cf. infra.
11 Zie Omzendbrief VR 2012/31. Omzendbrief toegang/gebruik en hergebruik, http://vademecum.vandenbroele.be/entity.aspx?id=173.
3/ Kies een modellicentie
14
Open Data Handleiding
3.3 KEUZE VAN EEN MODELLICENTIE
Aan de hand van de beslissingen omtrent de soorten gebruik en de mogelijke vergoedingen kunnen de instanties een keuze maken uit vijf
licentiemodellen (waarbij licentie 4a en 4b altijd samen moeten worden gebruikt):
1/Een Creative Commons Zero12 verklaring, waarbij de instantie afstand doet van haar intellectuele eigendomsrechten, voor zover dit
wettelijk mogelijk is13. Hierdoor kan de gebruiker de data hergebruiken voor eender welk doeleinde, zonder een verplichting op naamsvermelding.
2/Gratis Open Data Licentie: onder deze licentie doet de instantie geen afstand van haar intellectuele rechten, maar mag de data voor
eender welk doel hergebruikt worden, gratis en onder minimale restricties.
3/Open Data Licentie tegen Billijke Vergoeding: onder deze licentie stelt de instantie nog steeds haar data ter beschikking voor eender
welk hergebruik, maar wil zij voor alle soorten hergebruik een billijke vergoeding ontvangen.
4a/Gratis Open Data Licentie voor Niet-Commercieel Hergebruik: om te voldoen aan het principe van Open Data, moet de data beschikbaar zijn onder minimale restricties voor zowel niet-commercieel als commercieel hergebruik. Eventueel kan wel een onderscheid gemaakt worden tussen de vergoedingen, wanneer de instantie dit wenst. Voor commercieel hergebruik kan dan een billijke vergoeding
worden gevraagd, terwijl niet-commercieel hergebruik gratis wordt gemaakt. Deze licentie betreft het gratis niet-commercieel hergebruik. Licentie 4b wordt dan toepasselijk voor het commercieel gebruik.
4b/Open Data Licentie tegen Billijke Vergoeding voor Commercieel Hergebruik: wanneer een onderscheid wordt gemaakt op basis van
het commercieel karakter van het hergebruik voor het vragen van een vergoeding, vormt deze licentie de tegenhanger van de Gratis
Licentie voor Niet-Commercieel Hergebruik.
Hierbij zijn dus de volgende combinaties mogelijk voor een bepaalde dataset:
CC0 voor elk mogelijk hergebruik;
Een gratis licentie voor elk mogelijk hergebruik;
Een licentie tegen billijke vergoeding voor alle soorten hergebruik;
De combinatie van een gratis licentie voor niet-commercieel hergebruik en een licentie tegen billijke vergoeding voor commercieel
hergebruik.14
Al deze licenties zijn niet-transactioneel en moeten dus niet worden ondertekend door de licentienemer. Door het gebruiken van de data
stemt hij in met de voorwaarden. Hierdoor kan de data volledig anoniem worden hergebruikt. Mogelijk wordt de identiteit van de gebruiker
wel gevraagd in het kader van de betalingsprocedure voor het gebruik van de data tegen een billijke vergoeding. In dat geval blijft echter het
verdere hergebruik van de data nog anoniem.
De keuze voor één licentie voor elk mogelijk hergebruik is de beste oplossing om het eenvoudig karakter van de licentiemodellen te bewaren.
De combinatie van twee licenties zou enkel moeten worden toegepast indien dit door de instanties echt noodzakelijk wordt geacht.
Aanbeveling 7: Gebruik voor het beschikbaar maken van de Open Data de modellicenties van de Vlaamse overheid. Kies
bij voorkeur voor één licentie voor alle soorten hergebruik, zonder onderscheid tussen commerciële en niet-commerciële
doeleinden.
12 http://creativecommons.org/about/cc0
13 Zie juridische nota punt 3.2 met betrekking tot de geldigheid van de CC0-verklaring
14 De combinatie van een gratis licentie voor commercieel gebruik en een licentie tegen een billijke vergoeding voor niet-commercieel gebruik is theoretisch mogelijk, maar zal in de praktijk hoogstwaarschijnlijk niet voorkomen.
3/ Kies een modellicentie
15
Open Data Handleiding
4
ONTSLUIT UW BRONGEGEVENS
In dit hoofdstuk wordt een aantal scenario’s beschreven op welke wijze je uit een bronsysteem data ontsluit, omvormt tot een Open Data
stroom en aanbiedt op het Open Data Platform.
Heel wat overheidsinstanties gebruiken nu al veel data om jaarverslagen, rapporten of andere documentatie te publiceren. Deze data kan ook
als Open Data gepubliceerd worden.
Het uiteindelijke doel is dus om een beperkt aantal scenario’s te definiëren die instanties kunnen gebruiken om met zo weinig mogelijk extra
stappen en/of moeite een Open Data stroom te kunnen realiseren, naast de bestaande data stroom.
Het voordeel van de scenario’s is dat die herkenbaar en breed toepasbaar zijn. Door die scenario’s uit te werken in combinatie met bestaande
standaard technologieën, onderkennen we doorgaans een groot aantal situaties en een standaard aanpak als “best practice”.
Deze scenario’s vormen een startpunt om de meest typische data stromen naar Open Data om te zetten.
In de voorlaatste paragraaf wordt verdere toelichting verschaft over het ontsluiten van geografische en locatiegebaseerde informatie in
Vlaanderen.
Tot slot worden een aantal tips meegegeven om binnen bestaande of nieuwe projecten een Open Data behoefte te onderkennen en deze gegevens meteen mee te ontsluiten binnen de scope van het project.
4.1 ACHTERLIGGENDE GEDACHTE: GEBRUIK VAN ETL TECHNIEKEN
We hebben onze inspiratie voor deze scenario’s overigens gehaald uit de Business Intelligence / Data Warehousing (BI / DWH) wereld. Daar
worden reeds vele jaren technieken toegepast om informatie uit bronsystemen of databases te halen, (gedeeltelijk) op te kuisen, consistent te
maken en te publiceren. Dit proces noemt men vaak het ETL proces:
Samengevat:
De technologie (i.e. ETL software) die gebruikt wordt voor klassiek datawarehouses kan ook gebruikt worden voor Open Data. Deze tools
bieden mogelijkheden om informatie voor te bereiden op analyse of verwerking.
4/ Ontsluit uw brongegevens
16
Open Data Handleiding
Het zijn grotendeels dezelfde stappen die nodig zijn om de data als Open Data stroom te publiceren. Enkel de laatste stap, het laden van
informatie in een data warehouse omgeving wordt vervangen door een andere stap, in het bijzonder het opladen van de gegevens (en hun
metadata) naar het Open Data platform, die we dan ook “Publish” noemen.
Samengevat in procesvorm:
Dat betekent dat we voor een Open Data stroom grotendeels dezelfde ETL technologie kunnen hergebruiken of inzetten. Of anders gezegd,
voor het opmaken van een Open Data stroom zijn geen nieuwe technieken, noch tools nodig.
Indien er al een datawarehouse bestaat, is dit vaak ook een geschikte kandidaat om verder op te bouwen om (gedeeltelijk) Open Data aan te
bieden. Hierdoor zal de consistentie van de intern gebruikte gegevens en de extern aangeboden gegevens (i.e. Open Data) makkelijker kunnen
bewaakt worden. Bovendien kan ook een rapport (via BI-tool op een DWH) een geschikte bron zijn voor Open Data publicatie.
Bouw dus zoveel mogelijk verder op bestaande technologie en voorzie telkens een stapje extra om de desbetreffende gegevens ook als Open
Data Stromen te kunnen realiseren.
4.2 SCENARIO’S VOOR HET ONTSLUITEN VAN BRONGEGEVENS
Dit alles wordt samengebracht in een aantal scenario’s die verder zullen beschreven worden en als startpunt voor een instantie kunnen dienen.
Op dit moment zien we de volgende scenario’s:
1/Vertrekken van een bestaande publicatie: de instantie verzamelt de gegevens uit een bestaande publicatie (bv. tabel, grafiek) en
publiceert die gegevens als Open Data stroom;
2/Vertrekken van een bestaande dataset: de instantie heeft bepaalde gegevens reeds opgemaakt, die nu ook als Open Data stroom
kunnen gepubliceerd worden;
3/Vertrekken van een bron database: in dit scenario halen we de gegevens rechtstreeks uit een bron database die door de instantie
4/ Ontsluit uw brongegevens
17
Open Data Handleiding
zelf is gemaakt en publiceren we bepaalde gegevens, mits de nodige omvormingen en controles, als een Open Data Stroom;
4/Vertrekken van een bestaand bronsysteem of pakket: vaak gebruiken instanties een commercieel pakket die een eigen database
heeft. Die gegevens zijn vaak niet rechtstreeks benaderbaar of zitten in een vreemde vorm opgeslagen die door de leverancier is bepaald. In dit scenario gebruiken we technieken om die gegevens uit het pakket op te halen, om te vormen en als Open Data stroom te
publiceren. Het verschil met scenario 3 is dat de pakketten vaak eisen dat je de gegevens via andere wegen ontsluit (bv. API of tools
eigen aan het pakket), maar vaak kunnen die ook met klassieke ETL tools ontsloten worden;
5/Vertrekken van verschillende bronnen en consolideren van gegevens: dit scenario ligt dicht bij een datawarehouse techniek,
waarin vaak gegevens al uit verschillende bronnen worden verzameld en in tijdelijke tabellen worden opgeladen. Van hieruit worden
dan vaak de feitelijke data warehouses opgeladen. Het opladen zelf kan dan vervangen worden door een publiceren van een Open Data
stroom;
De scenario’s staan beschreven in oplopende complexiteit. Scenario 1 lijkt ons het meest toegankelijke voor alle instanties. Voor ieder volgend
scenario neemt de complexiteit toe omdat het uitgangspunt is dat de gegevens minder eenvoudig te ontsluiten zijn en aldus er extra stappen
nog zijn. Elk scenario steunt ook op de elementen die in verder in dit document worden beschreven, namelijk wat er nodig is om de gegevens
Open Data consistent te maken en kwaliteitsvol te ontsluiten.
Elk van deze scenario’s wordt hierna uitvoerig in detail besproken. In het volgende hoofdstuk gaan we dan dieper in op de technische tools
die dit proces kunnen ondersteunen of automatiseren.
4.2.1 SCENARIO 1: VERTREKKEN VAN EEN BESTAANDE PUBLICATIE
Wat
In dit scenario vertrekken we van een bestaand proces waarin gegevens worden verzameld en bewerkt alvorens ze in een publicatie worden
opgenomen.
Denk aan al de publicaties die een overheid ter beschikking stelt (zie bijvoorbeeld http://www.vlaanderen.be/nl/publicaties) en de hoeveelheid gegevens die hiervoor verzameld zijn en uiteindelijk in de publicatie zijn opgenomen. Die gegevens zijn het resultaat van een aantal processtappen die door 1 of meerdere instanties zijn uitgevoerd vooraleer ze finaal zijn. Een voorbeeld hiervan is VRIND (http://www.vlaanderen.
be/nl/overheid/werking-vlaamse-overheid/hoe-werkt-de-vlaamse-overheid/vrind-2012-cijfergegevens-en-indicatoren-over-de-vlaamse-samenleving). In deze publicatie zijn heel wat cijfergegevens verwerkt die ook als Open Data stroom interessant zijn voor verdere analyse en / of
verwerking.
Wanneer
Omdat de overheid publicaties zal blijven uitgeven, en instanties nu eenmaal heel wat gegevens verzamelen voor publicatie, lijkt ons dit
het meest eenvoudige te zijn voor Open Data. Het zijn immers die gepubliceerde gegevens die we ook kunnen ombuigen tot een Open Data
stroom, waar relevant uiteraard.
Dit scenario kan dan ook gebruikt worden:
Voor nieuwe publicaties, waarin een extra stap zal opgenomen worden in het proces om de gegevens ook als Open Data stroom beschikbaar te maken;
Voor bestaande publicaties waarin het bestaande proces op de juiste plaats zal uitgebreid worden om de Open Data stroom mogelijk te
maken (eerste maal) of aan te passen aan de realiteit.
Eenmaal je het proces hebt opgezet om uit de publicatie een Open Data stroom op te halen en te publiceren, kan je dit herhaaldelijk toepassen. Zo wordt dan ook de Open Data stroom bijgewerkt bij een aanpassing van de publicatie.
Hoe
Essentie is dat er in het proces een extra stap wordt voorzien om de data nu ook als Open Data te ontsluiten15, zie figuur hieronder:
15
Bij een “Open by default” benadering zal de ‘Open Data exit’ deel uitmaken van het verwerkingsproces
4/ Ontsluit uw brongegevens
18
Open Data Handleiding
In het bestaande proces zal de IT afdeling een moment moeten identificeren wanneer de gegevens klaar zijn om naar de Open Data publicatie
stap te brengen. We hebben in dit geval dus enkel een aantal “Publish” activiteiten uit te voeren.
Hierbij een overzicht van uit te voeren stappen:
Extract
Niet van toepassing in dit scenario
Transform
Niet van toepassing in dit scenario
Publish
Eenmaal de gegevens zijn afgezonderd, moeten ze bewerkt worden om aan de criteria van Open Data te voldoen:
Metadata verzamelen
Data set publiceren (bij voorkeur automatisch)
Licentie model kiezen
Op het platform eventuele conversies aanbieden en eventueel ook een API.
Feedback lus opzetten, zorgen dat entiteit te bereiken is voor opmerkingen
Voor regelmatige updates zorgen
De laatste stap is dan de gegevens als Open Data stroom te publiceren op het Open Data platform, conform de richtlijnen die eerder in
dit document zijn opgesteld.
Voorbeeld
Een voorbeeld van dit scenario zijn de gegevens uit de VRIND publicatie, zie website http://www.vlaanderen.be/nl/overheid/werking-vlaamse-overheid/hoe-werkt-de-vlaamse-overheid/vrind-2012-cijfergegevens-en-indicatoren-over-de-vlaamse-samenleving en tekst:
“VRIND, de Vlaamse Regionale Indicatoren, is een jaarlijkse uitgave van de Studiedienst van de Vlaamse Regering over de resultaten van
het Vlaamse beleid en de impact hiervan op de samenleving en de omgeving.
VRIND geeft aan de hand van cijfermateriaal een beeld van wat de Vlaamse overheid doet, op welke beleidsdomeinen ze actief is en
met welke resultaten. Voor elk domein geeft VRIND ook een schets van de recente sociaal-culturele, economische, ecologische en demografische ontwikkelingen in Vlaanderen”
De gegevens worden typisch verzameld en samengesteld als onderdeel van de jaarlijkse publicatie cyclus. De gegevens die in VRIND gebundeld
zijn, worden (bijna) allemaal ook reeds ontsloten via lokale statistieken/VOBIP Cognos publiek (zie http://aps.vlaanderen.be/lokaal/lokale_statistieken.htm)
Dit was welliswaar zonder rekening te houden met de criteria van Open Data. Daarom werd een extra stap ingelast in de laatste fase van het
proces, waarbij eerst de finale datasets apart werden gezet. Daarna is een script geschreven die de metadata van elk van de datasets aanvult
en oplaadt op het CKAN platform. Het ging in totaal over meer dan 1.100 datasets.
Deze werkwijze kan herhaald worden voor iedere publicatie en de gegevens kunnen ofwel manueel (indien relatief weinig datasets) of automatisch opgeladen worden. In het laatste geval kunnen de Open Data sets herhaaldelijk opgeladen worden bij wijziging of nieuwe informatie.
4/ Ontsluit uw brongegevens
19
Open Data Handleiding
4.2.2 SCENARIO 2: VERTREKKEN VAN EEN BESTAANDE DATASET
Wat
Heel wat entiteiten publiceren momenteel al heel wat informatie op websites in een downloadbaar formaat zoals XLS (opm: indien PDF, zie
scenario 1). Ook zien we dat er al veel investeringen zijn gebeurd om “viewers” te bouwen waarmee die informatie online kan geraadpleegd of
gevisualiseerd worden (bv. BIVO, VOBIP publiek zie: http://vobippubliek.vlaanderen.be/cognos10). Dit impliceert dat de entiteit al een proces of
IT ondersteuning heeft om die informatie voor te bereiden, te publiceren en te bekijken.
Met dit scenario willen we een extra stap in dit proces toe voegen die de gegevens ook klaar maakt voor publicatie als Open Data stroom. Dat
betekent dat er een minimaal aantal extra zaken moeten gebeuren, zoals metadata voorzien en de publicatie op het Open Data Platform.
Wanneer
We veronderstellen dat de overheid blijvend informatie via downloads of “viewers” zal ter beschikking stellen en dat Open Data een extra
kanaal is voor het vrijgeven van deze informatie. Dat betekent dat het onderliggende proces zal blijven bestaan en kan uitgebreid worden met
een extra stap.
Hoe
Zoals gesteld, veronderstellen we dat er een proces bestaat waarin de gegevens nu al worden klaargemaakt. We stellen voor een extra stap in
te bouwen binnen dit proces om de data set nu extra om te bouwen tot een Open Data stroom.
In sommige gevallen zien we dat er naast de publicatie al publieke data wordt opgemaakt en met een bepaalde (web) viewer toepassing ter
beschikking gesteld. Meestal voldoet deze publieke data echter niet volledig aan de criteria van Open Data, maar met minimale moeite en
extra stappen kan dit wel een goede basis zijn om er snel een Open Data set van te maken.
Dit scenario houdt echter rekening met een aantal extra stappen omdat er in het bestaande proces totaal anders mee omgesprongen wordt.
Deze stappen zijn:
Extract
Gegevens apart isoleren en filteren uit de database in eenduidige dataset. Dit kan eventueel een extra stap vereisen om gegevens
rechtstreeks uit de database te halen. Het kan ook zijn dat we voor de Open Data set andere gegevens selecteren (bv. minder velden,
geanonimiseerd) dan in het bestaande proces. Indien de gegevens uit de publicatie al voldoen aan de criteria van Open Data, dan hoeft
deze stap uiteraard niet.
Transform
Dit omvat een gedegen kwaliteitscontrole van de gegevens, zoals in elke datawarehouse omgeving wordt gedaan. Bijvoorbeeld door
eenduidige benaming van velden en inhoud (bv. Geen cryptische afkortingen, geen 0 of 1 voor geslacht, M = Man, adressen consistent,
namen voluit en in zelfde formaat, enzovoort). We veronderstellen echter dat deze controles en acties ook al in het bestaande verwerkingsproces zitten, dus eventueel moeten die stappen daar mee afgestemd worden. Het is geenszins de bedoeling om een apart proces
naast het bestaande te creëren. Maar, ervaring leert dat er meestal specifieke gegevens gemaakt worden voor een geselecteerd publiek
(lees: met toegangsrechten, niet publiek). Voor Open Data kan dat natuurlijk niet, dus daarom zullen er extra stappen nodig zijn om de
gegevens klaar te maken. Indien de gegevens uit de publicatie al door een gelijkaardig proces zijn gegaan en voldoen aan de criteria van
Open Data, dan hoeft deze stap uiteraard niet.
Publish
4/ Ontsluit uw brongegevens
20
Open Data Handleiding
In ieder geval zijn volgende stappen altijd nodig in dit scenario, eenmaal de Open Data set is opgemaakt:
Metadata verzamelen;
Data set publiceren (bij voorkeur automatisch);
Licentie model kiezen;
Op het platform eventuele conversies aanbieden en eventueel ook een API;
Feedback lus opzetten, zorgen dat entiteit te bereiken is voor opmerkingen;
Voor regelmatige updates zorgen.
Voorbeeld
Een mooi voorbeeld zijn de werkloosheidscijfers die gepubliceerd zijn op http://www.werk.be/cijfers en daar ook als XLS kunnen gedownload
worden. Het basisidee is dan dat deze datasets ook op het Open Data platform ter beschikking komen en iedere maand automatisch bijgewerkt worden (i.e. publicatie van de nieuwste gegevens). Via de website hebben mensen toegang tot de gegevens volgens de mogelijkheden
van de “viewer” die ingebouwd is in de website en soms beperkte download opties biedt (vanuit Open Data perspectief).
Een tweede voorbeeld is (de publieke versie van) BIVO (dashboard Bedrijfsinformatie) waar al een visualisatie component is voorzien, op basis
van Cognos Viewer. Ook deze “viewer” biedt een aantal mogelijkheden, rechtstreeks van de website te gebruiken en beperkte download opties
(vanuit Open Data perspectief).
In beide voorbeelden stellen we voor om de relevante gegevens ook volledig op te zetten als Open Data stroom en aldus extra te publiceren
op het Open Data platform.
4.2.3 SCENARIO 3: VERTREKKEN VAN EEN DATABASE
Wat
In heel wat gevallen zitten de kerngegevens in een database die gemaakt is ter ondersteuning van een applicatie om een bedrijfsproces voor
de entiteit te ondersteunen. Dat is meteen het vertrekpunt van dit scenario, namelijk gegevens uit een database ophalen en deze omvormen
naar een Open Data stroom.
De meeste databases gebruiken een structuur om gegevens op te slaan die niet meteen voor Open Data geschikt zijn. Alles is immers gericht
om gegevens snel naar de applicatie te brengen in het kader van een opvraging, toevoeging of verwijderen van bestaande gegevens. Deze
structuur noemt met vaak OLTP (= on-line transaction processing) en is vaak relationeel van opzet: gegevens zijn in verschillende tabellen
gelinkt met elkaar via een relatie (key).
De basis van dit scenario is dus dat de gegevens eerst uit de database van de applicatie gehaald moeten worden, alvorens ze klaar gemaakt
worden voor publicatie als Open Data set. Er is dus een extra verwerkingsproces nodig om deze gegevens op te halen en om te vormen of
consistent te maken voor Open Data publicatie. In dit geval zijn ook de “Transformation” tools noodzakelijk.
4/ Ontsluit uw brongegevens
21
Open Data Handleiding
Wanneer
De assumptie in dit scenario is dat we een applicatie hebben die intern is ontwikkeld op één van de bestaande interne omgevingen (bv. Gebouwd in Java, .NET, APEX, etc) en de DB is één van de standaarden binnen de instantie (bv Oracle, SQLServer, PostGress voor Vlaamse overheid). Indien dit niet het geval is, dan stellen we voor om met scenario 4 verder te gaan.
We gaan er ook van uit dat de vorige scenario’s niet van toepassing zijn als vertrekpunt. MAW, er zullen dus gegevens eerst moeten onttrokken
worden uit databases alvorens te ontsluiten naar het Open Data platform.
Hoe
In dit scenario komen de technieken van “Extract” en “Transform” volop van pas, omdat er geen bestaand verwerkingsproces is om van te
vertrekken of in te haken. We vertrekken dan ook rechtstreeks van een database (via een query of tools).
Een kanttekening hierbij is dat we dit soort “technische” bewerkingen niet gelijkstellen met de “inhoudelijke” bewerkingen die meestal in de
“Transform” stap gebeuren. Denk hierbij aan complexe transformaties zoals bv. het aaneenschakelen van de opeenvolgende inschrijvingen van
een leerlingen uit verschillende systemen (lager, secundair, hoger, VDAB, ...) om de volledige studieloopbaan te construeren. Het resultaat is het
gevolg van meerdere technische bewerkingen en stappen dat een logisch of inhoudelijk geheel vormt. Er kan dus meer dan 1 technische stap
nodig zijn om de transformatie uit te voeren.
We stellen de volgende stappen voor:
Algemeen
Zorg eerst en vooral voor een logische data map waarin de fysische relaties van de DB zover mogelijk links gelaten worden. Dat heeft
tot gevolg dat het maar zeer zelden tot nooit tot een directe publicatie van een extract uit de database naar Open Data zal gebeuren,
maar het kan. In veruit de meeste gevallen zal je geen 1 op 1 kopie kunnen publiceren en zullen stappen nodig zijn om de DB kopie om
te vormen naar een formaat dat op zich staat (i.e. keys vervangen door waarden, referenties invullen, consistent maken, M = Man, etc).
Verder kunnen ook stappen nodig zijn om tabellen uit de database met elkaar te combineren tot je aan de logische data map komt.
Eventueel moet dus ook “Tranformation” technologie worden gebruikt om de gegevens consistent te maken.
Extract
De meeste database systemen hebben standaard technieken om tabellen uit te lezen en als flat file beschikbaar te maken. Bijvoorbeeld:
Oracle: via EXPORT tool;
Microsoft: SQL Server Import and Export Wizard;
MySQL: via mysqldump tool;
Postgres: SQL Dump procedure.
Wanneer gegevens frequent wijzigen kan als alternatief een programma geschreven worden die via ODBC of JDBC drivers de gegevens
uitleest uit het DBMS. ODBC (of direct SQL wat in feite hetzelfde is) zal toelaten om meer complexe extractie-logica te programmeren.
Ten slotte kan ook gebruik gemaakt worden van de mogelijkheden binnen elke ETL toolset. Praktisch gezien is het voor complexe transformaties ook vaak aangewezen om de data, al dan niet tijdelijk, op te slaan in een databank en hierop dan verder te werken om de
definitieve Open Data stroom te realiseren.
Bij dergelijke procedures spelen altijd 2 dimensies:
Ofwel altijd de volledige inhoud van de database overhalen en publiceren als Open Data stroom;
Ofwel enkel de wijzigingen / delta ten aanzien van de vorige versie downloaden en samenvoegen met de Open Data stroom.
4/ Ontsluit uw brongegevens
22
Open Data Handleiding
Transform
Dit omvat een gedegen kwaliteitscontrole van de gegevens, zoals in elke datawarehouse omgeving wordt gedaan. Bijvoorbeeld door
eenduidige benaming van velden en inhoud ( geen cryptische afkortingen gebruiken, geen 0 of 1 voor geslacht maar bijvoorbeeld M =
Man gebruiken, adressen consistent opslaan, namen voluit schrijven en in hetzelfde formaat, enzovoort). Omdat we hier niet kunnen
veronderstellen dat er al een proces is, moeten al deze transformatie stappen hier in uitgevoerd worden. In deze fase kunnen ook
inhoudelijke verwerkingen gebeuren, zoals het anonimiseren van gegevens, of het samenvoegen van datasets om tot een eenduidige
granulariteit te komen.
Het is verkiesbaar om de geëxtraheerde gegevens zo snel en frequent mogelijk naar Open Data te vertalen, zodat gebruikers en burgers maximaal over de laatste nieuwe referentiegegevens beschikken. Zeker wanneer het over snel wijzigende gegevens gaat. Dit heeft
als gevolg dat ook de transformaties die deze gegevens ondergaan in feite reproduceerbaar zijn en bij voorkeur automatisch moeten
kunnen gebeuren.
Publish
Nadat de gegevens klaar zijn voor publicatie als Open Data, rest ons nog de volgende stappen:
Metadata verzamelen
Data set publiceren (bij voorkeur automatisch)
Licentie model kiezen
Op het platform eventuele conversies aanbieden en eventueel ook een API.
Feedback lus opzetten, zorgen dat entiteit te bereiken is voor opmerkingen
Voor regelmatige updates zorgen
Voorbeeld
Op het moment van schrijven (Q4 2014) hebben we nog geen enkele Open Data set die door deze stappen is gegaan.
4.2.4 SCENARIO 4: VERTREKKEN VAN EEN BESTAAND BRONSYSTEEM
Wat
Het vertrekpunt in dit scenario is dat de entiteit een of meerder operationele systemen of pakketten heeft van waaruit Open Data gegevens
kunnen bekomen worden, mits een aantal bewerkingen, al of niet met tussenkomst van de leverancier of de dienstenleverancier die het pakket beheert voor de entiteit.
De extra complexiteit is hier dus dat men met een pakket te maken heeft, waarin het niet is toegelaten om rechtstreeks de database te benaderen.
Wanneer
Dit scenario is van toepassing wanneer de gegevens in een (commercieel) pakket zitten, waarbij soms niet rechtstreeks aan de database kan
geraakt worden.
Dit scenario is ook van toepassing als de entiteit een dienst betrekt van een derde partij (bv. Software As A Service), waarbij de dienst extern
wordt aangeboden (bv Cloud toepassing).
Hoe
Dit scenario is een uitbreiding van vorig scenario, met het verschil dat hier de database niet rechtstreeks benaderbaar is, zoals hieronder is
voorgesteld:
4/ Ontsluit uw brongegevens
23
Open Data Handleiding
Het advies bij een pakket is om gegevens nooit 1 op 1 te kopiëren en te publiceren. Vaak zijn de databases en veldnamen cryptisch omschreven
en is de structuur van de database zo ontworpen dat het enkel voor online transacties is geoptimaliseerd. Bij upgrades wijzigt de structuur
meestal en kan je dus herbeginnen.
Verder zijn de volgende stappen relevant:
Extract
We gaan er van uit dat de instantie met de leverancier van het pakket kan bespreken hoe de gegevens kunnen ontsloten worden:
Via een procedure die bij het pakket hoort. Vaak leveren pakketleveranciers een programma of script die de gegevens kan uitlezen, zelfs met bepaalde parameters. Aangezien deze procedure door de leverancier is geschreven en onderhouden (bv. bij upgrade van het pakket), heb je zekerheid dat deze procedure “forward en backward compatible is”;
Via APIs, indien het pakket dit aanbiedt. Dit betekent dat je een programma zal moeten schrijven die de APIs aanroept om de
gegevens te verkrijgen. Let op: sommige APIs kunnen ook bewerkingen uitvoeren op de gegevens vooraleer ze aan te bieden, bv
consolideren, aggregeren, enzovoort;
Via een nieuw programma of script die de gegevens rechtstreek uitleest uit de database van het pakket. Men is dan wel afhankelijk van het database design van de leverancier, dat per versie of upgrade wel eens durft te wijzigen. Dat betekent dat je het
programma dan iedere keer moet aanpassen. Deze aanpak is dan ook niet aan te bevelen.
Bij dergelijke procedures spelen altijd 2 dimensies:
Ofwel altijd de volledige inhoud van de database exporteren en publiceren als Open Data stroom;
Ofwel enkel de wijzigingen / delta ten aanzien van de vorige versie exporteren en samenvoegen met de Open Data stroom.
Transform
Dit omvat de transformatie en een gedegen kwaliteitscontrole van de gegevens, zoals in elke datawarehouse omgeving typisch wordt
gedaan. Bijvoorbeeld door eenduidige benaming van velden en inhoud (bv. geen cryptische afkortingen, geen 0 of 1 voor geslacht, M =
Man, adressen consistent, namen voluit en in zelfde formaat, enzovoort). Omdat we hier niet kunnen veronderstellen dat er al een proces is, moeten al deze transformatie stappen hier in uitgevoerd worden. In deze fase kunnen ook inhoudelijke verwerkingen gebeuren,
zoals het anonimiseren van gegevens, of het samenvoegen van datasets om tot een eenduidige granulariteit te komen.
Publish
Nadat de gegevens klaar zijn voor publicatie als Open Data, rest ons nog de volgende stappen:
Metadata verzamelen;
Data set publiceren (bij voorkeur automatisch);
Licentie model kiezen;
Op het platform eventuele conversies aanbieden en eventueel ook een API;
Feedback lus opzetten, zorgen dat entiteit te bereiken is voor opmerkingen;
Voor regelmatige updates zorgen.
Voorbeeld
Een voorbeeld zijn contactgegevens, die vaak in commerciële pakketten (bv. CRM systeem) of eigen applicaties worden bijgehouden. Het ontsluiten van deze gegevens zal moeten gebeuren door middel van een procedure binnen het pakket of door een programma te schrijven die de
API oproept en de DB uitleest. Dit is de makkelijkste stap. Het consistent maken van adresgegevens is de volgende stap en vaak ziet men nog
verschillende formaten opduiken bij publicatie. Daarom raden we aan om hiervoor een bestaande modelleringsafspraak te gebruiken. Voor
contactgegevens verwijzen we dan ook graag naar de OSLO standaarden (zie http://purl.org/oslo/)
Op het moment van schrijven (Q4 2014) hebben we nog geen enkele Open Data set die door deze stappen is gegaan.
4/ Ontsluit uw brongegevens
24
Open Data Handleiding
4.2.5 SCENARIO 5: VERTREKKEN VAN VERSCHILLENDE BRONSYSTEMEN
Dit is een scenario voor ervaren instanties met Business Intelligence en datawarehouse technieken. Het scenario gaat er van uit dat de instantie al wat datawarehouses en rapporteringsomgevingen lopende heeft en dat er heel wat ervaring is met het ontsluiten van gegevens uit
verschillende bronnen. Alle “Extract” en “Transform” technieken en tools zijn al in gebruik en hierin kunnen we deze hergebruiken.
Wat
Vaak zijn gegevens die gepubliceerd worden in een datawarehouse het resultaat van een hele reeks bewerkingen, zowel naar inhoud toe als
naar aggregatie toe. Eerst worden de relevante gegevens uit verschillende bronnen gehaald en consistent opgeslagen in een “Operational Data
Store” (ODS) omgeving. Voor Open Data heeft dit als voordeel dat deze gegevens niet meer apart uit de bronsystemen moeten gehaald worden. Een ODS is ook de laagste vorm van granulariteit van de gegevens, dus een ideale bron om alle gegevens hier te ontsluiten.
Daarna worden gegevens vaak bewerkt in fases en tussentijds opgeslagen in “staging” tabellen. Hierop lopen dan verschillende programma’s
om de gegevens verder te aggregeren en consistent te maken alvorens op te laden in een datawarehouse. Voor Open Data kunnen we ook
vertrekken van een Staging tabel en daar dan de Open Data stroom uit opmaken. Het grote voordeel is dan dat al de correcties en bewerkingen van de gegevens al gebeurd zijn.
Wanneer
We gaan er hier van uit dat het Open Data team maximaal hergebruik maakt van een aantal bestaande voorzieningen binnen de instantie.
Dit scenario is dus geldig als er al een ODS omgeving is en / of er een aantal Staging tabellen zijn als vertrekpunt. Het Open Data team kan
dan gebruik maken van de “Extract” en “Transform” programma’s om zo meteen consistente Open Data stromen te maken. Wel is het zo,
dat het Open Data team dan ook de aggregatie en granulariteit moet nakijken of aanpassen om de Open Data stromen zo fijn mogelijk te
houden. Eventueel moet dus een aparte of specifieke Staging tabel voor Open Data gemaakt worden. In dat geval moet een extra programma
binnen de technologie van de instantie voorzien worden.Wanneer er complexe transformaties uitgevoerd worden op de brongegevens, worden
er daarom Staging tabellen toegevoegd.
Voor het samenvoegen van gegevens uit verschillende entiteiten en op termijn 1 geconsolideerd bestand te publiceren (bv. 1 adressenbestand
voor alle entiteiten, met een gelijk data model).
Hoe
De volgende stappen zijn relevant:
Algemeen
Algemeen stellen we voor om zoveel mogelijk de bestaande standaard ETL omgevingen en technologieën te hergebruiken voor Open
Data. We zien geen nood om andere tools binnen te halen. Indien er geen technologie voorhanden is, verwijzen we graag naar bijlage 2
“Technische standaarden”, waar advies en tips worden aangereikt.
Extract
We gaan er hier van uit dat alle Extract functionaliteit binnen de bestaande BI of DWH voorhanden is en we deze niet specifiek moeten
opzetten voor een Open Data stroom.
4/ Ontsluit uw brongegevens
25
Open Data Handleiding
Transform
Ook hier gaan we uit van de bestaande BI of DWH omgevingen. Alle Open Datastromen kunnen dan uit de laatste Staging tabellen
gehaald worden. Eventueel moet enkel een specifieke Staging Tabel voor Open Data opgemaakt worden, dat is te bekijken in functie van
de granulariteit.
Publish
Nadat de gegevens klaar zijn voor publicatie als Open Data, resten ons nog de volgende stappen:
Metadata verzamelen. Omdat we hier van een bestaande DWH omgeving vertrekken, kan er al voldoende metadata voorhanden
zijn in deze omgeving. Toch vragen we met aandacht de set van metadata na te kijken, omdat meestal niet alle Open Data metadata velden zullen voorzien zijn;
Data set publiceren (bij voorkeur automatisch);
Licentie model kiezen;
Op het platform eventuele conversies aanbieden en eventueel ook een API;
Feedback lus opzetten, zorgen dat entiteit te bereiken is voor opmerkingen;
Voor regelmatige updates zorgen.
Voorbeeld
Een voorbeeld van een uitgebouwde BI en DWH omgeving vinden we bij Departement Onderwijs & Vorming, meer bepaald in het Kenniscentrum project. Daar zijn alle tools en technieken zoals hier beschreven voorhanden.
Er is echter op het moment van schrijven (Q4 2014) nog geen enkele informatiestroom of gegevens die als Open Data set al door deze stappen
gegaan.
Aanbeveling 8: kies een scenario voor het ontsluiten van brongegevens met het oog op de publicatie als Open Data en pas
dit toe.
4.3 ONTSLUITING VAN GEOGRAFISCHE EN LOCATIEGEBASEERDE INFORMATIE IN
VLAANDEREN
4.3.1 POSITIONERING
In dit document hebben we tot nu toe een generieke aanpak voorgesteld op basis van de ETL technieken om gegevens te ontsluiten. Voor
bepaalde datastromen zoals geografische gegevens kunnen er extra stappen of andere specifieke stappen nodig zijn om deze gegevens te ontsluiten. Daarom hebben we een extra sectie toegevoegd die inzoomt op de verwerking van geografische gegevens (GIS, GEO) naar een Open
Data stroom.
Op basis van onze algemene ETL tekening, hebben we hier dus specifiek over databanken, bestanden en datawarehouses die ruimtelijke informatie bevatten en als input bron dienen voor het ontsluiten van geo-informatie, zoals hieronder is weergegeven:
4/ Ontsluit uw brongegevens
26
Open Data Handleiding
We zien deze aanpak vooral relevant voor scenario 3, 4 en 5, waar een volledig ETL proces zal doorlopen worden voor het ontsluiten en publiceren van geo-data. De algemene ETL technieken en scenario’s die in dit document zijn beschreven, blijven geldig voor de verwerking van
geografische gegevens, alleen zal er extra aandacht zijn voor de specifieke Europese INSPIRE16 (i.e. Infrastructure for Spatial Information in the
European Community) en Vlaamse GDI17 (i.e. Geografische Data Infrastructuur) richtlijnen die hiervoor bestaan. Vanuit INSPIRE en GDI worden
immers standaarden voor data modellen, protocollen, formaten en metadata aangereikt waarmee geografische gegevens ontsloten moeten
worden.
In het kader van Open Data zullen deze richtlijnen ook geldig blijven. De tekst in dit document is afgecheckt met deze richtlijnen, maar om de
mogelijke impact van deze richtlijnen te duiden geven we een leidraad mee die de beheerders van geografische informatie kunnen hanteren
bij het publiceren van hun gegevens.
4.3.2 LEIDRAAD VOOR DE PUBLICATIE VAN GEOGRAFISCHE GEGEVENS
In 1995 werd het samenwerkingsverband voor geografische informatie in Vlaanderen opgestart, het huidige GDI-Vlaanderen. Het samenwerkingsverband heeft tot doel de aanmaak, het beheer, de uitwisseling, het gebruik en het hergebruik van geografische gegevensbronnen en
geografische diensten te optimaliseren. Alle Vlaamse instanties maken hiervan deel uit. De stuurgroep GDI-Vlaanderen is het sturende orgaan
van het samenwerkingsverband en het Agentschap voor Geografische Informatie Vlaanderen (AGIV) het uitvoerend orgaan. Het samenwerkingsverband en het agentschap voor geografische informatie zullen in de loop van 2015 structureel geïntegreerd worden in een breder samenwerkingsverband en agentschap voor informatie.
Om gegevens vlot uitwisselbaar te maken tussen overheidsinstanties enerzijds en tussen overheidsinstanties en burgers, bedrijven en organisaties anderzijds worden deze toegevoegd aan de GDI. Voor toevoeging aan de GDI dient formeel een dossier tot toevoeging te worden
ingediend bij de stuurgroep GDI-Vlaanderen. Als norm geldt dat al de milieu-gerelateerde datasets en diensten, in het beheer van deelnemers
aan GDI-Vlaanderen, moeten toegevoegd worden aan de GDI (conform artikel 12 van het GDI-decreet18). Niet-INSPIRE-datasets, beheerd door
deelnemers aan GDI-Vlaanderen, moeten niet verplicht worden toegevoegd aan de GDI, tenzij de stuurgroep GDI-Vlaanderen heeft vastgesteld
dat de onderlinge uitwisseling ervan nodig is voor het uitvoeren van taken van algemeen belang. Data die niet worden toegevoegd aan de
GDI zullen wel een hergebruiksregeling moeten krijgen. Voor geografische gegevens wordt het hergebruik vastgelegd met een procedure via de
stuurgroep GDI-Vlaanderen.
Om na te gaan of jouw data onder de bepalingen van de INSPIRE-richtlijn of het GDI-decreet vallen en wat er dan precies van jou wordt
verwacht kan je volgende leidraad hanteren.
1) Bepalen van het type geografische gegevensbron:
i) Is INSPIRE van toepassing op mijn data? Controleer of jouw data opgenomen is in de bijlagen19 van de INSPIRE richtlijn. Indien
dit het geval is, zijn de INSPIRE en GDI richtlijnen van toepassing. De data dient toegevoegd20 te worden aan het samenwerkingsverband GDI-Vlaanderen. De stuurgroep GDI-Vlaanderen legt de gebruiksvoorwaarden en de regeling voor hergebruik vast.
ii) Je data staat niet in de INSPIRE lijst, maar is wel:
1) milieu-gerelateerd;
2) een officieel erkende authentieke gegevensbron;
3) een gezaghebbende gegevensbron;
4) een door de GDI-Vlaanderen stuurgroep geïdentificeerde relevante bron.
In dit geval zijn de GDI richtlijnen van toepassing. De data dient toegevoegd te worden aan de GDI-Vlaanderen. De stuurgroep
GDI-Vlaanderen legt de gebruiksvoorwaarden en de regeling voor hergebruik vast.
iii) Andere data: De beheerder is niet verplicht om de INSPIRE of GDI richtlijnen te volgen. Indien de beheerder en/of de gebruikers van mening zijn dat de gegevens waardevol zijn voor een brede doelgroep, is het aan te bevelen om de data toe te voegen
aan de GDI-Vlaanderen.
2) Indien de gegevensbron toegevoegd wordt aan de GDI dienen minimaal volgende verdere stappen doorlopen te worden:
i) Aanmaken van metadata volgens de ”GDI-Vlaanderen Best Practices voor Metadata”21 en publicatie van deze metadata in de
Geopunt catalogus22.
16 http://inspire.ec.europa.eu/
17 http://www.geopunt.be/voor-experts
18 http://www.geopunt.be/~/media/geopunt/geowijzer/inspire/documenten/vlaams%2520gdi-decreet%2520_geconsolideerd.pdf
19 http://www.geopunt.be/voor-experts/inspire
20 http://www.geopunt.be/geowijzer/gdi-vlaanderen/hoe%2520deelnemen
21 http://www.geopunt.be/~/media/geopunt/geowijzer/metadata/documenten/gdi-vlaanderen_best_practices_voor_metadata-v1_0.pdf
22 http://www.geopunt.be/catalogus
4/ Ontsluit uw brongegevens
27
Open Data Handleiding
ii) Voor INSPIRE data en authentieke Vlaamse geografische gegevensbronnen: Aanbieden van raadpleegdiensten
iii) Voor INSPIRE data en authentieke Vlaamse geografische gegevensbronnen: Aanbieden van overdrachtsdiensten
iv) Voor INSPIRE data: Harmonisatie van het datamodel met de overeenkomstige INSPIRE dataspecificatie23.
Indien u over geografische gegevens beschikt en u hebt vragen over de te volgen procedure bij het publiceren van deze gegevens, kan u altijd
contact opnemen met het Agentschap voor Geografische Informatie (AGIV) via [email protected].
4.3.3 TECHNISCHE IMPACT
De huidige wetgeving en richtlijnen voor de publicatie van geografische informatie beogen een optimale digitale uitwisseling van deze informatie. De Europese INSPIRE richtlijn is in werking getreden in 2007. De vertaling van deze wetgeving naar een Vlaamse context, onder de
vorm van het GDI-decreet, kwam in voege in 2009. Voor geografische informatie die onder het bereik van dit afsprakenkader valt:
dient het datamodel geharmoniseerd te worden met de INSPIRE data specificaties;
dient de metadata gedocumenteerd te worden volgens de GDI-Vlaanderen Best Practices voor Metadata;
en dient gebruik gemaakt te worden van gestandaardiseerde web service interfaces voor de publicatie.
De onderstaande figuur geeft een overzicht van de componenten die deel uitmaken van de GDI architectuur:
Impact op het ETL proces
Tot 2005 was ETL voor geografische informatie (Spatial ETL) in hoofdzaak het speelveld van de grote GIS ( Geografisch Informatiesysteem )
software leveranciers. Door de toename van het belang van locatie gebonden informatie de laatste jaren heeft de ondersteuning voor geografische informatie inmiddels ook zijn weg gevonden naar de meeste toonaangevende commerciële en open source DBMS (MS SQL Server, Oracle,
IBM DB2, PostgreSQL, MySQL, …). Deze DBMS bieden ondersteuning voor het opslaan en beheren van geografische gegevens en beschikken over
een basis set aan ruimtelijke functies om deze gegevens in te laden en verwerken. Aangezien deze functionaliteit in het DBMS geïntegreerd is,
is het een uitbreiding van de bestaande ETL functies en kan u de geografische gegevens op eenzelfde manier benaderen en verwerken als uw
andere gegevens. Voor data beheerders die enkel puntenlocaties (x,y) opslaan als attribuut van een object, zal deze basisondersteuning in de
meeste gevallen volstaan.
Indien u nood hebt aan meer geavanceerde Spatial ETL ( model transformatie, geocoderen, projecteren, generalisatie, etc. ) of complexere data
types (3D, raster, … ) wenst te ondersteunen is de kans groot dat de beschikbare set aan ETL functionaliteit ontoereikend is. In dit geval kan
23 http://inspire.ec.europa.eu/index.cfm/pageid/2
4/ Ontsluit uw brongegevens
28
Open Data Handleiding
u terugvallen op gespecialiseerde commerciële en open source software voor GIS (Quantum GIS, Gaia, ArcGIS, MapInfo, … ) en Spatial ETL (FME,
GDAL/OGR, GeoKettle, … ).
Impact op metadata
Om uw data en elektronische diensten binnen het samenwerkingsverband GDI-Vlaanderen te kunnen delen, dient u deze te beschrijven aan
de hand van metadata. De INSPIRE richtlijn legt een minimaal aantal velden vast die moeten beschreven worden volgende de ISO standaard
voor metadata ( ISO19115 voor data, ISO 19119 voor webservices ). Deze Europese reglementering werd voor Vlaanderen vertaald naar Best Practices voor het documenteren van metadata voor geografische informatie. Indien u deze Best Practices volgt, voldoet u ook meteen aan de ISO
en INSPIRE vereisten.
Om de aanmaak en het beheer van metadata voor geografische informatie te faciliteren wordt binnen Geopunt, het portaal voor geografische
informatie van de Vlaamse overheid, een web toepassing aangeboden om uw metadata te documenteren (het Geopunt-metadatacenter24).
De metadata omgeving beschikt naast een grafische web interface ook over een metadata service API. Deze API volgt de door INSPIRE aanbevolen Open Geospatial Consortium (OGC) standaard voor de publicatie van metadata ( “Catalog Service for the Web” of CSW standaard).
Elke dag worden de metadata van alle metadata leveranciers binnen GDI-Vlaanderen gesynchroniseerd met de Geopunt catalogus. Op deze
manier wordt een globaal overzicht verkregen van het aanbod aan geografische informatie binnen het GDI-Vlaanderen netwerk.
De Open Data catalogus gaat op regelmatige tijdstippen de Geopunt catalogus gaan oogsten. Op deze manier stroomt de metadata van het
aanbod aan geografische open data naadloos door naar de Open Data catalogus.
Impact op het publiceren van data
INSPIRE en GDI-Vlaanderen voorzien verschillende manieren om data elektronisch te publiceren. Er wordt onderscheid gemaakt tussen raadpleeg- en overdrachtsdiensten (INSPIRE View Services en Download Services).
Raadpleegdiensten richten zich in hoofdzaak op een laagdrempelige integratie van de geografische informatie in een cartografische (web)
toepassing. Op basis van een locatie kan de gebruiker een kaartuitsnede onder de vorm van een beeld (jpg, png, gif) opvragen. Om INSPIRE en
GDI-Vlaanderen conforme raadpleegdiensten te kunnen aanbieden, dient de technische richtlijn25 voor raadpleegdiensten (Technical Guidance
for the implementation of INSPIRE View Services ) gevolgd te worden. Deze richtlijn is gebaseerd op de OGC Web Map Service ( WMS ) en Web
Map Tile Service ( WMTS ) implementatiestandaarden.
De overdrachtsdiensten zijn voorzien voor het opvragen van de geografische data zelf. De mogelijkheid bestaat om data aan te bieden als een
aflaadbaar bestand of via een directe toegang tot de databank. Om INSPIRE en GDI-Vlaanderen conforme overdrachtsdiensten te kunnen aanbieden, dient de technische richtlijn25 voor overdrachtsdiensten ( Technical Guidance for the implementation of INSPIRE Download Services )
gevolgd te worden. Deze richtlijn is gebaseerd op de OGC Web Feature Service ( WFS ) voor directe toegang tot de databank, en op de IETF
ATOM standaard voor de publicatie van aflaadbare bestanden. Een WFS is een interface voor het opvragen en aanleveren van geografische
vectoriële data. De gegevens worden aangeleverd onder de vorm van een voor geografische gegevens specifiek XML schema, beter bekend als
GML (Geography Markup Language ). Indien er geopteerd wordt om de data als aflaadbaar bestand te delen, dient een ATOM feed opgezet te
worden die een overzicht biedt van de beschikbare bestanden. INSPIRE beveelt het gebruik van GML aan als bestandsformaat voor de uitwisseling van gegevens, daarnaast kan ook gebruik gemaakt worden van shapefile, DXF en KML ( Keyhole Markup Language ) als formaat om data
uit te wisselen.
Voor meer informatie of ondersteuning kan u altijd terecht bij het Agentschap voor Geografische Informatie (AGIV) via [email protected].
4.4 HOE BEGIN JE AAN OPEN DATA BINNEN JE PROJECTEN?
In deze sectie geven we wat extra tips hoe je binnen bestaande en / of nieuwe projecten een Open Data behoefte kan onderkennen en deze
meteen mee kan ontsluiten binnen de scope van het project. Hiermee willen we aantonen dat je niet altijd nieuwe projecten moet opstarten
om Open Data te ontsluiten.
24 https://metadata.geopunt.be/zoekdienst/apps/tabsearch/index.html?hl=dut
25 http://inspire.ec.europa.eu/index.cfm/pageid/5
4/ Ontsluit uw brongegevens
29
Open Data Handleiding
We onderscheiden hiervoor volgende opties:
Wijziging en / of uitbreiding functionaliteit bestaande applicatie / databases
Wat: Het toevoegen van een nieuwe/extra vereiste om een informatie stroom naar het Open Platform te ontsluiten en te publiceren.
Hoe: Door middel van een snelle beoordeling bepalen of de informatie stroom kan voldoen als Open Data stroom en dit als
scope uitbreiding voor te stellen binnen het nieuwe project. Het Open Data handboek bevat voldoende indicaties om deze beoordeling te maken.
Waarom: dit opnemen als vereiste binnen een bestaand project uitbreiding, zal minder kostbaar zijn dan dit daarna of afzonderlijk doen.
Bij het opstarten van een nieuw project om functionaliteit te informatiseren
Wat: standaard de behoefte opnemen om te bepalen welke informatie stromen er van de scope kunnen ontsloten worden als
open data
Hoe: voor elke informatie stroom die geïdentificeerd wordt binnen de scope van dit nieuwe project, kan bepaald worden of het
extern ontsloten kan worden als Open Data stroom. De verzameling van informatiestromen kunnen dan samen het Open Data
ontsluiting plan vormen en extra behoeftes formuleren naar de ETL technologie en aantal stromen.
Waarom: Een nieuw project biedt een ideaal moment om van in het begin al met Open Data rekening te houden dan achteraf
extra erbij te voorzien. Dit zal de totale kosten drukken en van in het begin een antwoord geven welke stromen en wanneer.
Bovendien zal de vraag toch komen, dus een niet te missen kans.
Voor uitbreidingen van informatie stromen op een bestaande Data warehouse omgeving:
Wat: Informatie stromen die nu naar een DWH omgeving leiden, extra omleiden naar het Open Data platform
Hoe: heel wat informatie stromen die nu naar een DWH lopen, kunnen ontsloten worden naar het Open Data platform. De technische scenario’s beschrijven de extra stappen en conformiteitsvoorwaarden die hiervoor nodig zijn
Waarom: Het inbouwen van een extra stap in een bestaand proces zal minder impact en geld kosten dan een compleet nieuwe
stroom opbouwen. Vaak kan de bestaand ETL scripts en technologie hiervoor gebruikt worden en de bestaande scheduling voor
ontsluiting gebruikt worden. Een kleine extra stap die zorgt voor veel toegevoegde waarde dus.
Vervangen van Public Reporting / Viewers door Open Data
Wat: heel wat entiteiten hebben zelf een publieke component voorzien om mensen toegang te bieden tot Open Data gegevens
(zelf al bestond de term toen nog niet). Heel wat van de functionaliteit van die platformen (bv. basis rapportering) kan opgevangen worden de mogelijkheden van CKAN of door aan de gebruiker de kans te geven het bestand in te lezen in hun eigen rapporteringstool of technologie.
Hoe: door het aanbieden van dezelfde informatie als Open Data en de publieke component eventueel af te schaffen.
Waarom: Hiermee kan de gebruiker zelf inspelen hoe hij de rapporten wil opmaken en bewaren, de overheid zal dan minder
tijd en moeite in componenten moeten steken voor basis rapportering. Dit promoot het gebruik van Open Data tegen een lagere
kost.
4/ Ontsluit uw brongegevens
30
Open Data Handleiding
STRUCTUREER UW DATASET(S) EN KIES
EEN OPEN FORMAAT OF API
5
Vooraleer we datasets publiceren op het Open Data platform dienen deze datasets of Open Data stromen te voldoen aan een aantal minimale
vereisten met betrekking tot kwaliteit en consistentie. In wat volgt worden aanbevelingen geformuleerd welke bestandsformaten of API’s te
gebruiken om uw data te publiceren. Tot slot wordt een maturiteitsmodel voor Open Data toegelicht.
5.1 MINIMALE VEREISTEN
In deze paragraaf worden er een aantal minimale vereisten bij het ontsluiten van brongegevens als Open Data vooropgezet. Deze vereisen zijn
opgemaakt vanuit de volgende dimensies:
Bewaken van de kwaliteit van een Open Data: het geheel van technische eigenschappen waaraan een Open Data stroom moet voldoen;
Bewaken van de consistentie van een Open Data: bewaken van de innerlijke technische samenhang van de gepubliceerde gegevens.
In de volgende paragrafen worden er per dimensie enkele praktische tips gegeven hoe men deze kan realiseren. Deze tips zijn niet exhaustief
noch in een bepaalde volgorde te lezen:
5.1.1 KWALITEIT
Om de technische kwaliteit van de gegevens in een Open Data stroom te bewaken, wordt er voorgesteld dat iedere dataset moet voldoen aan
de volgende criteria:
Iedere Open Data stroom moet een enige en unieke “Header row” hebben met een eenduidige beschrijving van de kolommen, in het
Nederlands of Engels. De “header row” moet de eerste lijn van de dataset vormen en ook niet meer dan 1 lijn beslaan. De titel is eenduidig, kort en mag geen spaties bevatten. Er moet zoveel mogelijk beroep gedaan worden op de standaard vocabularia om de titel te
nomineren, zie hiervoor de sectie “standaarden” verder in dit document. Voor CSV bestanden leggen we de nadruk om een internationaal aanvaard scheidingsteken tussen de velden (“delimiter”) te gebruiken. Een puntkomma symbool (“;”) is het meest aanvaard. Als de
instellingen op Belgische normen staan, is dit vaak een komma (“,”) en dat kan verwarring geven met numerieke waarden waar een “,”
vaak als decimaal teken wordt gebruikt. Daarom wordt ook aangeraden voor numerieke velden geen komma (“,”) maar een punt (“.”) te
gebruiken als decimaal teken.
Iedere Open Data stroom moet voldoende metadata beschrijving hebben en minimaal voldoen aan de velden die in dit document zijn
opgenoemd;
Iedere Open Data stroom moet voorzien in een proces om op regelmatige tijdstippen nieuwe of aangepaste gegevens te publiceren (een
update proces). Historische gegevens zullen uiteraard stabiel blijven, maar kunnen ook ieder maand, jaar of andere periode aangevuld
worden;
Iedere Open Data stroom moet een versie nummer krijgen zodat deze eenduidig kan geïdentificeerd worden en mogelijke aanpassingen
kunnen getraceerd worden (i.e. versiebeheer).
5.1.2 CONSISTENTIE
Alle Open Data die gepubliceerd wordt, moet zoveel mogelijk consistent zijn over alle data stromen en instanties heen. Als het niet kan over
de instanties heen, dan minstens op niveau van de instantie zelf. Alle adressen moeten bijvoorbeeld altijd en voor iedereen op dezelfde manier ontsloten worden, anders zal een gebruiker of firma hier moeilijk een geconsolideerd beeld van kunnen vormen.
Via de volgende parameters proberen we dit concreet te maken:
1/Open Datastromen moeten inzichtelijk zijn:
Elke gebruiker van de Open Data Stroom moet de unieke oorsprong van de gegevens begrijpen;
Bepaal de status van de gegevens (draft, gevalideerd);
Hergebruik wat al bestaat binnen de instantie aan (meta)beschrijvingen van gegevens;
5/ Structureer uw dataset(s) en kies een open formaat of API
31
Open Data Handleiding
Beschrijf het data model en metadata van in het begin.
2/Open Data Informatie moet juist en volledig (binnen de context) zijn:
Bepaal (of bouw) validatie regels op basis van de data zelf;
Check dummy & default waarden (bv M / V);
Doe een aantal basiscontroles en verbeter eventuele fouten aan de bron (vb. adres);
Identificeer verkeerde of ontbrekende velden;
Kijk naar optimalisatie en vermijd dubbele gegevens op te nemen.
3/Open Data Informatie moet controleerbaar zijn:
Monitor het verloop van bronsysteem naar Open Data stroom;
Zet kwaliteitstesten op voor iedere stap in het proces;
Zet volume testen op om te vermijden dat Open Data stromen te groot worden. Open Data wordt typisch klein gehouden
met het oog op hergebruik in mobiele applicaties. Indien de stroom groter wordt (bv. voor GIS gegevens), vermeld dit
duidelijk op het Open Data platform of in de metadata;
Scheid online en batch verwerking, zodat de ontsluiting van Open Data stromen niet te belastend is voor de infrastructuur
binnen de entiteit..
4/Open Data Informatie moet veilig zijn:
Vertrouwelijke gegevens uitfilteren;
Privacy wetgeving respecteren;
Anonimiseren van gegevens;
Aggregeren indien nodig (granulariteit).
Aanbeveling 9: Controleer minimale criteria inzake kwaliteit en consistentie alvorens een dataset wordt gepubliceerd op
het Open Data platform.
5.2 STANDAARDEN, OPEN FORMATEN EN API’S
Er bestaan heel wat standaarden voor het modelleren van gegevens en velden. Ook binnen de Vlaamse overheid zijn er al wat afspraken
gemaakt. Hieronder is een lijst van Europese of internationale afspraken die kunnen toegepast worden op Open Data stromen:
Algemene vocabularia:
DCMI, zie http://dublincore.org;
OSLO, zie http://www.v-ict-or.be/kenniscentrum/OSLO.
Om mensen te beschrijven:
vCard, zie http://en.wikipedia.org/wiki/VCard;
Core Person Vocabulary zie https://joinup.ec.europa.eu/asset/core_person/description;
Om organisaties te beschrijven:
Registered Organisation Vocabulary, zie http://www.w3.org/TR/vocab-regorg/ of https://joinup.ec.europa.eu/asset/core_business/news/publication-core-business-vocabulary-regorg-w3c-standards-track
Om adressen te beschrijven:
vCard;
Core Location Vocabulary , zie https://joinup.ec.europa.eu/asset/core_location/release/100
Voor het beschrijven van overheidsdiensten:
Core Public Service Vocabulary van EU, zie https://joinup.ec.europa.eu/asset/core_public_service/description
Voor het melden van niet-dringende problemen of suggesties
5/ Structureer uw dataset(s) en kies een open formaat of API
32
Open Data Handleiding
Open311.org, zie http://open311.org/
Verder kunnen we ook verwijzen naar het initiatief van W3C organisatie dat hierin nog een stap verder gaat om zelfs afspraken te maken
tussen overheden heen, zie http://www.w3.org/blog/2012/03/interoperable-governments/
Bij de Vlaamse Overheid willen we minimaal datasets publiceren die voldoen aan de 3 sterren beschrijving volgens het maturiteitsmodel voor
Open Data (zie 5.6). Dit betekent dat we gestructureerde data willen aanbieden in een bestandsformaat dat open (non-proprietary) is.
Open formaten voor gestructureerde data zijn onder andere:
CSV (http://en.wikipedia.org/wiki/Comma-separated_values) liefst in UTF–8 encoding);
TSV (http://en.wikipedia.org/wiki/Tab-separated_values) liefst in UTF-8 encoding);
XML (http://www.w3.org/XML);
JSON (http://www.json.org/);
ODF (http://en.wikipedia.org/wiki/OpenDocument);
RDF/XML, turtle, N-triple, JSON-LD (http://en.wikipedia.org/wiki/Resource_Description_Framework).
Open formaten voor geodata zijn onder andere:
Shapefile (http://en.wikipedia.org/wiki/Shapefile);
GeoJSON (http://geojson.org/);
GML (http://www.opengeospatial.org/standards/gml);
KML (https://developers.google.com/kml/);
WKT (http://en.wikipedia.org/wiki/Well-known_text).
Aanbeveling 10: gebruik zoveel mogelijk open formaat zoals CSV.
Gestructureerde data die niet in een open formaat (b.v. MS-Excel) beschikbaar zijn, kunnen toch gepubliceerd worden door gebruik te maken van de Datatank (software). Het Open Data platform is geïntegreerd met de Datatank voor conversie diensten van MS-Excel naar open
formaten.
Voor meer informatie over het gebruik van Databank voor conversie naar open formaten zie 6.2.2. Voor meer algemene informatie over de
Datatank software zie bijlage 2.
U kan ook overwegen om uw datasets niet (of niet uitsluitend) aan te bieden via datadumps maar ook via een API. Een API heeft immers het
voordeel dat:
alleen die data worden teruggegeven die van belang zijn voor de afnemer op basis van een query, door het gebruik maken van een
filter, voorgesorteerd volgens behoefte, … ;
de meest actuele data kunnen worden teruggegeven.
Een mogelijk nadeel is natuurlijk dat als de API / service niet beschikbaar is (technische storing…), de gegevens ook niet meer opgevraagd
kunnen worden door de afnemer.
Indien u zelf een API wil bouwen, raden wij aan een RESTful Web API aan te bieden en toegang te verlenen tot de service zonder het gebruik
van een API key.
Voor een goede beschrijving van REST en een RESTful web API verwijzen we naar het desbetreffende wikipedia artikel (http://en.wikipedia.
org/wiki/Representational_State_Transfer#RESTful_web_services).
Hebt u al een data dump, dan is het voldoende om uw dataset te registreren op het Vlaamse Open Data Portaal, meer specifiek in CKAN.
Door de integratie van de Datatank software in het Open Data portaal, wordt er dan automatisch een API aangeboden volgens de hierboven
aangehaalde REST principes. U vindt de API documentatie van de Datatank software op de pagina ‘Consuming Data’ (http://docs.thedatatank.
com/4.0/consuming_data).
Aanbeveling 11: indien u zelf een API bouwt raden wij aan een RESTful Web API aan te bieden en toegang te verlenen zonder het gebruik van een API key.
5/ Structureer uw dataset(s) en kies een open formaat of API
33
Open Data Handleiding
5.3 LINKED OPEN DATA
Voor diegenen die verder willen gaan dan de 3 sterren en zich willen integreren in het Linked Open Data web, geven wij in een apart document26 richtlijnen:
hoe unieke ‘identifiers’ toe te kennen aan de entiteiten (organisaties, percelen, diensten, … ) waarvan/waarover u data wil publiceren;
welke vocabularia (eigenschappen, relaties en klassen) bij deze beschrijving te gebruiken.
5.4 MATURITEITSMODEL VOOR OPEN DATA
Gegeven de scenario’s voor en de minimale vereisten bij het ontsluiten van brongegevens als Open Data zoals hiervoor beschreven, kunnen
we steeds verbeteringen aanbrengen en groeien in consistentie en kwaliteit van de gegevens. Om dit inzichtelijk te maken, introduceren we
hier een vrijblijvend maturiteitsmodel waar in graadmeters staan beschreven om een hogere vorm van kwaliteit te bewerkstelligen.
Het 5-sterren maturiteitsmodel (http://5stardata.info/) voor het publiceren van Open Data geeft al een aantal kenmerken voor de kwaliteitsbewaking aan. We hebben dit model uitgebreid met een aantal extra parameters waaraan de Open Data sets moeten voldoen. Deze criteria
zijn een toepassing bij al de regels die in dit document zijn opgesomd. Uiteraard moet een instantie niet meteen voor het 5-sterren model
gaan, op dit moment ligt de grens op 3 sterren.
Het overzicht van de verschillende maturiteitsniveaus is hieronder kort beschreven en daarna wordt per stermodel verder ingegaan hoe dit te
realiseren.
Maturiteitsniveau
Originele uitleg (Engels)
Bijkomende parameters
make your stuff available on the Web (whatever format) under an open license
Informatie zonder fouten en met basis kwaliteitschecks (per dataset) publiceren op het Vo Open Data
platform, aangevuld met alle metadata vereisten
make it available as structured data (e.g., Excel instead of image scan of a table)
Idem 1 ster, maar nu ook met minimale consistentie
checks over de data sets heen (i.e. op niveau van
publicerende instantie)
use non-proprietary formats (e.g., CSV instead of Excel)
Idem 2 sterren, maar informatie wordt ontsloten
onder een data management proces met bewaking
van de gestelde kwaliteit en consistentie checks (i.e.
op niveau van publicerende instantie)
use URIs to identify things, so that people can point at your stuff
Idem 3 sterren, informatie wordt gepubliceerd op
basis van een Data Quality process, met de URI criteria zoals in een afzonderlijk document beschreven
(minstens op instantie niveau)
link your data to other data to provide context
Idem 4 sterren, informatie wordt gepubliceerd op
basis van Enterprise Data Quality met EA Governance,
met de LOD criteria zoals in dit document beschreven
(minstens op instantie niveau, liefst op algemeen
niveau)
26 http://www.opendataforum.info/files/URI_strategie.pdf
5/ Structureer uw dataset(s) en kies een open formaat of API
34
Open Data Handleiding
6
PUBLICEER UW DATASET(S)
Voor het publiceren van Open Data zijn niet veel technische investeringen nodig. Dit neemt echter niet weg dat de instantie moet zorgen dat
de nodige technische middelen voorzien zijn om de Open Data beschikbaar te maken voor het publiek. Cruciaal hierbij is de keuze op welke
wijze Open Data ter beschikking zal gesteld worden.
6.1 VOORAFGAANDE TECHNISCHE TOETSING
Elke instantie moet er voor zorgen dat de nodige technische middelen voorzien zijn om de Open Data beschikbaar te maken voor het publiek.
Het gaat hierbij om:
Keuze van het domein: de instantie kan ervoor kiezen om haar eigen website te gebruiken voor de beschikbaarstelling van de data, of
zij kan dit doen via een aparte website met een eigen domeinnaam.
Keuze van de hosting: de instantie moet bepalen of de data op haar eigen servers wordt bewaard en toegankelijk gemaakt, dan wel of
zij hiervoor gebruik maakt van servers van een derde partij.
Keuze van de functionaliteiten: er moet worden nagegaan welke databank zal worden gebruikt; of bv. een forum of een betalingsmodule nodig is. Een schatting moet worden gemaakt van de nodige serverruimte, het totale dataverbruik; de nodige snelheid.
Het beheer van de website en / of het portaal: iemand moet worden aangesteld die de website of het portaal beheert. Daarbij moet
ook bepaald worden welke graad van beschikbaarheid men wil garanderen, en welk niveau van monitoring en beveiliging van de website nodig is.
Het onderhoud van de diensten: indien data wordt beschikbaar gesteld via services, moet iemand worden aangesteld die de beschikbaarheid, functionaliteit en performantie van de diensten opvolgt en garandeert.
Wanneer de instantie ervoor kiest om de data niet zelf beschikbaar te maken, maar deze taak toe te vertrouwen aan een andere instantie of
derde partij die fungeert als verstrekker (vb. de verspreiding door het AGIV van geografische data toebehorend aan andere instanties), moeten
deze technische beslissingen worden genomen in samenspraak tussen de instantie en de verstrekker.
Aanbeveling 12: voorzie de nodige technische middelen om Open Data beschikbaar te maken.
6.2 VIA EIGEN WEBSITE (DATADUMP OF API) OF UPLOAD NAAR CKAN
De instantie maakt de keuze of zij haar Open Data beschikbaar maakt via de eigen officiële website, via een aparte website, of via de diensten
van een derde partij-verstrekker. Om de vindbaarheid van de data voor de gebruiker te vergroten, is het belangrijk dat daarbij telkens een
verwijzing naar de data wordt opgenomen op het Vlaams Open Data Platform (ckan).
Aanbeveling 13: maak de data beschikbaar via de eigen website of de website van een derde partij-verstrekker en plaats
een link naar de vindplaats op het Vlaams Open Data Platform (ckan).
Nadat de instantie beslist heeft hoe zij haar Open Data beleid zal inrichten, kan zij starten met de praktische uitvoering van de genomen
beslissingen. Het betreft onder meer het verstrekken van de nodige informatie aan de potentiële gebruikers.
6/ Publiceer uw dataset(s)
35
Open Data Handleiding
7
DOCUMENTEER UW DATASET(S)
U hebt uw dataset nu gepubliceerd als datadump of via een API. Houd er rekening mee dat het voor een potentiële gebruiker van uw data
niet altijd gemakkelijk is om te evalueren of uw data mogelijks relevant zijn.
Om die reden is het aangewezen binnen uw organisatie een contactpunt ‘Open Data’ aan te duiden en aan de potentiële gebruiker van de
data een contactadres voor informatie en feedback mee te delen. Bovendien is het van belang de potentiële gebruiker te informeren over
de gebruiksvoorwaarden, de (eventuele) vergoedingen en de garanties betreffende de beschikbaarheid. Tot slot is het van belang ook
een pagina (of bijsluiter) te publiceren die de gepubliceerde gegevens van de nodige context voorziet. Hierbij is het aangewezen deze informatie ter beschikking te stellen in meerdere talen.
7.1 ‘OPEN DATA’ CONTACTPUNT
Hoewel het openstellen van overheidsdata geen grote taak is en enkel een beperkte inspanning en tijdsinvestering zal vragen van de instantie,
kan de instantie deze taak efficiënter laten verlopen door het aanwijzen van één persoon of dienst die verantwoordelijk is voor het Open
Data beleid binnen de instantie. Deze verantwoordelijkheid wordt gewoonlijk opgenomen door de persoon of dienst die verantwoordelijk is
voor het interne informatiebeleid van de instantie, zodat een gestroomlijnd beleid kan worden gevoerd. Indien een andere persoon of dienst
wordt aangewezen, houdt deze nauw contact met de verantwoordelijke voor het interne informatiebeleid.
Naast de functie van beleidsverantwoordelijke voor Open Data, wordt ook aangeraden een contactpunt Open Data aan te duiden, al kan dit
natuurlijk dezelfde persoon of dienst zijn. Deze persoon of dienst kan op drie manieren een rol spelen als aanspreekpunt rond Open Data.
Ten eerste is een Open Data contactpunt intern belangrijk voor de stroomlijning van het Open Data beleid, maar kan het ook grote voordelen bieden bij de organisatie van datastromen binnen de instantie zelf. Doordat het contactpunt op de hoogte is van welke data er binnen
de instantie aanwezig is, kan het ervoor zorgen dat data maar één keer wordt geproduceerd of aangekocht en verder wordt gedeeld binnen
de instantie. Ten tweede kan het contactpunt zorgen voor een directe relatie met de Vlaamse overheid, waardoor de instantie haar vragen
omtrent Open Data aan de Vlaamse overheid eenvoudig kan stellen, en andersom de Vlaamse overheid ook weet tot wie zij zich kan wenden
om ondersteuning te bieden bij het Open Data beleid. Ten derde heeft het Open Data contactpunt een belangrijke functie ten opzichte van de
burger: ook al is de data eenvoudig beschikbaar, het blijft immers steeds mogelijk dat burgers nog bepaalde vragen hebben omtrent het format van de data, de herkomst ervan, e.d. Hiervoor is het belangrijk dat de burger duidelijk weet waar hij terecht kan met dergelijke vragen.27
Aanbeveling 14: duid een persoon of dienst aan die verantwoordelijk is voor het Open Data beleid in de instantie. Creëer
een Open Data contactpunt voor communicatie binnen de instantie, met de Vlaamse overheid en met de burger.
7.2 CONTACTADRES VOOR INFORMATIE EN FEEDBACK
Ook al is een Open Dataset duidelijk omschreven in de bijbehorende metadata, de hergebruiker zal soms nog steeds nood hebben aan bijkomende informatie, bijkomende vragen willen stellen of fouten of onvolkomenheden in de data willen melden. Hiervoor heeft de hergebruiker
uiteraard een adres nodig waar hij terecht kan voor dergelijke vragen of meldingen. De instantie kan hiervoor zorgen door een e-mail adres
op de website te plaatsen waar men terecht kan voor informatie en/of feedback, of een webformulier te creëren dat online kan worden ingevuld.
De beantwoording van de vragen en/of opmerkingen maakt deel uit van de taak van het ‘Open Data contactpunt’. Om het gebruik van de
data, en in het bijzonder het leveren van feedback aan te moedigen, is het belangrijk dat de vragen en/of opmerkingen van de burger op
korte termijn worden beantwoord.
Aanbeveling 15: plaats een contactadres of web formulier op de website voor het vragen van verdere informatie of het
geven van feedback door de hergebruikers van de data.
27 Cf. infra.
7/ Documenteer uw dataset(s)
36
Open Data Handleiding
7.3 GEBRUIKSVOORWAARDEN
In de voorbereidende fase heeft de instantie gekozen voor een bepaalde licentie onder dewelke zij haar data wil beschikbaar stellen. Om zo
veel mogelijk harmonisatie en vereenvoudiging te bewerkstelligen, wordt bij voorkeur gebruik gemaakt van de Vlaamse modellicenties. Niet
alleen wordt fragmentatie vermeden en wordt het gebruik van Open Data optimaal gestimuleerd, ook zorgt dit ervoor dat de instantie niet
zelf moet investeren in het opstellen van eigen gebruiksvoorwaarden.
Wanneer de Vlaamse modellicenties worden gebruikt, moet de instantie op een duidelijk zichtbare plaats aangeven dat de data worden beschikbaar gemaakt onder de toepasselijke ‘Vlaamse Open Data Licentie’, met daarbij een link naar de vindplaats van de licentie op de website
van de Vlaamse overheid. Indien de instantie wenst dat de hergebruikers een specifieke bronvermelding toepassen, moet zij deze ook toevoegen. Voorbeelden van een licentiebepaling worden hieronder weergegeven voor de verschillende mogelijke licenties:
“[Naam van de dataset] wordt ter beschikking gesteld onder een CC0 verklaring. De volledige tekst van de Engelse verklaring vindt u
op http://creativecommons.org/publicdomain/zero/1.0/legalcode. Een vertaling van de CC0 verklaring vindt u op http://creativecommons.org/publicdomain/zero/1.0/
“[Naam van de dataset] is eigendom van [naam instantie]. [Naam van de dataset] wordt beschikbaar gemaakt onder de Vlaamse Gratis
Open Data Licentie [link naar de licentie]. Bij elk gebruik moet de volgende bronvermelding worden opgenomen: [vereiste bronvermelding]. Voor verdere informatie, gelieve u te wenden tot [contact adres]”.
“[Naam van de dataset] is eigendom van [naam instantie]. [Naam van de dataset] wordt beschikbaar gemaakt onder de Vlaamse Open
Data Licentie tegen Billijke Vergoeding [link naar de licentie]. Bij elk gebruik moet de volgende bronvermelding worden opgenomen:
[vereiste bronvermelding]. Voor verdere informatie, gelieve u te wenden tot [contact adres]”.
“[Naam van de dataset] is eigendom van [naam instantie]. [Naam van de dataset] wordt beschikbaar gemaakt voor niet-commercieel gebruik onder de Vlaamse Gratis Open Data Licentie [link naar de licentie] en voor commercieel gebruik onder de de Vlaamse Open Data
Licentie tegen Billijke Vergoeding [link naar de licentie]. Bij elk gebruik moet de volgende bronvermelding worden opgenomen: [vereiste
bronvermelding]. Voor verdere informatie, gelieve u te wenden tot [contact adres]”.
Door op een specifieke manier te verwijzen naar de Vlaamse Open Data Licentie, kan worden verkregen dat Google en andere zoekmotoren
weten dat naar een licentie wordt verwezen, en dat het materiaal onder die licentie wordt ter beschikking gesteld.28 Hiervoor moet in html
worden verwezen naar de Open Data Licentie via het “rel=license” attribuut in de link naar de licentie.
De modellicenties zullen naast de juridische tekst ook in een machine-leesbare versie beschikbaar worden gemaakt, zodat Google, andere
zoekmotoren en webcrawlers de licentie (en de voorwaarden ervan) ook automatisch kunnen herkennen.
Aanbeveling 16: gebruik de modellicenties van de Vlaamse overheid en plaats een link ernaar in de licentiebepaling bij de
data, met gebruik van de “rel=licence” attribuut.
7.4 VERGOEDINGEN
Hierboven werd reeds uiteengezet welke mogelijkheden de instanties hebben om voor hun Open Data een billijke vergoeding te vragen. Bij de
implementatie hiervan is het essentieel dat de hergebruiker een duidelijk beeld krijgt van hoeveel hij zal moeten betalen voor het gebruik van
de data, en dat de betaling snel en op een transparante wijze kan gebeuren.
Het bedrag van de billijke vergoeding moet op een duidelijke plaats bij de dataset worden aangegeven. Wanneer dit bedrag bijvoorbeeld een
vast bedrag is voor de volledige dataset, kan het bedrag worden vermeld naast de dataset. Wanneer het bedrag wordt berekend in functie
van bijvoorbeeld het volume van de data dat wordt gebruikt, moet op een transparante wijze de berekening van de vergoeding worden uiteengezet. Dit kan bijvoorbeeld gebeuren door in de metadata of bij de verwijzing naar de licentie een link naar een informatiefiche over de
vergoeding te voorzien. Deze informatiefiche maakt geen deel uit van de licentie, maar wordt als “bijsluiter” toegevoegd. Op deze manier kan
zij op een meer flexibele manier worden gewijzigd. Uiteraard moet wel rekening worden gehouden met de rechtszekerheid van de gebruiker,
en mag de prijs enkel worden aangepast mits een duidelijke en tijdige waarschuwing. De informatie over de vergoeding moet omvatten: de
berekeningswijze en de motivatie van de gevraagde vergoeding; en de vergoedingswijze.
Het vragen van een billijke vergoeding houdt ook in dat de hergebruiker pas toegang krijgt tot de data wanneer hij betaald heeft. Bijgevolg
moet een registratiesysteem worden opgezet, waarbij de hergebruiker het paswoord voor toegang tot de data of de dienst pas krijgt wanneer de betaling werd ontvangen door de instantie. De bepaling hieromtrent op de website zou er als volgt kunnen uitzien:
28 Zie http://microformats.org/rel-license.
7/ Documenteer uw dataset(s)
37
Open Data Handleiding
“Om toegang te krijgen tot de data, gelieve het aanvraagformulier [link naar online formulier of word-formulier dat moet worden
doorgemaild] in te vullen en het bovenstaande bedrag te storten op rekeningnummer [...] met vermelding [...]. Zodra de betaling werd
ontvangen, krijgt u een paswoord toegestuurd waarmee u toegang krijgt tot de gegevens”.
De instantie kan ook overwegen om een betaling via kredietkaart te aanvaarden, waarna onmiddellijk na de verificatie van de betaling toegang kan gegeven worden tot de data.
Aangezien de hergebruiker er op moet kunnen vertrouwen dat de prijs op de website de juiste is, moet telkens wanneer de prijs eventueel
zou worden gewijzigd duidelijk worden aangegeven vanaf en tot wanneer de prijzen geldig zijn.
Aanbeveling 17: indien een vergoeding wordt gevraagd, toon de gebruiker op een duidelijke wijze hoeveel hij moet betalen
en hoe hij de betaling moet uitvoeren om toegang te krijgen tot de data of dienst.
7.5 GARANTIES BETREFFENDE DE BESCHIKBAARHEID
Wanneer de data online via een bulk download worden ter beschikking gesteld, is het natuurlijk belangrijk dat deze data effectief beschikbaar
zijn en dat er geen ‘dode linken’ zijn of dat de website niet online is. De continuïteit wordt echter nog veel belangrijker wanneer de data via
een dienst wordt beschikbaar gemaakt en bijvoorbeeld via een API of een plugin wordt geïntegreerd in een dienst of applicatie van de gebruiker. Daarom is het belangrijk dat de gebruiker wordt geïnformeerd over het ‘service level’ van de dienst die wordt verschaft. Wanneer de data
via een derde partij-verstrekker wordt ter beschikking gesteld, is het belangrijk dat het mogelijke ‘service level’ wordt afgestemd tussen de
instantie en de verstrekker, en zal de verstrekker de aangewezen partij zijn om de service level engagement op te stellen.
Het is in beginsel niet vereist om deze service level engagement in de licentie te incorporeren. Aangeraden wordt dat de instantie de informatie eerder verschaft als een “bijsluiter” of een “informatiefiche” bij de dienst, via een link naar de betrokken informatie of via de metadata,
zodat deze geen deel uitmaakt van de bindende licentie en ook eenvoudiger eenzijdig kan gewijzigd worden door de instantie wanneer de
omstandigheden erom vragen. De volgende elementen kunnen worden opgenomen in deze informatiefiche:
Een inspanningsverbintenis om de dienst permanent te laten functioneren, maar geen garantie op permanente 24/7 beschikbaarheid
(eventueel een garantie van bv. 90% beschikbaarheid);
Een waarschuwing dat de service stopgezet kan worden (bij voorkeur mits een voldoende lange “waarschuwingstermijn” of overgangsperiode;
Een indicatie van de responstijd van de service;
Een indicatie van de capaciteit van de dienst betreffende vb. aantal gelijktijdige verzoeken;
Een waarschuwing dat de toegang tot de dienst zal worden afgesloten ingeval van overbelasting of misbruik door een gebruiker, met
een omschrijving van wat als overbelasting wordt beschouwd (vb. 95% van de requests komt van één gebruiker).
Het is niet verplicht om dergelijk service level engagement op te nemen. Bovendien heeft dergelijke informatie ook niet steeds evenveel zin
of belang: wanneer een link naar een bulk download niet meer werkt, zal het service level immers enkel inhouden dat de instantie de link
corrigeert wanneer zij op de hoogte gebracht wordt van het probleem. In elk geval, wanneer geen service level engagement wordt vastgelegd
voor een distributiekanaal van de data, wordt geacht dat de instantie als een goede huisvader alle redelijke inspanningen levert om de data te
verschaffen.
Aanbeveling 18: indien de data via een dienst wordt beschikbaar gemaakt, plaats een “informatiefiche” of service level
engagement bij de dienst met uitleg over de performantie van de dienst en de verwachtingen die de gebruiker mag hebben
van de werking van de dienst.
7.6 BIJSLUITER
Enkele voorbeelden van zulk een bijsluiter pagina:
http://aps.vlaanderen.be/sgml/largereeksen/704.htm met een toelichting bij de dataset “Participatie aan Pop -of Rockconcert door
Vlamingen naar geslacht”
http://epp.eurostat.ec.europa.eu/portal/page/portal/population/introduction voor een toelichting bij “EU population statistics”.
Voor een eindgebruiker zijn er immers een aantal zaken van belang om uw data goed te kunnen verstaan.
7/ Documenteer uw dataset(s)
38
Open Data Handleiding
7.6.1 DE DATA ZELF
Beschrijf goed welke entiteiten er in uw dataset worden beschreven (personen, organisaties, events, …).
Beschrijf ook de scope en de granulariteit van uw dataset, zowel op geografisch vlak als in de tijd. U heeft b.v. data m.b.t. gans Vlaanderen
maar opgesplitst per provincie. U hebt deze data over de jaren 2009 t.e.m. 2012 met een opdeling per kwartaal.
Licht verder toe welke eigenschappen en relaties u gebruikt in de dataset om de entiteiten te beschrijven. Beschrijf m.a.w. uw logisch datamodel.
Maakt u gebruik van codes, zorg dan ook dat de betekenis daarvan gekend is.
7.6.2 HET PROCES
Verder draagt het beschrijven van waarom deze data zijn verzameld en de daarbij gebruikte processen bij tot het geven van context.
Beschrijf daarom wie de data verzamelt, met welke frequentie en wie de data beheert.
Leg ook uit waarvoor en hoe de data worden gebruikt. Som eventueel de processen op die gebruik maken van deze data.
Aanbeveling 19: maak voor elke van uw datasets een begeleidende pagina die in duidelijk verstaanbare taal aangeeft waarover de data gaan, waarom ze zijn verzameld en waarvoor ze gebruikt worden.
7.7 TAAL VAN DE WEBSITE
Uiteraard blijft de eerste taal waarin de data, diensten, licenties en informatie moeten worden getoond het Nederlands. Gelet op de groeiende
nood aan data voor grensoverschrijdende toepassingen, wordt het echter steeds belangrijker om de data portalen en websites rond Open
Data ook in andere talen ter beschikking te stellen. Voor zover mogelijk, wordt de instanties aangeraden om dan ook een minimale informatievoorziening in het Engels te organiseren.
Om hieraan tegemoet te komen, zal de Vlaamse overheid ook een Engelse versie van de Open Data Licenties ter beschikking stellen waarnaar
door de instanties kan worden verwezen.
Aanbeveling 20: plaats informatie over de data ook in het Engels op de website, en verwijs naar de Engelse versie van de
Vlaamse Open Data licenties.
7/ Documenteer uw dataset(s)
39
Open Data Handleiding
8
MAAK UW DATASET(S) VINDBAAR
U hebt uw dataset gepubliceerd maar wil ze nu ook beter vindbaar maken. Daarvoor heeft de Vlaamse overheid een voorziening getroffen,
het Open Data portaal dat een “gouden gids” functie aanbiedt.
Dit Open Data portaal maakt gebruik van CKAN software (http://ckan.org/).
Om uw dataset kenbaar te maken op dit Open Data portaal moet u een metadata fiche invullen.
We beschrijven eerst de mogelijke metadata en daarna leggen we uit hoe die metadata fiche in te vullen in CKAN.
8.1 METADATA
8.1.1 WAT IS METADATA?
Volgens Wikipedia is metadata de term om de karakteristieken van bepaalde gegevens te beschrijven. Het zijn dus eigenlijk data over data.
De metadata bij een bepaald document (de gegevens) kunnen bijvoorbeeld zijn: de auteur, de datum van schrijven, de uitgever, het aantal
pagina’s en de taal waarin de gegevens zijn opgesteld. Het expliciet opslaan van metadata bij de data waar het betrekking op heeft, heeft als
voordeel dat de data makkelijker gevonden kan worden. Zo kan men in een zoekmachine die gebruik maakt van metadata bijvoorbeeld onmiddellijk zoeken naar documenten geschreven door een bepaalde auteur. Met full text-zoeken, dus zonder gebruik te maken van metadata, is
dit moeilijker doordat ieder document waarin de naam van de auteur voorkomt gevonden wordt. Dit kunnen er veel meer zijn dan de documenten die daadwerkelijk door de persoon geschreven zijn.
Voor het zoeken (en vinden) van Open Data wordt sterk gebruik gemaakt van metadata. In alle Open Data platformen zal er een laag van
metadata nodig zijn om de bewuste dataset vindbaar te maken, zowel voor de cataloog zelf als op geaggregeerde platformen.
Buiten het zoeken op een lokaal platform, biedt metadata ook de sleutel om Open Data sets te gaan zoeken op andere Open Data platformen.
Daarom zijn er richtlijnen opgesteld welke metadata velden er voor de Open Data sets van Vlaanderen nodig zijn.
8.1.2 HOE METADATA OPMAKEN
De creatie van metadata voor Open Data sets kan enerzijds worden ondersteund door (semi-) automatische processen, bijvoorbeeld:
Document eigenschappen gegenereerd in (office)-hulpprogramma’s, zoals Aanmaakdatum;
Ruimtelijke en temporele informatie zoals vastgelegd door camera’s, sensoren...;
Informatie vanuit publicatie werkstroom, bijvoorbeeld de locatie of URL van de bron.
Anderzijds, sommige kenmerken vereisen menselijke tussenkomst of opmaak:
Waar gaan de gegevens over (eventueel gelinkt aan een onderwerp of bron van informatie;
Hoe kan deze dataset gebruikt worden (bv. link met een modellicentie);
Waar kan je meer informatie over de bron zelf vinden (bv. link naar een website of ander document);
Attributen die de kwaliteit van de informatie beschrijven (bv. draft, ter review, nog niet gevalideerd, tijdelijk).
Ook de aanpak voor het onderhouden van metadata moet aangepast zijn aan de gepubliceerde gegevens. Als de gegevens niet veel wijzigen,
kunnen metagegevens relatief stabiel blijven of in bulk periodiek aangepast worden (bv. e-mail adres voor feedback lus). Als gegevens vaak
veranderen (bv. real-time sensorgegevens), dan moeten de metagegevens nauw worden gekoppeld aan de werkstroom gegevens en wijzigingen
moeten vrijwel ogenblikkelijke worden doorgevoerd.
Verder zijn er continue veranderingen rondom de Open Data set die in de meta data blijvend moeten weerspiegeld worden:
Organisaties durven wel eens veranderen, in elkaar opgaan of verantwoordelijkheden kunnen naar een andere organisatie of instantie
verhuizen;
Nieuwe applicaties kunnen Open Data sets met elkaar verbinden en dus extra metadata gegevens nodig hebben of de noodzaak voor
afstemming van metadata door verschillende instanties sturen (consistentie van metadata);
8/ Maak uw dataset(s) vindbaar
40
Open Data Handleiding
Metadata evolutie: de huidige voorschriften zijn minimaal en zullen blijven evolueren.
Dit drijft de noodzaak om de metadata voortdurend in de gaten te houden en aan te passen met de evolutie, maar we willen dit zo pragmatisch mogelijk inzetten zodat dit geen (permanente) aanslag op het budget pleegt.
8.1.3
METADATA RICHTLIJNEN
Metadata is cruciaal om datasets correct te kunnen identificeren en vindbaar te maken over alle platformen heen. Daarom stellen we voor dat
elke instantie voor elke gepubliceerde dataset een inspanning doet om een minimale set van metadata te voorzien.
In 2013 zijn er afspraken gemaakt tussen de Vlaamse overheid, de Federale overheid en een aantal steden zoals Gent en Antwerpen om zoveel
mogelijk een consistent beleid hierin te voeren.
Deze afspraken zijn gebaseerd op de Europese DCAT richtlijnen en vertaald naar een advies voor alle publicerende instanties, ongeacht de
(deel)regering, stad, provincie of gewest in België. Deze afspraken zijn opgenomen in Bijlage 4 (“Metadata mapping DCAT – CKAN”)
Het toepassen van deze richtlijnen geeft als positief gevolg dat waar je ook je dataset publiceert, je deze dataset in principe ook op andere
platformen eenvoudig en zelfs automatisch kan terugvinden. Hierdoor kan elke instantie kiezen waar Open Dataset te publiceren, maar kunnen deze datasets toch geoogst worden op een ander platform. Bijvoorbeeld kunnen alle Open Datasets van AGIV die aangeduid zijn als “Open
Data”, automatisch ook gepubliceerd worden op het Vlaamse Open Data platform, of hogerop naar naar het Europese Open Data portaal toe.
De mogelijkheden voor het invullen van metadata zijn afhankelijk van het soort platform dat men gebruikt. Voor Vlaanderen is momenteel de
keuze gevallen op het CKAN platform (zie verder). CKAN gebruikt echter een eigen aanpak naar metadata toe, waarbij men een aantal velden
verplicht maakt en een aantal vrije velden kunnen worden toegevoegd.
Het invullen van metadata is dan wel een vereiste voor het snel en eenvoudig terugvinden van datasets, toch hangt het af van het gebruikte
platform hoe deze metadata velden verplicht worden gemaakt en hoe deze moeten ingevuld worden. CKAN geeft een eigen aanpak, daarom
kunnen we hier enkel de grootste gemene deler van verplichte velden voorstellen als richtlijn.
De verplichte velden binnen CKAN zijn dan ook voorlopig beperkt tot volgend overzicht:
CKAN Veld (NL)
Veld (ENG)
link met DCAT
Tip
standaarden
Title
Title
dct:title (dcat:Dataset)
Bevat een eenduidige titel van de dataset.
Omschrijving
Description
dct:description (dcat:Dataset)
Bevat de omschrijving van de dataset, in tekst vorm. Probeer de omschrijving zo kort,
maar ook zo relevant mogelijk te houden. Het is niet de bedoeling hier de werking
van een entiteit of afdeling toe te lichten, enkel te duiden wat voor data hiermee
beschikbaar wordt gesteld.
Licentie
License
dct:license
(Dataset)
Het licentiemodel waar onder deze dataset wordt gepubliceerd. Kies een van de waarden uit de dropdown selectie. De waarden stemmen overeen met de standaardmodellen de die de Vlaamse overheid heeft voorzien.
In bijlage 3 hebben we een voorstel opgenomen hoe we de vrije velden van CKAN kunnen gebruiken om maximaal compatibel te zijn met de
afspraken gemaakt op Belgisch niveau conform de Europese DCAT richtlijnen. Per veld geven we aan hoe dit in CKAN te benoemen. Helaas is
dit nog niet afdwingbaar en dient bij het definiëren van de vrije velden bijzondere aandacht geschonken worden aan een correcte schrijfwijze. De Vlaamse overheid blijft in contact met het CKAN ontwikkelingsteam om in de toekomst deze lacune te sluiten.
Aanbeveling 21: Om een vlotte uitwisseling van dataset beschrijvingen mogelijk te maken, raden wij aan zoveel mogelijk
velden uit het op Belgisch niveau afgesproken DCAT profiel te gebruiken, zelfs binnen CKAN via vrije velden indien nodig.
Zie bijlage 3 voor een overzicht.
8/ Maak uw dataset(s) vindbaar
41
Open Data Handleiding
8.2 METADATA TOEVOEGEN IN CKAN
In dit hoofdstuk gaan we dieper in welke metadata kunnen toegevoegd worden gebruik makend van de “Creëer dataset” wizard in CKAN en
hoe we dit moeten doen.
Per veld/eigenschap geven we aan het label zoals getoond in de interface, de naam van het veld in CKAN, het overeenkomstig veld uit de
“DCAT Application Profile for data portals in Europe specification” en de toegelaten/verwachte waarden voor dit veld.
Maar vooraleer u dit kan doen, moet u eerst op CKAN een account aanmaken.
8.2.1 ACCOUNT AANMAKEN
Klik rechts bovenaan ‘registreer’ en dan komt u in volgend scherm.
Belangrijk: de gebruikersnaam mag alleen bestaan uit kleine alfanummerieke (ascii) karakters of ‘-_’.
Bij succes krijgt u dit scherm te zien:
8.2.2 DATASET CREËREN
Voor het creëren van een dataset moet u aangelogd zijn, gebruik makend van uw account gegevens.
Wanneer u aangelogd bent, klik dan de button ‘Dataset aanmaken’.
Pagina: Creëer dataset
U krijgt eerst een pagina om uw dataset te beschrijven.
Dit zijn de velden die daarbij worden aangeboden binnen CKAN:
8/ Maak uw dataset(s) vindbaar
42
Open Data Handleiding
Label in pagina
CKAN field
DCAT mapping
waarden
TITEL
Title
dct:title (Dataset)
string (titlecase)
OMSCHRIJVING
Notes
dct:description (Dataset)
String
TAGS
Tags
dcat:keyword (Dataset)
multiple met separator ‘,’
LICENTIE
License
dct:license (Dataset)
één van de dropdown lijst
ORGANISATIE
owner_org
dct:publisher
één van de dropdown lijst
Dit manifesteert zich zo binnen CKAN:
In dit scherm geeft u de algemene kenmerken van de dataset in: de naam (bestaat uit kleine alfanummerieke (ascii) karakters of ‘-_’),
een omschrijving, trefwoorden en de gekozen modellicentie.
Het resultaat ziet u in het volgende scherm:
Daarna gaat u naar het volgende scherm “Data toevoegen”.
Pagina: Data toevoegen
De volgende pagina laat u toe uw distributie(s) toe te voegen.
Dit zijn de velden die u hierbij kan gebruiken:
8/ Maak uw dataset(s) vindbaar
43
Open Data Handleiding
Label in pagina
CKAN field
DCAT mapping
waarden
BRON
url
accessURL (Distribution)
url
NAAM
Name
dct:title (Distribution)
string (titlecase)
OMSCHRIJVING
description
dct:description (Distribution)
String
FORMAAT
Format
dct:format (Distribution)
file extensie b.v. csv, xml, json
Er zijn 3 types van distributie en elk krijgt zijn eigen scherm:
Scherm 2.1: data - link naar een al gepubliceerde datadump
Hebt u al een datadump gepubliceerd, dan kiest u boven in dit scherm voor ‘Link naar een bestand’. U krijgt dan volgend
scherm:
Het belangrijkste veld is “bron” waar u het (http) adres ingeeft waar de data kunnen gevonden/gedownload worden.
Verder vult u bij formaat de file extensie in in lowercase (csv, xml, json, xls, xlsx, …).
Data omzetten naar een ander formaat met behulp van Datatank software.
Datatank software ondersteunt de conversie van volgende formaten: xls(x), json, xml, csv, shp.
Wenst u Datatank software in te schakelen om uw dump (b.v. xls) te laten converteren naar andere formaten dan vinkt u ‘USE
THEDATATANK’ aan.
8/ Maak uw dataset(s) vindbaar
44
Open Data Handleiding
Voor de conversie van Excel files wordt u gevraagd 3 bijkomende parameters toe te voegen:
De naam van de ‘sheet’ (pagina in Excel)
In dit geval: ‘tabel’ (zie links onder).
Of er een header row is of niet (neem ‘0’ indien niet; ‘1’ indien wel). In het voorbeeld is de headerrow de rij met de jaartallen.
Op welke lijn de tabel begint. In dit geval op lijn 12, de lijn met de jaartallen.
OPGELET: vermits Datatank software index begint met 0, moet je dan 11 invoeren.
Voor de hierboven getoonde tabel geeft dat dan:
Het resultaat van het instellen van deze parameters is dat de xls dank zij theDatatank als volgt wordt getoond in CKAN:
Noteer de conversie mogelijkheden naar json, xml, csv en php aan de rechterkant.
8/ Maak uw dataset(s) vindbaar
45
Open Data Handleiding
Scherm 2.2: data via API
Publiceert u uw data m.b.v. een API, dan klikt u op bovenaan op de keuze ‘link naar een api’. U krijgt dan volgend scherm:
In het bron veld geeft u aan op welk http adres de API aanspreekbaar is.
Verder geeft u in het omschrijving veld de API documentatie in of waar deze te vinden is.
Scherm 2.3: upload van een datadump
Een derde mogelijkheid bestaat erin dat u lokaal een datadump hebt maar deze nog wil publiceren. Voor dit publiceren wenst u
gebruik te maken van CKAN.
U kiest dan voor de optie “upload een bestand”.
U laadt dan uw lokale file op in CKAN.
8/ Maak uw dataset(s) vindbaar
46
Open Data Handleiding
De overige metadata zijn gelijklopend aan die van de andere keuzes.
Als u de distributie(s) hebt ingegeven, gaat u naar het volgende (3e) scherm.
Pagina: Aanvullende data
Deze pagina laat u toe om bijkomende metadata toe te voegen.
Dit zijn de velden die standaard worden aangeboden:
Label in pagina
CKAN field
DCAT mapping
waarden
ZICHTBAARHEID
Private
—
één van de dropdown lijst
AUTEUR
Author
—
String
AUTEUR EMAIL
author_email
—
Email
BEHEERDER
maintainer
—
String
BEHEERDER EMAIL
maintainer_email
—
Email
GROEP TOEVOEGEN
Groups
dcat:theme
één van de dropdown lijst
Verder laat CKAN toe extra metadata toe te voegen m.b.v. vrije velden.
8/ Maak uw dataset(s) vindbaar
47
Open Data Handleiding
Vrije velden
Dit zijn vrij toe te voegen key/value paren.
Wij stellen volgende mogelijkheden voor die in lijn zijn met het hierboven besproken DCAT profiel:
Key
DCAT mapping
Waarden
Taal
dct:language
één van (nl, fr, de, en)
update frequentie
dct:accruelPeriodicity
één van het lijstje met frequenties (bij benadering) (cf. infra)
datum publicatie
dct:issued
datum (xsd:date format)
laatste gewijzigd
dct:modified
datum (xsd:date format)
Versie
—
MAJOR.Minor.patch (cf. semantic versioning)
versie nota’s
adms:versionNotes
String
dekking in tijd
dct:temporal
string, voorbeeld: 1992, 1995, 1998, 2001, 2004, 2007, 2010
geografische dekking
dct:spatial
string, voorbeeld: Vlaams Gewest + Brussel
compliant met standard
dct:conformsTo
cf. lijstje met voorbeelden van standaarden infra
aantal bytes
dcat:byteSize
de grootte van de distributie in bytes
Mediatype
dcat:mediaType
een MIME-type zoals gedefinieerd door IANA
Rechten
dct:rights
een string die de rechten van de publisher beschrijft
Status
adms:status
één van (‘completed’,’under development’, ‘deprecated’, ‘withdrawn’). Voor
toelichting
Lijst met frequenties:
Jaarlijks
Tweejaarlijks
Tweemaandelijks
Tweewekelijks
Doorlopend
Dagelijks
Onregelmatig
Maandelijks
Driemaandelijks
Halfjaarlijks
Halfmaandelijks
Halfwekelijks
Drie keer per maand
Drie keer per week
Drie keer per jaar
Driejaarlijks
Wekelijks
8/ Maak uw dataset(s) vindbaar
48
Open Data Handleiding
Lijst (niet-exhaustief) met standaarden
Naam
Organisatie
Link
core business vocabulary
ISA
https://joinup.ec.europa.eu/asset/core_business/description
core person vocabulary
ISA
https://joinup.ec.europa.eu/asset/core_person/description
core location vocabulary
ISA
https://joinup.ec.europa.eu/asset/core_location/description
core public service vocabulary
ISA
https://joinup.ec.europa.eu/asset/core_public_service/description
Oslo
V-ICT-OR
https://joinup.ec.europa.eu/catalogue/asset_release/oslo-open-standards-local-administrations-flanders-version–10?lang=nl
Semantic versioning
De waarde in het “versie” veld bestaat uit 3 opeenvolgende getallen met een punt tussen, vb: 5.12.0, waarbij:
de verschillende delen worden aangeduid (benoemd) als MAJOR.Minor.patch
kort “M.m.p”
de getallen sequentieel zullen verhogen en zo toegekend worden dat ze een “compatibiliteit” van het uitgewisselde bestand met andere versies uitdrukt.
Een verschillende M ‘MAJOR’ versie wijst op incompatibiliteit.
Eenzelfde M ‘MAJOR’ versie wijst op “compatibiliteit” waarbij de afnemer ervan mag uitgaan dat zijn geldende automatische
verwerking van de gegevens nog steeds zal werken.
Verschillen in m ‘minor’ wijst op “opwaarts compatibel” wat betekent dat een cliënt die de data correct interpreteerde voor een
oudere (kleinere m) versie dat ook bij een recentere versie van de data (hogere m) zal doen, maar mist mogelijks nieuwe nuances.
8.2.3 METADATA TOEVOEGEN VIA DE CKAN API
Het is ook mogelijk om de metadata creatie van uw datasets op een geautomatiseerde manier te laten verlopen gebruik makend van de CKAN
API. De toelichting daarbij vindt u in bijlage 3.
8/ Maak uw dataset(s) vindbaar
49
Open Data Handleiding
9
EVALUEER UW OPEN DATA PRAKTIJK
Vlaanderen staat aan het begin van een onstuitbare evolutie naar open data. Dit houdt ook in dat het beleid rond open data naargelang de
grotere beschikbaarheid van data of de grotere vraag ernaar eventueel zal worden bijgestuurd. Daarnaast moet ook steeds rekening worden
gehouden met mogelijke aanpassingen in het wettelijke kader rond open data, bijvoorbeeld de aankomende wijziging van de Europese richtlijn betreffende het hergebruik van overheidsinformatie. Ten slotte is ook de ervaring in praktijk van de instanties een goede graadmeter voor
het succes van het Vlaamse open data beleid.
De Vlaamse overheid wil graag deel uitmaken van de open data kopgroep van de Europese Unie. Daarvoor moet zij dus de vinger aan de pols
van het open data beleid houden. De Vlaamse overheid wil dan ook op regelmatige basis evalueren in welke mate het open data gedachtegoed is doorgedrongen in Vlaanderen. Daarvoor is de inbreng van de instanties die data ter beschikking stellen essentieel. De Vlaamse overheid hecht dan ook veel belang aan een goede interactie met de instanties, waarbij de instanties de mogelijkheid hebben om hun ervaringen
en bezorgdheden te delen. Concrete informatie zoals hoe vaak bepaalde data werd gedownload, welke data werd gevraagd, hoe veel gebruik
gemaakt werd van de diensten, is hierbij van grote waarde.
Aanbeveling 22: maak een evaluatie van het succes van de Open Data praktijk van uw instantie. Deel uw ervaringen met
andere instanties via het Open Data Forum.
9/ Evalueer uw Open Data praktijk
50
Open Data Handleiding
BIJLAGE 1 MASTER DATA MANAGEMENT
WAT
Bestanden veranderen veel en verouderen snel. Jaarlijks muteert 30 tot 40% van de gegevens in een adressenbestand. Bovendien werken veel
instanties met verschillende databases en worden mutaties en toevoegingen vaak door meerdere personen op meerdere afdelingen doorgevoerd. Hoe houdt u deze gegevens actueel en hoe legt u onderlinge verbanden tussen de diverse databestanden binnen de Vlaamse overheid?
Master Data Management (MDM) is het integreren van data en databases tot één zuiver bestand van hoge kwaliteit en consistentie. Door het
beschikbaar maken van accurate, betrouwbare en consistente informatie in alle bedrijfssystemen kan tijd en geld worden bespaard.
Het voornaamste belang van Master Data Management (MDM) bestaat uit het op een eenduidige manier vastleggen en beheren van stamgegevens (master data) van een organisatie, in dit geval dus de Vlaamse overheid als geheel. Dit is noodzakelijk omdat master data in bijna alle
gevallen opgeslagen is in verschillende (informatie)systemen binnen een organisatie en meerdere gebruikers het benutten. MDM zorgt ervoor
dat de stamgegevens consistent zijn en liefst een centrale plaats binnen de organisatie krijgen. Alle informatiesystemen binnen de organisatie
putten dan uit die ene centrale bron van master data. MDM zorgt er verder ook voor dat de beschrijvingen en definities van informatie overeenkomt met de beschrijvingen en definities die dezelfde informatie heeft bij burger of bedrijf.
Ondersteunende processen bij MDM zijn o.a.: bron identificatie, het verzamelen van data, data transformatie, normalisatie, regeladministratie,
fout detectie en correctie, data opslag, data distributie en het beheren van data.
RELEVANTIE VOOR OPEN DATA
Binnen de overheid is de verantwoordelijkheid voor de verschillende applicaties – op een paar uitzonderingen na - verdeeld over meerdere
instanties. Dit geldt ook voor de bijbehorende stamgegevens (i.e. master data). Veel entiteiten kampen met de uitdaging dat essentiële stamgegevens vaak in meerdere systemen zijn opgeslagen, bijvoorbeeld contacten, openingsuren, enzovoort. Binnen een instantie wordt vaak onvoldoende onderkend dat onjuist ingevoerde stamgegevens in één applicatie ernstige gevolgen kan hebben voor een andere applicatie.
Rapportagesystemen ondervinden veel problemen als de master data niet consistent is. Hierbij kan worden gesteld dat datakwaliteitsproblemen die het gevolg zijn van inconsistente master data één van de belangrijkste redenen zijn dat veel Business Intelligence projecten niet het
gewenste resultaat opleveren.
Deze problematiek geldt ook voor Open Data, zei het nu dat hier niet de interne werking maar ook de burger de gevolgen van slechte stamgegevens zal ervaren. Als iedere entiteit gegevens zal ontsluiten via Open Data en iedere entiteit gebruikt daarvoor een andere manier om bv
adressen te modelleren, dan zal de burger moeite hebben om dit alles aan elkaar te lijmen of er een consistente applicatie rond te schrijven.
Daarom vragen we extra aandacht te besteden aan het opstellen en beheren van stamgegevens, op zijn minst op instantieniveau, liefst overheid breed.
Het goede nieuws is dat de technieken om dit voor Open Data te realiseren niet zoveel anders zijn als voor applicaties en / of rapportagesystemen. Met andere woorden, het proces om stamgegevens te maken en beheren voor klassieke applicaties kan ook toegepast worden op de
Open Data sets.
Bovenstaande tekst is gebaseerd op http://ict-mdm.wikispaces.com/. De licentieovereenkomst van deze site (Creative Commons Attribution
Share-Alike 3.0 License) laat toe om deze tekst over te nemen en aan te passen waar relevant.
STAPPEN IN EEN MDM PROCES
De volgende stappen gelden algemeen voor het bewaken van de kwaliteit en consistentie van gegevens, en zijn dus ook van toepassing op het
vinden en ontsluiten van Open Data stromen. Allicht worden ze op een of andere manier gebruikt voor het beheren van gegevens, misschien
niet zo nadrukkelijk als ze hieronder staan beschreven. De lijst is dan ook in de eerste plaats te zien als een check list om de kwaliteit en de
consistentie van gegevens en Open Data stromen te bewaken. Hoe groter het aantal gegevens en de entiteit, hoe formeler een proces moet
ingeregeld worden. Ook op niveau van de Vlaamse overheid is het interessant om de volgende stappen in het achterhoofd te houden voor het
beheer van alle Open Data stromen.
1/Identificeren van Open Data master-data.
Aan de hand van een aantal criteria wordt vastgesteld welke data wel, en welke data niet als master data beschouwd en opgenomen
wordt in een Open Data beheersproces. Denk hierbij aan de criteria voor ontsluiting die eerder in dit document zijn gelijst.
Bijlage 1: Master Data Management
51
Open Data Handleiding
2/Identificeren van de bronsystemen.
Waar komt de master-data en haar metadata vandaan, en welke bronsystemen produceren ze.
3/Verzamelen en analyseren van metadata over master-data.
Het verzamelen van de onderliggende metadata over de master data. Zie ook het eerdere hoofdstuk over metadata voor Open Data
dat de nodige velden beschrijft.
4/Aanstellen van data stewards.
Dit zijn mensen met zowel kennis van het huidige bronsystemen als Open Data om dezelfde regels te laten gelden op alle databronnen.
5/Opstellen van een data- governance programma en een data -governance Raad.
Het programma dat bepaalt hoe, waar en met welke definities master data wordt vastgelegd. De eigenlijke manier van normalisatie die
men gaat toepassen op de master data. De data governance raad bepaalt in overleg de normalisatie procedure die men gaat gebruiken. Zie volgende hoofdstuk voor een pragmatische aanpak van deze raad.
6/Ontwikkeling van een master-data model of logisch datamodel.
Afhankelijk van de beschikbare databases en evt. datawarehouse, en de benodigde distributie van de informatie wordt voorgesteld een
logisch en fysisch data model te maken dat onder het MDM proces beheerd wordt. We stellen voor om dit model uit te breiden met
Open Data stromen.
7/Overweeg een tool.
Waar veel gegevens beheerd worden, kan het aangeraden zijn om een MDM toolset te gebruiken. De extra gegevens voor Open Data
stromen kunnen in deze tool beheerd worden wat een algemeen overzicht mogelijk maakt.
8/Ontwerpen van een ondersteunende infrastructuur.
Voor entiteiten die veel gegevens beheren en die automatisch willen ontsluiten naar Open Data stromen, kan overwogen worden om
gebruik te maken van ondersteunende infrastructuur om de ETL processen uit te voeren. Binnen de Vo is er al dergelijke infrastructuur
beschikbaar, zie het stukje rond technische standaarden eerder in dit document.
9/Genereren en testen van stamgegevens.
De stamgegevens zullen met behulp van handmatige of automatische inspectie getoetst moeten worden op kwaliteit en consistentie.
Het zal vrijwel onmogelijk zijn om alle stamgegevens in een keer kloppend te krijgen en te houden. Vaak zitten er in de ETL toolsets wel
mogelijkheden om dit te voorzien, maar soms kunnen specifieke testen nodig zijn (bv. voor het anoniem maken van Open Data gegevens).
10/Implementeren van onderhoudsprocessen.
Geen enkel proces is statisch en zeker ook het beheren van MDM en Open Data stromen niet. Voorzie dan ook een proces voor het
onderhouden van metadata, ETL functionaliteit om de kwaliteit van de gegevens in stand te houden.
ORGANISATORISCHE IMPACT EN AANPAK
De aandachtige lezer zal begrijpen dat het opzetten van een gedegen MDM proces ook een impact zal hebben op het governance model van
de ICT afdeling van de instantie in kwestie. We gaan er in eerste instantie van uit dat voor het beheer en publiceren van Open Data stromen
er geen sprake kan zijn van extra mensen of werklast. Daarom stellen we hier een groeimodel voor dat zo veel mogelijk gealigneerd is met
bestaande ICT opdrachten en nu ook voor Open Data beheer kan gebruikt worden.
Fase 1: Korte Termijn: Per instantie
In deze stap voorzien we minimale inspanning om aan MDM te doen. Volgende kenmerken gelden:
Geen unieke of aparte master data organisatie of team.
Business en / of ICT van de instantie staat zelf in voor opmaak van standaarden en procedures om master data te maken of te
beheren.
Inspanning is verdeeld over alle personen van de instantie en is “best effort” opgezet
Bijlage 1: Master Data Management
52
Open Data Handleiding
Fase 2: Middellange termijn: Federated (Open Data COE)
In deze fase is er een COE (Center of Expertise) opgericht dat zich over alle MDM van de instantie ontfermt. Er zijn standaarden en
afspraken op instantie die door een verantwoordelijke op dat niveau worden beheerd. Er is ook een overkoepelend aanspreekpunt voor
alle MDM van de organisatie, maar deze persoon kan deze standaarden nog niet afdwingen, louter faciliterend optreden. Zo wordt naar
een groot mogelijke gemene deler van standaarden en afspraken gewerkt.
Deze maturiteitsvorm vereist dus inderdaad verantwoordelijken voor MDM op verschillende niveaus, maar bewerkstelligt de standaardisatie ook wel.
Fase 3 (lange termijn): Volledig gecentraliseerd
Op lange termijn worden alle afspraken en standaarden rond MDM samengebracht op het hoogste niveau van de organisatie. Geen sinecure, want dat betekent ook autoriteit en verantwoordelijkheid om de lagere niveaus deze afspraken te doen volgen. Het voordeel is
Bijlage 1: Master Data Management
53
Open Data Handleiding
dat er een algehele consistentie is over alle informatie, wat de doorstroming faciliteert. Business mensen kunnen aanvragen doen voor
wijzigingen of nieuwe definities aandragen aan het centrale team.
Bijlage 1: Master Data Management
54
Open Data Handleiding
BIJLAGE 2 TOEVOEGEN VAN METADATA
VIA DE CKAN API
VOORWAARDE
U hebt een API key nodig om via de CKAN API een actie te doen. Deze API key vindt u op uw profiel pagina, te vinden op http://ckan-001.
corve.openminds.be/user/{uw_username}.
CKAN API
Algemene info over de CKAN API vindt men op http://docs.ckan.org/en/latest/api.html
VOORBEELD UPLOAD
Om een dataset via de api toe te voegen kan je via HTTP POST een json payload doorsturen.
Hieronder vindt u een voorbeeld van zo’n json payload en het POST commando gebruik makend van curl, een command line tool om data te
transfereren.
Bijlage 2: Toevoegen van metadata via de CKAN API
55
Open Data Handleiding
voorbeeld
{
“title”: “Aantal aangevraagde en goedgekeurde tewerkstellingspremies 50-plus”,
“name”: “aantal-aangevraagde-en-goedgekeurde-tewerkstellingspremies-50-plus”,
“url”: “http://aps.vlaanderen.be/sgml/largereeksen/5867.htm”,
“notes”: “Aantal aangevraagde en toegekende tewerkstellingspremies 50-plus door de Vlaamse overheid.”,
“private”: false,
“isopen”: true,
“license_id”: “cc-zero”,
“tags”: [
{
“vocabulary_id”: null,
“display_name”: “arbeidsmarkt”,
“name”: “arbeidsmarkt”
},
{
“vocabulary_id”: null,
“display_name”: “tewerkstelling”,
“name”: “tewerkstelling”
}
],
“resources”: [{
“format”: “xls”,
“name”: “Aantal aangevraagde en goedgekeurde tewerkstellingspremies 50-plus in MS-Excel”,
“url”: “http://www4.vlaanderen.be/dar/svr/Cijfers/Exceltabellen/arbeidsmarkt/algemeen/werkbel006.xls”,
“resource_type”: “file”
}],
“author”: “VDAB, bewerking Departement WSE”,
“maintainer”: “Myriam Vanweddingen”,
“maintainer_email”: “[email protected]”,
“groups”: [{“name”: “arbeidsmarkt”}],
“owner_org”: “svr”,
“extras”: [
{
“value”: “arbeidsmarkt - algemeen”,
“key”: “beleidsdomein”
},
{
“value”: “2006-2012”,
“key”: “dimensie tijd”
},
{
“value”: “Vlaams gewest”,
“key”: “dimensie ruimte”
},
{
“value”: “2012-09-07”,
“key”: “laatst gewijzigd”
}
]
}
Bijlage 2: Toevoegen van metadata via de CKAN API
56
Open Data Handleiding
template
{
“title”: “”,
“name”: “”,
“url”: “”,
“notes”: “”,
“private”: false,
“isopen”: true,
“license_id”: “”,
“tags”: [
{
“vocabulary_id”: null,
“display_name”: “”,
“name”: “”
},
{
“vocabulary_id”: null,
“display_name”: “”,
“name”: “”
}
],
“resources”: [{
“format”: “”,
“name”: “”,
“url”: “”,
“resource_type”: “”
}],
“author”: “”,
“maintainer”: “”,
“maintainer_email”: “”,
“groups”: [{“name”: “”}],
“owner_org”: “”,
“extras”: [
{
“value”: “”,
“key”: “dekking in tijd”
},
{
“value”: “”,
“key”: “geografische dekking”
},
{
“value”: “”,
“key”: “laatst gewijzigd”
}
]
}
Bijlage 2: Toevoegen van metadata via de CKAN API
57
Open Data Handleiding
Toelichting
Veld
Toelichting
url
dit is het http adres van de context-pagina (de bijsluiter)
license_id
één van de volgende waarden: notspecified, cc-zero, gratis-open-data-licentie, open-data-licentie-tegen-billijke-vergoeding, gratis-open-data-licentie-voor-niet-commercieel-hergebruik, gratis-open-data-licentie-voor-niet-commercieel-hergebruik + open-data-licentie-tegen-billijke-vergoeding-voor-commercieel-hergebruik
Format
lowercase file extensie (csv, tsv, xml, json, rdf, xls, …)
resource_type
file, file.upload, api
groups/name
één van de volgende waarden: arbeidsmarkt, bestuurszaken, buitenlands-beleid, buitenlandse-handel, cultuur, demografie,
economie, energie, financien-en-begroting, gelijke -kansen, gezondheid, ict, landbouw, media, milieu-en-natuur, mobiliteit, monumenten-en-landschappen, onderwijs, ontwikkelingssamenwerking, ruimtelijke-ordening, sport, toerisme, welzijn-en-kansarmoede,
wetenschap-en-innovatie
owner_org
de lijst van organisaties is te vinden op http://ckan–001.corve.openminds.be/organization en u kan daar uw eigen organisatie
toevoegen.
CURL COMMANDO
CURL is een open source command line tool om data over te brengen met URL syntax. Meer info op de curl website http://curl.haxx.se/
Voorbeeld van een ‘create’ actie:
curl -d “@payload.json” http://ckan-001.corve.openminds.be/api/3/action/package_create -H “Authorization:api-key”
Voorbeeld van een ‘delete’ actie:
curl -d ‘{“id”: “aantal-aangevraagde-en-goedgekeurde-tewerkstellingspremies-50-plus”}’ http://ckan-001.corve.openminds.be/api/3/action/package_delete -H “Authorization:api-key”
Bijlage 2: Toevoegen van metadata via de CKAN API
58
Open Data Handleiding
BIJLAGE 3 METADATA DCAT-CKAN
Hieronder vindt u het over de verschillende overheden in België heen afgesproken DCAT profiel.
Er worden metadata voorzien op het niveau van de dataset zelf en op het niveau van de distributie.
Per niveau wordt er dan nog een onderscheid gemaakt tussen verplichte, aanbevolen en optionele velden.
Voor elk veld worden de volgende properties aangegeven: naam, uri of de unieke identifier, de waarde(n) die het veld kan bevatten, een uitleg
hoe het veld te gebruiken en het aantal keren dat het veld mag/kan voorkomen (de cardinaliteit).
Zoals reeds aangehaald in het hoofdstuk rond metadata zijn er een aantal beperkingen binnen het CKAN platform om al deze velden verplicht
te maken tijdens manuele ingave of via upload script. Een aantal velden kunnen enkel via “vrije velden” worden ingegeven. Daarom hebben
we een extra kolom toegevoegd die aangeeft hoe dit in CKAN op te lossen.
Dataset
Verplichte velden voor een dataset zijn:
Property
URI
Range
Usage note
Card
CKAN
Description
dct:description
rdfs:Literal
This property contains a free-text account of the Dataset. This property can
1..n
Omschrij-
be repeated for parallel language versions of the description.
Title
dct:title
rdfs:Literal
This property contains a name given to the Dataset. This property can be
ving (1)
1..n
Titel (1)
repeated for parallel language versions of the name.
Use of Title Case.
(1): deze velden zijn sowiezo voorzien - en in dit geval ook verplicht - binnen CKAN.
Aanbevolen velden voor een dataset zijn:
Property
URI
Range
Usage note
Card
CKAN
contact point
dcat:contactPoint
v:VCard (will
This property contains contact information that can be used for flagging
0..n
Beheerder
be deprecated
errors in the Dataset or sending comments
(1)
in new vCard
dataset distri-
dcat:distribution
bution
standard.)
Initially only email address used.
dcat:Distribu-
This property links the Dataset to an available Distribution.
0..n
tion
Pagina
« Data
en Pagina
« Data en
hulpbronnen »
keyword/ tag
dcat:keyword
rdfs:Literal
This property contains a keyword or tag describing the Dataset.
0..n
Tags (1)
Publisher
dct:publisher
foaf:Agent
This property refers to an entity (organisation) responsible for making the
0..1
Organisatie
0..n
Groep Toe-
Dataset available.
String can be used; will be transformed into URI.
theme/ cate-
dcat:theme,
gory
subproperty of
skos:Concept
This property refers to a category of the Dataset. A Dataset may be associated
with multiple themes.
voegen (1)
dct:subject
Existing domains used on portals can be supplied as string. Will be transformed into URI’s.
landing page
dcat:landingPage
foaf:Document
This property refers to a web page that provides access to the Dataset, its
Distributions and/or additional information.
0..1
Pagina
« Data en
hulpbron-
Is the link to the leaflet ‘bijsluiter’ page.
nen »
(1): deze velden zijn sowieso voorzien binnen CKAN en kunnen niet gekozen worden.
Bijlage 3: Metadata DCAT-CKAN
59
Open Data Handleiding
Language
dct:language
dct:Linguis-
This property refers to a language of the Dataset. This property can be repea-
ticSystem
ted if there are multiple languages in the Dataset.
0..n
Taal (2)
0..1
Datum
One of (‘en’, ‘nl’, ‘fr’, ‘de’, ‘zxx’). Will be translated into URI’s.
release date
dct:issued
rdfs:Literal
This property contains the date of formal issuance (e.g., publication) of the
typed as xsd:da-
Dataset.
publicatie
(2)
teTime
update/ modi-
dct:modified
fication date
rdfs:Literal ty-
This property contains the most recent date on which the Dataset was chan-
ped as xsd:date
ged or modified.
0..1
Laatst
gewijzigd
(2)
or xsd:dateTime
(2): voorstel naamgeving in te geven als vrij veld in CKAN
Optionele metadata voor een dataset zijn:
Property
URI
Range
Usage note
Card
CKAN
conforms to
dct:conformsTo
dct:Standard
This property refers to an implementing rule or other specification.
0..n
Compliant
met stan-
Example: URI of OSLO.
Frequency
dct:accrualPerio-
dct:Frequency
This property refers to the frequency at which Dataset is updated.
dard (2)
0..1
Update
frequentie
dicity
(2)
Will be using the value vocabulary supplied at http://purl.org/cld/freq/
dutch translations of the labels:
* Jaarlijks
* Tweejaarlijks
* Tweemaandelijks
* Tweewekelijks
* Doorlopend
* Dagelijks
* Onregelmatig
* Maandelijks
* Driemaandelijks
* Halfjaarlijks
* Halfmaandelijks
* Halfweeklijks
* Drie keer per maand
* Drie keer per week
* Drie keer per jaar
* Driejaarlijks
* Wekelijks
Identifier
dct:identifier
rdfs:Literal
This property contains the main identifier for the Dataset, e.g. the URI or
0..n
Zie URI
0..n
extra veld:
other unique identifier in the context of the Catalogue.
other iden-
adms:identifier
adms:Identifier
tifier
This property refers to a secondary identifier of the Dataset, such as MAST/
ADS, DataCite, DOI, EZID or W3ID.
identifier
(zie VRIND
identifier)
spatial/
dct:spatial
dct:Location
This property refers to a geographic region that is covered by the Dataset.
0..n
needs further elaboration (NGI, AGIV, …)
coverage
temporal
Geografische Dek-
geographical
dct:temporal
coverage
dct:PeriodOf-
This property refers to a temporal period that the Dataset covers.
king (2)
0..n
Time
Dekking in
Tijd (2)
Use:
schema:startDate
schema:endDate.
Version
schema:version
rdfs:Literal
This property contains a version number or other version designation of the
0..1
Versie (2)
0..1
Versie
Dataset.
Use semantic versioning: MAJOR.Minor.patch
version notes
adms:versionNotes
rdfs:Literal
This property contains a description of the differences between this version
and a previous version of the Dataset.
Nota’s (2)
(2): voorstel naamgeving in te geven als vrij veld in CKAN
Bijlage 3: Metadata DCAT-CKAN
60
Open Data Handleiding
Distributie
Hier gaat het om de metadata toe te kennen aan de distributie (dump of api).
Verplichte velden voor een distributie zijn:
Property
URI
Range
Usage note
Card
CKAN
access URL
dcat:accessURL
rdfs:Resource
This property contains a URL that gives access to a Distribution of the
1..n
URL van
Dataset. The resource at the access URL may contain information about
distributiepa-
how to get the Dataset.
gina
Aanbevolen velden voor distributie zijn:
Property
URI
Range
Usage note
Card
CKAN
Description
dct:description
rdfs:Literal
This property contains a free-text account of the Distribution. This proper-
0..n
Omschrijving
ty can be repeated for parallel language versions of the description.
Format
dct:format
dct:MediaType-
This property refers to the file format of the Distribution.
(1)
0..1
Mediatype (2)
0..1
Licentie (1)
0..1
Aantal Bytes
OrExtent
Use file extension in lower case.
Licence
dct:license
dct:LicenseDocu-
This property refers to the license under which the Distribution is made
ment
available.
For Flemish government: use one of the 4 licenses.
byte size
dcat:byteSize
rdfs:Literal
This property contains the size of a Distribution in bytes.
(2)
typed as xsd:deTitle
dct:title
cimal
In bytes.
rdfs:Literal
This property contains a name given to the Distribution. This property can
0..n
Titel (1)
0..1
Datum Publi-
be repeated for parallel language versions of the description.
release date
dct:issued
rdfs:Literal ty-
This property contains the date of formal issuance (e.g., publication) of the
ped as xsd:date
Distribution.
catie (2)
or xsd:dateTime
update/ modi-
dct:modified
fication date
rdfs:Literal ty-
This property contains the most recent date on which the Distribution
ped as xsd:date
was changed or modified.
0..1
Laatst gewijzigd(2)
or xsd:dateTime
(1): deze velden zijn sowieso voorzien binnen CKAN en kunnen niet gekozen worden.
(2): voorstel naamgeving in te geven als vrij veld in CKAN
Optionele properties voor een distributie zijn:
Property
URI
Range
Usage note
Card
CKAN
Checksum
????
rdfs:Literal
This property contains the checksum
0..1
NVT
download
dcat:downloa-
rdfs:Resource
This property contains a URL that is direct link to a downloadable file in a
0..n
URL van
URL
dURL
media type
dcat:mediaType,
dct:MediaType-
This property refers to the media type of the Distribution if this is defined
0..1
Mediatype (2)
subproperty of
OrExtent
in IANA.
dct:RightsState-
This property refers to a statement that specifies rights associated with
0..1
Rechten (2)
ment
the Distribution.
skos:Concept
This property refers to the maturity of the Distribution
0..1
Status (2)
.
given format.
download
dct:format
Use mimetype. Will be transformed into URI.
Rights
dct:rights
Use to make the rights of the publisher explicit.
Status
adms:status
One of: ‘completed’,’under development’, ‘deprecated’, ‘withdrawn’. Will be
transformed into URI.
(1): deze velden zijn sowieso voorzien binnen CKAN en kunnen niet gekozen worden.
(2): voorstel naamgeving in te geven als vrij veld in CKAN
Bijlage 3: Metadata DCAT-CKAN
61
Open Data Handleiding
BIJLAGE 4 OVERZICHT AANBEVELINGEN
1/ Verifieer welke intellectuele eigendomsrechten rusten op de data die u ter beschikking wil stellen. Indien de instantie niet de rechthebbende is van deze intellectuele eigendomsrechten, sluit ze een overeenkomst af met de huidige rechthebbende. Voeg in elke toekomstige overeenkomst of overheidsopdracht met derde partijen voor het creëren van datasets of documenten een bepaling toe waarin de instantie de nodige
rechten verkrijgt om de resultaten als Open Data beschikbaar te maken.
2/ Controleer of met de beschikbaarstelling van de data geen belangen worden geschonden die beschermd worden in het decreet van 26
maart 2004 betreffende de openbaarheid van bestuur.
3/ Controleer voor de data worden beschikbaar gemaakt of zij geen persoonsgegevens bevatten.
4/ Publiceer eerst die gegevens die al beschikbaar zijn en die een meerwaarde voor burgers, bedrijven of organisaties kunnen betekenen.
5/ Bepaal of voor het hergebruik van de data een vergoeding zal worden gevraagd. Leg criteria vast voor de berekening van deze vergoeding
en organiseer de procedure voor de betaling van de vergoeding.
6/ Indien het onderscheid tussen de vergoeding voor commercieel en niet-commercieel hergebruik noodzakelijk is, leg een duidelijke omschrijving van het begrip ‘commercieel’ vast, waarbij het gebruik door een handelaar met winstoogmerk als commercieel wordt beschouwd.
7/ Gebruik voor het beschikbaar maken van de Open Data de modellicenties van de Vlaamse overheid. Kies bij voorkeur voor één licentie voor
alle soorten hergebruik, zonder onderscheid tussen commerciële en niet-commerciële doeleinden.
8/ Kies een scenario voor het ontsluiten van brongegevens met het oog op de publicatie als Open Data en pas dit toe.
9/ Controleer minimale criteria inzake kwaliteit en consistentie alvorens een dataset wordt gepubliceerd op het Open Data platform.
10/ Gebruik zoveel mogelijk open formaat zoals CSV.
11/ Indien u zelf een API bouwt raden wij aan een RESTful Web API aan te bieden en toegang te verlenen zonder het gebruik van een API key.
12/ Voorzie de nodige technische middelen om Open Data beschikbaar te maken.
13/ Maak de data beschikbaar via de eigen website of de website van een derde partij-verstrekker en plaats een link naar de vindplaats op
het Vlaams Open Data Platform (ckan).
14/ Duid een persoon of dienst aan die verantwoordelijk is voor het Open Data beleid in de instantie. Creëer een Open Data contactpunt
voor communicatie binnen de instantie, met de Vlaamse overheid en met de burger.
15/ Plaats een contactadres of web formulier op de website voor het vragen van verdere informatie of het geven van feedback door de hergebruikers van de data.
16/ Gebruik de modellicenties van de Vlaamse overheid en plaats een link ernaar in de licentiebepaling bij de data, met gebruik van de “rel=licence” attribuut.
17/ Indien een vergoeding wordt gevraagd, toon de gebruiker op een duidelijke wijze hoeveel hij moet betalen en hoe hij de betaling moet
uitvoeren om toegang te krijgen tot de data of dienst.
18/ Indien de data via een dienst wordt beschikbaar gemaakt, plaats een “informatiefiche” of service level engagement bij de dienst met uitleg
over de performantie van de dienst en de verwachtingen die de gebruiker mag hebben van de werking van de dienst.
19/ Maak voor elke van uw datasets een begeleidende pagina die in duidelijk verstaanbare taal aangeeft waarover de data gaan, waarom ze
zijn verzameld en waarvoor ze gebruikt worden.
20/ Plaats informatie over de data ook in het Engels op de website, en verwijs naar de Engelse versie van de Vlaamse Open Data licenties.
21/ Om een vlotte uitwisseling van dataset beschrijvingen mogelijk te maken, raden wij aan zoveel mogelijk velden uit het op Belgisch niveau
afgesproken DCAT profiel te gebruiken, zelfs binnen CKAN via vrije velden indien nodig. Zie bijlage 3 voor een overzicht.
22/ Maak een evaluatie van het succes van de Open Data praktijk van uw instantie. Deel uw ervaringen met andere instanties via het Open
Data Forum.
Bijlage 4: Overzicht aanbevelingen
62
Open Data Handleiding
versie 19/11/2014
WOORDENLIJST
Term
Verklaring
API
Application Programming Interface, specificatie hoe met software componenten te communiceren
DWH
Data Ware House
ETL
Extract, Transform, Load: proces en techniek uit de datawarehouse wereld om gegevens consistent te verzamelen en
te publiceren in een data warehouse
ETP
Extract, Transform, Publish: afgeleid proces van ETL, waarin dezelfde technieken worden gebruikt om informatie te
verzamelen en consistent te maken. Enkel de laatste stap (Publish), bevat een aantal andere tools en technieken om
de data set (ook) als Open Data te publiceren.
Gestructureerde
Data die binnen een file gelabeld zijn en bijgevolg gemakkelijk kunnen opgevraagd en verwerkt worden (machine-processable)
Data
Master Data
Stamgegevens
MDM
Master Data Management
Open Data Platform
“Gouden Gids” platform waarin alle Open Data sets in gelijst worden, met referentie naar de dataset zelf. Voor Vo is
dit platform op CKAN gebouwd
Open Data set
Dataset die voldoet aan alle criteria van Open Data (formaat, kwaliteit, machine leesbaar, etc) en die door derden kan
gebruikt worden
Open formaat
Een gepubliceerde specificatie voor de opslag van digitale data, meestal onderhouden door een standaardisatie organisatie, die derhalve door iedereen kan worden gebruikt en geïmplementeerd.
REST
Representational state transfer (REST), een software-architectuur voor gedistribueerde systemen zoals het WWW
URI
Uniform Resouce Identifier
VRIND
Vlaamse Regio Indicatoren
Web API
API gebruik makend van web technologie, in veel gevallen via het http protocol.
Woordenlijst
63