Gedaan met laden. U bevindt zich op: 6. Next level: Linked open data Handboek 'Open Data voor lokale besturen'

6. Next level: Linked open data

Om de meerwaarde van open data ten volle te benutten is het cruciaal dat (lokale) overheden de extra mile gaan en data niet enkel opstellen maar ook linken (zie Hoofstuk 2.1 voor een beschrijving deze basisbegrippen). Dit hoofdstuk gaat daarom dieper in op het creëren van linked open data.

Overheidsdata vind je terug in erg uiteenlopende vormen: rapporten in PDF-formaat, lijsten in Excel-bestanden, notulen die in een tekstverwerker zijn gemaakt, geografische informatie die in GIS-databanken is opgenomen enzovoort. De manieren waarop deze data gepubliceerd worden, kunnen dus ook erg verschillen. Al deze bronnen moeten – over hun eigen silo heen – uniform en gestructureerd naar buiten worden gebracht. Zo kunnen (her)gebruikers er makkelijker mee aan de slag gaan en meerwaarde creëren.

Alle data die je publiceert als open data, kunnen ook gekoppeld worden via het web. We spreken dan over ‘linked open data’. Door dezelfde domeinmodellen en identificatoren te gebruiken, kunnen we data linken aan elkaar en wordt het makkelijker om verbanden tussen verschillende gegevens te zien, of om een bepaald gegeven in een bredere context te plaatsen. Zo kan je bijvoorbeeld het gebruik van een fietsdeelsysteem in een stad snel koppelen aan het weerbericht, of het energiegebruik aan een officiële lijst van adressen.

Tim Berners-Lee, de vader van het wereldwijde web, stelde in 2010 een manier voor om het verschil tussen open data en linked open data helder weer te geven: de vijf sterren voor open data (zie ook https://5stardata.info(opent in nieuw venster)). De sterren tonen hoe open data gepubliceerd kunnen worden, met als belangrijkste onderscheid de vorm van de data:

  • 1 ster: Data worden onder een open licentie op het web ter beschikking gesteld in gelijk welk formaat (bijvoorbeeld een PDF-document).
  • ★★ 2 sterren: Data worden ter beschikking gesteld in een gestructureerd formaat (bijvoorbeeld in een Excel-bestand in plaats van een afbeelding of PDF).
  • ★★★ 3 sterren: Data worden ter beschikking gesteld in een open, non-proprietary (niet-merk gebonden) formaat, bijvoorbeeld een CSV-bestand in plaats van Excel.
  • ★★★★ 4 sterren: De gepubliceerde data worden beschreven met links op het web, zodat anderen er makkelijk naar kunnen verwijzen (in een RDF-formaat).
  • ★★★★★ 5 sterren: De gepubliceerde data worden gelinkt aan andere data, zodat er automatisch meer contextinformatie toegevoegd kan worden (het RDF-formaat (her)gebruikt indicatoren van andere datasets).

Data in de categorie van de drie sterren vormen de technische definitie van open data die we in dit boek hanteren: data worden in machine-leesbare (gestructureerde) en open formaten ter beschikking gesteld, onder een open licentie voor (her)gebruik. Concreet betekent dit dat je bijvoorbeeld een lijst van rolstoeltoegankelijke parkeerplaatsen in de gemeente in CSV-formaat op een webpagina publiceert onder een open licentie. Maar vanuit technisch oogpunt wordt er ook steeds meer nagestreefd om de principes van het wereldwijde web sterker te gaan toepassen op data en om zo datasets te koppelen aan elkaar via links, net als pagina’s op het web.

Het bovenstaande model lijkt eropaan te sturen om steeds voor de volledige vijf sterren te gaan. Om linked open data mogelijk te maken zijn er echter extra technische ingrepen nodig op de bestaande data, die ook een aantal beheerskwesties met zich meebrengen. In het volgende deel gaan we dieper in op wat er precies nodig is om data ‘linkbaar’ te maken en wanneer het de moeite kan lonen om deze extra stap te zetten.

Vijf sterren model binnen Digitaal Vlaanderen

Minimaal 3 sterren open data is het streefdoel van de Vlaamse overheid. Om dit doel te bereiken heeft Digitaal Vlaanderen een Vlaamse URI standaard ontwikkeld (zie verder in hoofdstuk 6.2).

In de toekomst ambieert de Vlaamse overheid te evolueren naar 4 en 5 sterren open data voor de belangrijkste datasets en hierbij datasets publiceren als Linked Open Data (LOD). Om dit doel te bereiken hanteren ze volgende principes in lijn met het 5 sterren model van Tim Berners-Lee:

  • Gebruik van URIs om zaken te identificeren
  • Gebruik van HTTP URIs zodat objecten en concepten opgezocht kunnen worden (“dereferenced”) door personen
  • Geef bruikbare informatie terug wanneer iemand een URI opzoekt en maak hiervoor gebruik van open standaarden zoals RDF en SPARQL

Link naar gerelateerde objecten en concepten aan de hand van hun URI’s bij het publiceren van datasets.

​​​​​

Om datasets automatisch aan elkaar te koppelen en naar linked data te evolueren, moet je data op een uniforme manier beschrijven. Wanneer je vandaag een dataset aanmaakt, bijvoorbeeld een lijst van straten in een gemeente, zal je meestal aan elk onderdeel (of elke rij in de lijst) een bepaalde identificator meegeven. Veelal is dit een nummer, waardoor je binnen de dataset een onderscheid kunt maken tussen verschillende items. Maar deze identificator is enkel uniek binnen deze dataset: wanneer we verschillende datasets willen combineren, kan eenzelfde identificator naar verschillende items verwijzen en is het zowel voor een mens als voor een computer die de data gaat bevragen, niet duidelijk om welk item het gaat.

Dit gebrek aan uniformiteit maakt het dus problematisch om datasets te combineren met elkaar. Wanneer we ernaar willen streven om meer data samen te leggen om beleid op te stoelen en nieuwe toepassingen mogelijk te maken, is het koppelen van databronnen echter wel van groot belang. Dit wil zeggen dat een machine, die data gaat bevragen, de links tussen die datasets moet kunnen ontdekken en volgen. Bovendien moet die machine begrijpen over welke soort data het gaat om ze als een logisch en verstaanbaar geheel te presenteren. De semantiek die in de data vervat zit (i.e. de betekenissen/definities van woorden en begrippen), moet dus zowel voor mens als machine begrijpelijk worden. Door gebruik te maken van semantische standaarden wordt data niet enkel leesbaar voor mensen maar ook voor (artificiële intelligentie) machines.

Om dit probleem op te lossen wordt er vanuit technisch oogpunt een vrij voor de hand liggende oplossing geboden: in plaats van een zelfgekozen identificator te gebruiken om data te beschrijven, gebruiken we een link op het web. Door elk item in een dataset te voorzien van een link op het web die op een uniforme manier is opgesteld, wordt het veel makkelijker om (1) datasets te koppelen aan elkaar en (2) om de inhoud van de dataset een betekenis te geven die zowel door een mens als een machine begrepen kan worden. Het gebruik van webadressen (cfr. hyperlinks) of uniform resource identifiers (URI’s), beginnend met ‘http://’ voor globale identificatoren, is de kernidee van linked data.

Voorbeeld: VLAAMSE URI-STANDAARD VOOR DATA VAN DIGITAAL VLAANDEREN

Alle persistente URI’s moeten gevormd worden volgens het patroon:

http(s)://{domein}/{type}/{concept}(/{referentie})*

Op deze manier wordt het veel makkelijker om (1) datasets te koppelen aan elkaar en (2) om de inhoud van de dataset een betekenis te geven die zowel door een mens als een machine begrepen kan worden.

Meer informatie kan je lezen op het rapport ‘Vaamse URI-Standaard voor Data’ (Digitaal Vlaanderen)(PDF bestand opent in nieuw venster).

Om dit mogelijk te maken moet je data op een manier beschrijven waardoor er makkelijk links aan toegekend kunnen worden. Dit wil zeggen dat we data moeten opdelen in hun kleinste, meest atomaire delen. Wanneer je bijvoorbeeld een lijst hebt van parkeergarages in een stad of gemeente met een hoop informatie zoals het adres, het aantal plaatsen, de openingsuren, de locatie van de in- en uitritten, de tarieven, of er publieke toiletten zijn enzovoort, kan je al deze data ook beschrijven in korte ‘zinnetjes’. Je beschrijft de data dan bijvoorbeeld met uitspraken als ‘Parking 1 heeft 134 plaatsen’, ‘Parking 1 heeft een rolstoeltoegankelijk toilet’ of ‘Parking 3 heeft als adres Sint-Pietersplein 1’. Elk zinnetje bestaat uit een onderwerp, gezegde en een voorwerp (subject, predicate en object in het Engels). Het verband met taal wordt hier meteen duidelijk: het gaat om een semantische manier van data beschrijven. Vervolgens wordt aan elke uitspraak een link op het web toegewezen. Voor een hele hoop uitspraken bestaan er vandaag al zogenaamde vocabularia. Deze maken het mogelijk om voor typische uitspraken zoals ‘is een’ of ‘heeft een’ dezelfde webadressen te gebruiken. Ook voor een hele hoop objecten zijn er vocabularia beschikbaar, bijvoorbeeld om te beschrijven wat een stedelijke parkeergarage of een rolstoeltoegankelijke parkeerplaats is.

Om linked data te kunnen publiceren zijn dus twee basiszaken nodig:

  1. de data worden beschreven op hun meest atomaire niveau;
  2. aan elk item wordt een link op het web toegekend die zowel voor mens als machine verstaanbaar is.

Deze manier van data publiceren heeft een aantal duidelijke voordelen. Als we teruggrijpen naar het vijfsterrenmodel uit het vorige deel, worden data tot en met het derde niveau op het web gepubliceerd: een CSV-bestand wordt op een webpagina gepubliceerd onder een open licentie en kan door eenieder gedownload en (her)gebruikt worden. Maar vanaf de vierde ster wordt het mogelijk om data bij wijze van spreken in het web te publiceren: de data zijn integraal ‘linkbaar’ met andere data, waardoor – voorlopig in theorie – alle kennis op het web als contextinformatie gebruikt kan worden.

Deze aanpak is ook heel schaalbaar, net als het web zelf: omdat er enkel webpagina’s met data gepubliceerd dienen te worden en de verwerking of visualisatie van de data bij de eindgebruiker gebeurt, is er geen zware serverinfrastructuur nodig die ervoor moet zorgen dat complexe vragen naar de data snel en efficiënt beantwoord raken. Wanneer je als gebruiker van een routeplannerapplicatie in een linked data-wereld bijvoorbeeld naar een parkeergarage geleid wil worden die dicht bij een museum ligt, waar momenteel nog plaats vrij is en waar een rolstoeltoegankelijk toilet is, volgt die app enkel de links op het web om deze informatie op te vragen en je een route voor te stellen. Het maakt het voor een overheid dus ook relatief goedkoop om data te publiceren. Er is niet per se een datapublicatieplatform nodig dat bepaalde data ontsluit; het web is het platform.

Omdat er telkens links op het web gevolgd worden, is het ook veel makkelijker om altijd over up-to-date gegevens te beschikken. Wanneer er iets verandert aan de data, zoals een parkeertarief, volgt de applicatie de link en haalt die de meest recente informatie op. Maar ook wanneer er in real-time data gepubliceerd worden, zijn linked data erg nuttig, zoals bijvoorbeeld de bezetting van een parkeergarage die elke 30 seconden gepubliceerd wordt.

Hoewel de oplossing van webadressen technisch gezien niet per se de meest uitdagende is, is dat wel het geval voor wat het beheer van linked data betreft. Een openstaande kwestie is namelijk hoe om te gaan met het toekennen van een webadres: welke organisatie is hier verantwoordelijk voor en hoe maken we goede afspraken over heel Vlaanderen, België en de wereld om ervoor te zorgen dat webadressen correct toegewezen worden? De Vlaamse Overheid maakt alvast een eerste aanzet die ze heeft vastgelegd in de Vlaamse URI-strategie. Bovendien gaven we in hoofdstuk 2 aan dat een van de principes van open data is om zo dicht mogelijk bij de bron en dus decentraal data te publiceren. Linked data is een krachtige technologie om dit mogelijk te maken en bovendien op een zeer schaalbare en kostenefficiënte manier. Maar vandaag blijft het vraagstuk omtrent het toekennen van webadressen niet volledig opgelost.

Dit weerhoudt verschillende overheden er niet van om aan de slag te gaan met linked open data: de potentiële voordelen maken het de moeite waard om deze uitdaging verder aan te gaan. Een zekere pragmatiek is dus wel te verantwoorden. Vooral voor bestaande datasets kan de omschakeling naar linked data een investering vragen die op korte termijn een te beperkte winst zal opleveren. Maar voor authentieke bronnen, basislijsten en nieuwe databronnen kan linked open data wel winsten opleveren. Het Centraal Referentieadressenbestand (CRAB) van de Vlaamse Overheid is vandaag bijvoorbeeld beschikbaar als linked open data. Een ander belangrijk project van de Vlaamse Overheid wordt aan het einde van dit hoofdstuk in meer detail toegelicht: Lokale Besluiten als linked open data (LBLOD) mikt erop om alle besluiten van lokale overheden als linked open data ter beschikking te stellen. Op die manier kan er makkelijk een link gelegd worden naar elke beslissing die een lokaal bestuur neemt, een enorme basisbron van informatie.

Voorbeeld: CRAB

Door het Centraal Referentieadressenbestand (CRAB) kunnen applicaties de link leggen naar één officieel adres (of unit in een gebouw) en de daarbij horende informatie. Bijvoorbeeld: een lokale overheid publiceert extra informatie over haar gebouwen als linked open data, zoals de voorzieningen die erin beschikbaar zijn. Het gebruikt daarvoor de links uit het CRAB om het adres van het gebouw te beschrijven. Dan kan een applicatie die burgers een overzicht geeft van de voorzieningen in overheidsgebouwen, meteen het officiële adres integreren, ook al wordt deze data op verschillende plaatsen gepubliceerd. Wanneer de data van een voorziening of een adres veranderen, blijft de info in de applicatie automatisch up-to-date: de links worden gevolgd en de meest recente informatie meegedeeld.

Voorbeeld: LBLOD en GELINKT NOTULEREN

LBLOD staat voor Lokale Besluiten als Linked Open Data. Dit initiatief, opgezet door het Agentschap Binnenlands Bestuur (ABB), wil de (verplichte) publicatie en ontsluiting van lokale besluiten vereenvoudigen door gebruik te maken van linked open data-principes. Vandaag publiceren lokale besturen de publicatieplichtige beslissingen van de gemeenteraad meestal in PDF-formaat op hun website. Wat ze publiceren varieert tussen een besluit of reglement, een besluitenlijst, een beknopt of uitgebreid verslag of notulen. Daarnaast worden inzendplichtige besluiten verzonden naar of opgeladen op een portaal van de desbetreffende toezichthoudende overheid.

Voor authentieke bronnen en andere basislijsten die vaak geconsulteerd, geüpdatet en gedeeld worden, kunnen linked data dus een enorme meerwaarde betekenen. En zeker voor de aanmaak van nieuwe databronnen strekt het tot aanbeveling ten minste de mogelijkheden grondig te onderzoeken om de data als linked data te beschrijven. Hoe meer linked data er beschikbaar zijn, des te rijkere en interessantere toepassingen mogelijk zijn.

Overzicht: kosten en voordelen van vijfsterren open data

Dit kader (afkomstig uit https://5stardata.info/en/(opent in nieuw venster)) ​geeft een overzicht van de kosten (aangegeven met een ❗) en de voordelen van de verschillende soorten open data, zowel voor de (her)gebruiker als voor de organisatie die de gegevens publiceert.

1 ster

Als gebruiker van de data kan je de gegevens…

  • bekijken;
  • printen;
  • lokaal opslaan (bv. op een harde schijf of USB-stick);
  • invoeren in een ander systeem;
  • veranderen zoals je wil;
  • delen met wie je wil.

Als ontsluiter van de gegevens…

  • is het makkelijk om gegevens te publiceren;
  • hoef je niet aan anderen uit te leggen dat ze jouw data mogen gebruiken.

“Het is goed dat de data onder een open licentie beschikbaar zijn op het web, maar de gegevens zitten vast in een document. Tenzij er ‘scraper-software’ geschreven wordt, is het moeilijk om de gegevens uit het document te krijgen.”

★★ 2 sterren

Als gebruiker van de data kan je alles doen wat je met 1-ster-data kan, en bovendien kan je de gegevens…

  • verwerken met propriëtaire software (i.e. betalende software of non-open source software) om de data te aggregeren, te visualiseren, er berekeningen op te doen enzovoort;
  • exporteren naar een ander (gestructureerd) formaat.

Als ontsluiter van de gegevens…

  • is het nog steeds makkelijk om gegevens te publiceren.

De data zijn beschikbaar op het web in een gestructureerd formaat, maar zitten nog steeds opgesloten in een document. Om de data uit het document te krijgen heb je propriëtaire software nodig.”

★★★ 3 sterren

Als gebruiker van de data kan je alles doen wat je met 2-sterren-data kan, en bovendien kan je de gegevens…

  • zelf manipuleren zonder dat je daarvoor propriëtaire software nodig hebt.

Als ontsluiter van de gegevens…

  • is het nog steeds vrij makkelijk om data te publiceren;
  • ❗moet je mogelijk software inschakelen om de data te exporteren naar een propriëtair formaat.

Goed zo, de data zijn beschikbaar op het web en iedereen kan er makkelijk mee aan de slag. Het gaat echter nog steeds om data op het web en niet in het web.”

★★★★ 4 sterren

Als gebruiker van de data kan je alles doen wat je met 3-sterren-data kan, en bovendien kan je…

  • naar de gegevens linken vanaf eender welke plaats (op het web of lokaal);
  • de gegevens bookmarken;
  • gedeelten van de data (her)gebruiken;
  • mogelijk bestaande tools en libraries (her)gebruiken;
  • de gegevens veilig combineren met andere gegevens: URI’s zijn wereldwijde afspraken, dus als twee zaken dezelfde URI hebben, is dat bewust en de weg naar vijfsterrendata;
  • ❗moeilijker de structuur van een RDF-graph begrijpen dan andere gestructureerde data (zoals een CSV- of JSON-bestand).

Als ontsluiter van de gegevens…

  • heb je gedetailleerde controle over de data-items en kan je de toegang ertoe optimaliseren (bv. load-balancing, caching e.d.m.);
  • maak je het mogelijk dat andere data-publishers naar jouw data linken;
  • ❗is er meestal meer tijd nodig om data goed te beschrijven;
  • ❗moet je URI’s toekennen aan data-items en nadenken hoe data te beschrijven;
  • ❗moet je ofwel bestaande patronen (her)gebruiken of er zelf definiëren.

Nu gaat het om data in het web. De belangrijkste data-items hebben een URI en kunnen gedeeld worden op het web. Data worden beschreven door gebruik te maken van RDF, hoewel andere formaten zoals Atom ook omgezet of gemapt kunnen worden indien nodig.

★★★★★ 5 sterren

Als gebruiker van de data kan je alles doen wat je met 4-sterren-data kan, en bovendien…

  • kan je meer gerelateerde data ontdekken terwijl je data (her)gebruikt;
  • kan je rechtstreeks meer leren over het dataschema;
  • ❗ moet je nu leren omgaan met ‘kapotte’ datalinks;
  • ❗ is data weergeven vanaf gelijk welke link even riskant als andere content laten toevoegen op jouw webpagina. Voorzichtigheid en vertrouwen zijn dus nog steeds nodig.

Als ontsluiter van de gegevens…

  • maak je je data meteen vindbaar;
  • verhoog je de waarde van je data;
  • heeft je eigen organisatie evenveel voordeel bij de publicatie van de data als een (her)gebruiker;
  • ❗ zal je investeringen moeten doen om je data te linken aan andere data op het web;
  • ❗ zal je kapotte of onjuiste links moeten aanpassen of up-to-date houden.

Proficiat! Nu hebben we het over data in het web, gelinkt aan andere data. Zowel de gebruiker als de publisher doen hun voordeel bij het netwerkeffect dat bekomen wordt.

Om linked open data (en ook een betere gegevensuitwisseling) te bekomen is het nodig om afspraken te maken tussen verschillende overheden en bestuursniveaus (zie ook hoofdstuk 2.2.2). Deze afspraken worden geformaliseerd in Vlaanderen als ‘open standaarden’ in het standaardisatieprogramma Open Standaarden voor Linkende Overheden (OSLO) van het agentschap Digitaal Vlaanderen.

Binnen het OSLO-programma worden standaarden ontwikkeld op alle interoperabiliteitslagen (organisatorisch, technisch, syntactisch, semantisch). Deze worden vervolgens goedgekeurd door het Vlaams Stuurorgaan ICT. Dit orgaan werd opgericht met als doelen een betere synchronisatie tussen algemene IT-praktijken van alle entiteiten van de Vlaamse Overheid, en een meer uniforme implementatie van open standaarden.

SolidLab Vlaanderen(opent in nieuw venster) is een initiatief van de Vlaamse overheid in samenwerking met imec dat onderzoekt hoe het gebruik van persoonlijke digitale datakluizen (of data pods) burgers kan helpen om eenvoudig en bovenal op een veilige manier informatie op te slaan en te delen met andere actoren (zoals overheden, kennisinstellingen, ondernemingen, gezondheidsinstellingen – zie quadruple helix in hoofdstuk 4.5.1).

Om dit mogelijk te maken wordt er gesteund op de principes en technologie van Solid (http://www.solidproject.org/(opent in nieuw venster)). Solid laat mensen toe om alle soorten data (gaande van gestructureerde data tot gewone bestanden) op te slaan in gedecentraliseerde datakluizen of ook wel data pods genaamd. Deze kluizen of pods zijn beveiligde webservers die persoonlijk zijn voor elk individu.

Vervolgens kan iedereen individueel bepalen wie toegang heeft tot bepaalde persoonlijke data (cfr. andere mensen, bedrijven, overheden, kennisinstellingen alsook machines). Mensen hebben dus steeds zelf controle over welke data ze openstellen of net terugroepen.

Om ervoor de zorgen dat (gedeelde) data ook eenvoudig gelinkt kan worden aan elkaar werkt Solid met volledig interoperabele en open standaarden. Met andere woorden, wordt alle data op een gestructureerde manier opgeslagen zodat deze eenvoudig kan worden gedeeld en geraadpleegd door andere mensen én machines.