Digitaal Vlaanderen en Tamr testen adresmatching tussen twee bronnen met behulp van machine learning
De uitdaging: het matchen van adressen met een andere adressenstructuur
Digitaal Vlaanderen staat in voor het beheer en onderhoud van authentieke gegevensbronnen. Dit zijn gegevensbronnen die informatie bevatten die op vele plaatsen hergebruikt kan worden. Het adressenregister is zo één van die authentieke gegevensbronnen.
Momenteel bestaan er veel verschillende adressenbestanden die vaak een andere adresstructuur hanteren dan die van het adressenregister. Om succesvol aan te sluiten op de authentieke bron voor adressen, moeten alle adressenbestanden de adresstructuur van het adressenregister gebruiken.
Digitaal Vlaanderen heeft al een eigen algoritme ontwikkeld via hard gecodeerde matching om adressen met een andere adressenstructuur te matchen met de adressen in het adressenregister. Het matchingspercentage was hier echter nog niet voldoende om dit volledig automatisch te kunnen laten lopen.
De moeilijkheid van deze challenge was dat niet alleen de structuur van de adressen verschilt. Ook de schrijfwijze van straatnaam, huisnummer en busnummer kunnen lichtjes verschillen. Hierdoor is er een interpretatie nodig om de matching te doen.
Van een op regels gebaseerde aanpak, naar een combinatie van machine learning en menselijke input
Tamr(opent in nieuw venster) is een spin-off van het gerenommeerde Massachusetts Institute of Technology (MIT) en heeft een product ontwikkeld met een nieuwe benadering tot het beheersen en classificeren van data.
Met behulp van machine learning in combinatie met menselijke input - in plaats van een op regels gebaseerde aanpak- kunnen zeer grote hoeveelheden data gestructureerd en opgeschoond worden. De belangrijkste voordelen hiervan zijn de snelheid waarmee deze taken kunnen worden voltooid en de vermindering van de input die nodig is van data-experts uit een organisatie.
Het doel van deze POC was om na te gaan of we aan de hand van machine learning een hoger matchingpercentage kunnen halen dan met hard gecodeerde matching.
Om de PoC op te zetten leverde Digitaal Vlaanderen de te matchen adresdatabanken (beperkt tot de gemeente Geraardsbergen) en ook de bestaande matchingtabel. Tamr zette een omgeving op en er werden twee tests uitgevoerd: Tamr leerde haar algoritme matchen aan de hand van de bestaande matchingtabel én ook puur op basis van gerichte evaluatie van matches door een operator
Het hoofddoel van deze PoC was het matchen van adressen uit het gewestelijke adressenregister met adressen uit het Rijksregister. Omwille van gebruiksbeperkingen op de data van het Rijksregister moest uiteindelijk gebruik gemaakt worden van een iets minder correct adressenbestand dat wel de structuur van het Rijksregister heeft.
Hierbij bleek het matchingpercentage vermoedelijk hoger te liggen dan bij de hard gecodeerde matching, al is er nog meer analyse noodzakelijk om dit met zekerheid vast te stellen. Het resultaat was in ieder geval veelbelovend.
Digitaal Vlaanderen leerde in elk geval dat machine learning zeker een oplossing kan zijn voor deze uitdaging.
Jan Laporte (Relatiebeheerder, programma Authentieke Gegevensbronnen, Digitaal Vlaanderen): “We identificeerden verschillende cases waarin matches correct gevonden werden terwijl de hard gecodeerde matching een fout of geen resultaat gaf. Bovendien bleek het een extra meerwaarde dat dit systeem toelaat om meer dan twee databanken in te laden en te matchen. Het kan ook binnen één databank op zoek gaan naar identieke adressen. Dit resulteert als output in clusters van identieke adressen die een grote meerwaarde kunnen vormen voor iedereen die adressen in één van de bestaande formaten wenst te mappen op het nieuwe standaardformaat.”
Ondertussen zijn de resultaten van de PoC ook toegelicht aan een werkgroep onder het Federale Adrescomité, waar gewerkt wordt aan een matching voor alle adressen bij Federale instanties op de authentieke gewestelijke adressenregisters. Het werd goed onthaald en momenteel wordt overwogen om voor deze oplossing te kiezen.