Automatisch categoriseren van bedrijven met machine learning.
Doelstelling
In dit project wordt een machine learning model ontwikkeld dat op basis van de tekst van bedrijfswebsites deze automatisch categoriseert als innovatief bedrijf of niet. De methode ontwikkeld in dit project kan een complementaire statistiek opleveren voor huidige innovatie-statistieken, die traditioneel geproduceerd worden op basis van de Community Innovation Survey bevraging. Deze nieuwe statistiek heeft als voordeel frequenter geproduceerd te kunnen worden, alsook de volledige set ondernemingen in België te kunnen bevragen in plaats van een steekproef.
De bedoeling is hierbij niet om een nieuwe statistiek te ontwikkelen voor de volledige populatie van bedrijven. Wel moet dit project de haalbaarheid aantonen van deze aanpak op basis van een steekproef van Belgische bedrijven. Indien succesvol zal deze aanpak worden opgeschaald naar de volledige set ondernemingen in België.
Dit project werd uitgevoerd in het kader van een stage en masterproef(PDF bestand opent in nieuw venster). De gedetailleerde beschrijving van deze studie kan je hierin terugvinden.
Gebruikte data
De studie maakt gebruik van de steekproef van Vlaamse bedrijven opgenomen in de Community Innovation Survey (CIS) van 2019. De volgende gegevens van organisaties worden gebruikt in de studie: bedrijfsnaam, URL indien gekend, inno5-label. Het inno5-label duidt aan of een bedrijf beschouwd wordt als innovatief of niet.
Verder wordt in de studie door middel van web scraping de zichtbare tekst verzameld van de bedrijfs-URLS van bedrijven opgenomen in de CIS.
Gebruikte methode
In dit project wordt gebruik gemaakt van de volgende methoden.
- Web scraping om de zichtbare teksten van de bedrijfswebsites te verzamelen.
- Natural Language Processing om de gescrapete teksten op te schonen.
- Machine Learning voor het leren van een model dat op basis van de tekst gevonden op een bedrijfswebsite deze categoriseert als innovatief of niet-innovatief.
Resultaat
De resultaten hierin beschreven tonen aan dat het haalbaar is om op basis van de tekst gevonden op bedrijfswebsites automatisch te categoriseren als innovatief of niet-innovatief bedrijf.
Op basis van dit positief resultaat zal er een vervolgproject opgestart worden om deze methode te generaliseren voor de hele populatie Belgische ondernemingen.