Vlaams Twitter sentiment
In dit project werd een nieuwe statistiek over het sentiment van Vlamingen op Twitter ontwikkeld.
Dit project werd stopgezet omwille van de sterk gestegen kostprijs en niet gegarandeerde beschikbaarheid van de brondata.
Utkomsten
- Een overzichtspresentatie van dit project de sleutelbevindingen aanhaalt: Klik hier(opent in nieuw venster)
- Een publicatie over risico’s verbonden aan het werken met externe databronnen, zoals Twitter/X, met suggesties voor risico-mitigatie: Klik hier(opent in nieuw venster)
Doelstelling
Het doel van dit project is het ontwikkelen van een nieuwe experimentele statistiek op basis van het sentiment van Vlaamse Tweets.
Met sentiment van een Tweet wordt ‘de mening van de auteur van de Tweet over de inhoud van de Tweet’ bedoeld. Voor deze statistiek wordt sentiment gecategoriseerd in 3 klassen:
- positief: de auteur van de Tweet uit zich positief over het onderwerp van de tweet;
- negatief: de auteur van de Tweet uit zich negatief over het onderwerp van de Tweet;
- neutraal: de auteur uit zich niet duidelijk positief of negatief over het onderwerp van de Tweet.
Het ontwikkelen van deze statistiek zal toelaten om quasi-realtime inzicht te krijgen in het sentiment van Vlaamse Twittergebruikers.
Deze statistiek laat toe om meteen de impact van gebeurtenissen op het sentiment van de actieve Twitter-bevolking te monitoren.
Gebruikte data
Elk uur van de dag worden willekeurig 500 Nederlandstalige Tweets komende van Belgische accounts opgevraagd via de Twitter development API.
Dit project heeft enkel als doel een geaggregeerde sentiment-statistiek te ontwikkelen op basis van willekeurige steekproeven van Tweets. De selectie van de steekproef gebeurt door Twitter via de Twitter Development API. Er wordt geen monitoring gedaan van individuele Twitter-gebruikers.
Onderliggend onderzoek
Het gebruik van Twitter-data voor het produceren van openbare statistieken is nieuw, en roept de nodige methodologische en maatschappelijke vragen op. Om deze vragen te beantwoorden werden er reeds enkele studies uitgevoerd, en zal er in de toekomst nog verder onderzoek plaatsvinden. Zo werden er al studies gedaan over de volgende onderwerpen:
- Het analyseren van selectiviteit in de populatie van Twitter-gebruikers.
- Het vergelijken van Twitter-statistieken rond het specifieke beleidsdomein ‘levenslang leren’ met bestaande statistieken.
- Het vergelijken van verschillende categorieën sentimentmodellen voor Vlaamse Tweets.
- Het in kaart brengen van verschillen tussen socio-demografische groepen in manuele sentiment-labelling van Tweets voor het opstellen van een correcte trainingset voor machine learning modellen.
De resultaten van dit onderzoek worden door de Data Science Hub rechtstreeks gebruikt om er voor te zorgen dat de resulterende statistiek “Vlaams Twitter sentiment” van zo hoog mogelijke kwaliteit is.
Verwerking van persoonsgegevens
Bij het uitvoeren van dit project worden Tweets verwerkt van Twitter-accounts met een locatie in België. Omdat Tweets onder de definitie van persoonsgegevens1 vallen, dient de Vlaamse Statistische Autoriteit (VSA) wetgeving en richtlijnen rond de verwerking van persoonsgegevens na te leven, zoals onder andere de Algemene Verordening Gegevensbescherming (AVG).
De VSA heeft als taak van algemeen belang (in navolging van het Bestuursdecreet van 7 december 2018, meer bepaald Afdeling 8. Organisatie van het statistiekbeleid, Artikel III.107. t.e.m. 113) de coördinatie van de ontwikkeling, productie en verspreiding van de Vlaamse openbare statistieken en de kwaliteitszorg ervan. De verdere verwerking voor statistische doeleinden (van de VSA) wordt door de AVG als verenigbaar beschouwd met de oorspronkelijke doeleinden (van Twitter). De VSA heeft met Twitter een overeenkomst afgesloten waarin onder andere statistiekdoeleinden van de VSA vastgelegd zijn. Voor de verwezenlijking van die doeleinden verwerkt de VSA enkel de daarvoor noodzakelijke persoonsgegevens (zie infra), die niet langer dan nodig bewaard worden (zie infra).
De Tweets worden op volgende manier verwerkt:
elk uur worden ± 500 willekeurige Nederlandstalige Tweets komende van Belgische Twitter-accounts verkregen via de Twitter Development API. Via die application programming interface (API) wordt voor elke Tweet de Twitter-gebruikersnaam, de Tweet-ID, de tekst van de Tweet, de datum, het aantal likes, en het aantal retweets verkregen. Het aantal likes en retweets worden standaard door de Twitter-API meegegeven, maar worden niet verder verwerkt;
de verkregen Tweets krijgen door middel van een machine-learning-model dat ontwikkeld en beheerd wordt door de VSA een sentimentscore toegewezen (namelijk positief, neutraal of negatief);
de sentimentscores worden per uur, dag, week, maand en jaar geaggregeerd. Ook worden de meest voorkomende woorden in de Tweets bijgehouden. Deze meest voorkomende woorden worden bij de sentiment statistiek getoond als extra duiding rond waarover er op elk tijdstip getweet wordt. Er worden in geen geval analyses gedaan op individuele Twitter-accounts. De Twitter-gebruikersnamen worden uitsluitend gebruikt om ervoor te zorgen dat elk Twitter-gebruiker een gelijke impact heeft op de geproduceerde statistiek, ongeacht het aantal Tweets dat de betreffende Twitter-gebruiker geschreven heeft;
tijdens de gehele ontwikkelfase van dit project worden de Tweet-gegevens bewaard door de VSA. Dit is nodig voor het uitvoeren van controles over de kwaliteit van de statistiekproductie. De gegevens worden bewaard in een omgeving die enkel toegankelijk is voor medewerkers van de VSA;
zodra het Twitter-sentiment gepubliceerd is, bewaart de VSA de Tweet-gegevens nog maximaal 12 maanden voor het uitvoeren van kwaliteitsmonitoring van de statistiekproductie. De geaggregeerde sentimentscores en de gegevens over de woordfrequentie zullen zolang als de statistiek wordt aangeboden door de VSA bewaard worden.
Een betrokkene, van wie de VSA persoonsgegevens verwerkt, heeft het recht om inzage van en rectificatie of wissing van persoonsgegevens of om beperking van de hem betreffende verwerking te verzoeken, alsmede het recht om tegen de verwerking bezwaar te maken. Dergelijke verzoeken kunnen ingediend worden bij de functionaris voor gegevensbescherming (Data Protection Officer/DPO) van de VSA via dpo.sv@vlaanderen.be(opent in uw e-mail applicatie) .
Een betrokkene heeft altijd het recht om een klacht in te dienen:
over een Vlaamse instantie (zoals de VSA) bij de Vlaamse Toezichtcommissie voor de verwerking van persoonsgegevens (VTC), die alleen bevoegd is voor instanties van de Vlaamse overheid. Het klachtenformulier kan u na het invullen per e-mail (contact@toezichtcommissie.be(opent in uw e-mail applicatie)) versturen of per post versturen (ter attentie van de Vlaamse Toezichtcommissie, Koning Albert II-laan 15, 1210 Brussel);
bij de Gegevensbeschermingsautoriteit (GBA), dit is de federale toezichthoudende autoriteit op het gebied van persoonsgegevensbescherming. Het klachtenformulier(opent in nieuw venster) kan u na het invullen via de website versturen of afdrukken en per post versturen (ter attentie van de Gegevensbeschermingsautoriteit, Drukpersstraat 35, 1000 Brussel),
en om bij de rechter beroep in te stellen tegen de verwerking van de gegevens door de VSA.
1Art. 4, 1) AVG “persoonsgegevens”: alle informatie over een geïdentificeerde of identificeerbare natuurlijke persoon („de betrokkene”); als identificeerbaar wordt beschouwd een natuurlijke persoon die direct of indirect kan worden geïdentificeerd, met name aan de hand van een identificator zoals een naam, een identificatienummer, locatiegegevens, een online identificator of van een of meer elementen die kenmerkend zijn voor de fysieke, fysiologische, genetische, psychische, economische, culturele of sociale identiteit van die natuurlijke persoon.