onderzoeksprogramma-methodologie-2025-2030.pdf

Type: Document | Status: ready

14

Uitdagingen Het werken met ‘Big data’ biedt kansen voor de officiële statistiek. Echter, daar waar er veel ervaring is met registerdata - op het CBS en bij andere officiële statistische bureaus – is het gebruik van ‘Big data’ nog geen routine. De eigenschappen van dergelijke bronnen verschillen fundamenteel met die van data verzameld met behulp van primaire waarneming en wijken vaak ook af van registerdata. ‘Big data’ bronnen worden namelijk niet specifiek voor de officiële statistiek gegeneerd en zijn het gevolg van de interactie tussen computersystemen en personen en bedrijven, waardoor i) de kwaliteit slecht kan zijn, ii) de inhoud relatief snel kan veranderen over de tijd en iii) er een vertaalslag noodzakelijk kan zijn om van ruwe gegevens naar de gewenste statistische concepten te komen. Dit maakt kwaliteitsonderzoek, op verschillende niveaus, noodzakelijk. Er is een dringende behoefte aan het ontwikkelen van methodologie om op een betrouwbare manier informatie uit ‘Big data’ bronnen te halen. Hierbij kan veel geleerd worden van de ervaringen met het gebruik van registergegevens op het CBS. De volgende problemen worden herkend bij het gebruiken van ‘Big data’ voor de officiële statistiek.

Ten eerste, omdat ‘Big data’ door anderen (vaak private bedrijven) zijn verzameld ontbreekt vaak gedetailleerde kennis over het dataverzamelingsproces (het bron -niveau) en ook over de aanwezige concepten en hun definities (het metadata-niveau) is weinig bekend. Voor registers is hiervoor een kwaliteitskader opgesteld, iets dergelijks is voor ‘B ig data’ nog niet volledig uitgewerkt. Enkele onderzoeksvragen zijn dan ook: hoe meet je de statistische concepten betrouwbaar in ‘Big data’? Hoe kun je de validiteit en betrouwbaarheid van metingen in ‘Big data’ vaststellen? Omdat gebleken is dat de inhoud en samenstelling van ‘Big data’ bronnen relatief snel kan veranderen, wat tot zogenaamde ‘concept-drift’ kan leiden, is het belangrijk methoden te ontwikkelen om deze drift te detecteren en ervoor te corrigeren.

Ten tweede, omdat ‘Big data’ fouten kunnen bevatten is het noodzakelijk deze te herkennen en ervoor te corrigeren. Ook kunnen er gegevens ontbreken (bijvoorbeeld doordat sensoren minder goed of zelfs helemaal niet meer functioneren). Hoe signaleren we deze fouten en hoe corrigeren we daarvoor? Een ander belangrijk punt is het corrigeren voor selectiviteit van ‘Big data’. Omdat officiële statistieken altijd over een bepaalde populatie worden gepubliceerd, is onderzoek naar de populatiesamenstelling van (de eenheden in) ‘Big data’ bronnen een belangrijk onderzoeksonderwerp. Hierbij moet niet alleen gedacht worden aan de representativiteit van de eenheden, maar ook aan het eenduidig identificeren van die eenheden. Dit maakt het trekken van steekproeven niet triviaal. Ook zijn de grote hoeveelheden data in dergelijke bronnen uitermate geschikt voor onderzoek naar bijzonder e groepen van eenheden. Kortom, enkele onderzoeksvragen binnen dit onderdeel zijn: wat zijn de eenheden in ‘Big data’ en hoe corrigeren we voor de selectiviteit van deze eenheden?

Ten derde, ‘Big data’ bronnen bevatten niet alleen numerieke gegevens maar vaak ook teksten, afbeeldingen of ruimtelijke informatie. Uit deze vormen van ‘data’ kunnen voor het CBS bruikbare gegevens worden geëxtraheerd. Dit is een relatief nieuw terrein binnen de officiële statistiek, wat het ontwikkelen van nieuwe methodologie noodzakelijk maakt.
Daarbij bevatten veel ‘Big data’ bronnen zeer grote hoeveelheden gegevens en het is (meestal) noodzakelijk deze gegevens binnen de beveiligde omgeving van het CBS te verwerken en te analyseren. Daarvoor dienen er efficiënte methoden ontwikkeld te worden die dit mogelijk maken. Deze behoeften en eigenschappen zorgen ervoor dat dit werk zich bevindt op het grensvlak van methodologie en IT.

15

Enkele onderzoeksvragen binnen dit onderdeel zijn: hoe worden ‘Big data’ verzameld en opgeslagen bij het CBS? Welke geavanceerde methoden (bijvoorbeeld uit het werkveld van de ‘Artificial Intelligence’) kunnen worden gebruikt voor het analyseren van en het extraheren van informatie uit ‘Big data’? Denk daarbij aan convolutionele netwerken voor het analyseren van beelden (zoals bijvoorbeeld luchtfoto’s). Enkele relevante onderzoeksvragen zijn: welke methoden lenen zich goed voor het analyseren van beelddata? Welke voorbewerkingsstappen van beelddata zijn noodzakelijk alvorens de data geanalyseerd kan worden? Kunnen we luchtfoto’s gebruiken om bijvoorbeeld het bodemgebruik te herkennen?

Waarschijnlijk de grootste bulk van secundaire data betreft zogenaamde ‘vrije tekst’ (denk aan vacatures, social media berichten of websites van bedrijven). Het CBS heeft afgelopen jaren onderzoek gedaan naar Natural Language Processing methoden, met recentelijk een studie naar de potentie van Large Language Models (LLMs) voor het analyseren van vrije tekst. Kunnen LLMs betrouwbaar statistische classificaties uitvoeren op basis van vrije teksten?
Tenslotte is er nog een schat aan sensor data mogelijk interessant voor de officiële statistiek, zoals aardobservatie data en wegsensoren. Hoe verwerken we dergelijke ‘big data’ op efficiënte manier en wat zijn potentiële toepassingen van aardobservatie binnen de officiële statistiek?

16

Data integratie

Bij het samenstellen van statistieken is het niet altijd mogelijk om dit op basis van één enkele bron te doen. Het combineren van verschillende gegevensbronnen (verkregen uit enquêtes, registers of ‘Big data’) biedt veel meer mogelijkheden. Het integreren van zulke databronnen is echter niet eenvoudig. Dit thema onderzoekt methoden voor het integreren van (micro)data en kwaliteitsmaten voor deze (geïntrigeerde) data . Daarnaast wordt er onderzoek gedaan naar integratie op het (macro)niveau van statistieken. Hierbij worden methoden ontwikkeld om de consistentie te waarborgen tussen statistieken die vergelijkbare concepten behandelen, maar op basis van verschillende databronnen zijn samengesteld.

Niche en urgentie De afgelopen decennia is het aantal beschikbare databronnen flink toegenomen. Deze data kan verschillende vormen aannemen zoals administratieve-, tekst-, beeld- en sensor-data. Statistieken maken uitsluitend op basis van een enkele van bron is niet altijd reëel, bijvoorbeeld omdat in zo’n bron delen van de populatie ontbreken (selectiviteit) of omdat de gemeten variabelen onvoldoende aansluiten bij de beoogde variabelen (meetverschillen). Echter, door al deze verschillende databronnen te integreren is er veel meer mogelijk. Zo kunnen we mogelijk nieuwe statistische informatie genereren, nieuwe variabelen berekenen, meer gedetailleerde en tijdige output realiseren en bovendien voor subpopulaties die nu nog (deels) buiten de waarneming vallen. Daarnaast kan het gebruikt worden om kwaliteit van de bronnen te toetsen. Binnen de statistische afdelingen van het CBS is er de laatste jaren ook in toenemende mate belangstelling om gebruik te maken van combinaties van bronnen bij het maken van statistieken. Het doel van de afdelingen is om informatie uit meerdere beschikbare databronnen en enquêtes te benutten om zo veel mogelijk dekking te krijgen van de fenomenen die deze statistieken beschrijven. Voorbeelden hiervan zijn de energiestatistieken, zorgcijfers, arbeidsmarktstatistieken en het in kaart brengen van multiproblematiek. Er is ook steeds meer aandacht voor de kwaliteit van de bronnen en het proces van het combineren.
Dit thema onderzoekt methoden en kwaliteitsmaten voor het integreren van data. We kijken naar vijf groepen van uitdagingen die we geordend hebben van waarneming naar output. Het gaat om problemen die te maken hebben met (1) de beschikbare bronnen aan waarnemingskant, (2) koppelen van bronnen, (3) gaafmaak- en imputatiemethoden, (4) het maken van schattingen, en (5) onzekerheidskwantificatie. Uitdagingen De eerste (groep) uitdagingen richt zich op wat er nodig is aan de waarnemingskant om te bevorderen dat het CBS zoveel mogelijk gebruik kan maken van al beschikbare databronnen. Dit onderdeel is nieuw ten opzichte van het eerdere onderzoeksprogramma. V oor het CBS is niet altijd inzichtelijk welke informatie en databronnen er allemaal al beschikbaar zijn. Dat inzicht is een cruciale randvoorwaarde voor het herkennen van kansen op het gebied van data integratie. Kunnen we, bijvoorbeeld op basis van meta-data, automatisch afleiden welke data integraties op verschillende aggregatieniveaus mogelijk en nuttig zijn? Uit zo’n analyse zou naar voren kunnen komen dat bepaalde output alleen gemaakt wordt wanneer er bepaalde aanvullende informatie beschikbaar is om ‘tekortkomingen’ op te vangen in de al beschikbare bronnen. Hoe richt je enquêtes in die bedoeld zijn als aanvulling op al beschikbare informatie? Deze onderzoeksvraag willen we samen met thema ‘Primaire waarneming’ gaan bekijken.

17

Een tweede uitdaging is dat sommige bronnen lastig of onmogelijk te koppelen zijn op microniveau. Dat kan bijvoorbeeld komen doordat ze geen unieke koppelsleutels hebben
(probabilistisch koppelen), of omdat het gaat om twee bronnen met weinig overlappende eenheden (statistisch koppelen), of omdat de eenheidstypen van de twee bronnen onderling afwijken. Dat laatste is bijvoorbeeld het geval bij het identificeren en koppelen van websiteadressen aan het bedrijvenregister. Hoe kunnen we zulke data bronnen integreren? Het gaat hier om verbeteringen en uitbreidingen van methoden ten opzichte van het eerdere onderzoeksprogramma.

De derde groep van uitdagingen heeft ermee te maken dat er duidelijk onjuistheden in de beschikbare waarden van databronnen kunnen zitten en dat er ontbrekende waarden kunnen zijn. Binnen het thema richten we ons op het verbeteren en uitbreiden van automatische gaafmaak- en imputatiemethoden. We kijken naar nieuwe mogelijkheden om handmatig gaafmaken te vervangen door automatisch gaafmaken (ook bij een enkele bron). Nieuwe onderzoeksonderwerpen zijn het automatisch gaafmaken over bronnen heen waarbij er verbanden tussen variabelen zijn, en het (tegelijk) imputeren van meerdere variabelen. Daarnaast speelt dat de bestanden/databronnen waar we ons op richten bij het gaafmaken nu soms groter zijn dan ze vroeger waren. Kunnen bijvoorbeeld methoden uit het werkve ld van Artificial Intelligence fouten in databronnen automatisch opsporen en corrigeren?

De vierde uitdaging is dat we bij het maken van schattingen op basis van geïntegreerde databronnen vaak rekening moeten houden met bepaalde beperkingen zoals meet -, selectie – of koppelfouten in bronnen. Dit onderzoeksthema onderzoekt correctiemethoden voo r bovenstaande beperkingen. Deze methoden worden onderzocht op zowel microniveau (data) als op macroniveau (statistieken). Een onderdeel hiervan is onderzoek naar nieuwe methoden om niet-kanssteekproeven en kanssteekproeven te combineren.

De vijfde uitdaging richt zich op het kunnen kwantificeren van de onzekerheid (vertekening en variantie) van de output ten gevolge van de al genoemde beperkingen van de bronnen en ten gevolge van modelfouten. Doel hiervan is niet om een absoluut getal te k unnen geven van vertekeningen door alle mogelijke fouten, want dat is onmogelijk. Het gaat erom te bepalen hoe effectief bepaalde data integratie methoden zijn in termen van de nauwkeurigheid van de behaalde uitkomsten. Soms is het wenselijk meerdere methoden te vergelijken en te bepalen of de één tot nauwkeuriger resultaten leidt dan de andere. Tot nu toe hebben we vooral gekeken naar het effect van een enkele foutsoort op de nauwkeurigheid, nu gaan we ook kijken naar effecten van meerdere foutsoorten tegelijk zoals meet- en selectiefouten omdat in praktijk bij data integratie vaak meerdere fouten tegelijk een rol spelen.

18

Statistisch modelleren

De traditionele manier waarop statistieken bij het CBS worden samengesteld zorgt vaak voor een hoog abstractieniveau en vertraging in het publiceren van resultaten. Het opstellen van statistieken op basis van statistische modellering kan deze tekortkomingen verhelpen. Bovendien zijn deze technieken bijzonder geschikt om nieuwe fenomenen te analyseren. Zo is het mogelijk om iteratief concepten en definities van nieuwe fenomenen vast te stellen en te toetsen met statistische modellen . Dit thema heeft dus twee
hoofddoelen: ten eerste het verbeteren van statistische modelleringstechnieken voor het creëren van meer gedetailleerde en actuele statistieken die betrouwbare metingen van bepaalde fenomenen mogelijk maken; en ten tweede het toepassen van deze modellen op complexe fenomenen, met een specifieke focus op economie, welzijn en klimaat.

Niche en urgentie Veel statistieken op het CBS zijn nog steeds gebaseerd op de traditionele steekproeftheorie. Traditioneel zijn deze schattingsmethoden gebaseerd op het kans mechanisme van het steekproefontwerp. Hierbij wordt vaak gebruik gemaakt van hulpinformatie waarvan de verdelingen in de doelpopulatie bekend zijn uit bijvoorbeeld registraties. Deze schattingsmethodieken worden aangeduid als ‘design-based’ ( ook wel directe schatters genoemd), omdat schattingen alleen gebaseerd worden op steekproefwaarnemingen uit een bepaalde deelpopulatie en verslagperiode.

Directe schatters hebben een grote mate van onzekerheid als de steekproefomvang afneemt en kunnen niet goed omgaan met selectie- en meetfouten. Uitkomsten raken hierdoor vertekend, in toenemende mate door de steeds lager wordende responspercentages. Daarna ast zijn er systematische verschillen in de uitkomsten van een onderzoek ten gevolge van het implementeren van een andere veldwerkstrategie, die worden aangeduid als methodebreuken.
Een ander nadeel van de huidige manier van statistieken maken is dat het proces van steekproeftrekken, data verzamelen, verwerken en publiceren tijdrovend en kostbaar is. De klassieke kwaliteitsmaat voor statistieken is de betrouwbaarheid gemeten via de steekproeffout. Echter, tijdigheid, vergelijkbaarheid met uitkomsten uit het verleden en gedetailleerde uitsplitsingen zijn voor veel gebruikers minstens zo belangrijk. Wanneer gedetailleerde uitsplitsingen of schattingen gemaakt moeten worden voor korte referentieperioden is de steekproef vaak te klein om directe schatters te kunnen gebruiken.

Dit onderzoeksthema richt zich op het ontwikkelen van schattingsmethoden die veel sterker gebaseerd zijn op een statistisch model dan de traditionele directe schattingsmethoden. Een belangrijke voorbeeld zijn de zogenaamde Kleine-domeinschatters (KDS). KDS maken het mogelijk om gedetailleerde schattingen te maken die nauwkeuriger zijn dan de directe schatters. Daarnaast is het met KDS mogelijk om statistieken te versnellen en draagt daarmee bij aan één van de strategisch doelen in het Meerjarenplan van het CBS. Het maken van voorlopige schattingen voor een doelvariabele gedurende of vlak na de referentieperiode wordt in de literatuur als ‘nowcasten’ aangeduid. Verder kunnen modelgebaseerde schattings - methoden ingezet worden om beter te corrigeren voor selectieve non-respons. Methoden die ontwikkeld zijn voor ‘informative sampling’ en ‘non-probability sampling’ kunnen vaak beter corrigeren voor de selectiviteit van de toenemende non-respons dan de tot nu toe gebruikte weegmethoden. Met het wegvallen van een register met telefoonnummers dat gebruikt wordt