Onderzoeksprogramma Methodologie 2025-2030
December 2024
2
Inhoudsopgave 1. Speerpunten methodologisch onderzoek 2025-2030 3 2. Van speerpunten naar onderzoeksthema’s 7
Primaire waarneming 10
Big data 13
Data integratie 16
Statistisch modelleren 18
Complexiteit en causaliteit 22
Informatie beveiliging 25
Statistische informatie communicatie 28
Toepasbare Artificial Intelligence 31
3
- Speerpunten methodologisch onderzoek 2025-2030 Het CBS streeft naar betrouwbare, gedetailleerde, hoogfrequente en fenomeen-gerichte statistieken, die inspelen op de behoefte van de samenleving. Die samenleving verandert continu en dus moet ook het CBS meebewegen. Tegelijkertijd wil het CBS de kosten en belasting voor de samenleving zo laag mogelijk houden. Dit vereist continue innovatie. Methodologisch onderzoek is een belangrijk ingrediënt in die innovatie.
In dit document beschrijven we de onderzoeksplannen op het terrein van methodologie (vanaf nu het ‘onderzoeksprogramma methodologie’) voor de periode 2025 – 2030. Deze plannen worden uitgevoerd door de sector ‘Research & Development’, zoveel mogelijk in samenwerking met andere afdelingen binnen het CBS. De onderzoeksplannen zijn tot stand gekomen op basis van bevindingen van het onderzoeksprogramma methodologie van de afgelopen vijf jaren en op basis van consultatie van interne en externe stakeholders. Ze zijn ook ingegeven door (recente) maatschappelijke trends zoals die onder andere zijn samengevat in het CBS meerjarenprogramma 2024-20281, echter kent het huidige onderzoeksprogramma Methodologie een bredere tijdshorizon tot 2030.
Het onderzoeksprogramma methodologie kent een aantal belangrijke nuance-verschuivingen die zijn vertaald naar speerpunten. Deze speerpunten zijn:
-
(Representatie) Behoud van een representatieve afspiegeling van de Nederlandse samenleving onder meer door het centraal plaatsen van berichtgevers/respondenten;
-
(Data gebruik) Verbeterde uitbating en integratie van eigen data en data waar het CBS wettelijk toegang toe heeft, rekening houdend met het toegenomen belang van privacy;
-
(Data naar informatie) Het aanbieden van relevante informatie aan de samenleving, bijvoorbeeld via versnelling, verdieping en een eigentijdse ‘publicatie van’ of ‘communicatie over’ statistieken;
-
(Artificial Intelligence als tool) Verantwoorde toevoeging van Artificial Intelligence (AI) als tool in alle fases van het statistisch proces en standaard bedrijfsvoering;
In de volgende paragraven beschrijven we ten eerste de speerpunten in meer detail. Daarna motiveren we de speerpunten aan de hand van een terugblik op het onderzoeksprogramma methodologie 2020- 2025. Ten slotte, in hoofdstuk 2, vertalen we de speerpunten naar concrete thema’s. In de appendices relateren we de onderzoeksplannen aan interne en externe visiedocumenten en gaan we in op de organisatie van het onderzoeksprogramma methodologie.
1 https://www.cbs.nl/-/media/cbs/over-ons/organisatie/cbs-meerjarenprogramma-2024-2028-def.pdf
4
Speerpunt 1: Representatie
Een complete afspiegeling van de Nederlandse samenleving in CBS-data is een absolute
voorwaarde voor betrouwbare statistieken. Het survey klimaat is steeds complexer
geworden. Bereidheid om aan enquêtes mee te doen daalt al vele jaren en is op een punt
aanbeland waar openlijk wordt gesproken over andere communicatiekanalen dan die
beschikbaar zijn in steekproefkaders. Daarnaast is veel meer maatwerk en aandacht voor
respondenten een steeds vaker geopperde oplossing. Een tweede oplossingsrichting bestaat
uit het meer gebruiken van bestaande bronnen, zoals ‘Big data’. Rond dit alles speelt het
toegenomen belang van privacy en ethiek. Hoe deze wensen effectief en verantwoord te
integreren in benaderstrategieën is een cruciale opgave.
Speerpunt 2: Data gebruik
In het vorige meerjarenprogramma werd reeds de nadruk gelegd op het effectiever en
efficiënter uitbaten van databronnen. Dit is noodzakelijk vanuit meerdere perspectieven ,
bijvoorbeeld voor het verlagen van de belasting voor respondenten maar ook voor de
toegenomen aanvullende statistische dienstverlening. De al genoemde toenemende
complexiteit in de CBS-waarneming maakt die noodzaak nog groter. De vele databronnen
binnen en buiten het CBS bieden voldoende kansen op versnelling en detaille ring van
statistieken en op meer maatwerk. Tegelijkertijd is behoud van privacy een steeds
prominentere randconditie, onder andere via de implementatie van de AVG. Deze
tegenstelling vraagt om tactieken en methoden die geavanceerder, maar veilig, integreren
van databronnen mogelijk maken.
Speerpunt 3: Data naar informatie
De hoeveelheid statistieken en maatwerk-analyses die het CBS jaarlijks produceert is enorm.
Het CBS is een spil in nationale en internationale beleidsvorming. In een schijnbaar
complexer en internationaler wordende samenleving is de behoefte aan snellere e n meer
gerichte analyses en cijfers groot. Statistische output krijgt daarmee nieuwe vormen zoals
monitors met een brede set van indicatoren en interactieve zoekmachines. Verder, door
complexe fenomenen te beschrijven moet het mogelijk worden om causale ef fecten
meetbaar te maken, bijvoorbeeld door te kijken naar de effecten van beleid. Het goed
kunnen blijven uitleggen en in context plaatsen van statistieken nemen daarmee sterk in
belang toe. Het vertalen van geavanceerde methoden naar officiële statistiek en het goed
uitleggen van resultaten zijn onmisbare onderdelen. Als onderdeel daar van zal het CBS
moeten onderzoeken hoe diens standaard- en maatwerk publicaties worden verwerkt door
eindgebruikers. Bijvoorbeeld, kan empirisch onderzoek vragen beantwoorden of CBS
publicaties correct geïnterpreteerd worden of als informatief worden ervaren.
Speerpunt 4: Artificial Intelligence als tool
Waar Artificial Intelligence (AI) vroeger vooral voorbehouden was aan wetenschappers of
experts bij bedrijven of overheden, heeft de snelle technologische vooruitgang bij grote
technologiebedrijven en een levendige open-source community ertoe geleid dat AI
toegankelijk werd voor een breed publiek. Deze ontwikkeling biedt zowel kansen als
uitdagingen. De toegankelijkheid van AI opent de deur naar innovatie, economische groei, en
persoonlijke ontwikkeling, maar roept ook vraagstukken op over privacy, betrouwbaarheid,
verantwoordelijkheid en de menselijke rol in een door AI-gedreven toekomst. Het CBS gaat
de komende jaren de kansen van AI onderzoeken, bijvoorbeeld op het gebied van AI-
automatisering. Tegelijkertijd moet het CBS kritisch kijken naar de risico’s van AI op het
gebied van betrouwbaarheid en uitlegbaarheid van de uitkomsten van AI -algoritmes.
Onderzoek naar standaarden voor AI-methoden voor het verantwoord inzetten van AI in de
officiële statistiek of standaard bedrijfsvoering is daarom een cruciaal speerpunt.
5
Belangrijke input voor het onderzoeksprogramma Methodologie 2025-2030 zijn de bevindingen
en aanbevelingen uit het nog lopende onderzoeksprogramma (2020 – 2025). Het
onderzoeksprogramma Methodologie 2020 – 20252 koppelde haar speerpunten en doelen aan
een viertal ontwikkelingen: (1) de data-samenleving, (2) noodzaak tot meer maatwerk in
verzameling en combinatie van databronnen, (3) een grotere behoefte aan duiding, en (4) de
steeds invloedrijker wordende internationale context. De speerpunten lijken daarmee deels op
die voor de aankomende periode. Methodologisch onderzoek laat zich, net als innovatie, nu
eenmaal niet vangen in afgebakende vijfjaarperiodes. Sommige delen van het
onderzoeksprogramma lopen daarom ook door, maar met belangrijke nuanceverschuivingen.
Het onderzoeksprogramma Methodologie 2020 – 2025 kende zes thema’s: (1) ‘New observing
techniques & Data collection‘, (2) ‘Big Data, Data Mining & Artificial Intelligence‘, (3) ‘Data
integration‘, (4) ‘Data security‘, (5) ‘Statistical modelling‘ en (6) ‘Complexity science‘. In Tabel 1
geven we de belangrijkste resultaten voor de zes thema’s. Deze zijn vervat in een groot aantal
interne en externe rapporten, artikelen, PhD-proefschriften, master scripties,
congrespresentaties, (software) applicaties, proof-of-concepts en implementaties in productie.
THEMA
BELANGRIJKSTE RESULTATEN
NEW OBSERVING
TECHNIQUES &
DATA
COLLECTION
•
Breed inzicht in designkeuzes in smartphone-vragenlijstontwerp
•
Evaluatie van sensordata voor landbouwstatistieken en het ontwikkelen van een meer
efficiënte methode van dataverzameling uitgaande van de situatie bij bedrijven.
•
Doelgroepenbenadering rekening houdend met mode-specifieke meetverschillen
•
Proof-of-concept smart applicaties voor Budgetonderzoek (BO) en Onderweg in
Nederland (ODiN)
•
Onderzoek naar hot-spots bij bedrijvenwaarneming
•
Onderzoek naar situatie bij bedrijven in kader van bedrijf centraal
BIG DATA,
DATA MINING &
ARTIFICIAL
INTELLIGENCE
•
CBS speelde een leidende rol in ESSnets Big Data I en II en heeft daarin verschillende
internationale use cases uitgewerkt
•
De statistiek platformeconomie
•
Een start met best practices voor verantwoord gebruik AI-ML
•
Verschillende tools voor visualisatie en correctie vertekening
DATA
INTEGRATION
•
Imputatie onder randtotalen, toegepast bij hoogst behaalde opleiding
•
Corrigeren misclassificaties, toegepast bij toewijzing SBI en webshops en rapport over de
‘omgevingswet’
•
Inzet latent-klassenanalyse, toegepast bij arbeidspositie, verkeersongelukken, huur-
koopwoningen en energiestatistieken
•
Schatten verborgen populaties en uitbreiding zogenaamde multiple-systems-estimation,
toegepast bij daklozen
DATA SECURITY
•
Risico’s van datalekken in AI-ML-methoden
•
Beveiliging van statistieken op kaarten
•
Beveiliging van netwerkdata (personen- en bedrijvennetwerk)
•
Beveiliging meerdimensionale output, toegepast bij Volkstellingen
STATISTICAL
MODELLING
•
Kleine-domeinschatters voor consistente tijdreeksen met methodebreuken, toegepast
o.a. bij onderzoeken Onderweg in Nederland (ODiN), ziekte verzuim en Sociale
Samenhang voor het maken van officiële publicaties
•
Het maken van snellere cijfers voor de GEZO tijdens corona die gecorrigeerd zijn voor het
wegvallen van CAPI via tijdreeksmodellen
•
Correctie voor COVID-19 methodebreuken via tijdreeksmodellen voor de maandcijfers
over de Beroepsbevolking en het Consumenten vertrouwen
•
Integratie van big-databronnen in tijdreeksen, toegepast bij Korte Termijn Statistieken en
onderzoek Enquête Beroepsbevolking
•
Tactieken voor enquêtedrukspreiding bedrijven
COMPLEXITY
SCIENCE
•
Uitwerking en verbreding van het personen- en bedrijvennetwerk
•
Grootschalige berekeningen gedaan op de netwerken, zoals bijvoorbeeld het berekenen
van individuele segregatie-scores voor de gehele bevolking.
•
Agent-based modellen voor ontwikkeling van COVID-19
•
Begrip van inkomensafhankelijk consumentengedrag via agent-based modellen
•
Begrip van supply-chain mechanismen
Tabel 1: Overzicht belangrijkste resultaten Onderzoeksprogramma Methodologie 2020 – 2025.
2 https://www.cbs.nl/nl-nl/achtergrond/2020/25/visie-methodologie-onderzoek-2020-2025
6
Op basis van deze resultaten zijn dit de belangrijkste conclusies en aanbevelingen vanuit het onderzoeksprogramma Methodologie 2020 – 2025:
•
‘Smart surveys’ waren een belangrijk deelthema binnen “New observing techniques &
Data collection”. Veldstudies tonen aan dat de toegevoegde waarde van ‘smart
surveys’ vooral ligt in verhoogde datakwaliteit en niet in hogere/meer representatieve
respons. ‘Smart surveys’ betekenen qua bedrijfscultuur daarnaast een grote omslag in
logistiek en infrastructuur. De noodzaak tot het centraal plaatsen van respondenten is
gegroeid, maar bemoeilijkt door de steeds verdere beperkingen in kanalen zoals CATI.
•
Een kwaliteitsraamwerk voor ‘machine learning’ is opgesteld. Dit raamwerk dient
verder uitgewerkt en getoetst te worden aan de hand van relevante toepassingen
binnen het CBS zoals ‘budgetonderzoek’ en ‘onderweg in Nederland’.
•
Binnen en buiten het CBS is er een sterk groeiende belangstelling voor zogenaamde
non-probability-samples (niet-kanssteekproeven). Methoden voor integratie van
dergelijke bronnen zijn toegepast binnen het CBS en verder uitgewerkt. De
onderliggende aannames zijn lastig te toetsen, maar lijken vaak niet op te gaan.
Slimme, gerichte aanvullende waarneming, in de vorm van nieuwe
communicatiekanalen, kan mogelijk verbetering brengen.
•
Veel meer dan voorheen is het cruciaal om schatingsmethoden achter de hand te
hebben die kunnen omgaan met methodebreuken. Deze methoden zijn gebaseerd op
tijdreeksen.
•
Artificial Intelligence is voor informatiebeveiliging een belangrijk fenomeen waar nog
vele open vragen liggen die beantwoord moeten worden.
•
Beveiliging van informatie is een breder gebied geworden met de komst van allerlei
nieuwe vormen van output en sterkere nadruk op integratie. Synthetische data zijn één
van de mogelijk routes die onderzocht werd en nog verder onderzocht moet worden.
•
Het personennetwerk is een waardevolle nieuwe bron gebleken waarop allerlei nieuwe
toepassingen mogelijk zijn. Deze dienen verder verkend te worden. Verder zijn er
inmiddels opleidings-, herkomst en diabetes-segregatiescores ontwikkeld.
Een deel van de bestaande thema’s heeft met deze ervaringen geleidelijk een her-prioritering doorgemaakt. In onderzoek naar waarneming wordt meer de nadruk gelegd op de berichtgever/respondent. Artificial Intelligence, met in het bijzonder ‘machine learning’, is een groot onderzoeksgebied geworden. In de verkenning van nieuwe data-integratiemethoden staan niet-kanssteekproeven meer centraal. De toepassingen in de officiële statistiek van geavanceerde methoden, zoals statistische modellen of methoden uit de complexiteits- wetenschap, zijn verbreed. Ook is informatie beveiliging breder en belangrijker geworden.
Naast de zes thema’s was er een (buiten methodologie om) onderzoeksthema “Data querying & processing” dat verbonden was met het onderzoeksprogramma methodologie. Dit thema richtte zich sterk op uittesten van architectuur en tooling om die zodanig te optimaliseren dat ook nieuwe methoden goed verankerd zouden kunnen worden in bestaande processen ook al zouden die grotere eisen stellen aan computer-rekenkracht of -geheugen. Daarnaast participeerde het in de ontwikkeling van ‘mobile device’ applicaties voor zogenaamde ‘smart surveys’. Het thema had gedurende de periode 2020 – 2025 last van onderbezetting en is geleidelijk aan gestopt.
7
- Van speerpunten naar onderzoeksthema’s Net als in het voorgaande onderzoeksprogramma, zal ook het programma voor 2025 - 2030 opgebouwd worden uit onderzoeksthema’s. De onderzoeksthema’s zijn inhoudelijk gekaderd en nemen of een deel van het statistisch proces voor rekening of een deel van de methoden . Figuur 1 geeft een schematisch overzicht van hoe de inhoudelijke thema’s zijn verdeeld over de speerpunten. De thema’s worden getrokken door één of meerdere methodologen, de zogenaamde thema-trekkers. Deze personen zijn tevens de ambassadeurs van het thema. Van thema-trekkers wordt verwacht dat ze op de hoogte zijn van externe (wetenschappelijke) ontwikkelingen en van de interne vraag vanuit statistische divisies (voor diens specifieke onderzoeksonderwerp). We zullen nu de speerpunten in iets meer detail toelichten. In Hoofdstuk 2 gaan we vervolgens in meer detail in op de onderzoeksthema’s.
Het speerpunt Representatie wordt bovenal geadresseerd in thema’s ‘Primaire waarneming‘ en
‘Big data‘ die daarin twee oplossingsrichtingen vertegenwoordigen: versterking en verfijning
van de eigen waarneming en inclusie van bestaande ‘Big data’ bronnen. Het thema ‘Primaire
waarneming’ doet onderzoek naar het verbeteren van enquêtering waarbij de respondent
(personen, huishoudens of bedrijven) centraal komt te staan. Dit omvat onder andere
onderzoek naar het efficiënt aansluiten op data bronnen bij de respondent en onderzoeken hoe
verschillende type respondenten te benaderen en bevragen.
De data uit primaire waarneming en uit administratieve registers kunnen in principe goed
aangevuld worden met behulp van nieuwe databronnen die openbaar op het internet
beschikbaar zijn: zogenaamde ‘Big data’ bronnen (denk daarbij aan ongestructureerde tekst -,
beeld- en sensor-data). Meestal zijn er dan extra bewerkingen en analyse nodig. Juist in het
kader van officiële statistiek, waar lange-termijn consistentie als kwaliteitseis essentieel is,
betekent dit dat de meeste extern beschikbare methoden of technieken echt aanpassing en
extra onderzoek behoeven voordat ze voor het CBS geschikt zijn.
Aan “Primaire waarneming”, met name in surveys die functies van ‘smart devices’ inzetten, kan
mogelijk AI toegevoegd worden om respondenten/berichtgevers te helpen. Het is van belang
dat dit verantwoord, begrijpelijk en veilig gebeurt. Het thema “Toepasbare AI” zorgt voor de
noodzakelijke ‘best practices’.
Figuur 1: Een schematische weergave van speerpunten naar onderzoeksthema’s, waarbij we de thema’s indelen op basis van diens belangrijkste onderzoeksonderwerp. Het is echter mogelijk dat thema’s ook onderzoeksvragen van andere speerpunten onderzoeken. Het thema ‘Toepasbare AI’ werkt aan (generieke) standaarden en richtlijnen voor het verantwoord inzetten van AI en ziet de overige thema’s als afnemers (met potentiële use -cases).