onderzoeksprogramma-methodologie-2025-2030.pdf

Type: Document | Status: ready

Onderzoeksprogramma Methodologie 2025-2030

December 2024

2

Inhoudsopgave 1. Speerpunten methodologisch onderzoek 2025-2030 3 2. Van speerpunten naar onderzoeksthema’s 7

Primaire waarneming 10

Big data 13

Data integratie 16

Statistisch modelleren 18

Complexiteit en causaliteit 22

Informatie beveiliging 25

Statistische informatie communicatie 28

Toepasbare Artificial Intelligence 31

3

  1. Speerpunten methodologisch onderzoek 2025-2030 Het CBS streeft naar betrouwbare, gedetailleerde, hoogfrequente en fenomeen-gerichte statistieken, die inspelen op de behoefte van de samenleving. Die samenleving verandert continu en dus moet ook het CBS meebewegen. Tegelijkertijd wil het CBS de kosten en belasting voor de samenleving zo laag mogelijk houden. Dit vereist continue innovatie. Methodologisch onderzoek is een belangrijk ingrediënt in die innovatie.

In dit document beschrijven we de onderzoeksplannen op het terrein van methodologie (vanaf nu het ‘onderzoeksprogramma methodologie’) voor de periode 2025 – 2030. Deze plannen worden uitgevoerd door de sector ‘Research & Development’, zoveel mogelijk in samenwerking met andere afdelingen binnen het CBS. De onderzoeksplannen zijn tot stand gekomen op basis van bevindingen van het onderzoeksprogramma methodologie van de afgelopen vijf jaren en op basis van consultatie van interne en externe stakeholders. Ze zijn ook ingegeven door (recente) maatschappelijke trends zoals die onder andere zijn samengevat in het CBS meerjarenprogramma 2024-20281, echter kent het huidige onderzoeksprogramma Methodologie een bredere tijdshorizon tot 2030.

Het onderzoeksprogramma methodologie kent een aantal belangrijke nuance-verschuivingen die zijn vertaald naar speerpunten. Deze speerpunten zijn:

  1. (Representatie) Behoud van een representatieve afspiegeling van de Nederlandse samenleving onder meer door het centraal plaatsen van berichtgevers/respondenten;

  2. (Data gebruik) Verbeterde uitbating en integratie van eigen data en data waar het CBS wettelijk toegang toe heeft, rekening houdend met het toegenomen belang van privacy;

  3. (Data naar informatie) Het aanbieden van relevante informatie aan de samenleving, bijvoorbeeld via versnelling, verdieping en een eigentijdse ‘publicatie van’ of ‘communicatie over’ statistieken;

  4. (Artificial Intelligence als tool) Verantwoorde toevoeging van Artificial Intelligence (AI) als tool in alle fases van het statistisch proces en standaard bedrijfsvoering;

In de volgende paragraven beschrijven we ten eerste de speerpunten in meer detail. Daarna motiveren we de speerpunten aan de hand van een terugblik op het onderzoeksprogramma methodologie 2020- 2025. Ten slotte, in hoofdstuk 2, vertalen we de speerpunten naar concrete thema’s. In de appendices relateren we de onderzoeksplannen aan interne en externe visiedocumenten en gaan we in op de organisatie van het onderzoeksprogramma methodologie.

1 https://www.cbs.nl/-/media/cbs/over-ons/organisatie/cbs-meerjarenprogramma-2024-2028-def.pdf

4

Speerpunt 1: Representatie
Een complete afspiegeling van de Nederlandse samenleving in CBS-data is een absolute voorwaarde voor betrouwbare statistieken. Het survey klimaat is steeds complexer geworden. Bereidheid om aan enquêtes mee te doen daalt al vele jaren en is op een punt aanbeland waar openlijk wordt gesproken over andere communicatiekanalen dan die beschikbaar zijn in steekproefkaders. Daarnaast is veel meer maatwerk en aandacht voor respondenten een steeds vaker geopperde oplossing. Een tweede oplossingsrichting bestaat uit het meer gebruiken van bestaande bronnen, zoals ‘Big data’. Rond dit alles speelt het toegenomen belang van privacy en ethiek. Hoe deze wensen effectief en verantwoord te integreren in benaderstrategieën is een cruciale opgave.
Speerpunt 2: Data gebruik
In het vorige meerjarenprogramma werd reeds de nadruk gelegd op het effectiever en efficiënter uitbaten van databronnen. Dit is noodzakelijk vanuit meerdere perspectieven , bijvoorbeeld voor het verlagen van de belasting voor respondenten maar ook voor de toegenomen aanvullende statistische dienstverlening. De al genoemde toenemende complexiteit in de CBS-waarneming maakt die noodzaak nog groter. De vele databronnen binnen en buiten het CBS bieden voldoende kansen op versnelling en detaille ring van statistieken en op meer maatwerk. Tegelijkertijd is behoud van privacy een steeds prominentere randconditie, onder andere via de implementatie van de AVG. Deze tegenstelling vraagt om tactieken en methoden die geavanceerder, maar veilig, integreren van databronnen mogelijk maken.

Speerpunt 3: Data naar informatie
De hoeveelheid statistieken en maatwerk-analyses die het CBS jaarlijks produceert is enorm. Het CBS is een spil in nationale en internationale beleidsvorming. In een schijnbaar complexer en internationaler wordende samenleving is de behoefte aan snellere e n meer gerichte analyses en cijfers groot. Statistische output krijgt daarmee nieuwe vormen zoals monitors met een brede set van indicatoren en interactieve zoekmachines. Verder, door complexe fenomenen te beschrijven moet het mogelijk worden om causale ef fecten meetbaar te maken, bijvoorbeeld door te kijken naar de effecten van beleid. Het goed kunnen blijven uitleggen en in context plaatsen van statistieken nemen daarmee sterk in belang toe. Het vertalen van geavanceerde methoden naar officiële statistiek en het goed uitleggen van resultaten zijn onmisbare onderdelen. Als onderdeel daar van zal het CBS moeten onderzoeken hoe diens standaard- en maatwerk publicaties worden verwerkt door eindgebruikers. Bijvoorbeeld, kan empirisch onderzoek vragen beantwoorden of CBS publicaties correct geïnterpreteerd worden of als informatief worden ervaren.

Speerpunt 4: Artificial Intelligence als tool
Waar Artificial Intelligence (AI) vroeger vooral voorbehouden was aan wetenschappers of experts bij bedrijven of overheden, heeft de snelle technologische vooruitgang bij grote technologiebedrijven en een levendige open-source community ertoe geleid dat AI toegankelijk werd voor een breed publiek. Deze ontwikkeling biedt zowel kansen als uitdagingen. De toegankelijkheid van AI opent de deur naar innovatie, economische groei, en persoonlijke ontwikkeling, maar roept ook vraagstukken op over privacy, betrouwbaarheid, verantwoordelijkheid en de menselijke rol in een door AI-gedreven toekomst. Het CBS gaat de komende jaren de kansen van AI onderzoeken, bijvoorbeeld op het gebied van AI- automatisering. Tegelijkertijd moet het CBS kritisch kijken naar de risico’s van AI op het gebied van betrouwbaarheid en uitlegbaarheid van de uitkomsten van AI -algoritmes. Onderzoek naar standaarden voor AI-methoden voor het verantwoord inzetten van AI in de officiële statistiek of standaard bedrijfsvoering is daarom een cruciaal speerpunt.

5

Belangrijke input voor het onderzoeksprogramma Methodologie 2025-2030 zijn de bevindingen en aanbevelingen uit het nog lopende onderzoeksprogramma (2020 – 2025). Het onderzoeksprogramma Methodologie 2020 – 20252 koppelde haar speerpunten en doelen aan een viertal ontwikkelingen: (1) de data-samenleving, (2) noodzaak tot meer maatwerk in verzameling en combinatie van databronnen, (3) een grotere behoefte aan duiding, en (4) de steeds invloedrijker wordende internationale context. De speerpunten lijken daarmee deels op die voor de aankomende periode. Methodologisch onderzoek laat zich, net als innovatie, nu eenmaal niet vangen in afgebakende vijfjaarperiodes. Sommige delen van het onderzoeksprogramma lopen daarom ook door, maar met belangrijke nuanceverschuivingen.
Het onderzoeksprogramma Methodologie 2020 – 2025 kende zes thema’s: (1) ‘New observing techniques & Data collection‘, (2) ‘Big Data, Data Mining & Artificial Intelligence‘, (3) ‘Data integration‘, (4) ‘Data security‘, (5) ‘Statistical modelling‘ en (6) ‘Complexity science‘. In Tabel 1 geven we de belangrijkste resultaten voor de zes thema’s. Deze zijn vervat in een groot aantal interne en externe rapporten, artikelen, PhD-proefschriften, master scripties, congrespresentaties, (software) applicaties, proof-of-concepts en implementaties in productie.

THEMA BELANGRIJKSTE RESULTATEN NEW OBSERVING TECHNIQUES & DATA COLLECTION • Breed inzicht in designkeuzes in smartphone-vragenlijstontwerp • Evaluatie van sensordata voor landbouwstatistieken en het ontwikkelen van een meer efficiënte methode van dataverzameling uitgaande van de situatie bij bedrijven. • Doelgroepenbenadering rekening houdend met mode-specifieke meetverschillen • Proof-of-concept smart applicaties voor Budgetonderzoek (BO) en Onderweg in Nederland (ODiN) • Onderzoek naar hot-spots bij bedrijvenwaarneming • Onderzoek naar situatie bij bedrijven in kader van bedrijf centraal BIG DATA,
DATA MINING & ARTIFICIAL INTELLIGENCE • CBS speelde een leidende rol in ESSnets Big Data I en II en heeft daarin verschillende internationale use cases uitgewerkt • De statistiek platformeconomie • Een start met best practices voor verantwoord gebruik AI-ML • Verschillende tools voor visualisatie en correctie vertekening DATA INTEGRATION • Imputatie onder randtotalen, toegepast bij hoogst behaalde opleiding • Corrigeren misclassificaties, toegepast bij toewijzing SBI en webshops en rapport over de ‘omgevingswet’ • Inzet latent-klassenanalyse, toegepast bij arbeidspositie, verkeersongelukken, huur- koopwoningen en energiestatistieken • Schatten verborgen populaties en uitbreiding zogenaamde multiple-systems-estimation, toegepast bij daklozen DATA SECURITY • Risico’s van datalekken in AI-ML-methoden • Beveiliging van statistieken op kaarten • Beveiliging van netwerkdata (personen- en bedrijvennetwerk) • Beveiliging meerdimensionale output, toegepast bij Volkstellingen STATISTICAL MODELLING • Kleine-domeinschatters voor consistente tijdreeksen met methodebreuken, toegepast o.a. bij onderzoeken Onderweg in Nederland (ODiN), ziekte verzuim en Sociale Samenhang voor het maken van officiële publicaties • Het maken van snellere cijfers voor de GEZO tijdens corona die gecorrigeerd zijn voor het wegvallen van CAPI via tijdreeksmodellen • Correctie voor COVID-19 methodebreuken via tijdreeksmodellen voor de maandcijfers over de Beroepsbevolking en het Consumenten vertrouwen • Integratie van big-databronnen in tijdreeksen, toegepast bij Korte Termijn Statistieken en onderzoek Enquête Beroepsbevolking
• Tactieken voor enquêtedrukspreiding bedrijven COMPLEXITY SCIENCE • Uitwerking en verbreding van het personen- en bedrijvennetwerk • Grootschalige berekeningen gedaan op de netwerken, zoals bijvoorbeeld het berekenen van individuele segregatie-scores voor de gehele bevolking. • Agent-based modellen voor ontwikkeling van COVID-19 • Begrip van inkomensafhankelijk consumentengedrag via agent-based modellen • Begrip van supply-chain mechanismen

Tabel 1: Overzicht belangrijkste resultaten Onderzoeksprogramma Methodologie 2020 – 2025.

2 https://www.cbs.nl/nl-nl/achtergrond/2020/25/visie-methodologie-onderzoek-2020-2025

6

Op basis van deze resultaten zijn dit de belangrijkste conclusies en aanbevelingen vanuit het onderzoeksprogramma Methodologie 2020 – 2025:

• ‘Smart surveys’ waren een belangrijk deelthema binnen “New observing techniques & Data collection”. Veldstudies tonen aan dat de toegevoegde waarde van ‘smart surveys’ vooral ligt in verhoogde datakwaliteit en niet in hogere/meer representatieve respons. ‘Smart surveys’ betekenen qua bedrijfscultuur daarnaast een grote omslag in logistiek en infrastructuur. De noodzaak tot het centraal plaatsen van respondenten is gegroeid, maar bemoeilijkt door de steeds verdere beperkingen in kanalen zoals CATI.
• Een kwaliteitsraamwerk voor ‘machine learning’ is opgesteld. Dit raamwerk dient verder uitgewerkt en getoetst te worden aan de hand van relevante toepassingen binnen het CBS zoals ‘budgetonderzoek’ en ‘onderweg in Nederland’. • Binnen en buiten het CBS is er een sterk groeiende belangstelling voor zogenaamde non-probability-samples (niet-kanssteekproeven). Methoden voor integratie van dergelijke bronnen zijn toegepast binnen het CBS en verder uitgewerkt. De onderliggende aannames zijn lastig te toetsen, maar lijken vaak niet op te gaan. Slimme, gerichte aanvullende waarneming, in de vorm van nieuwe communicatiekanalen, kan mogelijk verbetering brengen.
• Veel meer dan voorheen is het cruciaal om schatingsmethoden achter de hand te hebben die kunnen omgaan met methodebreuken. Deze methoden zijn gebaseerd op tijdreeksen. • Artificial Intelligence is voor informatiebeveiliging een belangrijk fenomeen waar nog vele open vragen liggen die beantwoord moeten worden. • Beveiliging van informatie is een breder gebied geworden met de komst van allerlei nieuwe vormen van output en sterkere nadruk op integratie. Synthetische data zijn één van de mogelijk routes die onderzocht werd en nog verder onderzocht moet worden.
• Het personennetwerk is een waardevolle nieuwe bron gebleken waarop allerlei nieuwe toepassingen mogelijk zijn. Deze dienen verder verkend te worden. Verder zijn er inmiddels opleidings-, herkomst en diabetes-segregatiescores ontwikkeld.

Een deel van de bestaande thema’s heeft met deze ervaringen geleidelijk een her-prioritering doorgemaakt. In onderzoek naar waarneming wordt meer de nadruk gelegd op de berichtgever/respondent. Artificial Intelligence, met in het bijzonder ‘machine learning’, is een groot onderzoeksgebied geworden. In de verkenning van nieuwe data-integratiemethoden staan niet-kanssteekproeven meer centraal. De toepassingen in de officiële statistiek van geavanceerde methoden, zoals statistische modellen of methoden uit de complexiteits- wetenschap, zijn verbreed. Ook is informatie beveiliging breder en belangrijker geworden.

Naast de zes thema’s was er een (buiten methodologie om) onderzoeksthema “Data querying & processing” dat verbonden was met het onderzoeksprogramma methodologie. Dit thema richtte zich sterk op uittesten van architectuur en tooling om die zodanig te optimaliseren dat ook nieuwe methoden goed verankerd zouden kunnen worden in bestaande processen ook al zouden die grotere eisen stellen aan computer-rekenkracht of -geheugen. Daarnaast participeerde het in de ontwikkeling van ‘mobile device’ applicaties voor zogenaamde ‘smart surveys’. Het thema had gedurende de periode 2020 – 2025 last van onderbezetting en is geleidelijk aan gestopt.

7

  1. Van speerpunten naar onderzoeksthema’s Net als in het voorgaande onderzoeksprogramma, zal ook het programma voor 2025 - 2030 opgebouwd worden uit onderzoeksthema’s. De onderzoeksthema’s zijn inhoudelijk gekaderd en nemen of een deel van het statistisch proces voor rekening of een deel van de methoden . Figuur 1 geeft een schematisch overzicht van hoe de inhoudelijke thema’s zijn verdeeld over de speerpunten. De thema’s worden getrokken door één of meerdere methodologen, de zogenaamde thema-trekkers. Deze personen zijn tevens de ambassadeurs van het thema. Van thema-trekkers wordt verwacht dat ze op de hoogte zijn van externe (wetenschappelijke) ontwikkelingen en van de interne vraag vanuit statistische divisies (voor diens specifieke onderzoeksonderwerp). We zullen nu de speerpunten in iets meer detail toelichten. In Hoofdstuk 2 gaan we vervolgens in meer detail in op de onderzoeksthema’s.

Het speerpunt Representatie wordt bovenal geadresseerd in thema’s ‘Primaire waarneming‘ en ‘Big data‘ die daarin twee oplossingsrichtingen vertegenwoordigen: versterking en verfijning van de eigen waarneming en inclusie van bestaande ‘Big data’ bronnen. Het thema ‘Primaire waarneming’ doet onderzoek naar het verbeteren van enquêtering waarbij de respondent (personen, huishoudens of bedrijven) centraal komt te staan. Dit omvat onder andere onderzoek naar het efficiënt aansluiten op data bronnen bij de respondent en onderzoeken hoe verschillende type respondenten te benaderen en bevragen.
De data uit primaire waarneming en uit administratieve registers kunnen in principe goed aangevuld worden met behulp van nieuwe databronnen die openbaar op het internet beschikbaar zijn: zogenaamde ‘Big data’ bronnen (denk daarbij aan ongestructureerde tekst -, beeld- en sensor-data). Meestal zijn er dan extra bewerkingen en analyse nodig. Juist in het kader van officiële statistiek, waar lange-termijn consistentie als kwaliteitseis essentieel is, betekent dit dat de meeste extern beschikbare methoden of technieken echt aanpassing en extra onderzoek behoeven voordat ze voor het CBS geschikt zijn.
Aan “Primaire waarneming”, met name in surveys die functies van ‘smart devices’ inzetten, kan mogelijk AI toegevoegd worden om respondenten/berichtgevers te helpen. Het is van belang dat dit verantwoord, begrijpelijk en veilig gebeurt. Het thema “Toepasbare AI” zorgt voor de noodzakelijke ‘best practices’.

Figuur 1: Een schematische weergave van speerpunten naar onderzoeksthema’s, waarbij we de thema’s indelen op basis van diens belangrijkste onderzoeksonderwerp. Het is echter mogelijk dat thema’s ook onderzoeksvragen van andere speerpunten onderzoeken. Het thema ‘Toepasbare AI’ werkt aan (generieke) standaarden en richtlijnen voor het verantwoord inzetten van AI en ziet de overige thema’s als afnemers (met potentiële use -cases).

Page 1 of 6