8
Speerpunt Data gebruik is breed en divers. Dit speerpunt wordt onder andere belegd in het
thema “Data integratie”. Het CBS beschikt over veel data, verkregen van bedrijven, burgers,
overheden en andere organisaties. Los van elkaar beschouwd hebben de variabelen die op
verschillende manieren worden verzameld (uit enquêtes, ‘Big data’ maar ook uit registraties)
zeker wel waarde, maar de volle benutting van de informatie die in data besloten is, kan alleen
worden bereikt als de data geïntegreerd kan worden. Het combineren van data op basis van
imperfecte of onvolledige koppelvlakken, en het schatten van de bijbehorende onzekerheden, is
zeker niet een al opgelost probleem, vooral wanneer een deel van die data uit niet -traditionele
bronnen komt. Dit thema onderzoekt methoden om data te integreren, evidente fouten en
ontbrekende waardes te corrigeren en om kwaliteit van geïntegreerde data te toetsen.
Naast dit thema is ook voor het thema “Statistisch modelleren” data integratie een belangrijk
speerpunt. Waar thema “Data integratie” databronnen in de eerste plaats als gelijkwaardig ziet,
zoekt thema “Statistisch modelleren” vooral naar databronnen die ingezet kunnen worden in de
verwerking en versterking van een hoofd-databron. Hierbij komen veelal tijdreeksmethoden
aan de orde. Deze twee thema’s komen overeen met verschillende methodologische disciplines
maar werken nauw samen.
Voor thema’s “Primaire waarneming” en “Complexiteit en causaliteit” is het combineren van
bronnen geen hoofddoel, maar wel een middel. Surveys zijn aanvullend op beschikbare
databronnen. Dieper begrip van verbanden is noodzakelijk voor integratie van datab ronnen.
De data die het CBS verzamelt en samenstelt, beschouwt het CBS als publiek goed. Er lopen
verschillende initiatieven voor het verbeteren van de toegankelijkheid van CBS data . In het
onderzoeksprogramma wordt hier aan gewerkt via onderzoek naar methoden die de
vindbaarheid van CBS data verbeteren. De keerzijde van een open en toegankelijk CBS, is dat de
kans op onthulling of data lekkage toeneemt. Vertrouwelijk omgaan met gegevens van
individuele eenheden is één van de voorwaarden voor een betrouwbaar CBS. Het CBS is
internationaal voortrekker van onderzoek op het gebied van informatiebeveiliging, maar door
de veranderde wereld (zowel technologisch als cultureel) zijn er nieuwe uitdagingen ontstaan.
De komende jaren wordt onderzoek gedaan om de huidige standaard van informatiebeveiliging
te handhaven, te verbreden naar nieuwe vormen van output en naar manieren om
(geïntegreerde) data veilig te delen (bijvoorbeeld via synthetische data of ‘Da ta Spaces’).
Speerpunt Data naar informatie wordt bovenal belegd in de thema’s “Statistisch modelleren”,
“Complexiteit en causaliteit” en “Statistische Informatie Communicatie”.
Het doel van statistische modellen is om gedetailleerde, hoogfrequente en fenomeen-gerichte
statistieken (zoals over de economie en het klimaat) te maken.
Gewoonlijk publiceert het CBS dergelijke statistieken los van elkaar, zonder rekening te houden
met de onderlinge interacties tussen deze fenomenen. Het thema “Complexiteit en causaliteit”
richt zich op methoden die in staat zijn om statistieken samen te s tellen die fenomenen
beschrijven als een complex systeem, waarbij hun interacties worden meegenomen. Deze
thema’s richten zich dus primair op meer duiding (context) bij statistieken.
Daarnaast is er noodzaak om inzicht te krijgen in wijze waarop gebruikers onze communicatie
over statistieken interpreteren, gebruiken en waarderen. In een tijd waarop informatie en
nieuws snel geconsumeerd worden, bijvoorbeeld via sociale media, is er een kans dat
berichtgeving verkeerd geïnterpreteerd wordt. De grote diversiteit aan gebruikers van CBS-
cijfers (van studenten, burgers tot beleidsbepalers) maakt de communicatie van statistische
informatie uitdagend. Het CBS zal daarom onderzoek moeten doen naar hoe diens standaard en
maatwerk publicaties worden verwerkt door eindgebruikers. Empirisch wordt onderzocht hoe
deze communicatie (web-artikelen, visualisaties of dashboards op de CBS-website) door
9
gebruikers wordt ervaren en geïnterpreteerd. Dit is belegd in een nieuw onderzoeksthema “Statistische Informatie Communicatie”. Thema “Informatie beveiliging” treedt opnieuw op als bewaker van privacy bij het publiceren van of communiceren over statistieken, waarbij het risico op gegevensonthulling wordt afgewogen tegen het behoud van informatiewaarde.
Tenslotte het speerpunt Artificial Intelligence als tool. Recente ontwikkelingen in Artificial Intelligence (AI) maken AI methoden potentieel interessant voor gebruik in de officiële statistiek. AI wordt beschouwd als een veelzijdig hulpmiddel dat bij veel verschillende type toepassingen in het gehele statistisch proces (of in de standaard bedrijfsvoering) kan worden ingezet. Echter, bij veel van die toepassingen leven soortgelijke (generieke) vragen over bijvoorbeeld de kwaliteit en uitlegbaarheid van de uitkomsten van AI modellen. AI-methoden worden nu eenmaal nog minder goed begrepen en bieden minder kwaliteitsgaranties vergeleken met standaard statistische methoden die routinematig gebruikt worden bij statistische bureaus. Onderzoek naar standaarden voor AI methoden dat kan leiden tot het verantwoord inzetten van AI in de officiële statistiek (of standaard bedrijfsvoering) wordt nu gecentraliseerd in een nieuw onderzoeksthema “Toepasbare AI”.
Alle speerpunten dekken meerdere disciplines en meerdere delen van het statistisch proces. Om die redenen worden de speerpunten in meerdere thema’s behandeld. Ze zorgen daar ten opzichte van de periode 2020 - 2025 ook voor belangrijke verschuivingen in focus. In de volgende paragrafen geven we per thema meer detail over de niche, de urgentie en de methodologische uitdagingen. De in de thema’s genoemde onderzoeksvragen vormen geen uitputtende lijst van al het potentiële onderzoek en zijn slechts ter illustratie. Gegeven de spreiding van speerpunten over thema’s is doorlopende afstemming en uitwisseling onmisbaar.
10
Primaire waarneming
In de komende jaren zal het CBS-data blijven verzamelen via enquêtering om te voldoen aan de statistisch e behoeften van de samenleving. Echter zijn de afgelopen jaren de responspercentages gedaald en is er een dringende behoefte om de uitvraag bij bedrijven en personen te minimaliseren. Dit doet het CBS door te onderzoeken hoe verschillende respondentengroepen efficiënt kunnen worden benaderd en door nieuwe technologieën te verkennen die het aanleveren van gegevens aan het CBS eenvoudiger en sneller kunnen maken.
Niche en urgentie Het CBS maakt statistieken op basis van registers en eigen primaire waarnemingen (voornamelijk op basis van enquêtes). Het CBS gebruikt registers waar mogelijk, maar voor een aanzienlijk deel van de informatiebehoefte is primaire waarneming nodig door middel van enquêtes. Ter illustratie, per jaar worden circa 30 persoonsenquêtes uitgevoerd waar meer dan anderhalf miljoen mensen voor worden benaderd en worden er circa 70 bedrijfsenquêtes uitgevoerd waarvoor meer dan één miljoen vragenlijsten naar bedrijve n worden gestuurd. Ook in de toekomst zal een belangrijk deel van de benodigde data rechtstreeks verzameld worden met primaire waarneming om te blijven voldoen aan onze leveringsverplichtingen richting o.a. Eurostat. Primaire waarneming is en blijft dus een belangrijke dataverzamelingsmethode voor het CBS. Echter, de trends van dalende responscijfers bij personenwaarneming en de wens van bedrijven om efficiënter aan het CBS te kunnen rapporteren zet zich door. Continue verbetering en vernieuwing van primaire waarnemingsmethoden zijn daarom urgent. Daartoe moeten we ons steeds weer aanpassen aan de veranderende maatschappij. De maatschappij krijgt een steeds meer diverse samenstelling (in afkomst, taal en geletterdheid, maar ook wat betreft technische vaardigheden) en tegelijkertijd staat men minder open voor betrokkenheid bij overheidsorganisaties. Voor bedrijven heeft het correct, volledig en tijdig invullen van CBS - vragenlijsten niet altijd hoge prioriteit ook al zijn de meeste bedrijfsenquêtes verplicht en wordt er strenger gehandhaafd.
Het onderzoek dat binnen dit thema gedaan wordt, heeft betrekking op (1) het optimaliseren van de aansluiting tussen bedrijfsadministraties en CBS uitvraag, c.q. aansluiting bij de leefwereld van personen en huishoudens (het correct in kaart brengen van die situatie is een onlosmakelijk onderdeel van het onderzoek), (2) hoe de (verschillende typen) respondenten vervolgens te benaderen, en tenslotte (3) hoe de rapportering naar het CBS in te richten. Rapportering kan met vragenlijsten of op basis van technisch geavanceerde methoden en technologieën, zoals apps, sensoren, en ‘system-to-system’ datacommunicatie. Deze nieuwe technologieën bieden mogelijkheden om enerzijds de kans op responderen te verhogen (doordat bijvoorbeeld het invullen van een vragenlijst makkelijker wordt) en anderzijds om meer data, met een hoger detailniveau, sneller te verzamelen, waarbij de respondent niet altijd meer vragen over moeilijk te meten concepten hoeft te beantwoorden omdat de informatie direct uit de nieuwe technologieën te halen valt.
Bovenstaande onderzoeksrichtingen sluiten aan bij de recentelijk opgestelde visies voor primaire waarneming: één voor personen en huishoudens (in 2023, bekend als “Visie Personenwaarneming”) en één voor bedrijven (in 2022, bekend als “Bedrijf Centraal”). H ierin staat, meer dan in het verleden, niet meer het CBS maar de respondent centraal.
11
Belangrijke criteria voor respondenten bij het rapporteren aan het CBS, zijn:
• De rapportage is efficiënt en gebeurt op een veilige manier,
• Het is duidelijke welke gegevens worden gevraagd, waarom, en wat men in de nabije
toekomst nog van het CBS kan verwachten, en
• Het is duidelijk wat het CBS is;
Dit alles gebeurt met waardering voor de (inspanning van de) respondent. Daarbij geldt natuurlijk wel de randvoorwaarde dat het CBS op efficiënte wijze tijdig kan blijven voldoen aan de informatiebehoefte van de maatschappij.
Het onderzoek van de afgelopen jaren binnen dit thema heeft, voor zowel pe rsonen als
bedrijfswaarneming, geresulteerd in onder andere de optimalisering van de benaderstrategie
(doelgroepenbeleid), het invoeren van ‘CAWI-only’ en ‘mixed-mode designs’, het smartphone
first herontwerpen van de lay-out van de vragenlijsten, en het verkennen van de mogelijkheden
en valkuilen van het gebruik van sensoren, apps, en het automatisch koppelen van vragenlijsten
aan bedrijfssystemen (bijvoorbeeld voor ‘system-to-system’ data communicatie).
Uitdaging
We zien op dit moment nog meerdere uitdagingen bij primaire waarneming die we nu
opsplitsen voor enerzijds de personen- en anderzijds bedrijvenwaarneming.
Bij personenwaarneming zien we wat betreft de benaderstrategie de participatie in CBS- vragenlijsten van moeilijk bereikbare groepen zoals jongeren en mensen met een niet - Nederlandse achtergrond als uitdaging. Wat betreft de vormgeving van vragenlijsten is de verscheidenheid in techniekadaptatie een probleem. Er zijn diverse nieuwe mogelijkh eden zoals het gebruik van apps en sensoren. Er is niet één techniek die een duidelijke voorkeur heeft onder respondenten. Dit maakt een combinatie van verschillende techniekadaptaties voor vragenlijsten noodzakelijk. Bovendien vraagt het gebruik van deze nieuwe technieken een behoorlijke investering. Technologische ontwikkelingen maken het noodzakelijk om continu de vragenlijsten te blijven ontwikkelen om tegemoet te komen aan de wensen en gebruiken van respondenten. De wens om moeilijk bereikbare groepen te bereiken samen met de technologische ontwikkelingen maken het doorgronden van de situatie bij de respondent een essentieel onderdeel in het onderzoek van primaire waarneming.
Voor bedrijven is bekend dat het ophalen van gegevens uit hun administraties en het berekenen van de gevraagde gegevens, veel tijd kost waarbij meerdere personen betrokken (kunnen) zijn. Daarbij speelt dat de basisgegevens in hun administraties niet altijd aansluiten bij de gegevens die in vragenlijsten worden gevraagd. Daarnaast kunnen bedrijven veel verschillende vragenlijsten krijgen, en gevraagd worden om te rapporteren op momenten dat ze de gegevens (nog) niet hebben. De uitdaging bestaat eruit om hiervoor efficiënte, indien mogelijk geautomatiseerde oplossingen te vinden, die aansluiten bij de interne bedrijfsprocessen. Het niveau van de respons is voor bedrijfswaarneming een minder groot issue, al blijft het een uitdaging om met bestaande benaderstrategieën het na te streven responspercentage te halen. Een uitdaging in de communicatie met bedrijven is om hen te vertellen wat het CBS is en waarom het CBS al die detailgegevens verzamelt.
Waar tot voor kort het CBS als uitgangspunt werd genomen voor waarnemingsmethodes, kom t nu met de nieuwe visies de respondent centraal te staan. In plaats van bestaande CBS- methodes aan te passen aan de situatie van de respondent, onderzoeken we nu
12
waarnemingsmethodes die de respondent als uitgangspunt nemen De verwachting is dat met deze transitie nieuwe oplossingen voor het themagebied in beeld komen.
Dit alles samenvattend roept een drietal hoofd onderzoeksvragen op.
De eerste onderzoeksvraag richt zich op de respondent (personen en bedrijven). Wat is de
situatie bij de respondent? Met daaraan gerelateerd de vragen: Welke specifieke homogene
(doel)groepen van respondenten kunnen we onderscheiden? Wat zijn de redenen vo or non-
respons of late respons? Hoe werkt het rapporteren aan het CBS (en andere instanties) vanuit
het perspectief van respondenten, bijvoorbeeld te onderzoeken met paradata?
De tweede onderzoeksvraag richt zich op de benadering van respondenten. Uitgaande van de
opgedane kennis en inzichten van de eerste onderzoeksvraag, kunnen we nieuwe oplossingen
bedenken om personen en bedrijven (per doelgroep) te benaderen? En hoe effecti ef zijn deze
nieuwe oplossingen? Wat zijn de effecten op respons en datakwaliteit?
De derde onderzoeksvraag betreft het rapporteren aan het CBS. Welke nieuwe technologieën
zijn er en hoe kunnen we deze gebruiken ter vervanging van of geïntegreerd in vragenlijsten?
Gecombineerd met de opgedane kennis en inzichten van de eerste onderzoeksv raag, kunnen
we dan nieuwe rapportage-oplossingen voor traditionele vragenlijsten (per doelgroep)
ontwikkelen? Is een nieuwe aanpak in de praktijk efficiënt voor respondenten (uitgaande van de
eigen interne situatie en rapportageprocessen)? Is het inzetten van nieuwe technologieën een
verbetering t.o.v. de eerdere aanpak? En wat zijn uiteindelijk de effecten op respons en
datakwaliteit, en op bestaande CBS-methodes en processen?
13
Big data
Geschat wordt dat zo’n 90% van alle momenteel beschikbare gegevens in de wereld gedurende de afgelopen 2 jaar zijn gegenereerd. Veel van deze nieuwe, grote, datasets zijn het gevolg van de interactie tussen computersystemen en personen of bedrijven. Dergelijk gegenereerde data worden ‘Big data’ genoemd en zijn potentieel interessant voor de officiële statistiek. Het gebruik van ‘Big data’ is echter niet eenvoudig vanwege de specifieke eigenschappen van (de gegevens in) die bronnen. Ze zijn immers niet met het doel van statistiek maken verzameld. Het onderzoeksthema ‘Big data’ bestudeerd methoden om dergelijke data optimaal te benutten voor gebruik binnen de officiële statistiek.
Niche en urgentie Gegevens worden vaak met behulp van enquêtes verzameld. Deze aanpak is tijd- en arbeidsintensief. Het hergebruiken van data die reeds door anderen zijn verzameld, aangeduid als secundaire data, kan hiervoor een goed alternatief zijn. Enkele voordelen zijn de lage kosten en de relatief grote hoeveelheden (vaak ook historische) data die kunnen worden verkregen zonder extra administratieve lastendruk voor bedrijven of personen. Registers zijn een bekend voorbeeld van secundaire data. Registers zijn tabelvormige, gestructureerde datasets die doorgaans door andere overheidsinstanties worden verzameld en uitermate geschikt zijn voor (her)gebruik door het CBS. Enkele voorbeelden van registers zijn: financiële gegevens over personen, verzameld door de Belastingdienst en gegevens over onroerend goed (bijv. gebouwen, grond, etc.) verzameld door het Kadaster.
Naast registers zijn er, in onze moderne wereld, veel nieuwe, grote datasets beschikbaar die mogelijk relevant kunnen zijn voor de officiële statistiek. Voorbeelden van dergelijke ‘Big data’ bronnen zijn afbeeldingen (zoals satelliet- en luchtfoto’s), teksten (zoals die op webpagina’s en in bedrijfsrapporten) en sensormetingen (zoals verkeers- en ruimtelijke-data). De hoeveelheid en diversiteit aan ‘Big data’ is de afgelopen jaren explosief toegenomen. Nadeel is echter dat deze gegevens vaak ruis bevatten, vluchtig en ongestructureerd zijn, zeker in vergelijking met registergegevens. Dit leidt tot de belangrijke onderzoeksvraag of het mogelijk is ‘Big data’ als vervanging of aanvulling in te zetten voor de gegevensbehoefte van het CBS.
Dit onderzoeksthema richt zich dan ook op de belangrijkste vragen voor het optimaal benutten van dergelijke data voor officiële statistieken, namelijk (1) het conceptualiseren van de statistische informatie die in ‘Big data’ aanwezig is, (2) het corrigeren van fouten in ‘Big data’ (zoals selectiebias, meetfouten, etc.), en (3) het efficiënt extraheren van informatie uit grote data bronnen en het efficiënt verwerken daarvan.