onderzoeksprogramma-methodologie-2025-2030.pdf

Type: Document | Status: ready

19

bij enquêtes is dit onderwerp extra relevant. Tenslotte bieden modelgebaseerde methoden veel mogelijkheden om gebruik te maken van nieuwe databronnen, waarbij survey data nog steeds de primaire bron zijn en nieuwe databronnen als hulpinformatie worden gebr uikt. Hierdoor blijft het afbreukrisico van een statistiek beperkt, omdat het CBS nog altijd in controle is over de beschikbaarheid van de primaire data. KDS hebben de afgelopen jaren zijn meerwaarde bewezen. Zo zijn er methoden ontwikkeld voor het maken van maand en jaarcijfers voor de beroepsbevolking die in productie zijn genomen. Dit geldt ook voor de maandcijfers van het consumenten vertrouwen. Via wer k voor derden zijn KDS ontwikkeld voor het maken van trends over mobiliteit, ziekteverzuim en sociale samenhang. Op basis van deze methoden worden momenteel officiële statistieken geproduceerd. Er zijn ook diverse methoden ontwikkeld om methodebreuken te k wantificeren en om hiervoor te corrigeren. Deze technieken zijn in diverse herontwerpen toegepast voor het kwantificeren van methodebreuken. Voorbeelden zijn het effect van diverse herontwerpen van de Enquête Beroepsbevolking op maand en kwartaalcijfers over de beroepsbevolking.

Een ander toepassingsgebied waar het inzetten van schattingsmethoden gebaseerd op een statistisch model essentieel is, is het meten van nieuwe fenomenen en het vullen van lacunes in bestaande (economische) statistieken. Voor veel nieuwe fenomenen zijn er g een of onvolledige (steekproef)gegevens beschikbaar en is een modelmatige aanpak noodzakelijk voor het maken van goede schattingen. Ten tweede vereist het verankeren van deze nieuwe fenomenen in onze statistieken vaak een herziening en herontwerp van de bestaande concepten. Met een modelmatige aanpak is het mogelijk om de nieuwe concepten en definities toe te passen en te testen. We modelleren nieuwe fenomenen, in het bijzonder vraagstukken rond het meten van economie en klimaat. Enkele concrete voorbeelden van nieuwe fenomenen zijn de platform- economie, free services (diensten die gratis zijn, maar waar grote geldstromen achter zitten), arbeid en digitalisering, digitalisering en marktconcentratie, waarde van data, en waarde van (digitale) bedrijven. Ook richten we ons op maten voor brede welvaart en de zogenaamde Sustainable Development Goals (SDG) van de Verenigde Naties. Bij de brede welvaart kijken we verder dan klassieke economische maatstaven en is het doel indicatoren hiervoor in samenhang te meten. Verder wordt onderzoek gedaan rond de European Green Deal, waarbij we in dit thema in het bijzonder werken aan het meten van de klimaatimpact op de economie.

Ook voor het beter meten van bestaande fenomenen kunnen met name statistische modellen uitkomst bieden, zoals bij economische concepten zoals inflatie en prijsindexcijfers. In plaats van enquêtes worden ook hier steeds vaker zeer gedetailleerde transactiedata en scannerdata gebruikt. Het betekent dat prijsindexmethoden moeten worden toegepast die specifiek bedoeld zijn voor ‘Big data’ bronnen. In dit thema doen we onderzoek naar prijsindexmethoden en hun implementatie in productie.

Samenvattend richt dit onderzoeksthema zich op de volgende deelgebieden, te weten (1) onderzoek naar Kleine-domeinschatters voor meer gedetailleerde, snellere schattingen, (2) schatten en corrigeren voor methodebreuken, (3) het ‘nowcasten’ van statistieken , (4) het inzetten van nieuwe databronnen bij schattingen, (5) correctie voor non respons en (6) het meten van nieuwe fenomenen, in het bijzonder rond de economie, welvaart en klimaat.

20

Uitdagingen Wat betreft de zes deelgebieden, zien we naar de toekomst toe meerdere uitdagingen.
De gevestigde literatuur over Kleine-domeinschatters (KDS) houdt te weinig rekening met de manier waarop officiële statistieken worden gemaakt, namelijk dat het gaat om herhaaldelijk uitgevoerde steekproefonderzoeken waarop meerdere outputtabellen worden g ebaseerd. De vraag is hoe aan de hand van tijdreeksmodellen informatie uit voorgaande referentieperioden en andere domeinen kan worden gebruikt in KDS. Om ervoor te zorgen dat gepubliceerde tabellen zoveel mogelijk numeriek consistent zijn met elkaar is he t noodzakelijk en efficiënt om zoveel mogelijk outputtabellen uit één model af te leiden in plaats van één afzonderlijk model voor iedere outputtabel te ontwikkelen. In de literatuur worden methoden beschreven die varianties van de directe schattingen als input gebruiken, maar vooralsnog lijken de resultaten bij KDS instabiel. Dit thema onderzoekt of we de uitkomsten stabiel(er) kunnen maken, bijvoorbeeld door varianties gladde te maken via variantiefuncties?

Wat betreft methodebreuken, constateren we dat de reeds ontwikkelde methoden voor het kwantificeren van methodebreuken vooral goed werken op hoge aggregatieniveaus. Om methodebreuken uit te splitsen naar deelpopulaties kunnen deze technieken worden gecombineerd met de modellen die voor KDS zijn ontwikkeld. In het kader van de komende SBI - herziening (classificatie van bedrijven) is er behoefte aan het terugleggen (‘backcasten’) van de nieuwe indeling. Hoe kunnen we op een verantwoorde manier methodebreuken o p een hoog detail niveau detecteren, bijvoorbeeld door bestaande methoden te combineren met KDS?

Wat betreft het “nowcasten” van statistieken zijn nu multivariate, structurele tijdreeksmodellen (STM) ontwikkeld waarbij de doelreeks en hulpreeksen in één model worden gecombineerd. Informatie uit de hulpreeksen wordt gebruikt door in het model de correlatie tussen de trend- en seizoencomponenten van de doelreeks en de hulpreeksen te modelleren. Het standaard lineaire STM veronderstelt dat deze correlaties tijdsonafhankelijk zijn. Dit is een sterke veronderstelling die in de praktijk niet opgaat. Deze methoden kunnen dus niet omgaan met structurele veranderingen in de (cor)relatie tussen een doel- en hulpreeks. Dit thema onderzoekt hoe we correlaties tussen doel- en hulpreeks dynamisch kunnen modelleren? Andere issues met het hiervoor genoemde multivariate STM is hoe om te gaan met grote hoeveelheden hulpreeksen en hoe reeksen die op verschillende frequenties worden waargenomen het beste kunnen worden gecombineerd in één model. Numerieke consistentie tussen schattingen voor verschillende tabellen speelt ook een rol bij het multivariaat STM. Er zal daarom worden onderzocht hoe op basis van één multivariaat STM numerieke consistentie tussen tabellen kan worden afgedwongen door restricties aan het model op te leggen. Dit zal worden toegepast op de kwartaalcijfers van de economische groei.

Het vierde onderzoeksgebied betreft het gebruik van nieuwe databronnen zoals bijvoorbeeld luchtfoto’s, sociale media platforms, internet, maar ook registers. Het gebruik van dit soort databronnen voor het maken van statistieken brengt diverse risico’s met zich mee, zoals nauwkeurigheid, beschikbaarheid en vergelijkbaarheid door de tijd. Deze risico’s kunnen worden beperkt door deze informatie te gebruiken als hulpinformatie in statistische modellen waar survey data nog steeds de primaire databron is, of door deze informatie te gebruiken om het steekproefontwerp of de weging van een survey te optimaliseren.

Het vijfde onderzoeksgebied betreft het meten van nieuwe en bestaande fenomenen, in het bijzonder rond de economie, welvaart en klimaat. De economie verandert continu, en daardoor ontstaan er nieuwe fenomenen die we zo goed mogelijk in kaart willen brengen, en uit eindelijk

21

in onze statistieken willen opnemen. Dat kan betekenen dat een onderdeel van onze bestaande statistieken anders gemeten moet worden, of dat er nieuwe indicatoren ontwikkeld moeten worden. Allereerst speelt daarbij een meetprobleem: wat is de definitie van het nieuwe fenomeen en lenen de bestaande cijfers zich om dit fenomeen hieruit af te leiden?
Daarnaast moet een model ontwikkeld worden dat dit fenomeen zo goed mogelijk meet. Ieder nieuw fenomeen is anders en idealiter ontwikkelen we hier een generieke aanpak voor.
Naast het verbeteren van onze reguliere economische statistieken werken we aan publicaties die verder kijken dan klassieke economische maatstaven zoals het bruto binnenlands product. In de monitor brede welvaart worden veel indicatoren samengebracht en in samenhang gepresenteerd. Niet alle indicatoren hebben dezelfde tijdigheid, en daarom moeten sommige indicatoren ‘genowcast’ worden. Een andere vraag is hoe we trends in deze indicatoren meten en weergeven. De trendmethode moet enerzijds de onderliggende lange termijn ontwikkeling weergeven, maar anderzijds ook actuele inzichten geven in de meest recente ontwikkeling. Hier spelen vragen over de techniek, maar ook conceptuele vragen (wat willen we weergeven en hoe willen we indicatoren van het CBS en andere landen onderling vergelijken?)
Binnen dit onderzoeksthema werken we in het bijzonder aan vragen rond klimaatimpact - en adaptatie. We ontwikkelen modellen die de relatie tussen klimaat en economie proberen te meten. Bijvoorbeeld, hoe kunnen we het effect kwantificeren van weersextremen o p de economie in een bepaalde verslagperiode? Hoe heeft klimaatverandering door de jaren heen de economie beïnvloed? Gezien de hoeveelheid weersdata die beschikbaar zijn, zijn er raakvlakken met onderzoeksvragen in het thema ‘Big data’.

Behalve de omvang (volume) van bepaalde delen van de economie is het voor een goed zicht op economische ontwikkelingen ook belangrijk inzicht te hebben in hoe prijzen zich ontwikkelen
(de zogenaamde ‘prijzenstatistieken’). Door de veranderende economie en het opkomen van nieuwe fenomenen, treden er regelmatig problemen op rond het meten van deze prijsontwikkelingen en het opnemen van deze nieuwe fenomenen. Denk hierbij aan nieuwe productgroepen die meegenomen moeten worden of aanpassingen van de methode bij een (energie)crisis. De vraag is daarom hoe we de nauwkeurigheid van de prijsindices op korte en lange termijn waarborgen. Een concreet probleem is het beperken van de vertekening bij het aan elkaar knopen van korte indexreeksen.

22

Complexiteit en causaliteit

Het CBS streeft ernaar een statistische bijdrage te leveren aan grote maatschappelijke uitdagingen zoals wonen, criminaliteit, klimaat en duurzaamheid. Dergelijke fenomenen zijn van nature complex en onderling verbonden. Gewoonlijk publiceert het CBS-statistieken los van elkaar, zonder rekening te houden met de onderlinge interacties tussen deze fenomenen. Dit onderzoeksthema richt zich op methoden die in staat zijn om statistieken samen te stellen die fenomenen beschrijven als een complex systeem, waarbij hun interacties worden meegenomen. Daarnaast worden methoden onderzocht die causale verbanden tussen de verschillende fenomenen kunnen beschrijven.

Niche en urgentie De behoefte aan kwantitatief inzicht in de huidige complexe samenleving vraagt om nieuwe methodologische instrumenten. Het thema ‘Complexiteit en causaliteit’ voorziet daarin. Sinds de oprichting van het CBS in 1899 is de wereld veel ingewikkelder en meer verknoopt geworden. De moderne maatschappij kan gezien worden als een verzameling van complexe systemen waarbij de verschillende actoren (zoals personen, bedrijven, instellingen, voertuigen, etc.) meer met elkaar in contact staan dan ooit. Met andere woor den, sociale, maatschappelijke, logistieke en economische processen grijpen meer dan voorheen op elkaar in en zijn met elkaar verbonden. Het analyseren en beschrijven van de fenomenen die voortkomen uit de interactie van deze complexe systemen vraagt van h et CBS extra inzet.
Eén van de inhoudelijke strategische doelen van het CBS voor de komende jaren, zoals geformuleerd in het CBS -eerjarenprogramma 2024–2028, is het leveren van een statistische bijdrage aan grote maatschappelijke opgaven zoals wonen, ondermijnende criminalit eit, klimaat, globalisering en duurzaamheid (zoals hierboven beschreven). Dit soort maatschappelijke fenomenen zijn zonder uitzondering complex: er is sprake van verschillende actoren en interactie tussen verschillende fenomenen. In de analyses van het CBS worden die interacties nu doorgaans niet expliciet meegenomen. Voor beleidsmakers en journalisten, belangrijke afnemers van CBS-statistieken, zou het weglaten van deze interacties een probleem kunnen vormen. Ter illustratie, cijfers over fietsongevallen naar leeftijd en cijfers over vergrijzing per regio en mobiliteit worden gepresenteerd in afzonderlijke StatLine tabellen. Het wordt hieruit niet duidelijk of een potentiele toename van verkeersdoden op de fiets te wijten is aan vergrijzing van de bevolking, dat fietsen onveiliger geworden is of dat ouderen meer fietsen. Voor beleidsmakers is het van wezenlijk belang of beleidsterreinen elkaar tegenwerken of juist versterken, hoe ze elkaar beïnvloeden en wat de kwantitatieve aspecten daarvan zijn. Voor journalisten is het ook van belang om cijfers in een juiste context te plaatsen. Het CBS kan deze afnemers ondersteunen door meer context bij statistieken te kwantificeren en bekende en aanwezige causale relaties te toetsen en beschrijven. De wetenschappelijke discipline die zich bezighoudt met het analyseren en modelleren van complexe systemen heet ‘Complexity Science’. Methoden voor het analyseren van complexe systemen zijn grofweg te groeperen in de volgende drie werkgebieden: ‘Network Sc ience’ (NWS), ’Agent Based Modeling’ (ABM), en ’Dynamic Systems’ (DS).
Ten eerste, bij NWS ligt de nadruk op de (evoluerende) structuur van het systeem, zoals sociale netwerken, verkeer, transport en productieketens. Wat zijn belangrijke elementen en verbindingen/interacties in het systeem, hoe beïnvloeden elementen elkaar en wat heeft dat voor gevolgen? Bijvoorbeeld, hoe afhankelijk is het Nederlandse bedrijfsleven van gas of andere importgoederen? Hoe werkt dat door in de Nederlandse productieketen? Welke economische

23

sectoren zijn gevoelig omdat er weinig leveranciers zijn? Een reeds succesvolle toepassing van deze techniek zijn de Personen- en Bedrijvennetwerken die de afgelopen jaren zijn ontwikkeld en die zowel intern (bij statistische afdelingen, o.a., in de vorm van dashboards en artikelen over opleidingsniveau- en herkomstsegregatie) als extern (academia) veelvuldig gebruikt worden.
En ten tweede, bij ABM ligt de nadruk op het individuele gedrag van de elementen. Welk gedragsregels leiden tot ander systeemeigenschappen? Bijvoorbeeld, leidt een ZZP - belastingvoordeel tot meer ZZP’ers en ten koste van wat?
Ten derde, DS legt de nadruk op veranderende eigenschappen van het systeem: hoe beïnvloedt het systeem zichzelf? Bijvoorbeeld, wordt in een buurt met veel zonnepanelen ook sneller overgegaan op zonnepanelen door anderen (zelf versterkend effect). Hoe beïn vloeden onderdelen (groepen van elementen) van het systeem elkaar?

Het onderzoeksthema Complexiteit en Causaliteit heeft als doel om methoden te ontwikkelen en onderhouden die (1) leiden tot een uitbreiding van de output van het CBS met statistieken die fenomenen van Nederland beschrijven als een complex systeem, (2) verd er inzicht geven in de causaliteit bij complexe mechanismen ter ondersteuning van de duiding van gepubliceerde statistieken en (3) het uiteindelijk ook mogelijk maken voor (interne en externe) onderzoekers om beleid te evalueren door middel van met CBS-cijfers-gekalibreerde scenario’s.
Uitdagingen Het onderzoekthema Complexiteit en Causaliteit heeft een goede basis opgebouwd in de afgelopen jaren, met als succesvolle toepassingen de eerdergenoemde personen - en bedrijvennetwerken. Er liggen voor het CBS echter nog meerdere uitdagingen en kansen.
Wat betreft het publiceren van statistieken op basis van complexe (netwerk) systemen, zijn er verschillende aanknopingspunten. Ten eerste, het combineren van steekproefdata met netwerkstructuren (uit het werkgebied ‘Network Science’) is nog niet of nauweli jks onderzocht. Is een bedrijvennetwerk te combineren met bestaande enquêtes op een dusdanige manier dat dit extra informatie oplevert? Is een personennetwerk te gebruiken als een steekproefkader voor onderzoek naar bijvoorbeeld de invloed van het sociale netwerk van jonge ouders op hun keuze voor kinderopvang? Om dat te kunnen bepalen, kan je een steekproef trekken, maar dan wel een steekproef waarbij de kans groot is dat je slechts een deel van het netwerk van (sommige) jonge ouders waarneemt. Het is op dit moment onduidelijk hoe je dat op een methodologisch verantwoorde wijze doet. Ten tweede, de personen- en bedrijvennetwerken zijn grotendeels gebaseerd op registerdata waarbij de data niet altijd toereikend en/of compleet is. Zo worden bijvoorbeeld relaties tussen entiteiten in een netwerk deels geschat of afgeleid. Wanneer mogen we afleiden (en met welke zekerheid) dat bedrijven met elkaar handelen zodat daar goede statistische conclusies uit getrokken kunnen worden? Hoe weten we of personen sociaal gezien met elkaar in contact staan? Ten derde, zoals in de inleiding werd benoemd, is de huidige maatschappij complex en gaat deze veel verder dan alleen bedrijven en personen die onderling met elkaar interacteren. Het CBS kan onderzoek doen naar meer netwerkstructuren zoals transport - en energienetwerken. Welke bij het CBS beschikbare databronnen en technieken lenen zich voor het implementeren van deze nieuwe netwerken? En wat zijn de toepassingen van deze nieuwe netwerken in de context van de strategische doelen uit het meerjarenplan? Ten vierde, de bestaande netwerken (en de potentieel nieuwe) netwerken beschrijven interacties tussen specifieke type actoren (bijvoorbeeld, personen, bedrijven of verkeer), echter werd juist betoogd dat de maatschappij bestaat uit interacties tussen allerlei typen actoren. Deze interacties worden op dit moment nog niet gemodelleerd. Kortom, naast het verbeteren van

24

bestaande en implementeren van nieuwe netwerken, liggen er ook kansen bij het combineren van verschillende typen netwerken. Echter, methoden voor het combineren van verschillende type netwerken, zoals het bedrijven-, wegennetwerk- en personennetwerk, staan in de kinderschoenen. Tenslotte zien we als vijfde uitdaging het afleiden van robuuste en zuivere statistieken op basis van netwerken. De complexiteit zit hier in de onzekerheid over de netwerkstructuur zelf, alsmede nauwkeurigheid van de statistieken zel f. Hoe leiden we de statistieken af uit netwerk/complexe systemen, en zijn de onzekerheidsmarges te bepalen?
Ten behoeve van een juiste duiding van gepubliceerde, complexe, statistieken zien we het aantonen van causale complexe inferenties als belangrijke uitdaging. Hoe modelleer je causale relaties in complexe systemen? Hoe combineer je onafhankelijk gemeten dat a voor verschillende fenomenen op een verantwoorde wijze tot een causaal model?
Voor het derde onderzoeksdoel, het ondersteunen van beleidsevaluaties, zien we ook meerdere uitdagingen. Het doorrekenen van verschillende scenario’s kan met technieken uit het werkgebied ’Agent Based Modeling’ (ABM). Echter, het inrichten van ABM-modellen is complex. In academia werken ze vaak met kleine, eenvoudige voorbeelden om te kijken wat de effecten zijn van bepaald gedrag. Zoals eerder benoemd, streeft het CBS naar inzichten voor grote maatschappelijke thema’s en is het opstellen van een ABM vele malen complexer. Enkele vragen daarbij zijn: hoe ontwerp je ABM voor een zogenaamde Twin-populatie (een digitale representatie van een proces) waarin de gehele Nederlandse bevolking als actor meedraait voor het testen van scenario’s (bijvoorbeeld het verspreiden van infectieziekten, of het overgaan tot aanschaf van een elektrische auto)? De uitdaging hierbij is de schaalgrootte en het formuleren van realistische interactie scenario’s. Verder, hoe kalibreer je ABM-modellen op basis van een gehele populatie (bijv. personen/bedrijven)? Tenslotte, een relatief nieuwe invalshoek voor dit probleem: gegeven de (macro)uitkomst die het CBS kent, hoe stel je daarmee een ABM -model af? Wat is een plausibel bijbehorend gedrag van agents, gegeven de bekende uitkomst (op basis van CBS-statistieken)?

25

Informatie beveiliging

Het vertrouwelijk omgaan met gegevens is wettelijk verplicht volgens nationale en internationale regelgeving en vormt een essentiële voorwaarde voor het CBS om het vertrouwen van de samenleving en beleidsmakers te behouden. Aan de andere kant is het onwenselijk om gegevens volledig af te schermen en ontoegankelijk te maken voor anderen: een van de strategische doelen van het CBS is om d e rol te pakken van ‘data -hub van Nederland’. Dit onderzoeksthema richt zich op methoden om data te beveiligen en om data veilig te delen met externe partijen, waarbij het risico op gegevensonthulling wordt afgewogen tegen het behoud van informatiewaarde.

Niche en urgentie Vertrouwelijk omgaan met gegevens van individuele eenheden (personen, bedrijven, huishoudens, instituten, gemeenten, etc.) is een van de voorwaarden voor een betrouwbaar CBS. Niet voor niets staan er in de CBS-wet meerdere artikelen die aangeven hoe het CBS vertrouwelijk met gegevens om moet gaan. Zo staat in artikel 37 van de CBS wet bijvoorbeeld dat uit publicaties van het CBS geen herkenbare gegevens over een afzonderlijk persoon, huishouden, onderneming of instelling ontleend mogen kunnen worden. Ook de Europese GDPR (in Nederland uitgewerkt in de AVG en de uAVG) verplicht ons om nauwgezet met gegevens van individuele personen om te gaan.

In de CBS-wet staat ook te lezen dat het CBS de publieke taak heeft om statistische gegevens te publiceren over de Nederlandse samenleving en wetenschappelijk en statistisch onderzoek te faciliteren. Bovendien is er een (internationale) beweging die data d elen stimuleert tussen organisaties. Met de komst van de European Data Act moet het makkelijker worden om data te delen en gezamenlijk onderzoek te doen, bijvoorbeeld via (inter)nationale ‘Data Spaces’ (een centrale plaats voor het delen van data tussen organisaties). Data delen is ook onderdeel van de strategische doelen van het CBS (toegang tot data vergroten). Het begrip “data” moet hier in brede zin gezien worden: zowel geaggregeerde data (o.a. via StatLine) als ook microdata (o.a. via aanvullende statistische diensten en via remote access) vallen hieronder.
Het is van belang om de beveiliging van informatie en het nut van informatieverstrekking op een verantwoorde manier tegen elkaar af te wegen. Dit onderzoeksthema houdt zich dan ook bezig met de afweging van het risico op onthulling versus het behoud van in formatie. Iedere mate van beveiliging betekent immers tegelijkertijd ook een bepaalde hoeveelheid van informatieverlies.

Het CBS is al jaren voortrekker binnen de statistische bureaus van onderzoek op het gebied van informatiebeveiliging. Sinds de jaren 90 van de vorige eeuw is het CBS de coördinator van vele internationale projecten, deels gefinancierd door Eurostat en/of de Europese Commissie. Via die projecten is het CBS dan ook al lange tijd coördinator van een Europees ‘Center of Excellence on Statistical Disclosure Control’. Een belangrijk product van die projecten is de software die de Europese standaard is geworden voor statistische bureaus om statistisch beveiliging toe te passen op hun publicaties. Een aantal van de geïmplementeerde methoden zijn door het CBS ontwikkeld. Op deze manier wordt het onderzoek op het gebied van de informatiebeveiliging door de afdeling Methodologie van het CBS niet alleen binnen de eigen organisatie gebruikt, maar ook bij vele internationale instellingen en statistische bureaus. Ten slotte is het CBS ook actief lid van de ‘Expert Group Statistical Disclosure Control’ van Eurostat.