19
bij enquêtes is dit onderwerp extra relevant. Tenslotte bieden modelgebaseerde methoden veel mogelijkheden om gebruik te maken van nieuwe databronnen, waarbij survey data nog steeds de primaire bron zijn en nieuwe databronnen als hulpinformatie worden gebr uikt. Hierdoor blijft het afbreukrisico van een statistiek beperkt, omdat het CBS nog altijd in controle is over de beschikbaarheid van de primaire data. KDS hebben de afgelopen jaren zijn meerwaarde bewezen. Zo zijn er methoden ontwikkeld voor het maken van maand en jaarcijfers voor de beroepsbevolking die in productie zijn genomen. Dit geldt ook voor de maandcijfers van het consumenten vertrouwen. Via wer k voor derden zijn KDS ontwikkeld voor het maken van trends over mobiliteit, ziekteverzuim en sociale samenhang. Op basis van deze methoden worden momenteel officiële statistieken geproduceerd. Er zijn ook diverse methoden ontwikkeld om methodebreuken te k wantificeren en om hiervoor te corrigeren. Deze technieken zijn in diverse herontwerpen toegepast voor het kwantificeren van methodebreuken. Voorbeelden zijn het effect van diverse herontwerpen van de Enquête Beroepsbevolking op maand en kwartaalcijfers over de beroepsbevolking.
Een ander toepassingsgebied waar het inzetten van schattingsmethoden gebaseerd op een statistisch model essentieel is, is het meten van nieuwe fenomenen en het vullen van lacunes in bestaande (economische) statistieken. Voor veel nieuwe fenomenen zijn er g een of onvolledige (steekproef)gegevens beschikbaar en is een modelmatige aanpak noodzakelijk voor het maken van goede schattingen. Ten tweede vereist het verankeren van deze nieuwe fenomenen in onze statistieken vaak een herziening en herontwerp van de bestaande concepten. Met een modelmatige aanpak is het mogelijk om de nieuwe concepten en definities toe te passen en te testen. We modelleren nieuwe fenomenen, in het bijzonder vraagstukken rond het meten van economie en klimaat. Enkele concrete voorbeelden van nieuwe fenomenen zijn de platform- economie, free services (diensten die gratis zijn, maar waar grote geldstromen achter zitten), arbeid en digitalisering, digitalisering en marktconcentratie, waarde van data, en waarde van (digitale) bedrijven. Ook richten we ons op maten voor brede welvaart en de zogenaamde Sustainable Development Goals (SDG) van de Verenigde Naties. Bij de brede welvaart kijken we verder dan klassieke economische maatstaven en is het doel indicatoren hiervoor in samenhang te meten. Verder wordt onderzoek gedaan rond de European Green Deal, waarbij we in dit thema in het bijzonder werken aan het meten van de klimaatimpact op de economie.
Ook voor het beter meten van bestaande fenomenen kunnen met name statistische modellen uitkomst bieden, zoals bij economische concepten zoals inflatie en prijsindexcijfers. In plaats van enquêtes worden ook hier steeds vaker zeer gedetailleerde transactiedata en scannerdata gebruikt. Het betekent dat prijsindexmethoden moeten worden toegepast die specifiek bedoeld zijn voor ‘Big data’ bronnen. In dit thema doen we onderzoek naar prijsindexmethoden en hun implementatie in productie.
Samenvattend richt dit onderzoeksthema zich op de volgende deelgebieden, te weten (1) onderzoek naar Kleine-domeinschatters voor meer gedetailleerde, snellere schattingen, (2) schatten en corrigeren voor methodebreuken, (3) het ‘nowcasten’ van statistieken , (4) het inzetten van nieuwe databronnen bij schattingen, (5) correctie voor non respons en (6) het meten van nieuwe fenomenen, in het bijzonder rond de economie, welvaart en klimaat.
20
Uitdagingen
Wat betreft de zes deelgebieden, zien we naar de toekomst toe meerdere uitdagingen.
De gevestigde literatuur over Kleine-domeinschatters (KDS) houdt te weinig rekening met de
manier waarop officiële statistieken worden gemaakt, namelijk dat het gaat om herhaaldelijk
uitgevoerde steekproefonderzoeken waarop meerdere outputtabellen worden g ebaseerd. De
vraag is hoe aan de hand van tijdreeksmodellen informatie uit voorgaande referentieperioden
en andere domeinen kan worden gebruikt in KDS. Om ervoor te zorgen dat gepubliceerde
tabellen zoveel mogelijk numeriek consistent zijn met elkaar is he t noodzakelijk en efficiënt om
zoveel mogelijk outputtabellen uit één model af te leiden in plaats van één afzonderlijk model
voor iedere outputtabel te ontwikkelen. In de literatuur worden methoden beschreven die
varianties van de directe schattingen als input gebruiken, maar vooralsnog lijken de resultaten
bij KDS instabiel. Dit thema onderzoekt of we de uitkomsten stabiel(er) kunnen maken,
bijvoorbeeld door varianties gladde te maken via variantiefuncties?
Wat betreft methodebreuken, constateren we dat de reeds ontwikkelde methoden voor het kwantificeren van methodebreuken vooral goed werken op hoge aggregatieniveaus. Om methodebreuken uit te splitsen naar deelpopulaties kunnen deze technieken worden gecombineerd met de modellen die voor KDS zijn ontwikkeld. In het kader van de komende SBI - herziening (classificatie van bedrijven) is er behoefte aan het terugleggen (‘backcasten’) van de nieuwe indeling. Hoe kunnen we op een verantwoorde manier methodebreuken o p een hoog detail niveau detecteren, bijvoorbeeld door bestaande methoden te combineren met KDS?
Wat betreft het “nowcasten” van statistieken zijn nu multivariate, structurele tijdreeksmodellen (STM) ontwikkeld waarbij de doelreeks en hulpreeksen in één model worden gecombineerd. Informatie uit de hulpreeksen wordt gebruikt door in het model de correlatie tussen de trend- en seizoencomponenten van de doelreeks en de hulpreeksen te modelleren. Het standaard lineaire STM veronderstelt dat deze correlaties tijdsonafhankelijk zijn. Dit is een sterke veronderstelling die in de praktijk niet opgaat. Deze methoden kunnen dus niet omgaan met structurele veranderingen in de (cor)relatie tussen een doel- en hulpreeks. Dit thema onderzoekt hoe we correlaties tussen doel- en hulpreeks dynamisch kunnen modelleren? Andere issues met het hiervoor genoemde multivariate STM is hoe om te gaan met grote hoeveelheden hulpreeksen en hoe reeksen die op verschillende frequenties worden waargenomen het beste kunnen worden gecombineerd in één model. Numerieke consistentie tussen schattingen voor verschillende tabellen speelt ook een rol bij het multivariaat STM. Er zal daarom worden onderzocht hoe op basis van één multivariaat STM numerieke consistentie tussen tabellen kan worden afgedwongen door restricties aan het model op te leggen. Dit zal worden toegepast op de kwartaalcijfers van de economische groei.
Het vierde onderzoeksgebied betreft het gebruik van nieuwe databronnen zoals bijvoorbeeld luchtfoto’s, sociale media platforms, internet, maar ook registers. Het gebruik van dit soort databronnen voor het maken van statistieken brengt diverse risico’s met zich mee, zoals nauwkeurigheid, beschikbaarheid en vergelijkbaarheid door de tijd. Deze risico’s kunnen worden beperkt door deze informatie te gebruiken als hulpinformatie in statistische modellen waar survey data nog steeds de primaire databron is, of door deze informatie te gebruiken om het steekproefontwerp of de weging van een survey te optimaliseren.
Het vijfde onderzoeksgebied betreft het meten van nieuwe en bestaande fenomenen, in het bijzonder rond de economie, welvaart en klimaat. De economie verandert continu, en daardoor ontstaan er nieuwe fenomenen die we zo goed mogelijk in kaart willen brengen, en uit eindelijk
21
in onze statistieken willen opnemen. Dat kan betekenen dat een onderdeel van onze bestaande
statistieken anders gemeten moet worden, of dat er nieuwe indicatoren ontwikkeld moeten
worden. Allereerst speelt daarbij een meetprobleem: wat is de definitie van het nieuwe
fenomeen en lenen de bestaande cijfers zich om dit fenomeen hieruit af te leiden?
Daarnaast moet een model ontwikkeld worden dat dit fenomeen zo goed mogelijk meet. Ieder
nieuw fenomeen is anders en idealiter ontwikkelen we hier een generieke aanpak voor.
Naast het verbeteren van onze reguliere economische statistieken werken we aan publicaties
die verder kijken dan klassieke economische maatstaven zoals het bruto binnenlands product.
In de monitor brede welvaart worden veel indicatoren samengebracht en in samenhang
gepresenteerd. Niet alle indicatoren hebben dezelfde tijdigheid, en daarom moeten sommige
indicatoren ‘genowcast’ worden. Een andere vraag is hoe we trends in deze indicatoren meten
en weergeven. De trendmethode moet enerzijds de onderliggende lange termijn ontwikkeling
weergeven, maar anderzijds ook actuele inzichten geven in de meest recente ontwikkeling. Hier
spelen vragen over de techniek, maar ook conceptuele vragen (wat willen we weergeven en
hoe willen we indicatoren van het CBS en andere landen onderling vergelijken?)
Binnen dit onderzoeksthema werken we in het bijzonder aan vragen rond klimaatimpact - en
adaptatie. We ontwikkelen modellen die de relatie tussen klimaat en economie proberen te
meten. Bijvoorbeeld, hoe kunnen we het effect kwantificeren van weersextremen o p de
economie in een bepaalde verslagperiode? Hoe heeft klimaatverandering door de jaren heen de
economie beïnvloed? Gezien de hoeveelheid weersdata die beschikbaar zijn, zijn er
raakvlakken met onderzoeksvragen in het thema ‘Big data’.
Behalve de omvang (volume) van bepaalde delen van de economie is het voor een goed zicht op
economische ontwikkelingen ook belangrijk inzicht te hebben in hoe prijzen zich ontwikkelen
(de zogenaamde ‘prijzenstatistieken’). Door de veranderende economie en het opkomen van
nieuwe fenomenen, treden er regelmatig problemen op rond het meten van deze
prijsontwikkelingen en het opnemen van deze nieuwe fenomenen. Denk hierbij aan nieuwe
productgroepen die meegenomen moeten worden of aanpassingen van de methode bij een
(energie)crisis. De vraag is daarom hoe we de nauwkeurigheid van de prijsindices op korte en
lange termijn waarborgen. Een concreet probleem is het beperken van de vertekening bij het
aan elkaar knopen van korte indexreeksen.
22
Complexiteit en causaliteit
Het CBS streeft ernaar een statistische bijdrage te leveren aan grote maatschappelijke uitdagingen zoals wonen, criminaliteit, klimaat en duurzaamheid. Dergelijke fenomenen zijn van nature complex en onderling verbonden. Gewoonlijk publiceert het CBS-statistieken los van elkaar, zonder rekening te houden met de onderlinge interacties tussen deze fenomenen. Dit onderzoeksthema richt zich op methoden die in staat zijn om statistieken samen te stellen die fenomenen beschrijven als een complex systeem, waarbij hun interacties worden meegenomen. Daarnaast worden methoden onderzocht die causale verbanden tussen de verschillende fenomenen kunnen beschrijven.
Niche en urgentie
De behoefte aan kwantitatief inzicht in de huidige complexe samenleving vraagt om nieuwe
methodologische instrumenten. Het thema ‘Complexiteit en causaliteit’ voorziet daarin. Sinds
de oprichting van het CBS in 1899 is de wereld veel ingewikkelder en meer verknoopt
geworden. De moderne maatschappij kan gezien worden als een verzameling van complexe
systemen waarbij de verschillende actoren (zoals personen, bedrijven, instellingen, voertuigen,
etc.) meer met elkaar in contact staan dan ooit. Met andere woor den, sociale,
maatschappelijke, logistieke en economische processen grijpen meer dan voorheen op elkaar in
en zijn met elkaar verbonden. Het analyseren en beschrijven van de fenomenen die
voortkomen uit de interactie van deze complexe systemen vraagt van h et CBS extra inzet.
Eén van de inhoudelijke strategische doelen van het CBS voor de komende jaren, zoals
geformuleerd in het CBS -eerjarenprogramma 2024–2028, is het leveren van een statistische
bijdrage aan grote maatschappelijke opgaven zoals wonen, ondermijnende criminalit eit,
klimaat, globalisering en duurzaamheid (zoals hierboven beschreven). Dit soort
maatschappelijke fenomenen zijn zonder uitzondering complex: er is sprake van verschillende
actoren en interactie tussen verschillende fenomenen. In de analyses van het CBS worden die
interacties nu doorgaans niet expliciet meegenomen. Voor beleidsmakers en journalisten,
belangrijke afnemers van CBS-statistieken, zou het weglaten van deze interacties een probleem
kunnen vormen. Ter illustratie, cijfers over fietsongevallen naar leeftijd en cijfers over
vergrijzing per regio en mobiliteit worden gepresenteerd in afzonderlijke StatLine tabellen. Het
wordt hieruit niet duidelijk of een potentiele toename van verkeersdoden op de fiets te wijten
is aan vergrijzing van de bevolking, dat fietsen onveiliger geworden is of dat ouderen meer
fietsen. Voor beleidsmakers is het van wezenlijk belang of beleidsterreinen elkaar tegenwerken
of juist versterken, hoe ze elkaar beïnvloeden en wat de kwantitatieve aspecten daarvan zijn.
Voor journalisten is het ook van belang om cijfers in een juiste context te plaatsen. Het CBS kan
deze afnemers ondersteunen door meer context bij statistieken te kwantificeren en bekende en
aanwezige causale relaties te toetsen en beschrijven.
De wetenschappelijke discipline die zich bezighoudt met het analyseren en modelleren van
complexe systemen heet ‘Complexity Science’. Methoden voor het analyseren van complexe
systemen zijn grofweg te groeperen in de volgende drie werkgebieden: ‘Network Sc ience’
(NWS), ’Agent Based Modeling’ (ABM), en ’Dynamic Systems’ (DS).
Ten eerste, bij NWS ligt de nadruk op de (evoluerende) structuur van het systeem, zoals sociale
netwerken, verkeer, transport en productieketens. Wat zijn belangrijke elementen en
verbindingen/interacties in het systeem, hoe beïnvloeden elementen elkaar en wat heeft dat
voor gevolgen? Bijvoorbeeld, hoe afhankelijk is het Nederlandse bedrijfsleven van gas of andere
importgoederen? Hoe werkt dat door in de Nederlandse productieketen? Welke economische
23
sectoren zijn gevoelig omdat er weinig leveranciers zijn? Een reeds succesvolle toepassing van
deze techniek zijn de Personen- en Bedrijvennetwerken die de afgelopen jaren zijn ontwikkeld
en die zowel intern (bij statistische afdelingen, o.a., in de vorm van dashboards en artikelen
over opleidingsniveau- en herkomstsegregatie) als extern (academia) veelvuldig gebruikt
worden.
En ten tweede, bij ABM ligt de nadruk op het individuele gedrag van de elementen. Welk
gedragsregels leiden tot ander systeemeigenschappen? Bijvoorbeeld, leidt een ZZP -
belastingvoordeel tot meer ZZP’ers en ten koste van wat?
Ten derde, DS legt de nadruk op veranderende eigenschappen van het systeem: hoe beïnvloedt
het systeem zichzelf? Bijvoorbeeld, wordt in een buurt met veel zonnepanelen ook sneller
overgegaan op zonnepanelen door anderen (zelf versterkend effect). Hoe beïn vloeden
onderdelen (groepen van elementen) van het systeem elkaar?
Het onderzoeksthema Complexiteit en Causaliteit heeft als doel om methoden te ontwikkelen
en onderhouden die (1) leiden tot een uitbreiding van de output van het CBS met statistieken
die fenomenen van Nederland beschrijven als een complex systeem, (2) verd er inzicht geven in
de causaliteit bij complexe mechanismen ter ondersteuning van de duiding van gepubliceerde
statistieken en (3) het uiteindelijk ook mogelijk maken voor (interne en externe) onderzoekers
om beleid te evalueren door middel van met CBS-cijfers-gekalibreerde scenario’s.
Uitdagingen
Het onderzoekthema Complexiteit en Causaliteit heeft een goede basis opgebouwd in de
afgelopen jaren, met als succesvolle toepassingen de eerdergenoemde personen - en
bedrijvennetwerken. Er liggen voor het CBS echter nog meerdere uitdagingen en kansen.
Wat betreft het publiceren van statistieken op basis van complexe (netwerk) systemen, zijn er
verschillende aanknopingspunten. Ten eerste, het combineren van steekproefdata met
netwerkstructuren (uit het werkgebied ‘Network Science’) is nog niet of nauweli jks onderzocht.
Is een bedrijvennetwerk te combineren met bestaande enquêtes op een dusdanige manier dat
dit extra informatie oplevert? Is een personennetwerk te gebruiken als een steekproefkader
voor onderzoek naar bijvoorbeeld de invloed van het sociale netwerk van jonge ouders op hun
keuze voor kinderopvang? Om dat te kunnen bepalen, kan je een steekproef trekken, maar dan
wel een steekproef waarbij de kans groot is dat je slechts een deel van het netwerk van
(sommige) jonge ouders waarneemt. Het is op dit moment onduidelijk hoe je dat op een
methodologisch verantwoorde wijze doet.
Ten tweede, de personen- en bedrijvennetwerken zijn grotendeels gebaseerd op registerdata
waarbij de data niet altijd toereikend en/of compleet is. Zo worden bijvoorbeeld relaties tussen
entiteiten in een netwerk deels geschat of afgeleid. Wanneer mogen we afleiden (en met welke
zekerheid) dat bedrijven met elkaar handelen zodat daar goede statistische conclusies uit
getrokken kunnen worden? Hoe weten we of personen sociaal gezien met elkaar in contact
staan? Ten derde, zoals in de inleiding werd benoemd, is de huidige maatschappij complex en
gaat deze veel verder dan alleen bedrijven en personen die onderling met elkaar interacteren.
Het CBS kan onderzoek doen naar meer netwerkstructuren zoals transport - en
energienetwerken. Welke bij het CBS beschikbare databronnen en technieken lenen zich voor
het implementeren van deze nieuwe netwerken? En wat zijn de toepassingen van deze nieuwe
netwerken in de context van de strategische doelen uit het meerjarenplan? Ten vierde, de
bestaande netwerken (en de potentieel nieuwe) netwerken beschrijven interacties tussen
specifieke type actoren (bijvoorbeeld, personen, bedrijven of verkeer), echter werd juist
betoogd dat de maatschappij bestaat uit interacties tussen allerlei typen actoren. Deze
interacties worden op dit moment nog niet gemodelleerd. Kortom, naast het verbeteren van
24
bestaande en implementeren van nieuwe netwerken, liggen er ook kansen bij het combineren
van verschillende typen netwerken. Echter, methoden voor het combineren van verschillende
type netwerken, zoals het bedrijven-, wegennetwerk- en personennetwerk, staan in de
kinderschoenen. Tenslotte zien we als vijfde uitdaging het afleiden van robuuste en zuivere
statistieken op basis van netwerken. De complexiteit zit hier in de onzekerheid over de
netwerkstructuur zelf, alsmede nauwkeurigheid van de statistieken zel f. Hoe leiden we de
statistieken af uit netwerk/complexe systemen, en zijn de onzekerheidsmarges te bepalen?
Ten behoeve van een juiste duiding van gepubliceerde, complexe, statistieken zien we het
aantonen van causale complexe inferenties als belangrijke uitdaging. Hoe modelleer je causale
relaties in complexe systemen? Hoe combineer je onafhankelijk gemeten dat a voor
verschillende fenomenen op een verantwoorde wijze tot een causaal model?
Voor het derde onderzoeksdoel, het ondersteunen van beleidsevaluaties, zien we ook meerdere
uitdagingen. Het doorrekenen van verschillende scenario’s kan met technieken uit het
werkgebied ’Agent Based Modeling’ (ABM). Echter, het inrichten van ABM-modellen is complex.
In academia werken ze vaak met kleine, eenvoudige voorbeelden om te kijken wat de effecten
zijn van bepaald gedrag. Zoals eerder benoemd, streeft het CBS naar inzichten voor grote
maatschappelijke thema’s en is het opstellen van een ABM vele malen complexer. Enkele
vragen daarbij zijn: hoe ontwerp je ABM voor een zogenaamde Twin-populatie (een digitale
representatie van een proces) waarin de gehele Nederlandse bevolking als actor meedraait voor
het testen van scenario’s (bijvoorbeeld het verspreiden van infectieziekten, of het overgaan tot
aanschaf van een elektrische auto)? De uitdaging hierbij is de schaalgrootte en het formuleren
van realistische interactie scenario’s. Verder, hoe kalibreer je ABM-modellen op basis van een
gehele populatie (bijv. personen/bedrijven)? Tenslotte, een relatief nieuwe invalshoek voor dit
probleem: gegeven de (macro)uitkomst die het CBS kent, hoe stel je daarmee een ABM -model
af? Wat is een plausibel bijbehorend gedrag van agents, gegeven de bekende uitkomst (op basis
van CBS-statistieken)?
25
Informatie beveiliging
Het vertrouwelijk omgaan met gegevens is wettelijk verplicht volgens nationale en internationale regelgeving en vormt een essentiële voorwaarde voor het CBS om het vertrouwen van de samenleving en beleidsmakers te behouden. Aan de andere kant is het onwenselijk om gegevens volledig af te schermen en ontoegankelijk te maken voor anderen: een van de strategische doelen van het CBS is om d e rol te pakken van ‘data -hub van Nederland’. Dit onderzoeksthema richt zich op methoden om data te beveiligen en om data veilig te delen met externe partijen, waarbij het risico op gegevensonthulling wordt afgewogen tegen het behoud van informatiewaarde.
Niche en urgentie Vertrouwelijk omgaan met gegevens van individuele eenheden (personen, bedrijven, huishoudens, instituten, gemeenten, etc.) is een van de voorwaarden voor een betrouwbaar CBS. Niet voor niets staan er in de CBS-wet meerdere artikelen die aangeven hoe het CBS vertrouwelijk met gegevens om moet gaan. Zo staat in artikel 37 van de CBS wet bijvoorbeeld dat uit publicaties van het CBS geen herkenbare gegevens over een afzonderlijk persoon, huishouden, onderneming of instelling ontleend mogen kunnen worden. Ook de Europese GDPR (in Nederland uitgewerkt in de AVG en de uAVG) verplicht ons om nauwgezet met gegevens van individuele personen om te gaan.
In de CBS-wet staat ook te lezen dat het CBS de publieke taak heeft om statistische gegevens te
publiceren over de Nederlandse samenleving en wetenschappelijk en statistisch onderzoek te
faciliteren. Bovendien is er een (internationale) beweging die data d elen stimuleert tussen
organisaties. Met de komst van de European Data Act moet het makkelijker worden om data te
delen en gezamenlijk onderzoek te doen, bijvoorbeeld via (inter)nationale ‘Data Spaces’ (een
centrale plaats voor het delen van data tussen organisaties). Data delen is ook onderdeel van de
strategische doelen van het CBS (toegang tot data vergroten). Het begrip “data” moet hier in
brede zin gezien worden: zowel geaggregeerde data (o.a. via StatLine) als ook microdata (o.a.
via aanvullende statistische diensten en via remote access) vallen hieronder.
Het is van belang om de beveiliging van informatie en het nut van informatieverstrekking op
een verantwoorde manier tegen elkaar af te wegen. Dit onderzoeksthema houdt zich dan ook
bezig met de afweging van het risico op onthulling versus het behoud van in formatie. Iedere
mate van beveiliging betekent immers tegelijkertijd ook een bepaalde hoeveelheid van
informatieverlies.
Het CBS is al jaren voortrekker binnen de statistische bureaus van onderzoek op het gebied van informatiebeveiliging. Sinds de jaren 90 van de vorige eeuw is het CBS de coördinator van vele internationale projecten, deels gefinancierd door Eurostat en/of de Europese Commissie. Via die projecten is het CBS dan ook al lange tijd coördinator van een Europees ‘Center of Excellence on Statistical Disclosure Control’. Een belangrijk product van die projecten is de software die de Europese standaard is geworden voor statistische bureaus om statistisch beveiliging toe te passen op hun publicaties. Een aantal van de geïmplementeerde methoden zijn door het CBS ontwikkeld. Op deze manier wordt het onderzoek op het gebied van de informatiebeveiliging door de afdeling Methodologie van het CBS niet alleen binnen de eigen organisatie gebruikt, maar ook bij vele internationale instellingen en statistische bureaus. Ten slotte is het CBS ook actief lid van de ‘Expert Group Statistical Disclosure Control’ van Eurostat.