onderzoeksprogramma-methodologie-2025-2030.pdf

Type: Document | Status: ready

26

Er ligt dus een stevig fundament wat betreft informatiebeveiliging, maar door een snel veranderende wereld (technologisch, cultureel) zijn er nieuwe uitdagingen voor toekomstig onderzoek. Het onderzoek binnen dit thema heeft tot doel om informatiebeveiligi ng op een hoog niveau te houden, gegeven de veranderende omgeving. Dit betekent concreet dat het onderzoeksthema onderzoek doet naar (1) het beveiligen van gecombineerde en nieuwe typen informatie, (2) het veilig delen van informatie zowel extern als inter n en (3) bijdragen aan de onderbouwing van beleid op het gebied van informatiebeveiliging.

Uitdagingen Onderzoek binnen dit thema heeft tot doel om informatiebeveiliging op een hoog niveau te houden, en dit kent meerdere uitdagingen.

Ten eerste, door toenemende mogelijkheden om data en informatie te combineren wordt ook het risico op onthulling van individuele informatie vergroot. Nieuwe soorten data en informatie (denk aan de eerder benoemde netwerkdata, ongestructureerde data, ‘non -probability samples’, ‘Big data’, visualisaties, etc.) kunnen tot nieuwe soorten output leiden. Hoe kunnen we de veranderende onthullingsmogelijkheden het hoofd blijven bieden? Hoe beveiligen we dit soort nieuwe typen data en welke methoden lenen zich hiervoor?
Ook zijn begrippen als onthulling en privacy niet altijd duidelijk of eenduidig gedefinieerd voor dergelijke nieuwe soorten data en informatie. Over welke eenheden gaat de ongestructureerde data? Welke populatie zit achter de ‘non-probability samples’? Hoe definieer je onthullingsrisico in netwerkdata? Hoe neem je de complexiteit van netwerkdata mee? Wat betreft netwerkdata wordt er samengewerkt met het thema ‘Complexiteit en causaliteit’. Concluderend, het gaat bij dit onderzoeksgebied niet alleen om te onderzoeken wat nu nog niet mogelijk is (en dat in de toekomst wel mogelijk te maken), maar ook om te onderzoeken hoe bepaalde bestaande activiteiten mogelijk kunnen blijven.

Ten tweede, de trend om informatie te delen met externe onderzoekers is niet nieuw. Echter moet dit mogelijk blijven binnen de wettelijke kaders en veranderende omstandigheden. Gegeven het feit dat er steeds meer mogelijkheden komen om bestaande beveiligingsmethoden te omzeilen of aan te vallen, moeten de informatiebeveiligingsmethoden daarop reageren.
Nieuwe methoden en technieken kunnen ook bijdragen aan het (her)ontwerpen van onze interne statistische processen. Ontwerpen en testen van (delen van) productiestraten vindt vaak plaats in een ontwikkelomgeving waar geen “echte” data mogen staan. Echter, “ echte” data hebben karakteristieken die gefabriceerde data niet hebben.
Vragen die dan ook spelen zijn: hoe kunnen we op een veilige manier samenwerken met externen waarbij informatie en data op een veilige manier gecombineerd worden? Hoe kunnen we bruikbare en veilige data genereren die zonder problemen gedeeld kunnen worden met derden? En hoe kunnen vervolgens dergelijke databestanden gebruikt worden bij het ontwerpen en testen van productiestraten?

Ten derde, indirect kan onderzoek binnen dit thema ook bijdragen aan onderbouwing van (nieuw) beleid aangaande informatiebeveiliging. Het huidige beleid heeft deels een subjectief karakter, gebaseerd op ervaring, expert kennis en inschattingen. Dit thema k an bijdragen aan het explicieter en objectiever maken van het beleid. Ook de veranderende omgeving kan en zal van invloed zijn op het beleid. Om die veranderingen in het beleid goed te kunnen duiden, is onderzoek nodig. Ten slotte speelt de manier waarop gecommuniceerd wordt over de statistische beveiliging een rol in dit thema. Hoe leg je voor verschillende doelgroepen uit dat de

27

gebruikte methoden voldoende beveiliging bieden? Hoe leg je uit aan verschillende doelgroepen hoe ruis toevoegen kan helpen bij het waarborgen van privacy?
Tenslotte, informatiebeveiliging heeft een brede scope en heeft in principe een link met alle andere thema’s uit het CBS-onderzoeksprogramma. Alles krijgt op een bepaald moment (indirect) met informatiebeveiliging te maken. Al is het maar via het ‘privacy by design’ principe dat in de AVG/GDPR wordt genoemd. Dat gezegd, dit onderzoeksthema richt zich alleen op bovenstaande methodologische aspecten en gaat bijvoorbeeld niet in op IT -technische aspecten. Voornamelijk bij onderwerpen als ‘Secure Multi Party Co mputation’ en ‘Federated Learning’ spelen IT-technische/implementatie aspecten een belangrijke rol. Deze IT-technische component valt echter buiten de scope van dit onderzoeksthema.

28

Statistische informatie communicatie

Het CBS doet er alles aan kwalitatief goede statistieken te produceren: in elke stap van het productieproces staat kwaliteit bovenaan. De laatste stap in dat proces is het publiceren van statistische informatie op de CBS -website: de communicatie over onze statistische informatie aan een algemeen publiek. Ook hier wordt veel zorg aan besteed. Dit onderzoeksthema richt zich niet op de output zelf, de statistische informatie, maar op de manier waarop het CBS hierover communiceert: de statistische informatie c ommunicatie. In het bijzonder worden methoden ontwikkeld om de interpretatie, gebruik en waardering van onze communicatie door gebruikers empirisch te onderzoeken. Ook worden kwaliteitscriteria voor interpretatie en begrip ontwikkeld. Op basis van verkrege n inzichten kan vervolgens bekeken en getoetst worden hoe de interpretatie en begrip vergroot kan worden. Ook wordt onderzocht hoe concepten als onzekerheid op een begrijpelijk wijze overgebracht kunnen worden. Dit onderzoek is daarmee aanvullend op het onderzoek dat reeds door CCN gedaan wordt naar esthetische en ‘usability & user-experience’ aspecten van onze communicatie. Daar waar raakvlakken zijn, trekken we in dit thema samen op met CCN. Met dit thema geeft het CBS mede richting aan ontwikkelingen in de Europese Unie op dit gebied.

Niche en urgentie Het CBS publiceert dagelijks statistische informatie. Dat gebeurt in vele vormen: persberichten, Corporate artikelen op de CBS-website, rapporten, tabellen in Statline, etc. Het CBS doet dat niet voor zichzelf, maar ten behoeve van een groot publiek dan wel specifieke gebruikers. Dat kan een geïnteresseerde burger zijn, een student die gegevens zoekt voor een scriptie, een journalist, een onderzoeker, een ambtenaar, een Tweede Kamer lid, etc. Allemaal hebben ze hun eigen wensen, en voor allemaal is het belangrijk dat ze onze publicaties (in welke vorm dan ook) goed kunnen gebruiken en interpreteren.

Het CBS besteedt veel aandacht aan de kwaliteit van de te publiceren statistische cijfers. In alle stappen van het productieproces is kwaliteit een belangrijk thema. Onze dataverzameling -, steekproef-, verwerkings- en schattingsmethodes zijn erop gericht dat onze statistieken 'zuiver en precies' zijn: dat wil zeggen dat ze een fenomeen zo adequaat mogelijk beschrijven, dus met minimale vertekening en ruis. Ook aan de kwaliteit van onze communicatie ov er statistische informatie wordt veel aandacht besteed. Kwaliteitsaspecten gerelateerd aan de ‘user- experience’ en andere meer esthetische aspecten van onze output -communicatie krijgen al veel aandacht van CCN middels onderzoek en inhoudelijke expertise op dit terrein. Met het onderzoeksthema “Statistische Informatie Communicatie” breiden we het doen van systematisch, empirisch onderzoek uit naar kwaliteit van deze laatste stap in het productieproces: interpretatie, gebruik en waardering van onze communicatie. We focussen ons daarmee op de inhoud van de communicatie. Dit sluit aan bij de ‘European Statistics Code of Practice’ (EU 2018). Naast de kwaliteitscriteria voor de statistische informatie op zichzelf (zoals relevantie, tijdigheid, etc.) wordt in Principe 15 (Toegankelijkheid en Duidelijkheid) gesteld dat “... statistics are presented in a clear and understandable form”. Wat daarmee wordt bedoeld wordt echter niet aangegeven. Dit onderzoeksthema wil hier antwoorden op geven samen met CCN. Onderzoek naar de communicatie over statistische informatie krijgt in de Europese Unie steeds meer aandacht, wat o.a. blijkt uit congressen op dit gebied.

29

Het onderzoek in dit thema is drieledig, te weten (1) het operationaliseren van de kwaliteit van statistische informatie communicatie in kwaliteitscriteria voor verschillende gebruikersgroepen (2) methode-ontwikkeling om kwaliteit te onderzoeken, en (3) indien de kwaliteit ontoereikend blijkt, op basis van gedefinieerde kwaliteitscriteria en verkregen inzichten het onderzoeken van manieren om de statistische informatie communicatie aan te passen en te toetsen. De focus die we hierbij aanbrengen is toepassingsgericht: empirisch onderzoek waarin we de gebruiker actief betrekken.

In het verleden is bij het CBS al onderzoek gedaan naar met name grafieken. Beschreven werd welke vormen van grafieken in theorie lastig zijn te interpreteren. Er werden echter geen onderzoeksmethodes beschreven om de kwaliteit van grafieken empirisch te onderzoeken; ook zijn de beschreven criteria niet getoetst op factoren die samenhangen met interpretatie, zoals bijvoorbeeld duidelijkheid en begrijpelijkheid. Het CBS heeft de afgelopen decennia in he t thema “Primaire Waarneming” veel ervaring opgedaan met het systematisch empirisch onderzoeken van de begrijpelijkheid en beantwoordbaarheid van vragen in vragenlijsten door respondenten. De ontwikkelde onderzoeksmethodes en de opgedane ervaring worden in dit onderzoeksthema ingezet. Daarnaast kunnen we te raden gaan bij meerdere kennisgebieden die onderzoek doen naar informatieverwerking: welke onderzoeksmethodes worden gebruikt en wat zijn de resultaten van dat onderzoek? Uitdagingen Onderzoek naar de kwaliteit van statistische informatie communicatie kent verschillende uitdagingen. Zoals geldt dat onze statistische informatie ‘zuiver en precies’ moet zijn, zouden we bijvoorbeeld ook kunnen stellen dat onze publicaties correct moeten k unnen worden geïnterpreteerd, gebruikt en gewaardeerd.
Over deze drie aspecten kunnen we ons de volgende vraag stellen:
• Interpreteren gebruikers de gepresenteerde informatie op een manier zoals wij dat willen, op een manier die overeenkomt met onze intentie? Als dat zo is zouden we kunnen zeggen dat er sprake van valide communicatie.
• Is de communicatie (qua inhoud en vorm) zodanig gekozen dat de gepresenteerde informatie door een gebruiker is te gebruiken voor het door deze gebruiker beoogde doel? Dan zouden we kunnen zeggen dat de communicatievorm effectief en doeltreffend is.
• Waarderen gaat over een waardeoordeel van de gebruikers: waarderen gebruikers onze communicatie?
Daarnaast zijn de aantrekkelijkheid en toegankelijkheid van een publicatie kwaliteitscriteria die ook expliciet kunnen worden gebruikt: een ‘infographic’ moet ook aantrekkelijk zijn om te bekijken (en daarmee de aandacht trekken); een lange blok tekst is m ogelijk niet voor iedereen aantrekkelijk om te gaan lezen. Naar deze aspecten wordt al onderzoek gedaan door CCN. Er zijn dus meerdere kwaliteitscriteria, waarbij we ons er bewust van moeten zijn bepaalde criteria met elkaar op gespannen voet kunnen staan en conflicteren. Het vinden van de juiste criteria (objectieve maatstaven), het conceptualiseren en operationaliseren hiervan, en het toetsen van onze communicatie hieraan is een uitdaging.

Naast het bepalen van kwaliteitscriteria op zichzelf is het een uitdaging om deze empirisch te onderzoeken. Hier gaat het om methode-ontwikkeling. De vraag is: hoe kunnen we bijvoorbeeld onderzoeken of gebruikers een communicatievorm (een visualisatie of e en tekst) correct interpreteren? Welke onderzoeksmethoden zijn hiervoor geschikt? Naast kwalitatieve onderzoeksmethoden (diepte-gesprekken en eye-tracking) kunnen ook kwantitatieve methoden ingezet worden, bijvoorbeeld met experimenten.

30

Samenvattend komen we voor dit thema tot de volgende centrale onderzoeksvragen: Hoe kunnen we de kwaliteit van onze statistische informatie communicatie met betrekken tot interpretatie, gebruik en waardering onderzoeken? Welke kwaliteitscriteria kunnen we hieruit destilleren (voor verschillende doelgroepen van gebruikers)? Welke kennisgebieden zijn hierbij ondersteunend, en wat zeggen die disciplines over de kwaliteit van communicatie over statistische informatie? Welke kennis hebben we al in huis, en welke moeten we ontwikkelen? Tevens doen we onderzoek naar de communicatie van specifieke statistieken en statistische concepten zoals bijvoorbeeld onzekerheid van cijfers gebaseerd op steekproeven en uitkomsten van complexe analyse methoden.

31

Toepasbare Artificial Intelligence

Recente ontwikkelingen in Artificial Intelligence (AI) kunnen potentieel interessant zijn voor het gebruik in de officiële statistiek . Het toepassen van AI brengt echter ook risico’s met zich mee. AI -methoden zijn minder goed begrepen en bieden minder kwaliteitsgaranties vergeleken met standaard
statistische methoden . Het thema 'Toepasbare AI' richt zich op het ontwikkelen van methodologische richtlijnen voor het succesvol inzetten van AI binnen de officiële statistiek. In tegenstelling tot andere onderzoeksthema's is dit thema niet beperkt tot één of enkele stap(pen) in het statistische proces. AI wordt beschouwd als een veelzijdig hulpmiddel dat in het gehele proces kan worden ingezet.

Niche en urgentie Artificial Intelligence (AI) is een onderzoeksgebied dat zich richt op het ontwikkelen van tools die in staat zijn taken uit te voeren die normaal menselijke intelligentie vereisen, zoals redeneren, probleem oplossen, perceptie en taalbegrip. De oorspronkelijke vraa g van AI- onderzoekers was: kunnen we machines laten denken? We zien dat een specifieke techniek, Machine learning (ML) het succesvolst is. ML probeerde oorspronkelijk de vraag te beantwoorden hoe mensen leren. Aan de ene kant werden hiervoor cognitieve mod ellen ontwikkeld, terwijl aan de andere kant de vraag ontstond hoe hersenen zich organiseren en zo informatie kunnen vasthouden. Dit leidde tot de ontwikkeling van o.a. neurale netwerken. Het huidige veld van de ML heeft nog maar weinig te maken met deze oorspronkelijke ambities.
De toepassingen van AI buiten het CBS nemen in een rap tempo toe, en ook binnen het CBS stijgt het aantal initiatieven. Toch merken we dat, binnen de statistiek, het aantal succesvolle toepassingen in productie beperkt is. Veel van de initiatieven lijken hoopgevend, maar uiteindelijk zijn er onzekerheden of aan de kwaliteitseisen van de officiële statistieken wordt voldaan. Het toepassen van AI bij het CBS blijkt dus ingewikkeld. Een probleem is dat de AI vooral aan de kant van de techniek sterk ontwikkelt. Ter illustratie, universiteiten en grote technologiebedrijven publiceren frequent nieuwe technieken en modellen die volgens bepaalde maatstaven steeds beter worden. Echter, deze maatstaven staan niet perse gelijk aan de maatstaven in de officiële statistiek (lees: het verkrijgen van een statistisch zuiver resultaat). Dit is dan ook het expliciete doel van dit thema, het formuleren van methodologische richtlijnen voor het succesvol toepassen van AI in de officiële statistiek door (1) te onderzoeken welke problemen er, vanuit een statistisch oogpunt, ontstaan als we AI inzetten (‘normatief kader’), (2) onderzoeken hoe we deze problemen kunnen oplossen (‘methodologisch kader’) en tenslotte (3) ondersteunende werkzaamheden bij specifieke AI implementaties bij h et CBS (‘toepassingsgericht’). Het zwaartepunt van het onderzoek in dit onderzoeksthema ligt op het methodologische kader. Met AI wordt al breed geëxperimenteerd binnen het CBS, maar de kennis is momenteel verspreid over verschillende divisies en onderzoek sthema’s. Dit onderzoeksthema beoogt een geïntegreerde aanpak om te bepalen wanneer en hoe specifieke AI-technieken verantwoord kunnen worden ingezet binnen de officiële statistiek. We zullen hierbij concrete casestudies gebruiken binnen het CBS om de prak tische toepasbaarheid van deze technieken te evalueren. Hierbij ontstaat er uiteraard een wisselwerking tussen Methodologie en de statistische afdelingen.