26
Er ligt dus een stevig fundament wat betreft informatiebeveiliging, maar door een snel veranderende wereld (technologisch, cultureel) zijn er nieuwe uitdagingen voor toekomstig onderzoek. Het onderzoek binnen dit thema heeft tot doel om informatiebeveiligi ng op een hoog niveau te houden, gegeven de veranderende omgeving. Dit betekent concreet dat het onderzoeksthema onderzoek doet naar (1) het beveiligen van gecombineerde en nieuwe typen informatie, (2) het veilig delen van informatie zowel extern als inter n en (3) bijdragen aan de onderbouwing van beleid op het gebied van informatiebeveiliging.
Uitdagingen Onderzoek binnen dit thema heeft tot doel om informatiebeveiliging op een hoog niveau te houden, en dit kent meerdere uitdagingen.
Ten eerste, door toenemende mogelijkheden om data en informatie te combineren wordt ook
het risico op onthulling van individuele informatie vergroot. Nieuwe soorten data en informatie
(denk aan de eerder benoemde netwerkdata, ongestructureerde data, ‘non -probability
samples’, ‘Big data’, visualisaties, etc.) kunnen tot nieuwe soorten output leiden. Hoe kunnen
we de veranderende onthullingsmogelijkheden het hoofd blijven bieden? Hoe beveiligen we dit
soort nieuwe typen data en welke methoden lenen zich hiervoor?
Ook zijn begrippen als onthulling en privacy niet altijd duidelijk of eenduidig gedefinieerd voor
dergelijke nieuwe soorten data en informatie. Over welke eenheden gaat de ongestructureerde
data? Welke populatie zit achter de ‘non-probability samples’? Hoe definieer je onthullingsrisico
in netwerkdata? Hoe neem je de complexiteit van netwerkdata mee? Wat betreft netwerkdata
wordt er samengewerkt met het thema ‘Complexiteit en causaliteit’. Concluderend, het gaat bij
dit onderzoeksgebied niet alleen om te onderzoeken wat nu nog niet mogelijk is (en dat in de
toekomst wel mogelijk te maken), maar ook om te onderzoeken hoe bepaalde bestaande
activiteiten mogelijk kunnen blijven.
Ten tweede, de trend om informatie te delen met externe onderzoekers is niet nieuw. Echter
moet dit mogelijk blijven binnen de wettelijke kaders en veranderende omstandigheden.
Gegeven het feit dat er steeds meer mogelijkheden komen om bestaande
beveiligingsmethoden te omzeilen of aan te vallen, moeten de informatiebeveiligingsmethoden
daarop reageren.
Nieuwe methoden en technieken kunnen ook bijdragen aan het (her)ontwerpen van onze
interne statistische processen. Ontwerpen en testen van (delen van) productiestraten vindt
vaak plaats in een ontwikkelomgeving waar geen “echte” data mogen staan. Echter, “ echte”
data hebben karakteristieken die gefabriceerde data niet hebben.
Vragen die dan ook spelen zijn: hoe kunnen we op een veilige manier samenwerken met
externen waarbij informatie en data op een veilige manier gecombineerd worden? Hoe kunnen
we bruikbare en veilige data genereren die zonder problemen gedeeld kunnen worden met
derden? En hoe kunnen vervolgens dergelijke databestanden gebruikt worden bij het
ontwerpen en testen van productiestraten?
Ten derde, indirect kan onderzoek binnen dit thema ook bijdragen aan onderbouwing van (nieuw) beleid aangaande informatiebeveiliging. Het huidige beleid heeft deels een subjectief karakter, gebaseerd op ervaring, expert kennis en inschattingen. Dit thema k an bijdragen aan het explicieter en objectiever maken van het beleid. Ook de veranderende omgeving kan en zal van invloed zijn op het beleid. Om die veranderingen in het beleid goed te kunnen duiden, is onderzoek nodig. Ten slotte speelt de manier waarop gecommuniceerd wordt over de statistische beveiliging een rol in dit thema. Hoe leg je voor verschillende doelgroepen uit dat de
27
gebruikte methoden voldoende beveiliging bieden? Hoe leg je uit aan verschillende
doelgroepen hoe ruis toevoegen kan helpen bij het waarborgen van privacy?
Tenslotte, informatiebeveiliging heeft een brede scope en heeft in principe een link met alle
andere thema’s uit het CBS-onderzoeksprogramma. Alles krijgt op een bepaald moment
(indirect) met informatiebeveiliging te maken. Al is het maar via het ‘privacy by design’ principe
dat in de AVG/GDPR wordt genoemd. Dat gezegd, dit onderzoeksthema richt zich alleen op
bovenstaande methodologische aspecten en gaat bijvoorbeeld niet in op IT -technische
aspecten. Voornamelijk bij onderwerpen als ‘Secure Multi Party Co mputation’ en ‘Federated
Learning’ spelen IT-technische/implementatie aspecten een belangrijke rol. Deze IT-technische
component valt echter buiten de scope van dit onderzoeksthema.
28
Statistische informatie communicatie
Het CBS doet er alles aan kwalitatief goede statistieken te produceren: in elke stap van het productieproces staat kwaliteit bovenaan. De laatste stap in dat proces is het publiceren van statistische informatie op de CBS -website: de communicatie over onze statistische informatie aan een algemeen publiek. Ook hier wordt veel zorg aan besteed. Dit onderzoeksthema richt zich niet op de output zelf, de statistische informatie, maar op de manier waarop het CBS hierover communiceert: de statistische informatie c ommunicatie. In het bijzonder worden methoden ontwikkeld om de interpretatie, gebruik en waardering van onze communicatie door gebruikers empirisch te onderzoeken. Ook worden kwaliteitscriteria voor interpretatie en begrip ontwikkeld. Op basis van verkrege n inzichten kan vervolgens bekeken en getoetst worden hoe de interpretatie en begrip vergroot kan worden. Ook wordt onderzocht hoe concepten als onzekerheid op een begrijpelijk wijze overgebracht kunnen worden. Dit onderzoek is daarmee aanvullend op het onderzoek dat reeds door CCN gedaan wordt naar esthetische en ‘usability & user-experience’ aspecten van onze communicatie. Daar waar raakvlakken zijn, trekken we in dit thema samen op met CCN. Met dit thema geeft het CBS mede richting aan ontwikkelingen in de Europese Unie op dit gebied.
Niche en urgentie Het CBS publiceert dagelijks statistische informatie. Dat gebeurt in vele vormen: persberichten, Corporate artikelen op de CBS-website, rapporten, tabellen in Statline, etc. Het CBS doet dat niet voor zichzelf, maar ten behoeve van een groot publiek dan wel specifieke gebruikers. Dat kan een geïnteresseerde burger zijn, een student die gegevens zoekt voor een scriptie, een journalist, een onderzoeker, een ambtenaar, een Tweede Kamer lid, etc. Allemaal hebben ze hun eigen wensen, en voor allemaal is het belangrijk dat ze onze publicaties (in welke vorm dan ook) goed kunnen gebruiken en interpreteren.
Het CBS besteedt veel aandacht aan de kwaliteit van de te publiceren statistische cijfers. In alle stappen van het productieproces is kwaliteit een belangrijk thema. Onze dataverzameling -, steekproef-, verwerkings- en schattingsmethodes zijn erop gericht dat onze statistieken 'zuiver en precies' zijn: dat wil zeggen dat ze een fenomeen zo adequaat mogelijk beschrijven, dus met minimale vertekening en ruis. Ook aan de kwaliteit van onze communicatie ov er statistische informatie wordt veel aandacht besteed. Kwaliteitsaspecten gerelateerd aan de ‘user- experience’ en andere meer esthetische aspecten van onze output -communicatie krijgen al veel aandacht van CCN middels onderzoek en inhoudelijke expertise op dit terrein. Met het onderzoeksthema “Statistische Informatie Communicatie” breiden we het doen van systematisch, empirisch onderzoek uit naar kwaliteit van deze laatste stap in het productieproces: interpretatie, gebruik en waardering van onze communicatie. We focussen ons daarmee op de inhoud van de communicatie. Dit sluit aan bij de ‘European Statistics Code of Practice’ (EU 2018). Naast de kwaliteitscriteria voor de statistische informatie op zichzelf (zoals relevantie, tijdigheid, etc.) wordt in Principe 15 (Toegankelijkheid en Duidelijkheid) gesteld dat “... statistics are presented in a clear and understandable form”. Wat daarmee wordt bedoeld wordt echter niet aangegeven. Dit onderzoeksthema wil hier antwoorden op geven samen met CCN. Onderzoek naar de communicatie over statistische informatie krijgt in de Europese Unie steeds meer aandacht, wat o.a. blijkt uit congressen op dit gebied.
29
Het onderzoek in dit thema is drieledig, te weten (1) het operationaliseren van de kwaliteit van statistische informatie communicatie in kwaliteitscriteria voor verschillende gebruikersgroepen (2) methode-ontwikkeling om kwaliteit te onderzoeken, en (3) indien de kwaliteit ontoereikend blijkt, op basis van gedefinieerde kwaliteitscriteria en verkregen inzichten het onderzoeken van manieren om de statistische informatie communicatie aan te passen en te toetsen. De focus die we hierbij aanbrengen is toepassingsgericht: empirisch onderzoek waarin we de gebruiker actief betrekken.
In het verleden is bij het CBS al onderzoek gedaan naar met name grafieken. Beschreven werd
welke vormen van grafieken in theorie lastig zijn te interpreteren. Er werden echter geen
onderzoeksmethodes beschreven om de kwaliteit van grafieken empirisch te onderzoeken; ook
zijn de beschreven criteria niet getoetst op factoren die samenhangen met interpretatie, zoals
bijvoorbeeld duidelijkheid en begrijpelijkheid. Het CBS heeft de afgelopen decennia in he t
thema “Primaire Waarneming” veel ervaring opgedaan met het systematisch empirisch
onderzoeken van de begrijpelijkheid en beantwoordbaarheid van vragen in vragenlijsten door
respondenten. De ontwikkelde onderzoeksmethodes en de opgedane ervaring worden in dit
onderzoeksthema ingezet. Daarnaast kunnen we te raden gaan bij meerdere kennisgebieden
die onderzoek doen naar informatieverwerking: welke onderzoeksmethodes worden gebruikt
en wat zijn de resultaten van dat onderzoek?
Uitdagingen
Onderzoek naar de kwaliteit van statistische informatie communicatie kent verschillende
uitdagingen. Zoals geldt dat onze statistische informatie ‘zuiver en precies’ moet zijn, zouden
we bijvoorbeeld ook kunnen stellen dat onze publicaties correct moeten k unnen worden
geïnterpreteerd, gebruikt en gewaardeerd.
Over deze drie aspecten kunnen we ons de volgende vraag stellen:
• Interpreteren gebruikers de gepresenteerde informatie op een manier zoals wij dat
willen, op een manier die overeenkomt met onze intentie? Als dat zo is zouden we
kunnen zeggen dat er sprake van valide communicatie.
• Is de communicatie (qua inhoud en vorm) zodanig gekozen dat de gepresenteerde
informatie door een gebruiker is te gebruiken voor het door deze gebruiker beoogde
doel? Dan zouden we kunnen zeggen dat de communicatievorm effectief en
doeltreffend is.
• Waarderen gaat over een waardeoordeel van de gebruikers: waarderen gebruikers
onze communicatie?
Daarnaast zijn de aantrekkelijkheid en toegankelijkheid van een publicatie kwaliteitscriteria die
ook expliciet kunnen worden gebruikt: een ‘infographic’ moet ook aantrekkelijk zijn om te
bekijken (en daarmee de aandacht trekken); een lange blok tekst is m ogelijk niet voor iedereen
aantrekkelijk om te gaan lezen. Naar deze aspecten wordt al onderzoek gedaan door CCN. Er
zijn dus meerdere kwaliteitscriteria, waarbij we ons er bewust van moeten zijn bepaalde criteria
met elkaar op gespannen voet kunnen staan en conflicteren. Het vinden van de juiste criteria
(objectieve maatstaven), het conceptualiseren en operationaliseren hiervan, en het toetsen van
onze communicatie hieraan is een uitdaging.
Naast het bepalen van kwaliteitscriteria op zichzelf is het een uitdaging om deze empirisch te onderzoeken. Hier gaat het om methode-ontwikkeling. De vraag is: hoe kunnen we bijvoorbeeld onderzoeken of gebruikers een communicatievorm (een visualisatie of e en tekst) correct interpreteren? Welke onderzoeksmethoden zijn hiervoor geschikt? Naast kwalitatieve onderzoeksmethoden (diepte-gesprekken en eye-tracking) kunnen ook kwantitatieve methoden ingezet worden, bijvoorbeeld met experimenten.
30
Samenvattend komen we voor dit thema tot de volgende centrale onderzoeksvragen: Hoe kunnen we de kwaliteit van onze statistische informatie communicatie met betrekken tot interpretatie, gebruik en waardering onderzoeken? Welke kwaliteitscriteria kunnen we hieruit destilleren (voor verschillende doelgroepen van gebruikers)? Welke kennisgebieden zijn hierbij ondersteunend, en wat zeggen die disciplines over de kwaliteit van communicatie over statistische informatie? Welke kennis hebben we al in huis, en welke moeten we ontwikkelen? Tevens doen we onderzoek naar de communicatie van specifieke statistieken en statistische concepten zoals bijvoorbeeld onzekerheid van cijfers gebaseerd op steekproeven en uitkomsten van complexe analyse methoden.
31
Toepasbare Artificial Intelligence
Recente ontwikkelingen in Artificial Intelligence (AI) kunnen potentieel
interessant zijn voor het gebruik in de officiële statistiek . Het toepassen van
AI brengt echter ook risico’s met zich mee. AI -methoden zijn minder goed
begrepen en bieden minder kwaliteitsgaranties vergeleken met standaard
statistische methoden . Het thema 'Toepasbare AI' richt zich op het
ontwikkelen van methodologische richtlijnen voor het succesvol inzetten van
AI binnen de officiële statistiek. In tegenstelling tot andere
onderzoeksthema's is dit thema niet beperkt tot één of enkele stap(pen) in
het statistische proces. AI wordt beschouwd als een veelzijdig hulpmiddel dat
in het gehele proces kan worden ingezet.
Niche en urgentie
Artificial Intelligence (AI) is een onderzoeksgebied dat zich richt op het ontwikkelen van tools
die in staat zijn taken uit te voeren die normaal menselijke intelligentie vereisen, zoals
redeneren, probleem oplossen, perceptie en taalbegrip. De oorspronkelijke vraa g van AI-
onderzoekers was: kunnen we machines laten denken? We zien dat een specifieke techniek,
Machine learning (ML) het succesvolst is. ML probeerde oorspronkelijk de vraag te
beantwoorden hoe mensen leren. Aan de ene kant werden hiervoor cognitieve mod ellen
ontwikkeld, terwijl aan de andere kant de vraag ontstond hoe hersenen zich organiseren en zo
informatie kunnen vasthouden. Dit leidde tot de ontwikkeling van o.a. neurale netwerken. Het
huidige veld van de ML heeft nog maar weinig te maken met deze oorspronkelijke ambities.
De toepassingen van AI buiten het CBS nemen in een rap tempo toe, en ook binnen het CBS
stijgt het aantal initiatieven. Toch merken we dat, binnen de statistiek, het aantal succesvolle
toepassingen in productie beperkt is. Veel van de initiatieven lijken hoopgevend, maar
uiteindelijk zijn er onzekerheden of aan de kwaliteitseisen van de officiële statistieken wordt
voldaan. Het toepassen van AI bij het CBS blijkt dus ingewikkeld. Een probleem is dat de AI
vooral aan de kant van de techniek sterk ontwikkelt. Ter illustratie, universiteiten en grote
technologiebedrijven publiceren frequent nieuwe technieken en modellen die volgens bepaalde
maatstaven steeds beter worden. Echter, deze maatstaven staan niet perse gelijk aan de
maatstaven in de officiële statistiek (lees: het verkrijgen van een statistisch zuiver resultaat). Dit
is dan ook het expliciete doel van dit thema, het formuleren van methodologische richtlijnen
voor het succesvol toepassen van AI in de officiële statistiek door (1) te onderzoeken welke
problemen er, vanuit een statistisch oogpunt, ontstaan als we AI inzetten (‘normatief kader’),
(2) onderzoeken hoe we deze problemen kunnen oplossen (‘methodologisch kader’) en
tenslotte (3) ondersteunende werkzaamheden bij specifieke AI implementaties bij h et CBS
(‘toepassingsgericht’). Het zwaartepunt van het onderzoek in dit onderzoeksthema ligt op het
methodologische kader. Met AI wordt al breed geëxperimenteerd binnen het CBS, maar de
kennis is momenteel verspreid over verschillende divisies en onderzoek sthema’s. Dit
onderzoeksthema beoogt een geïntegreerde aanpak om te bepalen wanneer en hoe specifieke
AI-technieken verantwoord kunnen worden ingezet binnen de officiële statistiek. We zullen
hierbij concrete casestudies gebruiken binnen het CBS om de prak tische toepasbaarheid van
deze technieken te evalueren. Hierbij ontstaat er uiteraard een wisselwerking tussen
Methodologie en de statistische afdelingen.