ID D-16-175 Avalik 4.2.3 Piirangutega päringuliidesed Lihtsustatult. Piirangutega päringuliidesed lubavad andmebaasi kohta küsida vaid eelnevalt kokku lepitud küsimusi. Nii kahaneb oht, et küsimuse vastuses on isikustatavaid andmeid. Ülevaade ja rakendamine. Olgu meil andmekogu, millel soovivad päringuid teha mitmeid välised isikud. Kui me lepime kokku päringute tüüpides, mis rahuldavad analüütikute vajadusi ning piiravad üksikkirjete andmist ja lekkimist, siis saame luua masinliidese, mille kaudu selliseid kokkulepitud ja piiratud päringuid esitada saab. Näiteks võime kujutleda infosüsteemi, millele saab edastada päringuna inimese eesnime ning vastuseks antakse kõigi selle nimega isikute vanuste keskmine või siis teade, et sellise nimega isi- kuid andmekogus ei ole. Liidese kasutajal ei ole võimalik esitada teistsuguseid päringuid vaid ainult muuta lubatud parameetreid vastavalt lubatud vahemikele. Selline lahendus piirab töötlemist, välistades terved kategooriad võimalikke riskantseid päringuid. Sellised piirangud on erinevad infoturbe meetmetega sea- tud juurdepääsu piirangutest, mis välistavad süsteemi kasutamise näiteks volitamata isikutele. Päringute paindlikkuse määrab andmekogu omanik. Kõige piiratumal juhul on päringud ettemääratud ning parameetriteta. Sellisel juhul sõltub päringu vastus vaid andmekogu sisust. Keerulisemal juhul saab ka- sutaja päringule ette anda lisa valikuid, mis seda täpsustavad. Sinna vahele jäävad mitmed vahepealsed variandid, näiteks:
- rakendusliides, millele saab anda parameetreid (nt lähteandmete filtreerimiseks);
- päringukeel, milles on lubatud alamosa (nt SQL ilma filtreerivate WHERE-lauseteta);
- liides, mis keeldub andmast vastuseid, mis on arvutatud alla kolme andmekogu kirje pealt. Piiratud päringuliideste kasutamine on maailmas populaarne andmetele juurdepääsu loomise viis, se- da eriti just avaandmete ja statistika puhul. Eesti kõige olulisem piiratud päringukeskkonna rakendus on Statistikaameti statistika andmebaas 29. Seal avaldatakse piiratud päringukeskkonna abil koondtulemusi Eesti statistikast. Isikuandmete kaitse tagatakse sellega, et päringute vastustes on vaid koondtulemid (kasutatud on andmete agregeerimist). Avaandmete teabevärav30 võimaldab jagada andmeid taotluste põhiselt, kus päringu tegija on tuvasta- tud. Lisaks on teabevärava rakendusliidese kasutamine võimalik vaid TARA kaudu autenditud kasutajatel, seega on võimalik vältida rakendusliidese kuritarvitamist ja omada ülevaadet andmete kasutajatest. Turvagarantiid ja jääkriskid. Olgu meil andmebaas, milles on isikustatavad andmeid ja millele on üles seatud piiratud päringuliidese tehnoloogiaga kasutaja- või masinliides. Vaid selle tehnoloogiaga ei ole võimalik anda kindlat turvagarantiid, et mitme päringu tulemused on omavahel kombineerides anonüüm- sed ja ei ole isikustatavad. Peamine jääkrisk on, et osav analüütik esitab mitu päringut ja neid kokku pannes suudab saada mõne isikustatud tulemuse. Mida paindlikum on liides, seda suurem on sellise andmete lekke oht. Kui kasu- taja päringute arv ei ole piiratud, siis saab ta tõenäoliselt üle mitmete päringute kätte piisavalt infot, et andmekogu mingis ulatuses taastada. Selliste rünnete läbiviimiseks on olemas ka poolautomaatsed töö- riistad [37], seega nende tõenäosus ajas kasvab. Juhised rakendajale. Selliste päringuliideste ehitamiseks on võimalik teha projekt, mis kaardistab and- mekogu koosseisu, ärivajadused ning selle põhjal hindab, milliseid päringuid lubatakse. Kui on võimalik fikseerida päringud ja põhjendada, et lubatud päringute kõikvõimalikud tulemused ei saa isikustatavaid andmeid väljastada, siis võib infosüsteemi ehitada tavapärasel viisil. Kui analüüsi käigus leitakse, et teatud tingimustel võivad päringu tulemused olla isikustatavad, tuleb kas päringute paindlikkust vähendada, või lisada mõni täiendav privaatsuskaitse tehnoloogia, arvestades va- jadusega säilitada süsteemi kasutatavus. Andmete koondamise (peatükk 4.2.2) rakendamisel saaks liidese kaudu küsida vaid koondtulemusi. Sel- lisel juhul on tähtis, et kasutaja ei saaks filtrite abil küsida koondtulemust vaid ühest kirjest, sest see avaldaks lähteandmebaasi kirje. Näiteks ei tohiks saada pärida kõrgeima palgaga inimese keskmist sis- 29Statistikaameti statistika andmebaas. https://andmed.stat.ee/et/stat (viimati külastatud 03.03.2023) 30Avaandmete teabevärav, https://avaandmed.eesti.ee (viimati külastatud 03.03.2023) Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 34 / 138 ID D-16-175 Avalik setulekut. Müra lisamisega (vt peatükid 4.2.2 ja 4.2.5) saavutataks see, et päringute tulemused üle mitme päringu ei oleks enam omavahel seostatavad ning seega ei oleks selline rünne enam nii lihtsalt teostatav. Privaatsuseelarve järgimine tähendaks, et iga kasutaja saaks andmekogu kohta esitada vaid piiratud arv päringuid. Mida täpsemalt see arv on seotud andmekogu kirjete struktuuri ning päringute iseloomuga, seda parem on kaitse. Efektiivseid privaatsuseelarve meetodeid saab samuti ehitada diferentsiaalpri- vaatsuse meetodeid (vt peatükk 4.2.5) kasutades. Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 35 / 138
ID D-16-175 Avalik Piirangutega päringuliidesed ANDMED Inglise keeles: restricted query interfaces Lühidalt: Piirangutega päringuliidesed lubavad andmebaasi kohta küsida vaid eelnevalt kokku lepitud küsimusi. Nii kahaneb oht, et küsimuse vastuses on isikustatavaid andmeid. Arenduse keerukus: madal Ülalpidamise keerukus: madal Täpsus: täpne Privaatsusgarantii: tõestatavat privaatsusgarantiid ei ole Tehnoloogia küpsus: kõrge Ülevaatlik mudel: Andmekogu ⬇ Paindlikkus Lubatud päring Päringu vastus ⬆ Privaatsus Päring Tulem Turvaeeldused ja jääkriskid:
- Turvaeeldus: Päringuliides peab olema või- malikult paindumatu.
- Turvaeeldus: Päringute hulka tuleb piirata ning seirata.
- Jääkrisk: paindliku päringuliides puhul tekib oht, et paljude kavalate päringute abil saab kasutaja isikustatud tulemusi. Rakendusvõimalused:
- Avaandmete teenused (ptk 6.3)
- Andmete piiratud jagamine näiteks teadustööks või mitte-ärilistel eesmärkidel
- X-tee turvaserveri teenused Õiguspraktika:
- Kehtivad tavapärased andmekaitsenõuded.
- Kui päringu esitajal on võimalik saada isikus- tatud teavet, peab tal olema selleks vastav õiguslik alus. Tuntumad rakendused:
- Statistikaameti statistika andmebaas (piiratud päringuliides on juurutatud koos andmete koondamisega (ptk 4.2.2)
- Avaandmete teabevärav Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 36 / 138 ID D-16-175 Avalik 4.2.4 Analüütiku töökohad Lihtsustatult. Analüütiku töökohal saab kasutaja andmeid vabalt töödelda. Tema tegevust jälgitakse ja analüüsi tulemid kontrollitakse enne kasutajale üle andmist, et nendes poleks isikustatavaid andmeid. Ülevaade ja rakendamine. Esineb olukordi, kui päringuid ei ole võimalik ette kokku leppida (nt on te- gemist teadustööga või algoritmide arendusega). Selles olukorras saab andmekogu haldaja üles seada analüütiku töökoha, mida analüütik saab kasutada kontrollitud keskkonnas kaug- või füüsilise pääsuga. Andmekogust tehakse analüütiku töökohta ühendus või väljavõte. Analüütik saab kasutada tavapäraseid andmeteaduse tööriistu või ka omaenda algoritme ja lahendusi. Küll aga ei saa kasutaja analüüsi tulemusi viia sellest arvutist välja enne kui automaatne süsteem või inimene need üle vaatab. Nii kaug- kui füüsilise ligipääsu juures saab kasutaja panna oma andmetöötluse tulemused ülevaatuseks eraldi keskkonda ning pärast ülevaatust edastatakse need kasutajale kas digitaalselt või andmekand- jal. Ülevaatuse käigus veendub analüütiku töökoha teenuse osutaja, et välja viidavad andmed vastavad teenuse tingimustele ja poliitikatele. Eestis on analüütiku töökoht juurutatud Statistikaametis teadlase töökoha teenusena31. Statistikaamet on arendamas sellest ka täiuslikumat versiooni. Tartu Ülikooli Genoomika instituut ehitab analüütiku töökohta Eesti Geenivaramu andmete kasutajale. Turvagarantiid ja jääkriskid. Teenuse kasutajal on vaba juurdepääs andmekogu andmetele ning vabadus neid töödelda. See inimene näeb kõike, mida talle on töötlemiseks valmis seatud. Kui need andmebaasid on isikustatavad, siis on kindlate turvagarantiide tagamine võimatu. Kaks peamist ohtu on a) nõrk ülevaateprotsess, mis ei näe, et väljastatavad andmed võivad olla isikustavad ja b) andmete väljaviimine teisi kanaleid pidi, näiteks ekraanil olevatest andmetest foto- või videosalvestust tehes). Mõlemat kanalit pidi on võimalik andmekogu andmeid välja viia ning see on võimekale andmeanalüütikule pigem lihtne töö. Suuremate andmete puhul on ekraanipiltide abil see küll ebamugav, kuid ka üks nime ja kompromiteeriva fakti seos võib olla liialt suur leke. Juhised rakendajale. Kõige olulisem samm on valida, millised andmestikud analüütiku töökoha kaudu kät- tesaadavaks teha. Kui need on isikustatavad andmed või muul moel konfidentsiaalsed, tuleb rakendada täiendavaid privaatsuskaitse tehnoloogiaid. Sobivad näiteks anonüümimine (ptk 4.2.2, sünteetiliste and- mete genereerimine (ptk 4.2.7 ja diferentsiaalprivaatsus (ptk 4.2.5. Analüütiku töökoha tegevuste pidev logimine ei hoia väärkasutust ära, kuid võib olla seda pärssiva toimega. Organisatoorsetest meetmetest sobivad lepingulised piirangud ja veenvad trahvid teenuse tingimuste rikkumise eest. Füüsilise pääsuga süsteemi puhul saab rakendada turvakaameraid, millel võib olla ennetav toime. Kaugpääsuga süsteemi puhul seda võimalust küll ei ole. Platvorme analüütiku töökohtade jaoks on tootestatud ning turul on sellele mitmeid pakkujaid. Analüütiku töökoht on võimalik ehitada ka laiatarbe tehnoloogiaid osavalt kombineerides. 31Konfidentsiaalsete andmete kasutamine teaduslikul eesmärgil. https://www.stat.ee/et/ avasta-statistikat/kusi-statistikat/konfidentsiaalsete-andmete-kasutamine-teaduslikul-eesmargil (viimati külastatud 17 .01.2022) Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 37 / 138 ID D-16-175 Avalik Analüütiku töökohad ANDMED Inglise keeles: analyst sandboxes Lühidalt: Analüütiku töökohal saab kasutaja andmeid vabalt töödelda. Tema tegevust jälgitakse ja analüüsi tulemid kontrollitakse enne kasutajale üle andmist, et nendes poleks isikustatavaid andmeid. Arenduse keerukus: madal Ülalpidamise keerukus: madal Täpsus: täpne Privaatsusgarantii: tõestatavat privaatsusgarantiid ei ole Tehnoloogia küpsus: keskmine Ülevaatlik mudel: Andmebaas Andmetöötlusülesanne Tulem Päring TulemAutomaatne või käsitsi kontroll Lubatud tulem ⬆ Privaatsus Turvaeeldused ja jääkriskid:
- Turvaeeldus: Kanalid andmete töökohast väl- ja viimine peab olema võimalikult piiratud.
- Turvaeeldus: Andmete väljaviimise kontroll peab võimalikult hästi tuvastama isikusta- tavaid andmeid.
- Jääkrisk: siiski näeb analüütik töökeskkonnas kõiki andmeid ning saab sealt fakte meelde jätta või pildistada. Rakendusvõimalused:
- Andmebaasidelele juurdepääs teadus- või õppe- tööks Õiguspraktika:
- Isikuandmete töötlemise puhul tuleb järgi- da privaatsus- ja andmekaitse nõudeid. Näiteks peab analüütiku töökoha kasuta- jal olema õiguslik alus andmete laialdaseks töötlemiseks. Tuntumad rakendused:
- Statistikaameti analüütiku töökoht
- Eesti Geenivaramu Andmepuur Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 38 / 138 ID D-16-175 Avalik 4.2.5 Diferentsiaalprivaatsus Lihtsustatult. Diferentsiaalprivaatsus teeb päringu vastused juhuslikuks nii, et küsija ei saa aru, milliste isikute andmete pealt päring tehti. Tehnoloogia ülevaade ja rakendamine.Diferentsiaalprivaatsus on andmebaasipäringutele vastamise meh- hanismi (näiteks päringusüsteemi) omadus oma väljundis avaldada infot üksikute kirjete kohta ainult vä- hesel määral. Omadust infot mitte avaldada või avaldada ainult vähesel määral on ilmselt võimalik defi- neerida mitmel erineval, „intuitsioonile vastaval“ viisil. Diferentsiaalprivaatsuse omadus kombineerib in- tuitsiooni esiteks realiseeritavusega ja teiseks komponeeritavusega. Komponeeritavus on oluline suurte süsteemide analüüsil – kui me soovime süsteemi osade diferentsiaalprivaatsusest matemaatiliselt kor- rektselt järeldada midagi terve süsteemi diferentsiaalprivaatsuse kohta. Diferentsiaalprivaatsuse omadus võib mingil andmebaasipäringutele vastamise mehhanismil olla või mitte olla. Diferentsiaalprivaatseid mehhanisme on edukalt kasutatud agregeerimistulemuste teatavaks tege- miseks kas avalikkusele või mingile konkreetsele infotarbijale juhul, kui allolev andmebaas on suur. Üks tuntumaid näiteid on USA 2020. aasta rahvaloenduse tulemuste avaldamine [ 38]. Samuti kasutavad Apple [39] ja Google [ 40] diferentsiaalprivaatseid meetodeid, mille abil nad saavad teada suurte kasuta- jarühmade agregeeritud eelistusi, ilma üksikute kasutajate kohta täpseid andmeid kogumata. Diferentsiaalprivaatsuse definitsioon on kvantitatiivne, ta defineerib andmete seostamatuse (näiteks isi- kuga) sõltuvalt mittenegatiivsest parameetrist ε. Siin ε = 0 tähendab, et päringuvastus ei sõltu andme- baasist, st privaatsus on absoluutne. Kui ε kasvab, siis privaatsus väheneb; kui ε → ∞ , siis muutuvad nõuded andmebaasipäringutele vastamise mehhanismile olematuks. Komponeeritavus tähendab, et kui teeme kaks andmebaasipäringut, millest ühele vastatakse mehhanis- miga, mille diferentsiaalprivaatsus on ε1, ja teisele mehhanismiga, mille diferentsiaalprivaatsus on ε2, siis mõlema päringuvastuse diferentsiaalprivaatsus on kokku ε1 + ε2 (mainime, et liitmine ei ole ainus viis, kuidas diferentsiaalprivaatsuse määrad kombineeruda võivad). Täpsusest. Diferentsiaalprivaatsed saavad olla ainult mehhanismid, mis lisavad müra (va juhul, kui pärin- guvastus üldse andmebaasist ei sõltu). Müra lisamine vähendab päringuvastuse täpsust. Parameeter ε ei iseloomusta, kui palju väheneb täpsus; ta iseloomustab ainult privaatsust. Müra on võimalik lisada andmebaasile enne päringuvastuse väljaarvutamist, päringuvastusele enne selle tagastamist, või mingitele sobivatele vahetulemustele päringuvastuse väljaarvutamise käigus. Sel viisil võime saada mehhanisme, mille privaatsusparameeter ε on üks ja seesama, aga täpsus (või kasulikkus; see sõltub väga palju sellest, mida päringuvastusega edasi tehakse) on väga erinev. Suur osa diferentsiaalprivaatsuse-alasest teadustööst püüab leida teatud päringuklasside jaoks mehha- nisme, mille privaatsuse-täpsuse suhe oleks võimalikult hea [ 41]. Ajaloost. Diferentsiaalprivaatsuse definitsiooni pakkusid 2006. aastal välja Dwork, McSherry, Nissim ja Smith [ 42], kes selle eest 2017 . aastal Gödeli preemia said. Definitsioonis kajastuvad varasemad tule- mused statistiliste andmebaaside turvalisuse vallast, muuhulgas tähelepanek, et andmebaasipäringute vastused, mis on antud kas ilma mürata või väga väikese müraga lubavad ründajal, kes saab esitada piisavalt palju päringuid (mis on juhuslikku laadi), enda jaoks taastada suure osa andmebaasist [ 43]. Sa- muti võib keeruline olla filtreerida päringuid selliselt, et ründaja mingit teatud tundlikku väärtust teada ei saaks [44]. Turvagarantiid ja jääkriskid.Kõige tähtsam turvaeeldus on õige ε parameetri valik. Kui see on konkreetselt tehtud, siis on andmete isikutega seostamatuse matemaatiliselt tõestatav. Diferentsiaalprivaatsus väga võimas tööriist ning üks väga vähestest mittekrüptograafilistest privaatsuskaitse tehnoloogiatest, millel on niivõrd tugev lubadus. Paraku ei ole ε interpreteerimine mingites „intuitiivsemates“ terminites ja seega ka valik triviaalne. See nõuab andmestiku ning päringumehhanismi head tundmist ja selleks on soovitatav kasutada spetsialisti- de ja tööriistade abi. Leidub viise ε sidumiseks mingite atribuutide äraarvamise tõenäosuse või täpsuse- ga [45]. Juhised rakendajale. Esimene samm on andmestiku ja tunnuste valik. Kui diferentsiaalprivaatsed meh- Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 39 / 138 ID D-16-175 Avalik hanismid mingis rakenduses kasutusele võtta, seda siis ilmselt mingite agregeerimistulemuste avalda- miseks. Kõigepealt tuleb otsustada, millised väärtusi andmebaasis me kui palju kaitsta soovime, ja väl- jendada seda mingi väärtusena ε. Kui me soovime kaitsta eri tüüpi väärtusi, siis võib meil veel olla tarvis otsustada, kui palju rohkem me neist ühtesid võrreldes teistega kaitsta soovime [ 46]. Google on avaldanud teegid diferentsiaalprivaatsete päringumehhanismide realisatsioonidega teatud ag- regatsioonioperatsioonide jaoks32. Keerulisemate operatsioonide jaoks leidub avalikustatud akadeemilisi teeke [47]33. Teine samm on sobiva täpsusega diferentsiaalsuse mehhanismi ja parameetri ε valik. Kui me oleme so- bivad arvulised väärtused ja kompromissid välja valinud, siis tuleb saadavalolevate seast leida päringu- süsteemile või analüüsialgoritmile sobiv diferentsiaalprivaatselt vastamise mehhanism. Tuleb valida so- bivat seostamatuse taset pakkuv ε. Seejärel tuleb mehhanismi testida ja otsustada, kas seostamatus ja täpsus, mille sealt saame, on piisav. Võib-olla piisab siin üldisest mehhanismist, mis võtab ilma privaatsuseta mehhanismi ja lisab selle tulemu- sele müra määral, mis sõltub ε-st ja päringu kujust. Kui sellest aga ei piisa, tuleb otsida parema täpsusega mehhanism. Kolmas samm on korrigeerimine. Juhime tähelepanu ka sellele, et diferentsiaalprivaatsus on mõeldud kaitsma andmebaase, kus kirjed on üksteisest sõltumatud. Kui kirjeid ei saa üksteisest sõltumatuteks lugeda (näiteks on tegemist inimeste geeniinfoga, aga andmebaasis olevad inimesed on omavahel sugu- lased), siis on privaatsusgarantii väiksem kui ε väärtusest arvata võiks. Rusikareegel on, et kui kirjed on üksteisest sõltuvad nii umbes rühmadena suurusega k, siis on efektiivne privaatsusgarantii umbes k · ε. Lisakaalutlusena – müra võib lisada andmebaasile enne päringuvastuse väljaarvutamist või päringuvas- tusele peale selle väljaarvutamist. Esimesel juhul võib olla võimalik süsteem üles seda nii, et päringuvas- tuse väljaarvutaja ja andmebaasipidaja ei näegi ilma mürata andmebaasi Teisel juhul peab päringuvastuse väljaarvutajal olema piiranguteta ligipääs andmebaasile, s.t. arvutaja on usaldatud osapool. Usaldusenõuete vähendamiseks on võimalik lisaks kasutada turvalise ühisarvutuse (ptk 4.2.10) või usaldatavate täitmisekeskkondade (ptk 4.2.8) tehnikaid. Kui andmebaas sisaldab informatsiooni paljude isikute kohta, kusjuures isikud ise annavad need andmed, siis võivad isikud lisada müra juba enne seda, kui nad oma andmed edastavad. Sellist tehnikat kutsutak- se näiteks lokaalseks diferentsiaalprivaatsuseks ( local differential privacy ). Teine näide on sotsiaaltea- dustest tuntud, piinlikele küsimustele ausamate vastuste saamiseks kasutatav juhuslikustatud vastuste tehnika (randomized response technique ) on lokaalse diferentsiaalprivaatsuse üks vorm. Õiguslikud aspektid. Diferentsiaalprivaatsus on kujunemas oluliseks andmekaitsetehnikaks [ 48]. See- ga on rohkem uuritud ka selle õiguslikke aspekte [ 49]. Kirjanduses leidub artikleid, mis seostavad ano- nüümsust ja isikuandmete kaitse taset diferentsiaalprivaatsuse meetodiga [ 38]. Avaldatud on väiteid, et diferentsiaalprivaatsusega teostatud masinõpe võiks võiks vastata IKÜMi nõuetele [ 48]. 32https://github.com/google/differential-privacy (viimati külastatud 01.03.2023). 33https://ektelo.github.io (viimati külastatud 01.03.2023). Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 40 / 138 ID D-16-175 Avalik Diferentsiaalprivaatsus ANDMED Inglise keeles: differential privacy Lühidalt: Diferentsiaalprivaatsus teeb päringu vastused juhuslikuks nii, et küsija ei saa aru, milliste isikute andmete pealt päring tehti. Arenduse keerukus: kõrge Ülalpidamise keerukus: madal Täpsus: ebatäpne (sõltub lisatavast mürast) Privaatsusgarantii: matemaatiliselt tõestatav Tehnoloogia küpsus: keskmine Ülevaatlik mudel: Andmebaas ⬇ Paindlikkus Lubatud päring Lisatud müraga päringu vastus ⬆ Privaatsus Päring Tulem Turvaeeldused ja jääkriskid:
- Turvaeeldus: vaja on valida päringusüsteemi või analüüsialgoritmi jaoks sobiv diferent- siaalprivaatsuse mehhanism.
- Turvaeeldus: vaja on õigesti valida paramee- ter ε, mis määrab seostamatuse ja täpsuse taseme. Rakendusvõimalused:
- Küsitluste läbiviimine.
- Andmebaaside avaldamine ja kasutamine uurin- guteks ja teadus- või õppetööks.
- Avaandmete teenused (ptk 6.3). Õiguspraktika:
- Kirjanduses on leitud, et diferentsiaalprivaat- ne masinõpe võiks olla meetod, mis vastab IKÜMi nõuetele.
- Kohtupraktika diferentsiaalprivaatsuse osas on vähene või puuduv. Tuntumad rakendused:
- Diferentsiaalprivaatsed avaandmed Ameerika Ühendriikide rahvaloenduse andmete põhjal (ptk 5.1.4).
- Apple iOS, macOS, Google ja Microsoft diferent- siaalprivaatsed teenused kasutaja eelistuste õppimiseks.
- Uber juhtide ja kasutajate asukoha andmete tööt- lemise eksperiment. Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 41 / 138 ID D-16-175 Avalik 4.2.6 Liitõpe Lihtsustatult. Liitõpe on masinõpe, kus iga andmeomanik treenib mudeli oma andmete peal ja siis pan- nakse mudelid kokku. Ülevaade ja rakendamine. Liitandmebaasiks ( federated database ) kutsutakse mitut autonoomset and- mebaasisüsteemi, mis on virtuaalselt seotud üheks andmestikuks. Liitõppe heaks küljeks on see, et and- med ei lahku vastutava töötleja juures, välja saadetakse ainult agregeerimistulemumsed või masinõppe mudel. See meetod sobib väga hästi kokku IKÜM-i andmete minimeerimise põhimõttega. Andmebaase on võimalik jagada horisontaalselt ja vertikaalselt. Horisontaalselt jagatud baaside puhul on osa kirjeid ühes andmebaasis ja osa kirjeid teises. Tavaliselt on sellisel juhul andmemudelid sarnased. Näiteks kui ettevõte hoiab oma erinevates riikides asuvate esinduste töötajate andmeid vastavas riigis asuvas baasis, on tegemist horisontaalselt jagatud baasiga, sest igas baasis sisalduvad samad tunnused erinevate inimeste kohta. Teiseks horisontaalselt jagatud baasi näiteks on erinevate riikide geenipangad, mis sisaldavad enam-vähem samu tunnuseid oma doonorite kohta, aga igas baasis on erinevate isikute andmed. Vertikaalselt jagatud baaside puhul on sama isiku erinevad andmed jagatud erinevatesse baasidesse. Sellisel juhul on olemas mingi tunnus, mille abil on võimalik andmeid erinevates baasides linkida. Näi- teks on siin riigi kogutavad andmed, mida hoitakse erinevates riigiasutustes. Eesti riiklikud andmekogud moodustavad vertikaalselt tükeldatud liitandmebaasi (näiteks haridusandmed on EHISes, terviseandmed perearsti juures ja haiglate andmestikes, raviarve andmed Tervisekassas, sõidukite andmed Transpordi- ameti andmestikus). Isiku andmete ühendamine toimub isikukoodi abil. Liitstatistika on liitõppe lihtsam vorm, kus andmeid ei kasutata masinõppe mudeli treenimiseks vaid nende põhjal tehakse lihtsamat statistikat. Võimalikult palju arvutusi tehakse ära autonoomsetes andmebaasi- des ja tulemused agregeeritakse keskselt, näiteks andmeteadlase juures. Liitstatistika tegemiseks ei ole tingimata vaja liitandmebaase, seda on võimalik kokku panna ka n-ö käsitsi. Liitstatistikat saab kasuta- da nii vertikaalselt kui horisontaalselt tükeldatud andmetel. Oluline on tähele panna, et liitstatistika puhul ei piisa lihtsalt erinevates tippudes sama arvutuse tegemiseks. Näiteks ei ole võimalik kahest erinevast baasist pärit sama tunnuse väärtuste keskmisest arvutada üldist keskmist. Selle võimaldamiseks saavad baasid saata andmeteadlasele tunnuse väärtuste summa ja arvu. Selle abil saab andmeteadlane arvutada keskmise. Liitõppe puhul peavad autonoomsed baasid olema seotud üheks baasiks. Tsentraliseeritud süsteemi pu- hul koordineerib keskne server tööd ja agregeerib tulemused. See server vastutab tippude valiku eest treenimise alguses ning mudeliuuenduste agregeerimise eest protsessi lõpus. Siin on keskne server pu- delikaelaks. Tsentraliseeritud süsteemis valib keskne arvuti treenimiseks mudeli ja saadab selle andmete hoidjate- le. Mudel peab olema valitud nii, et seda oleks võimalik teise samasugusega agregeerida. Andmetipud treenivad lokaalselt mudeli ja saadavad tulemuse tagasi. Keskne analüüsisüsteem agregeerib saadud mudelid. See süsteem võib kaasata nii võrdseid andmearvuteid kui servtöötluse seadmed (ka läbisegi). Detsentraliseeritud süsteemi koordineerivad autonoomsed baasid iseendid ja agregeerivad tulemused. Sellisel juhul kaob keskne nõrk lüli, sest mudeliuuendusi jagavad kõik baasid omavahel. Kahjuks aga on see süsteem keerukam ja võrgutopoloogia võib mõjutada jõudlust, sest kõik süsteemi osapooled ei ole tavaliselt omavahel seotud ning kõik ei pruugi olla ka ühtlaselt hea võrguühendusega. Liitstatistika ja liitõpe töötavad väga hästi ka siis, kui andmemahud on väga suured ja andmete liigutamine kesksele andmeteadlasele oleks seetõttu raskendatud. Liitõpet on raske (vahel ka võimatu) kasutada andmestiku vertikaalse tükelduse korral. Google klaviatuuri Gboard kasutab liitõppe abil treenitud masinõppe mudeleid sisestatava prognoosi- miseks [50], emodzide ja piltide soovitamiseks [ 51] ning grammatika kontrollimiseks. Apple kasutab liitõpet Siri kõnetuvastusroboti arendamiseks [ 52]. Meta on liitõppe rakendamiseks koos- tanud raamistiku, kus tulemuste agregeerimiseks saab kasutada usaldatud käivituskeskkondi. Liitõpet kasutavad ka näiteks IBM, NVIDIA, WeBank [ 53]. Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 42 / 138 ID D-16-175 Avalik Turvagarantiid ja jääkriskid. Liitstatistika puhul liigud baasidest andmeteadlaseni veidi rohkem andmeid kui ainult agregeerimistulemus (nii nagu näiteks keskmise puhul). Keerukamate arvutuste ja algoritmide puhul on lisainfo kogus veelgi suurem. Samas ei ole see kaugeltki nii suur, kui siis, kui kesksesse baasi oleks saadetud kõigist tippudest terved andmestikud. Kuna tavalise liitõppe puhul saadetakse mudel kas kesksse serverisse või teisele tipule, on oht, et mudeli parameetrid lekivad. Nii on võimalik koguda infot isikute kohta, kes on algses andmestikus. On näidatud, et masinõppemudeleid on võimalik pöörata. See tähendab, et näiteks kui ründajal on masinõppemudel ja veidi lisainfot isiku kohta, saab ta edukalt ennustada isiku mingite teiste tunnuste väärtuseid [ 54]. Tulemuste turvalisemaks agregeerimiseks saab kasutada turvalist ühisarvutust (peatükk 4.2.10) või usal- datud käivituskeskkondi (peatükk 4.2.8) [55], kuid hetkel on nende kasutusjuhud haruldased. Hispaania keele tekstiprognoosi mudeli treenimisel on Google kasutanud liitõppega koos ka diferentsiaalprivaatsust (peatükk 4.2.5) [56]. Juhised rakendajale. Üheks enimkasutatud liitõppesüsteemiks on TensorFlow Federated 34. Selle süs- teemi puhul ei pea andmeteadlane ise liitõppe meetodeid implementeerima vaid saab valida olemasole- vate liitõppe algoritmide hulgast sobiva valida, et teha kergemaid ülesandeid nagu mudelite treenimine ja kasutamine. Tundma peab TensorFlowd ja programmikood peab olema kujutatav TensorFlow graafina. Kohaliku agregeerimise peab implementeerima andmeteadlane, mudelite liitõppe süsteemiks koondami- sega ning omavahelise agregeerimisega tegeleb TensorFlow Federated. Tehnilise poole pealt on liitõpet üldiselt raske kasutada väga iteratiivsete algoritmide (näiteks stohhasti- lise gradientlaskumise puhul). Sellisel juhul on vaja väga väikese latentsi ja suure läbilaskevõimega võr- guühendusi tippude vahel. Õiguslikud aspektid Isikuandmete töötlemisel tuleb järgida jurisdiktsioonis kehtivaid privaatsus- ja andmekaitse nõudeid. Ole- nevalt piirkonnast võivad näiteks liitõppele kohalduda ka tehisintellekti reguleerivate õigusaktide nõuded. Kirjanduses on leitud, et nii nagu mistahes tehisintellekti või masinõppe süsteemi puhul, oleks otstarbe- kas ka liitõppe puhul koostada privaatsus- ja andmekaitse mõjuhinnang, et võimalikke kaasnevaid riske oleks juba süsteemi arendamisel võimalik parimal võimalikul moel kahandada. 34TensorFlow Federated https://www.tensorflow.org/federated/get_started (viimati külastatud 28.02.2023) Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 43 / 138 ID D-16-175 Avalik Liitõpe ANDMED Inglise keeles: federated learning Lühidalt: Liitõpe on masinõpe, kus iga andmeomanik treenib mudeli oma andmete peal ja siis pannakse mudelid kokku. Arenduse keerukus: keskmine Ülalpidamise keerukus: keskmine Täpsus: ebatäpne (mudelite ühendamine on ebatäpsem kui treenimine ühise andmestiku pealt) Privaatsusgarantii: tõestatavat privaatsusgarantiid ei ole Tehnoloogia küpsus: keskmine Ülevaatlik mudel: Sisendandmed 1 Sisendandmed k ... Kohalik töötlus (statistika, masinõpe) ⬆ Privaatsus ⬇ Detailsus Osaline tulem (nt mudel) Osaline tulem (nt mudel) Vahetulem (nt koondatud mudel) Koondtulemi tagasisaatmine edasiseks töötluseks (vajadusel) Lõpptulem (nt valmis mudel) Turvaeeldused ja jääkriskid:
- Turvaeeldus: Tuleb veenduda, et koondatud ja jagatud osalised mudelid ja statistilised vahetulemid ei lekiks (nt kas isik oli and- mestikus või mitte).
- Jääkrisk: vahetulemuste kaudu lekib isikusta- tud andmeid Rakendusvõimalused:
- Andmeanalüüs horisontaalselt tükeldatud and- mebaaside puhul ilma andmeid jagamata. Õiguspraktika:
- Märkimisväärseid pretsedente ei õnnestunud leida. Tuntumad rakendused:
- Androidi õppiv klaviatuur Gboard. Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 44 / 138 ID D-16-175 Avalik Androidi õppiv klaviatuur Gboard Lühidalt: Android telefonide klaviatuur Gboard õpib kasutajate harjumuste põhjal nende sisestust ennustama ja ei kogu selleks kõiki andmeid Google’ile kokku. Teostamise aasta: 2017 Riik: Ameerika Ühendriigid Omanik: Google Teostaja: Google Süsteemi küpsus: püsiv juurutus Privaatsuskaitse tehnoloogiad:
- liitõpe
- diferentsiaalprivaatsus Sobivad kasutusjuhtumid: privaatne analüütika Ülevaatlik mudel: Kasutaja 1 seadme andmed Kasutaja k seadme andmed ... Kohalik töötlus (statistika, masinõpe) ⬆︎ Privaatsus ⬇︎ Detailsus Osaline tulem (mudeli parameetrid) Osaline tulem (mudeli parameetrid) Vahetulem (koondatud mudel) Koondtulemi tagasisaatmine edasiseks töötluseks (vajadusel) Lõpptulem (valmis mudel) Märkimisväärsed omadused:
- Google Play Store põhjal on rakendust alla laaditud üle viie miljardi korra.
- Google oli esimesi liitõppe juurutajaid, kuid seda on arendama, mugandama ja kasutama hakanud ka teised suured tehnoloogiaettevõtted. Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 45 / 138