Privaatsuskaitse%20tehnoloogiate%20kontseptsioon%20%281%29.pdf

Type: Document | Status: ready

ID D-16-175 Avalik 4.2.7 Sünteetiliste andmete genereerimine Lihtsustatult. Sünteetilised andmed on juhuslikud andmed, mis näevad välja nagu pärisandmed. Ülevaade ja rakendamine. Andmesüntees on andmete genereerimine. Sünteetilised andmed võivad olla loodud mingite reeglite, seaduspärasuste või pärisandmete järgi. Selles alajaotises vaatleme pärisand- metele tuginevat andmete genereerimist. Andmesünteesi lihtsamaid vorme on kasutatud aastakümneid. Andmete imputeerimine on meetod, mille abil statistikas asendatakse puuduvaid väärtusi. Selleks, et hiljem oleks neid andmeid võimalik analüü- sis kasutada, on vaja, et need sarnaneksid mingil määral päriselu andmetega. Tavaliselt uuritakse välja, mis on vastava tunnuse jaotus ja valitakse sealt jaotusest juhuslikult andmed. Kahjuks ei pruugi sedasi genereeritud andmed olla vastavuses ülejäänud tunnustega. Sünteetiliste andmete genereerimisel kasutatakse statistilisi, masinõppe meetodeid ja näiteks ka süva- õpet, et luua erinevate tunnuste põhjal mudel või neurovõrk, mis suudab talletada ka keerukamaid jaotusi ning tunnustevahelisi seoseid. Juhuslikkust lisades luuakse selle mudeli põhjal omakorda kirjete kogu, mille omadused (jaotused, korrelatsioonid) sarnanevad algsele andmestikule. Nagu iga andmeanalüüs, algab ka süntees andmete ettevalmistamisega. Sünteesitud andmete kvaliteet sõltub sisendandmete kvaliteedist. Andmeteadlane puhastab andmed ning lingib andmestikud. Andmete linkimine pärast sünteesi ei ole ilma erilahendusteta võimalik. Lähteandmeid kirjeldava masinõppemudeli loomiseks vaadeldakse, millisest jaotusest on erinevad tunnu- sed ning millised tunnused on omavahel seotud ja kuidas. Oluline on jälgida, et masinõppemudel ei oleks ülesobitatud, sest muidu võib ta ”mäletada”isikustatud lähtenandmeid. Klassikaliste jaotuste puhul kasu- tatakse andmete genereerimiseks näiteks Monte Carlo meetodeid, mitteklassikaliste jaoks jõumeetodit, mille puhul luuakse juhuslikud punktid ning vaadatakse, kas need sobivad jaotusesse. Pärast andmesünteesi on soovitav uurida loodud baasi kasulikkust ja privaatsust. Kasulikkus näitab, kui sarnane on genereeritud andmestik algsele andmestikule. Kõrge kasulikkus on hea, kui on vaja täpsust, näiteks, kui sünteetiliste andmeid on vaja kasutada masinõppes. Madal kasulikkus on vastuvõetav näi- teks siis, kui on vaja infosüsteeme testida. Kasulikkust saab hinnata näiteks analüüsides mõlemaid and- mebaase ning võrreldes tulemusi. Kui on juba ette teada, mis tüüpi analüüse hakatakse läbi viima, siis on võimalik andmestikke võrrelda just nende analüüside tulemuste põhjal. Üldiselt aga sünteesitakse and- meid, et andmestikul oleks n-ö sünteetiline kaksik, ning harva on ette teada, milliseid analüüse nende andmete peal täpselt tegema hakatakse (kui see oleks teada, siis võiks sünteesi asemel kohe analüüsi ära teha). Teine võimalus on mõõta üldist kasulikkust, vaadeldes andmestike vahelist kaugust jaotuste, keskmiste ja standardhälvete abil. Selle meetodi keerukuseks on määrata ära, mis on piisav ja mis liiga suur erine- vus andmestike vahel. Võimalik on ka kasutada subjektiivset hinnangut, kus eksperdid vaatavad peale andmestikule, kus on andmed nii algsest kui sünteesitud andmestikust, ning hindavad, millised on sün- teesitud. Viimane meetod ei ole väga kestlik. Hetkel on kõige paremat kasutust leidnud kombineeritud meetod, kus kasutatakse kombinatsiooni analüüsitulemuste võrdlemisest ja andmestiku üldisest kasulik- kusest. Andmestiku privaatsuse mõõtmiseks on esmajoones võimalik võrrelda loodud kirjeid algsete kirjetega, et teha kindlaks, et sünteesitud andmed ei oleks samad, mis sisendandmed. Privaatsuse tagamiseks on oluline vältida masinõppemudeli ülesobitamist, sest vastasel juhul võib andmesüntees väljastada eriti võõrväärtustele liiga lähedasi väärtusi. Sünteesitud andmeid kasutatakse et luua esialgseid masinõppemudeleid, kui ei ole võimalik saada juur- depääsu pärisandmetele 35. Sünteesitud andmed kasutatakse ka tarkvara testimisel ja häkatonidel. EU-SILC on üle-Euroopaline teadusprojekt vaesumisriski ja sotsiaalsete probleemide uurimiseks Euroopa Liidus. Projekti käigus sünteesiti pärisandmete põhjal mikroandmed [ 57]. 35Simulacrum sisaldab Inglismaa riikliku vähiregistri andmete põhjal sünteesitud andmeid, mille põhjal saab kirjuta- da näidispäringuid, mis hiljem töötavad ka päris andmete peal. https://simulacrum.healthdatainsight.org. uk (viimati külastatud 27 .02.2023). Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 46 / 138 ID D-16-175 Avalik Turvagarantiid ja jääkriskid. Sünteetilised andmed ei kuulu IKÜMi käsitlusalasse, kui kirjeid ei ole võimalik seostada algsete andmesubjektidega. Seega, kui masinõppemudel või neurovõrk on korralikult loodud ja genereeritud andmete kasulikkust ja privaatsust on kontrollitud, ei ole sünteesitud andmed pärisandmed. Seetõttu on neid võimalik kasutada infosüsteemide testimiseks ja andmeanalüüsi mõistlikkuse uurimiseks ilma pärisandmeid jagamata. Oluline on seejuures tähele panna, et andmete sünteesile eelnev andmete puhastamine ja mudeli loomine on IKÜMi mõistes andmete töötlemine. Juhised rakendajale. Andmete puhastamine ja süntees võib toimuda kõik ühes asutuses, aga on võimalik ka teenusena sisse osta nii osaliselt kui täielikult. Seega võib näiteks asutus andmed ise puhastada, aga sünteesi võib läbi viia keegi teine, aga asutus võib ka andmete puhastamise teenusena sisse osta. Nagu mainitud, on andmete sünteesile eelnev andmete puhastamine ja mudeli loomine IKÜMi mõistes andmete töötlemine, seega peab rakendajal olema õigus andmeid sellel eesmärgil töödelda. Õiguslikud aspektid. Sünteetiliste andmete terminit seadusega defineeritud ei ole. Sünteetilisi andmeid kutsutakse vahel ka ”võltsandmeteks”(ingl ”fake data”) või kunstlikud andmed (ingl ärtificial data”). Sün- teetilised andmed on fundamentaalsel tasandil algandmetest kunstlikult genereeritud andmed, mis säili- tavad nimetatud algandmete statistilised omadused [ 58]. Sünteetilised andmed võivad põhineda nii isikuandmetel kui muudel andmetel, nt statistika. Kui süntee- tilised andmed põhinevad isikuandmetel, siis tuleb selliste andmete töötlemisel järgida jurisdiktsioonis kehtivaid privaatsus- ja andmekaitse nõudeid. Kui isikuandmetel põhinevatel sünteetilistel andmetel ei ole võimalik ühtki sünteetilist andmepunkti algandmetele tagasi suunata, võivad olla tulemuseks sellised sünteetilised andmed, mis võivad jääda väljaspoole IKÜMi kohaldamisala. Vaatamata sellele tuleb and- mekaitse nõudeid siiski järgida andmetöötluse faasides, mis tehakse enne sellise tulemuse saavutamist. Sünteetiliste andmete puhul on välja kujunenud erinevad koolkonnad. Sünteetiliste andmete toetajad väi- davad, et kui sünteetilised andmed on õigesti genereeritud, saavutavad need hästi seostamatuse ees- märki, st sünteetiliste kirjete seostamine inimesega on võimatu. Seetõttu käsitlevad mõned sünteetilisi andmeid anonüümsete andmetena. Sünteetiliste andmete vastased väidavad, et isegi siis, kui need on õigesti genereeritud, on üks-ühele seoseid endiselt võimalik luua, eriti kui sünteetiline andmekogum säili- tab suure täpsusega algse andmekogumi omadused ja/või esinevad statistilised kõrvalekalded. Nendele eeldustele tuginedes peavad nad sünteetilisi andmeid tuvastatavaks teabeks [ 58]. Õiguslikust vaatenurgast võivad sünteetilised andmed pakkuda teatud juhtudel tõhusat kaitset isikuand- metele, mistõttu peetakse neid isikuandmete töötlemise paljulubavaks alternatiiviks. Peamine argument on see, et andmete sünteesi saaks kasutada tõhusa anonüümseks muutmise tehnikana andmetele juur- depääsuks, analüüsiks, jagamiseks, taaskasutamiseks ja avaldamiseks ilma isikuandmeid avaldamata. Andmete sünteesi peetakse sel määral vahendiks, mis järgib andmekaitsenõudeid ja stimuleerib samas tehnoloogilist innovatsiooni [ 58]. Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 47 / 138 ID D-16-175 Avalik Sünteetiliste andmete genereerimine ANDMED Inglise keeles: synthetic data generation Lühidalt: Sünteetilised andmed on juhuslikud andmed, mis näevad välja nagu pärisandmed. Arenduse keerukus: keskmine Ülalpidamise keerukus: madal Täpsus: ebatäpne (andmed on statistiliselt sarnased, aga täpsus oleneb sünteesitud andmete kasulikkusest) Privaatsusgarantii: statistiline Tehnoloogia küpsus: keskmine Ülevaatlik mudel: Andmebaas Andmestiku taandamine statistiliseks või masinõppemudeliks ⬆ Privaatsus ⬇ Detailsus Sünteetiline andmebaas ⬆ Privaatsus ⬇ Täpsus Andmestikku iseloomustav mudel Sünteetilise
andmestiku loomine mudelisse
juhuslikkuse lisamise teel Turvaeeldused ja jääkriskid:

  1. Turvaeeldus: Kui sünteesimiseks kasutatakse masinõppemudelit, peab rakendaja kind- laks tegema, et see mudel ei ole ülesobi- tatud.
  2. Turvaeeldus: Rakendaja peab lisaks tulemuse kasulikkusele uurima ka tulemuse privaat- sust.
  3. Jääkrisk: mudelist genereeritakse juhuslikult päris inimene. Rakendusvõimalused:
  4. Andmete avaldamine testimiseks, õppe- ja tea- dustööks
  5. Avaandmete avalikustamine ja teenused
  6. Andmestike täiendamine, kui on puuduvaid väär- tuseid või andmeid ei ole piisavalt Õiguspraktika:
  7. Kirjanduses on leitud, et sünteetilised and- med võiksid olla anonüümsed, kuid konk- reetsed pretsedendid puuduvad. Tuntumad rakendused:
  8. EU-SILC - Euroopa Liidu rahvastikuandmete sün- teesimine
  9. USA inimkaubandusevastane koostöö
  10. Inimeste näopiltide süntees (This Person Does Not Exist teenus) Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 48 / 138 ID D-16-175 Avalik EU-SILC – Euroopa Liidu rahvastikuandmete sünteesimine Lühidalt: EU-SILC projekt sünteesis sotsiaalprobleemide uurimiseks andmestiku Euroopa rahvastiku kohta. Teostamise aasta: 2018 Riik: Euroopa Liit Omanik: Euroopa Liit Teostaja: Eurostat Süsteemi küpsus: püsiv juurutus Privaatsuskaitse tehnoloogiad:
  11. Sünteetiliste andmete genereerimine Sobivad kasutusjuhtumid: avaandmed Ülevaatlik mudel: Euroopa Liidu elanike andmete kogu Andmestikul statistilite mudelite treenimine ⬆︎ Privaatsus ⬇︎ Detailsus Sünteetiline andmekogu ⬆︎ Privaatsus ⬇︎ Täpsus Andmestikku iseloomustavad mudelid Sünteetilise andmestiku loomine mudelisse juhuslikkuse lisamise teel Märkimisväärsed omadused:
  12. Sünteesiti Euroopa Liidu liikmesriikide andmeid kümne aasta ulatuses (2004-2013).
  13. Koguti andmeid elanike ja leibkondade sissetulekute ja elatustaseme kohta Euroopa Liidu riikide elani- kelt. Sünteesitud andmed genereeriti, et võimaldada soovijatel nende peal läbi viia statistilisi ana- lüüse või teha esialgseid analüüse enne pärisandmetele ligipääsu küsimist, Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 49 / 138

ID D-16-175 Avalik 4.2.8 Usaldatavad täitmiskeskkonnad Lihtsustatult. Usaldatav täitmiskeskkond on arvuti, mis ei näe andmeid, mida ta töötleb ja ei saa seega neid lekitada. Usaldatava käivituskeskkonna korrektset tööd saab üle arvutivõrgu kontrollida. Ülevaade ja rakendamine.Usaldatava täitmiskeskkonna tehnoloogia võimaldab arvutusseadme (olgu see telefon, tahvel või ka server) sees käivitada arvutusi ja andmetöötlust, mis on isoleeritud teistest sama seadme peal töötavatest arvutustest. Sisuliselt saab kaitsta arvuti sees töödeldavaid andmeid ka arvu- tit füüsiliselt kontrolliva isiku eest. Ehk siis - ehitatud on arvuti, mis ei saa lekitada enda töödeldavaid andmeid. Sellisest arvutist on aga vähe kasu, kui sinna paneb kaitset nõudvaid andmeid juurde selle sama arvuti haldaja. Seega muutusid usaldatavad täitmiskeskkonnad privaatsuse jaoks huvitavaks siis, kui neile li- sandus kaugatesteerimise võimalus. Atesteerimine lubab luua turvalise sidekanali mõne teise seadme ja isoleeritud käivitusskeskkonna vahel. See tähendab, et väline osapool saab eemalt ühendudes tõestuse, et ta suhtleb just usaldatava käivituskeskkonnaga ning saab seejärel sinna laadida töötlemiseks andmeid. Kui andmeid on vaja koguda rohkem või üle pikema perioodi, saab need salvestada käivituskeskkonnas hoitava võtmega ka salvestusseadmetele. Ajaloost Usaldatavate täitmiskeskkondade (Trusted Execution Environment, TEE) tehnoloogia juured on võtmete ja saladuste kaitse tehnoloogiate juures. Trusted Computing Group eestvedamisel standarditi usaldatava platvormi moodulid (Trusted Platform Module, TPM), mida kasutatakse ennekõike krüptograa- filiste võtmete riistvaraliseks kaitseks. Tänaseks on TPM tehnoloogia arvutites laialt levinud. Aegamööda arendati tehnoloogiat edasi, et kaitsta saaks keerukamaid andmestruktuure ning ka nende üldotstarbelist töötlemist. Valminud tehnoloogiatest on teistest laialdasema levikuni jõudnud ARM-tüüpi arhitektuuriga protsessoritel saadaolev TrustZone tehnoloogia ning protsessoritootja Intel toodetavad Software Guard eXtensions (SGX) ja Trust Domain eXtensions (TDX) tehnoloogiad. Oma versioonid teh- noloogiast on olemas ka AMD, IBMi ja RISC-V tüüpi protsessorite jaoks. Turvagarantiid ja jääkriskid.Usaldatavate käivituskeskkondade abil saab ehitada süsteeme, mis pakuvad riistvaralist-krüptograafilist konfidentsiaalsust töödeldavatele andmetele ning riistvaralist-krüptograafilist terviklust andmetele ja täidetava algoritmi koodile ning turvapoliitikatele. Kaugatesteerimise mehhanismi abil on võimalik garantiide kehtivust ka üle võrguühenduse kaugelt kontrollida. Nende võrdlemisi tugevate turvagarantiide eelduseid on mitu:

  1. rakenduse korrektne teostus (vt täpsemalt allpool),
  2. protsessoritootja väljastatud uuenduste paigaldamine,
  3. protsessoritootja (või vastava pilvandmetöötluse teenuse pakkuja) usaldusväärsus atesteerimisprot- sessi ühe vahendajana ning
  4. protsessoritootja mõningane usaldusväärsus tehnoloogia loojana. Tavakasutajal on pea võimatu riistvaraliste turvalahenduste garantiisid kontrollida – tarkvara saab audi- teerida, riistvara mitte nii väga. Õnneks. saab tavakasutaja loota selle peale, et infoturbekogukond tegeleb regulaarselt uute tehniliste turvatehnoloogiate uurimise ning haavatavuste avaldamisega. Peamine teadaolev rünnete klass on nn kõrvalkanaliründed ( side channel attacks ). Selliste rünnete pu- hul püütakse mõõta arvutussüsteemi kõrvalkanaleid nagu näiteks tegevuste tööaega, energiakasutust, elektromagnetkiirgust, ning selle põhjal teha järeldusi arvutustes kasutatavate andmete kohta. Näiteks kui programmis tehakse andmepõhiseid otsuseid, on võimalik kõrvalkanaliründe abil teada saada, millist haru läbitakse, ning selle põhjal järeldada, mis oli mõne konfidentsiaalse andmeelemendi väärtus. Selliste rünnete vastu võitlemiseks on oluline usaldatavate käivituskeskkondade rakendusi hoolikalt arendada. Pikem analüüs Intel SGX turvamudeli ja kõrvalkanalirünnete kohta on vabalt saadaval [ 59]. Kõrvalkanalirünnete jääkriski kahandab hoolikas arendus, mis vähendab käivituskeskkonnas töötava koo- di hulka. Tootjate usaldamise vajadust saab vähendada hoolikalt läbimõeldud võrguturbepoliitikaga ning kolmanda osapoole teenuste minimaalse rakendamisega. Juhised rakendajale. Usaldavate käivituskeskkondade rakendamiseks on kolm peamist võimalust: Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 50 / 138 ID D-16-175 Avalik
  5. andmetöötlusrakenduse nullist teostamine tehnoloogia kasutust lihtsustavate arendusraamistike abil,
  6. tehnoloogiat integreeritavate andmetöötlustoodete juurutamine ja
  7. rakenduse käivitamine usaldatavat käivituskeskkonda kasutavas hüperviisoris. Järgmises tabelis on selgitatud kolme lähenemise erinevusi. Automaatselt tagatud turvagarantiid Lahendus Tooteid saadaval Andmete privaatsus Andmete terviklus Rakenduse terviklus Rollid ja õigused Arendatud rakendus Vähe Jah Jah Jah Jah Analüütika- toode Väga vähe Jah Jah Piiratud Ei Virtualiseeri- mine Vähe Jah Jah Piiratud Ei Rakenduste arendamise toetamiseks on mitmeid tehnoloogiaid (Google Asylo, Microsoft CCF, Sharemind HI), millest mõned toetavad rakenduste arendust üldiselt ja teised on mõeldud just privaatsust vajava- te rakenduste loomiseks. Usaldatava käivituskeskkonna abil virtualiseerimist toetavad näiteks Anjuna ja Fortanixi tooted. Kuigi täna valmis analüütikatooteid ei ole (leidub arenduses prototüüpe), siis tehnoloogia on kiiresti arenemas ning on oodata, et lähiaastatel toodete valik kasvab kiiresti. Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 51 / 138

ID D-16-175 Avalik Usaldatavad täitmiskeskkonnad ANDMED Inglise keeles: trusted execution environments Lühidalt: Usaldatav täitmiskeskkond on arvuti, mis ei näe andmeid, mida ta töötleb ja ei saa seega neid lekitada. Usaldatava käivituskeskkonna korrektset tööd saab üle arvutivõrgu kontrollida. Arenduse keerukus: keskmine Ülalpidamise keerukus: madal Täpsus: täpne Privaatsusgarantii: riistvaraline Tehnoloogia küpsus: keskmine Ülevaatlik mudel: Sisendandmed 1 Sisendandmed k ... Usaldatava käivituskeskkonna tehnoloogiaga krüptograafiliselt kaitstud
sisendandmete koondbaas Usaldatava käivituskeskkonna tehnoloogiaga krüptograafiliselt kaitstud
sisendandmete koondbaas Atesteerimine Krüpteerimine ⬆ Privaatsus ⬆ Terviklus Andmete töötlemine isoleerituna usaldatavas käivituskeskkonnas Usaldatava käivituskeskkonna tehnoloogiaga krüptograafiliselt kaitstud väljundandmestik Väljundandmed Atesteerimine Dekrüpteerimine Turvaeeldused ja jääkriskid:

  1. Turvaeeldus: usaldatav täitmiskeskkond ja atesteerimine on korrektselt seadistatud.
  2. Turvaeeldus: rakendus, mis keskkonnas töö- tab, on korrektselt teostatud ja kõrvalka- nalirünnetele vastupidav.
  3. Turvaeeldus: Tuleb usaldada täitmiskeskkon- na tehnoloogiatootjat, et ta on teinud oma tööd korrektselt.
  4. Jääkrisk: täitmiskeskkonna või rakenduse vea tõttu lekib konfidentsiaalseid andmeid. Rakendusvõimalused:
  5. Turvalised andmeruumid teenustele.
  6. Andmete linkimise- ja analüüsiteenus.
  7. Lisameetmena isikuandmete töötlemise kaitsel pilvandmetöötluses.
  8. Tugevdava tehnoloogiana avaandmete ja pärin- gusüsteemide teenustele. Õiguspraktika:
  9. Õiguslikke hinnanguid on vähe saadaval. Tuntumad rakendused:
  10. Kasutajate kontaktide ühisosa leidmine Signa- li vestlussüsteemis usaldatavate käivituskesk- kondade abil.
  11. Indoneesia Turismiministeeriumi projekt sideand- mete töötlemiseks.
  12. Eurostati mobiilsusandmete longituuduuringu pi- lootprojekt. Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 52 / 138 ID D-16-175 Avalik 4.2.9 Homomorfne krüptograafia Lühidalt. Homomorfse krüptograafiaga kaitstud tundlikke andmeid saab töödelda nii, et neid selleks lahti ei krüpteerima ei pea. Ülevaade ja rakendamine. Homomorfne krüptograafia on avaliku võtme krüptosüsteem, mis tähendab, et andmete krüpteerimiseks kasutatakse avalikku võtit ning dekrüpteerimiseks salajast võtit. Salajase võtme kaitsel on eriti suur tähtsus, sest igaüks, kellel on juurdepääs salajasele võtmele, saab lahti krüpteerida arvutuse vahe- või lõpptulemusi. Homomorfsuse omadus tähendab, et sama võtmega krüpteerimisel saadud arvuliste väärtuste krüpto- tekste on võimalik omavahel kombineerida nii, et saadakse krüpteeritud arvude summa või korrutise krüptotekst. Selliseid toiminguid järjest kombineerides on võimalik teostada andmeid krüptograafiliselt kaitsvaid andmeanalüüsirakendusi. Homomorfse krüptograafia juurutamise mudeli määrab paika avaliku ja salajase võtme kaitsevajadus. Avalikku võtit ei pea salajasena hoidma, seega andmeid saavad krüpteerida mitmed sisendit andvad osa- pooled. Küll aga peab igal tulemeid tarbival osapoolel olema koopia salajasest võtmest ning sellise võtme jagamine on võimalik turvarisk. Eraldi kategooria moodustavad eriotstarbelised skeemid, näiteks määratud krüpteerimine ( deterministic encryption), kus sama lähtetekst krüpteeritakse sama võtmega samaks krüptotekstiks ning järjestuslik krüpteerimine (order preserving encryption), kus krüpteeritud väärtused on omavahel samamoodi järjes- tatud nagu lähtetekstid. Neid on üritatud rakendada krüpteeritud andmebaasisüsteemide loomisel, kuid ei ole suudetud välistada lekkeid, mis tekivad kui analüüsida päringute mustreid ja andmete omavahelisi sõltuvusi koos [ 60]. Ajaloost. Tehnoloogia areng algas koos avaliku võtme krüptograafia arenguga ning üks tuntumatest ho- momorfsetest skeemid ongi RSA krüptosüsteem [ 61], mis lubab krüpteeritud väärtuseid omavahel korru- tada. Rakendustes on levinud ka Paillier krüptosüsteem [ 62], mis lubab krüpteeritud väärtuseid omavahel liita. Vaid liitmisest või korrutamisest aga ei pane mõistlike andmetöötlusrakendusi kokku ning seega olid kirjeldatud skeemid kasulikud vaid eriotstarbeliste süsteemide (näiteks elektroonilised hääletussüstee- mid) komponentidena. Järgmine suurem läbimurre toimus 2009. aastal, kui leiutati esimene praktikas teostatav täishomomorfne (nii liitmist kui korrutamist toetav) krüptoskeemi [ 63]. Alguses olid sellised skeemid ääretult ebaefektiiv- sed, kuid aja jooksul on süsteemid efektiivsemaks muutunud ning jõutud on esmaste andmeanalüüsi ja isegi masinõpperakenduste katsetusteni. Turvagarantiid ja jääkriskid.Homomorfsel krüptograafial põhinevate rakenduste peamised turvaeeldused on:
  13. korrektne võtmehaldus arvutuse ajal ja järel,
  14. alloleva krüpteerimisskeemi turvalisus ja
  15. algoritmide kõrvalkanalikindlus. Eelpool selgitasime, et homomorfse krüptograafiaga arvutatud tulemuste lahti krüpteerimiseks on igal vastaval osapoolel vaja salajast krüptograafilist võtit. Selle ühe võtme turvaline haldamine tähendab, et homomorfset krüptograafiat on keerukam efektiivselt juurutada üle mitme andmeid tarbiva organisat- siooni. Uued täishomomorfsed krüpteerimisskeemid toetuvad keerukatele matemaatilistele ja keerukusteoree- tilistele eeldustele, mida on uuritud, kuid mida veel lõpuni ei mõisteta ning seetõttu võib vähem uuritud skeemide kohta ilmuda ka uusi ründeid. Nii nagu teiste turvalise arvutamise tehnoloogiatega, peab ka homomorfse krüptograafia teostusel jälgi- ma, et privaatsed andmed ei lekiks tööaja kaudu. Määratud krüpteerimise ja järjestusliku krüpteerimise rakendamisel tuleb arvestada võimalike ründeid paljude päringutega. Nende tehnoloogiate rakendamisele peab eelnema lahenduse põhjalik turvaanalüüs. On väidetud, et olukorras, kus kasvõi ühel inimesel on juurdepääs andmete dekrüpteerimise võtmele, Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 53 / 138 ID D-16-175 Avalik anonüümseid andmeid ei eksisteeri. Alternatiivne seisukoht on see, et kui vastutav andmetöötleja annab krüptitud andmed kolmandale osapoolele töötlemiseks ilma krüpteerimisvõtmeta, on sellel kolmandal isi- kul anonüümsed andmed. Näitena on toodud, et kui keegi edastab ajakohase ja piisava krüpteeringuga kaitstud andmed nii-öelda mustas kastis, siis võib eeldada, et mõistlikke vahendeid kasutades ei ole and- metöötlejal võimalik suletud mustas kastis olevaid andmeid töödelda 36. Juhised rakendajale. Täna saab homomorfset krüptograafiat rakendada mitmete teekide abil. On ka idu- ettevõtteid, mis loovad tugilahendusi arendajatele. Täna vajab edukas homomorfse krüptograafia raken- damine siiski eraldi teadus-arendusprojekti. 36X-eHealth, D4.2.1 – Information paper on the current challenges in legal aspects of cross-border exchange of personal data. WP4 - Generic aspects of EEHRxF recommendation 27-05-2021. Ver- sion 0.7 . Internetis kättesaadav: https://www.x-ehealth.eu/wp-content/uploads/2022/01/D4.2. 1-–-Information-paper-on-the-current-challenges-in-legal-aspects-of-cross-border-exchange-of-personal-data. pdf (03.03.2023). Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 54 / 138 ID D-16-175 Avalik Homomorfne krüptograafia ANDMED Inglise keeles: homomorphic encryption Lühidalt: Homomorfse krüptograafiaga kaitstud tundlikke andmeid saab töödelda nii, et neid selleks lahti ei krüpteerima ei pea. Arenduse keerukus: kõrge Ülalpidamise keerukus: kõrge Täpsus: täpne Privaatsusgarantii: tõestatav Tehnoloogia küpsus: madal Ülevaatlik mudel: Sisendandmed 1 Sisendandmed k ... Homomorfse krüptograafiaga  kaitstud
    sisendandmete koondbaas Krüpteerimine ⬆ Privaatsus Andmete töötlemine
    homomorfsete teisendustega Homomorfse krüptograafiaga  kaitstud väljundandmestik Väljundandmed Dekrüpteerimine Turvaeeldused ja jääkriskid:
  16. Turvaeeldus: tagada korrektne võtmehaldus arvutuse ajal ja järel.
  17. Turvaeeldus: veenduda alloleva krüpteeri- misskeemi turvalises seadistuses.
  18. Turvaeeldus: teostada algoritmid kõrvalkana- likindlalt.
  19. Jääkrisk: teostuse vigade tõttu lekib konfi- dentsiaalseid andmeid. Rakendusvõimalused:
  20. Turvalised andmeruumid teenustele.
  21. Lisameetmena isikuandmete töötlemise kaitsel pilvandmetöötluses.
  22. Andmete linkimise teenus. Õiguspraktika:
  23. Õiguslikke hinnanguid on vähe saadaval. Tuntumad rakendused:
  24. Nõrkade paroolide tuvastamine Microsoft Ed- ge veebilehitsejas homomorfse krüptograafia abil.
  25. Šveitsi personaalmeditsiini võrk (koos teiste teh- noloogiatega). Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 55 / 138 ID D-16-175 Avalik 4.2.10 Turvaline ühisarvutus Lühidalt. Turvaline ühisarvutus aitab mitme osapoole saladustest arvutada uut teadmist ilma, et keegi teiste saladusi näeks. Ülevaade ja rakendamine. Turvaline ühisarvutus on üldine tehnoloogia, millega saab ehitada mitmesu- guseid rakendusi – seda kasutatakse nii andmete kui ka võtmete ja varade kaitseks. Andmete kaitsmise rakendustes on eesmärgiks kas isikute privaatsus või organisatsioonide saladuste kaitse. Võtmete ja va- rade kaitse puhul tehakse turvalise ühisarvutuse abil näiteks krüptograafilisi operatsioone või ka tehinguid digitaalsete varadega. Andmetega töötavatest turvalise ühisarvutuse süsteemides eristatakse kolme tüüpi osapooli [ 64]. Si- sendit andvad osapooled ( input party ) annavad salajasi andmeid ning soovivad neid salajasena hoida. Arvutavad osapooled ( computing party ) rakendavad turvalise ühisarvutuse protokolle, et andmed töö- delda ilma neid nägemata. Tulemeid tarbivad osapooled ( result party ) näevad töötlemise väljundit, kuid ei midagi muud. Reaalsetes süsteemid võivad rollid kattuda – sisendit andvad osapooled võivad olla ka arvutavad ja väljundit tarbivat osapooled. Yao miljonäride probleemi lahendustes ongi kaks osapoolt, kes on kõigis kolmes rollis. Privaatsuse tagamisel on turvaline ühisarvutus efektiivne ja sobilik olukordades, kus andmed tulevad mit- mest allikast ning nende turvaline töötlemine ja kaitsmine on mitme osapoole huvides. Näiteid tehnoloogia erinevatest juurutusmudelistest saab lugeda UaESMC projekti tehnilisest aruandest [ 65]. Neist on ennast praktikas elujõulisemana näidanud kahe osapoolega arvutusmudelid inimeste ja asutuste vahel ning liht- salt asutuste vahel. Need rakendused on modelleeritud klient-server mudelite järgi ning seega on sobinud hästi täna levinud juurutusmudelitesse. Turvalise ühisarvutuse tugevused tulevad välja rohkemate osapooltega süsteemides, kuid täna veel puu- dub mitmel pool tehniline-organisatsiooniline küpsus, et seda täiel võimsusel rakendada. Seda põhjustab ennekõike nõue, et arvutavad osapooled peavad olema omavahel sõltumatud ning selleks vajalikku ma- jutustaristut alles arendataks. Organisatoorsed ning tehnilised lahendused on küpsemas ning neid on juurutamas ja standardimas. Sobivateks rakendusvaldkondades on koostööd ja isikustatud andmete nõudvad süsteemid. Tehnoloogia rakendusvõimaluste ning jõudluse kohta on avaldatud ka ülevaateartikkel [ 66]. Eestis on turvalist ühisarvutust rakendatud IKT riikliku programmi pilootprojektis PRIST (Privacy-preserving statistical studies on linked databases). Projekti raames tehti turvalise ühisarvutusega ulatuslik privaat- sust säilitav isikuandmete linkimine ja statistiline uuring Maksuameti ja Haridus- ja Teadusministeeriumi andmetel. Uurimuse eesmärk oli mõista seoseid ülikooli ajal töötamise ja õigeaegselt lõpetamise vahel [67, 68] Tehnoloogia saamisloost. Turvalise ühisarvutuse ( secure multi-party computation ) tehnoloogia aluseks peetakse Andrew Chi-Chih Yao 1986. aasta artiklit [69], milles ta sõnastab enda järgi nimetatud Yao miljo- näride probleemi - kuidas saavad kaks miljonäri teada, kumb on rikkam ilma enda enda varanduse mahtu avaldamata? Turvaline ühisarvutus lahendabki kahe ja rohkema osapoole jaoks ülesandeid, kus osapoolte sisend jääb salajaseks kõigi teiste eest. Tehnoloogia oli teoreetiline kuni 2004. aastani, mil Iisraeli tead- lased ehitasid Fairplay prototüübi ja näitasid esimest korda turvalist ühisarvutust praktikas [ 70]. Pärast seda hakkas tehnoloogia kiiresti arenema ning esimesed reaalseid andmeid kasutanud rakendused ehitati Taanis [71] ja Eestis [ 72]. Turvagarantiid ja jääkriskid. Turvalise ühisarvutuse definitsiooni järgi ei tohi keegi peale sisendit andnud osapoole näha selles sisendi väärtuseid (kui see pole mingil põhjusel kokku lepitud kui teatud tingimustel lubatud väljund). Praktikas tähendab see, et korrektselt ehitatud turvalise ühisarvutuse süsteemis saa- vutatakse otsast otsani krüpteerimine andmeanalüüsile. Andmete omanik rakendab oma andmetel krüp- teerimist (või midagi analoogset, nt ühissalastust) ning edastab andmed töötlemiseks. Töötlemine toimub krüpteeritud andmetel ilma neid lahti krüpteerimata ning väljund on samuti krüpteeritud kujul. Seega on turvalisus võrreldav arvutivõrkude turvakanalitega, kus kliendi ja serveri vahel ei ole keegi võimeline edas- tatud andmeid lugema. Turvaline ühisarvutus üksi annab privaatsust otsivale andmeanalüüsisüsteemile matemaatiliselt tõesta- Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 56 / 138 ID D-16-175 Avalik tava krüptograafilise turvalisuse. Päringute piirangute teostamiseks on turvaline ühisarvutus samuti sobiv – privaatsuspoliitika ning päringute piirangute kehtestamise garantii on turvalise ühisarvutuse puhul väga efektiivne tänu hajusale ja konsensulikule kontrollile. Allikaprivaatsus ja väljundiprivaatsus on teostatavad rakenduse tasemel. Turvalise ühisarvutuse rakenduste turvaeeldused on:
  26. krüptograafilise protokollistiku turvaeelduste täitmine (sh osapoolte sõltumatus) ja
  27. käivitatavate algoritmide kindlus kõrvalkanalirünnete vastu. Turvalise ühisarvutuse protokollide tavapärane turvaeeldus on, et kas enamus või vähemalt üks arvu- tavatest osapooltest käitub ausalt ning ei ürita protokolli rikkuda. Vastasel juhul suudaks mingi alamosa arvutavatest osapooltest enda käes olevaid krüpteeritud materjale kokku pannes mõned saladused ava- likuks teha. Praktikas saavutatakse seda nii tehniliste kui organisatoorsete meetmetega. Kõige tugeva- maks riski kahandamise meetmeks on arvutavate osapoolte majutamine sõltumatute organisatsioonide või inimeste poolt. See tähendab, et turvalise ühisarvutuse süsteemi ei tohiks juurutada samas pilvarvu- tussüsteemis või andmekeskuses. Ühe organisatsiooni piires juurutamine ei ole välistatud, kuid siis peab tagama organisatsiooni sees selle, et serverite administraatorid koostööd ei tee. Turvalise ühisarvutuse puhul tuleb samuti jälgida, et andmeanalüüsi algoritmi tööaeg ei lekiks privaatse- te sisendandmete väärtuseid. Vastavat turvamudelit ning turvalise ühisarvutuse algoritmide koostamise meetmeid on kirjeldanud näiteks [ 73]. Juhised rakendajale. Turvalise ühisarvutuse tehnoloogiate pakkujaid on maailmas mitmeid ning neid ühendab ka tööstusliit MPC Alliance 37 Tehnoloogia on täna saadaval ennekõike valdkonnaspetsiifiliste valmisrakenduste või üldiste programmeeritavate raamistike kujul. Viimaste puhul on saadaval nii töös- tuslikul tasemel teostuseid kui ka avatud lähtekoodiga akadeemilisi prototüüpe. Üldotstarbeliste turvalise ühisarvutuse raamistike küpsuse kohta on avaldatud ka ülevaateartikkel [ 74]. Täna tähendab turvalise ühisarvutuse rakendamine süsteemis arendusprojekti, mille käigus saab ära ka- sutada olemasolevaid tehnoloogiakomponente - st krüptograafiat uuesti leiutada või teostada ei ole vaja. Suuresti on tegemist integratsiooniprojektiga, kus oluline roll on äriloogika ja juurutusmudeli kavandamisel ja teostamisel vastavate arendusvahenditega. Õiguslikud aspektid. Õiguslikud arutelud selle üle, kas turvaline ühisarvutus tagab anonüümsust Isikuandmete kaitse üldmää- ruse mõistes, ei ole lõplikku tulemust andnud. Teaduskirjanduses on seda väidetud [ 75], kuid hilisem IKÜM praktika on olnud ebaselge. Turvalise ühisarvutuse protokolli osapooled on võimalik pidada kaas- vastutavateks või alamtöötlejateks (sõltuvalt juurutusest), kes küll andmeid reaalselt isikustada ei suuda, kuid suunavad nende täitmist. Siiski peetakse turvalist ühisarvutust tugevaks täiendavaks seostamatuse ja turvameetmeks. Euroopa Andmekaitsenõukogu oma 2020. aasta novembri arvamuses võtnud seisukoha, et turvaline ühisarvutus võib olla sobiv meede isikuandmete kaitseks nende transpordil väljaspoole Euroopa Liitu (vt [ 76], Lisa 2, kasutusjuhtum 5). 37MPC Alliance. https://www.mpcalliance.org (viimati külastatud 11.01.2023). Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 57 / 138 ID D-16-175 Avalik Turvaline ühisarvutus ANDMED Inglise keeles: secure multi-party computation Lühidalt: Turvaline ühisarvutus aitab mitme osapoole saladustest arvutada uut teadmist ilma, et keegi teiste saladusi näeks. Arenduse keerukus: kõrge Ülalpidamise keerukus: kõrge Täpsus: täpne Privaatsusgarantii: matemaatiliselt tõestatav Tehnoloogia küpsus: keskmine Ülevaatlik mudel: Sisendandmed 1 Sisendandmed k ... Arvutavate
    osapoolte
    vahel jagatud, krüptograafiliselt kaitstud
    sisendandmete koondbaas Krüpteerimine
    või osakuteks jagamine ühissalastusega ⬆ Privaatsus Turvaline ühisarvutus, rollide, õiguste ja reeglite konsensuslik tagamine Arvutavate
    osapoolte
    vahel jagatud, krüptograafiliselt kaitstud
    tulemandmestik Väljundandmed Dekrüpteerimine või osakutest taastamine Turvaeeldused ja jääkriskid:
  28. Turvaeeldus: tagada korrektne võtmehaldus.
  29. Turvaeeldus: teostada algoritmid kõrvalkana- likindlalt.
  30. Turvaeeldus: taga arvutavate osapoolte oma- vahelise sõltumatuse nõue, vajadusel le- pingute toega.
  31. Jääkrisk: teostuse vigade tõttu lekib konfi- dentsiaalseid andmeid. Rakendusvõimalused:
  32. Turvalised andmeruumid teenustele.
  33. Lisameetmena isikuandmete töötlemise kaitsel pilvandmetöötluses.
  34. Andmete linkimise- ja analüüsiteenus.
  35. Tugitehnoloogiana avaandmete ja andmebaaside avaldamise teenustele. Õiguspraktika:
  36. Euroopa Andmekaitsenõukogu (EDPB) on lu- genud tehnoloogia sobivaks lisameetmeks isikuandmete edastamisel väljaspoole Eu- roopa Liitu. Tuntumad rakendused:
  37. Bostoni linna palgalõhe uuring turvalise ühisarvu- tuse abil.
  38. Eesti IKT erialade tudengite andmete ühendami- ne ja õpikäitumise uuring turvalise ühisarvutu- sega.
  39. Suurbritannia valitsuse piloot toetuspettuste uurimiseks turvalise ühisarvutusega. Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 58 / 138 ID D-16-175 Avalik Eesti IKT erialade tudengite õpikäitumise ja töötamise uuring Lühidalt: Uuringu käigus ühendati turvalise ühisarvutuse abil isikukoodide järgi IKT tudengite töötulumaksu- ja hariduse andmed ning uuriti, kuidas on töötamine ülikooliõpingute ajal seotud nominaalajas lõpetamisega. Teostamise aasta: 2013-2015 Riik: Eesti Omanik: Turvalist arvutuskeskkonda haldasid Riigi Infosüsteemi Amet (RIA), Rahandusministeeriumi Infotehnoloogiakeskus (RMIT) ja Cybernetica. Teostaja: Statistilist analüüsi tegi Eesti Rakendusuuringute Keskus (CentAR) Süsteemi küpsus: pilootprojekt Privaatsuskaitse tehnoloogiad:
  40. turvaline ühisarvutus Sobivad kasutusjuhtumid: turvaline linkimine ja analüütika Ülevaatlik mudel: Krüpteeritud Kollektiivne analüüs Krüpteeritud andmed Krüpteeritud andmed Krüpteeritud andmed RMIT RIA Cybernetica Haridus- ja Teadusministeerium Maksu- ja Tolliamet Statistiline uuring (CentAR) Privaatsus Jõudlus Tulu ja töötamise andmed Haridusandmed Dekrüpteeritud tulemused Turvalise ühisarvutuse juurutamine Märkimisväärsed omadused:
  41. Andmete töötlemine ja analüüs toimus Cybernetica poolt arendatud turvalise ühisarvutuse süsteemi Sharemind MPC abil. See kindlustas, et privaatsed andmed olid krüpteeritud kogu protsessi käigus ning avaldati ainult analüüside tulemused.
  42. Kokku analüüsiti enam kui 10 miljonit kirjet Maksu- ja Tolliametilt ja enam kui 600 000 kirjet Haridus- ja Teadusministeeriumilt. Tegemist on ühe suurima krüpteeritud andmetega tehtud statistilise ana- lüüsiga. Privaatsuskaitse tehnoloogiate kontseptsioon 31.03.2023 1.1 59 / 138