AH_juhis_andmekirjeldus_v2.0.pdf

Type: Document | Status: ready

11 andmehalduse määrus.7 Menetluses on andmemäärus.8 Eestis on sel kaks mõju. Esmalt sisuline ehk uued regulatsioonid ja teiseks protseduuriline ehk vajadus Eesti õigusaktid muudatustega harmoniseerida. Kehtivate regulatsioonide hulk on tinginud kohati äärmise üksikasjalisuse ja teisalt lai ad konstruktsioonid, millest selle juhise kontekstis on olulisim teabehalduse ja andmehalduse suhe. Andmehaldusel legaaldefinitsiooni ei ole. Avaliku teabe seaduse alusel välja antud Vabariigi Valitsuse määrus teenuste korraldamise ja teabehalduse aluste kohta9 sätestab andmehalduse täpsemad nõuded ja tingimused:

  1. riigi infosüsteemi kuuluva andmekogu vastutav töötleja dokumenteerib ja rakendab andmekvaliteedi seire ja haldamise protsessi, millega tagatakse riigi infosüsteemi kuuluvate andmekogude andmete kvaliteet vastavalt õigusaktidele;
  2. Statistikaamet koostab juhised riigi infosüsteemi kuuluvate andmekogude üldandmete ja andmekogus töödeldavate andmete kirjelduse koostamiseks ning andmete kvaliteedi tagamiseks. Juhised kooskõlastatakse enne Statistikaameti veebilehel avaldamist Majandus- ja Kommunikatsiooniministeeriumiga. Esimene säte piiritleb justkui andmehalduse andmekogudega, mis aga pole siiski praktiliselt parim lahendus, sest asutustel on oma ülesannete täitmisel palju andmestikke, mis pole andmekogud. Need sätted annavad juhiste andmiseks õigusliku aluse ning kuna legaaldefinitsioonid puuduvad, ongi täpsemad selgitused ja nõuded juhistes. Oluline on märkida, et õ igus käsitleb koos nii inimloetavat kui ka masinloetavat teavet/andmeid, mis on kas andmekogud, andmestikud või dokumendid. Andmekirjelduse juhise raames on tarvis rõhutada sedagi, et andmekogud, andmestikud ja dokumendid võivad kõik olla andmehalduse objektid, mis seega vajavad andmekirjeldust. Samas on need andmete kategooriad nii andmetüüpide kui sisu mõttes väga erinevad. Laiemalt käsitlebki kehtiv õigus informatsiooni ja andmeid teabena, isegi osana avalikust teabest. Teisalt käsitletakse kogu digitaalset teavet andmetena. Avalik teave on mis tahes viisil ja mis tahes teabekandjale jäädvustatud ja dokumenteeritud teave, mis on saadud või loodud seaduses või selle alusel antud õigusaktides sätestatud avalikke ülesandeid täites. Andmehalduse objektid – andmekogud, andmestikud või ka dokumendid –, olgu inim- või masinloetavad, vajavad andmete kasutamiseks infosüsteeme ja rakendusi, kui need pole trükitud paberile. Teisest küljest on tegemist jäädvustatud ja dokumenteeritud teabega avaliku teabe seaduse tähenduses. Seetõttu on andmehalduses otstarbekas vaadelda kirjeldusi nii inim- kui masinloetavuse perspektiivist.

7 Euroopa Parlamendi ja nõukogu määrus (EL) 2022/868, 30. mai 2022, Euroopa andmehalduse kohta ning millega muudetakse määrust (EL) 2018/1724 (andmehalduse määrus) 8 Euroopa Parlamendi ja nõukogu määrus ühtlustatud õigusnormide kohta, millega reguleeritakse õiglast juurdepääsu andmetele ja andmete kasutamist (andmemäärus) 9 Teenuste korraldamise ja teabehalduse alused. Vabariigi Valitsuse 25.05.2017 määrus nr 88. RT I, 31.05.2017, 7.

12

Joonis 3. Teabe/andmete inim- ja masinloetavus Teenuste korraldamise ja teabehalduse aluste määrus vaatleb andmehaldust teabehalduse alategevusena ning asetab selle teabehalduse korraldamise alla ühes dokumendihaldusega. Siiski ei ole teabehaldus, dokumendihaldus ja andmehaldus sarnane ei sisu, töökorralduse, kasutatavate infosüsteemide ega vastutajate poolest. Otse neid üksteise alla panna ei saa, kuid siin käsitletavad kirjeldused saab muuta ühilduvateks. Andmekogude ja andmestike kirjeldamine vajab valdkondade vahel ühtlustamist, mida tehakse kirjelduse ja kirjelduselementide standarditega. Avaliku sektori kõige olulisem õiguslikult reguleeritud osa on andmekogud. Need on loodud seadusega või seaduse alusel määrusega ning neil on oma põhimäärus. Andmekogu põhimääruse sisu kirjeldab avaliku teabe seadus järgmiselt: „Andmekogu põhimääruses sätestatakse andmekogu pidamise kord, sealhulgas andmekogu vastutav töötleja (haldaja) ja vajaduse korral volitatud töötleja, andmekogusse kogutavate andmete koosseis, andmeandjad ja vajaduse korral muud andmekogu pidamisega seotu d korralduslikud küsimused .“ Andmekogu andmete koosseis on andmekogude määrustes loetletud erineva üksikasjalikkusega. Ühtlustatud kujul on andmekogude kohta esitatavate andmekirjelduse elementide loetelu toodud Vabariigi Valituse määruses „Riigi infosüsteemi haldussüsteem “10. Selle § 18 „RIHA andmekogude alamregister“ lõige 2 loetleb alamregistrisse kantavate andmekogu üldandmete koosseisu. Selles on ära toodud 27 kirjelduselementi. Need on (osaliselt) realiseeritud RIHAsse esitatavas andmekogu kirjelduses. L õige 3 toob ära andmekogus töödeldavate andmete koosseisu, milles on kuus kirjelduselementi, ning lõige 4 andmekogu asutamise ja andmete töötlemise aluseks olevate õigusaktide andmete koosseis u, milles on nelikirjelduselementi. Nendega on siin juhises arvestatud. Samas tuleb tähelepanu pöörata dilemmale, et küllalt keerukas on keskpikas perspektiivis hoida ühetaolisena ja otstarbekana õigusaktides, juhistes/standardites ning rakendustes kasutatava t kirjelduste andmekoosseisu. Juhise ja andmekirjelduse standardi koostajad on arusaamisel, et just standard on see instrument, mis on sobivaim ühtlustatud andmekoosseisude haldamiseks.

10 Riigi infosüsteemi haldussüsteem. Vabariigi Valitsuse 28.02.2008 määrus nr 58. RT I 2008, 12, 84.

13 Lisaks õigusaktidele (seadused ja määrused) on mitmes andmehaldusega seotud valdkonnas vastutavatel või koordineerivatel asutustel õigus või ülesanne anda juhiseid. Juhised võivad olla soovituslikud või vältimatult kasutust nõudvad, kui tegu on infosüsteemide kasutamise tehniliste juhistega. Nagu on näha Joonis 4. Valdkonnad, asutused ja juhised, on eri asutused välja andnud mitu juhist või juhendit teabe, dokumentide ja andmekogude kohta. Neist põhjalikumad on Andmekaitse Inspektsiooni juhendid/juhised. Andmehaldust puudutab neist kõige enam andmekogude juhend . Juhend annab ülevaate avaliku sektori andmekogude reguleerimise praktilistest küsimustest. Peamiselt käsitleb see õiguslikku reguleerimist, kuid selles on ka muid andmehaldusega enam kokkupuutuvaid osi. Esmalt osa, mis käsitleb andmete koosseisu ja selle fikseerimist andmekogu põhimääruses , ning teiseks andmekogu ja andmete säilitustähtaegu. Siinne andmekirjelduse juhis käsitleb samuti andmete koosseisu. Vaatenurkade erinevus seisneb selles, et see juhis ei käsitle andmekogu põhimäärusega seonduvat.

Joonis 4. Valdkonnad, asutused ja juhised Teenuste korraldamise ja teabehalduse aluste määruses on andmehaldus teabehalduse alategevus. Juhises määruse rakendajale on sõnastatud täpsustus: „ Teabehaldus ei ole sünonüüm dokumendihaldusele, andmehaldusele, sisekommunikatsioonile ega muule eraldivõetavale tegevusele. Teabehaldus hõlmab kogu asutuse teavet kõigis infosüsteemides ja hoiukohtades, kõiki infovarasid. Andmehaldus hõlmab andmete haldamist relatsioonilistes andmebaasides, geoinfosüsteemides jms infosüsteemides .“ Mainitud juhises on andmehaldus ainult markeeritud, kuna keskne on teabe- ja dokumendihaldus. Käesolevas juhises käsitletakse ühe infovara liigina andmestikke ning seda, kas andmekogu on pigem relatsiooniline andmebaas või põhimäärust omav infosüsteem, pikemalt ei lahata. Avalikku teavet ja avaandmeid võrdsustav käsitlus, mis on avaliku teabe seaduses, vajab eriti avaandmete kategooriate osas täpsustamist, sest käesolev juhis annab avaandmete kirjeldamiseks ette standardi. Andmekirjeldus on seotud teiste kirjeldustega. Eestis on nii juhised kui praktika kirjelduste koostamise kohta dokumendihalduses ja arhiivinduses. Andmekirjeldusel on sellega palju ühist, kuid on ka erinevusi. Sama võib öelda ka infosüsteemide (andmekogude) tehnilise dokumentatsiooni kohta (sh infosüsteemi arhitektuuri dokumenteerimine). Käesolevas juhises seob andmekirjeldus n-ö teabehalduse poolse vaate, mis kirjeldab infovara või andmestikku ehk midagi, mis on hallatav üksus , ning hallatava objekti sisu ja struktuuri ehk kirjelduselementide käsitluse. Seost arhiivikirjeldusega täpsemalt esitatud ei ole , kuid üldjoontes võib öelda, et

14 andmestiku kirjeldus on lähedane arhivaali kirjeldusele ning korrektselt loodud andmekirjeldust saab arhiveerimisel taaskasutada. Andmekirjelduse olemasolu teeb ka arhiveerimise lihtsamaks. Eraldi nimetame aastal 2011 loodud semantikajuhendeid : „Ontoloogiate loomise metoodika“ 11, „Nõuded RIHA ontoloogiatele“ 12 ja „Semantilise kirjeldamise juhis“13. Need juhised on tehnilised : „Semantilisel kirjeldamisel (ehk annoteerimisel) käsitletavateks infovaradeks on XML-skeemid XSD-vormingus, andmeteenuste kirjeldused WSDL -vormingus ning RIHA jaoks andmekoosseisude esitamiseks kasutusel olevas XMI-vormingus andmemudelid.“ Nagu näha , on tegu skeemide annoteerimisega, mis on loodud ja kasutatavad kitsa hulga infotehnoloogide poolt ega aita kuigivõrd asutuste teisi töötajaid. Semantilise koostalitlusvõime suurendamiseks on käesolevate juhistega valitud teine tee, mis peaks viima samm -sammult ontoloogiateni, kuid ei hüppa üle sõnastikke käsitlevatest vajalikest vahelülidest. Selliseks oluliseks ja selles juhises käsitletavaks lüliks on sõnastikud.

1.8 Andmekirjelduse koostamise metoodilised alused ja alusstandardid Andmekirjeldus on osa laiemast metaandmete haldusest ja andmehaldusest. Nii andmehalduse, metaandmete kui ka andmekirjelduste koostamise ja haldamise kohta on mitu laiemat ja konkreetsemat käsitlust, üldisemat ja valdkondlikku mudelit ning mitu rahvusvahelist standardit. Andmekirjelduse juhise koostamisel on mitmega neist otseselt arvestatud.
Andmekirjelduse juhise koostamisel on lähtutud rahvusvaheliselt tunnustatuimas t käsiraamatust „The Data Management Body of Knowledge (DAMA -DMBOK2)” (2nd ed., 2017 ). Käsiraamatus on esitatud üldise andmehalduse mudeli ühe osana metaandmed. Metaandmed omakorda on esitatud kahes suuremas rühmituses (fassetis).14 Esmalt on need toodud kolmes suures grupis: (1) kirjelduse, (2) administratiivsed ja (3) struktuursed metaandmed, ning lisatud, et see pole infotehnoloogia valdkonna rühmitamisviis. Teiseks on toodud ära kolm suurt rühma: valdkonna ehk ärimetaandmed (business metadata), tehnilised metaandmed (technical metadata) ning protsessi metaandmed ( operational metadata ). Esimeses jaotises toodud kirjelduse metaandmete vaade on olnud infoteaduste keskne ja seda on iseloomustatud kui mittetehnilist. Selline arusaam on kitsas ja aegunud – info- ja andmekirjeldused on ammu üksteisega ühilduvates ja automaatset andmevahetust võimaldavates infosüsteemides. Andmekirjelduse juhises on lähtutud eesmärgist osa vajalikke tehnilisi metaandme id andmekirjeldusega selgelt integreerida. Eeskätt on silmas peetud andmebaasi tabelite ja veergude tähiseid ja nimetusi . Andmekirjelduse koostamise ja haldamise metoodika lähtu b sellest, et andmekirjeldus on osa laiemast metaandmete haldusest ja andmehaldusest , kuid sel on ka kaks kitsamat komponenti . Need tulenevad kasutaja vajadustest leida esmalt sobiv andmestik (ja koostada andmestiku kirjeldus) ning seejärel tutvuda andmestiku sisuga (ja koostada andmeelementide kirjeldus).
Andmekirjeldus koostatakse ühelt poolt mingi hulga andmete kohta, mida võime nimetada andmestikuks või andmevaraks . Andmestiku kirjeldus e eesmärk on tagada andmestiku kui terviku hallatavus, mõistetavus, leitavus ja eristatavus . Näiteks andmeanalüütiku vaatest

11 H-M. Haav. (2011). Ontoloogiate loomise metoodika. Ver. 4.
12 H-M. Haav. (2011). Nõuded RIHA ontoloogiatele. Ver. 2011/r2.6.
13 P. Küngas. Semantilise kirjeldamise juhis V0.4. (2017)

15 võimaldab selline kirjeldus kiiresti leida vajaliku d andmed asutuse andmekataloogist või teiste asutuste või üleriigilistest andmeportaalidest.

  1. Andmekirjeldus koostatakse ka detailsemal tasandil andmestikus ole vate andmete (andmeelementide) kohta. Andmeelementide kirjeldus e eesmär k on tagada detailsem arusaam sellest, millised konkreetsed andmevälj ad andmestikus eksisteerivad, milline on nende sisu, kuidas neid on võimalik kasutada ja kuidas on erinevad andmeelemendid ühes andmestikus või andmestikeüleselt omavahel seotud. Andmeelementide või nende rühmade (infoobjektide, infoolemite) kirjelduse oluli ne osa on ka nn semantiline kirjeldus – andmeelemendi seos valdkonnas või asutuses kasutatavate terminitega. Metoodiliselt on oluline, et a ndmekirjelduse koostamine sõltub sageli valdkondlikust metaandmemudelist. See tähendab, et valdkondadel on erinevad kirjeldusmudelid. Lisaks tuleb kogu aeg võtta arvesse, et andmebaaside tehnikas on andmete modelleerimisel kasutusel nende spetsiifiline, aga oma ulatuse mõttes üldine andmete modelleerimise ja kirjeldamise metoodika. Eestis on selleks tavaline relatsioonilise andmebaasi modelleerimise tehnika. Selles luuakse loogiline ja füüsiline andmebaasi mudel ning sageli ka kontseptuaalne või objekt -orienteeritud mudel. Viimane noteeritakse UML -is.15 Kuna andmebaaside modelleerimine on üldkasutatav ja UML-i tehnika võimas, siis on üsna sage, et andmearhitektid võtavad seda kui piisavat alust, mida valdkondlik mudel ainult assisteerib. Käesoleva juhise autorite arvates on see üks oluline metoodiline puudus ning valdkondade mudelid, olgu selleks pangandus, geoinfo, raamatukogundus või sotsiaaluuringud, peaksid olema esmase tähelepanu all. Kasutusel on paar üldist või lausa üleüldist kirjeldusstandardit, millega arvestamata kasutatavaid kirjeldusi tavaliselt ei koostata. Eelkõige on selleks Dublin Core. 16 Dublin Core on
    metaandmeelementide loetelu, mis põhineb 15 omadusel – need moodustavad 15 põhilist kirjelduselementi –, mida kasutatakse allikate (inforessursside) kirjeldamise ks ning valdkondadevaheliseks inforessursi kirjelduste edastamiseks. Seejuures ei ole kuidagi piiratud see, mida peetakse antud standardi terminoloogias inforessursiks. Nii võibki selleks olla andmeportaalis andmestik või raamatukogus teavik jne. Dublin Core on üle võetud ka Eesti standardiks.17 Kitsamalt sotsiaalteaduslikes uuringutes, andmearhiivides ja statistikas on selliseks valdkondlikuks mudeliks DDI (Data Documentation Initiative) .18 DDI ei sisalda ainult kirjelduse metaandmeid, vaid need on laiemad. Mudeli eesmärk on kasutada metaandmeid nii andmete kui ka protsesside juhtimiseks . DDI näide demonstreerib, kuidas paljudes valdkonnamudelites on omavahel seotud andmekirjeldus ja metaandmed laiemalt . Joonis 5 näitab kuidas andmekirjeldus on osa laiemast metaandmete käsitlusest, mis omakorda on oluline osa andmehaldusest. Metaandmetele on oma mudelid ning ka seotud kirjelduse osad , nagu terminoloogia ja sõnastike haldus ja andmekataloog.

15 Vt. Gillenson, Mark L. Fundamentals of database management systems. (2nd Ed., Wiley, 2013) ptk 5-9. 16 https://www.dublincore.org/
17 EVS-ISO 15836-1:2019 Informatsioon ja dokumentatsioon. Dublin Core’i metaandmeelemendid. Osa 1: Põhielemendid (kehtiv alates 15.05.2019). EVS-ISO 15836 -2:2023 Informatsioon ja dokumentatsioon. Dublin Core’i metaandmeelemendid. Osa 2: DCMI atribuudid ja klassid (kehtiv alates 02.05.2023). 18 Data Documentation Initiative (DDI) (Lifecycle 3.3, 20.04.2020) .

16

Joonis 5. Andmekirjelduse koht andmehalduses Andmekirjelduse juhise koostamisel on tuginetud mitmele teisele standardile.

  1. Andmekataloogi osas on aluseks „Data Catalog Vocabulary“ (DCAT) (ver. 2, 04.02.2020) ja
    selle rakendusprofiil Euroopa andmeportaalidele (DCAT -AP) (ver 2. 1.0). See esitab mudeli, milles andmekataloogis kirjeldatakse andmestikud, nende levitused ja teenused, kus andmestikke kasutatakse . Lisaks on võimalik andmestikud märksõnastada ühilduvana SKOS-iga.19 DCAT ei käsitle seda, kuidas kirjeldada andmestiku sisu ja struktuuri. Andmestiku kirjeldus omakorda baseerub paljuski Dublin Core’il.20
  2. Terminoloogia osas on standarditest aluseks EVS -ISO 1087 -1:2002 „Terminoloogiatöö. Sõnastik. Osa 1: Teooria ja rakendus “21. See on siiski ainult teoreetiline alus, kuidas kirjeldatavat mõisteliselt käsitleda , st kontseptualiseerida , ning mõisteid tähistada ja määratleda ehk teha terminoloogiatööd . Andmekirjelduste koostamine ei ole siiski terminoloogiatöö, vaid paljus kasutatava sõnava ra ühtlustamine ainult teatava praktilise piirini lõppeesmärgiga andmeid leida, mõista ja kasutada.
  3. Sõnastike osas on standarditest aluseks ISO 25964 „Informatsioon ja dokumentatsioon. Tesaurused ja nende koostalitusvõime teiste sõnastikega. Osa 1: Infootsingu tesaurused“ ja „Osa 2: Koostalit lusvõime teiste sõnastikega “.22 Standardi esimene osa annab süsteemse ülevaate, kuidas tesaurust koostada. Selles standardis on tesaurus määratletud kui märksõnastik või struktureeritud sõnastik, milles iga mõiste kohta on esitatud terminid ning toodud selgelt välja mõistetevahelised suhted ning milles eelisterminitele võivad olla lisatud sünonüümid. Andmekirjelduses kasutatav ärisõnastik on tesaurus, milles on esitatud mõistetevahelised seosed. Andmesõnastik seevastu on termininimekiri. Lisaks on vajalik kommenteerida standardi ISO/IEC 11179-1:2015 järgimist.23 Tegemist on metaandmeid ja nende mudeleid käsitleva IT-alase standardiga. Enamik teisi metaandmestandardeid osutab selle le ja kasutab selle terminoloogiat. Käesoleva juhise kontekstis on see standard aga üsna abstraktne. Oleme loobunud andmeelemendi käsitluse rangest järgimisest ISO/IEC 11 179 põhjal. Selles standardis on esitatud ühest kü ljest väga

19 SKOS (Simple Knowledge Organization System) on tesauruste, liigitusskeemide, märksõnastike, taksonoomiate jt teadmust organiseerivate vahendite süsteem kasutamiseks semantilises veebis. 20 EVS-ISO 15836-1:2019 Informatsioon ja dokumentatsioon. Dublin Core’i metaandmeelemendid. Osa 1: Põhielemendid 21 EVS-ISO 1087-1:2002 Terminoloogiatöö. Sõnastik. Osa 1: Teooria ja rakendus 22 Standard on Eesti standardiks ülevõtmisel. ISO 25964 -1:2011 Information and documentation — Thesauri and interoperability with other vocabularies — Part 1: Thesauri for information retrieval; ISO 25964- 2:2013 Information and documentation — Thesauri and interoperability with other vocabularies — Part 2: Interoperability with other vocabularies 23 ISO/IEC 11179-1:2015 Information technology — Metadata registries (MDR) — Part 1: Framework