AH_juhis_andmekirjeldus_v2.0.pdf

Type: Document | Status: ready

17 tehnoloogiline lähenemine , kus andmeeleme nt seotakse mõiste ja väärtusdomeeniga ning
andmeelemendi mõiste omakorda objekti klassi ja atribuutidega , mis esitatakse objekt- orienteeritud või olemi -suhte mudelites . Samas on ISO/IEC 111 79 aluseks paljudele andmekirjelduse mudelitele, sh näiteks statistikas, kus sellel baseerub muutuja kaskaad. ISO/IEC 11179 käsitluse täielikkus ja täpsus on sageli vajalikud andmetöötluses ja andmeteenustes, kuid selle mudeli keerukus ja standardi maht ei anna kasutajale, kes lähtub loomulikust või erialakeelest lähtuvale kasutajale sedavõrd palju, et mudeli range järgimine oleks möödapääsmatu. Soovitame seda standardit kasutada eelkõige oma metaandmete mudel i mõistmise taustateadmisena. Andmekirjelduse koostamise metoodika areneb praktika käigus. Silmas tuleb pidada sedagi, et eri valdkondade andmestike detailsemaks kirjeldamiseks võib vaja olla juurutada valdkondlikke standardeid. Samuti arvestame rahvusvaheliste arengutega eriti avaandmete portaalide vallas24 ning sellega, mis üleeuroopaliselt on toimumas andmeruumide arengutes.25

24 Euroopa andmete ametlik portaal (The official portal for European data) [26.07.2023] 25 European Strategy for Data. A coomon Europen dat space, a single maret for data . [26.07.2023]

18 2 Andmekirjelduse põhimõtted 2.1 Andmekirjelduse ja metaandmete mõiste 2.1.1 Andmekirjeldus Eri valdkondades ja kontekstides tähendavad andmed erinevaid asju. Arvutisse salvestatud andmetest aru saamiseks tuleb neid vääriti mõistmise vältimiseks alati tõlgendada nende konteksti ja eesmärgi kaudu. Ja andmed pole ainult n -ö arvutis! Andmetele kirjelduse lisamine loob vajaliku konteksti, et saaksime andmeid mõista tähendust omava informatsioonina. Andmed saavad inimese jaoks tähenduse metaandmete kaudu. Andmevahetuses arvutite vahel veebis kasutatakse semantilise veebi tehnoloogiaid, mis edastavad koos andmetega metaandmeid ja muudavad andmed arusaadavamaks. Näiteks mõiste „pind“ tähistab erinevaid objekte ehitisregistris, põllumaade või metsamassiivide registrites. Metaandmed kirjeldavad igas registris neid andmeid, mida selles objekti „pind“ kohta kogutakse. Andmekirjelduse kaudu oska vad nii inimesed kui infosüsteemid kasutada andmeobjekti „pind“ õigesti, arvestades selle konkreetse tähendusega.

MÕISTE Andmekirjeldus on komplekt metaandmeid andmete hulga kohta, milles eri ulatuse ja struktuuriga andme te kohta (andmeobjekt, andmestik, fail)
koostatakse terviku ja selle kindlaks määratud osade kirjel dus. Kirjeldatava metaandmete komplekti üksikuid osi nimetatakse kirjelduselementideks ning nendevaheliste seoste kaudu esitatakse kirjeldatava objekti tähendust väljendavat informatsiooni. Andmekirjeldus koostatakse ja seda hallatakse erinevate andmehulkade kohta, mis võivad olla oma ülesehituselt kitsamad või ulatuslikumad, struktuurilt lihtsamad või keerulisema d jne. Lühidalt, erisuguseid andmeid on vaja kirjeldada erinevalt. Seetõttu on oluline täpsustada, millist tüüpi andmete kirjeldamist selles dokumendis käsitletakse.
Andmekirjelduse põhiobjektid on andmestik ja andmeelement. Andmestiku kohta tehakse ülevaatlik kirjeldus ja kokkulepitud detailsusega kirjeldus. Andmestik on sageli fail või andmebaas, aga samas võib hulk faile moodustada ühe andmestiku ja failis olla mitu
andmestikku. Andmekirjelduse koostamise ja haldamise tervikmudeli ja sellega kaasnevate protsesside kindlaks määramine on andmehalduses üks otsustava tähtsusega tegevustest. Andmekirjelduse objektide kohasest käsitlusest sõltub, kuivõrd ratsionaalne ja ka sutatav andmekirjeldus on. Järgnevates osades on mitme andmekirjelduse osa kohta esitatud täpsem selgitus, kuid üldpõhimõte on, et koostatav andmekirjeldus on hierarhiline. Hierarhilisele
kirjeldusele on üldiseloomulik, et eri kirjeldustasanditel koostatav tervikkirjeldus, mis kokkuvõttes loob selguse andmete tähendusest ja kontekstist. Nii andmestiku kui ka andmeelemendi kohta tehakse detailne kirjeldus, aga see detailsus on erineva sisuga. Lisaks n-ö põhiobjektidele kasutatakse kirjelduses veel muid enti teete. Andmestiku ja andmeelemendi vahele jääb miski, mida võib nimetada andmestruktuuriks, andmeobjektiks jne ning mille mõistmine on samuti andmekirjelduse koostamise eesmärk. Kõige lihtsamnäide on tabel relatsioonilises andmebaasis. Teiseks näiteks on s õnastikud, milles andmete kohta käivad

19 mõisted on sisuliselt ja terminoloogiliselt ühtlustatud ning moodustuda võib mõistete süsteem või kasutatakse mõisteid kirjeldamisel märksõnastikuna. Praktikas on vaja andmekirjeldus koostada kas infosüsteemi ja selle osaks oleva andmebaasi kohta või mingi faili kohta, mis on andmekandjale teiseseks kasutamiseks salvestatud. Esimene on näiteks riigi infosüsteemi kuuluv andmekogu. Pea kõik avaliku sektori andmekogud on füüsilise andmemudeli vaates relatsioonilised andmebaasid. Relatsioonilises andmebaasis kirjeldataksegi nendes olevaid tabeleid ja tabelite veerge. Tabeli veer ule vastab siinses dokumendis andmeelement, aga seda veergu nimetatakse ka näitek s tunnuseks, atribuudiks või muutujaks. Teine olulisem näide on andmete publitseerimiseks tehtud andmekataloog. Kuigi sellistes kataloogides võib olla ka viide näiteks andmeteenuse otspunktile, kirjeldatakse neis pea alati faile. Need failid on kirjeldatud andmestiku tasandil ehk tervikuna, avamata faili sisemist struktuuri ega sisu. Sellised on näiteks avaandmete portaalid. Praktikas tekitab selline kahetisus – kirjelduste üldisus või üksikasjalisus – vajaduse otsustada, kus lähevad piirid. See, mida täpsemalt kirjeldada ja halduse alla võtta, sõltub paljuski konkreetsetest juhtudest. Üldistatult võib andmekirjelduse koostamist andmete kohta, mis on kas fail või andmebaas, kujutada, nagu on esitatud joonisel 6.

Joonis 6. Andmekirjelduse seos andmetega Andmekirjeldus tehakse sellise andmete kogumi kohta, mis halduse alla võetakse. See on üldjoontes vähemalt kahetasandilise hierarhiaga: esmalt koostatakse andmestiku ülevaatlik kirjeldus ja teiseks koostatakse andmestiku detailne kirjeldus. Ülevaatlikest kirjeldustest moodustub andmestike nimekiri ehk andmekataloog. Oluline ongi andmekirjel duse koostamise juures läbi mõelda, mis on konkreetsel juhul andmestikud ja kas neid saab organiseerida ühetasandilisse nimekirja (kataloogi) või on tarvis mitmetasandili st kataloogi. Samuti vajab läbi mõtlemist, millisel andmeobjektide detailsustasemel detailne kirjeldus teha. Tuleb arvestada, et andmekirjelduse koostamine ja selle hilisem haldamine on ajamahukas töö ning läbi mõelda, kes on andmekirjelduse kasutajad. Detailse kirjelduse osas on lisaks andmeelemendi kirjeldamisele oluline andmestruktuur. Teiste sõnadega me nimetame seda struktuuri andmeobjektiks. Näiteks

20 aadress või isik on sellised lihtsad struktuurid, aga andmeobjektid võivad olla palju keerulisema andmekoosseisuga ja seega ka struktuuriga. Relatsiooniliste andmebaaside andmekirjeldus, saab baseeruda andmemudelil, millel võib olla füüsiline, loogiline või kontseptuaalne vaade andmetele. Andmebaasid luuakse andmeid modelleerides. Andmebaaside, andmemudelite ja laiemalt andmestruktuuride mõistmine hõlbustab andmekirjelduse koostamist. Andmebaaside teemade tundmine hõlbustab andmekirjelduste koostamist ja andmete mõistmist ja on osaliselt eduks vältimatu.

2.1.2 Metaandmed Kõige levinum metaandmete definitsioon on „andmed andmete kohta“, aga määratlusi on palju, nagu on ka erinevaid metaandmete sisemisi liigendamisi. Siin on toodud ära kaks määratlust ja need osutavad, et üldiselt mõeldakse metaandmetest IT-s ja infohalduses ühtmoodi.

MÕISTE Metaandmed on andmed andmete kohta. Metaandmed on andmed, mis määratlevad ja kirjeldavad teisi andmeid (ISO/IEC 11179-1) Metaandmetest saame vastused tüüpilistele küsimustele andmete kohta: kes, mida, millal, kus ja miks? Metaandmete kaudu avaldub andmete väärtus varana. Allpool on mõned küsimused, millele metaandmed vastuseid pakuvad. • Mis andmed on meil olemas, mille kohta? • Kust need andmed pärinevad, st millised on andmeallikad? • Kus andmed asuvad: millistes andmebaasides, failidena jagatud ketastel jms? • Kas andmed on ajakohased ja täielikud ning millised on teised andmekvaliteedi kriteeriumid? • Kuidas on andmed muutunud nende kogumisest alates ning millist töötlust – nii transformatsioone kui ümberstruktureerimist – on rakendatud? • Kellel on õigus andmeid kasutada ja kuidas? • Kas tegemist on konfidentsiaalsust nõudvate või avalikustamist vajavate andmetega? • Millised riskid on seotud andmete kasutamisega? Metaandmed on nagu lisandväärtust pakkuv keel, mis peale nimetamise ja liigitamise toimib infosüsteeme ühendava kihina. Metaandmed võimaldavad andmete, tööprotsesside ja teenuste koostoimet sellistes olukordades, nagu andmete sisestamine, otsimine, arvutused ja muul viisil kasutamine nii inimeste kui masina poolt. Andmemudelid, andmeteenused, andmekvaliteet, andmete avaldamine ja andmete elukäigu haldus kasutavad kõik metaandmeid.
Metaandmed jagatakse sageli kolme suurde rühma. Need on: • kirjelduse metaandmed, • administratiivsed metaandmed, • struktuursed metaandmed.26 Esitatud jaotus pärineb USA Riikliku Informatsiooni Standardite Organisatsiooni (NISO) väljaandest. Mõistagi ei ole selline jaotamine ainuke olemasolev. Sellises metaandmete

26 Riley. J. Understanding Metadata: What is Metadata, and What is it For?: A Primer (NISO, 2017)

21 kolmeses jaotuses on suurematel rühmadel oma kindel eesmärk ja alajaotused; mõnel juhul, nagu näiteks kirjelduse metaandmed, võib kasutusel olla eraldi kirjeldusstandard. Eesmärgid on järgmised: • Kirjelduse metaandmed on osa, mis võimaldab inforessurssi, st ka andmestikke, üles leida ja neid mõista.
• Administratiivsed metaandmed on suuresti need, millega inforessursi kasutamist juhitakse ehk hallatakse, ja neil on kolm osa:
o (1) õiguste metaandmed, mis käsitlevad inforessursi autori- ja omandiõigust ning juurdepääsuõigusi ja -piiranguid;
o (2) säilitamise metaandmed, millega luuakse inforessursi pikaajaliseks säilitamiseks vajalik metaandmete osa, ning
o (3) tehnilised metaandmed, mis on üldjoontes vajalikud andmetöötluseks.
• Kolmandaks on struktuursed metaandmed, mis näitavad inforessursi osade omavahelisi seoseid. Selle juhise kontekstis on need näiteks andmebaasi tabelite, veergude, kirjete ja andmeelementide seosed. Aga need võivad olla ka seosed lehekülgede, veebilehtede ja nende osade ja muude inforessursside osade vahel. Praktikas on need kolm jaotust küllaltki läbi põimunud, näiteks võib „andmete vorming“ või „õigused“ olla kasutusel nii andmete leidmisel (filtreerimisel) kui ka haldamisel. See tähendab, et need on ühtaegu nii kirjelduse kui ka administratiivsed metaandmed. Seetõttu ei ole ka Eesti andmekirjelduse standardis metaandmete rühmi eraldi esitatud, vaid selle sisu katab kõigist kolmest rühmast kõige olulisemat. Joonisel 7 on esitatud paar selle dokumendi kontekstis olulisemat vaadet metaandmete jaotamise ja rühmitamise kohta. Lisaks on andmehalduses kui tervikus veel metaandmed andmete elukäigu ja andmete põlvnemise kohta ning paradata ehk andmetöötluse ja muude protsesside dokumenteerimisel tekkivad metaandmed. Sedavõrd ulatuslik vaade andmetele andmete kohta näitab, et metaandmeteta ei saa andmehaldust korraldada, kuid tegelemine metaandmetega ei tohi muutuda nii mahukaks tegevuseks, et selle raskuse all jäävad andmed ise tähelepanuta.

Joonis 7. Metaandmete rühmad

22 Metaandmete loomine ja haldamine peab olema järjepidev protsess, milleks tuleb asutuses kehtestada reeglid ja tööprotsessid. Selle osaks peaks olema ka andmete hindamine vaatenurga alt, mida üldse kogu andmete hulgast halduse alla võtta. Kui seda lihtsat ent olulist jaotamist tehtud ei ole – ja sageli olukord just selline on – võib jäädagi tohutu hulga andmete ja fail ide olemasolu lootusetult nentima. Ehkki andmekogude ja andmebaaside osas ei ole see probleem nii terav , siis väärtuslikke andmeid sisaldavate failide osas püsib halduse alla võtmine ja kirjledamine seni praktiliselt lahenduseta. Kvaliteetne andmekirjeldus ehk kvaliteetsed metaandmed parandavad oluliselt ülevaate
saamist andmetest ja andmestikest. Seejuures tuleb silmas pidada, et rohkem või vähem süsteemne metaandmete haldus on võimalik ainult infosüsteemides. Peaasjalikult metaandmetega tegelevaid infosüsteeme ja rakendusi on mitmeid. Selleks võib olla eraldi andmebaas, kus metaandmete loomine toimub sageli pool - või täisautomaatselt. Eri tüüpi ja taseme metaandmeid võib hallata nii eraldi kui ka koos. Üldisel , andmestike kirjelduse tasemel tuleb kirjeldused omakorda organiseerida või kuvada näiteks kas lihtsalt nimekirjana või mitmekülgsema funktsionaalsusega andmekataloogina. Samas nimetatakse andmekataloogiks ka täpselt füüsilisele andmemudelile üles ehitatud kirjeldust ehk andmesõnastikku. Metaandmete haldus hõlmab reeglite kehtestamist ja tööprotsesside rakendamist, et kogu organisatsioonil oleks võimalik metaandmeid kasutada, jagada, linkida, analüüsida ja töödelda. Täpsed metaandmed ehk andmeelementide täpne kirjeldus , on vajalik nii sisuliseks kui tehniliseks andmete töötlemiseks. Lisaks andmeelemendi tasemele, mis kõige tavalisemas näites on tabeli veerg, on andmed kirjeldatud veel mitmel üldistatud või rühmitatud moel. Nendeks on andmete loogilised ja mõistelised mud elid ning andmestiku d (andmekogud jt inforessursid). Samuti võivad mõnel juhul olla kirjeldatud kõik andmeelemendi väärtused, mis on nimelt nii tehtud klassifikaatorite ja loendite korral. Üldistatult nimetatakse hallatavate metaandmete süsteemi m etaandmemudeliks. Selline metaandmemudel võib olla lihtsam või keerukam kirjeldusstandard või terviklik valdkonna andmeid hõlmav mudel. Paljudes valdkondades sellised mudelid ka on. Näiteks kõigil mäluasutuste tüüpidel – arhiivid, muuseumid, raamatukogud – on sellised metaandmemudelid olemas ja igapäevaselt juurutatud. Koos metaandmete haldusprotsessidega võib metaandmemudelit nimetada metaandmete raamistikuks või ka metamudeliks.27

MÕISTE Metaandmemudel on andmed mudel, mis seletab lahti konkreetselt juurutatud metaandmed või mingi valdkonna standardi metaandmete kasutamise kohta.
Metamudel on andmemudel, mis seletab lahti ühe või mitu mudelit. Nendeks võivad olla andmemudelid, protsessimudelid, ontoloogiad jne. (ISO/IEC 11179-1) Metaandmemudeli toimimine on seotud andmearhitektuuriga, sest viimane vaatab andmeid nii nende toimimises (töötluses) kui ka mudelites (füüsiline, loogiline ja kontseptuaalne andmemudel).

27 Metaandmete raamistiku kohta on üldiseks standardiks ISO /IEC 11179 -1:2015 Information technology — Metadata registries (MDR) — Part 1: Framework

23 Üheks metaandmete ülesandeks on anda kasutajatele teada, mis tüüpi andmetega on tegemist. Siin ei ole silmas peetud mitte andmete tehnilist tüüpi ehk andmevormingut, vaid andmete kasutamisest või sisust tulenevat tüüpi . Seda võib nimetada ka laadiks või liigiks. Näiteks isikuandmete osas on selliseks tüübiks eraldi kategooria „eriliigilised isikuandmed“, mille töötlemisele rakenduvad erireeglid . Need kategooriad toimivad infosüsteemides kui metaandmed, olles seotud sageli ka ärireeglitega . Sellisteks on ka muid piiranguid sisaldavad andmed, nagu näiteks ärisaladust sisaldav ad andmed, konfidentsiaalsed andmed jms. Andmetele omistatakse siin kirjeldatud kategooriad metaandmetena. Õiguses nimetatakse seda kas avalikuks või piiratud juurdepääsuga teabeks. Juurdepääsupiiranguid hallatakse omakorda metaandmetena. Juhime veel tähelepanu sellele, et andmed ja metaandmed võivad olla olenevalt kontekstist nii ühed kui teised. Parimaks näiteks on dokumendiregistrid, mis sisaldavad andmeid asutuse dokumentide kohta ehk m etaandmed, aga neid võib käsitleda ka kui just selle infosüsteemi andmeid. Metaandmed on erakordselt oluli sed, kui andmestik või an dmekirje on määratud põhiandmeteks.28 Selliseid andmeid peab metaandmetega juhtima ja nende kohta tehtud andmekirjeldus peab seda toetama. Riigi andmekogude osas ongi eesmärk määrata täpsemalt, millised andmed on põhiandmed, suunata teised kasutajad just nende andmete juurde ning selle kaudu vähendada andmete kogumise dubleerimist. Selle eesmärgi täitmisel on oluline kogu metaandmemudel, sealhulgas ka andmekirjeldus. Lisaks neile rühmadele on oluline veel paradata käsitlus. Selle kohta, mida paradataks peetakse, on erinevaid lähenemisi. Ühest küljest on paradata lähedane protsessimetaandmetele. Paradata termin on kasutusel pigem uurimusliku andmetöötluse juures. F. Kre uter määratleb paradata kui andmed, mis hõlmatakse küsitluste või loenduste andmetöötluse käigus.29 Paradata on metaandmed, mida võib hõlmata uurimistöö igas etapis. Sellisena on paradata käsitlus küllalt lähedane metaandmetele toetuvale uuringu elukäigu haldamise käsitlusele, mida toetab näiteks DDI Life-Cycle.30 Andmete kohta käivate metaandmete, st andmekirjelduse haldus peab olema korraldatud ja järjepidev, et tagada andmete usaldusväärsuse püsimine ja põlvnemise tuvastatavus ( data lineage). Käesolev juhis ei käsitle andmete põlvnemise haldamise teemat põhjalikult, kuid nii
andmetöötluses laiemalt kui ka andmeteaduses kitsamalt on andmete põlvnemise ga seotud
metaandmete haldusel oluline koht. See on üks vaade andmete elukäigu haldusele.31

2.2 Andmed ja andmestikud 2.2.1 Andmed Andmed, informatsioon ja teave on omavahel seotud mõisted, samas pole ükski nendest mõistetest ise üheselt määratletav. Kõige lihtsam on terminiga „teave“, mis on üldiselt lihtsalt eestikeelne omatermin informatsiooni sünonüümina.

28 Juhis ei käsitle põhiandmete õiguslikku temaatikat ja pra ktikat Eesti andmekogudes. Siin on osutatud põhiandmetele kui master data’le ehk sellistele andmetele, mille tähendus on nii selge ja usaldusväärsus nii suur, et neid saab kasutada alusandmetena teistes toimingutes. 29 Kreuter. F. Improving Surveys with Paradata: Analytic Uses of Process Information (Wiley, 2013) lk 3. 30 DDI Lifecycle (3.3) Documentation 31 Data Lineage (Technopedia)

24 Termineid „informatsioon“ ja „andmed“ kasutatakse üliharva rangelt üksteisest eristatavate mõistetena. Andmete ja informatsiooni ranget eristamist tehakse infotehnoloogias ja ka seal ainult siis, kui soovitakse insenerliku täpsusega käsitleda info - ja andmetöötlust. Selle infotehnoloogilise määratluse kohaselt on andmed midagi, mis on masinloetav (masin on arvuti).

Joonis 8. Andmete ja informatsiooni käsitlus EVS-ISO/IEC 2382-1:1998 (01.01.02) põhjal Rahvusvaheline standard EVS -ISO/IEC 2382 -1:1998 „Infotehnoloogia. Sõnastik. Osa 1: Põhiterminid“ esitab andmete määratluse. Andmete kohta on väga palju määratlusi ja termin on mitmetähenduslik. Ühte tähendust terminile „andmed“ anda ei ole võimalik ega eesmärgipärane. Eesti kehtivas õiguses andmete legaaldefinitsiooni ei ole, kuid on määratletud mitmed andmete kitsamad kategooriad, nagu isikuandmed, avaandmed, ruumiandmed. Termin on kasutusel veel mitmes tähenduses, näiteks andmekogu üldandmed, põhiandmed, üksikandmed jne. Järgnevalt on esitatud kolm väga erinevat mõiste määratlust.

MÕISTE (1) Andmed on informatsiooni (teabe) taastõlgendatav esitus formaliseeritud kujul, mis sobib edastuseks, tõlgenduseks või töötluseks. (EVS-ISO/IEC 2382- 1:1998) (2) Andmed on isikuandmed „Isikuandmete kaitse seaduse“ tähenduses või muud andmed, mida töödeldakse andmekogus riigi, kohaliku omavalitsuse või avalikke ülesandeid täitva eraõigusliku isiku ülesannete täitmiseks.
(Vabariigi Valitsuse määrus „Riigi infosüsteemi haldussüsteem“) 32 (3) Sihipäraselt kogutud või iseeneslikult kogunenud teave, mida kasutatakse statistiliste järelduste tegemiseks. (Statistikaleksikon) 33

32.Riigi infosüsteemi haldussüsteem. Vabariigi Valitsuse 28.02.2008 määrus nr 58. RT I 2008, 12, 84 , 4.
33.E-M- Tiit, L-M. Tooding. (2019). Statistikaleksikon. Tartu Ülikooli Kirjastus, lk 19.