50
defineerida kui ühte andmestikku (hitisregistri andmestik) või kui mitut erinevat andmestikku
(ehitise põhiandmete andmestik, järelevalve andmestik, energiamärgise andmestik jne).
Kirjeldatava andmestiku valimisel on oluline andmehalduri koostöö sisuvaldkonna
spetsialistidega, kelleks võivad olla andmeomanik, infosüsteemi /rakenduse peakasutaja või
töötajad, kes igapäevasel t seda tööks kasutavad . Andmestiku komponentide (andmebaasid,
tabelid, andmeelemendid) analüüsimisel tuleb konsulteerida ka tehniliste halduritega , näiteks
andmearhitekti, süsteemi või rakenduse administraatoriga.
Andmestiku piiritlemisel tuleks tähele panna järgmist.
• Kui andmestik on asutatud ametliku andmekoguna, on soovitav defineerida kogu
andmekogu ühe kirjeldatava andmestikuna. Kui andmete haldamiseks või
taaskasutuseks on vajalik ka väiksemate andmestike määratlemine, saab need hiljem
kirjeldada andmekogu alamand mestikena. Näiteks on paljud andmekogud (registrid)
põhimäärustes välja toonud alamregistrid, mida on sobilik ka kirjeldada ja hallata
alamandmestikena.
• Andmestik peab olema defineeritud piisavalt suurena, et selles sisalduvad andmed
oleksid terviklikud ja andmestikul kui tervikul oleks selge kasutuspotentsiaal. Üldjuhul
tähendab see, et asutuse ühe tegevuse , näiteks lubade andmi se, järelevalve, toetuse
määramise käigus saadud või tekkivad andmed peaksid sisalduma ühes kirjeldatavas
andmestikus, mitte olema pihustatud erinevate andmestike vahel. Näiteks ei ole mõistlik
ehitisregistri andmestiku piiritlemine nii, et selles ei sisaldu hoonele kasutusloa andmise
kuupäev.
• Andmestik peab olema piiritletud piisavalt väiksena, et andmete ja andmekirjelduste
haldamine oleks andmehaldurile jõukohane. Üldjuhul võiks ühes andmestikus sisalduda
omavahel tihedalt seotud tegevuste või teenuste käigus tekkivad andmed. Üks andmestik
– kui see ei ole selgepiiriline andmekogu – võiks katta ühe või paar organisatsiooni
protsessi või teenust . Näiteks on mõistlik defineerida andmestikuna „tolliandmed” või
„välismaalastele elamislubade andm ine”, aga mitte „riigieelarve andmed” või
„transpordiandmed“.
Peale (oluliste) andmestike kontseptuaalset määratlemist ja empiirilist kaardistamist on
vajalik detailsemalt analüüsida andmestiku tehnilisi komponente. Nendeks on andmebaasid,
andmebaaside osad ehk skeemid, andmetabelid, aga ka muud eraldi failidena tabelid ja
andmestikena hallatavad failid. Kõik need sisaldavad veel detailsemal tasandil andmeelemente.
Kaardistuse eesmärk on eristada olulisemad ja vähemolulised komponendid, mis võimaldab
edaspidi keskenduda ainult oluliste ja sisulist väärtust omavate andmete kirjeldamisele.
Näiteks on enam ikus infosüsteemides talletatud küllalt palju tehnilist tugiinfot, mis on
vajalik andmete turvalisuse ja terviklikkuse tagamiseks, kuid ei ole oluline andmehalduse
jaoksandmekirjelduse vaates. Samuti võib andmestikus eksisteerida mitu paralleelset esitust ,
nagu algne andmebaas ja selle põhjal loodud andmeait või andmeladu. Andmete kirjeldamise
ettevalmistamisel on tähtis aru saada erinevate tehniliste platvormide vahelistest seostest,
analüüsida andmete kattuvus t ja taaskasutuse töövooge ning seeläbi tagada, et
andmekirjeldusega on kaetud nii olulised andmed kui ka olulised platvormid /infosüsteemid.
Näiteks hoone põhiandmete kirjeldus on seotud nii ehitisregistri andmebaasi kui ka andmelao
sobivate elementidega.
Andmestiku komponentide kaardistamisel tuleks tähele panna järgmist:
51 • komponentide kaardistust on otstarbekas teha infosüsteemi tehnilise dokumentatsiooni, eelkõige andmemudeli või arhitektuuridokumentide põhjal; • andmekirjelduse mõttes vähemtähtsateks andmeteks võib üldjuhul lugeda süsteemi logi, andmebaasi kirjete loomise ja muutmise kuupäevi, failide räsisid ja muud tehnilist tugiinfot, mis ei ole otseselt seotud organisatsiooni põhiülesannete täitmise käigus andmete töötlemise, andmepõhise juhtimise või andmevahetuse eesmärkidega.
3.3 Andmekirjelduse sõnastike kaardistamine
Andmekirjelduse koostamise teiseks sammuks on kirjeldamisel kasutatavas sõnavaras kokku
leppimine
ehk
valdkonna-
ja
ärisõnastike
kaardistamine
ning
juba
olemasolevate
andmekirjelduste tuvastamine. Juhise sellesse versiooni on lisatud eraldi peatükk 2.3, mis
käsitleb mõisteid, termineid ja sõnastikke.
Andmekirjelduse üks peamiseid eesmärke on organisatsiooni andmetest ülevaate
omamine – millised andmed on olemas, kes ja miks neid kogub ning kus neid hoitakse. Sellist
ülevaadet suudab pakkuda üksnes kirjeldus, milles on läbivalt kasutatud ühtset sõnavara
(mõisted on tähistatud terminoloogiliselt ühtmoodi). Ühtne sõnavara kirjeldamisel ja
andmestikes aitab organisatsioonil ära kasutada andmehalduse kogu potentsiaali: tuvastada
ühelaadseid andmeid ja dubleerivat kogumist, kontrollida ja tagada andmete kvaliteeti jmt. Ühtse
sõnavara puudumisel on andmeotsing sarnane Google’i otsinguga, kus vajaliku info leidmiseks
tuleb tihti teostada mitu päringut erinevate märksõnadega ja erinevates keeltes ning ühe päringu
vastuses on omavahel mitteseotud tulemeid.
Olemasolevate sõnastike ja kirjelduste kaardistamine valmistab ette teadmusbaasi, mille
abil saab edasist kirjeldamist kiiremini ja efektiivsemalt teha, vältides vasturääkivusi kirjeldustes
ning hoides läbivalt ühtset sõnavara.
Sõnastike kaardistamisel on esimene ülesanne vaadata laiemalt, millised andmete sisuga
seotud sõnavara allikad on olemas. Leitud allikad võivad olla küllaltki erineva keerukuse ja
ülesehitusega,
alustades
õigusaktides
sisalduvatest
definitsioonidest
ja
lihtsatest
märksõnastikest
keerukamate
taksonoomiate
ja
ontoloogiateni.
Soovitame
esialgse
kaardistamise käigus mitte liialt mõelda sõnastiku tehnilise ülesehituse peale, vaid pigem lähtuda
sisulisest sobivusest. Olemasolevate rahvusvaheliste sõnastike ja ontoloogiate leidmiseks on nii
mitu üldist kataloogi kui ka avaliku sektori spetsiifikat kajastavaid sõnastikke ja ontoloogiad.
Parimal juhul on organisatsioonil juba olemas keskne ärisõnastik, mis on asjakohane ka
andmestiku kirjeldamiseks. Samuti on võimalik, et organisatsiooni mõne muu andmestiku
kirjeldamisel on sobivad sõnastikud juba kaardistatud ja kasutusele võetud. Andmestike
omanikud ja valdkonnaeksperdid võivad muude tegevuste käigus juba olla dokumenteerinud
sobivaid sõnastikke. Lisaks organisatsioonisiseste sõnastike kaardistamisele võib abi küsida ka
teistelt sama valdkonna organisatsioonidelt, kuna mitu valdkonda kasutab riiklikke või
rahvusvahelisi valdkonnasõnastikke (nt tervishoid, pangandus, looduskaitse).
Aeg, mis kulub eeltööle sõnastike ja sõnavaraga, hoitakse kokku hilisemal
andmekirjelduste koostamisel.
Sõnastike sobivuse hindamisel saab organisatsioon lähtuda alltoodud kriteeriumitest.
52 • Ulatus ja kaetus. Need näitavad, kui suur osa vajalikest terminitest sisaldub sõnastikus. Andmekirjelduse koostamine ja edasine haldamine on seda lihtsam, mida vähem on kasutusel erinevaid , halvimal juhul omavahel vasturääkivaid sõnastikke. Seega on mõistlik kasutada sõnastikke, mis võimalikult suures osas vastavad asutuse vajadustele. • Täpsus. Näitab, kui üldised või detailsed on sõnastiku terminid. Kuigi leitud sõnastik võib katta kogu andmestiku sisu, võivad terminid olla organisatsiooni andmete kirjeldamiseks kas liialt üldised või liiga täpsed. Näiteks võib sõnastikus olla välja toodud ainult mõist e „isik“, andmestikus on aga oluline eristada mõisteid „juriidiline isik“ ja „füüsiline isik“ või vastupidi. • Vastavus. Näitab, kui palju sarnaneb terminite kasutus sõnastikus õigusaktide ja/või organisatsiooni ja valdkonna ekspertide sõnavaraga. Soovitatav on kasutada sõnastikke, mis muude kriteeriumite võrdsuse korral pakuvad paremat vastavust. Näiteks on ehitusseaduses defineeritud olulised terminid „hoone“ ja „rajatis“ kui üksteist välistavad: „rajatis on ehitis , mis ei ole hoone“. Seega pole mõistlik ehitisregistri andmete kirjeldamisel kasutada hüpoteetilist sõnastikku, mis defineerib rajatise ja hoone kui samatähenduslikud mõisted või milles sellised mõisted üldse puuduvad. • Kasutatavus ja haldamine. Need näitavad, kui suur on sõnastiku aktiivsete kasutajate hulk ja kui aktiivselt sõnastikku ennast hallatakse. Üldiselt soovitata kse eelistada laiemalt kasutatavaid sõnastikke, mille puhul on selgelt paika pandud ka sõnastiku haldamise ja edasiarendamise põhimõtted. Praktikas leidub harva ühte kõikehõlmavat sõnastikku, mis kataks ära terve valdkonna eri tahud. Küll aga sisaldavad olemasolevad sõnastikud mitmeid mõisteid, mis on andmekirjelduse jaoks piisavalt detailselt kirjeldatud. Seetõttu on loomulik kombineerida erinevaid sõnastikke vastavalt vajadusele. Siiski tuleb lähtuda sellest, et sõnastiku koostamine, kui see haarab endasse mitmed erinevad sõnastike tüübid, nagu seletav sõnaraamatu, mitmekeelse sõnastiku, tesauruse jms ei muutu ks tööks iseeneses. Isegi valdk onna sõnavara korrastamine ehk terminitöö tuleb andmekirjelduste koostamisest eraldi hoida. Väljaspool organisatsiooni hallatava sõnastiku kasutamisel peaks organisatsioon eelkõige huvi tundma, kes on sõnastiku omanik ning kas ja millised protseduurid on paigas sõnastiku muutmiseks või täiendamiseks. Soovitatav on eelistada selliseid sõnastikke, mille omanik ja haldamise protseduurid on selgelt ja läbipaistvalt määrat letud. Juhul, kui organisatsioonil tekib vajadus lisada uusi termineid või täiendada olemasolevaid, peab olema võimalik võtta ühendust sõnastiku omanikuga ja algatada sõnastiku täiend amine või muutmine. Põhimõtteliselt on asutusel võimalik väline valdkondlik sõnastik üle võtta ja jätkata ise selle haldamist, et tagada kontroll sõnastiku edasise täiendamise ja muutmise üle. Kuna pikaajaline märksõnastiku haldamine on ajamahukas, on soovitatav paralleelsete sõnastike tekkimise vältimiseks teha seda valdkonna organisatsioonide koostöös. Viimase sammuna on soovitatav kaardistada sõnastike tehniline ülesehitus : millises vormingus on sõnastik loodud ning kas selle poole on võimalik automaatselt pöörduda ja liideste kaudu termineid alla laadida. Eelistada tuleks masinloetavat esitust (XML, OWL, erinevad RDF - formaadid) omavaid sõnastikke, kuivõrd neid on lihtsam taaskasutada ja teiste süsteemidega integreerida.
53
3.4 Andmekirjelduse mudeli ja arhitektuuri kavandamine
Andmekirjelduse
järgmiseks
tegevuseks
on
kirjelduse
kasutusjuhtude
analüüs,
andmekirjelduse funktsionaalse mudeli koostamine ja mudeliga sobiva tehnilise arhitektuuri
kavandamine.
Andmekirjelduse funktsionaalse mudeli eesmärk on kaardistada andmekirjelduse
kasutusjuhud ja kasutajad nii organisatsiooni sees kui ka väljas. Selle juures on oluline tähele
panna, et paljudel juhtudel ei räägita mitte andmekirjelduste kasutamisest, vaid metaandmete
kasutamisest, aga mõeldakse just kirjelduse metaandmete kasutamist. Sealjuures tuleks
kasutusjuhte vaadelda laiemalt, nii et oleksid kaasatud kõik olulised osapooled ja nende
vajadused, sealhulgas:
•
otsene andmekirjelduse koostamine ja sellega kokku puutuvad rollid (andmehaldur,
andmeomanik);
•
andmebaasiplatvormis
sisalduva
info
sünkroniseerimine
andmekirjeldustega
(andmearhitekt, andmebaasi administraator);
•
andmekirjelduse taaskasutus andmete esmases analüüsis, äriprotsesside (BI ehk
äriintelligentsi) modelleerimises ja automatiseerimises ning teiseses andmete analüüsis
üldistusteks, juhtimisotsusteks ja statistikaks (andmeomanik, andmeanalüütik);
•
andmekirjelduse kasutamine andmekvaliteedi reeglite loomisel (andmehalduse juht,
metaandmete analüütik);
•
regulaarsete raportite koostamine juhtimisotsusteks ja statistikaks (andmeanalüütik,
andmehaldur);
•
andmekirjelduste edastamine lõppkasutajatele läbi veebirakenduste ja –teenuste
(lõppkasutajad, teenuste ja rakenduste arendajad);
•
andmete
ja
andmekirjelduste
edastamine
välistele
süsteemidele
ja
teistele
organisatsioonidele (teiste organisatsioonide arendajad, andmehaldurid).
Lihtsamate kasutusjuhtude puhul, näiteks paarist MS Exceli tabelist koosnev külastajate
nimekiri, on peamiseks vajaduseks statistika edastamine juhtidele. Keerulisemal juhul võib aga
organisatsiooni andmekirjeldus katta mitmeid kompleksse struktuuriga riiklike andmekogusid
üle eri valdkondade ja sõnastike. Sel juhul on ka kasutusjuhtude ja kasutajate tuvastamine
keerukas ja aeganõudev. Eelmises lõigus toodud rollid on tinglikud ja lähtuvad osalt
andmehalduse raamistiku esimeses versioonis toodud võimalikest rollidest.
Andmekirjelduse tehnilise arhitektuuri ülesandeks on kirjeldada tark- ja riistvaraline
keskkond, mis suudab mudelis väljatoodud vajadusi piisavalt katta. Kordame üle: need mudelid
on valdkondlikult ning orienteerituselt erinevad. Üldise üleriikliku andmekirjelduse arhitektuur
annab ühest küljest ette mudelid ja nende semantika, millega peab arvestama. Teisest küljest
määravad just kasutajate ja valdkondade vajadused ära mudelid nii asutuse sees kui ka
valdkondlikult ning üleriigilised arendused peavad sellega arvestama.43
Ülaltoodud lihtsamal juhul on andmekirjelduse haldamine võimalik tavapäraste
tabelarvutuse vahenditega, näiteks Excel, OpenOffice ja LibreOffice Calc või Google Sheets.
Nendes luuakse tabelid andmekirjelduse standardis ja/või mudelis määratud iga olemi tüübi
jaoks. Näites on eraldi andmestiku ja andmeelementide kirjeldus ning andmesõnastik.
Keerukamatel juhtudel on andmekirjelduse tabelite koostamine ja nendevaheliste seoste
43 Sellise üldise ja valdkondliku paralleelse lähenemise näiteks on standardi DCAT areng ja selle valdkondlikud rakendusprofiilid ruumiandmetele (GeoDCAT) ja statistika andmetele (StatDCAT).
54 haldamine käsitsi ning kirjelduse kasutajatele edastamine liialt aeganõudev, mistõttu on vaja juurutada spetsiaalne andmekirjelduse töövahend.44 Sobivaima andmekirjelduse töövahendi leidmiseks tuleks organisatsioonil vastavalt funktsionaalses mudelis toodud vajadustele analüüsida: • milliste andmeallikatega, näiteks andmebaasimootoritega on andmekirjelduse töövahend võimeline automaatselt suhtlema; • millises vormingu sõnastikke ja kirjelduse osi ning kui lihtsalt on võimalik andmekirjelduse töövahendisse laadida; • kas andmekirjelduste koostamine on andmehaldurile või teistele kirjelduse loojatele mugav; • kas andmekirjelduse töövahend võimaldab andmekirjelduse standardi juurutamist; • kas ja millistes vormingutes , sh avatud vormingud, on andmekirjeldusi võimalik eksportida ning vajadusel välistele kasutajatele edastada (väliste andmekirjelduste kasutajatena on peetud silmas eelkõige teisi asutusi, kes seda oma töös vajavad , nagu Statistikaamet ja Rahvusarhiiv, ning infosüsteeme, nagu avaandmete portaal ja RIHA); • millises mahus on võimalik andmekataloogi tarkvara ja andmekirjelduse tegevusi integreerida asutuse muude andmehaldusetegevustega, näiteks andmekvaliteedi haldusega.
3.5 Andmekirjeldusega seotud rollide määramine Kui kirjeldatav andmestik ja olemasolevad sõnastikud on välja valitud, tuleb paika panna rollide täpne jaotus andmekirjelduse loomiseks, haldamiseks ja kasutamiseks pikemas vaates. Oluline on seejuures ka see, kas rollid on määratavad organisatsiooni tasandil või andmestiku tasandil. Praktikas on ärisõnastikul ja andmesõnastikul organisatsioonis sageli erinevad omanikud või vastutajad. Vajalik on nende omavaheline tihe koostöö sõnastike täiendamisel. Üldjuhul on neil erineva ulatusega juurdepääs andmetele ja muutmisõigused sõnastikele, milles nad ei ole andmeomaniku rollis. Praktikas sõltub õiguste haldamine oluliselt sõnastike haldamiseks kasutatavast andmekirjelduse töövahendist. Andmehalduse raamistiku esim ene versioon kirjeldab põhjalikult andmehalduse ga seotud rolle ja nende ülesan deid. Andmekirjeldusega seotud rollide jaotus on järgmine: andmehalduse juht (juhtkonna liige) – korraldab ärisõnastike ja mõistete mudeli loomist juhtimise aspektist,
44 Selliseks vahendiks on RIHAKE. Vt RIHAKEse lõppkasutaja kasutusjuhend. Ver 1.1.1. (17.01.2023) Selle etapi tulemusena on: • hinnatud andmekirjelduse täpset mahtu ja vajadust, • analüüsitud sobilikke andmekirjelduse töövahendeid ja kirjelduse vorminguid, • valitud välja sobivaim lahendus ning loodud vajalik kirjelduse mudel ja struktuur.
55 andmeomanik (sisuteenuse juht või infosüsteemi peakasutaja) – loob ja kirjeldab teenuste kasutatavad ärimõisted (ärisõnastik) ning nende seosed ärireeglitega organisatsiooni teistes infosüsteemides, andmehaldur (andmestike eest vastuta ja) – kirjeldab andmestikud ja andmeelemendid andmekirjelduse töövahendis vastavalt andmekirjelduse standardile. Need rollid võivad organisatsioonide praktikas olla koondatud ühte ametikohta või olla jaotatud asutuse ja selle IT-teenuse pakkuja vahel. Mistahes rollijaotuse puhul on oluline eristada vastutust ärisõnastiku ja andmesõnastiku eest ning kirjelduste koostamise eest ning määrata järelevalvet teostav rollandmekirjelduse kvaliteedi mõõdikute täitmis eks ning perioodilise ks uuendamiseks. Rollide ja vastutuste jaotus on otstarbekas kirjalikult fikseerida organisatsiooni andmehaldust korraldavas dokumendis. Need rollid tuleb juurutada andmekirjeldusi ja sõnastikke haldavates tarkvararakendustes juurdepääsu- ja kasutusõigustena.
3.6 Andmekirjelduse loomine ja täiendamine andmekirjelduse töövahendis 3.6.1 Üldist Käesolev juhise osa järgib suuresti juhise esimeses versioonis esitatut. Praegu juurutab mitu organisatsiooni RIHAKE -st või muud andmekirjelduse töövahendit . Selles peatükis esitatud lähenemine tervikkirjelduse osadele, eriti protsessile, on käsitletav eelkõige mudelina, mille iga organisatsioon juurutab lähtuvalt konkreetsest töövahendist, oma töökorraldusest, vajadusest ning rakendamise ulatusest. Rollide jaotus protsessides võimaldab samaaegseid tegevusi. Näiteks saab andmehaldur töötada iseseisvalt andmeelementide kirjeldusega, lisades üksikutele elementidele pikemaid selgitusi. Valdkonnaekspert (andmeomanik) saab samaaegselt tegeleda andmestikule kohaste valdkonna märksõnastike valiku ja/või ärisõnastike loomisega ning täiendada andmestiku kirjeldust. Andmehalduril on võimalik andmeelementide kirjeldustele lisada viiteid sõnastike terminitele ja teha ettepanekuid ärisõnastiku täiendamiseks uute andmete tähendust selgitavate terminitega. Joonisel 26 on andmekirjelduse koostamise ja täiendamise protsess esitatud töövoona , milles eri rollides olevad isikud täidavad kindlaid ülesandeid. Protsesse kavandades on oluline vaadata kogu tegevust kahe etapina.
- kui kirjeldusi ja sõnastikke ei ole , tuleb ette võtta nii süsteemi loomine kui ka esialge suurem kirjeldamise töö;
- ja esialgset tööd on vaja parendada ning sisse viia toimunud muudatused.
56
Joonis 26. Andmekirjelduse koostamine ja täiendamine (protsess) Andmekirjelduse haldamine, parendamine ja erinevate komponentide vahel seoste loomine on seega pidev töö, mida tehakse erinevate rollide koostöös.
3.6.2 Ärisõnastiku loomine ja andmekirjelduse töövahendiga sidumine Eeldus: ärisõnastiku loojal on hea ülevaade valdkonna terminoloogiast, sh teistest seonduvatest ärisõnastikest, valdkonna sõnastikest ning õigusaktides ja infosüsteemides kasutatavast sõnavarast. Organisatsiooni andmehalduse tegevusi toetava andmesõnastiku aluseks on läbivalt ühtlase sõnavara kasutamine, ühtlase sõnavara aluseks omakorda on kvaliteetne ärisõnastik. Reeglina peaks ärisõnastik olema loodud juba enne andmekirjelduse koostamist. Samas pole ärisõnastiku puudumine andmete kirjeldamise alustamisel takistuseks, see on võimalik luua andmekirjelduse koostamise käigus. Ärisõnastiku koostamisel on soovitatav meeles pidada mõningaid lihtsaid põhimõtteid. • Sõnastik peab olema piisav. Sõnastik peab sisaldama piisavalt termineid, mis katavad kõik asutuse olulised ärimõisted. Kõige olulisem on nende mõistete täpne defineerimine, mille kohta käivaid andmeid on vaja ristkasutada asutusesiseses või organisatsioonidevahelises andmevahetuses.