AH_juhis_andmekirjeldus_v2.0.pdf

Type: Document | Status: ready

50 defineerida kui ühte andmestikku (hitisregistri andmestik) või kui mitut erinevat andmestikku (ehitise põhiandmete andmestik, järelevalve andmestik, energiamärgise andmestik jne). Kirjeldatava andmestiku valimisel on oluline andmehalduri koostöö sisuvaldkonna spetsialistidega, kelleks võivad olla andmeomanik, infosüsteemi /rakenduse peakasutaja või töötajad, kes igapäevasel t seda tööks kasutavad . Andmestiku komponentide (andmebaasid, tabelid, andmeelemendid) analüüsimisel tuleb konsulteerida ka tehniliste halduritega , näiteks andmearhitekti, süsteemi või rakenduse administraatoriga. Andmestiku piiritlemisel tuleks tähele panna järgmist. • Kui andmestik on asutatud ametliku andmekoguna, on soovitav defineerida kogu andmekogu ühe kirjeldatava andmestikuna. Kui andmete haldamiseks või taaskasutuseks on vajalik ka väiksemate andmestike määratlemine, saab need hiljem kirjeldada andmekogu alamand mestikena. Näiteks on paljud andmekogud (registrid) põhimäärustes välja toonud alamregistrid, mida on sobilik ka kirjeldada ja hallata alamandmestikena. • Andmestik peab olema defineeritud piisavalt suurena, et selles sisalduvad andmed oleksid terviklikud ja andmestikul kui tervikul oleks selge kasutuspotentsiaal. Üldjuhul tähendab see, et asutuse ühe tegevuse , näiteks lubade andmi se, järelevalve, toetuse määramise käigus saadud või tekkivad andmed peaksid sisalduma ühes kirjeldatavas andmestikus, mitte olema pihustatud erinevate andmestike vahel. Näiteks ei ole mõistlik ehitisregistri andmestiku piiritlemine nii, et selles ei sisaldu hoonele kasutusloa andmise kuupäev. • Andmestik peab olema piiritletud piisavalt väiksena, et andmete ja andmekirjelduste haldamine oleks andmehaldurile jõukohane. Üldjuhul võiks ühes andmestikus sisalduda omavahel tihedalt seotud tegevuste või teenuste käigus tekkivad andmed. Üks andmestik – kui see ei ole selgepiiriline andmekogu – võiks katta ühe või paar organisatsiooni protsessi või teenust . Näiteks on mõistlik defineerida andmestikuna „tolliandmed” või „välismaalastele elamislubade andm ine”, aga mitte „riigieelarve andmed” või „transpordiandmed“.
Peale (oluliste) andmestike kontseptuaalset määratlemist ja empiirilist kaardistamist on vajalik detailsemalt analüüsida andmestiku tehnilisi komponente. Nendeks on andmebaasid, andmebaaside osad ehk skeemid, andmetabelid, aga ka muud eraldi failidena tabelid ja andmestikena hallatavad failid. Kõik need sisaldavad veel detailsemal tasandil andmeelemente. Kaardistuse eesmärk on eristada olulisemad ja vähemolulised komponendid, mis võimaldab edaspidi keskenduda ainult oluliste ja sisulist väärtust omavate andmete kirjeldamisele. Näiteks on enam ikus infosüsteemides talletatud küllalt palju tehnilist tugiinfot, mis on vajalik andmete turvalisuse ja terviklikkuse tagamiseks, kuid ei ole oluline andmehalduse
jaoksandmekirjelduse vaates. Samuti võib andmestikus eksisteerida mitu paralleelset esitust , nagu algne andmebaas ja selle põhjal loodud andmeait või andmeladu. Andmete kirjeldamise ettevalmistamisel on tähtis aru saada erinevate tehniliste platvormide vahelistest seostest, analüüsida andmete kattuvus t ja taaskasutuse töövooge ning seeläbi tagada, et andmekirjeldusega on kaetud nii olulised andmed kui ka olulised platvormid /infosüsteemid. Näiteks hoone põhiandmete kirjeldus on seotud nii ehitisregistri andmebaasi kui ka andmelao sobivate elementidega. Andmestiku komponentide kaardistamisel tuleks tähele panna järgmist:

51 • komponentide kaardistust on otstarbekas teha infosüsteemi tehnilise dokumentatsiooni, eelkõige andmemudeli või arhitektuuridokumentide põhjal; • andmekirjelduse mõttes vähemtähtsateks andmeteks võib üldjuhul lugeda süsteemi logi, andmebaasi kirjete loomise ja muutmise kuupäevi, failide räsisid ja muud tehnilist tugiinfot, mis ei ole otseselt seotud organisatsiooni põhiülesannete täitmise käigus andmete töötlemise, andmepõhise juhtimise või andmevahetuse eesmärkidega.

3.3 Andmekirjelduse sõnastike kaardistamine Andmekirjelduse koostamise teiseks sammuks on kirjeldamisel kasutatavas sõnavaras kokku leppimine ehk valdkonna- ja ärisõnastike kaardistamine ning juba olemasolevate andmekirjelduste tuvastamine. Juhise sellesse versiooni on lisatud eraldi peatükk 2.3, mis käsitleb mõisteid, termineid ja sõnastikke. Andmekirjelduse üks peamiseid eesmärke on organisatsiooni andmetest ülevaate omamine – millised andmed on olemas, kes ja miks neid kogub ning kus neid hoitakse. Sellist ülevaadet suudab pakkuda üksnes kirjeldus, milles on läbivalt kasutatud ühtset sõnavara (mõisted on tähistatud terminoloogiliselt ühtmoodi). Ühtne sõnavara kirjeldamisel ja andmestikes aitab organisatsioonil ära kasutada andmehalduse kogu potentsiaali: tuvastada ühelaadseid andmeid ja dubleerivat kogumist, kontrollida ja tagada andmete kvaliteeti jmt. Ühtse sõnavara puudumisel on andmeotsing sarnane Google’i otsinguga, kus vajaliku info leidmiseks tuleb tihti teostada mitu päringut erinevate märksõnadega ja erinevates keeltes ning ühe päringu vastuses on omavahel mitteseotud tulemeid. Olemasolevate sõnastike ja kirjelduste kaardistamine valmistab ette teadmusbaasi, mille abil saab edasist kirjeldamist kiiremini ja efektiivsemalt teha, vältides vasturääkivusi kirjeldustes ning hoides läbivalt ühtset sõnavara. Sõnastike kaardistamisel on esimene ülesanne vaadata laiemalt, millised andmete sisuga seotud sõnavara allikad on olemas. Leitud allikad võivad olla küllaltki erineva keerukuse ja ülesehitusega, alustades õigusaktides sisalduvatest definitsioonidest ja lihtsatest märksõnastikest keerukamate taksonoomiate ja ontoloogiateni. Soovitame esialgse kaardistamise käigus mitte liialt mõelda sõnastiku tehnilise ülesehituse peale, vaid pigem lähtuda sisulisest sobivusest. Olemasolevate rahvusvaheliste sõnastike ja ontoloogiate leidmiseks on nii mitu üldist kataloogi kui ka avaliku sektori spetsiifikat kajastavaid sõnastikke ja ontoloogiad. Parimal juhul on organisatsioonil juba olemas keskne ärisõnastik, mis on asjakohane ka andmestiku kirjeldamiseks. Samuti on võimalik, et organisatsiooni mõne muu andmestiku kirjeldamisel on sobivad sõnastikud juba kaardistatud ja kasutusele võetud. Andmestike omanikud ja valdkonnaeksperdid võivad muude tegevuste käigus juba olla dokumenteerinud sobivaid sõnastikke. Lisaks organisatsioonisiseste sõnastike kaardistamisele võib abi küsida ka teistelt sama valdkonna organisatsioonidelt, kuna mitu valdkonda kasutab riiklikke või rahvusvahelisi valdkonnasõnastikke (nt tervishoid, pangandus, looduskaitse).
Aeg, mis kulub eeltööle sõnastike ja sõnavaraga, hoitakse kokku hilisemal andmekirjelduste koostamisel. Sõnastike sobivuse hindamisel saab organisatsioon lähtuda alltoodud kriteeriumitest.

52 • Ulatus ja kaetus. Need näitavad, kui suur osa vajalikest terminitest sisaldub sõnastikus. Andmekirjelduse koostamine ja edasine haldamine on seda lihtsam, mida vähem on kasutusel erinevaid , halvimal juhul omavahel vasturääkivaid sõnastikke. Seega on mõistlik kasutada sõnastikke, mis võimalikult suures osas vastavad asutuse vajadustele. • Täpsus. Näitab, kui üldised või detailsed on sõnastiku terminid. Kuigi leitud sõnastik võib katta kogu andmestiku sisu, võivad terminid olla organisatsiooni andmete kirjeldamiseks kas liialt üldised või liiga täpsed. Näiteks võib sõnastikus olla välja toodud ainult mõist e „isik“, andmestikus on aga oluline eristada mõisteid „juriidiline isik“ ja „füüsiline isik“ või vastupidi. • Vastavus. Näitab, kui palju sarnaneb terminite kasutus sõnastikus õigusaktide ja/või organisatsiooni ja valdkonna ekspertide sõnavaraga. Soovitatav on kasutada sõnastikke, mis muude kriteeriumite võrdsuse korral pakuvad paremat vastavust. Näiteks on ehitusseaduses defineeritud olulised terminid „hoone“ ja „rajatis“ kui üksteist välistavad: „rajatis on ehitis , mis ei ole hoone“. Seega pole mõistlik ehitisregistri andmete kirjeldamisel kasutada hüpoteetilist sõnastikku, mis defineerib rajatise ja hoone kui samatähenduslikud mõisted või milles sellised mõisted üldse puuduvad. • Kasutatavus ja haldamine. Need näitavad, kui suur on sõnastiku aktiivsete kasutajate hulk ja kui aktiivselt sõnastikku ennast hallatakse. Üldiselt soovitata kse eelistada laiemalt kasutatavaid sõnastikke, mille puhul on selgelt paika pandud ka sõnastiku haldamise ja edasiarendamise põhimõtted. Praktikas leidub harva ühte kõikehõlmavat sõnastikku, mis kataks ära terve valdkonna eri tahud. Küll aga sisaldavad olemasolevad sõnastikud mitmeid mõisteid, mis on andmekirjelduse jaoks piisavalt detailselt kirjeldatud. Seetõttu on loomulik kombineerida erinevaid sõnastikke vastavalt vajadusele. Siiski tuleb lähtuda sellest, et sõnastiku koostamine, kui see haarab endasse mitmed erinevad sõnastike tüübid, nagu seletav sõnaraamatu, mitmekeelse sõnastiku, tesauruse jms ei muutu ks tööks iseeneses. Isegi valdk onna sõnavara korrastamine ehk terminitöö tuleb andmekirjelduste koostamisest eraldi hoida. Väljaspool organisatsiooni hallatava sõnastiku kasutamisel peaks organisatsioon eelkõige huvi tundma, kes on sõnastiku omanik ning kas ja millised protseduurid on paigas sõnastiku muutmiseks või täiendamiseks. Soovitatav on eelistada selliseid sõnastikke, mille omanik ja haldamise protseduurid on selgelt ja läbipaistvalt määrat letud. Juhul, kui organisatsioonil tekib vajadus lisada uusi termineid või täiendada olemasolevaid, peab olema võimalik võtta ühendust sõnastiku omanikuga ja algatada sõnastiku täiend amine või muutmine. Põhimõtteliselt on asutusel võimalik väline valdkondlik sõnastik üle võtta ja jätkata ise selle haldamist, et tagada kontroll sõnastiku edasise täiendamise ja muutmise üle. Kuna pikaajaline märksõnastiku haldamine on ajamahukas, on soovitatav paralleelsete sõnastike tekkimise vältimiseks teha seda valdkonna organisatsioonide koostöös. Viimase sammuna on soovitatav kaardistada sõnastike tehniline ülesehitus : millises vormingus on sõnastik loodud ning kas selle poole on võimalik automaatselt pöörduda ja liideste kaudu termineid alla laadida. Eelistada tuleks masinloetavat esitust (XML, OWL, erinevad RDF - formaadid) omavaid sõnastikke, kuivõrd neid on lihtsam taaskasutada ja teiste süsteemidega integreerida.

53 3.4 Andmekirjelduse mudeli ja arhitektuuri kavandamine Andmekirjelduse järgmiseks tegevuseks on kirjelduse kasutusjuhtude analüüs, andmekirjelduse funktsionaalse mudeli koostamine ja mudeliga sobiva tehnilise arhitektuuri kavandamine. Andmekirjelduse funktsionaalse mudeli eesmärk on kaardistada andmekirjelduse kasutusjuhud ja kasutajad nii organisatsiooni sees kui ka väljas. Selle juures on oluline tähele panna, et paljudel juhtudel ei räägita mitte andmekirjelduste kasutamisest, vaid metaandmete kasutamisest, aga mõeldakse just kirjelduse metaandmete kasutamist. Sealjuures tuleks kasutusjuhte vaadelda laiemalt, nii et oleksid kaasatud kõik olulised osapooled ja nende vajadused, sealhulgas:
• otsene andmekirjelduse koostamine ja sellega kokku puutuvad rollid (andmehaldur, andmeomanik); • andmebaasiplatvormis sisalduva info sünkroniseerimine andmekirjeldustega (andmearhitekt, andmebaasi administraator); • andmekirjelduse taaskasutus andmete esmases analüüsis, äriprotsesside (BI ehk äriintelligentsi) modelleerimises ja automatiseerimises ning teiseses andmete analüüsis üldistusteks, juhtimisotsusteks ja statistikaks (andmeomanik, andmeanalüütik); • andmekirjelduse kasutamine andmekvaliteedi reeglite loomisel (andmehalduse juht, metaandmete analüütik); • regulaarsete raportite koostamine juhtimisotsusteks ja statistikaks (andmeanalüütik, andmehaldur);
• andmekirjelduste edastamine lõppkasutajatele läbi veebirakenduste ja –teenuste (lõppkasutajad, teenuste ja rakenduste arendajad); • andmete ja andmekirjelduste edastamine välistele süsteemidele ja teistele organisatsioonidele (teiste organisatsioonide arendajad, andmehaldurid). Lihtsamate kasutusjuhtude puhul, näiteks paarist MS Exceli tabelist koosnev külastajate nimekiri, on peamiseks vajaduseks statistika edastamine juhtidele. Keerulisemal juhul võib aga organisatsiooni andmekirjeldus katta mitmeid kompleksse struktuuriga riiklike andmekogusid üle eri valdkondade ja sõnastike. Sel juhul on ka kasutusjuhtude ja kasutajate tuvastamine keerukas ja aeganõudev. Eelmises lõigus toodud rollid on tinglikud ja lähtuvad osalt andmehalduse raamistiku esimeses versioonis toodud võimalikest rollidest. Andmekirjelduse tehnilise arhitektuuri ülesandeks on kirjeldada tark- ja riistvaraline keskkond, mis suudab mudelis väljatoodud vajadusi piisavalt katta. Kordame üle: need mudelid on valdkondlikult ning orienteerituselt erinevad. Üldise üleriikliku andmekirjelduse arhitektuur annab ühest küljest ette mudelid ja nende semantika, millega peab arvestama. Teisest küljest määravad just kasutajate ja valdkondade vajadused ära mudelid nii asutuse sees kui ka valdkondlikult ning üleriigilised arendused peavad sellega arvestama.43
Ülaltoodud lihtsamal juhul on andmekirjelduse haldamine võimalik tavapäraste tabelarvutuse vahenditega, näiteks Excel, OpenOffice ja LibreOffice Calc või Google Sheets. Nendes luuakse tabelid andmekirjelduse standardis ja/või mudelis määratud iga olemi tüübi jaoks. Näites on eraldi andmestiku ja andmeelementide kirjeldus ning andmesõnastik. Keerukamatel juhtudel on andmekirjelduse tabelite koostamine ja nendevaheliste seoste

43 Sellise üldise ja valdkondliku paralleelse lähenemise näiteks on standardi DCAT areng ja selle valdkondlikud rakendusprofiilid ruumiandmetele (GeoDCAT) ja statistika andmetele (StatDCAT).

54 haldamine käsitsi ning kirjelduse kasutajatele edastamine liialt aeganõudev, mistõttu on vaja juurutada spetsiaalne andmekirjelduse töövahend.44 Sobivaima andmekirjelduse töövahendi leidmiseks tuleks organisatsioonil vastavalt funktsionaalses mudelis toodud vajadustele analüüsida: • milliste andmeallikatega, näiteks andmebaasimootoritega on andmekirjelduse töövahend võimeline automaatselt suhtlema; • millises vormingu sõnastikke ja kirjelduse osi ning kui lihtsalt on võimalik andmekirjelduse töövahendisse laadida; • kas andmekirjelduste koostamine on andmehaldurile või teistele kirjelduse loojatele mugav; • kas andmekirjelduse töövahend võimaldab andmekirjelduse standardi juurutamist; • kas ja millistes vormingutes , sh avatud vormingud, on andmekirjeldusi võimalik eksportida ning vajadusel välistele kasutajatele edastada (väliste andmekirjelduste kasutajatena on peetud silmas eelkõige teisi asutusi, kes seda oma töös vajavad , nagu Statistikaamet ja Rahvusarhiiv, ning infosüsteeme, nagu avaandmete portaal ja RIHA); • millises mahus on võimalik andmekataloogi tarkvara ja andmekirjelduse tegevusi integreerida asutuse muude andmehaldusetegevustega, näiteks andmekvaliteedi haldusega.

3.5 Andmekirjeldusega seotud rollide määramine Kui kirjeldatav andmestik ja olemasolevad sõnastikud on välja valitud, tuleb paika panna rollide täpne jaotus andmekirjelduse loomiseks, haldamiseks ja kasutamiseks pikemas vaates. Oluline on seejuures ka see, kas rollid on määratavad organisatsiooni tasandil või andmestiku tasandil. Praktikas on ärisõnastikul ja andmesõnastikul organisatsioonis sageli erinevad omanikud või vastutajad. Vajalik on nende omavaheline tihe koostöö sõnastike täiendamisel. Üldjuhul on neil erineva ulatusega juurdepääs andmetele ja muutmisõigused sõnastikele, milles nad ei ole andmeomaniku rollis. Praktikas sõltub õiguste haldamine oluliselt sõnastike haldamiseks kasutatavast andmekirjelduse töövahendist. Andmehalduse raamistiku esim ene versioon kirjeldab põhjalikult andmehalduse ga seotud rolle ja nende ülesan deid. Andmekirjeldusega seotud rollide jaotus on järgmine: andmehalduse juht (juhtkonna liige) – korraldab ärisõnastike ja mõistete mudeli loomist juhtimise aspektist,

44 Selliseks vahendiks on RIHAKE. Vt RIHAKEse lõppkasutaja kasutusjuhend. Ver 1.1.1. (17.01.2023) Selle etapi tulemusena on: • hinnatud andmekirjelduse täpset mahtu ja vajadust, • analüüsitud sobilikke andmekirjelduse töövahendeid ja kirjelduse vorminguid, • valitud välja sobivaim lahendus ning loodud vajalik kirjelduse mudel ja struktuur.

55 andmeomanik (sisuteenuse juht või infosüsteemi peakasutaja) – loob ja kirjeldab teenuste kasutatavad ärimõisted (ärisõnastik) ning nende seosed ärireeglitega organisatsiooni teistes infosüsteemides, andmehaldur (andmestike eest vastuta ja) – kirjeldab andmestikud ja andmeelemendid andmekirjelduse töövahendis vastavalt andmekirjelduse standardile. Need rollid võivad organisatsioonide praktikas olla koondatud ühte ametikohta või olla jaotatud asutuse ja selle IT-teenuse pakkuja vahel. Mistahes rollijaotuse puhul on oluline eristada vastutust ärisõnastiku ja andmesõnastiku eest ning kirjelduste koostamise eest ning määrata järelevalvet teostav rollandmekirjelduse kvaliteedi mõõdikute täitmis eks ning perioodilise ks uuendamiseks. Rollide ja vastutuste jaotus on otstarbekas kirjalikult fikseerida organisatsiooni andmehaldust korraldavas dokumendis. Need rollid tuleb juurutada andmekirjeldusi ja sõnastikke haldavates tarkvararakendustes juurdepääsu- ja kasutusõigustena.

3.6 Andmekirjelduse loomine ja täiendamine andmekirjelduse töövahendis 3.6.1 Üldist Käesolev juhise osa järgib suuresti juhise esimeses versioonis esitatut. Praegu juurutab mitu organisatsiooni RIHAKE -st või muud andmekirjelduse töövahendit . Selles peatükis esitatud lähenemine tervikkirjelduse osadele, eriti protsessile, on käsitletav eelkõige mudelina, mille iga organisatsioon juurutab lähtuvalt konkreetsest töövahendist, oma töökorraldusest, vajadusest ning rakendamise ulatusest. Rollide jaotus protsessides võimaldab samaaegseid tegevusi. Näiteks saab andmehaldur töötada iseseisvalt andmeelementide kirjeldusega, lisades üksikutele elementidele pikemaid selgitusi. Valdkonnaekspert (andmeomanik) saab samaaegselt tegeleda andmestikule kohaste valdkonna märksõnastike valiku ja/või ärisõnastike loomisega ning täiendada andmestiku kirjeldust. Andmehalduril on võimalik andmeelementide kirjeldustele lisada viiteid sõnastike terminitele ja teha ettepanekuid ärisõnastiku täiendamiseks uute andmete tähendust selgitavate terminitega. Joonisel 26 on andmekirjelduse koostamise ja täiendamise protsess esitatud töövoona , milles eri rollides olevad isikud täidavad kindlaid ülesandeid. Protsesse kavandades on oluline vaadata kogu tegevust kahe etapina.

  1. kui kirjeldusi ja sõnastikke ei ole , tuleb ette võtta nii süsteemi loomine kui ka esialge suurem kirjeldamise töö;
  2. ja esialgset tööd on vaja parendada ning sisse viia toimunud muudatused.

56

Joonis 26. Andmekirjelduse koostamine ja täiendamine (protsess) Andmekirjelduse haldamine, parendamine ja erinevate komponentide vahel seoste loomine on seega pidev töö, mida tehakse erinevate rollide koostöös.

3.6.2 Ärisõnastiku loomine ja andmekirjelduse töövahendiga sidumine Eeldus: ärisõnastiku loojal on hea ülevaade valdkonna terminoloogiast, sh teistest seonduvatest ärisõnastikest, valdkonna sõnastikest ning õigusaktides ja infosüsteemides kasutatavast sõnavarast. Organisatsiooni andmehalduse tegevusi toetava andmesõnastiku aluseks on läbivalt ühtlase sõnavara kasutamine, ühtlase sõnavara aluseks omakorda on kvaliteetne ärisõnastik. Reeglina peaks ärisõnastik olema loodud juba enne andmekirjelduse koostamist. Samas pole ärisõnastiku puudumine andmete kirjeldamise alustamisel takistuseks, see on võimalik luua andmekirjelduse koostamise käigus. Ärisõnastiku koostamisel on soovitatav meeles pidada mõningaid lihtsaid põhimõtteid. • Sõnastik peab olema piisav. Sõnastik peab sisaldama piisavalt termineid, mis katavad kõik asutuse olulised ärimõisted. Kõige olulisem on nende mõistete täpne defineerimine, mille kohta käivaid andmeid on vaja ristkasutada asutusesiseses või organisatsioonidevahelises andmevahetuses.