A N D M E H A L D U S E T E H N I L I N E D O K U M E N T Andmekvaliteedi haldus: kasutuslood ja funktsionaalsused Märts 2023
Versioon 0.2
2 Dokumendi ajalugu
ver muutuse sisu autor kuupäev 0.1 Funktsionaalsuse kirjeldus Annika Uibopuu 06.03.23 0.2 Kasutuslood ja rollid. Vormistamine Veiko Berendsen 13.03.23
3 Sisukord 1 Andmekvaliteedi haldusmudeli põhiobjektid. Rollid ja kasutuslood ..................... 4 1.1 Põhiobjektid ........................................................................................................................... 4 1.2 Rollid ja kasutuslood ............................................................................................................. 4 2 Funktsionaalsusnõuded (kasutuslugude kaupa) ................................................. 6 2.1 Kvaliteedimudeli seadistamine ............................................................................................. 6 2.2 Kvaliteedireeglite seadistamine ............................................................................................ 6 2.3 Kvaliteedireeglite sidumine andmestikuga ........................................................................... 9 2.4 Kvaliteedireeglite käivitamine andmestikul ........................................................................10 2.5 Mõõtmistulemuste salvestamine .......................................................................................11 2.6 Mõõtmistulemuste analüüs ................................................................................................12 2.7 Mõõtmistulemuste edastamine või avaldamine ................................................................13
4 1 Andmekvaliteedi haldusmudeli põhiobjektid. Rollid ja kasutuslood 1.1 Põhiobjektid Andmekvaliteedi haldusmudelil on neli peamist olemit. Need on: • Andmekvaliteedi haldusmudel, mis koosneb dimensioonidest ja nende all hierarhilislet olevatest indikaatoritest. • Andmekvaliteedi reeglid, mis on rühmitatavad reeglite grupiks • Andmestikud või nende osad. Mudel on mõeldus eelkõige relatsiooniliste andmebaaside või tabeli kujul andmeid hoidvate failide jaoks. Andmestike osadeks on selles kontekstis veel tabelid, read ja veerud. • Reeglite käivitamine, tulemuste salvestamine ja analüüsiks väljavõtte tegemine. See tagab, et mõõtmine oleks käivitatud, tulemused fikseeritud ning tulemustest on võimalik teha valik, mida igasse konkreetsesse analüüsi võetakse.
Joonis 1: Andmekvaliteedi haldusmudel Põhiobjektide olemeid või klasse ja atribuute käesolevas dokumendis ei esitata. 1.2 Rollid ja kasutuslood Andmekvaliteedi haldusmudel võib olla arendatud või juurutatud erinevates rakendustes. Üldiselt on võimalik eristada – nagu tavaliselt – administraatori rolle, erinevaid funktsionaalsuste kasutajarolle ning tavakasutaja rolli, kes on sisseloginud kasutaja.
5 Joonisel 2 on näidatud, millised on võimalikud rollid ja kasutuslood. Osalt on arvestatud RIHAKEse arendustega.
Joonis 2: Andmekvaliteedi haldamise rollid ja kasutuslood Kasutuslood ei ole hetkel lahti kirjutatud, mis on vajalik, kui seda funktsionaalsust hakata välja arendama. Järgmises peatükis on kasutuslood esitatud kui funktsionaalsusnõuded-
6 2 Funktsionaalsusnõuded (kasutuslugude kaupa) 2.1 Kvaliteedimudeli seadistamine
NR FUNKTSIONALSUSNÕUDE KIRJELDUS 1 peab saama luua kvaliteedimudeli; kvaliteedimudeli on kahetasandiline; tasandid on (1) dimensioonid, (2) indikaatorid 2 peab saama luua dimensiooni, määrata omaniku ja seadistada selle metaandmed 3 peab saama muuta dimensiooni 4 peab saama kustutada dimensiooni (millega ei ole seotud indikaatoreid) 5 peab saama luua indikaatoreid, määrata omaniku ja seadistada selle metaandmed 6 peab saama muuta indikaatoreid 7 peab saama kustutada indikaatoreid (millega ei ole seotud ärireegleid)
Selgitused: • Andmekvaliteedi standardis on väljapakutud viiedimensionaalne mudel: õigsus, täielikkus, ajakohasus, reeglipärasus, ühekordsus. See on piisav kvaliteedireeglite jaotamiseks õige dimensiooni koosseisu. Praktikas ei ole tekkinud olukorda, kus on reegel, mis ei sobiks ühegi dimensiooni alla. • Kas võiks saada ise juurde teha vajadusel dimensioone? MTA väitel saab töövahendisse Accurity teha dimensioone juurde. Asutused on selle poolt, et töövahend peaks võimaldama teha juurde dimensioone, aga praktikas võib loetelu dimensioonidest kasvada liiga suureks. St tekib põhjendamatult palju dimensioone ning kaob ära võrreldavus üle andmestike. • Töövahendis peab olema dimensiooni võimalik kirjeldada, mis tähendab, et dimensiooni jt objektidel peab olema rida atribuute nagu sisukirjeldus. See esitab kas dimensiooni või indikaatori juures täpsemalt, mida mõõdetakse/. Näiteks REEGLIPÄRASUS näitab, mil määral andmete formaat ja struktuur vastab nõuetele. Esiteks tähendab REEGLIPÄRASUS kokkulepitud klassifikaatorite kasutamist, näiteks EMTAK-i kasutamist majandusliku tegevusala talletamiseks. See on vajalik andmehaldurile, kes reegleid dimensioonidesse paigutab. Siis tekib kindlus ja võimalus igal hetkel üle kontrollida töö kvaliteet, et kogemata valeseoseid ei tehta. • Töövahendis peab olema dimensiooni võimalik kirjeldada. See ei ole veel nende sidumine ärireegliga, vaid üldisem toimimise kirjeldus. Näiteks: „sünktaktilise õigsusena kontrollitakse andmete vormilist korrektsust. Näiteks kui nimi „Tõnu“ on andmetes talletatud kui „T6nu“, pole andmed süntaktiliselt õiged.“ See on vajalik andmehaldurile, kes reegleid indikaatoritesse paigutab. Siis tekib kindlus ja võimalus igal hetkel üle kontrollida töö kvaliteet, et kogemata valeseoseid ei tehta. 2.2 Kvaliteedireeglite seadistamine
NR FUNKTSIONALSUSNÕUDE KIRJELDUS 1 peab saama luua ärireegli, määrata omaniku ja seadistada selle metaandmed 2 peab saama siduda ärireegli indikaatoriga 3 peab saama muuta ärireeglit; ärireegli muutus toob kaasa versiooni muutuse
7 NR FUNKTSIONALSUSNÕUDE KIRJELDUS 4 peab saama kustutada ärireegli (millega ei ole seotud andmestikku) 5 peab saama luua ärireeglite grupi, määrata omaniku ja seadistada selle metaandmed 6 peab saama lisada ärireegli ärireeglite gruppi 7 peab saama kustutada ärireegli ärireeglite grupist
Selgitused:
•
Töövahendis peab olema kvaliteedireegli võimalik kirjeldada. Reegel ise on kui
algoritm.
•
Reegli kirjeldamisel on vaja ühtseid nõudeid ehk reegli kirjelduselemente (vt täiendus).
Reegli kirjelduselemendid on: reegli tähis, reegel (masinloetav), reegli kirjeldus
(inimloetav), reegli prioriteetsus, reegli loomise aeg, reegli looja nimi, reegli viimane
muutmise aeg, reegli viimane muutja, reegli versiooninumber, reegli kehtivus (kehtib, ei
kehti), reegli kehtivuse alguskuupäev, reegli kehtivuse lõpukuupäev, reegli olek
(loomisel, kasutusel, arhiveeritud), arhiveerimise kuupäev (kehtivuse lõpukuupäev),
arhiveerija nimi (reegli omanik), kommentaar, reegel on avalik/mitteavalik, sisuline
kontroll/vormiline kontroll, lisaandmeväli (vabateksti sisestamiseks).
•
Töövahendis võib mõõtmise teostamiseks kasutada erinevaid keeli: SQL, R ja Python.
Süntaks võib olla veidi erinev andmebaaside kaupa. Asutuste arvates oleks kõige
universaalsem SQL.
•
Reegli algoritmi juures peab kindlasti olema reegli kirjeldus. Täpsemalt, mida
kontrollitakse. Muidu ei saada aru reegli sisust.
•
Reegli prioriteetsus näitab, kas reegel on väga oluline, oluline või vähemoluline. Selle
järgi saab hinnata kvaliteedipuuduse olulisust, milliste andmeelementide puudusega
on vaja esmajärjekorras tegeleda. Samuti saab prioriteetsuse järgi jälgida, millise
kvaliteedidimensiooni juures on puudusi kõige rohkem.
•
Reegli juures peab olema kommentaari väli, kuhu saab reegli omanikule tagasiside
kirjutada, näiteks reegli algoritmi või kirjelduselementide täiendamiseks.
•
Reegli juures peab olema tunnus, mis näitab, kas reegel on avalikustamiseks või mitte.
Osa ärireegleid võivad olla ärisaladus. Kui asutus lepib kokku teise asutusega
ärireeglites, millele andmed peavad vastama, siis on tunnuse järgi tuvastatav, et
kogemata reeglite loetellu mitteavaldatavaid reegleid ei satu. Reegel on seotud
andmeelemendiga, millele reeglit rakendatakse. Andmeelemendi juures peab samuti
olema kirjelduselement näitamaks, et tegemist on tundlike andmetega, st mitte
avaldamiseks andmetega. Reegli avalikustamine ja andmete avalikustamise vahel võib
olla seos.
•
Reegli juures peab olema tunnus, mis näitab, kas tegemist on sisulise kontrolli või
vormilise kontrolliga. Näiteid asutustest:
o TRAM. Sisuliselt tuvastame vead ja laseme vormilisi seejärel parandada.
Sisuline kontroll annab sisendit, et andmeid peaks vormiliselt parandama.
o TTJA. Hea vaade, annaks lisainfot, kas meil on ainult sisulised kontrollid
rakendatud.
o KAUR. Dimensioonide kaudu kontrollimine oleks pigem vormilise kvaliteedi
kontrollimine. Aga see võimalus sisuliste reeglite haldamiseks reeglite registris
võiks olla, et on olemas skriptid sisuliseks kontrolliks. Nt väiksemate
andmestike puhul. Sisulist kontrolli tehakse analüüsi etapis. Analüüsi käigus
kontrollitakse sisu, tehakse üle andmestike/tabelite kontrolle.
8 o MTA. Vormiline ja sisuline kontroll on samaaegselt. Indikaatori ja probleemi liigi järgi tuleb see välja, millega tegu. • Reegli juures on lisaandmeväli, mida kasutaja saab sisustada talle tööks vajalike märksõnadega. • Kui andmed on pärit teistest andmekogudest, kas siis andmete juures on päritolu info või on see info ka kvaliteedireeglite juures. Kas piisab sellest, kui reegli juures on tunnus üle x-tee andmehõive? See juba näitabki, et andmed on pärit teisest registrist. Kui hõivemeetod on midagi muud, kuidas siis info kätte saab päritolu kohta. • Reegli muutmise/täiendamise järel peab tekkima reeglile uus versioon. Reegli kirjelduselement versiooninumber näitab viimast kehtivat versiooni. Näiteid asutustest: o TRAM: Andmete laadimise käigus kontrollitakse reeglitele vastavust. Reegleid hoitakse ajakohasena. • Kui vanad andmed kustutakse, kas siis kustutatakse ka neile rakendatud reeglid? Kui teenust enam ei kasutata, kas siis saab reeglid kustutada? Kas reeglit saab käsitsi kustutada? Kui reegel on seotud andmeelemendiga, kas siis saab reeglit kustutada? • Andmetel võib olla prioriteetsus, mis võib olla seotud ärireegliga. Näiteid asutustest: o PRIA: Toetuste registri puhul on kasutusel andmete „prioriteet“. Toetuste poole pealt vanad andmed on vähemprioriteetsed. Vanad andmed peame kustutama, teeme seda järk-järgult. Andmebaasist välja lõigata mingisugune hulk andmeid on keeruline. Loomade puhul on vastupidi vanad andmed olulised trendide ja andmete esitamise seisukohast. • Reegel on seotud andmeelemendiga, millele või mille kaudu (mitme tunnuse korral) kvaliteedikontrolli rakendatakse. Mitme tunnuse puhul reegel läheb ühest andmeelemendist sisse ja kontrollib teiste andmeelementide kaudu tingimustele vastavust. Reeglid on grupeeritud indikaatorite kaupa. Indikaatorid on grupeeritud dimensioonide kaupa.
Täiendus: Reeglite register (näide)
Elemendi nimetus
Näide
Dimensioon
Ühekordsus
Indikaator
Kirjete ühekordsus
Reegli kood
exsists_id
Reegel
is_unique()
Reegli kirjeldus
Igal objektile peab olema määratud tema
unikaalne kood.
Reegli loomise aeg
14.10.2013 09:33
Reegli looja nimi
Jüri Tamm
Reegli viimane muutmise aeg
14.09.2015 09:33
Reegli viimase muutja nimi (reegli omanik )
Mari Maasikas
Reegli versiooni number
5
Reegli kehtivuse alguskuupäev (viimati muudeti)
2015.09.14 09:33:47
Reegli kehtivuse lõpukuupäev (viimati käivitati)
2018.04.13 12:06:22
Reegli kehtivus (kehtib, ei kehti)
Ei kehti
Reegli olek (loomisel, kasutusel, arhiveeritud)
Arhiveeritud
Reegli prioriteetsus
oluline
9 Elemendi nimetus Näide Arhiveerimise kuupäev (kehtivuse lõpukuupäev) 2018 .04.13 12:06:22 Arhiveerija nimi (reegli omanik) Mari Maasikas Kommentaar Unikaalsuse kontrolli tehakse kõigile ID tunnustele. Reegel on avalik/mitteavalik mitteavalik Sisuline/vormiline kontroll Vormiline kontroll Lisaandmeväli (vabatekst) Reegli skript on liiga lühike, vajab täiendamist.
2.3 Kvaliteedireeglite sidumine andmestikuga
NR FUNKTSIONALSUSNÕUDE KIRJELDUS 1 peab saama ärireegli või ärireeglite grupi siduda andmestikuga või andmestiku osaga; andmestiku osad on skeem, tabel ja veerg 2 peab saama ärireegli või ärireeglite grupi eemaldada andmestikult või andmestiku osalt 3 peab saama seadistada ärireegli või ärireeglite grupi käivitamise parameetrid
Selgitused: • Keskseks küsimuseks on reegli rakendamine andmetele ehk reegli sidumine andmestruktuuriga: tabel, kirje, veerg. Täpsemalt, mille külge reegel läheb. o RIHAKEse vaates on meil veel andmestik (ka alamandmestik) ja mõelda tuleks ka sellele, kas reeglid on rakendatavad ka sinna, samuti kuidas käituks reegel, kui (loogiline) kirje on üle mitme tabeli • Reeglit rakendatakse andmeelemendile, mille juures on indikaator andmekvaliteedi puuduse tähistamiseks. Indikaator andmekvaliteedi puuduse tähistamiseks on ka tabeli juures. Asutustes on kasutusel vigade menetlemise töövahend, kus andmete kontrollimine on andmeelemendi kaudu, aga kvaliteedile vastandumise tulemuste raport on kirjete kaupa. Andmehalduril on ülevaade kirjetest, mis on vaja üle kontrollida/parandada. Asutusel on vaja kvaliteedi töövahendis ülevaadet millises tabelis millise andmeelemendi kvaliteeti kontrollitakse ja millises kirjes on puudused. • Kvaliteedi töövahendis peab olema klassifikaatorite/loendite haldus, sh klassifikaatorite/loendite elementide haldus. Kui kontrollitakse vastavust etteantud loetelule, siis on vaja puuduste korral üle vaadata klassifikaatori elemendid. Haldurile on vaja, et ta saaks kogu info kätte ühest süsteemist. • Reegli juures peab olema tunnus, mis näitab, kas reegel on avalikustamiseks või mitte. Osa ärireegleid võivad olla asutuses ärisaladus. Kui asutus lepib kokku teise asutusega ärireeglites, millele andmed peavad vastama, siis on tunnuse järgi tuvastatav, et kogemata reeglite loetellu mitteavaldatavaid reegleid ei satu. Reegel on seotud andmeelemendiga, millele reeglit rakendatakse. Andmeelemendi juures peab samuti olema kirjelduselement näitamaks, et tegemist on tundlike andmetega, st mitte avaldamiseks andmetega. • Reegli rakendamise tulemuse visualiseerimiseks on oluline näha ülevaadet kvaliteedist andmeelementide kaupa mitte niivõrd graafiliselt esitades. Graafilise esituse puhul
10 peab saama valida, millise diagrammi tüübiga (tulpdiagramm, kookdiagramm vms) andmeid esitatakse. • Reeglit peab saama rakendada üle tabelite. Tekkima peab reeglite register, kust saab vajadusel võtta ja kasutada juba „hästi“ kirjeldatud reegleid. Asutused on välja toonud, et see aitab neil skripti kirjutamise pealt aega kokku hoida ja sisuliselt hästi kirjutatud skripte taaskasutada. St andmete kvaliteetsemat kontrolli. • Peab olema eraldi vaade reeglite ja andmeelementide seotud vaade, reeglile vastandumise tulemuse vaade.
Täiendus: Reeglite ja andmeelementide seotud vaade (näide) Elemendi nimetus Näide Dimensioon Ühekordusus Indikaator Kirjete ühekordsus Reegli kood exsists_id Reegel is_unique() Reegli kirjeldus Igal objektile peab olema määratud tema unikaalne kood. Skeema OBJEKT Andmetabel HOONE_OBJEKTID Andmeelement OBJEKT_ID Andmesõnastiku termin Objekti identifikaator Reegli viimane käivitamine 13.04.2018 12:06 Reegli viimane käivitaja Mari Maasikas Veatüüp (viga, hoiatus) Viga Lävend (%) 100 Mõõtetulemus: ridade arv (%) 250 (95)
2.4 Kvaliteedireeglite käivitamine andmestikul
NR FUNKTSIONALSUSNÕUDE KIRJELDUS 1 kvaliteedireeglit ja kvaliteedireeglite gruppi peab saama käivitada manuaalselt 2 kvaliteedireegli ja kvaliteedireeglite grupi käivitamist peaks saama katkestada 3 kvaliteedireegli kävitamise sündmus logitakse; märgitakse sündmuse tulemuse staatus
Selgitused: • Kui on kvaliteet seotud teenusega: o Kvaliteedireeglil on seos teenusega, nt seos märksõnaga „teenuse nimi“. Teenuse nimetusi võib olla mitu. Nt reegel on „Käibedeklaratsiooni (KMD) read = r1+r2+21+r3+r8+r9-r6-r7“ ja temaga seotud teenused on märksõnadena „Käibemaks“ ja „KMD“ (MTA). • Kvaliteedireeglil on seos andmete elukäiguetappidega (kogumine, töötlus, avaldamine, arhiveerimine). Kas siin võiks olla etteantud loetelu elukäiguetappidest või märksõnadena (nt kui on soov veel väiksemaks protsess jaotada?
11 • Kehtivad/kehtetud andmed. TRAM. Kehtivad/kehtetud andmed tulevad seadusest. Kunagi oli seaduses kirjas, mis andmeid on vaja koguda. Rohkem andmeid ei koguta, aga need on olemas ABs. Nt sõidukid veneajal, selle nr märk. • Andmete olulisus. Näiteid asutustest: o TRAM. Andmekvaliteedi parandamiseprotsessis tegeleme esimeses järgus nende tunnustega, mis on olulisemad kui teised andmed. Andmete juures on tunnus prioriteetsuse näitamiseks. Kasutajat peab olema teavitatud, nt sõiduki tehnilised andmed, et need peavad olema 100% korras. • Kvaliteedireeglil on seos tunnusega, kus kvaliteeti teostatakse. Nt kood, üle X-tee andmehõive, andmehaldur teostab käsitsi kontrolli jne. Kas need võiksid olla samuti seos märksõnaga? • Reegli käivitustingimused (aeg, seos mingi muu staatusega) o Reegli käivitamise sageduse määramine peab olema seadistatav. Andmeid kontrollitakse nende laekumise järgi, andmete muutmise järel ning haldur teeb pistelist kontrolli. • Reeglite automaatne ja manuaalne käivitamine o Reeglit peab saama seadistada nii, et see käivituks automaatselt ja vajadusel saab käsitsi käivitada. Iga uue reegli või olemasoleva reegli muudatuse korral kontrollitakse uuesti andmeid. Kontroll käivitub automaatselt öösel, aga on seadistatav, et kontroll toimuks kohe. • Kui reeglit ei saa käivitada o Töövahend peab suhtlema andmehalduriga, kui reeglit ei saa käivitada. Kuvatakse mittekäivitamise teade ja põhjus(ed).
Täiendus: Reeglite vastandumise tulemuse vaade (näide) Elemendi nimetus Näide Dimensioon Ühekordusus Indikaator Kirjete ühekordsus Reegli kood exsists_id Reegel is_unique() Reegli kirjeldus Igal objektile peab olema määratud tema unikaalne kood. Andmetabel HOONE_OBJEKTID Andmeelement OBJEKT_ID Andmesõnastiku termin Objekti identifikaator Reegli viimane käivitamine 13.04.2018 12:06 Reegli viimane käivitaja Mari Maasikas Veatüüp (viga, hoiatus) Viga Lävend (%) 100 Mõõtetulemus: ridade arv (%) 250 (95)
2.5 Mõõtmistulemuste salvestamine
NR FUNKTSIONALSUSNÕUDE KIRJELDUS 1 mõõtmistulemused salvestatakse kirjetena käivitamissündmuste ja ärireeglite kaupa 2 peab olema eristatav, millise ärireegli versiooniga mõõtmine tehti