29
Andmeobjekti täielikkuse määr näitab ühe andmeobjekti (näiteks tabeli rea) täielikkust ehk
tühjade väärtuste esinemist võttes arvesse kõiki andmeobjekti atribuute. Näiteks kui
andmetabelis on rea (andmeobjekti) kaks veergu (atribuuti) kolmest väärtustatud on
andmeobjekti täielikkus 2/3 ehk 66%.
Atribuudi täielikkuse määr näitab atribuudi (näiteks tabeli ühe veeru) täielikkust ehk tühjade
väärtuste esinemist ühe atribuudi ulatuses. Näiteks kui tabelis on neli rida (andmeobjekti) ning
veerg (atribuut) X on väärtustatud kahel real neljast on atribuudi täielikkus 2/4 ehk 50%.
Olemihulga täielikkuse määr näitab kogu olemihulga (näiteks tabeli) täielikkust ehk tühjade
väärtuste esinemist kogu olemihulga (tabeli) ulatuses. Näiteks oletame, et tabelis on 3 veergu ja
4 rida ehk kokku 12 väärtust. Neist 12 väärtusest 9 on väärtustatud. Sellisel juhul on tabeli
täielikkus 9/12 ehk 75%.
Olemasolevate
atribuutide
määr
nõutavatest
atribuutidest
näitab,
kas
kõigil
kirjetel/andmeobjektidel eksisteerib konkreetne tunnus või see puudub. Näiteks kui andmetabeli
puhul on olemas 3 nõutud veerust (atribuudist) 2 siis on antud indikaatori väärtuseks 2/3 ehk
66%.
Ajakohasus (Timeliness)
Ajakohasus näitab, mil määral andmete värskus ja kättesaadavus vastab vajadustele ja nõuetele.
Kuna ajakohased andmed peavad olema nii värsked, kui ka neid kasutava sündmuse jaoks
õigeaegselt kättesaadavad, koosneb ajakohasuse mõõtmine kahest osast. Esimeseks sammuks
on andmete värskuse hindamine. Teise sammuna tuleb kontrollida andmete kättesaadavust ehk
seda, kas andmed on kättesaadavad enne planeeritud kasutamise aega. Üks võimalus
ajakohasuse täpsemaks mõõtmiseks on eristada andmete värskust (currency), volatiilsust
(volatility) ning ajakohasust (timeliness). Andmete värkust on defineeritud järgmiselt (Võrrand 1).
Võrrand 1. Värskus (Currency)
𝑉ä𝑟𝑠𝑘𝑢𝑠= 𝑉𝑎𝑛𝑢𝑠+ (𝐸𝑑𝑎𝑠𝑡𝑎𝑚𝑖𝑠𝑒𝐴𝑒𝑔−𝑆𝑖𝑠𝑒𝑠𝑡𝑢𝑠𝐴𝑒𝑔)
Siinkohal tähistab Vanus andmete vanust nende vastuvõtmise hetkel. EdastamiseAeg tähistab
ajahetke, kui andmed jõuavad kasutajani ning SisestusAeg andmete sisestamise ajahetke. Ehk
teisisõnu näitab muutujate EdastamiseAeg ja SisestusAeg vahe kui kaua on andmed olnud
infosüsteemis.
Volatiilsus on defineeritud kui andmete kehtivuse periood. Sellest tulenevalt saame ajakohasuse
defineerida järgmiselt (Võrrand 2).
Võrrand 2. Ajakohasus (Timeliness)
max {0,1 −
𝑉ä𝑟𝑠𝑘𝑢𝑠
𝑉𝑜𝑙𝑎𝑡𝑖𝑖𝑙𝑠𝑢𝑠}
Ajakohasuse väärtus on vahemikus nullist üheni, kus null näitab ajakohasuse puudumist ning üks
ideaalset ajakohasust. Siinkohal on oluline märkida, et andmete värskuse olulisus sõltub
volatiilsusest, sest väga volatiilsed andmed peavad olema värsked samas kui madala
volatiilsusega andmete puhul pole värskus niivõrd oluline.
Tulenevalt eelnevast oleme ajakohasuse dimensiooni indikaatori sõnastanud järgmiselt:
•
Ajakohasuse määr skaalal 0-1 vastavalt ajakohasuse definitsioonile (Võrrand 2).
30
Näitena vaatleme dig iretsepti ajakohasust. Oletame, et arsti vastuvõtul vaadatakse üle
19.03.2020 kell 08:00 toimunud uuringu tulemused. Tulemuste põhjal määratakse patsiendile
retseptiravim, mille määramine leiab aset 19.03.2020 kell 13:00. Seega on andmete vanus sel
hetkel 5 tundi ehk Vanus=5. Arst märgib retsepti andmed süsteemi ning loob digiretsepti
19.03.2020 kell 14:00. Proviisiori poolt kasutatavasse süsteemi jõuavad digiretsepti andmed
19.03.2020 kell 15:00. Hetkeks kui andmed jõuavad proviisorini on need süsteemis o lnud ühe
tunni (EdastamiseAeg – SisestusAeg = 15:00 – 14:00 ehk 1 tund). Sellest tulenevalt saame värskuse
definitsiooni põhjal (Võrrand 1) öelda, et andmete värskus on 6 tundi ( Värskus = 5 + 1 = 6 ).
Digiretsepti kehtivus on 60 päeva ehk 1440 tundi. Järeli kult on andmete ajakohasus vastavalt
ajakohasuse definitsioonile (Võrrand 2) max(0,1 - (5/1440)=1 - 0.003) = 0.997 . Väärtus 0.997
näitab, et digiretsepti ajakohasus on peaaegu täiuslik. Negatiivse stsenaariumi puhul jõuavad
andmed süsteemi vahetult enne või pärast kehtivuse lõppu ning sellisel juhul läheneks andmete
ajakohasuse väärtus nullile.
Reeglipärasus (Orderliness)
Reeglipärasus näitab, mil määral andmete formaat ja struktuur on esitatud süsteemselt ja
korrapäraselt. Andmete formaadi osas kontrollit akse esmalt kas andmete esitamisel
kasutatakse sobivaid andmetüüpe, seejärel kas andmed on esitatud konkreetsele andmetüübile
vastavas vormingus ning lõpuks kas andmed vastavad standardite ja rakenduste poolt seatud
nõuetele. Üheks tihtiesinevaks nõudeks on joondus valitud referentssüsteemiga, olgu selleks siis
loendid, klassifikaatorid või andmete väärtus mõnes teises andmekogumikus.
Reeglipärasuse dimensiooni oleme indikaatoriteks jaganud järgmiselt:
• kokkulepitud klassifikaatorite kasutamisest kõrvalekallete määr;
• kokkulepitud andmemustritest kõrvalekallete määr.
Kokkulepitud klassifikaatorite kasutamisest kõrvalekallete määra abil saab näiteks hinnata,
kuivõrd aadressiandmed ja majanduslik tegevusala on talletatud vastavalt kokkulepitud
klassifikaatorile.
Kokkulepitud andmemustritest kõrvalekallete määr on seotud andmemustritega nagu kuupäev
(date), arv (integer) või loogiline jah/ei (boolean) väli. Näiteks saab kokkulepitud andmemustritest
kõrvalekallet hinnata isikukoodi või kuupäeva puhul.
Ühekordsus ( Uniqueness)
Ühekordus näitab, mil määral esineb duplikaatkirjeid. Teisisõnu on andmed ühekordselt talletatud
siis, kui igale unikaalsele kirjele vastab üks võtmeväärtus mistõttu tuleb ühekordsuse mõõtmisel
keskenduda võtmeväärtustele ning nende seostele. Ühekordsuse probleemi ei tohiks esineda, kui
kasutatakse relatsioonilist andmebaasi struktuuri ning määratud on korrektsed primaarvõtmed.
Seejuures on aga oluline, et primaarvõtme määramise protseduur oleks usaldusväärne.
Duplikaatkirjete probleem on suure m teiste andmestruktuuride puhul, kus unikaalsete võtmete
määramine pole võimalik (näiteks MS Exceli tabelis). Näitlikustamaks ühekordsuse probleemist
tingitud lisakulu võime vaadelda olukorda, kus ühe kliendi kohta on andmetes talletad mitu kirjet.
Saates nende andmete põhjal klientidele emaile saavad dubleeritud kirjetega kliendid mitu kirja,
mis mõjutab nii saatmise kulu kui ka asutuse reputatsiooni kliendi silmis.
Eelnevast tulenevalt oleme ühekordsuse indikaatori määranud järgmiselt:
• Duplikaatkirjete määr.
Duplikaatkirjete määr näitab duplikaatkirjete osakaalu kirjete koguarvus ning on oluline näiteks
aadresside, kontaktisikute ja klassifikaatorite talletamisel.
31 4.7 Andmekvaliteedi reeglile mõõdiku seadmine Järgnevalt on esitatud kvaliteedidimensioonide ja indikaatorite kasutamist illustreerivad näidisjuhtumid. Iga indikaatori kohta on võimalik kirjeldada hulk andmekvaliteedi reegleid. Näidisjuhtumites on kirjeldatud iga indikaatori kohta üks näidisreegel, kirjeldatud reegli hindamiseks vajalikud meetmed, illustreeritud hetketaseme hindamist ning toodud näidis sihttasemest. Tabel 3. Andmekvaliteedi reeglile mõõdiku seadmine – Õigsus. Indikaator Reegel Meede Hetketase Sihttase Süntaktiliselt õiged kirjed Isiku nimi ei tohi sisaldada numbreid. Loendada kokku veergude arv, kus isiku nimedes on numbreid ning kirjete koguarv.
Numbreid sisaldavate nimede arv: 100 Isikute koguarv: 5 000 (5000- 100)/5000 *100 = 98%
98% isikute nimedest ei sisalda numbreid.
100% Autentsed kirjed Isiku elukoht peab vastama Rahvastikuregistri andmetele. Teostada isikute väljavõte ning elukohtade väljavõte Rahvastikuregistrist ning võrrelda seda hinnatavate andmetega.
Rahvastikuregistriga mitte kattuvate elukohaandmete arv: 10 Kirjete koguarv: 1000
(1000- 10)/1000 *100 = 99%
99%
elukohaandmet
est vastab
Rahvastikuregi
stri andmetele.
100%
Kokkulepitud
kirjaviisiga
kirjed
Venekeelsed
isikute nimed
peavad olema
talletatud järgides
korrektset vene-
eesti
transkriptsiooni.
Võrrelda vene keele
tähestikus kirjutatud
nimesid (Зернов) ning
transkriptsioonide
tulemusi (Zernov).
Ebakorrektsete transkriptsioonide arv: 450 Venekeelsete nimede koguarv: 500 (500- 450)/500*100 = 10%
10% teostatud transkriptsiooni dest järgib korrektset vene-eesti transkriptsiooni . 100% Tabel 4. Andmekvaliteedi reeglile mõõdiku seadmine - Täielikkus. Indikaator Reegel Meede Hetketase Sihttase Andmeobjekti täielikkus Riigi peaprokuröri kohta peavad olema täidetud kõik isikuandmed. Loendada kokku riigi peaprokuröri ametiga seotud isiku kohta andmeid talletavate väljade arv ning väärtustatud väljade arv. 4/5*100 = 80%
80% konkreetse isiku kohta käivatest andmetest on väärtustatud. 100%
32 Indikaator Reegel Meede Hetketase Sihttase
Väärtustatud väljade arv: 4 Andmeid talletavate väljade arv: 5 Atribuudi täielikkus Kõikide isikute kohta peab olema teada nende telefoninumber. Loendada kokku isikute arv, kus tunnus „Telefoninumber“ on tühi ning isikute koguarv.
Telefoninumbrita isikute arv: 30 Isikute koguarv: 150 30/150*100 = 20%
80% isikute kohta on teada telefoninumber.
100% Olemihulga täielikkus Kõik isiku kohta käivad andmed peavad olema väärtustatud. Loendada kokku isiku tabeli väärtustatud väljade arv ning väljade koguarv.
Isiku tabeli väärtustatud väljade arv: 600 Isiku tabeli väljade koguarv: 1000
600/1000*100 = 60%
60% isiku kohta käivatest andmeväljadest on väärtustatud.
80% Olemasolevad atribuudid nõutavatest atribuutidest Isiku kohta peab olema võimalik talletada eesnime, perekonnanime, isikukoodi ja rahvuse andmeid. Leida olemasolevate atribuutide arv ning võrrelda seda nõutavate atribuutide arvuga.
Olemasolevate atribuutide arv (eesnimi, perekonnanimi, isikukood): 3 Nõutavate atribuutide arv: 4 3/4*100=75%
75% nõutud atribuutidest on olemas. 100% Tabel 5. Andmekvaliteedi reeglile mõõdiku seadmine – Ajakohasus. Indikaator Reegel Meede Hetketase Sihttase Ajakohasuse määr Riigieksamite tulemused peavad olema kasutatavad enne sisseastumis- perioodi lõppu. Arvutada ajakohasuse väärtus vastavalt ajakohasuse definitsioonile (Error! Reference source not found.). Ajakohasuse väärtus: 0.9
0.8
33 Tabel 6. Andmekvaliteedi reeglile mõõdiku seadmine - Reeglipärasus. Indikaator Reegel Meede Hetketase Sihttase Klassifikaatoritest kõrvalekalded Majanduslik tegevusala peab olema talletatud vastavalt EMTAK-ile. Loendada kokku juhtumite arv, kus tegevusala ei vasta EMTAK-i klassifikatsioonile.
EMTAK-ist kõrvalekallete arv: 200 EMTAK koodidega kirjete arv: 1771 200/1771 * 100 = 11%
11% kirjete majanduslikest tegevusaladest ei vasta EMTAK-ile. 0% Andmemustritest kõrvalekalded Isikukood peab olema 11 kohaline täisarv. Loendada kokku väärtused, kus isikukood ei vasta kokkulepitud tingimustele ning isikukoode sisaldavate väljade koguarv.
Andmemustrile mittevastavate isikukoodide arv: 400 Isikukoodide koguarv: 700 000 400/700 000 * 100 = 0.05%
0.05% isikukoodidest ei vasta nõuetele 0% Tabel 7. Andmekvaliteedi reeglile mõõdiku seadmine – Ühekordsus. Indikaator Reegel Meede Hetketase Sihttase Duplikaatkirjed Iga postiindeks peab olema unikaalne. Loendada kokku duplikaatide arv ning postiindeksite koguarv.
Duplikaatide arv:
10 000
Postiindeksite arv: 1
000 000
10 000/
1 000 000*100 =
1%
1% postiindeksi kirjetest on duplikaadid. 0%
4.8 Kvaliteediprobleemide prioriseerimine
On tõenäoline, et eelnevalt kirjeldatud kvaliteedidimensioonide hindamise käigus tuvastati mitmeid erinevaid kvaliteediprobleeme. Esmalt on mõistlik põhjalikumalt tegeleda nende kvaliteediprobleemide analüüsimise ja lahendamisega, mis on asutusele suurima mõjuga. Seetõttu tuleks kvaliteediprobleemide esmasel prioriseerimisel kasutada ärilise mõju hindamise tehnikaid. Esmaseks hindamiseks sobivad hästi lihtsamad tehnikad, näiteks võib koguda stsenaariumeid, mis kirjeldavad halva andmekvaliteedi mõju ärile. Teine lihtne tehnika ärilise mõju on hindamiseks on koostada loend konkreetseid andmeid kasutavatest asutustest ja protsessidest. Mida rohkem on andmeid kasutavaid asutusi ja protsesse seda olulisemad on
34
konkreetsed andmed. Kasutada võib ka viis korda „Miks?“ küsimise tehnikat eesmärgiga jõuda
kvaliteediprobleemi tegeliku mõjuni. Põhjalikum mõju hindamine toimub protsessi hilisemas
faasis pärast andmekvaliteedi juurpõhjuste analüüsi.
4.9 Andmekvaliteedi aruandepõhjade väljatöötamine
Andmekvaliteedi aruanded aitavad tuua välja andmete kvaliteediga seotud kitsaskohad ning
kommunikeerida edasiminekuid, selleks, et tõenduspõhiselt juhtida andmekvaliteediga seotud
andmehalduse protsesse.
Kuigi aruannete põhjad tulenevad paljuski sellest kuidas on asutuses andmehaldus
korraldatud, on osad näitajad kasulikud laiemalt ja eri asutustes.
Näidisena oleme esitanud need vaated andmete kvaliteedi seiramiseks ja andmekvaliteedi
reeglitest ülevaate saamiseks, mis võiksid olla kasutuses enamikes asutustes. Näidis on
juurdepääsetav siin: https://datastudio.google.com/u/0/reporting/e34c9f7b-7c05-4870-a5b7-
2cb1e6b6299c/page/FKO9
Kindlasti ei pretendeeri vaadete komplekt täielikule andmekvaliteedi aruande vaadete
komplektile. Aruanded annavad vastused järgmistele küsimustele:
•
Kui suur osa hallatud andmeobjektidest vastab andmekvaliteedi nõuetele?
•
Milline on konkreetse ärimõistega seotud andmete andmekvaliteedi hetkeseis
dimensioonide lõikes?
•
Kuidas on konkreetse ärimõistega seotud andmete andmekvaliteet muutunud ajas
dimensioonide lõikes?
•
Millised andmeelemendid ja mil määral on kaetud andmekvaliteedi reeglitega?
•
Millised andmekvaliteedi reeglid on kirjeldatud?
•
Milliste andmeobjektide kvaliteeti on vaja tõsta?
4.10 Andmekvaliteedi reeglite haldamine
Andmekvaliteedi reeglid on oluline metaandmete vorm. Et andmekvaliteedi reeglid oleksid
efektiivsed tuleks neid ka hallata kui metaandmeid. Andmekvaliteedi reeglid peaksid olema:
•
Järjepidevalt dokumenteeritud. Andmekvaliteedi reeglite dokumenteerimiseks
tuleb luua selge mall, et tagada reeglite ühtne formaat ning mõistetavus.
Dokumentatsioon peaks kindlasti sisaldama andmekvaliteedi reegli unikaalset
identifikaatorit ning reegli versiooni numbrit.
•
Seostatud andmekvaliteedi dimensioonidega. Andmekvaliteedi dimensioonid
aitavad inimestel mõista mida mõõdetakse. Andmekvaliteedi dimensioonide järjepidev
rakendamine toetab mõõtmise ning probleemide haldamise protsesse.
•
Seotud ärilise mõjuga. Andmekvaliteedi dimensioonid aitavad mõista levinud
andmekvaliteedi probleeme, kuid dimensioonide kasutamine ja mõõtmine pole eesmärk
omaette. Andmekvaliteedi reeglid peavad omama otsest mõju organisatsiooni edule.
Seega pole äriprotsessidega mitteseotud mõõtmised vajalikud.
•
Andmeanalüüsi poolt toetatud. Andmekvaliteedi reegleid ei peaks kirjeldama
subjektiivsete arvamuste alusel. Reegleid tuleb testida reaalsetel andmetel. Tihti toob
selline testimine välja andmetes eksisteerivad probleemid ning aitab objektiivselt
tuvastada ka andmekvaliteedi reeglites eksisteerivaid puuduseid.
35 • Valdkonna eksperdi poolt heakskiidetud. Andmekvaliteedi reeglite eesmärgiks on ilmutada nõuded andmetele. Tihti on reeglite õigeks kirjeldamiseks vajalikud teadmised konkreetse ärivaldkonna protsessidest. Neid teadmisi tuleks koguda konkreetse valdkonna eksperdilt, kelle ülesandeks on kinnitada kirjeldatud ärireeglid või selgitada andmeanalüüsi tulemusi. • Andmete kasutajatele kättesaadavad. Kõigil andmete kasutajatel peaks olema juurdepääs dokumenteeritud andmekvaliteedi reeglitele. Juurdepääs reeglitele aitab andmete kasutajatel andmeid paremini mõista ning aitab samas tagada, et reeglid on täielikud ja õiged. Lisaks peab olema võimalus küsida reeglite kohta küsimusi ning anda tagasisidet. Andmekvaliteedi reeglite tuvastamist lihtsustab andmete profileerimine ja analüüs. Koos andmekvaliteedi praktika küpsuse tõusuga peaks selline reeglite kirjeldamine liikuma süsteemide arendamise ja parandamise protsessi, sest andmekvaliteedi reeglite varases faasis kirjeldamine loob: • Selged ootused andmete kvaliteedinäitajatele. • Nõuded tarkvarasüsteemidele, mille rakendamise tulemusena välditakse andmekvaliteedi probleemide teket. • Andmekvaliteedi nõuded partnerorganisatsioonidele ja muudele välistele osapooltele. • Aluse pidevaks andmete kvaliteedi mõõtmiseks ja aruandluseks.. Andmekvaliteedi reeglid võivad muutuda kui: • Andmekvaliteedi mõõtmise ja juurpõhjuste analüüsi tulemusena tuvastatakse, et hetkel kehtivad reeglid pole piisavad. • Ebakvaliteetsete andmete tõttu on tekkinud probleem. • Toimuvad muudatused ärinõuetes, regulatsioonides või mujal. Kui andmehaldur on tuvastanud vajaduse andmekvaliteedi reegli muutmiseks, tuleb tal esitada andmeomanikule muudatusettepanek. Muudatusettepanek peaks sisaldama vähemalt muudatuse kirjeldust, muudatuse vajajaid või muudatusest kasusaajaid (näiteks konkreetne osakond või klient) ning muudatusettepaneku esitaja poolt defineeritud muudatuse prioriteetsust. Et jälgida andmekvaliteedi reeglite muutumist ajas peab olema võimalik tuvastada konkreetse reegli versioone nii minevikust kui ka tulevikus. Teisisõnu tähendab see, et peab olema võimalik tuvastada reegli algset versiooni, kõiki arenduse käigus kasutatud versioone ning hetkel kastutusel olevat versiooni. Korrektse versioneerimise tulemusena on võimalik saada ülevaade, kas konkreetne reegel juba eksisteerib ja millisest andmekvaliteedi reeglist on varasemalt lähtutud. Lisaks on versioneerimine oluline muudatuste haldamiseks. Näiteks on seeläbi võimalik paremini ennustada reegli muutmiseks vajamineva töö mahtu ning lihtsustada reeglite hilisemat taaskasutust, näiteks uuele süsteemile üleminekul. Probleemide tekkimisel toetavad korrektselt versioneeritud reeglid juurpõhjuste analüüsi läbiviimist aidates tuvastada probleemi algallikat. Versioneerimise toetamiseks peab igal andmekvaliteedi reeglil olema unikaalne identifikaator, talletatud konkreetse reegli kehtivust tähistavad kuupäevad ning versiooni number.