AH_juhis_andmekvaliteet_1.3_090523.pdf

Type: Document | Status: ready

29 Andmeobjekti täielikkuse määr näitab ühe andmeobjekti (näiteks tabeli rea) täielikkust ehk tühjade väärtuste esinemist võttes arvesse kõiki andmeobjekti atribuute. Näiteks kui andmetabelis on rea (andmeobjekti) kaks veergu (atribuuti) kolmest väärtustatud on andmeobjekti täielikkus 2/3 ehk 66%. Atribuudi täielikkuse määr näitab atribuudi (näiteks tabeli ühe veeru) täielikkust ehk tühjade väärtuste esinemist ühe atribuudi ulatuses. Näiteks kui tabelis on neli rida (andmeobjekti) ning veerg (atribuut) X on väärtustatud kahel real neljast on atribuudi täielikkus 2/4 ehk 50%. Olemihulga täielikkuse määr näitab kogu olemihulga (näiteks tabeli) täielikkust ehk tühjade väärtuste esinemist kogu olemihulga (tabeli) ulatuses. Näiteks oletame, et tabelis on 3 veergu ja 4 rida ehk kokku 12 väärtust. Neist 12 väärtusest 9 on väärtustatud. Sellisel juhul on tabeli täielikkus 9/12 ehk 75%. Olemasolevate atribuutide määr nõutavatest atribuutidest näitab, kas kõigil kirjetel/andmeobjektidel eksisteerib konkreetne tunnus või see puudub. Näiteks kui andmetabeli puhul on olemas 3 nõutud veerust (atribuudist) 2 siis on antud indikaatori väärtuseks 2/3 ehk 66%. Ajakohasus (Timeliness)
Ajakohasus näitab, mil määral andmete värskus ja kättesaadavus vastab vajadustele ja nõuetele. Kuna ajakohased andmed peavad olema nii värsked, kui ka neid kasutava sündmuse jaoks õigeaegselt kättesaadavad, koosneb ajakohasuse mõõtmine kahest osast. Esimeseks sammuks on andmete värskuse hindamine. Teise sammuna tuleb kontrollida andmete kättesaadavust ehk seda, kas andmed on kättesaadavad enne planeeritud kasutamise aega. Üks võimalus ajakohasuse täpsemaks mõõtmiseks on eristada andmete värskust (currency), volatiilsust (volatility) ning ajakohasust (timeliness). Andmete värkust on defineeritud järgmiselt (Võrrand 1). Võrrand 1. Värskus (Currency) 𝑉ä𝑟𝑠𝑘𝑢𝑠= 𝑉𝑎𝑛𝑢𝑠+ (𝐸𝑑𝑎𝑠𝑡𝑎𝑚𝑖𝑠𝑒𝐴𝑒𝑔−𝑆𝑖𝑠𝑒𝑠𝑡𝑢𝑠𝐴𝑒𝑔) Siinkohal tähistab Vanus andmete vanust nende vastuvõtmise hetkel. EdastamiseAeg tähistab ajahetke, kui andmed jõuavad kasutajani ning SisestusAeg andmete sisestamise ajahetke. Ehk teisisõnu näitab muutujate EdastamiseAeg ja SisestusAeg vahe kui kaua on andmed olnud infosüsteemis. Volatiilsus on defineeritud kui andmete kehtivuse periood. Sellest tulenevalt saame ajakohasuse defineerida järgmiselt (Võrrand 2). Võrrand 2. Ajakohasus (Timeliness) max {0,1 − 𝑉ä𝑟𝑠𝑘𝑢𝑠 𝑉𝑜𝑙𝑎𝑡𝑖𝑖𝑙𝑠𝑢𝑠} Ajakohasuse väärtus on vahemikus nullist üheni, kus null näitab ajakohasuse puudumist ning üks ideaalset ajakohasust. Siinkohal on oluline märkida, et andmete värskuse olulisus sõltub volatiilsusest, sest väga volatiilsed andmed peavad olema värsked samas kui madala volatiilsusega andmete puhul pole värskus niivõrd oluline. Tulenevalt eelnevast oleme ajakohasuse dimensiooni indikaatori sõnastanud järgmiselt: • Ajakohasuse määr skaalal 0-1 vastavalt ajakohasuse definitsioonile (Võrrand 2).

30 Näitena vaatleme dig iretsepti ajakohasust. Oletame, et arsti vastuvõtul vaadatakse üle 19.03.2020 kell 08:00 toimunud uuringu tulemused. Tulemuste põhjal määratakse patsiendile retseptiravim, mille määramine leiab aset 19.03.2020 kell 13:00. Seega on andmete vanus sel hetkel 5 tundi ehk Vanus=5. Arst märgib retsepti andmed süsteemi ning loob digiretsepti 19.03.2020 kell 14:00. Proviisiori poolt kasutatavasse süsteemi jõuavad digiretsepti andmed 19.03.2020 kell 15:00. Hetkeks kui andmed jõuavad proviisorini on need süsteemis o lnud ühe tunni (EdastamiseAeg – SisestusAeg = 15:00 – 14:00 ehk 1 tund). Sellest tulenevalt saame värskuse definitsiooni põhjal (Võrrand 1) öelda, et andmete värskus on 6 tundi ( Värskus = 5 + 1 = 6 ). Digiretsepti kehtivus on 60 päeva ehk 1440 tundi. Järeli kult on andmete ajakohasus vastavalt ajakohasuse definitsioonile (Võrrand 2) max(0,1 - (5/1440)=1 - 0.003) = 0.997 . Väärtus 0.997 näitab, et digiretsepti ajakohasus on peaaegu täiuslik. Negatiivse stsenaariumi puhul jõuavad andmed süsteemi vahetult enne või pärast kehtivuse lõppu ning sellisel juhul läheneks andmete ajakohasuse väärtus nullile. Reeglipärasus (Orderliness)
Reeglipärasus näitab, mil määral andmete formaat ja struktuur on esitatud süsteemselt ja korrapäraselt. Andmete formaadi osas kontrollit akse esmalt kas andmete esitamisel kasutatakse sobivaid andmetüüpe, seejärel kas andmed on esitatud konkreetsele andmetüübile vastavas vormingus ning lõpuks kas andmed vastavad standardite ja rakenduste poolt seatud nõuetele. Üheks tihtiesinevaks nõudeks on joondus valitud referentssüsteemiga, olgu selleks siis loendid, klassifikaatorid või andmete väärtus mõnes teises andmekogumikus. Reeglipärasuse dimensiooni oleme indikaatoriteks jaganud järgmiselt: • kokkulepitud klassifikaatorite kasutamisest kõrvalekallete määr; • kokkulepitud andmemustritest kõrvalekallete määr. Kokkulepitud klassifikaatorite kasutamisest kõrvalekallete määra abil saab näiteks hinnata, kuivõrd aadressiandmed ja majanduslik tegevusala on talletatud vastavalt kokkulepitud klassifikaatorile. Kokkulepitud andmemustritest kõrvalekallete määr on seotud andmemustritega nagu kuupäev (date), arv (integer) või loogiline jah/ei (boolean) väli. Näiteks saab kokkulepitud andmemustritest kõrvalekallet hinnata isikukoodi või kuupäeva puhul. Ühekordsus ( Uniqueness)
Ühekordus näitab, mil määral esineb duplikaatkirjeid. Teisisõnu on andmed ühekordselt talletatud siis, kui igale unikaalsele kirjele vastab üks võtmeväärtus mistõttu tuleb ühekordsuse mõõtmisel keskenduda võtmeväärtustele ning nende seostele. Ühekordsuse probleemi ei tohiks esineda, kui kasutatakse relatsioonilist andmebaasi struktuuri ning määratud on korrektsed primaarvõtmed. Seejuures on aga oluline, et primaarvõtme määramise protseduur oleks usaldusväärne. Duplikaatkirjete probleem on suure m teiste andmestruktuuride puhul, kus unikaalsete võtmete määramine pole võimalik (näiteks MS Exceli tabelis). Näitlikustamaks ühekordsuse probleemist tingitud lisakulu võime vaadelda olukorda, kus ühe kliendi kohta on andmetes talletad mitu kirjet. Saates nende andmete põhjal klientidele emaile saavad dubleeritud kirjetega kliendid mitu kirja, mis mõjutab nii saatmise kulu kui ka asutuse reputatsiooni kliendi silmis. Eelnevast tulenevalt oleme ühekordsuse indikaatori määranud järgmiselt: • Duplikaatkirjete määr. Duplikaatkirjete määr näitab duplikaatkirjete osakaalu kirjete koguarvus ning on oluline näiteks aadresside, kontaktisikute ja klassifikaatorite talletamisel.

31 4.7 Andmekvaliteedi reeglile mõõdiku seadmine Järgnevalt on esitatud kvaliteedidimensioonide ja indikaatorite kasutamist illustreerivad näidisjuhtumid. Iga indikaatori kohta on võimalik kirjeldada hulk andmekvaliteedi reegleid. Näidisjuhtumites on kirjeldatud iga indikaatori kohta üks näidisreegel, kirjeldatud reegli hindamiseks vajalikud meetmed, illustreeritud hetketaseme hindamist ning toodud näidis sihttasemest. Tabel 3. Andmekvaliteedi reeglile mõõdiku seadmine – Õigsus. Indikaator Reegel Meede Hetketase Sihttase Süntaktiliselt õiged kirjed Isiku nimi ei tohi sisaldada numbreid. Loendada kokku veergude arv, kus isiku nimedes on numbreid ning kirjete koguarv.

Numbreid sisaldavate nimede arv: 100 Isikute koguarv: 5 000 (5000- 100)/5000 *100 = 98%

98% isikute nimedest ei sisalda numbreid.

100% Autentsed kirjed Isiku elukoht peab vastama Rahvastikuregistri andmetele. Teostada isikute väljavõte ning elukohtade väljavõte Rahvastikuregistrist ning võrrelda seda hinnatavate andmetega.

Rahvastikuregistriga mitte kattuvate elukohaandmete arv: 10 Kirjete koguarv: 1000

(1000- 10)/1000 *100 = 99%

99% elukohaandmet est vastab Rahvastikuregi stri andmetele. 100% Kokkulepitud kirjaviisiga kirjed Venekeelsed isikute nimed peavad olema talletatud järgides korrektset vene- eesti transkriptsiooni.
Võrrelda vene keele tähestikus kirjutatud nimesid (Зернов) ning transkriptsioonide tulemusi (Zernov).

Ebakorrektsete transkriptsioonide arv: 450 Venekeelsete nimede koguarv: 500 (500- 450)/500*100 = 10%

10% teostatud transkriptsiooni dest järgib korrektset vene-eesti transkriptsiooni . 100% Tabel 4. Andmekvaliteedi reeglile mõõdiku seadmine - Täielikkus. Indikaator Reegel Meede Hetketase Sihttase Andmeobjekti täielikkus Riigi peaprokuröri kohta peavad olema täidetud kõik isikuandmed. Loendada kokku riigi peaprokuröri ametiga seotud isiku kohta andmeid talletavate väljade arv ning väärtustatud väljade arv. 4/5*100 = 80%

80% konkreetse isiku kohta käivatest andmetest on väärtustatud. 100%

32 Indikaator Reegel Meede Hetketase Sihttase

Väärtustatud väljade arv: 4 Andmeid talletavate väljade arv: 5 Atribuudi täielikkus Kõikide isikute kohta peab olema teada nende telefoninumber. Loendada kokku isikute arv, kus tunnus „Telefoninumber“ on tühi ning isikute koguarv.

Telefoninumbrita isikute arv: 30 Isikute koguarv: 150 30/150*100 = 20%

80% isikute kohta on teada telefoninumber.

100% Olemihulga täielikkus Kõik isiku kohta käivad andmed peavad olema väärtustatud. Loendada kokku isiku tabeli väärtustatud väljade arv ning väljade koguarv.

Isiku tabeli väärtustatud väljade arv: 600 Isiku tabeli väljade koguarv: 1000

600/1000*100 = 60%

60% isiku kohta käivatest andmeväljadest on väärtustatud.

80% Olemasolevad atribuudid nõutavatest atribuutidest Isiku kohta peab olema võimalik talletada eesnime, perekonnanime, isikukoodi ja rahvuse andmeid. Leida olemasolevate atribuutide arv ning võrrelda seda nõutavate atribuutide arvuga.

Olemasolevate atribuutide arv (eesnimi, perekonnanimi, isikukood): 3 Nõutavate atribuutide arv: 4 3/4*100=75%

75% nõutud atribuutidest on olemas. 100% Tabel 5. Andmekvaliteedi reeglile mõõdiku seadmine – Ajakohasus. Indikaator Reegel Meede Hetketase Sihttase Ajakohasuse määr Riigieksamite tulemused peavad olema kasutatavad enne sisseastumis- perioodi lõppu. Arvutada ajakohasuse väärtus vastavalt ajakohasuse definitsioonile (Error! Reference source not found.). Ajakohasuse väärtus: 0.9

0.8

33 Tabel 6. Andmekvaliteedi reeglile mõõdiku seadmine - Reeglipärasus. Indikaator Reegel Meede Hetketase Sihttase Klassifikaatoritest kõrvalekalded Majanduslik tegevusala peab olema talletatud vastavalt EMTAK-ile. Loendada kokku juhtumite arv, kus tegevusala ei vasta EMTAK-i klassifikatsioonile.

EMTAK-ist kõrvalekallete arv: 200 EMTAK koodidega kirjete arv: 1771 200/1771 * 100 = 11%

11% kirjete majanduslikest tegevusaladest ei vasta EMTAK-ile. 0% Andmemustritest kõrvalekalded Isikukood peab olema 11 kohaline täisarv. Loendada kokku väärtused, kus isikukood ei vasta kokkulepitud tingimustele ning isikukoode sisaldavate väljade koguarv.

Andmemustrile mittevastavate isikukoodide arv: 400 Isikukoodide koguarv: 700 000 400/700 000 * 100 = 0.05%

0.05% isikukoodidest ei vasta nõuetele 0% Tabel 7. Andmekvaliteedi reeglile mõõdiku seadmine – Ühekordsus. Indikaator Reegel Meede Hetketase Sihttase Duplikaatkirjed Iga postiindeks peab olema unikaalne. Loendada kokku duplikaatide arv ning postiindeksite koguarv.

Duplikaatide arv: 10 000
Postiindeksite arv: 1 000 000 10 000/ 1 000 000*100 = 1%

1% postiindeksi kirjetest on duplikaadid. 0%

4.8 Kvaliteediprobleemide prioriseerimine

On tõenäoline, et eelnevalt kirjeldatud kvaliteedidimensioonide hindamise käigus tuvastati mitmeid erinevaid kvaliteediprobleeme. Esmalt on mõistlik põhjalikumalt tegeleda nende kvaliteediprobleemide analüüsimise ja lahendamisega, mis on asutusele suurima mõjuga. Seetõttu tuleks kvaliteediprobleemide esmasel prioriseerimisel kasutada ärilise mõju hindamise tehnikaid. Esmaseks hindamiseks sobivad hästi lihtsamad tehnikad, näiteks võib koguda stsenaariumeid, mis kirjeldavad halva andmekvaliteedi mõju ärile. Teine lihtne tehnika ärilise mõju on hindamiseks on koostada loend konkreetseid andmeid kasutavatest asutustest ja protsessidest. Mida rohkem on andmeid kasutavaid asutusi ja protsesse seda olulisemad on

34 konkreetsed andmed. Kasutada võib ka viis korda „Miks?“ küsimise tehnikat eesmärgiga jõuda kvaliteediprobleemi tegeliku mõjuni. Põhjalikum mõju hindamine toimub protsessi hilisemas faasis pärast andmekvaliteedi juurpõhjuste analüüsi. 4.9 Andmekvaliteedi aruandepõhjade väljatöötamine Andmekvaliteedi aruanded aitavad tuua välja andmete kvaliteediga seotud kitsaskohad ning kommunikeerida edasiminekuid, selleks, et tõenduspõhiselt juhtida andmekvaliteediga seotud andmehalduse protsesse.
Kuigi aruannete põhjad tulenevad paljuski sellest kuidas on asutuses andmehaldus korraldatud, on osad näitajad kasulikud laiemalt ja eri asutustes.
Näidisena oleme esitanud need vaated andmete kvaliteedi seiramiseks ja andmekvaliteedi reeglitest ülevaate saamiseks, mis võiksid olla kasutuses enamikes asutustes. Näidis on juurdepääsetav siin: https://datastudio.google.com/u/0/reporting/e34c9f7b-7c05-4870-a5b7- 2cb1e6b6299c/page/FKO9
Kindlasti ei pretendeeri vaadete komplekt täielikule andmekvaliteedi aruande vaadete komplektile. Aruanded annavad vastused järgmistele küsimustele:
• Kui suur osa hallatud andmeobjektidest vastab andmekvaliteedi nõuetele?
• Milline on konkreetse ärimõistega seotud andmete andmekvaliteedi hetkeseis dimensioonide lõikes?
• Kuidas on konkreetse ärimõistega seotud andmete andmekvaliteet muutunud ajas dimensioonide lõikes? • Millised andmeelemendid ja mil määral on kaetud andmekvaliteedi reeglitega?
• Millised andmekvaliteedi reeglid on kirjeldatud? • Milliste andmeobjektide kvaliteeti on vaja tõsta? 4.10 Andmekvaliteedi reeglite haldamine Andmekvaliteedi reeglid on oluline metaandmete vorm. Et andmekvaliteedi reeglid oleksid efektiivsed tuleks neid ka hallata kui metaandmeid. Andmekvaliteedi reeglid peaksid olema:
• Järjepidevalt dokumenteeritud. Andmekvaliteedi reeglite dokumenteerimiseks tuleb luua selge mall, et tagada reeglite ühtne formaat ning mõistetavus. Dokumentatsioon peaks kindlasti sisaldama andmekvaliteedi reegli unikaalset identifikaatorit ning reegli versiooni numbrit. • Seostatud andmekvaliteedi dimensioonidega. Andmekvaliteedi dimensioonid aitavad inimestel mõista mida mõõdetakse. Andmekvaliteedi dimensioonide järjepidev rakendamine toetab mõõtmise ning probleemide haldamise protsesse. • Seotud ärilise mõjuga. Andmekvaliteedi dimensioonid aitavad mõista levinud andmekvaliteedi probleeme, kuid dimensioonide kasutamine ja mõõtmine pole eesmärk omaette. Andmekvaliteedi reeglid peavad omama otsest mõju organisatsiooni edule. Seega pole äriprotsessidega mitteseotud mõõtmised vajalikud. • Andmeanalüüsi poolt toetatud. Andmekvaliteedi reegleid ei peaks kirjeldama subjektiivsete arvamuste alusel. Reegleid tuleb testida reaalsetel andmetel. Tihti toob selline testimine välja andmetes eksisteerivad probleemid ning aitab objektiivselt tuvastada ka andmekvaliteedi reeglites eksisteerivaid puuduseid.

35 • Valdkonna eksperdi poolt heakskiidetud. Andmekvaliteedi reeglite eesmärgiks on ilmutada nõuded andmetele. Tihti on reeglite õigeks kirjeldamiseks vajalikud teadmised konkreetse ärivaldkonna protsessidest. Neid teadmisi tuleks koguda konkreetse valdkonna eksperdilt, kelle ülesandeks on kinnitada kirjeldatud ärireeglid või selgitada andmeanalüüsi tulemusi. • Andmete kasutajatele kättesaadavad. Kõigil andmete kasutajatel peaks olema juurdepääs dokumenteeritud andmekvaliteedi reeglitele. Juurdepääs reeglitele aitab andmete kasutajatel andmeid paremini mõista ning aitab samas tagada, et reeglid on täielikud ja õiged. Lisaks peab olema võimalus küsida reeglite kohta küsimusi ning anda tagasisidet. Andmekvaliteedi reeglite tuvastamist lihtsustab andmete profileerimine ja analüüs. Koos andmekvaliteedi praktika küpsuse tõusuga peaks selline reeglite kirjeldamine liikuma süsteemide arendamise ja parandamise protsessi, sest andmekvaliteedi reeglite varases faasis kirjeldamine loob: • Selged ootused andmete kvaliteedinäitajatele. • Nõuded tarkvarasüsteemidele, mille rakendamise tulemusena välditakse andmekvaliteedi probleemide teket. • Andmekvaliteedi nõuded partnerorganisatsioonidele ja muudele välistele osapooltele. • Aluse pidevaks andmete kvaliteedi mõõtmiseks ja aruandluseks.. Andmekvaliteedi reeglid võivad muutuda kui: • Andmekvaliteedi mõõtmise ja juurpõhjuste analüüsi tulemusena tuvastatakse, et hetkel kehtivad reeglid pole piisavad. • Ebakvaliteetsete andmete tõttu on tekkinud probleem. • Toimuvad muudatused ärinõuetes, regulatsioonides või mujal. Kui andmehaldur on tuvastanud vajaduse andmekvaliteedi reegli muutmiseks, tuleb tal esitada andmeomanikule muudatusettepanek. Muudatusettepanek peaks sisaldama vähemalt muudatuse kirjeldust, muudatuse vajajaid või muudatusest kasusaajaid (näiteks konkreetne osakond või klient) ning muudatusettepaneku esitaja poolt defineeritud muudatuse prioriteetsust. Et jälgida andmekvaliteedi reeglite muutumist ajas peab olema võimalik tuvastada konkreetse reegli versioone nii minevikust kui ka tulevikus. Teisisõnu tähendab see, et peab olema võimalik tuvastada reegli algset versiooni, kõiki arenduse käigus kasutatud versioone ning hetkel kastutusel olevat versiooni. Korrektse versioneerimise tulemusena on võimalik saada ülevaade, kas konkreetne reegel juba eksisteerib ja millisest andmekvaliteedi reeglist on varasemalt lähtutud. Lisaks on versioneerimine oluline muudatuste haldamiseks. Näiteks on seeläbi võimalik paremini ennustada reegli muutmiseks vajamineva töö mahtu ning lihtsustada reeglite hilisemat taaskasutust, näiteks uuele süsteemile üleminekul. Probleemide tekkimisel toetavad korrektselt versioneeritud reeglid juurpõhjuste analüüsi läbiviimist aidates tuvastada probleemi algallikat. Versioneerimise toetamiseks peab igal andmekvaliteedi reeglil olema unikaalne identifikaator, talletatud konkreetse reegli kehtivust tähistavad kuupäevad ning versiooni number.