12
3 Andmekvaliteedi juhtimise tegevused
3.1 Andmekvaliteedi eesmärkide määramine
Usaldusväärsed ja kõrge kvaliteediga andmekogudes hoitavad andmed (näiteks rahvastiku ja
avalike teenuste kohta hoitavad andmed) võimaldavad asutustel ja riigil teha paremaid otsuseid.
Et paremate otsuste langetamine oleks võimalik peavad andmed olema usaldusväärsed. Halvasti
hallatud andmete tõttu tekkivad probleemid sarnanevad halvasti hallatud finantside puhul
tekkivatele probleemidele. Riigi ja asutuste peamine andmehalduse ning sealhulgas ka
andmekvaliteedi tagamise eesmärk on maksimeerida andmetest saadavat väärtust. Samamoodi
nagu loob väärtust muude ressursside korrektne haldamine. Andmete väärtuse all tuleb silmas
pidada korrektsetest andmetest ja nende kasutamisest tõusvat kasu. Kvaliteetsetest andmetest
tulenev kasu seisneb riigi võimes pakkuda kuluefektiivselt kvaliteetseid avalikke teenuseid ning
langetada korrektselt riigi ja kodaniku jaoks olulisi otsuseid. Näiteks loovad õiged andmed
võimekuse täpselt planeerida tulevast lasteaiakohtade arvu, omada täpset ülevaadet riigi
reservväelaste hulgast ning tagavad ka korrektse sotsiaaltoetuste määramise.
Andmekvaliteedi tõstmine ja hoidmine on järjepidev protsess, mitte ühekordne projekt.
Andmekvaliteedi programmiga alustamise eesmärgid on järgmised:
•
organisatsiooni andmete väärtuse tõstmine;
•
uute võimaluste loomine andmete kasutamiseks (ehk andmete väärindamine);
•
madalast andmekvaliteedist tulenevate riskide vähendamine;
•
organisatsiooni efektiivsuse ja produktiivsuse tõstmine;
•
organisatsiooni reputatsiooni kaitsmine ja tugevdamine.
Organisatsioonide jaoks, mis püüavad andmete abil väärtust luua, on kõrge kvaliteediga
andmed oluliselt väärtuslikumad kui madala kvaliteediga andmed. Madala kvaliteediga
andmetega kaasnevad lisaks ka kõrgemad riskid. Näiteks võib halb andmekvaliteet kahjustada
organisatsiooni reputatsiooni, tuua kaasa rahalisi kaotusi ja negatiivseid meediakajastusi.
Madala andmekvaliteediga on seotud ka mitmed otsesed kulud, näiteks:
•
suutmatus esitada korrektseid arveid;
•
suurenenud kliendiprobleemide arv ning vähenenud suutlikus nende lahendamiseks;
•
suurem keerukus asutuste tegevuse (ümber)korraldamisel;
•
väiksem võimekus pettuste tuvastamisel;
•
madala või negatiivse mõjuga otsused.
Usaldusväärsed andmed mitte ainult ei maanda riske ja vähenda kulutusi, vaid toetavad ka
efektiivsuse tõusu ning on üheks vahendiks organisatsiooni edu saavutamisel. Kvaliteetsed
andmed aitavad töötajatel küsimustele kiiremini vastata, sest vähem aega kulub andmete
õigsuse kontrollimisele. Seega jagub ajalist ressurssi rohkem andmete sisuliseks analüüsiks ja
õigete otsuste langetamiseks.
Asutuse andmekvaliteedi protsess peaks juhinduma järgmistest põhimõtetest:
•
Kriitilisus – andmekvaliteedi protsess peaks keskenduma kõige kriitilisematele
andmetele. Muudatuste prioriseerimine peaks põhinema andmete kriitilisusel ning
võtma arvesse võimalikke ebakorrektsete andmetega kaasnevaid riske.
•
Elutsükli juhtimine – andmekvaliteeti tuleb juhtida kogu andmete elutsükli jooksul.
See hõlmab andmete liikumise haldamist nii protsessides, süsteemides kui ka eri
13 süsteemide vahel. Näiteks peab iga andmeahela lüli (nii protsess kui süsteem) tagama andmete kõrge kvaliteedi. • Ennetamine – andmekvaliteedi haldamise protsess peaks keskenduma andmevigade ennetamisele ning andmete kasutatavust pärssivate tegurite vähendamisele. Kindlasti ei tohiks keskenduda vaid andmevigade parandamisele. • Probleemide juurpõhjuste lahendamine – andmekvaliteedi tõstmine tähendab enamat kui andmevigade parandamist. Andmekvaliteedi probleemide lahendamiseks tuleb tuvastada probleemide algallikad, mitte keskenduda vaid tagajärgede likvideerimisele. Seejuures hõlmab andmekvaliteedi tõstmine tihti protsesside ja süsteemide täiustamist, mis on levinud kvaliteediprobleemide algallikad. • Andmehaldus – andmehalduse tegevused peavad toetama kõrgekvaliteediliste andmete teket ning andmekvaliteedi protsessi tegevused peavad toetama ja säilitama hallatavat andmekeskkonda. • Sihttasemetest lähtumine – andmekvaliteedi reeglid kuuluvad kõikidele andmete elutsükli osapooltele. Nendele andmekvaliteedi reeglitele peaksid olema määratletud sihttasemed. • Objektiivne mõõtmine ja läbipaistvus – andmekvaliteedi taset tuleb mõõta objektiivselt ja järjepidevalt ning mõõtetulemusi ja meetodeid tuleks jagada kõigi osapooltega. • Äriprotsessidesse juurutamine – äriprotsesside omanikud ehk protsesside eest vastutajad peavad tagama, et ärireeglites sisalduvad andmekvaliteeti puudutavad reeglid. • Süsteemidesse juurutamine – süsteemide omanikud, ehk süsteemide eest vastutajad peavad tagama, et süsteemides rakendatakse andmekvaliteedi mõõtmiseks andmekvaliteedi reegleid. • Teenustasemega ühendamine – teenustaseme lepingud (Service Level Agreements) peaksid sisaldama andmekvaliteedist raporteerimist ja probleemide haldamist puudutavaid punkte.
3.2 Andmekvaliteedi reeglite kirjeldamine
Andmekvaliteedi programmiga alustades tuleb esmalt saada ülevaade olemasolevatest
andmetest ja andmekvaliteedi hetkeseisust. Üks viis andmetest esmase ülevaate saamiseks on
viia läbi andmete profileerimine.
Andmete profileerimine on protsess, mille eesmärgiks on uurida olemasolevaid andmeid
(andmebaasist, konkreetsest failist jm) ning koguda statistikat ja informatiivseid kokkuvõtteid
andmete
koosseisu
kohta.
Näiteks
tuvastatakse
profileerimise
käigus
arvväärtuste
esinemissagedus, formaat, mustrid ja muud andmeid iseloomustavad omadused. Saadud info
põhjal on võimalik küsida täiendavaid küsimusi, mis omakorda aitavad tuvastada
andmekvaliteedi reegleid. Andmekvaliteedi reeglid on sisendiks andmekvaliteedi programmi
hilisemas faasis toimuvale andmekvaliteedi hindamisele.
Andmete profileerimise teostamiseks kasutatakse üldjuhul profileerimistööriistu, mis
annavad hea esmase ülevaate andmetest ja andmete kvaliteedist. Juhendi rakenduslikus osas
on toodud juhised profileerimise teostamiseks Ehitisregistri näitel. Valik profileerimise
teostamiseks sobivatest tööriistadest on leitav käesoleva juhise soovituslike töövahendite
sektsioonis. Kuigi profileerimistööriistad esitavad andmete kohta mitmesugust statistikat ja
14
mõõdikuid, pole profileerimise puhul tegu andmekvaliteedi hindamisega. Andmekvaliteedi
mõõtmine on põhjalikum tegevus, mille käigus hinnatakse andmete vastavust andmekvaliteedi
reeglitele.
Võimalik on eristada kolme tüüpi andmete profileerimist:
•
Struktuuripõhise profileerimise käigus analüüsitakse andmete järjepidevust ja
formaadilist korrektsust. Lisaks teostatakse matemaatilisi kontrolle (näiteks summa
leidmine, miinimumväärtuste leidmine ja maksimumväärtuste leidmine).
Struktuuripõhine profileerimine aitab tuvastada, kui hästi on andmed struktureeritud.
Näiteks kui palju on vale pikkusega telefoninumbreid.
•
Sisupõhise profileerimise käigus analüüsitakse konkreetseid andmekirjeid, mille
tulemusena on võimalik tuvastada andmekirjetes esinevaid süstemaatilisi probleeme.
Näiteks ilma suunakoodita telefoninumbrite esinemist.
•
Seostepõhise profileerimise käigus tuvastatakse andmete omavahelised seosed,
näiteks andmetabelite vahelised seosed või arvutustabelis (näiteks MS Exceli failis)
hoitavate tabelite või väljade seosed.
Olles profileerimise käigus saanud esmase ülevaate andmetest ning nende kvaliteedist, on
võimalik teostada andmekvaliteedi reeglite kirjeldamine. Andmekvaliteedi reeglid tuleks esmalt
kirjeldada kõige olulisematele andmetele ehk alustada tuleks andmetest, mis loovad asutusele
ning selle klientidele enim väärtust. Seetõttu on andmekvaliteedi reegleid tihti mõistlik kirjeldada
esmalt põhiandmetele, mille Avaliku teabe seadus defineerib järgmiselt: “Põhiandmed on riigi
infosüsteemi kuuluvasse andmekogusse kogutavad andmekogu unikaalsed andmed, mis tekivad
andmekogu haldaja avalike ülesannete täitmise käigus.”
Andmekvaliteedi reeglite kirjeldamise eesmärgiks on ilmutada nõuded, millele vastavus
tagab andmete kasulikkuse ja kasutatavuse organisatsioonis. Osad andmekvaliteedi reeglid
tulenevad ärireeglitest. Ärireeglid kirjeldavad protsesside sisemist toimimist eesmärgiga tagada
äriline edu ja sobivus ärikeskkonnaga. Seejuures ei kajastu kõik andmekvaliteedi reeglid
ärireeglites ning vastupidi, osad ärireeglid ei kajastu andmekvaliteedi reeglites.
Tihti puudub äri- ja andmekvaliteedi reeglite kohta selge dokumentatsioon, sellisel juhul on
neid võimalik tuvastada analüüsides olemasolevaid äriprotsesse, töövooge, regulatsioone,
eeskirju, standardeid, programmide lähtekoodi jms kättesaadavat informatsiooni. Seejuures on
andmekvaliteedi reeglite kirjeldamisel abiks eelnevalt profileerimise käigus andmete kohta
kogutud informatsioon. Kirjeldamist aitab teostada ka käesoleva juhise sektsioonis 2.3.2 toodud
andmekvaliteedi probleemide raamistik, mis esitab 21 tüüpilist andmekvaliteedi probleemi ning
nende esinemist illustreerivad näited.
Juhise järgnevates sektsioonides kirjeldatud andmekvaliteedi dimensioonid koos
täpsustavate
indikaatoritega
toetavad
samuti
andmekvaliteedi
reeglite
kirjeldamist.
Andmekvaliteedi probleemide ja dimensioonide seos on illustreeritud Tabel 1, kus on kirjeldatud
ka millist andmestiku osa konkreetne probleem puudutab (näiteks atribuuti, veergu, kirjet või
andmete vahelisi seoseid). Atribuudi ja veeru tasemel andmekvaliteedi reeglite kirjeldamine on
pigem madala keerukusega. Näiteks täielikkuse dimensiooni kuuluvad andmekvaliteedi reeglid
kirjeldavad, kas tegu on kohustusliku või valikulise veeruga. Valikulise veeru puhul peavad olema
täpsustatud ka tingimused, millal antud veergu täita tuleb. Lisaks peaksid reeglid olema
defineeritud andmestiku tasemel. Näiteks „Kõigis andmestikes peab soo tähis „M“ tähistama
meessugu.“
15 Vajadusel on reeglite kirjeldamisel abiks äriprotsesside sisendite ja väljundite täpsustamine äriprotsessi eri os apooltega. Samuti on kasulik uurida osapoolte probleeme. Näiteks täpsustada mis juhtub, kui andmed on valed või puuduvad ja kuidas tuvastatakse probleeme. Seejuures on kasulik meeles pidada, et andmekvaliteedi hindamiseks pole vaja teada kõiki andmekvali teedi reegleid. Reeglite tuvastamine ja täpsustamine on pidev protsess. Üks parimaid viise andmekvaliteedi reeglite kogumiseks on andmekvaliteedi hindamise tulemuste eri osapooltega jagamine. Tihti aitab tulemuste jagamine osapooli uute vaatenurkade leidmisel ning seeläbi uute reeglite sõnastamisel. Eelpool kirjeldatud tegevuste tulemuseks on selgelt sõnastatud andmekvaliteedi reeglid, näiteks „Väli „SYNNIKUUPAEV“ on kohustuslik ning peab olema väärtustatud.“ Reeglite kirjeldamisele järgneb andmekvaliteedi mõõtmine, mille käigus teostatavad mõõtmised näitavad andmete vastavust andmekvaliteedi reeglile, näiteks „3% juhtudest pole väli väärtustatud, seega on andmete täielikkus 97%.“
16
4 Andmekvaliteedi mudel
4.1 Andmekvaliteedi mudeli valik
Andmete kõrge kvaliteedi tähtsustamine teoreetikute ja praktikute poolt ning kasu, mida sellest
on saadud, on aidanud kaasa andmekvaliteedi raamistike paljususe tekkele. Lähtuvalt
valdkondlikest iseärasustest, infosüsteemide eripäradest ja andmete kontekstist on loodud
kümneid erinevaid andmekvaliteedi raamistikke. Eesti andmekvaliteedi juhises on võetud
kasutusele mudel, milles on viis dimensiooni:
•
täielikkus,
•
ajakohasus,
•
õigsus,
•
reeglipärasus ja
•
ühekordsus.
Kolm
esimest
on
eri
raamistikes
enimlevinud
dimensioonid. Reeglipärasus võeti
mudelisse, sest see võimaldab
jälgida
klassifikaatorite
ja
infosüsteemide sisemiste loendite
kasutamist
ning
põhiandmete
kasutamist. Et asutuse sees ei
oleks dublitseerivaid andmeid, siis
on
raamistikus
eraldi
dimensioonina
välja
toodud
ühekordsus.
Andmekvaliteedi mudelis on
neid
dimensioone
kasutatud
andmekvaliteedi
indikaatorite,
probleemide ja reeglite grupeerimiseks. See tagab andmekvaliteedi süsteemse käsitlemise ja
lihtsustab andmekvaliteedi haldamist, sh andmekvaliteedi reeglite väljatöötamist.
Andmekvaliteedi reeglite grupeerimiseks kasutame täiendavalt Oliveira jt poolt välja
töötatud andmekvaliteedi probleemide taksonoomiat. (Oliveira, Paulo, Fátima Rodrigues, and
Pedro Rangel Henriques. "A formal definition of data quality problems." ICIQ. 2005) Erinevalt
teistest andmekvaliteedi probleemide raamistikest põhineb selles raamistikus toodud
andmekvaliteedi probleemide taksonoomia laiapõhjalisel juhtumiuuringul, on formaliseeritud
ning toetub samade autorite varasemale tööle , mis pakub lisaks konkreetseid algoritme
andmekvaliteedi probleemide tuvastamiseks ja klassifitseerimiseks. Andmekvaliteedi reeglite
kirjeldamisel
lähtume
me
tuvastatud
andmekvaliteedi
probleemidest
ja
juhtimisel
andmekvaliteedi dimensioonidega seotud indikaatoritest. Seosed dimensioonide ja reeglite vahel
tekivad läbi reeglite grupeerimise andmekvaliteedi probleemide alusel. Selline probleemipõhine
liigitusskeem lihtsustab andmekvaliteedi reeglite jaotamist dimensioonidesse.
4.2 Andmekvaliteedi mudeli dimensioonid
Andmekvaliteedi dimensioonid (Joonis 2) on mõõdetavad andmete omadused, mis väljendavad
andmete kvaliteeti erinevatest aspektidest lähtuvalt. Eksisteerib palju erinevaid andmekvaliteedi
Joonis 2: Andmekvaliteedi mudel
17
dimensioonide käsitlusi, kuid antud juhises keskendutakse viiele kvaliteedidimensioonile ning
nende hindamist toetavate indi kaatorite kirjeldamisele. Võimalik on kasutada ka teistsuguseid
dimensioonide liigitusi, kuid konkreetsed andmekvaliteedi probleemid seejuures ei muutu.
Teistsugust dimensioonide liigitust kasutades on vaja määrata andmekvaliteedi probleemide
seosed dimensioonidega. Antud dimensioonide puhul on nimetatud seosed kirjeldatud käesoleva
juhise tabelis 1.
Õigsus (Accuracy) näitab, mil määral vastavad andmed tegelikkusele. Andmete õigsus
jaguneb süntaktiliseks ja semantiliseks õigsuseks. Sünktaktiline õigsus kontrollib andmete
vormilist korrektsust Näiteks kui nimi „Tõnu“ on andmetes talletatud kui „T6nu“ pole andmed
süntaktiliselt õiged. Semantiline õigsus kontrollib andmete sisulist korrektsust ehk autentsust.
Näiteks kui inimese nimi on „Tõnu“ aga tema sooks on märgitud „N“ (Naine).
Täielikkus (Completeness) näitab, mil määral on olemas kõik nõutud andmed. Täielikkus
on vaadeldav kahes osas: kirjete täielikkus ja kogumi ehk populatsiooni täielikkus. Kirjete
täielikkus näitab, mil määral on andmekirje kõigil tunnustel olemas väärtused. Näiteks mil määral
on andmetabeli veeru read (ehk atribuudid) täidetud. Populatsiooni täielikkus näitab kas kõik
nõutavad kirjed on olemas. Näiteks andmetabeli puhul kõigi nõutud veergude olemasolu.
Ajakohasus (Timeliness) näitab, mil määral andmete värskus ja kättesaadavus vastab
vajadustele ja nõuetele. Aja jooksul andmed muutuvad ning viide reaalsete sündmuste ning
nende andmetes fikseerimise või andmete värskendamise vahel on vältimatu. Seetõt tu on
võimalik olukord, kus andmed on küll uuendatud, kuid nende tekkeks või värskendamiseks kuluv
aeg muudab andmete kasutamise mõne konkreetse ülesande jaoks võimatuks. Näiteks võib
ülikooli tunniplaan olla küll värske, kuid see pole ajakohane kui see jõuab tudengiteni alles pärast
loengute algust.
Reeglipärasus (Orderliness) näitab, mil määral andmete formaat ja struktuur vastab
nõuetele. Esiteks tähendab reeglipärasus kokkulepitud klassifikaatorite kasutamist (näiteks
EMTAK-i kasutamist majandusliku teg evusala talletamiseks). Teiseks tähendab reeglipärasus
kokkulepitud andmemustrite järgimist. Näiteks on kokkulepitud andmemuster (süntaks)
kuupäeval ja isikukoodil ning need on seotud andmetüüpidega kuupäev ( date) ja arv ( integer).
Reeglipärasuse alla kuul ub ka andmete küsimine kokkulepitud põhiandmete allikast.
Põhiandmete allikas võib olla nii asutuse sees ( master data ), kui ka üleriigiline. Üleriigilise
põhiandmete allika puhul on tavaliselt tegu kokkulepitud klassifikaatoriga nagu aadressiandmed,
katastritunnus või äriregistri kood.
Ühekordsus (Uniqueness) näitab, mil määral esineb andmetes duplikaatkirjeid.
Ühekordsuse probleem tekib juhul, kui ühe reaalsest elust pärineva objekti kohta on andmetes
talletatud kaks või enam kirjet. Näiteks kui ühe isiku kohta on andmetes talletatud mitu kirjet.
Dimensioonid on konkreetsemaks hindamiseks jagatud mõõdetavateks indikaatoriteks
(Joonis 3). Edasipidi on indikaatorid esitatud konkreetsete andmekvaliteedi probleemidena. See
võimaldab probleeme tuvasta da, seda nende kindlakstegemiseks ja andmekvaliteedi
tuvastamiseks ja kontrolliks reegleid. Probleemide tuvastamise, reeglite seadmise ja mõõtmise
süsteemi on nimeta tud a ndmekvaliteedi mõõtmise metamudel iks ja seda on käsitletakse
järgmises peatükis.
18
Joonis 3: Dimensioonide jaotus indikaatoriteks
4.3 Andmekvaliteedi mõõtmise metamudel Andmekvaliteeti kasutatakse eri tasemetel otsustamiseks nii andmehalduse enda kui muude asutuse või riigi tegevuste korraldamisel ja täideviimisel. Ühelt poolt kombineeritakse andmekvaliteedi reeglitele vastavused/mittevastavused indikaatorite väärtusteks ja need omakorda dimensioonide väärtusteks ja osad neist võivad saada võtmemõõdiku teks üksikutes asutustes või üle riigi. Teiselt poolt agregeeritakse nimetatud tunnuseid andmeelementidelt andmestiku andmeobjekti liikide, andmestike ja asutuse või riigi tasemel otsuste tegemiseks. Andmete kvaliteedi kasutamist iseloomustavad järgnevad stsenaariumid: • SC -DQ -1: Selleks, et tagada ülevaade hoonete energiatõhususest tõstetakse Ehitisregistri energiamärgist puudutavate andmete süntaktiliselt õigete kirjete määr 95%- ni. • SC -DQ -2: Selleks, et tagada riigi kodanike operatiivne teavitamine läbi digikanalite tõstetakse Eesti kodanike kontakttelefoninumbrite, e-postiaadresside ja kontaktaadresside täielikkus riigiüleselt 99%-ni. • SC -DQ -3: Selleks, et tagada kodanike kirjete 100% täielikkus andmestikus X, on vaja parandada eesnimi või perekonnanimi 250 kirjes. • SC -DQ -4: Selleks, et tagada piirkondlikele otsustele ühtlane kvaliteet, on vaja tõsta aadressi kirjete õigsus asutuste X, Y ja Z andmestikes 95%-ni. • SC -DQ -5: Selleks, et võimaldada täielikult registripõhist rahvaloendust, on vaja tõsta rahvastikuregistri elukohaandmete täielikkus 100%-ni ja õigsus 90%-ni. Taoliste stsenaariumite täideviimist toetab andmekvaliteedi mõõtmise metamudel (Joonis 4). Andmekirjelduse olemasolu on andmekvaliteedi mõõtmise eelduseks. Seosed andmekirjelduse ja andm ekvaliteedi olemite vahel on esitatud andmekvaliteedi mõõtmise metamudelis. Täpsemad juhised andmekirjelduse loomiseks on esitatud andmekirjelduse juhises, mis valmis paralleelselt käesoleva juhisega ning on samuti osa andmehalduse raamistikust. Andmekirjelduse koostamisel ja haldamisel kasutatakse kolme tüüpi sõnastikke: VALDKONNA MÄRKSÕNASTIK , ÄRISÕNASTIK ja ANDMESÕNASTIK . ANDMEELEMENDID rühmituvad ANDMETERMINITEKS , mis omakorda on kirjeldatud ANDMESÕNASTIKUS . ÄRITERMINID on kirjeldatud ÄRISÕNA STIKUS , lisaks kasutatakse ÄRISÕNASTIKE loomisel ühe võimaliku terminite allikana VALDKON NA SÕNASTIKKE . ANDMEELEMENDID rühmituvad loogiliselt