AH_juhis_andmekvaliteet_1.3_090523.pdf

Type: Document | Status: ready

12 3 Andmekvaliteedi juhtimise tegevused 3.1 Andmekvaliteedi eesmärkide määramine Usaldusväärsed ja kõrge kvaliteediga andmekogudes hoitavad andmed (näiteks rahvastiku ja avalike teenuste kohta hoitavad andmed) võimaldavad asutustel ja riigil teha paremaid otsuseid. Et paremate otsuste langetamine oleks võimalik peavad andmed olema usaldusväärsed. Halvasti hallatud andmete tõttu tekkivad probleemid sarnanevad halvasti hallatud finantside puhul tekkivatele probleemidele. Riigi ja asutuste peamine andmehalduse ning sealhulgas ka andmekvaliteedi tagamise eesmärk on maksimeerida andmetest saadavat väärtust. Samamoodi nagu loob väärtust muude ressursside korrektne haldamine. Andmete väärtuse all tuleb silmas pidada korrektsetest andmetest ja nende kasutamisest tõusvat kasu. Kvaliteetsetest andmetest tulenev kasu seisneb riigi võimes pakkuda kuluefektiivselt kvaliteetseid avalikke teenuseid ning langetada korrektselt riigi ja kodaniku jaoks olulisi otsuseid. Näiteks loovad õiged andmed võimekuse täpselt planeerida tulevast lasteaiakohtade arvu, omada täpset ülevaadet riigi reservväelaste hulgast ning tagavad ka korrektse sotsiaaltoetuste määramise. Andmekvaliteedi tõstmine ja hoidmine on järjepidev protsess, mitte ühekordne projekt. Andmekvaliteedi programmiga alustamise eesmärgid on järgmised: • organisatsiooni andmete väärtuse tõstmine; • uute võimaluste loomine andmete kasutamiseks (ehk andmete väärindamine); • madalast andmekvaliteedist tulenevate riskide vähendamine; • organisatsiooni efektiivsuse ja produktiivsuse tõstmine; • organisatsiooni reputatsiooni kaitsmine ja tugevdamine. Organisatsioonide jaoks, mis püüavad andmete abil väärtust luua, on kõrge kvaliteediga andmed oluliselt väärtuslikumad kui madala kvaliteediga andmed. Madala kvaliteediga andmetega kaasnevad lisaks ka kõrgemad riskid. Näiteks võib halb andmekvaliteet kahjustada organisatsiooni reputatsiooni, tuua kaasa rahalisi kaotusi ja negatiivseid meediakajastusi. Madala andmekvaliteediga on seotud ka mitmed otsesed kulud, näiteks: • suutmatus esitada korrektseid arveid; • suurenenud kliendiprobleemide arv ning vähenenud suutlikus nende lahendamiseks; • suurem keerukus asutuste tegevuse (ümber)korraldamisel; • väiksem võimekus pettuste tuvastamisel; • madala või negatiivse mõjuga otsused. Usaldusväärsed andmed mitte ainult ei maanda riske ja vähenda kulutusi, vaid toetavad ka efektiivsuse tõusu ning on üheks vahendiks organisatsiooni edu saavutamisel. Kvaliteetsed andmed aitavad töötajatel küsimustele kiiremini vastata, sest vähem aega kulub andmete õigsuse kontrollimisele. Seega jagub ajalist ressurssi rohkem andmete sisuliseks analüüsiks ja õigete otsuste langetamiseks. Asutuse andmekvaliteedi protsess peaks juhinduma järgmistest põhimõtetest: • Kriitilisus – andmekvaliteedi protsess peaks keskenduma kõige kriitilisematele andmetele. Muudatuste prioriseerimine peaks põhinema andmete kriitilisusel ning võtma arvesse võimalikke ebakorrektsete andmetega kaasnevaid riske.
• Elutsükli juhtimine – andmekvaliteeti tuleb juhtida kogu andmete elutsükli jooksul. See hõlmab andmete liikumise haldamist nii protsessides, süsteemides kui ka eri

13 süsteemide vahel. Näiteks peab iga andmeahela lüli (nii protsess kui süsteem) tagama andmete kõrge kvaliteedi. • Ennetamine – andmekvaliteedi haldamise protsess peaks keskenduma andmevigade ennetamisele ning andmete kasutatavust pärssivate tegurite vähendamisele. Kindlasti ei tohiks keskenduda vaid andmevigade parandamisele. • Probleemide juurpõhjuste lahendamine – andmekvaliteedi tõstmine tähendab enamat kui andmevigade parandamist. Andmekvaliteedi probleemide lahendamiseks tuleb tuvastada probleemide algallikad, mitte keskenduda vaid tagajärgede likvideerimisele. Seejuures hõlmab andmekvaliteedi tõstmine tihti protsesside ja süsteemide täiustamist, mis on levinud kvaliteediprobleemide algallikad. • Andmehaldus – andmehalduse tegevused peavad toetama kõrgekvaliteediliste andmete teket ning andmekvaliteedi protsessi tegevused peavad toetama ja säilitama hallatavat andmekeskkonda. • Sihttasemetest lähtumine – andmekvaliteedi reeglid kuuluvad kõikidele andmete elutsükli osapooltele. Nendele andmekvaliteedi reeglitele peaksid olema määratletud sihttasemed. • Objektiivne mõõtmine ja läbipaistvus – andmekvaliteedi taset tuleb mõõta objektiivselt ja järjepidevalt ning mõõtetulemusi ja meetodeid tuleks jagada kõigi osapooltega. • Äriprotsessidesse juurutamine – äriprotsesside omanikud ehk protsesside eest vastutajad peavad tagama, et ärireeglites sisalduvad andmekvaliteeti puudutavad reeglid. • Süsteemidesse juurutamine – süsteemide omanikud, ehk süsteemide eest vastutajad peavad tagama, et süsteemides rakendatakse andmekvaliteedi mõõtmiseks andmekvaliteedi reegleid. • Teenustasemega ühendamine – teenustaseme lepingud (Service Level Agreements) peaksid sisaldama andmekvaliteedist raporteerimist ja probleemide haldamist puudutavaid punkte.

3.2 Andmekvaliteedi reeglite kirjeldamine Andmekvaliteedi programmiga alustades tuleb esmalt saada ülevaade olemasolevatest andmetest ja andmekvaliteedi hetkeseisust. Üks viis andmetest esmase ülevaate saamiseks on viia läbi andmete profileerimine. Andmete profileerimine on protsess, mille eesmärgiks on uurida olemasolevaid andmeid (andmebaasist, konkreetsest failist jm) ning koguda statistikat ja informatiivseid kokkuvõtteid andmete koosseisu kohta. Näiteks tuvastatakse profileerimise käigus arvväärtuste esinemissagedus, formaat, mustrid ja muud andmeid iseloomustavad omadused. Saadud info põhjal on võimalik küsida täiendavaid küsimusi, mis omakorda aitavad tuvastada andmekvaliteedi reegleid. Andmekvaliteedi reeglid on sisendiks andmekvaliteedi programmi hilisemas faasis toimuvale andmekvaliteedi hindamisele.
Andmete profileerimise teostamiseks kasutatakse üldjuhul profileerimistööriistu, mis annavad hea esmase ülevaate andmetest ja andmete kvaliteedist. Juhendi rakenduslikus osas on toodud juhised profileerimise teostamiseks Ehitisregistri näitel. Valik profileerimise teostamiseks sobivatest tööriistadest on leitav käesoleva juhise soovituslike töövahendite sektsioonis. Kuigi profileerimistööriistad esitavad andmete kohta mitmesugust statistikat ja

14 mõõdikuid, pole profileerimise puhul tegu andmekvaliteedi hindamisega. Andmekvaliteedi mõõtmine on põhjalikum tegevus, mille käigus hinnatakse andmete vastavust andmekvaliteedi reeglitele. Võimalik on eristada kolme tüüpi andmete profileerimist: • Struktuuripõhise profileerimise käigus analüüsitakse andmete järjepidevust ja formaadilist korrektsust. Lisaks teostatakse matemaatilisi kontrolle (näiteks summa leidmine, miinimumväärtuste leidmine ja maksimumväärtuste leidmine). Struktuuripõhine profileerimine aitab tuvastada, kui hästi on andmed struktureeritud. Näiteks kui palju on vale pikkusega telefoninumbreid.
• Sisupõhise profileerimise käigus analüüsitakse konkreetseid andmekirjeid, mille tulemusena on võimalik tuvastada andmekirjetes esinevaid süstemaatilisi probleeme. Näiteks ilma suunakoodita telefoninumbrite esinemist. • Seostepõhise profileerimise käigus tuvastatakse andmete omavahelised seosed, näiteks andmetabelite vahelised seosed või arvutustabelis (näiteks MS Exceli failis) hoitavate tabelite või väljade seosed. Olles profileerimise käigus saanud esmase ülevaate andmetest ning nende kvaliteedist, on võimalik teostada andmekvaliteedi reeglite kirjeldamine. Andmekvaliteedi reeglid tuleks esmalt kirjeldada kõige olulisematele andmetele ehk alustada tuleks andmetest, mis loovad asutusele ning selle klientidele enim väärtust. Seetõttu on andmekvaliteedi reegleid tihti mõistlik kirjeldada esmalt põhiandmetele, mille Avaliku teabe seadus defineerib järgmiselt: “Põhiandmed on riigi infosüsteemi kuuluvasse andmekogusse kogutavad andmekogu unikaalsed andmed, mis tekivad andmekogu haldaja avalike ülesannete täitmise käigus.” Andmekvaliteedi reeglite kirjeldamise eesmärgiks on ilmutada nõuded, millele vastavus tagab andmete kasulikkuse ja kasutatavuse organisatsioonis. Osad andmekvaliteedi reeglid tulenevad ärireeglitest. Ärireeglid kirjeldavad protsesside sisemist toimimist eesmärgiga tagada äriline edu ja sobivus ärikeskkonnaga. Seejuures ei kajastu kõik andmekvaliteedi reeglid ärireeglites ning vastupidi, osad ärireeglid ei kajastu andmekvaliteedi reeglites. Tihti puudub äri- ja andmekvaliteedi reeglite kohta selge dokumentatsioon, sellisel juhul on neid võimalik tuvastada analüüsides olemasolevaid äriprotsesse, töövooge, regulatsioone, eeskirju, standardeid, programmide lähtekoodi jms kättesaadavat informatsiooni. Seejuures on andmekvaliteedi reeglite kirjeldamisel abiks eelnevalt profileerimise käigus andmete kohta kogutud informatsioon. Kirjeldamist aitab teostada ka käesoleva juhise sektsioonis 2.3.2 toodud andmekvaliteedi probleemide raamistik, mis esitab 21 tüüpilist andmekvaliteedi probleemi ning nende esinemist illustreerivad näited.
Juhise järgnevates sektsioonides kirjeldatud andmekvaliteedi dimensioonid koos täpsustavate indikaatoritega toetavad samuti andmekvaliteedi reeglite kirjeldamist. Andmekvaliteedi probleemide ja dimensioonide seos on illustreeritud Tabel 1, kus on kirjeldatud ka millist andmestiku osa konkreetne probleem puudutab (näiteks atribuuti, veergu, kirjet või andmete vahelisi seoseid). Atribuudi ja veeru tasemel andmekvaliteedi reeglite kirjeldamine on pigem madala keerukusega. Näiteks täielikkuse dimensiooni kuuluvad andmekvaliteedi reeglid kirjeldavad, kas tegu on kohustusliku või valikulise veeruga. Valikulise veeru puhul peavad olema täpsustatud ka tingimused, millal antud veergu täita tuleb. Lisaks peaksid reeglid olema defineeritud andmestiku tasemel. Näiteks „Kõigis andmestikes peab soo tähis „M“ tähistama meessugu.“

15 Vajadusel on reeglite kirjeldamisel abiks äriprotsesside sisendite ja väljundite täpsustamine äriprotsessi eri os apooltega. Samuti on kasulik uurida osapoolte probleeme. Näiteks täpsustada mis juhtub, kui andmed on valed või puuduvad ja kuidas tuvastatakse probleeme. Seejuures on kasulik meeles pidada, et andmekvaliteedi hindamiseks pole vaja teada kõiki andmekvali teedi reegleid. Reeglite tuvastamine ja täpsustamine on pidev protsess. Üks parimaid viise andmekvaliteedi reeglite kogumiseks on andmekvaliteedi hindamise tulemuste eri osapooltega jagamine. Tihti aitab tulemuste jagamine osapooli uute vaatenurkade leidmisel ning seeläbi uute reeglite sõnastamisel. Eelpool kirjeldatud tegevuste tulemuseks on selgelt sõnastatud andmekvaliteedi reeglid, näiteks „Väli „SYNNIKUUPAEV“ on kohustuslik ning peab olema väärtustatud.“ Reeglite kirjeldamisele järgneb andmekvaliteedi mõõtmine, mille käigus teostatavad mõõtmised näitavad andmete vastavust andmekvaliteedi reeglile, näiteks „3% juhtudest pole väli väärtustatud, seega on andmete täielikkus 97%.“

16 4 Andmekvaliteedi mudel 4.1 Andmekvaliteedi mudeli valik Andmete kõrge kvaliteedi tähtsustamine teoreetikute ja praktikute poolt ning kasu, mida sellest on saadud, on aidanud kaasa andmekvaliteedi raamistike paljususe tekkele. Lähtuvalt valdkondlikest iseärasustest, infosüsteemide eripäradest ja andmete kontekstist on loodud kümneid erinevaid andmekvaliteedi raamistikke. Eesti andmekvaliteedi juhises on võetud kasutusele mudel, milles on viis dimensiooni:
• täielikkus, • ajakohasus, • õigsus, • reeglipärasus ja • ühekordsus.
Kolm esimest on eri raamistikes enimlevinud dimensioonid. Reeglipärasus võeti mudelisse, sest see võimaldab jälgida klassifikaatorite ja infosüsteemide sisemiste loendite kasutamist ning põhiandmete kasutamist. Et asutuse sees ei oleks dublitseerivaid andmeid, siis on raamistikus eraldi dimensioonina välja toodud ühekordsus. Andmekvaliteedi mudelis on neid dimensioone kasutatud andmekvaliteedi indikaatorite, probleemide ja reeglite grupeerimiseks. See tagab andmekvaliteedi süsteemse käsitlemise ja lihtsustab andmekvaliteedi haldamist, sh andmekvaliteedi reeglite väljatöötamist.
Andmekvaliteedi reeglite grupeerimiseks kasutame täiendavalt Oliveira jt poolt välja töötatud andmekvaliteedi probleemide taksonoomiat. (Oliveira, Paulo, Fátima Rodrigues, and Pedro Rangel Henriques. "A formal definition of data quality problems." ICIQ. 2005) Erinevalt teistest andmekvaliteedi probleemide raamistikest põhineb selles raamistikus toodud andmekvaliteedi probleemide taksonoomia laiapõhjalisel juhtumiuuringul, on formaliseeritud ning toetub samade autorite varasemale tööle , mis pakub lisaks konkreetseid algoritme andmekvaliteedi probleemide tuvastamiseks ja klassifitseerimiseks. Andmekvaliteedi reeglite kirjeldamisel lähtume me tuvastatud andmekvaliteedi probleemidest ja juhtimisel andmekvaliteedi dimensioonidega seotud indikaatoritest. Seosed dimensioonide ja reeglite vahel tekivad läbi reeglite grupeerimise andmekvaliteedi probleemide alusel. Selline probleemipõhine liigitusskeem lihtsustab andmekvaliteedi reeglite jaotamist dimensioonidesse. 4.2 Andmekvaliteedi mudeli dimensioonid Andmekvaliteedi dimensioonid (Joonis 2) on mõõdetavad andmete omadused, mis väljendavad andmete kvaliteeti erinevatest aspektidest lähtuvalt. Eksisteerib palju erinevaid andmekvaliteedi Joonis 2: Andmekvaliteedi mudel

17 dimensioonide käsitlusi, kuid antud juhises keskendutakse viiele kvaliteedidimensioonile ning nende hindamist toetavate indi kaatorite kirjeldamisele. Võimalik on kasutada ka teistsuguseid dimensioonide liigitusi, kuid konkreetsed andmekvaliteedi probleemid seejuures ei muutu. Teistsugust dimensioonide liigitust kasutades on vaja määrata andmekvaliteedi probleemide seosed dimensioonidega. Antud dimensioonide puhul on nimetatud seosed kirjeldatud käesoleva juhise tabelis 1. Õigsus (Accuracy) näitab, mil määral vastavad andmed tegelikkusele. Andmete õigsus jaguneb süntaktiliseks ja semantiliseks õigsuseks. Sünktaktiline õigsus kontrollib andmete vormilist korrektsust Näiteks kui nimi „Tõnu“ on andmetes talletatud kui „T6nu“ pole andmed süntaktiliselt õiged. Semantiline õigsus kontrollib andmete sisulist korrektsust ehk autentsust. Näiteks kui inimese nimi on „Tõnu“ aga tema sooks on märgitud „N“ (Naine). Täielikkus (Completeness) näitab, mil määral on olemas kõik nõutud andmed. Täielikkus on vaadeldav kahes osas: kirjete täielikkus ja kogumi ehk populatsiooni täielikkus. Kirjete täielikkus näitab, mil määral on andmekirje kõigil tunnustel olemas väärtused. Näiteks mil määral on andmetabeli veeru read (ehk atribuudid) täidetud. Populatsiooni täielikkus näitab kas kõik nõutavad kirjed on olemas. Näiteks andmetabeli puhul kõigi nõutud veergude olemasolu. Ajakohasus (Timeliness) näitab, mil määral andmete värskus ja kättesaadavus vastab vajadustele ja nõuetele. Aja jooksul andmed muutuvad ning viide reaalsete sündmuste ning nende andmetes fikseerimise või andmete värskendamise vahel on vältimatu. Seetõt tu on võimalik olukord, kus andmed on küll uuendatud, kuid nende tekkeks või värskendamiseks kuluv aeg muudab andmete kasutamise mõne konkreetse ülesande jaoks võimatuks. Näiteks võib ülikooli tunniplaan olla küll värske, kuid see pole ajakohane kui see jõuab tudengiteni alles pärast loengute algust. Reeglipärasus (Orderliness) näitab, mil määral andmete formaat ja struktuur vastab nõuetele. Esiteks tähendab reeglipärasus kokkulepitud klassifikaatorite kasutamist (näiteks EMTAK-i kasutamist majandusliku teg evusala talletamiseks). Teiseks tähendab reeglipärasus kokkulepitud andmemustrite järgimist. Näiteks on kokkulepitud andmemuster (süntaks) kuupäeval ja isikukoodil ning need on seotud andmetüüpidega kuupäev ( date) ja arv ( integer). Reeglipärasuse alla kuul ub ka andmete küsimine kokkulepitud põhiandmete allikast. Põhiandmete allikas võib olla nii asutuse sees ( master data ), kui ka üleriigiline. Üleriigilise põhiandmete allika puhul on tavaliselt tegu kokkulepitud klassifikaatoriga nagu aadressiandmed, katastritunnus või äriregistri kood.
Ühekordsus (Uniqueness) näitab, mil määral esineb andmetes duplikaatkirjeid. Ühekordsuse probleem tekib juhul, kui ühe reaalsest elust pärineva objekti kohta on andmetes talletatud kaks või enam kirjet. Näiteks kui ühe isiku kohta on andmetes talletatud mitu kirjet. Dimensioonid on konkreetsemaks hindamiseks jagatud mõõdetavateks indikaatoriteks (Joonis 3). Edasipidi on indikaatorid esitatud konkreetsete andmekvaliteedi probleemidena. See võimaldab probleeme tuvasta da, seda nende kindlakstegemiseks ja andmekvaliteedi tuvastamiseks ja kontrolliks reegleid. Probleemide tuvastamise, reeglite seadmise ja mõõtmise süsteemi on nimeta tud a ndmekvaliteedi mõõtmise metamudel iks ja seda on käsitletakse järgmises peatükis.

18

Joonis 3: Dimensioonide jaotus indikaatoriteks

4.3 Andmekvaliteedi mõõtmise metamudel Andmekvaliteeti kasutatakse eri tasemetel otsustamiseks nii andmehalduse enda kui muude asutuse või riigi tegevuste korraldamisel ja täideviimisel. Ühelt poolt kombineeritakse andmekvaliteedi reeglitele vastavused/mittevastavused indikaatorite väärtusteks ja need omakorda dimensioonide väärtusteks ja osad neist võivad saada võtmemõõdiku teks üksikutes asutustes või üle riigi. Teiselt poolt agregeeritakse nimetatud tunnuseid andmeelementidelt andmestiku andmeobjekti liikide, andmestike ja asutuse või riigi tasemel otsuste tegemiseks. Andmete kvaliteedi kasutamist iseloomustavad järgnevad stsenaariumid: • SC -DQ -1: Selleks, et tagada ülevaade hoonete energiatõhususest tõstetakse Ehitisregistri energiamärgist puudutavate andmete süntaktiliselt õigete kirjete määr 95%- ni. • SC -DQ -2: Selleks, et tagada riigi kodanike operatiivne teavitamine läbi digikanalite tõstetakse Eesti kodanike kontakttelefoninumbrite, e-postiaadresside ja kontaktaadresside täielikkus riigiüleselt 99%-ni. • SC -DQ -3: Selleks, et tagada kodanike kirjete 100% täielikkus andmestikus X, on vaja parandada eesnimi või perekonnanimi 250 kirjes. • SC -DQ -4: Selleks, et tagada piirkondlikele otsustele ühtlane kvaliteet, on vaja tõsta aadressi kirjete õigsus asutuste X, Y ja Z andmestikes 95%-ni. • SC -DQ -5: Selleks, et võimaldada täielikult registripõhist rahvaloendust, on vaja tõsta rahvastikuregistri elukohaandmete täielikkus 100%-ni ja õigsus 90%-ni. Taoliste stsenaariumite täideviimist toetab andmekvaliteedi mõõtmise metamudel (Joonis 4). Andmekirjelduse olemasolu on andmekvaliteedi mõõtmise eelduseks. Seosed andmekirjelduse ja andm ekvaliteedi olemite vahel on esitatud andmekvaliteedi mõõtmise metamudelis. Täpsemad juhised andmekirjelduse loomiseks on esitatud andmekirjelduse juhises, mis valmis paralleelselt käesoleva juhisega ning on samuti osa andmehalduse raamistikust. Andmekirjelduse koostamisel ja haldamisel kasutatakse kolme tüüpi sõnastikke: VALDKONNA MÄRKSÕNASTIK , ÄRISÕNASTIK ja ANDMESÕNASTIK . ANDMEELEMENDID rühmituvad ANDMETERMINITEKS , mis omakorda on kirjeldatud ANDMESÕNASTIKUS . ÄRITERMINID on kirjeldatud ÄRISÕNA STIKUS , lisaks kasutatakse ÄRISÕNASTIKE loomisel ühe võimaliku terminite allikana VALDKON NA SÕNASTIKKE . ANDMEELEMENDID rühmituvad loogiliselt