AH_juhis_andmekirjeldus_v2.0.pdf

Type: Document | Status: ready

57 • Sõnastik on muutuv ja täienev. Valdkonna sõnavara, õigusaktide definitsioonid ja ka hallatavate andmete skoop on pidevas muutumises. Asutus peab nende muutuste toetamiseks looma kindla reeglistiku, mis kehtestab põhimõtted sõnastikku terminite lisamise, muutmise ja kustutamise kohta. Reeglite täitja ehk sõnastiku omanik, kes kogub kokku ettepanekud sõnastiku täiendamiseks ja kannab terminid sõnastikku, võiks üldjuhul olla andmehalduse juht või andmeomanik. Ärisõnastiku loomiseks on asutusel kolm peamist võimalust: • võetakse kasutusele üleriiklik märksõnastik või rahvusvaheline valdkonna sõnastik, viimane võib olla nii märksõnastik kui ka tesaurus ja on sageli mitmekeelne; • asutus loob ärisõnastiku riikliku või rahvusvahelise sõnastiku baasil; • ärisõnastik luuakse asutuses oma tegevusvaldkonna õigusaktides ning andmestike ja infosüsteemide dokumentatsioonis kasutatud mõistete ja terminite baasil. Need kolm võimalust ei ole üksteist välistavad. Näiteks võib asutus kasutada valdkonna märksõnastikku ja luua selle põhjal samaaegselt asutuse ärisõnastiku, võttes puuduvate terminite asemel kasutusele õigusaktides defineeritud mõisted . Mitme märksõnastiku samaaegsel kasutamisel tuleb jälgida, et erinevates sõnastikes poleks kattuvaid või vasturääkivaid termineid. Ärisõnastiku loomisel peab asutus jälgima, et nii sõnastik ise kui ka selles sisalduvad terminid oleksid kirjeldatud vastavalt andmekirjelduse standardis esitatud nõuetele. Sõnastiku kirjelduse alusel peab olema võimalik aru saada, millist valdkonda ja/või asutust sõnastik katab, kes on sõnastiku omanik ning millal on seda viimati muudetud. Abistav info puudutab sõnastiku skoopi ehk seda, kuidas on valdkond defineeritud ning kuidas sõnastikku kasutada. Seda võib teha kitsamalt ainult andmehalduse toetamisek s või laiemalt, näiteks asutuse ärireeglite, protsesside jms kirjeldamiseks, linkandmete avaldamiseks, kommunikatsiooni parendamiseks jne. Iga mõistekirje peab sisaldama termini tähenduse kirjeldust, osutust kehtivusele (kas termin on aktuaalne või mitte) ning termini sõnastikku lisamise ja/või viimase muutmise kuupäev. Ärisõnastik on oma ülesehituselt tesaurus ehk see esitab mõistetevahelisi seoseid. Tavalised seose liigid on järgmised: hierarhiline seos, mis loob taksonoomia45 („hoone“ ja „rajatis“ on mõlemad „ehitised“), sünonüümia („hoone“, „maja“). Põhjalikumad sõnastikud võivad terminitega siduda ka organisatsiooni tööprotsesse, teenuseid ja neist tulenevaid ärireegleid ning seega esitada küllaltki keerulise mõistete ja seoste mudeli. Ärisõnastiku tehnilise taaskasutuse toetamiseks on mõistlik igale terminile lisada masinloetav identifikaator (URI) , mille abil on võimalik termin identifitseerida ja sellele viidata. Muuhulgas saab identifikaatorit hästi kasutada ka terminite vaheliste seoste defineerimisel, kui URI struktuur selliselt luua. URI -de automaatset loomist toetavad ka mitmed andmekirjelduse töövahendid. Samas ei anna URI -d, mis on loodud semantilist koostalitlusvõimet arvestama , ennast kergesti integreerida, kuigi neile saab ehitada API teenuseid. Toome siin selle illustreerimiseks näite: • Eesti üldises märksõnastikus on mõiste „perekond“ tähistatud kindla ja püsiva URI-ga: https://ems.elnet.ee/id/EMS031142

45 Rahvusvahelised ja Eesti klassifikaatorid ja koodiloendid on üldjuhul taksonoomiad. Taksonoomia põhiomaduseks on see, et selles olevad mõisted on klassidena (liigiliselt) piisavalt erinevad.

58 • Rahvusvaheliselt kasutatavas statistiliste analüüsiüksuste märksõnastikus46 on mõiste ja märksõna „perekond“ esitatud RDF-is:

• RIHAKE, milles on GUID: http://rihake/70006317/BV/12c6725b-3778-a5ab-7445- 2635d99ea4e7 Näidetest ilmneb, et ärisõnastiku mõisted ja nende tähistamiseks kasutatavad tähised, sh mitmekeelne terminoloogia, vajab eri infosüsteemides nii inimeste kui arvutite poolt kasutamiseks eraldi tähelepanu. Praegusel ajal on enim levinud ärisõnastiku loomine XML - põhiselt (näiteks OWL -, RDFS -, JSON -LD- või SKOS -skeemide alusel). Eestis on soovitatav kasutada OWL-skeemi, mida toetavad erinevad vabavaralised tööriistad. Ärisõnastiku loomiseks võib organisatsioon lihtsamal juhul kasutada tabelarvutustarkvara. Eelkõige on see mõistlik juhtudel, kui ka ülejäänud andmekirjelduse komponendid on plaanis luua lihtsate seotud tabelitena. Ärisõnastik tuleks avaldada organisatsiooni sise - ja/või välisveebis sellises vormingus, et sõnastikku oleks andmekirjelduse koostamisel lihtne kasutada. Kui asutuses on kasutusel eraldi sõnastike haldamise või andmekirjelduse töövahend, tuleb ärisõnastik luua nii, et seda oleks võimalikult lihtne töövahendisse laadida. Valminud ärisõnastik tuleb andmekirjelduse töövahendisse laadida või sellega liidestada. Vastavalt kasutatavale tarkvarale võib see toimuda käsitsi (näiteks OWL või tabelarvutusfaili laadimisena) või automaatse liidese vahendusel. Olenemata meetodist, on oluline, et kõik ärisõnastiku uuendused tehakse ka andmesõnastikule kättesaadavaks.

3.6.3 Andmekirjelduse koostamine Eeldus: andmekirjelduse koostaja on piiritlenud kirjeldatava andmestiku, tal on hea ülevaade andmete vormingust ja struktuurist, kirjeldatavad andmed on grupeeritud nende olulisuse alusel. Kirjelduse koostajal on ülevaade terminiallikatest. Andmekirjeldus koosneb kolmest kirjeldatavast komponendist: 1) kirjeldus ise, 2) andmesõnastik, 3) ärisõnastik , mis kirjeldamisel seotakse. Seosed on nii struktuursed kui ka mõistelis-terminoloogilised, nagu need on esitatud joonisel 21.

46 DDI Alliance Controlled Vocabulary for Analysis Unit [25.07.2023] Selle etapi tulemusena on: • välja valitud või koostatud ärisõnastik, • ärisõnastik lisatud andmekirjelduse töövahendisse.

59 Juhise käesolevas osas ei ole iga komponent detailselt lahti kirjutatud, vaid need on esitatud andmekirjelduse juhise lisades: • Lisa 1: Andmekirjelduse standard • Lisa 2: Sõnastike koostamine andmekirjeldustes. Praktiline juhis Lisas 1 on esitatud (1) andmestiku ja selle struktuursete osade kirjeldus kirjelduselementide kaupa koos määratluste ja näidetega; (2) andmestiku levituse kirjeldus; (3) andmebaasi tabeli kirjeldus; (4) andmeelemendi kirjeldus ning (5) sõnastike kirjeldus.
Lisa 2 selgitab lahti ärisõnastiku mõiste ja andmesõnastiku termini koostamise ja selle sidumise andmeelemendiga. Toodud on ka terminite moodustamise ning määratluste koostamise näited. Andmekirjelduse koostamine siinses kitsamas tähenduses ongi igale kirjeldusobjektile tema tervikkirjelduse koostamine just sel tasandil. Selle juures tuleb arvestada järgnevaga. • Andmestikule loodud üldkirjeldus on selle taseme tervikkirjeldus. Andmestiku kirjeldamisel on vähe kohustuslikke kirjelduselemente. Need on: pealkiri, kirjeldus, lühinimetus, valdkond ja omanik. Neist valdkond ja soovituslik kirjelduselement märksõnad saadakse märksõnastikust. • Andmestiku levituse kirjeldus on rangelt eristatud DCAT-is, kuid meil on selle rakendamine alles välja kujunemas; see võib olla kirjeldatud koos andmestikuga, eraldi osana või alamandmestikuna. • Andmestruktuuride / andmeobjektide / andmebaasi tabeli kirjelduse koostamine sõltub nii kasutatavast mudelist kui ka rakendusest. Oluliseks ja kohustuslikuks kirjelduselemendiks on nimetus ehk tabeli pealkiri, mille terminoloogiline koostamine ja ühtlustamine on kujundamisel. • Andmeelemendi kirjeldamine on seotud andmesõnastiku termini kui andmeelemendi inimmõistetava nimetuse panemisega. Praktiliselt tuleb ka otsustada, millised andmeelemendid on sisulise tähendusega ja tuleb üldse kirjeldada. Andmeelemendi üksikasjalik kirjeldamine ja mõiste määratlemine võib olla otstarbekas, aga ei pruugi seda alati olla.
• Andme- ja ärisõnastik toimivad üheskoos ning samuti koos andmeelemendi kirjeldamisega.
Kui lihtsamaid andmestikke võib kirjeldada käsitsi, siis suuremad andmebaasid koosnevad sadadest tabelitest ja tuhandetest veergudest, mis on andmeelemendid. Kirjelduse alusena on otstarbekas kasutada andmebaasidest eksporditud kirjeldusi, milles üldjuhul sisaldub juba suur osa vajalikest kirjelduselementidest, näiteks välja nimi, kirjeldus, andmetüüp, viide loendile, tabel, ning seejärel täiendada neid puuduva infoga. Enamuses andmebaasides on palju tehnilisi, infosüsteemi turvalisuse või terviklikkuse tagamiseks vajalikke andmevälju, mille põhjalik kirjeldamine ei ole andmekirjelduse vaates tarvilik. Kirjeldamisel tuleks keskenduda sisulistele, andmepõhise juhtimise ja taaskasutuse vaatest olulistele andmeelementidele. Esmase tervikliku andmekirjelduse koostamise viimaseks sammuks on andmesõnastiku korrastamine. Andmekirjelduse käigus on iga kirjeldatud andmeelement tähistatud ja seostatud terminiga. Sageli ei ole need ühesõnalised terminid, vaid terminifraasid. Vormilt ongi andmesõnastik andmeelementide nimetuste alfabeetiline loend. Samuti on see ühenduslüli ärisõnastikuga, sidudes omavahel ärisõnastiku mõiste ning sellele vastavad andmeelemendid. Kuigi andmesõnastik on sarnaselt ärisõnastikuga terminipõhine ja paljud andmesõnastiku

60 terminid kattuvad ärisõnastiku omadega, on kolm olulist erinevust, mis tingivad andmesõnastiku vajaduse eraldi komponendina. • Omanik. Ärisõnastik on sageli terve asutuse sõnavara kohta ja selle omanik ja haldaja on andmete omanik või terminoloog. Andmesõnastiku omaniks on andmete kirjeldaja (andmehaldur). Andmete kirjeldaja saab andmekirjelduse vajadustest lähtuvalt termineid andmesõnastikku kiiresti juurde luua, samas kui ärisõnastikku termini lisamine võib olla küllaltki pikaajaline ja keeruline protsess. • Ulatus. Andmesõnastikus kajastatakse ainult andmeelementide kirjeldamisel vajalikud mõisted ehk tähistatakse need terminitega. Seega ei hõlma see kõiki ärisõnastiku termineid. Andmesõnastikus pole ka mõistetevahelisi seoseid, mis on ärisõnastiku olemuslik osa. Üldiselt on definitsioonid samuti pigem ärisõnastiku kui andmesõnastiku osaks. Andmesõnastikus on terminid esitatud sageli fraasidena, mis avavad nende tähendusvälja konkreetses kasutuskontekstis, ärisõnastik püüdleb pigem märksõnataoliste üldmõistete poole. Ärisõnastikus võib olla ka mõisteid, mida ei soovitata, need on vananenud või segadusttekitavalt mitmetähenduslikud. • Keerukus. Ärisõnastiku terminid võivad olla omavahel seotud küllaltki keerulise mudeli alusel, andmesõnastik koosneb peamiselt omavahel seostamata terminitest ja sõnaseletustest. Andmesõnastiku koostamist on võimalik alustada nii andmeelementide kui ärisõnastiku vaatest. • Alustades andmeelementidest, on andmesõnastiku koostaja tegevuseks üksikute andmeelementide rühmitamine sarnaste tunnuste/omaduste alusel (näiteks „eesnimi“, „perekonnanimi“, „isikukood“), sellele andmeelementide grupile uue ärisõnastiku termini loomine (näiteks „isik“) või ärisõnastikus juba olemasoleva sobiva terminiga seostamine (näiteks „isik“).
• Alustades ärisõnastikust, toimub sama tegevus ülalt alla – esmalt valitakse ärisõnastikust termin ja moodustatakse selle põhjal andmesõnastiku termin, seejärel valitakse mõistele vastavad ning valitakse sellele mõistele vastavad andmeelemendid või nende rühmad. Üldjuhul on andmesõnastiku koostamisel vaja rakendada vaheldumisi mõlemat lähenemist. Sellega tagatakse, et ühelt poolt on ärisõnastiku terminid seotud kohaste andmeelementidega ning teisalt kõigile olulistele andmeelementidele on määratud seos ärisõnastiku terminiga. Andmesõnastiku koostamisel tuleb ka tähele panna, et ühe mõistega seotud andmeelementide komplekte võib leiduda mitmes erinevas asukohas (tabelis). Sellisel juhul ei tohi iga andmeelementide komplekti jaoks luua uut sõnastiku terminit, vaid siduda kõik sarnased andmeelemendid ühe terminiga. Andmesõnastiku koostamisel on üheks nõudeks kirjelduse kõigi komponentide – andmestik, andmeelement, sõnastik ja termin – ühene viidatavus. Ilma selleta pole ajas püsiv terminite seostamine võimalik. Selleks tuleks igale komponendile luua URI kujul identifikaator. Lihtsam URI on esitatud veebiaadressina, mille hierarhilised komponendid on identifitseeritavad objektid, näiteks http://www.asutus.ee/sonastik/termin. Samas ei pea andmete kirjeldaja ise selliste identifikaatorite loomisega tegelema, andmekirjelduse töövahend tekitab need automaatselt. Andmekirjelduse standard sisaldab ka andmesõnastikku kirjeldavaid metaandmeid. Need loovad sõnastikule vajaliku konteksti juhuks, kui seda on vaja avaldada või jagada teiste

61 organisatsioonidega. Sõnastiku metaandmed talletatakse tavaliselt andmekirjelduse töövahendis.

3.6.4 Andme- ja ärisõnastiku täiendamine Eeldus: asutuses on loodud esialgne andmekirjeldus, andmesõnastik ja ärisõnastik. Juba andmesõnastiku esialgse koostamise käigus võib ilmneda, et kõigi oluliste andmeelementide jaoks ei leidu ärisõnastikus sobivat terminit. Samuti võib aja jooksul muutuda andmestiku ja selles sisalduvate andmete koosseis või ulatus, näiteks andmebaasi füüsilise muutmise, uuendamise või asutuses uute teenuste pakkumise tõttu, mis omakorda toob kaasa vajaduse an dme- ja ärisõnastiku täiendamiseks. Andmesõnastiku kaudu lisandub sedasi ärisõnastikku uusi termineid ja võib täpsustamist vajada mõne mõiste selet us. Lisaks võib ärisõnastik uueneda organisatsiooni uute ülesannete tulemusel mistõttu võib organisatsioon
ärisõnastikuna kasutusele võtta mõne uue valdkonna sõnastiku. Üldjuhul on andmesõnastiku ja ärisõnastiku omaniku rollid erinevate töötajate kanda . Seetõttu eeldab sõnastike uuendamine tihedat omavahelist suhtlust ja selgelt paika pandud protseduure. Algselt on üsna tavaline, et ühte ja sama nähtust, objekti, mõiste on nimetatud erinevate terminitega. Selliste terminite vaheliste vastuolude lahendamisel on üldise reeglina ärisõnastikus olev termin ülimuslik andmesõnastiku termini ees. Sõnastike ajakohasena hoidmiseks soovitatakse luua terminoloogia töörühm. Andmesõnastike uuendamise tüüpilised stsenaariumid ja nendega seotud otsused on
järgmised. Andmeelementide kirjeldamisel ja rühmitamisel luuakse andmesõnastikku termin, kuid sellele ei leita sobivat vastet ärisõnastikust. • Andmesõnastiku omanik teeb ettepaneku uue termini ehk märksõna lisamiseks ärisõnastikku, põhjendades termini vajadust ja viidates nii andmeelementidele kui termini selgituse allikale. Kuni kinnitamiseni on andmesõnastiku termini staatus „kinnitamisel“. • Ärisõnastiku omanik kaalub märksõna lisamist ja kinnitab või lükkab ettepaneku tagasi. Otsuse tegemine võib olla kollektiivne, nt ärisõnastiku haldamise töörühmas. • Kinnitamisel lisatakse märksõna kinnitatud staatuses ärisõnastikku, andmesõnastikku lisatakse viide märksõnale. Andmesõnastikus märgitakse termini staatuseks „kinnitatud“. Selle etapi tulemusena on: • valminud põhjalik ja läbimõeldud andmestiku kirjeldus, • kirjeldatud piisav hulk andmeelemente, • loodud seosed andmeelementide, andmesõnastiku ja ärisõnastiku vahel.

62 • Sõnastiku täiendamise tagasilükkamine peab olema põhjendatud, nt soovitus kasutada mõnd teist ärisõnastiku terminit. Negatiivse otsuse kohta lisatakse ärisõnastikus termini juurde teade, andmesõnastikus tuleb teha kas soovitusekohane muudatus või jätta termin kasutusse vaid andmesõnastikus koos staatusega „kinnitamata“.
• Uuendatud ärisõnastik seostatakse või laetakse andmekirjelduse töövahendisse. Organisatsiooni tegevuse, teenuste või tööprotsesside uuenemise tulemusena võetakse ärisõnastikus kasutusele uus märksõna või muudetakse olemasoleva seletust. • Ärisõnastiku omanik kontrollib, kas uuenenud märksõnad on seotud andmeelementidega, ja teavitab uuendustest andmesõnastiku omanikku. • Andmesõnastiku omanik analüüsib muudatuste mõju ja sobivust andmesõnastikuga ja otsustab, kas: o kinnitada uue termini lisamine andmesõnastikku ja siduda sellega uued (loodavad) andmeelemendid; o kinnitada olemasoleva termini uus seletus andmesõnastikus; o lisada andmesõnastikku uus termin ja jagadaolemasoleva terminiga seotud andmeelemendid olemasoleva ja uue termini vahel; o jätta uus termin andmesõnastikku lisamata. • Uuendatud ärisõnastik laetakse andmekirjelduse töövahendisse.

3.6.5 Andmekirjelduse kvaliteedikontroll Andmekirjelduse koostamine kogu organisatsiooni andmestike jaoks on mahukas tegevus ja kirjelduse ühtlase kvaliteedi tagamine ei ole võimalik ühekordse kampaaniana. Asutuse jaoks on oluline käsitleda andmekirjeldust sarnaselt andmetega: kehtestada andmekirjelduse kvaliteedile selged nõuded ja regulaarselt kontrollida, kas kirjeldused neile nõuetele ka vastavad. Andmekirjelduse ehk metaandmete kvaliteet on andmekvaliteedi osa. Andmekirjelduse kvaliteedil on kolm peamist mõõdikut:

  1. kirjeldatavate osade – andmestikust kuni andmeelemendini – kirjelduselementide olemasolu;
  2. kirjelduste sisuline ja vormistuslik õigsus,näiteks pealkirja õigekiri või märksõna kohasus;
  3. taaskasutatavus ehk kliendi tagasiside. Viimane on neist lõpptulemusena kõige olulisem, kuid selle saavutamine pole võimalik kahe esimeseta. Kuigi peamiseks mõõdikuks on probleemideta taaskasutus, on selle eeldus näiteks lõppkasutajate teadmised andmekirjeldusest ning sageli ka asutuse ja valdkonna sõnavarast.
    Selle etapi tulemusena on: • kindlaks määratud ja organisatsiooniliselt tagatud ärisõnastiku ja andmesõnastiku täiendamise protseduurid.

63 Andmekirjelduse kvaliteedile hinnangu andmisel saab lähtuda kahest peamisest küsimusest. • Kas kirjeldus on kasutajate jaoks piisava mahu ja ulatusega? Sellele küsimusele vastamiseks saab organisatsioon mõõta näiteks: o kirjeldusega kaetud andmestike ja andmeelementide protsenti kõigist andmestikest ja andmeelementidest; o andmesõnastiku terminiga seostatud andmeelementide hulka; o ärisõnastiku terminiga seostatud andmesõnastiku terminite hulka. • Kas kirjeldus on piisavalt kvaliteetne, et tagada andmete ühene mõistetavus nii organisatsioonisiseste kui ka -väliste kasutajate jaoks? Sellele küsimusele vastamiseks saab organisatsioon mõõta näiteks: o andmekirjelduse kohta organisatsioonile esitatud probleemide hulka andmekirjelduse kasutajate arvuga võrreldes; o andmekirjelduse põhjal loodud andmekvaliteedi reeglite hulka. Oluline on välja tuua, et andmekirjelduse üks peamisi kasutusstsenaariumeid ongi viimases näites mainitud andmekvaliteedi reeglite juurutamine ja kontrollimine. Selliste reeglite juurutamise ja kontrollimise võimekus on sisse ehitatud ka mitmesse andmekirjelduse töövahendisse. Andmekirjelduse täiendamiseks annavad põhjuse andmemudelite ja andmekoosseisude muudatused, sõnastike muudatused ja uued andmekirjelduse kasutusstsenaariumid, näiteks andmeteadus, krattide arendus, andmepõhise juhtimise lahenduste väljatöötamine jmt. Andmekirjelduse kvaliteediprotsessi võib käsitleda pideva parendamise tsüklina – planeeri, teosta, kontrolli, korrigeeri (PDCA) –, mille eesmärk on andmekirjelduse kvaliteedi tõstmise mõõdikud. Samuti on see osaks üldistest andmekvaliteedi ja organisatsiooni kvaliteedijuhtimise tegevustest. Andmekvaliteedi halduse kohta on koostatud eraldi juhis. Andmehalduri tüüpilised tegevused andmekirjelduse kvaliteedi tagamisel on järgmised.
• Andmesõnastiku ja andmeelementide kirjelduse regulaarne ülevaatamine. See võib toimuda kas pisteliselt ja/või üksnes hiljuti muudetud ja lisatud kirjelduste osas.
• Valdkonnaspetsialistide intervjueerimine andmekirjelduse ja -sõnastiku kasutatavuse ja ühese mõistetavuse osas. • Organisatsioonisiseste ja -väliste andmekasutajate toetamine ja neilt tagasiside kogumine.

3.7 Andmekirjelduse edastamine Andmekirjelduste järjest tähtsamaks muutuv kasutusjuht on selle edastamine organisatsiooni sees või organisatsioonide vahel. Andmete taaskasutusega koos käib sageli ja peaks käima üha Selle etapi tulemusena on: • kindlaks määratud andmekirjelduse regulaarse ülevaatuse protsessid; • korraldatud andmekirjelduse kvaliteedi hindamine ja vastava tagasiside kogumine kasutajatelt.