57 • Sõnastik on muutuv ja täienev. Valdkonna sõnavara, õigusaktide definitsioonid ja ka hallatavate andmete skoop on pidevas muutumises. Asutus peab nende muutuste toetamiseks looma kindla reeglistiku, mis kehtestab põhimõtted sõnastikku terminite lisamise, muutmise ja kustutamise kohta. Reeglite täitja ehk sõnastiku omanik, kes kogub kokku ettepanekud sõnastiku täiendamiseks ja kannab terminid sõnastikku, võiks üldjuhul olla andmehalduse juht või andmeomanik. Ärisõnastiku loomiseks on asutusel kolm peamist võimalust: • võetakse kasutusele üleriiklik märksõnastik või rahvusvaheline valdkonna sõnastik, viimane võib olla nii märksõnastik kui ka tesaurus ja on sageli mitmekeelne; • asutus loob ärisõnastiku riikliku või rahvusvahelise sõnastiku baasil; • ärisõnastik luuakse asutuses oma tegevusvaldkonna õigusaktides ning andmestike ja infosüsteemide dokumentatsioonis kasutatud mõistete ja terminite baasil. Need kolm võimalust ei ole üksteist välistavad. Näiteks võib asutus kasutada valdkonna märksõnastikku ja luua selle põhjal samaaegselt asutuse ärisõnastiku, võttes puuduvate terminite asemel kasutusele õigusaktides defineeritud mõisted . Mitme märksõnastiku samaaegsel kasutamisel tuleb jälgida, et erinevates sõnastikes poleks kattuvaid või vasturääkivaid termineid. Ärisõnastiku loomisel peab asutus jälgima, et nii sõnastik ise kui ka selles sisalduvad terminid oleksid kirjeldatud vastavalt andmekirjelduse standardis esitatud nõuetele. Sõnastiku kirjelduse alusel peab olema võimalik aru saada, millist valdkonda ja/või asutust sõnastik katab, kes on sõnastiku omanik ning millal on seda viimati muudetud. Abistav info puudutab sõnastiku skoopi ehk seda, kuidas on valdkond defineeritud ning kuidas sõnastikku kasutada. Seda võib teha kitsamalt ainult andmehalduse toetamisek s või laiemalt, näiteks asutuse ärireeglite, protsesside jms kirjeldamiseks, linkandmete avaldamiseks, kommunikatsiooni parendamiseks jne. Iga mõistekirje peab sisaldama termini tähenduse kirjeldust, osutust kehtivusele (kas termin on aktuaalne või mitte) ning termini sõnastikku lisamise ja/või viimase muutmise kuupäev. Ärisõnastik on oma ülesehituselt tesaurus ehk see esitab mõistetevahelisi seoseid. Tavalised seose liigid on järgmised: hierarhiline seos, mis loob taksonoomia45 („hoone“ ja „rajatis“ on mõlemad „ehitised“), sünonüümia („hoone“, „maja“). Põhjalikumad sõnastikud võivad terminitega siduda ka organisatsiooni tööprotsesse, teenuseid ja neist tulenevaid ärireegleid ning seega esitada küllaltki keerulise mõistete ja seoste mudeli. Ärisõnastiku tehnilise taaskasutuse toetamiseks on mõistlik igale terminile lisada masinloetav identifikaator (URI) , mille abil on võimalik termin identifitseerida ja sellele viidata. Muuhulgas saab identifikaatorit hästi kasutada ka terminite vaheliste seoste defineerimisel, kui URI struktuur selliselt luua. URI -de automaatset loomist toetavad ka mitmed andmekirjelduse töövahendid. Samas ei anna URI -d, mis on loodud semantilist koostalitlusvõimet arvestama , ennast kergesti integreerida, kuigi neile saab ehitada API teenuseid. Toome siin selle illustreerimiseks näite: • Eesti üldises märksõnastikus on mõiste „perekond“ tähistatud kindla ja püsiva URI-ga: https://ems.elnet.ee/id/EMS031142
45 Rahvusvahelised ja Eesti klassifikaatorid ja koodiloendid on üldjuhul taksonoomiad. Taksonoomia põhiomaduseks on see, et selles olevad mõisted on klassidena (liigiliselt) piisavalt erinevad.
58 • Rahvusvaheliselt kasutatavas statistiliste analüüsiüksuste märksõnastikus46 on mõiste ja märksõna „perekond“ esitatud RDF-is:
• RIHAKE, milles on GUID: http://rihake/70006317/BV/12c6725b-3778-a5ab-7445- 2635d99ea4e7 Näidetest ilmneb, et ärisõnastiku mõisted ja nende tähistamiseks kasutatavad tähised, sh mitmekeelne terminoloogia, vajab eri infosüsteemides nii inimeste kui arvutite poolt kasutamiseks eraldi tähelepanu. Praegusel ajal on enim levinud ärisõnastiku loomine XML - põhiselt (näiteks OWL -, RDFS -, JSON -LD- või SKOS -skeemide alusel). Eestis on soovitatav kasutada OWL-skeemi, mida toetavad erinevad vabavaralised tööriistad. Ärisõnastiku loomiseks võib organisatsioon lihtsamal juhul kasutada tabelarvutustarkvara. Eelkõige on see mõistlik juhtudel, kui ka ülejäänud andmekirjelduse komponendid on plaanis luua lihtsate seotud tabelitena. Ärisõnastik tuleks avaldada organisatsiooni sise - ja/või välisveebis sellises vormingus, et sõnastikku oleks andmekirjelduse koostamisel lihtne kasutada. Kui asutuses on kasutusel eraldi sõnastike haldamise või andmekirjelduse töövahend, tuleb ärisõnastik luua nii, et seda oleks võimalikult lihtne töövahendisse laadida. Valminud ärisõnastik tuleb andmekirjelduse töövahendisse laadida või sellega liidestada. Vastavalt kasutatavale tarkvarale võib see toimuda käsitsi (näiteks OWL või tabelarvutusfaili laadimisena) või automaatse liidese vahendusel. Olenemata meetodist, on oluline, et kõik ärisõnastiku uuendused tehakse ka andmesõnastikule kättesaadavaks.
3.6.3 Andmekirjelduse koostamine Eeldus: andmekirjelduse koostaja on piiritlenud kirjeldatava andmestiku, tal on hea ülevaade andmete vormingust ja struktuurist, kirjeldatavad andmed on grupeeritud nende olulisuse alusel. Kirjelduse koostajal on ülevaade terminiallikatest. Andmekirjeldus koosneb kolmest kirjeldatavast komponendist: 1) kirjeldus ise, 2) andmesõnastik, 3) ärisõnastik , mis kirjeldamisel seotakse. Seosed on nii struktuursed kui ka mõistelis-terminoloogilised, nagu need on esitatud joonisel 21.
46 DDI Alliance Controlled Vocabulary for Analysis Unit [25.07.2023] Selle etapi tulemusena on: • välja valitud või koostatud ärisõnastik, • ärisõnastik lisatud andmekirjelduse töövahendisse.
59
Juhise käesolevas osas ei ole iga komponent detailselt lahti kirjutatud, vaid need on
esitatud andmekirjelduse juhise lisades:
•
Lisa 1: Andmekirjelduse standard
•
Lisa 2: Sõnastike koostamine andmekirjeldustes. Praktiline juhis
Lisas
1
on
esitatud
(1)
andmestiku
ja
selle
struktuursete
osade
kirjeldus
kirjelduselementide kaupa koos määratluste ja näidetega; (2) andmestiku levituse kirjeldus; (3)
andmebaasi tabeli kirjeldus; (4) andmeelemendi kirjeldus ning (5) sõnastike kirjeldus.
Lisa 2 selgitab lahti ärisõnastiku mõiste ja andmesõnastiku termini koostamise ja selle
sidumise andmeelemendiga. Toodud on ka terminite moodustamise ning määratluste
koostamise näited.
Andmekirjelduse koostamine siinses kitsamas tähenduses ongi igale kirjeldusobjektile
tema tervikkirjelduse koostamine just sel tasandil. Selle juures tuleb arvestada järgnevaga.
•
Andmestikule loodud üldkirjeldus on selle taseme tervikkirjeldus. Andmestiku
kirjeldamisel on vähe kohustuslikke kirjelduselemente. Need on: pealkiri, kirjeldus,
lühinimetus, valdkond ja omanik. Neist valdkond ja soovituslik kirjelduselement
märksõnad saadakse märksõnastikust.
•
Andmestiku levituse kirjeldus on rangelt eristatud DCAT-is, kuid meil on selle
rakendamine alles välja kujunemas; see võib olla kirjeldatud koos andmestikuga, eraldi
osana või alamandmestikuna.
•
Andmestruktuuride / andmeobjektide / andmebaasi tabeli kirjelduse koostamine sõltub
nii kasutatavast mudelist kui ka rakendusest. Oluliseks ja kohustuslikuks
kirjelduselemendiks on nimetus ehk tabeli pealkiri, mille terminoloogiline koostamine ja
ühtlustamine on kujundamisel.
•
Andmeelemendi kirjeldamine on seotud andmesõnastiku termini kui andmeelemendi
inimmõistetava nimetuse panemisega. Praktiliselt tuleb ka otsustada, millised
andmeelemendid on sisulise tähendusega ja tuleb üldse kirjeldada. Andmeelemendi
üksikasjalik kirjeldamine ja mõiste määratlemine võib olla otstarbekas, aga ei pruugi
seda alati olla.
•
Andme- ja ärisõnastik toimivad üheskoos ning samuti koos andmeelemendi
kirjeldamisega.
Kui lihtsamaid andmestikke võib kirjeldada käsitsi, siis suuremad andmebaasid koosnevad
sadadest tabelitest ja tuhandetest veergudest, mis on andmeelemendid. Kirjelduse alusena on
otstarbekas kasutada andmebaasidest eksporditud kirjeldusi, milles üldjuhul sisaldub juba suur
osa vajalikest kirjelduselementidest, näiteks välja nimi, kirjeldus, andmetüüp, viide loendile, tabel,
ning seejärel täiendada neid puuduva infoga. Enamuses andmebaasides on palju tehnilisi,
infosüsteemi turvalisuse või terviklikkuse tagamiseks vajalikke andmevälju, mille põhjalik
kirjeldamine ei ole andmekirjelduse vaates tarvilik. Kirjeldamisel tuleks keskenduda sisulistele,
andmepõhise juhtimise ja taaskasutuse vaatest olulistele andmeelementidele.
Esmase tervikliku andmekirjelduse koostamise viimaseks sammuks on andmesõnastiku
korrastamine. Andmekirjelduse käigus on iga kirjeldatud andmeelement tähistatud ja seostatud
terminiga. Sageli ei ole need ühesõnalised terminid, vaid terminifraasid. Vormilt ongi
andmesõnastik andmeelementide nimetuste alfabeetiline loend. Samuti on see ühenduslüli
ärisõnastikuga, sidudes omavahel ärisõnastiku mõiste ning sellele vastavad andmeelemendid.
Kuigi andmesõnastik on sarnaselt ärisõnastikuga terminipõhine ja paljud andmesõnastiku
60
terminid kattuvad ärisõnastiku omadega, on kolm olulist erinevust, mis tingivad andmesõnastiku
vajaduse eraldi komponendina.
•
Omanik. Ärisõnastik on sageli terve asutuse sõnavara kohta ja selle omanik ja haldaja
on andmete omanik või terminoloog. Andmesõnastiku omaniks on andmete kirjeldaja
(andmehaldur). Andmete kirjeldaja saab andmekirjelduse vajadustest lähtuvalt
termineid andmesõnastikku kiiresti juurde luua, samas kui ärisõnastikku termini
lisamine võib olla küllaltki pikaajaline ja keeruline protsess.
•
Ulatus. Andmesõnastikus kajastatakse ainult andmeelementide kirjeldamisel vajalikud
mõisted ehk tähistatakse need terminitega. Seega ei hõlma see kõiki ärisõnastiku
termineid. Andmesõnastikus pole ka mõistetevahelisi seoseid, mis on ärisõnastiku
olemuslik
osa.
Üldiselt
on
definitsioonid
samuti
pigem
ärisõnastiku
kui
andmesõnastiku osaks. Andmesõnastikus on terminid esitatud sageli fraasidena, mis
avavad nende tähendusvälja konkreetses kasutuskontekstis, ärisõnastik püüdleb
pigem märksõnataoliste üldmõistete poole. Ärisõnastikus võib olla ka mõisteid, mida
ei soovitata, need on vananenud või segadusttekitavalt mitmetähenduslikud.
•
Keerukus. Ärisõnastiku terminid võivad olla omavahel seotud küllaltki keerulise mudeli
alusel, andmesõnastik koosneb peamiselt omavahel seostamata terminitest ja
sõnaseletustest.
Andmesõnastiku koostamist on võimalik alustada nii andmeelementide kui ärisõnastiku
vaatest.
•
Alustades andmeelementidest, on andmesõnastiku koostaja tegevuseks üksikute
andmeelementide rühmitamine sarnaste tunnuste/omaduste alusel (näiteks „eesnimi“,
„perekonnanimi“, „isikukood“), sellele andmeelementide grupile uue ärisõnastiku
termini loomine (näiteks „isik“) või ärisõnastikus juba olemasoleva sobiva terminiga
seostamine (näiteks „isik“).
•
Alustades ärisõnastikust, toimub sama tegevus ülalt alla – esmalt valitakse
ärisõnastikust termin ja moodustatakse selle põhjal andmesõnastiku termin, seejärel
valitakse mõistele vastavad ning valitakse sellele mõistele vastavad andmeelemendid
või nende rühmad.
Üldjuhul on andmesõnastiku koostamisel vaja rakendada vaheldumisi mõlemat
lähenemist. Sellega tagatakse, et ühelt poolt on ärisõnastiku terminid seotud kohaste
andmeelementidega ning teisalt kõigile olulistele andmeelementidele on määratud seos
ärisõnastiku terminiga. Andmesõnastiku koostamisel tuleb ka tähele panna, et ühe mõistega
seotud andmeelementide komplekte võib leiduda mitmes erinevas asukohas (tabelis). Sellisel
juhul ei tohi iga andmeelementide komplekti jaoks luua uut sõnastiku terminit, vaid siduda kõik
sarnased andmeelemendid ühe terminiga.
Andmesõnastiku koostamisel on üheks nõudeks kirjelduse kõigi komponentide –
andmestik, andmeelement, sõnastik ja termin – ühene viidatavus. Ilma selleta pole ajas püsiv
terminite seostamine võimalik. Selleks tuleks igale komponendile luua URI kujul identifikaator.
Lihtsam URI on esitatud veebiaadressina, mille hierarhilised komponendid on identifitseeritavad
objektid, näiteks http://www.asutus.ee/sonastik/termin. Samas ei pea andmete kirjeldaja ise
selliste identifikaatorite loomisega tegelema, andmekirjelduse töövahend tekitab need
automaatselt.
Andmekirjelduse standard sisaldab ka andmesõnastikku kirjeldavaid metaandmeid. Need
loovad sõnastikule vajaliku konteksti juhuks, kui seda on vaja avaldada või jagada teiste
61 organisatsioonidega. Sõnastiku metaandmed talletatakse tavaliselt andmekirjelduse töövahendis.
3.6.4 Andme- ja ärisõnastiku täiendamine
Eeldus: asutuses on loodud esialgne andmekirjeldus, andmesõnastik ja ärisõnastik.
Juba andmesõnastiku esialgse koostamise käigus võib ilmneda, et kõigi oluliste
andmeelementide jaoks ei leidu ärisõnastikus sobivat terminit. Samuti võib aja jooksul muutuda
andmestiku ja selles sisalduvate andmete koosseis või ulatus, näiteks andmebaasi füüsilise
muutmise, uuendamise või asutuses uute teenuste pakkumise tõttu, mis omakorda toob kaasa
vajaduse an dme- ja ärisõnastiku täiendamiseks. Andmesõnastiku kaudu lisandub sedasi
ärisõnastikku uusi termineid ja võib täpsustamist vajada mõne mõiste selet us. Lisaks võib
ärisõnastik uueneda organisatsiooni uute ülesannete tulemusel mistõttu võib organisatsioon
ärisõnastikuna kasutusele võtta mõne uue valdkonna sõnastiku.
Üldjuhul on andmesõnastiku ja ärisõnastiku omaniku rollid erinevate töötajate kanda .
Seetõttu eeldab sõnastike uuendamine tihedat omavahelist suhtlust ja selgelt paika pandud
protseduure. Algselt on üsna tavaline, et ühte ja sama nähtust, objekti, mõiste on nimetatud
erinevate terminitega. Selliste terminite vaheliste vastuolude lahendamisel on üldise reeglina
ärisõnastikus olev termin ülimuslik andmesõnastiku termini ees.
Sõnastike ajakohasena hoidmiseks soovitatakse luua terminoloogia töörühm.
Andmesõnastike uuendamise tüüpilised stsenaariumid ja nendega seotud otsused on
järgmised.
Andmeelementide kirjeldamisel ja rühmitamisel luuakse andmesõnastikku termin, kuid sellele ei
leita sobivat vastet ärisõnastikust.
• Andmesõnastiku omanik teeb ettepaneku uue termini ehk märksõna lisamiseks
ärisõnastikku, põhjendades termini vajadust ja viidates nii andmeelementidele kui
termini selgituse allikale. Kuni kinnitamiseni on andmesõnastiku termini staatus
„kinnitamisel“.
• Ärisõnastiku omanik kaalub märksõna lisamist ja kinnitab või lükkab ettepaneku tagasi.
Otsuse tegemine võib olla kollektiivne, nt ärisõnastiku haldamise töörühmas.
• Kinnitamisel lisatakse märksõna kinnitatud staatuses ärisõnastikku, andmesõnastikku
lisatakse viide märksõnale. Andmesõnastikus märgitakse termini staatuseks
„kinnitatud“.
Selle etapi tulemusena on:
• valminud põhjalik ja läbimõeldud andmestiku kirjeldus,
• kirjeldatud piisav hulk andmeelemente,
• loodud seosed andmeelementide, andmesõnastiku ja ärisõnastiku vahel.
62
•
Sõnastiku täiendamise tagasilükkamine peab olema põhjendatud, nt soovitus kasutada
mõnd teist ärisõnastiku terminit. Negatiivse otsuse kohta lisatakse ärisõnastikus
termini juurde teade, andmesõnastikus tuleb teha kas soovitusekohane muudatus või
jätta termin kasutusse vaid andmesõnastikus koos staatusega „kinnitamata“.
•
Uuendatud ärisõnastik seostatakse või laetakse andmekirjelduse töövahendisse.
Organisatsiooni tegevuse, teenuste või tööprotsesside uuenemise tulemusena võetakse
ärisõnastikus kasutusele uus märksõna või muudetakse olemasoleva seletust.
•
Ärisõnastiku
omanik
kontrollib,
kas
uuenenud
märksõnad
on
seotud
andmeelementidega, ja teavitab uuendustest andmesõnastiku omanikku.
•
Andmesõnastiku omanik analüüsib muudatuste mõju ja sobivust andmesõnastikuga ja
otsustab, kas:
o kinnitada uue termini lisamine andmesõnastikku ja siduda sellega uued
(loodavad) andmeelemendid;
o kinnitada olemasoleva termini uus seletus andmesõnastikus;
o lisada andmesõnastikku uus termin ja jagadaolemasoleva terminiga seotud
andmeelemendid olemasoleva ja uue termini vahel;
o jätta uus termin andmesõnastikku lisamata.
•
Uuendatud ärisõnastik laetakse andmekirjelduse töövahendisse.
3.6.5 Andmekirjelduse kvaliteedikontroll Andmekirjelduse koostamine kogu organisatsiooni andmestike jaoks on mahukas tegevus ja kirjelduse ühtlase kvaliteedi tagamine ei ole võimalik ühekordse kampaaniana. Asutuse jaoks on oluline käsitleda andmekirjeldust sarnaselt andmetega: kehtestada andmekirjelduse kvaliteedile selged nõuded ja regulaarselt kontrollida, kas kirjeldused neile nõuetele ka vastavad. Andmekirjelduse ehk metaandmete kvaliteet on andmekvaliteedi osa. Andmekirjelduse kvaliteedil on kolm peamist mõõdikut:
- kirjeldatavate osade – andmestikust kuni andmeelemendini – kirjelduselementide olemasolu;
- kirjelduste sisuline ja vormistuslik õigsus,näiteks pealkirja õigekiri või märksõna kohasus;
- taaskasutatavus ehk kliendi tagasiside.
Viimane on neist lõpptulemusena kõige olulisem, kuid selle saavutamine pole võimalik kahe
esimeseta. Kuigi peamiseks mõõdikuks on probleemideta taaskasutus, on selle eeldus näiteks
lõppkasutajate teadmised andmekirjeldusest ning sageli ka asutuse ja valdkonna sõnavarast.
Selle etapi tulemusena on: • kindlaks määratud ja organisatsiooniliselt tagatud ärisõnastiku ja andmesõnastiku täiendamise protseduurid.
63
Andmekirjelduse kvaliteedile hinnangu andmisel saab lähtuda kahest peamisest
küsimusest.
•
Kas kirjeldus on kasutajate jaoks piisava mahu ja ulatusega? Sellele küsimusele
vastamiseks saab organisatsioon mõõta näiteks:
o kirjeldusega
kaetud
andmestike
ja
andmeelementide
protsenti
kõigist
andmestikest ja andmeelementidest;
o andmesõnastiku terminiga seostatud andmeelementide hulka;
o ärisõnastiku terminiga seostatud andmesõnastiku terminite hulka.
•
Kas kirjeldus on piisavalt kvaliteetne, et tagada andmete ühene mõistetavus nii
organisatsioonisiseste kui ka -väliste kasutajate jaoks? Sellele küsimusele vastamiseks
saab organisatsioon mõõta näiteks:
o andmekirjelduse
kohta
organisatsioonile
esitatud
probleemide
hulka
andmekirjelduse kasutajate arvuga võrreldes;
o andmekirjelduse põhjal loodud andmekvaliteedi reeglite hulka.
Oluline on välja tuua, et andmekirjelduse üks peamisi kasutusstsenaariumeid ongi viimases
näites mainitud andmekvaliteedi reeglite juurutamine ja kontrollimine. Selliste reeglite
juurutamise ja kontrollimise võimekus on sisse ehitatud ka mitmesse andmekirjelduse
töövahendisse.
Andmekirjelduse täiendamiseks annavad põhjuse andmemudelite ja andmekoosseisude
muudatused, sõnastike muudatused ja uued andmekirjelduse kasutusstsenaariumid, näiteks
andmeteadus, krattide arendus, andmepõhise juhtimise lahenduste väljatöötamine jmt.
Andmekirjelduse kvaliteediprotsessi võib käsitleda pideva parendamise tsüklina – planeeri,
teosta, kontrolli, korrigeeri (PDCA) –, mille eesmärk on andmekirjelduse kvaliteedi tõstmise
mõõdikud. Samuti on see osaks üldistest andmekvaliteedi ja organisatsiooni kvaliteedijuhtimise
tegevustest. Andmekvaliteedi halduse kohta on koostatud eraldi juhis.
Andmehalduri tüüpilised tegevused andmekirjelduse kvaliteedi tagamisel on järgmised.
•
Andmesõnastiku ja andmeelementide kirjelduse regulaarne ülevaatamine. See võib
toimuda kas pisteliselt ja/või üksnes hiljuti muudetud ja lisatud kirjelduste osas.
•
Valdkonnaspetsialistide intervjueerimine andmekirjelduse ja -sõnastiku kasutatavuse ja
ühese mõistetavuse osas.
•
Organisatsioonisiseste ja -väliste andmekasutajate toetamine ja neilt tagasiside
kogumine.
3.7 Andmekirjelduse edastamine Andmekirjelduste järjest tähtsamaks muutuv kasutusjuht on selle edastamine organisatsiooni sees või organisatsioonide vahel. Andmete taaskasutusega koos käib sageli ja peaks käima üha Selle etapi tulemusena on: • kindlaks määratud andmekirjelduse regulaarse ülevaatuse protsessid; • korraldatud andmekirjelduse kvaliteedi hindamine ja vastava tagasiside kogumine kasutajatelt.