33
Joonis 14. Vahetabeli näide (tunnuste teisendus ja rühmitamine) Selles käsitluses on eeldatud, et risttabel sisaldab veergude ja ridade andmete mingit kokku koondamist (ehk agregeerimist). Tabel võib olla koostatud selliselt:
Joonis 15. Kahedimensionaalne tabel Andmete kokkuvõtt ja töötlemine võib olla kaunis lihtne , nagu ülal toodud summeerimine, või veidi keerulisem , nagu suhtarvu de ja keskmiste esitus või nähtusi palju keerulisemalt seletavate näitajate, näiteks indeksite esitus. Andmevahetuseks SDMX-is näiteks on võimalus esitada andmed lõigete (slice) kaupa, mis näitab tavaliselt ühte dimensiooni.38
Joonis 16. Tabeli esitamine lõikena Tabelit, mille l on kolm ja enam dimensiooni , nimetatakse andmekuubiks. Järgnevalt on osaliselt lähtutud W3C andmekuubi kirjeldamise sõnavarast, mis on kasutusel ka SDMX-is. Just sealt on võetud kuubi andmestruktuuri ja komponentide kirjelduse tähistamise viisid.
38 SDMX – Statistical Data and Metadata eXchange [25.07.2023]
34
Joonis 17. Andmekuup, selle dimensioonid ja üksik väärtus
Kuupidel võib olla palju dimensioone, kuid mõttetu on neid teha nii palju , et tabeli kujul
esitatuna ülevaatlikkus kaob. Siiski on olemas andmete liigendtabelina (Pivot Table) esitamise
tehnika, kus kuupi ja selle dimensioone saab lihtsalt pöörata ja muuta.
Mitmedimensioonilises tabelis kirjeldatakse kõik dimensioonid kui muutuja d.
Dimensioonid võivad olla, näiteks SDMX -is nii on, jagatud koguselisi väärtusi esitavaks ja
muudeks dimensioonideks. SDMX-is on lisaks dimensioonide ja mõõdetega seotud muutujate
väärtuste loendid (ehk koodiloendid või klassifikaatorid) ühe XML-faili osad.
Joonis 18.: Mitmedimensionaalne tabel ehk tabelina vormistatud andmekuup Selline minimaalne eristatus tabelite käsitlemisel peaks võimaldama nende struktuuri ja sisu piisavalt avada ning ei tohiks olla liiga keeruline rakendada.
2.2.5 Andmekataloog Andmekataloog on nim ekiri kataloogitud objektidest , mis andmehalduses on andmestikud . Samas võivad kataloogitavad andmed olla väga eriilmelised ja seega on ka kataloogid erinevad. Laias plaanis võib eristada kolme andmekataloogi tüüpi:
35
• organisatsiooni andmekataloog sisemiseks andmete halduseks, töötluseks ja teenusteks
eelkõige füüsilise andmemudeli tasandil, aga ka teiste eri tüüpi andmeobjektide tasandil,;
• andmeportaali tüüpi andmekataloog, mis on eelkõige mõeldud andmete levitamiseks ja
suunatud andmete leidmiseks neile, ke l eelteadmised otsitavate andmete kohta on
väikesed;
• mingi v aldkonna metamudelit toetavad andmekataloogid , mis ongi valdkondlikud ja
mõeldud andmete levitamiseks eesmärgiga neid taaskasutada ; sageli haaravad need
endasse selle mudeliga ehk metaandmetega andmeid juhtiva komponendi kuni terve
andmete elukäigu halduseni välja.
Organisatsiooni sisemiste andmekataloogide põhiomaduseks on eri andmebaasides,
teenustes ja failides olevate st andmetest ülevaate saamine ., Sageli toetu b see andmebaasi
tehnilisele kirjeldusele. Selliste andmekataloogide ülesandeks on andmete leidmise, sidumise ja
taaskasutamise hõlbustamine erinevatel eesmärkidel, näiteks analüüsiks või uuteks teenusteks.
Andmekirjeldus on sellistes kataloogides sageli minimaalne, orienteeritud andmete tehnilisele
kasutamisele. Sellist tüüpi andmekatalooge pakuvad toodetena mitmed suuremad
andmekataloogi- ja andmehalduseteenustele orienteeritud ettevõtted . Suurte IT -
ettevõteteandmekataloogid on näiteks Oracle Cloud Infrastructure Data Cat alog ja Microsoft
Azure’i Data Catalog. Andmekataloogile orienteeritud ettevõtetest on suuremad näiteks Alation
(Enterprise Data Catalog), Informatica (Data Catalog), Denodo (Data Catalog).
Andmeportaali tüüpi andmekataloogide põhiomadus on teha kättesaadavaks juba loodud
andmed. Üheks suuremaks seda tüüpi kataloogide rühmaks on tehtud uuringute andmestike
kataloogid. See kataloog on sarnane raamatukogu või arhiivi kataloogiga. Andmekirjeldus on
bibliokirje tüüpi, kuid kataloogitud andmestikud võivad olla kirjeldatud ka detailsemalt
andmeelemendi ehk muutuja tasandil. Viimased on just sellised, mis sisaldavad analüütilisi või
statistilisi andmestikke. Suuremad rahvusvahelised näited on OECD Data, UN Data ja European
Commission Joint Research Centre Data Catalogue. Enamik sotsiaalteaduslikke andmearhiive
haldab oma repositooriumis olevaid andmestikke nimelt seda tüüpi kataloogides. Sellisteks on
näiteks CESSDA (Consortium of European Social Science Data Archives) Data Catalog, Progedo
(INED) (Prantsusmaa) ja Aila (Tietoarkisto) (Soome).
Teiseks andmeportaali tüüpi andmekataloogide rühmaks on riiklikud ja muud avaandmete
kataloogid, samuti Eestis RIHA. Riiklike ja ka rahvusvaheliste seda tüüpi kataloogide üheks
funktsionaalsuseks on ka viited andmeteenuste kasutusvõimalustele avaldatud andmete pealt.
Kolmandaks näiteks on andmekataloogid, milles kasutakse mingi valdkonna metamudelit.
Metaandmemudeli ülesehitus on sel juhul valdkonnaspetsiifiline. Tavaliselt on see detailsem ja
mõistagi valdkonna andmete ja nende kasutuse eripära arvestav. Andmestike, andmeobjektide,
andmetabelite ja andmeelementide kasutus võib olla lahutamatu valdkonna arusaamadest ja
vajadustest. Sageli on sellele mudelile ehitatud üles terved valdkondlikud andmeteenused.
Statistika valdkonnas on sellis teks mudeli teks DDI ja GSIM. DDI on andmekataloogi aluseks
näiteks portaalidele ESS Data Portal (Euroopa sotsiaaluuringu andmed) või UK Data Service
(Nesstar, Ühendkuningriigid), DataInfo+ (Colectica, Uus-Meremaa). Ruumiandmete valdkonnas
on sellisteks INSPIRE geoportaal ja Maa-ameti geoportaal.
Eestis on andmekogusid ja riiklikke registreid pikalt hallatud andmekogude riiklikus
registris ja alates 2008. aastast riigi infosüsteemi haldussüsteemis (RIHA). Neid mõlemaid võib
pidada riigi andmekataloogideks . Neis on kataloogi tud andmeid andmekogu (varem registri)
tasandil, RIHAs on olnud võimalus ka andmekogu sisemise struktuuri kirjeldamiseks. Samas on
RIHA skoop andmekogude kataloogina olnud lahus iga asutuse andmestike ja
36
andmekogude ülevaatest . Asutusesisesed vajadused erinevad sageli üleriigilistest. Seda
arvestades on suur osa andmehalduse tegevustest ja andmekirjelduse juhisest suunatud
asutustele. Lisaks on arendatud asutustele andmekirjelduse halduse töövahend RIHAKE, mis
peab aitama asutuse vaate ja vajadused üleriigilise vaatega integreerida. Üleriigilise
andmehalduse tegevusel on kaks osa:
• andmekirjelduste halduserakendus RIHAKE toetub andmekirjelduse standardile ning
võimaldab edastada asutustes loodud andmekirjeldused automaatselt RIHAsse;
• RIHA ühendatakse Eesti avaandmete teabeväravaga ühtseks andmete teabeväravaks.
Selliselt tekib asutuste ja riigi andmekataloogide või andmeportaalide süsteem, mis
võimaldab andmekirjelduste ehk metaandmete ning ka avaandmetena avaldatud failide
edastamist sinna või leidmist kesksest kohast. Seda nimetatakse ühtseks teenuspunktiks. Selles
teabeväravas on info andmekirjelduste kujul ehk metaandmete na kas andmestiku tasemel või
osalt andmete tasemel , kui tegu on avaandmetega. Andmete leidmiseks ja mõistmiseks nii
üleriigilises andmekataloogis kui ka asutuste andmekataloogides , on nendes andmete
tähenduse kohta käivate mõistete ja terminoloogia koostamise ja haldamise funktsionaalsus:
andmesõnastik ja ärisõnastik. Käesolev and mekirjelduse juhis toetab andmekata loogi
koostamist, selgitades, kuidas andmekirjeldusi teha.
2.3 Mõisted, terminid, sõnastikud 2.3.1 Termin ja mõiste Andmekirjelduse oluline osa on esitada metaandmed , kasutades oskussõnavara. Andmekirjelduses on ka pealkirju, kirjeldavaid lause id ning erin evaid kirjelduselemente, kuid oskuskeele sõnavara ning terminite täpne kasutamine on andmete mõistmis e tagamiseks põhiline. Andmekirjelduses on terminid kasutusel nimetamisel, pealkirjastamisel, märksõnastamisel ning neist moodustatakse sõnastikke. Andmekirjeldused on terminid mitmes rollis: • terminid kui objekti sisu avavad sõnad ja tähised, mille parim näide on sisu avav pealkirjastamine; • terminid kui mõisted või mõistmisüksused – õieti mõistete tähistused ; kui terminitega tähistamisel luuakse mõistete süsteem, tavatsetakse seda nimetada mõisteliseks kirjeldamiseks; • terminid kui märksõnad, mis eelkõige tähendab siin, et terminid võetakse kirjeldamiseks juba koostatud sõnastikust. Termini ja mõiste käsitlemisel on eri elualadel erinevad väljakujunenud vaated. Andmekirjelduse juhis on suunis praktiliseks kasutamiseks. Siiski on juhisesse lisatud ülevaatlik teemakäsitlus, kuna andmekirjelduse keskseks osaks on sõnastike koostami ne ja haldus. S õnastike koostamises haakuvad aga mitmed terminitöö või mõistelise mõtlemise käsitlused. Järgnevalt on toodud viis käsitlust loogikast keeleteaduseni. Erinevate lähenemiste tehnilised võtted on aluseks sõnastike koostamise praktilisele juhisele (Lisa 2).
37
Termin ja mõiste oskuskeele käsitlustes
Andmehaldust ja andmekirjeldusi võib keeleteaduse sõnu kasutades nimetada
oskussuhtluseks ja termin ikasutus selles moodustab oskuskeele ehk terminoloogia
laiemas mõistes. Eri valdkondade oskuskeeli ja terminiloomet on edendanud Eesti
keeleteaduse suurkujud nagu J. V. Veski. Loodud on teadusharude teaduskeeled. Näiteks
majandusteaduse ja statistika vallas on pikk ja soliidne oskuskeele käsitlemise
traditsioon eelkõige tänu Uno Mereste töödele. Keeleteadus on terminitööd või
oskussuhtlust käsitlenud nii praktiliselt kui teoreetiliselt . Kõigutamatu vundamendi aga
annab loogika. Kõik need koos standarditega on andmehalduses kasutatavad.
Uno Mereste tööde kogumik „Oskuskeel ja seaduste keeleline rüü. Artikleid ja
lühiuurimusi“ (2000) võtab kokku tema oskuskeele käsitluse. Mereste on klassikalise
terminoloogiakoolkonna ( aluseks terminoloogiateooria rajaja Eugen Wüster ja
klassikaline Viini koolkond, nõukogude koolkond) esindaja ning lähenemiselt
onomasioloogiline ehk mõistekeskne. See tähendab, et ’asjadel’ peaksid olema õiged
nimetused ja üldiselt peaksid need olema ajas püsivad. Mõistete tähistamiseks on oluline
kasutada õigeid termineid. Heaks näiteks on Mereste selgitus termin ite „näitaja“ ja
„näitarv“ kasutamisest; statistikas räägitakse sarnaselt „muutujast“ ja „muutuja
väärtusest“.
Teiseks oluliseks tugisambaks on Tiiu Erelti tööd , eelkõige tema „Terminiõpetus“
(2007). Se e on keeleteaduslik käsitlu s terminiloomest ja eesti oskussõnavara
arendamisest. Raamatu o luliseks lähtepunktiks on üldkeele j a oskuskeele eristamine.
Erialakeelele on omane terminoloogiline täpsus , terminid peavad olema võimalikult
ühetähenduslikud ning mõisted üksteisest eristatavad. Olulisi teemasid on Ereltil mit u;
toome siin ära kaks: (1) termini moodustamise põhimõtted ja viisid ning laiemalt
terminiloome; (2) mõistete ja nende määratlemise küsimused. Viimases on Erelt samuti
onomasioloogiline. Ta kirjutab, et mõiste defineerimine õnnestub, kui oleme: 1) kindlaks
määranud mõiste olulised tunnused, 2) selgitanud mõiste suhted teiste mõistetega, 3)
teinud kindlaks mõiste koha eriala mõistesüsteemis, 4) andnud heade keeletavade
kohase sõnastuse. Defineerides õpitakse tundma objektide sarnasusi ja erinevusi. Võib
öelda, et tema terminiõpetuse alus eks on käsitlus tunnustest ; väga oluline on
oskussõnaloome, t erminivormide (sünonüümsus, võõrterminid jms) teema ning
erialakeele ja üldkeele vahekord. Ta küll puudutab, aga ei pane kesksele kohale järjest
enam läbipõimuvate eriala oskuskeelte omavaheliste suhete teemat.
Kolmandaks oluliseks käsitluseks on Arvi Tavasti tööd, eriti tema ja Marju Taukari
„Mitmekeelne oskussuhtlus“ (2013). See on ühest küljest kõige tänapäevasem
lähenemine, teisalt esitab raamat parema oskussuhtluse tarvis onomasioloogilisest
vaatest erineva käsitluse. Andmehalduses lähtutakse andmekirjelduste koostamisel
paljuski Tavasti kirjutatust. Raamatus peatutakse ka uuematel terminoloogiateooriate
käsitlustel, neist olulisemaks võib pidada Rita Temmermani sotsiokognitiivset
terminoloogiat, milles terminoloogiatöö lähtekoht on mõistmisüksus ( unit of
understanding). Selle teooria juures on oluline mitte klammerdumine eriala piiresse, vaid
eesmärk mõistmisüks uste abil luua laiemaid selgitusi. Temmermani teooria tuntuim
rakendus on Euroopa Liidu terminibaas IATE (Interactive Terminology for Europe), samuti
selle Eesti vaste : Eesti Keele Instituudi mitmekeelne terminibaas (ESTERM).
Temmermani järgi on rangetest loogilistest soo - ja liigitunnustest lähtuvatest
38
määratlustest olulisem konteksti selgitamine ja kasutusjuhu näite esitamine. Teine
terminoloogiatöö käsitlus, millele Tavast osutab, on Pamela Faber Beníteze freimipõhine
terminoloogia. Tegemist on mõistekeskse lähenemisega, samas võib üks termin
tähistada ka mitut mõistet. Mõisted ei esine iseseisvalt, vaid valdkonna sündmuste
(freimide) kontekstis. Meie jaoks on sel pigem tunnetuslik tähtsus – me kuuleme pidevalt
inimesi kasutamas sõnu, mille täpset tähendust nad ei tea, kuid mis on justkui väga
vajalikud sõnad kaasarääkimiseks kõikvõimalikes uudsetes asjades. Termin
„andmehaldus“ on üks selline. Beníteze käsitlust on vaja tunda eelkõige selleks, et saada
aru, kas loetud tekst või kuuldud jutt on n -ö oskuskeelne, üldkeelne või mingi
tehnokraatlik sulam er inevate oskuskeelte terminoloogiast. Viimase žanri näiteks on
õigusakti seletuskiri, milles on koos eriala- ja õiguskeel.
Neljanda, rangeima ja klassikalisima terminite ja mõistete käsitluse aluseks on
loogika. Siin saame toetuda teemat ammendavale Enn Kasaku raamatule „Loogika
alused“ (2014). Kasak esitab väga range käsitluse, mis toetub nii traditsioonilisele kui ka
moodsale loogikale ning keelefilosoofiale ja semiootikale. Andmehalduse kontekstis on
oluline välja tuua seos arvutiteadusega ja veebitehnoloogiaga, milles semantilised
seosed sõ nade ja mõistete vahel muudetakse n -ö masinmõistetavaks. Mõistagi tuleb
loogiline ja kategoriaalne mõtlemine andmekirjelduste tegemisel kasuks. Arvutistatud ja
rangelt loogiline mõtlemine on tohutult võimeline, ent inimesed, kes seda ei valda, peavad
siiski lootma jääma arvutitele. Väga vähestel on õnnestunud loogiline matemaatika ja
filosoofia praktiliseks pöörata ja andmekirjelduste koostajate seas neid tõenäoliselt pole.
Viiendaks allikaks, millele saame toetuda, on terminitöö standardid. Siin on kaks
peamist standardit. Esmalt EVS-ISO 1087 -1:2002 „Terminoloogiatöö. Sõnastik. Osa 1:
Teooria ja rakendus“. Standard esitab range käsitluse sellest, kuidas keel ja tegelikkus on
omavahel seotud, kuidas moodustada mõistet kui teadmusüksust objekti tunnuste
kombinatsiooni põhjal, seda tähistada ja määratleda ning mõisteid sõnade ja sõnedega
tähistada. Samuti on standardis kirjeldatud peamised mõistetevahelised suhted
(hierarhiasuhe ja assotsiatiivsuhe), terminite liigitus ning suhted tähiste ja/või mõistete
vahel.
Teiseks oluliseks standardiks on tesauruste koostamist käsitlev ISO 25964-1:2011
„Informatsioon ja dokumentatsioon. Tesaurused ja nende koostalitusvõime teiste
sõnastikega. — Osa 1: Infootsingu tesaurused“ („Information and documentation:
Thesauri and interoperability with other vocabularies. — Part 1: Thesauri for information
retrieval“), mis on ülevõtmisel Eesti standardiks. Tesaurus on märksõnastik ( controlled
vocabulary) või struktureeritud sõnastik, milles iga mõiste kohta on esitatud termin id,
eelisterminite sünonüümid või osasünonüümid ning välja toodud mõistetevahelised
suhted.
Ülaltoodud allikate põhjal saame termini ja mõiste käsitlused kokku võtta järgmiselt.
Alustame Enn Kasaku määratlustest:
• MÕISTE (ingl concept, ld conceptus) on „s uhtlemise vahendusel moodustunud
kokkuleppeline abstraktne objekt, mis esindab suhtluspartnerite lähedasi isiklikke
mõisteid samade objektide, nähtuste, suhete jms kohta samade tunnuste abil“. (2014,
lk 60)
• TERMIN (mõisteväljend, ingl term) on „sõna või fraas, mis mõistet kokkuleppeliselt
väljendab ning viitab ka selle mõistega haaratud objektidele“. (2014, lk 60)
39 • Nendes määratlustes näeme kokkuleppelisuse ja suhtluse rõhutamist, milles isiklikud mõisted ehk isiklik keelekasutus muutub valdkondlikuks, saab oskuskeeleks või lihtsalt kommunikatsiooniks. Arvi Tavasti ja Marju Taukari õpikus on mõiste ja termini kohta antud järgmised selgitused: • MÕISTE: „…oleks praktika seisukohalt kasulik teadvustada mõistete olemasolu, ükskõik kuidas neid siis nimetada või mida nimetamiseks kasutatav sõna veel tähendab. Peaasi et kuidagi nimetada. […] Kui maailmapilt ei sisalda termini ja mõiste vahel vahetegemist, siis ei sisalda ta seda ka pärast terminite väljavahetamist.“ (2013, lk 71) • TERMIN: „Mõistete keelelist tähist nimetatakse terminiks, sõnaks, väljendiks, keelendiks, fraasiks, tähistajaks, termini väliskujuks või vormiks. Terminite üldise käitumise seisukohalt on need kõik täpselt üks ja seesama. […] Eristada tuleb terminit vaid pikematest tekstidest, peamiselt määratlusest ja kasutusnäitest. […] Üleminek termini ja üldkeele sõna vahel on sujuv. Kummastki võib nii spontaanselt kui ka teadliku keelekorralduse tulemusena saada teine …“ (2013, lk 71) • Selles käsitluses on selgelt näha, et oskuskeelt ei peeta kuidagi kõrgemaks üld- või tavakeelest ning lähenemine on sotsiokognitiivne. Võib öelda, et selle lähenemise keskne arusaam on tõlkimises kas ühest keelest teise või valdkondade ja oskuskeelte vahel. Need on ka andmehalduse ja andmekirjelduse koostamise juures olulised küsimused – tähtis on, et paratamatu pragmaatiline nimetamine ei toimuks „ükskõik kuidas“, vaid eesmärk oleks terminoloogia korrastamine. Tiiu Erelt ei esita oma määratlusi, vaid toetub teistele allikatele: • MÕISTE: autor lähtub standardi EVS-ISO 1087-1:2002 määratlusest, mille kohaselt mõiste on „teadmusüksus, mille moodustab ühene tunnuste kombinatsioon”. (2007, lk 44) • TERMIN: siin soovitab ta lähtuda Sergei Šelovi arusaamast, et vastandusel „termini (leksikaalne) tähendus – terminiga nimetatud mõiste“ ei ole suuremat mõtet ning erialases kasutuses ongi termini tähendus temaga tähistatud mõiste. Termini kui sõna ja sõnaühendi spetsiifika peitub selle tähenduses. • Praktilisest andmekirjelduse vaatenurgast on Tiiu Erelti arusaam terminist ja mõistest kõige kasutatavam, kuigi rangelt võttes ei ole termin ja mõiste piisavalt eristatud. Ka andmehalduses ei ole leksikaalsel ja kontseptuaalsel eristusel suuremat mõtet.
Kokkuvõtvalt on kõige mõistlikum lähtuda Enn Kasaku definitsioonidest ja lisada neile standardite omad: MÕISTE Mõiste on suhtlemise vahendusel moodustunud kokkuleppeline abstraktne objekt, mis esindab suhtluspartnerite lähedasi isiklikke mõisteid samade objektide, nähtuste, suhete jms kohta samade tunnuste abil. (Kasak) Mõiste on teadmusüksus, mille moodustab ühene tunnuste kombinatsioon. (ISO 1087)