AH_juhis_andmekirjeldus_v2.0.pdf - Page 5

Joonis 14. Vahetabeli näide (tunnuste teisendus ja rühmitamine) Selles käsitluses on eeldatud, et risttabel sisaldab veergude ja ridade andmete mingit kokku koondamist (ehk agregeerimist). Tabel võib olla koostatud selliselt:

Joonis 15. Kahedimensionaalne tabel Andmete kokkuvõtt ja töötlemine võib olla kaunis lihtne , nagu ülal toodud summeerimine, või veidi keerulisem , nagu suhtarvu de ja keskmiste esitus või nähtusi palju keerulisemalt seletavate näitajate, näiteks indeksite esitus. Andmevahetuseks SDMX-is näiteks on võimalus esitada andmed lõigete (slice) kaupa, mis näitab tavaliselt ühte dimensiooni.38

Joonis 16. Tabeli esitamine lõikena Tabelit, mille l on kolm ja enam dimensiooni , nimetatakse andmekuubiks. Järgnevalt on osaliselt lähtutud W3C andmekuubi kirjeldamise sõnavarast, mis on kasutusel ka SDMX-is. Just sealt on võetud kuubi andmestruktuuri ja komponentide kirjelduse tähistamise viisid.

38 SDMX – Statistical Data and Metadata eXchange [25.07.2023]

Joonis 17. Andmekuup, selle dimensioonid ja üksik väärtus Kuupidel võib olla palju dimensioone, kuid mõttetu on neid teha nii palju , et tabeli kujul esitatuna ülevaatlikkus kaob. Siiski on olemas andmete liigendtabelina (Pivot Table) esitamise
tehnika, kus kuupi ja selle dimensioone saab lihtsalt pöörata ja muuta. Mitmedimensioonilises tabelis kirjeldatakse kõik dimensioonid kui muutuja d. Dimensioonid võivad olla, näiteks SDMX -is nii on, jagatud koguselisi väärtusi esitavaks ja muudeks dimensioonideks. SDMX-is on lisaks dimensioonide ja mõõdetega seotud muutujate väärtuste loendid (ehk koodiloendid või klassifikaatorid) ühe XML-faili osad.

Joonis 18.: Mitmedimensionaalne tabel ehk tabelina vormistatud andmekuup Selline minimaalne eristatus tabelite käsitlemisel peaks võimaldama nende struktuuri ja sisu piisavalt avada ning ei tohiks olla liiga keeruline rakendada.

2.2.5 Andmekataloog Andmekataloog on nim ekiri kataloogitud objektidest , mis andmehalduses on andmestikud . Samas võivad kataloogitavad andmed olla väga eriilmelised ja seega on ka kataloogid erinevad. Laias plaanis võib eristada kolme andmekataloogi tüüpi:

35 • organisatsiooni andmekataloog sisemiseks andmete halduseks, töötluseks ja teenusteks eelkõige füüsilise andmemudeli tasandil, aga ka teiste eri tüüpi andmeobjektide tasandil,; • andmeportaali tüüpi andmekataloog, mis on eelkõige mõeldud andmete levitamiseks ja suunatud andmete leidmiseks neile, ke l eelteadmised otsitavate andmete kohta on väikesed; • mingi v aldkonna metamudelit toetavad andmekataloogid , mis ongi valdkondlikud ja mõeldud andmete levitamiseks eesmärgiga neid taaskasutada ; sageli haaravad need endasse selle mudeliga ehk metaandmetega andmeid juhtiva komponendi kuni terve andmete elukäigu halduseni välja. Organisatsiooni sisemiste andmekataloogide põhiomaduseks on eri andmebaasides, teenustes ja failides olevate st andmetest ülevaate saamine ., Sageli toetu b see andmebaasi tehnilisele kirjeldusele. Selliste andmekataloogide ülesandeks on andmete leidmise, sidumise ja taaskasutamise hõlbustamine erinevatel eesmärkidel, näiteks analüüsiks või uuteks teenusteks. Andmekirjeldus on sellistes kataloogides sageli minimaalne, orienteeritud andmete tehnilisele kasutamisele. Sellist tüüpi andmekatalooge pakuvad toodetena mitmed suuremad andmekataloogi- ja andmehalduseteenustele orienteeritud ettevõtted . Suurte IT - ettevõteteandmekataloogid on näiteks Oracle Cloud Infrastructure Data Cat alog ja Microsoft Azure’i Data Catalog. Andmekataloogile orienteeritud ettevõtetest on suuremad näiteks Alation (Enterprise Data Catalog), Informatica (Data Catalog), Denodo (Data Catalog). Andmeportaali tüüpi andmekataloogide põhiomadus on teha kättesaadavaks juba loodud andmed. Üheks suuremaks seda tüüpi kataloogide rühmaks on tehtud uuringute andmestike kataloogid. See kataloog on sarnane raamatukogu või arhiivi kataloogiga. Andmekirjeldus on bibliokirje tüüpi, kuid kataloogitud andmestikud võivad olla kirjeldatud ka detailsemalt andmeelemendi ehk muutuja tasandil. Viimased on just sellised, mis sisaldavad analüütilisi või statistilisi andmestikke. Suuremad rahvusvahelised näited on OECD Data, UN Data ja European Commission Joint Research Centre Data Catalogue. Enamik sotsiaalteaduslikke andmearhiive haldab oma repositooriumis olevaid andmestikke nimelt seda tüüpi kataloogides. Sellisteks on näiteks CESSDA (Consortium of European Social Science Data Archives) Data Catalog, Progedo (INED) (Prantsusmaa) ja Aila (Tietoarkisto) (Soome). Teiseks andmeportaali tüüpi andmekataloogide rühmaks on riiklikud ja muud avaandmete kataloogid, samuti Eestis RIHA. Riiklike ja ka rahvusvaheliste seda tüüpi kataloogide üheks funktsionaalsuseks on ka viited andmeteenuste kasutusvõimalustele avaldatud andmete pealt. Kolmandaks näiteks on andmekataloogid, milles kasutakse mingi valdkonna metamudelit. Metaandmemudeli ülesehitus on sel juhul valdkonnaspetsiifiline. Tavaliselt on see detailsem ja mõistagi valdkonna andmete ja nende kasutuse eripära arvestav. Andmestike, andmeobjektide, andmetabelite ja andmeelementide kasutus võib olla lahutamatu valdkonna arusaamadest ja vajadustest. Sageli on sellele mudelile ehitatud üles terved valdkondlikud andmeteenused.
Statistika valdkonnas on sellis teks mudeli teks DDI ja GSIM. DDI on andmekataloogi aluseks näiteks portaalidele ESS Data Portal (Euroopa sotsiaaluuringu andmed) või UK Data Service (Nesstar, Ühendkuningriigid), DataInfo+ (Colectica, Uus-Meremaa). Ruumiandmete valdkonnas on sellisteks INSPIRE geoportaal ja Maa-ameti geoportaal. Eestis on andmekogusid ja riiklikke registreid pikalt hallatud andmekogude riiklikus registris ja alates 2008. aastast riigi infosüsteemi haldussüsteemis (RIHA). Neid mõlemaid võib pidada riigi andmekataloogideks . Neis on kataloogi tud andmeid andmekogu (varem registri)
tasandil, RIHAs on olnud võimalus ka andmekogu sisemise struktuuri kirjeldamiseks. Samas on RIHA skoop andmekogude kataloogina olnud lahus iga asutuse andmestike ja

36 andmekogude ülevaatest . Asutusesisesed vajadused erinevad sageli üleriigilistest. Seda arvestades on suur osa andmehalduse tegevustest ja andmekirjelduse juhisest suunatud asutustele. Lisaks on arendatud asutustele andmekirjelduse halduse töövahend RIHAKE, mis peab aitama asutuse vaate ja vajadused üleriigilise vaatega integreerida. Üleriigilise andmehalduse tegevusel on kaks osa: • andmekirjelduste halduserakendus RIHAKE toetub andmekirjelduse standardile ning võimaldab edastada asutustes loodud andmekirjeldused automaatselt RIHAsse; • RIHA ühendatakse Eesti avaandmete teabeväravaga ühtseks andmete teabeväravaks. Selliselt tekib asutuste ja riigi andmekataloogide või andmeportaalide süsteem, mis
võimaldab andmekirjelduste ehk metaandmete ning ka avaandmetena avaldatud failide edastamist sinna või leidmist kesksest kohast. Seda nimetatakse ühtseks teenuspunktiks. Selles teabeväravas on info andmekirjelduste kujul ehk metaandmete na kas andmestiku tasemel või osalt andmete tasemel , kui tegu on avaandmetega. Andmete leidmiseks ja mõistmiseks nii üleriigilises andmekataloogis kui ka asutuste andmekataloogides , on nendes andmete tähenduse kohta käivate mõistete ja terminoloogia koostamise ja haldamise funktsionaalsus: andmesõnastik ja ärisõnastik. Käesolev and mekirjelduse juhis toetab andmekata loogi koostamist, selgitades, kuidas andmekirjeldusi teha.

2.3 Mõisted, terminid, sõnastikud 2.3.1 Termin ja mõiste Andmekirjelduse oluline osa on esitada metaandmed , kasutades oskussõnavara. Andmekirjelduses on ka pealkirju, kirjeldavaid lause id ning erin evaid kirjelduselemente, kuid oskuskeele sõnavara ning terminite täpne kasutamine on andmete mõistmis e tagamiseks põhiline. Andmekirjelduses on terminid kasutusel nimetamisel, pealkirjastamisel, märksõnastamisel ning neist moodustatakse sõnastikke. Andmekirjeldused on terminid mitmes rollis: • terminid kui objekti sisu avavad sõnad ja tähised, mille parim näide on sisu avav pealkirjastamine; • terminid kui mõisted või mõistmisüksused – õieti mõistete tähistused ; kui terminitega tähistamisel luuakse mõistete süsteem, tavatsetakse seda nimetada mõisteliseks kirjeldamiseks; • terminid kui märksõnad, mis eelkõige tähendab siin, et terminid võetakse kirjeldamiseks juba koostatud sõnastikust. Termini ja mõiste käsitlemisel on eri elualadel erinevad väljakujunenud vaated. Andmekirjelduse juhis on suunis praktiliseks kasutamiseks. Siiski on juhisesse lisatud ülevaatlik teemakäsitlus, kuna andmekirjelduse keskseks osaks on sõnastike koostami ne ja haldus. S õnastike koostamises haakuvad aga mitmed terminitöö või mõistelise mõtlemise käsitlused. Järgnevalt on toodud viis käsitlust loogikast keeleteaduseni. Erinevate lähenemiste tehnilised võtted on aluseks sõnastike koostamise praktilisele juhisele (Lisa 2).

37 Termin ja mõiste oskuskeele käsitlustes Andmehaldust ja andmekirjeldusi võib keeleteaduse sõnu kasutades nimetada oskussuhtluseks ja termin ikasutus selles moodustab oskuskeele ehk terminoloogia laiemas mõistes. Eri valdkondade oskuskeeli ja terminiloomet on edendanud Eesti keeleteaduse suurkujud nagu J. V. Veski. Loodud on teadusharude teaduskeeled. Näiteks majandusteaduse ja statistika vallas on pikk ja soliidne oskuskeele käsitlemise traditsioon eelkõige tänu Uno Mereste töödele. Keeleteadus on terminitööd või oskussuhtlust käsitlenud nii praktiliselt kui teoreetiliselt . Kõigutamatu vundamendi aga annab loogika. Kõik need koos standarditega on andmehalduses kasutatavad. Uno Mereste tööde kogumik „Oskuskeel ja seaduste keeleline rüü. Artikleid ja lühiuurimusi“ (2000) võtab kokku tema oskuskeele käsitluse. Mereste on klassikalise terminoloogiakoolkonna ( aluseks terminoloogiateooria rajaja Eugen Wüster ja klassikaline Viini koolkond, nõukogude koolkond) esindaja ning lähenemiselt onomasioloogiline ehk mõistekeskne. See tähendab, et ’asjadel’ peaksid olema õiged nimetused ja üldiselt peaksid need olema ajas püsivad. Mõistete tähistamiseks on oluline kasutada õigeid termineid. Heaks näiteks on Mereste selgitus termin ite „näitaja“ ja „näitarv“ kasutamisest; statistikas räägitakse sarnaselt „muutujast“ ja „muutuja väärtusest“. Teiseks oluliseks tugisambaks on Tiiu Erelti tööd , eelkõige tema „Terminiõpetus“ (2007). Se e on keeleteaduslik käsitlu s terminiloomest ja eesti oskussõnavara arendamisest. Raamatu o luliseks lähtepunktiks on üldkeele j a oskuskeele eristamine. Erialakeelele on omane terminoloogiline täpsus , terminid peavad olema võimalikult ühetähenduslikud ning mõisted üksteisest eristatavad. Olulisi teemasid on Ereltil mit u; toome siin ära kaks: (1) termini moodustamise põhimõtted ja viisid ning laiemalt terminiloome; (2) mõistete ja nende määratlemise küsimused. Viimases on Erelt samuti onomasioloogiline. Ta kirjutab, et mõiste defineerimine õnnestub, kui oleme: 1) kindlaks määranud mõiste olulised tunnused, 2) selgitanud mõiste suhted teiste mõistetega, 3) teinud kindlaks mõiste koha eriala mõistesüsteemis, 4) andnud heade keeletavade kohase sõnastuse. Defineerides õpitakse tundma objektide sarnasusi ja erinevusi. Võib öelda, et tema terminiõpetuse alus eks on käsitlus tunnustest ; väga oluline on oskussõnaloome, t erminivormide (sünonüümsus, võõrterminid jms) teema ning erialakeele ja üldkeele vahekord. Ta küll puudutab, aga ei pane kesksele kohale järjest enam läbipõimuvate eriala oskuskeelte omavaheliste suhete teemat.
Kolmandaks oluliseks käsitluseks on Arvi Tavasti tööd, eriti tema ja Marju Taukari „Mitmekeelne oskussuhtlus“ (2013). See on ühest küljest kõige tänapäevasem lähenemine, teisalt esitab raamat parema oskussuhtluse tarvis onomasioloogilisest vaatest erineva käsitluse. Andmehalduses lähtutakse andmekirjelduste koostamisel paljuski Tavasti kirjutatust. Raamatus peatutakse ka uuematel terminoloogiateooriate käsitlustel, neist olulisemaks võib pidada Rita Temmermani sotsiokognitiivset terminoloogiat, milles terminoloogiatöö lähtekoht on mõistmisüksus ( unit of understanding). Selle teooria juures on oluline mitte klammerdumine eriala piiresse, vaid eesmärk mõistmisüks uste abil luua laiemaid selgitusi. Temmermani teooria tuntuim rakendus on Euroopa Liidu terminibaas IATE (Interactive Terminology for Europe), samuti selle Eesti vaste : Eesti Keele Instituudi mitmekeelne terminibaas (ESTERM). Temmermani järgi on rangetest loogilistest soo - ja liigitunnustest lähtuvatest

38 määratlustest olulisem konteksti selgitamine ja kasutusjuhu näite esitamine. Teine terminoloogiatöö käsitlus, millele Tavast osutab, on Pamela Faber Beníteze freimipõhine terminoloogia. Tegemist on mõistekeskse lähenemisega, samas võib üks termin tähistada ka mitut mõistet. Mõisted ei esine iseseisvalt, vaid valdkonna sündmuste (freimide) kontekstis. Meie jaoks on sel pigem tunnetuslik tähtsus – me kuuleme pidevalt inimesi kasutamas sõnu, mille täpset tähendust nad ei tea, kuid mis on justkui väga vajalikud sõnad kaasarääkimiseks kõikvõimalikes uudsetes asjades. Termin „andmehaldus“ on üks selline. Beníteze käsitlust on vaja tunda eelkõige selleks, et saada aru, kas loetud tekst või kuuldud jutt on n -ö oskuskeelne, üldkeelne või mingi tehnokraatlik sulam er inevate oskuskeelte terminoloogiast. Viimase žanri näiteks on õigusakti seletuskiri, milles on koos eriala- ja õiguskeel. Neljanda, rangeima ja klassikalisima terminite ja mõistete käsitluse aluseks on loogika. Siin saame toetuda teemat ammendavale Enn Kasaku raamatule „Loogika alused“ (2014). Kasak esitab väga range käsitluse, mis toetub nii traditsioonilisele kui ka moodsale loogikale ning keelefilosoofiale ja semiootikale. Andmehalduse kontekstis on oluline välja tuua seos arvutiteadusega ja veebitehnoloogiaga, milles semantilised seosed sõ nade ja mõistete vahel muudetakse n -ö masinmõistetavaks. Mõistagi tuleb loogiline ja kategoriaalne mõtlemine andmekirjelduste tegemisel kasuks. Arvutistatud ja rangelt loogiline mõtlemine on tohutult võimeline, ent inimesed, kes seda ei valda, peavad siiski lootma jääma arvutitele. Väga vähestel on õnnestunud loogiline matemaatika ja filosoofia praktiliseks pöörata ja andmekirjelduste koostajate seas neid tõenäoliselt pole.
Viiendaks allikaks, millele saame toetuda, on terminitöö standardid. Siin on kaks peamist standardit. Esmalt EVS-ISO 1087 -1:2002 „Terminoloogiatöö. Sõnastik. Osa 1: Teooria ja rakendus“. Standard esitab range käsitluse sellest, kuidas keel ja tegelikkus on omavahel seotud, kuidas moodustada mõistet kui teadmusüksust objekti tunnuste kombinatsiooni põhjal, seda tähistada ja määratleda ning mõisteid sõnade ja sõnedega tähistada. Samuti on standardis kirjeldatud peamised mõistetevahelised suhted (hierarhiasuhe ja assotsiatiivsuhe), terminite liigitus ning suhted tähiste ja/või mõistete vahel.
Teiseks oluliseks standardiks on tesauruste koostamist käsitlev ISO 25964-1:2011 „Informatsioon ja dokumentatsioon. Tesaurused ja nende koostalitusvõime teiste sõnastikega. — Osa 1: Infootsingu tesaurused“ („Information and documentation: Thesauri and interoperability with other vocabularies. — Part 1: Thesauri for information retrieval“), mis on ülevõtmisel Eesti standardiks. Tesaurus on märksõnastik ( controlled vocabulary) või struktureeritud sõnastik, milles iga mõiste kohta on esitatud termin id, eelisterminite sünonüümid või osasünonüümid ning välja toodud mõistetevahelised suhted.
Ülaltoodud allikate põhjal saame termini ja mõiste käsitlused kokku võtta järgmiselt. Alustame Enn Kasaku määratlustest: • MÕISTE (ingl concept, ld conceptus) on „s uhtlemise vahendusel moodustunud kokkuleppeline abstraktne objekt, mis esindab suhtluspartnerite lähedasi isiklikke mõisteid samade objektide, nähtuste, suhete jms kohta samade tunnuste abil“. (2014, lk 60)
• TERMIN (mõisteväljend, ingl term) on „sõna või fraas, mis mõistet kokkuleppeliselt väljendab ning viitab ka selle mõistega haaratud objektidele“. (2014, lk 60)

39 • Nendes määratlustes näeme kokkuleppelisuse ja suhtluse rõhutamist, milles isiklikud mõisted ehk isiklik keelekasutus muutub valdkondlikuks, saab oskuskeeleks või lihtsalt kommunikatsiooniks. Arvi Tavasti ja Marju Taukari õpikus on mõiste ja termini kohta antud järgmised selgitused: • MÕISTE: „…oleks praktika seisukohalt kasulik teadvustada mõistete olemasolu, ükskõik kuidas neid siis nimetada või mida nimetamiseks kasutatav sõna veel tähendab. Peaasi et kuidagi nimetada. […] Kui maailmapilt ei sisalda termini ja mõiste vahel vahetegemist, siis ei sisalda ta seda ka pärast terminite väljavahetamist.“ (2013, lk 71) • TERMIN: „Mõistete keelelist tähist nimetatakse terminiks, sõnaks, väljendiks, keelendiks, fraasiks, tähistajaks, termini väliskujuks või vormiks. Terminite üldise käitumise seisukohalt on need kõik täpselt üks ja seesama. […] Eristada tuleb terminit vaid pikematest tekstidest, peamiselt määratlusest ja kasutusnäitest. […] Üleminek termini ja üldkeele sõna vahel on sujuv. Kummastki võib nii spontaanselt kui ka teadliku keelekorralduse tulemusena saada teine …“ (2013, lk 71) • Selles käsitluses on selgelt näha, et oskuskeelt ei peeta kuidagi kõrgemaks üld- või tavakeelest ning lähenemine on sotsiokognitiivne. Võib öelda, et selle lähenemise keskne arusaam on tõlkimises kas ühest keelest teise või valdkondade ja oskuskeelte vahel. Need on ka andmehalduse ja andmekirjelduse koostamise juures olulised küsimused – tähtis on, et paratamatu pragmaatiline nimetamine ei toimuks „ükskõik kuidas“, vaid eesmärk oleks terminoloogia korrastamine. Tiiu Erelt ei esita oma määratlusi, vaid toetub teistele allikatele: • MÕISTE: autor lähtub standardi EVS-ISO 1087-1:2002 määratlusest, mille kohaselt mõiste on „teadmusüksus, mille moodustab ühene tunnuste kombinatsioon”. (2007, lk 44) • TERMIN: siin soovitab ta lähtuda Sergei Šelovi arusaamast, et vastandusel „termini (leksikaalne) tähendus – terminiga nimetatud mõiste“ ei ole suuremat mõtet ning erialases kasutuses ongi termini tähendus temaga tähistatud mõiste. Termini kui sõna ja sõnaühendi spetsiifika peitub selle tähenduses. • Praktilisest andmekirjelduse vaatenurgast on Tiiu Erelti arusaam terminist ja mõistest kõige kasutatavam, kuigi rangelt võttes ei ole termin ja mõiste piisavalt eristatud. Ka andmehalduses ei ole leksikaalsel ja kontseptuaalsel eristusel suuremat mõtet.

Kokkuvõtvalt on kõige mõistlikum lähtuda Enn Kasaku definitsioonidest ja lisada neile standardite omad: MÕISTE Mõiste on suhtlemise vahendusel moodustunud kokkuleppeline abstraktne objekt, mis esindab suhtluspartnerite lähedasi isiklikke mõisteid samade objektide, nähtuste, suhete jms kohta samade tunnuste abil. (Kasak) Mõiste on teadmusüksus, mille moodustab ühene tunnuste kombinatsioon. (ISO 1087)

Page 5 of 9