25
Sõna „andmed“ mitmetähenduslikkus raskendab mõistest ühest arusaamist , õieti teeb
selle teemat detailselt käsitlevate teadlaste arvates võimatuks ja ühtlasi ka mõttetuks .
Mitmetähenduslikkus on andmetega tegelemisel alati kaasas.
Andmed ei ole üheselt määratletav mõiste, selle konkreetne tähendus sõltub
kasutuskontekstist ja sellest, kas kasutus on üld- või erialakeelne.
Selles juhises on andmete mitmetähenduslikkusele osutatud just seepä rast, et sel on
andmehalduses üldiselt ja andmekirjeldus te koostamise juures konkreetselt oluline tähtsus.
Eristuvad kolm laia tähendusvälja, millele me siin viitame, lähtudes L. Floridist:34
• andmed kui faktid;
• andmed kui informatsioon;
• andmed kui bitid.
Andmed kui faktid on arusaam, et andmed on tunnetatud empiiriline tõendus. Tavakeeles
väljendatuna räägitakse sel juhul õigetest andmetest ja valedest andmetest. Andmetes peitub
potentsiaalselt tõde, õiged andmed võrduvad faktilise tõega. Hea näide on juriidiline fakt, et isik
on Eesti kodanik või talle kuulub kinnistusraamatu järgi just see kinnistu just sel hetkel.
Andmed kui informatsioon on arusaam ja kõnepruuk, kus andmed ja informatsioon on
sünonüümid. Selle järgi on andmed inimmõistetav teadmine. Head näited on nimi, isikukood,
aadress või õhusoojus. Sel tähendusväljal on palju pistmist sõnade tähendusega.
Andmed kui bitid ehk binaarsed elemendid on infotehnoloogia s levinud mõiste. Andmed on
masintöödeldavad ja me nimetame seda masinat arvutiks. Selles vaates eristuvad andmetöötlus
ja infotöötlus teineteisest. Lisaks binaarsusele on järjest enam IT -s andmetest rääkides jutuks
andmetüübid, milles rangelt võttes oleks andmed juba info, kuid nii ei mõelda, kui näiteks
räägitakse tekstikujul olevate andmete töötlusest kuupäeva kujule või muud sarnast.
Andmehaldus tegeleb andmete kui bittidega üsna vähe. Päris mööda va adata sellest
tähendusväljast aga ei saa, sest kahes kohas on see oluline. Esmalt puudutab see faile, mis
salvestavad erinevaid andmetüüpe, ning teiseks andmeteenuseid ja andmetöötlust.
Andmehalduses ja eriti andmekirjelduse juures on oluline käsitlus andmetest kui
informatsioonist. See väljendub ühelt poolt andmete tähenduse seostes metaandmetega ning
teisest küljest juba viidatud tavalises sõnakasutuses, mis ei teegi ranget vahet andmet e ja
informatsiooni vahel. L. Floridi raamatus „Informatsioon. Lühike sissejuhatus“ on esitatud
andmete ja informatsiooni seoste käsitlus, milles ta jõuab sisu ja struktuuri käsitledes faktilisuse,
tõesuse ja informatsiooni teadmuslikkuseni ehk selleni, kuidas me andmeid kasutame.
34 Floridi, Luciano (2008). Data. In William A. Darity (ed.), International Encyclopedia of the Social Sciences
26
Joonis 9. Andmete ja informatsiooni seoste käsitlus (L. Floridi)
Andmekirjelduse juhises on käsitletakse andmestikke ja struktureeritud andmeid. Viimase
väikseim hallatav ühik on andmeelement . Analüütilises käsitluses vastab sellele kirje ehk
andmeelemendi esinemise üks eksemplar, mis statistika terminites on üksikmuutuja ( instance
variable). Andmed on struktureeritud väiksemateks ja suuremateks üksusteks, milleks
andmeelemendi kõrval on andmekirje, andmeobjekt, andmestik, aga ka andmebaas, fail või
andmekogu.
2.2.2 Andmeelement Termin andmeelement on kasutusele tulnud infotehnoloogiast. Paljud andmekirjeldusega tegelevad standardid, nagu SDMX, DDI, XBRL , on andmekirjelduse suhestanud või vastendanud IT-käsitlusega. Andmekirjelduse aluskäsitluseks on standard ISO/IEC 11179 -3:2013 “Infotehnoloogia. Metaandmete registrid (MDR). Osa 3. Registri metamudel ja põhiatribuudid“. Selles on esitatud küllalt abstraktne andmeelemendi mudel.
MÕISTE Andmeelement on kindlas kontekstis jagamatuna käsitletav andmete üksus. See abstraktne määratlus pole näideteta arusaadav. Standardis on määratlusele lisatud näide: „Andmeelemendil „isiku vanus“’ saab olla väärtus, mis on kolmekohaline arv“. Järgnev näide esitab ISO/IEC 11179 andmeelemendi käsitluse, nagu see näeb välja tabeli s. Joonisel 10 on kasutusel ISO 11179 terminid „objektiklass“ ja „väärtusdomeen“, mida me üldiselt selles juhises ega andmekirjelduste koostamisel ei kasuta. Siin kasutatava termini „andmeelement“ sünonüümid eri kasutuskontekstides on ka „muutuja“, „tunnus“, „atribuut“ ja „andmeväli“.
esmased andmed teisesed andmed metaandmed operatiivsed andmed tuletatud andmed analoog digitaalne binaarne andmed (struktureeritud) semantiline (sisu) looduslik juhendav / õpetav faktiline tõene (informatsioon) vale tahtmatu (väärinformatsioon) tahtlik (desinformatsioon) teadmus füüsiline / bioloogiline info administratiivne ja majanduslik info (mida kasutatakse tööks ja analüüsiks)
27
Joonis 10. Andmeelement ISO/IEC 11179 järgi Lihtsustades joonisel 10 esitatu praktiliseks kasutamiseks, selgitame se da tabeli käsitlemisel kasutatava sõnavara abil: • tabeli veerg on andmeelement, mida saab mõisteliselt kirjeldada; tabeli veerg on samuti objekti klass, kuid sel pole suurt tähendust väljaspool objekt-relatsioonilist käsitlust; • tabeli veeru nimi on konkreetne mõiste tähis, mis antud näidetes ja üldiselt ei ole keeles kasutatav sõna või termin, vaid andmete mugavaks töötlemiseks pandud tähis; • tabeli read moodustavad sisulised kirjed , kuid selles näites puudub neil kontekst, võib ainult aru saada, et kirjed on isikute kohta; • tabeli veergude sisu ehk konkreetsed väärtused ehk tunnuse või muutuja väärtused näitavad midagi sisuliselt ehk annavad informatsiooni; • tabeli veergude võimalikud väärtused võivad olla kindlaks määratud kolmel moel: o (1) andmetüübiga, mida väärtustes saab kasutada (arv, tekst, kuupäev jms); o (2) võimalike lubatud väär tustega (isikul saab olla eelnevalt kindlaksmääratav sugu, see võetakse loendist); o (3) andmete esitamise konkreetse kujuga (kuupäev on kujul DD.MM.YYYY). Andmeelementide kirje ldamisel kirjeldatakse selle tähendust väljendavat mõistet ja andmeelement tähistatakse terminoloogiliselt. Kui andmeelement on seotud väärtusdomeeniga, mille tüüp on võimalikke väärtusi sisaldav loend, võib olla vajalik kirjeldada ka selle loendi kõik väärtused mõiste tena. Sellised loendid on näiteks klassifikaatorid või märks õnastikud. Andmeanalüüsis ja statistika tegemisel on loenditega, mida selles kontekstis nimetatakse koodiloenditeks, tegelemine oluline osa andmete mõistmise st. E ri valdkondades on andmeelemendi detailse kirjeldamise ja haldamise vajadus erinev. Statistikas on selleks eraldi muutuja kirjeldamise käsitlus. Paljudel juhtudel nõuavad loendid ja eriti klassifikaatorid eraldi detailsemat andmekirjeldust kui ainult nende väärtuste üldist kirjeldamist andmeelemendina. See puudutab nii loendielementide termineid ja sageli ka neid tähistavaid koode kui ka hierarhiaid ja võimalikke rühmitusi ning versioone ja kehtivust. Andmeelemendi kirjeldamisel tähistatakse andmeelemendid terminitega, mis mõisteliselt ja tähistatuna üksteisest eristuvad ning millest luuakse andmesõnastik.
28
Andmeelemendid on omavahel tehniliselt ja sisulis elt seotud. Tehniliselt on need seotud
andmestruktuurides, milleks meie näidetes on eelkõige tabel, aga seosed võivad olla ka
tehnilistes andmestruktuurides, nagu JSON, XML või muu. Sisulise poole pealt on
andmeelemendid omavahel seotud loogiliselt või kontseptuaals elt, kui väljenduda
andmebaasidest rääkimise keeles . Nii loogilisi kui ka kontseptuaalseid objekte võib pidada
andmeobjektideks. Sisuliselt luuakse andmeelementidest nende rühmitamise teel ärimõist ed,
mis on samuti andmeobjektid, aga need esitatakse ärisõnastikus.
2.2.3 Andmestik Termini „andmestik“ kasutusele võtmise vajadus tuleneb sellest, et andmetest rääkides oleks võimalik aru saada, millist hulka andmeid hallata, kas andmeelementi, and meobjekti, andmestruktuuri või andmebaasi või veel midagi muud. Samuti on tekkinud praktilised raskused, mis osalt tulenevad andmekogu legaaldefinitsioonist avaliku teabe seaduses.35 Andmehalduses laiemalt ja eriti andmekirjelduses on vaja terminoloogiliselt selgesti eristuvat mõistet hallatava andmekogumi tähistamiseks. Sellise mõisteta ei saa andmehaldust edukalt korraldada . Selleks ongi andmestik. Andmestikul on legaaldefinitsioon, kuid ehk olulisemgi on see, et andmestik (data set) on põhimõisteks andmekataloogide s. Seda mõistet kasutab rahvusvaheline andmekataloogi sõnastiku standard (DCAT), mis defineerib, et andmestik on inforessurss, mida hallatakse, millele luuakse avaandmete vaade ja millega seotakse andmeteenused.
MÕISTE Andmestik on andmete hulk, mis on avaldatud ja mida hallatakse kindla isiku poolt ning millele saab anda juurdepääsu või seda alla laadida ühes või enamas vormingus. (DCAT) Andmestik on identifitseeritav ja hallatav andmete kogum. (riikliku statistika seadus) Andmestik võib olla väiksem või ulatuslikum. Neid on eri tüüpi, nagu näiteks riigi oluline register või üks statistiline väljundtabel või üksik fail, mis omakorda võib sisaldada väga erinevat infot tekstist videoni. Eestis on kasutusel andmestiku mõiste Eesti avaandmete teabevärav as.36 See baseerub tehnilisel standardil „DCAT rakendusprofiil e Euroopa andmeportaalidele “ (ver 2.0.1) , mille kohaselt on andmestik avaldatud informatsioon ehk meil kasutatavas terminoloogias avaandmed. Seega on avaandmed just andmestikud ning andmeportaal on nende andmestike kataloog. Termin „andmestik“ ei ole ammendavalt kontseptualiseeritud või lahti mõtestatud ning selle kasutamise praktikagi ei ole Eestis veel välja kujunenud. Seetõttu peame õigeks lisada selgituse, mida andmestiku all mõista. Samuti esitame joonisel 11 mudeli, mis osalt järgib DCAT- i standardit, aga osalt detailiseerib seda.
35 Avaliku teabe seadus § 43 1 Andmekogu, lõige 1) Andmekogu on riigi, kohaliku omavalitsuse või muu
avalik-õigusliku isiku või avalikke ülesandeid täitva eraõigusliku isiku infosüsteemis töödeldavate
korrastatud andmete kogum, mis asutatakse ja mida kasutatakse seaduses, selle alusel antud õigusaktis
või rahvusvahelises lepingus sätestatud ülesannete täitmiseks.
36 Eesti avaandmete teabevärav
29
Joonis 11. Andmestik seotuna andmekataloogi ja andmeelemendiga Eelpool osutasime, et andmestik on identifitseeritav ja hallatav andmete kogum või hulk. DCAT-i standardis esitatud määratlus käsitleb andmestikku andmekataloogi pidamise kontekstis. Iga hallatav objekt andmekataloogis on andmestik ehk mida tahes andmestikuna ei määratleta, see seda ka DCAT-i mõistes andmekataloogis on. Niisugune käsitlus on lähedane mäluasutuste käsitlusele: raamatukogu kataloogis on teavikud, muuseumi infosüsteem kirjeldab museaale ja arhiivis on arhivaalid. Selline kataloogiv vaade ei ol e aga ainuke. Andmestikud tekivad töö käigus, kui mingid andmed teistest töötlemiseks eristatakse; samuti uuringutes, kus kogutakse andmeid vaatluste või eksperimentide käigus. Kahtlemata on see üks olulisemaid andmestiku kontseptualiseerimise viise, et vaadatakse andmete seost mingi tegevuse või töötlusprotsessiga. Viimase klassikaliseks näiteks oleks vaatluse, eksperimendi, sündmuse või toimingu või muu eristuva üksikandmetest koosneva andmestiku töötlemine , üldistamine nii, et tekib koondandmetest andmestik. Andmestike tüüpe on palju ning kokkulepitud tüpoloogiat ei ole. Andmekataloogides võib andmestike tüüpid ena olla määratud kirjeldusstandardi „Dublin Core“ elemendi „inforessurss“ tüüpide osas kokku lepitud märksõnastik. 37 Selles inforessursi tüüpide loetelus on üks element andmestik ja kokku on selles 13 inforessursi tüüpi. Andmestik on selles määratletud kui „struktureeritud info, mis on kodeeritud loendiks, tabeliks, andmebaasiks jne, mis on tavaliselt vormingus, mis võimaldab selle otsest masintöötlust. Näiteks tabelarvutuse lehed, and mebaasid, geoandmed, heliandmed“ . Lisatud on ka, et mittestruktureeritud numbrid ja sõnad on teksti tüüpi andmed. Selline eristus, et struktureeritud andmed on andmestikud ja mittestruktureeritud ei ole, on lihtsustatud ja vananenud. See nimekiri ongi aastast 1999. Samas on struktureeritud ja mittestruktureeritud andmete kirjeldamisel pikk ja eristuv traditsioon. Struktureeritud andmed relatsioonilises andmebaasis on selgelt käsitletavad andmestikena ning täpsustamist vaja b küsimus, kas üks andmebaas on üks andmestik või on nende seosed mitmesugused. Vastus on, et seosed on mitmesugused. Ühes andmebaasis võib
37 Dublin Core. List of Resource Types [25.07.2023]
30 olla mitu andmestikku ja vastupidi. Esimesel juhul on neid võimalik eristada nii traditsioonilise andmebaasi ja andmemudeli terminites kui ka kontseptualiseerida andmestikeks sisuliselt. Esimese viisi näiteks on andmebaasi skeemide või andmeobjektide eristamine. Oleme andmestiku ja andmeelemendi vahele asetanudki struktuurse osa , mida nimetame andmeobjektiks või andmetabeliks. Lihtne oleks lahendus siis, kui see oleks alati selline andmetabel, nagu see on relatsioonilises andmebaasis. Sageli see nii ongi, kuid mitte alati. Kirjeldamist vajavad andmestruktuurid ei pruugi kattuda andmetabeliga.
Mis on objekt ja andmeobjekt? Sellele on võimatu ammendavalt vastata ! Üks kõige levinum arusaam on, et objektiks võib nimetada kõike. (Stanford Encyclopedia of Philosophy. Object) Selline on ka objekt- orienteeritud IT-käsitlus, milles lihtsalt maailma see imeväike osa, mida mingi konkreetne andmemudel ja infosüsteem hõlmab, piiritletakse ja piiritletud objektid nimetatakse. Käsitlus on igal konkreetsel juhul praktiline, eriti arvestades, et mudel peab toimima ehk infosüsteem täitma oma eesmärki. Teisalt on kõikide objekt -orienteeritud süsteemide objektide ja objektitüüpide (klasside) kogusumma hoomamatu mõistete ja terminite maailm. Eesti keeles võib öelda, et objekt on miski (inglise keeles something). Siin on oluline peatuda küsimusel üksikobjektist ja objektitüübist. Andmebaasides on üldiselt objektid tüüpide kaupa ning need objektitüübid ehk klassid ongi mudeldatud. Selleks on kirjeldatud objekti omadust ( property), mis kanna b andmebaasis nimetus t atribuut. Selles juhendis on andmekirjelduse vaates need andmeelemendid (näiteks andmeobjekti „aadress“ elemendiks on „maakond“ või andmeobjekti „lemmikloom“ elemendiks on „sugu“). See, milliseid omadusi, tunnuseid, muutujaid (features, properties, attributes, characteristics, variables) me mingi objekti juures kirjeldame, sõltub pea alati eesmärgist. Kuna andmekirjeldus on väga tihedalt seotud andmebaasidega, osundame Date'i ja Darweni klassikalisele seisukohale ( Date, C. J., Darwen , H. Databases, Types and Relational Model: The Third Manifesto (2014)):
- Terminil „objekt“ ei ole ei ühte täpset ega üldaktsepteeritud tähendust. Mõnikord on see väärtus (value), mõnikord muutuja (variable), mõnikord tüüp (type), aga teinekord selle vastandina eksemplar (instance).
- Nimetusena on objekt kasutusel näiteks (1) iseloomustamaks graafilise
kasutajaliidese stiili, (2) programmeerimiskeelt, (3) analüüsi tehnikat, (4) disaini tehnikat
või (5) on kasutusel andmebaaside halduse kontekstis. (lk 7)
Seega olukorras, kus andmeobjekt võib teor eetiliselt olla ja praktikas ongi miski ehk
ükskõik mis, saame läheneda ainult praktiliselt. Andmehalduses üldiselt ja
andmekirjelduste koostamisel konkreetse lt on andmeelementide grupeerimisel andmeobjektiks juba väga spetsiifiline kontekst , mis juhises väljendub kas tabeli pealkirjana või objekti tähistava mõistena. Andmestikud on ka sellised an dmefailid, mida kasutatakse sotsiaalmajanduslikes ja paljudes teistes uuringutes analüüsiks ja andmete avaldamiseks . Selget piiri avaldatava andmestiku, avaandmete ja andmete publikatsioonide vahel on järjest raskem tõmmata . Seda enam, et praktikas on need kõik olulised infoallikad.
31
Samuti vajab edasist praktika kujundamist küsimus andmebaaside, andmeladude,
andmeaitade, andmekogude või koguni andmekeskuste suhestumisest andmestikega. Kindlasti
aitaks siin selgust tuua andmevarade ja andmestike seostatuse küsimus , sest andmevarade
haldus nende inve ntuuri või muu nimekirjana võiks olla seostatav andmestike haldamisega
andmekataloogis või mujal.
Lisaks peaks olema selgem, kuidas suhestada andmestikud ja digitaalsed dokumendid.
Andmestikena mõistetakse sageli ainult struktureeritud andmetest objekte või veel piiratumalt
andmeid relatsioonilistes andmebaasides. Aga samuti faile, mis on osaliselt või hästi
struktureeritud, nagu DAT - või CSV -vormingus failid, osad tabelarvutuse failid jne. Digitaalsed
dokumendid samas on sageli mittestruktureeritud tekst, lihtsad tekstifailid või mõnes kindlas
vormingus nagu PDF. Osa digidokumente on kindlasti andmestikud tähenduses, mille kohta see
juhis käib, et need on andmehalduse objektid. K ontseptuaalselt ei ole andmestike ja
digidokumentide käsitlus vastavalt andme- ja dokumendihalduses selge. See on osaliselt kattuv.
Kuni see ei ole selgemaks analüüsitud ja õiguses määratletud, saab lähtuda praktilistest
eesmärkidest. Näiteks andmeportaalid avaldavad andmeid failidena erinevates vormingutes
(lisaks Excelile ja CSV-le ka XML-is või JSON-is) ning sellised failid on käsitletavad andmestikana,
kuigi need on käsitletavad ka digidokumentidena . Andmekirjelduses ja digidokumentide
kirjeldamisel kasutatavad metaandmed on sageli lähedased või kattuvad. Kui küsida, kas
digiallkirjastatud dokumendis lisana olev Exceli fail on dokument või andmestik, siis mõlemat
ning seda Exceli faili võib hallata nii dokumendi- kui andmehalduses, määrav on see, kus toimub
sellele lisatud kirjelduse jt metaandmete haldus.
2.2.4 Andmetabel Tabel on info esitamine ridade ja veergudena, mida nimetatakse tabeli sõrestikuks. Read on horisontaalsed ja veerud vertikaalsed, nende kokkusaamise koht on lahter. Tänapäevasemas keeles on lahter andmeväli, millest järeldub, et lahtri sisu on andmed. Mõistagi võivad need andmed olla väga erinevad nii andmetüübilt kui ka sisult (sh mahult). Teisalt on tabel on nii tavaline nähtus, et selle peale ei mõelda, mis see siis on. Ning alles siis, kui seda on vaja hallata ja kirjeldada , selguvad probleemid. Tabeli kirjeldamine tundub liiga igapäevane, vähetähtis või hoopis tülikas ja aeganõudev, et seda ette võtta. Teiseks lüüakse käega, sest tabeleid on lootusetult palju. Sageli on tabeli sünonüümiks muutunud Excel. Järgnevalt on tabelite liigituse seletamiseks kasutatud kahte võrdlevat käsitlust. Esmalt Uno Mereste õpikus „Statistika üldteooria“ toodud tabelite liigendatuse näide. Selle järgi on tabelid lihttabelid, rühmtabelid ja kombinatsioonitabelid. Teiseks tänapäeva statistikas ja andmeanalüüsis kasutusel olevast jaotusest (1) üksikandmeteks ja (2) koondandmeteks. Üksik- ja koondandmed võivad olla esitatud ka muul kujul kui tabelina, kuid sageli on need tabeli kujul. Lihtsuse ja ülevaatlikkuse jaoks on joonisel 12 tabelid jagatud: (1) kirjetest moodustatud tabeliteks ja (2) risttabeliteks. Risttabelid, milles on mitut tüüpi ridu või veerge, on kuubid ehk mitmedimensioonilised tabelid. Joonisel on kirjetest koosneva tabeliga seotu d relatsiooniline andmebaas, mis koosneb tabelitest ja nendevahelistest seostest. Neile võib veel tinglik e tabelitena lisada vahetabelid ehk vaated (view).
32
Joonis 12. Tabeli liigid (lihtsustatud tüpoloogia) Sellise lih tsustatud jaotuse eesmär k on teha kergesti arusaadavaks, kuidas tabelit kirjeldada. Selleks on tabelid jagatud kahe tüübi vahel. Need on: • LIHTTABEL ehk üksikute nähtuste, ilmingute, faktide, sündmuste jms kirjete tabel; • RISTTABEL ja KUUP ehk mitmedimensiooniline risttabel. Lihttabel koosneb ridadest ja veergudest ning sageli on esimene rida ehk päiserida veergu tähistav ja kirjeldav ehk see on veeru metaandmed. Veeru metaandmete kirjeldamine on andmekirjelduste koostamise oluline osa. Veeru metaandmed on lähedased sellele , mi da statistikas nimetatakse muutuja kirjelduseks. Lihttabel võib olla näiteks selline:
Joonis 13. Lihttabel ehk üksikandmed ridades ja veergudes
Andmelaos nimetatakse sellist tabelit sageli faktitabeliks, seda võib nimetada ka
transaktsioonide tabeliks või registrikirjete tabeliks. Andmelaos ei esine selline tabel tavaliselt
üksikuna, vaid on seotud teiste tabelitega.
Nagu öeldud, eristub sellisest n-ö põhitabelist vahetabel või vaade. Vahetabeleid ja vaateid
koostatakse väga erineval eesmärgil. Andmete tervikliku töötlustsükli kirjeldamine, mi lles on
vaade andmete elukäigule (data life cycle) või vaade andmete pärinevusele (data lineage), kõigile
töötluse seisunditele (data stages), võib olla üle jõu käiv või ebaotstarbekas. Samas võib olla
selliseid andmetöötluse etappide järgnevusi, kus neid on vaja kirjeldada. Sama võib olukord olla
arvutuslike vahetabelitega või andmete ettevalmistamisega analüüsiks (viimane on andmelett
data mart).
Vahetabel võib olla näiteks selline: