C5V2 - Koncepce sémantického slovníku pojmů pro potřeby konceptuálního datového modelování agend
Vytvořeno v rámci projektu
Rozvoj datových politik v oblasti zlepšování kvality a interoperability dat veřejné správy CZ.03.4.74/0.0/0.0/15_025/0013983
KA 6: Návrhy a realizace prostředí pro ontologické konceptuální datové modelování
Výstup: C5V2 Koncepce sémantického slovníku pojmů pro potřeby konceptuálního datového modelování agend
Verze výstupu: 01 Indikátor: 8 05 00 Počet napsaných a zveřejněných analytických a strategických dokumentů (vč. evaluačních)
Motto
Sdílíme-li data, sdílejme i jejich význam.
- Definice výstupu Typ výstupu: Dokument s rozšířenou koncepcí Existující Koncepce sémantického slovníku pojmů vytvořená na OHA MV ČR bude rozšířena o koncepci ontologického konceptuálního datového modelování v prostředí eGovernmentu České republiky.
- O dokumentu Tento dokument je revizí a rozšířením dokumentu Koncepce sémantického slovníku pojmů, výstup projektu Implementace strategií v oblasti otevřených dat II, vytvořeného v rámci projektu CZ.03.4.74/0.0/0.0/15_025/0004172. Dokument si klade za cíl představit principy a architekturu sémantického slovníku pojmů a je určen zejména IT specialistům, datovým architektům, znalostním inženýrům a odborníkům na otevřená data a ostatním pracovník ům zajišťujícím sémantickou interoperabilitu dat ve veřejném sektoru.
- Úvod Sémantický slovník pojmů veřejné správy (SGoV) je prostředek pro postupnou harmonizaci významu (sémantiky) dat vedených v informačních systémech veřejné správy (ISVS). SGoV lze chápat jako katalog pojmosloví používaného v rámci veřejné správy, zahrnující pojmy, jejich definice, vazby pojmů na legislativu, vzájemné významové vazby pojmů mezi sebou i významové vazby pojmů na standardní veřejné slovníky používané v zahraničí (především z iniciativy EU, např. ISA Core Vocabularies). Významová vazba označuje souvislost mezi pojmy, která má určitý konkrétní definovaný význam. SGoV má podobu formální, strojově čitelné datové sady. SGoV je budován postupným doplňováním pojmů z jednotlivých d omén (tj. agend veřejné správy) a sémantických souvislostí mezi těmito pojmy. Jako takový je prostředkem usnadňujícím zajišťování syntaktické a sémantické interoperability dat. Je zveřejňován jako otevřená data , viz § 3 odst. 11 zákona č. 106/1999 Sb. o svobodném přístupu k informacím.
3.1. Cíle sémantického slovníku pojmů SGoV si klade za cíl udržovat a dokumentovat význam pojmosloví veřejné správy, sdílet jej napříč orgány veřejné správy i směrem k veřejnosti s různorodým využitím, viz Definice scénářů využití konceptuálních modelů.
Jedním ze scénářů využití je harmonizace sémantiky dat vedenýc h v ISVS. Zde jsou logická schémata popisující strojové (syntaktické) vyjádření dat vedených v ISVS propojována na pojmy SGoV. Tím je realizováno propojení sémantiky (významu) dat napříč jednotlivými ISVS. Díky tomu, že SGoV integruje údaje vedené v agendá ch Registru práv a povinností dle § 51 odst. 5 písm. g), h) a i) zákona č. 111/2009 Sb. o základních registrech, které jsou ukotveny v legislativě, je vazba každého pojmu SGoV na legislativu buď přímo uvedena, nebo je dohledatelná přes související pojmy pomocí dokumentovaných vazeb.
Některé další klíčové scénáře jsou
● poskytnout nástroj pro sdílení významu pojmů v rámci veřejné správy ČR,
● zakotvit význam propojeného datového pojmu (PPDF) veřejné správy a zajistit
sémantickou interoperabilitu agendových informačních systémů, zejména tedy:
○ významově propojit kontexty subjektů a objektů údajů agend veřejné
správy
○ umožnit generovat datová schémata (např. XSD) popisující přenášená
data mezi AIS na základě dotazu sestávajícího z požadovaných údajů
● zakotvit význam veřejného datového fondu (VDF), včetně otevřených datových
sad veřejné správy a dalších artefaktů eGovernmentu ve sdíleném odborném
pojmosloví. To mj. umožní následné sdílení významu dat s třetími stranami, např. s
evropskými institucemi, zejména:
● zlepšit vyhledatelnost otevřených datových sad vytvářených nebo
spravovaných orgány veřejné moci ČR,
● zvýšení kvality popisu otevřených datových sad
○ omezení duplicit v pojmenovávání stejných prvků různými jmény, nebo
různých prvků stejnými jmény
○ propojování sou visejících atributů dvou - dosud nepropojených -
datových sad významovou vazbou
○ sjednocení způsobu modelování jednotlivých datových sad.
○ omezení většího počtu významů jedné hodnoty datového atributu.
● umožnit tvorbu katalogu datových sad veřejné správy . Katalogem datových sad
veřejné správy je myšlena otevřená datová sada, která popisuje veškeré legislativou
vymezené datové sady, t.j. nikoliv pouze otevřené datové sady, a zveřejňuje jejich
popis strojově čitelným způsobem (neposkytuje však skutečný obsah těchto datových
sad). Katalog se může stát nástrojem pro efektivní řízení a kontrolu procesu otevírání
dat a rovněž nástrojem usnadňujícím informovanost a sdílení datových sad napříč
veřejnou správou.
3.2. Příklady souvisejících aktivit Potřeba využívat sdílené pojmosloví při komunikaci a sdílení dat napříč sektory veřejné správy byla na identifikována na mnoha úrovních. Např. dokument Information principles for the UK public sector, 2011 vytvořený britskou vládou zmiňuje nutnost sdílených slovníků v jednom ze svých sedmi principů správy a sdílení informací veřejného sektoru. Příkladem sdíleného slovníku může být novozélandský tezaurus pro e-government, viz GEA-NZ Reference Models and Taxonomies, 2017, jednoduché slovníky pro e-government jsou rovněž vytvářeny na Slovensku, viz Centrálny model údajov verejnej správy, 2017. Evropská komise publikovala v roce 2014 několik specifikací základních slovníků pro e- government (tzv. e-Government Core Vocabularies), viz Handbook on using the Core Vocabularies, 2014. Tyto slovníky si kladou za cíl nabídnout základní datové prvky a jejich atributy v unifikované podobě, tj. s jedinečnou identifikací, možnými lexikalizacemi, definicemi a vztahy k ostatním datovým prvkům. Společným cílem těchto sémantických slovníků pojmů (od tezaurů, po složité výpočetní modely) je stabilizovat význam odborného pojmosloví.
V českém prostředí existuje od roku 2007 Informační systém o datových prvcích (ISDP). Související metodický pokyn popisuje životní cyklus tzv. datových prvků, tedy pojmů používaných pro popis dat, formalizovaných pomocí XML.Oproti ISDP je zde představený sémantický slovník pojmů budován od základních významových struktur na základě výzkumu v oblasti kognitivních věd a nabízí formální reprezentaci pojmů a vztahů v podobě otevřených propojených dat. Sémantický slovník pojmů navíc oproti ISDP nepředepisuje konkrétní datové struktury a jejich syntax, ale umožňuje nad různými datovými strukturami různých správců a poskytovatelů dat postupně budovat sémantickou vrstvu, která popisuje jejich význam. 4. Struktura sémantických slovníků
Ekosystém sémantických slovníků dohromady vytváří tzv. Sémantický slovník pojmů veřejné správy (SGoV), jehož základní struktura je vysvětlena v Koncepce sémantického slovníku pojmů, výstup projektu Implementace strategií v oblasti otevřených dat II, CZ.03.4.74/0.0/0.0/15_025/0004172. Zde navrženou architekturu revidujeme a rozšiřujeme tak, aby pokrývala případy užití zmíněné v kapitole Úvod. 4.1. Pojmy Základní stavební jednotkou sémantického slovníku je pojem (též koncept, nebo význam). Pojem je slovo nebo sousloví opatřené definicí, synonymy, zdrojem, příp. dalšími charakteristikami, které zpřesňují jeho význam tak, aby se zvýšila jeho srozumitelnost a pravděpodobnost jeho správného použití. Nejde tedy o samotné slovo nebo sousloví, ale o jeho význam v určitém kontextu, např. ve významu konkrétního zákona. Příkladem je slovo budova, které lze nalézt v české legislativě pod různými definicemi.
Příklad nejednoznačnosti slov:
budova (dle zákona 256/2013 Sb.)
definice: nadzemní stavba spojená se zemí pevným základem, která je prostorově soustředěna a navenek převážně uzavřená obvodovými stěnami a střešní konstrukcí
budova (dle zákona 406/2000 Sb.)
definice: nadzemní stavba a její podzemní části, prostorově soustředěná a navenek převážně uzavřená obvodovými stěnami a střešní konstrukcí, v níž se používá energie k úpravě vnitřního prostředí za účelem vytápění nebo chlazení
Existuje tedy více různých pojmů (tj. významů), které označujeme stejným slovem budova.
Samotné slovo budova není dostatečné. Důležitý je kontext, ve kterém ho používáme a v rámci
kterého již dokážeme ke slovu přiřadit i konkrétní význam. V příkladě s budovou jsou to dva
kontexty dané dvěma různými zákony. Právě až tento kontextový význam pak chápeme jako
pojem.
Rozdíly v definicích přitom mají zásadní význam na interpretaci obou pojmů. Máme-li např.
datovou sadu o budovách, bez znalosti, ve kterém významu se slovo budova používá,
neumíme rozhodnout, jestli může obsahovat autobusové zastávky, nebo sklady - ty nespadají
pod definici budovy dle zákona 406/2000 Sb. Pojem lze popsat následujícími základními
charakteristikami:
název
Slovo nebo slovní spojení, které slouží jako identifikátor pojmu;
musí být jednoznačný a přesný.
definice
Textový řetězec, který přesně a detailně charakterizuje pojem;
pojem obsahuje nejvýše jednu definici (ne vždy je možné ji v daném
kontextu přesně určit, např. proto, že některé legislativní předpisy
pojmy využívají, ale nedefinují).
alternativní název
Slovo nebo slovní spojení, které je používáno jako zkratka nebo
synonymum, používané pro označení pojmu (např. jazykem lidí
zabývajících se danou agendou).
zdroj
Odkaz na nejmenší část dokumentu, ze které plyne význam pojmu
(např. odkaz na definici pojmu ve znění konkrétního právního
předpisu).
doplňující poznámka
Dále vysvětluje význam pojmu, nad rámec definice, případně
opisuje význam pojmu (např. pokud přesnou definici není možné
určit).
Charakteristiky pojmu budova z katastrálního zákona by mohly být zachyceny například takto:
Příklad pojmu1:
budova (dle zákona 256/2013 Sb.)
- alternativní názvy: budova, objekt budovy
- definice: nadzemní stavba spojená se zemí pevným základem, která je prostorově soustředěna a navenek převážně uzavřená obvodovými stěnami a střešní konstrukcí
- zdroj: § 2 odst. 1 písm. l) zákona č. 256/2013 Sb. katastrální zákon
- doplňující poznámka: jedná se např. o budovy uvedené v katastru nemovitostí.
Zdroje můžeme v nejjednodušší podobě reprezentovat pomocí textových citací, jak bylo
ukázáno na příkladě. Pro zachycení přesnějších souvislostí mezi pojmy a jejich definičními
výskyty v textu je však vhodnější využít strojově čitelná metadata - např. referenci na
příslušnou část právního aktu v připravované otevřené datové sadě eSbírky, viz Detailní návrh
technického řešení informačních systémů eSbírka a eLegislativa, 2018 . Pro obecné typy
dokumentů lze využít existující anotační schémat, např. ontologie BIBO, viz BIBO Ontologie,
2016. To umožní spravovat pojmosloví jednotlivých dokumentů, dle jednotlivých organizací,
autorů, apod.
4.2. Slovníky
SGoV rozdělujeme na jednotlivé sémantické slovníky. Ty slouží ke snazší správě pojmů a
udržení jejich vnitřní konzistence. Každý sémantický slovník má jednoho gestora, který
odpovídá za jeho správu a kvalitu pojmů v něm obsažených.
Sémantický slovník pojmů sestává z
● tezauru (glosáře) 2, tedy hierarchie (seznamu) pojmů, jejich definic a dalších
charakteristik,
● modelu, tedy samotného znalostního grafu, který pojmy z tezauru vzájemně propojuje
významovými vazbami a
1 Pro snadnější čtení je název pojmu uveden bez odsazení jako první řádek.
2 Pro účely tohoto dokumentu a s ohledem na zpětnou kompatibilitu zavedeného pojmosloví v dokumentu
Koncepce sémantického slovníku pojmů, výstup projektu Implementace strategií v oblasti otevřených dat II,
CZ.03.4.74/0.0/0.0/15_025/0004172 budeme v tomto dokumentu pojmy tezaurus a glosář rozumět totéž.
4.2.1. Tezaury Tezaurus pojmů je seznamem pojmů představených v sekci Pojmy. Kromě prostého výčtu je možné pojmy v tezauru uspořádat do hierarchické struktury pro usnadnění orientace. Uvedený příklad ukazuje, že pojmy v hierarchické struktuře mohou mít různý vztah k nadřazenému pojmu - zatímco každá budova je speciálním typem stavby, Karlův most je její konkrétní instancí a základy jsou její součástí. Příklad jednoduchého tezauru s hierarchickou strukturou pojmů:
stavba (dle zákona 183/2006 Sb.)
budova (dle zákona 256/2013 Sb.)
Karlův most
základy má-adresu adresa ulice číslo popisné stavební řízení
Každý z těchto pojmů je definován tak, jak bylo ukázáno v sekci Pojmy, což však v tomto příkladě pro stručnost neukazujeme. Takový slovník může být spravován např. Ministerstvem pro místní rozvoj pro účely systematizace pojmů v oblasti stavebního řízení.
Gestor slovníku však může mít zájem do tezauru přidat pojem, který je součástí tezauru jiného (i tezauru spravovaného jiným gestorem nebo dokonce jinou organizací). Rozlišujeme tak pojmy: ● vlastní - jedná se o pojmy, jejichž základní charakteristiky jsou spravované v tomto
tezauru. Např. v případě tezauru výše by se mohlo jednat o pojem stavba, příp.
budova, neboť se jedná o pojmy z legislativy, která je v gesci MMR ČR.
● přejaté - jedná se o pojmy, které jsou součástí tezauru, ke kterým je možné zavádět
nové alternativní názvy (synonyma, zkratky), ovšem není možné měnit další
charakteristiky - ty jsou spravované ve slovníku, kterému je pojem vlastní.
Každý pojem je tedy přesně v jednom tezauru SGoV vlastní a v libovolném množství jiných
slovníků přejatý.
4.2.2.
Konceptuální modely
Konceptuální modely vycházejí z pojmů vytvořených v tezauru a definují pro ně významové
vazby. Konceptuální model je standardní součástí dokumentace informací spravovaných v
informačních systémech jako data a žádný softwarový projekt s více účastníky se bez něj
nemůže obejít. Pro validaci, vzájemné propojování a čitelnost lidmi jsou konceptuální modely
vytvářeny a spravovány pomocí zjednodušené varianty jazyka OntoUML3.
Konceptuální model obsahuje pojmy tezauru, které dále charakterizuje jako typy objektů
(obdélníky), typů vztahů (kosočtverce), typy vlastností (elipsy) a typy událostí (lichoběžníky) s
následujícím významem:
Název pojmu
Popis
Příklady
typ objektu
Označuje prvek, který existuje
sám o sobě a může v čase měnit
své
vlastnosti
a
vztahy
s
ostatními prvky.
● člověk,
● orgán veřejné moci,
● silniční vozidlo,
● zákon
typ vlastnosti
Je závislý na jednom typu
objektu. Vlastnost daného typu
označuje prvek, který závisí na
objektu daného typu (nemůže
bez něj existovat).
● datum narození
člověka,
● jméno člověka,
● barva silničního
vozidla
typ vztahu
Definuje typ vazby mezi dvěma
typy objektů. Vztah daného typu
závisí obou objektech.
● je manželem
● má řidičské
oprávnění
typ události
Označuje prvek, který se odehrál
v minulosti (a mohl změnit
objekty, které se jej účastnily) .
● volby do PSP ČR
● dopravní nehoda
Takto klasifikované pojmy jsou prvky konceptuálního modelu, které jsou mezi sebou vzájemně propojené vazbami: ● má vztažený prvek 1 a má vztažený prvek 2 - propojuje typ vztahu s typy objektů,
3 https://ontouml.org/