C5V4 - Metodika tvorby a údržby sémantického slovníku pojmů veřejné správy
Vytvořeno v rámci projektu
Rozvoj datových politik v oblasti zlepšování kvality a interoperability dat veřejné správy CZ.03.4.74/0.0/0.0/15_025/0013983
KA 6: Návrhy a realizace prostředí pro ontologické konceptuální datové modelování
Výstup: C5V4 - Metodika tvorby a údržby sémantického slovníku pojmů veřejné správy
Indikátor: 8 05 00 Počet napsaných a zveřejněných analytických a strategických dokumentů (vč. evaluačních)
Verze výstupu: 01
- Definice výstupu Typ výstupu: Dokument s metodikou Bude vypracována metodika a uživatelský manuál použití výrobní linky navržené ve výstupu Návrh a prototypování výrobní linky pro tvorbu a údržbu konceptuálních modelů agend, kter bude pracovníkům VS ČR popisovat, jakým způsobem s pomocí výrobní linky vytvářet ontologické konceptuální datové modely.
- O dokumentu Dokument si klade za cíl představit základní pojmy a postupy při vytváření sémantických slovníků a je určen zejména datovým architektům, úředníkům pověřeným vytvářet sémantické slovníky, úředníkům evidujícím agendy do registru práv a povinností a ostatním pracovníkům zajišťujícím sémantickou interoperabilitu dat ve veřejném sektoru.
- Úvod Diagramy jsou tradičně nástrojem pro komunikaci mezi lidmi s cílem porozumět složitému problému nebo doméně. Pokud např. následující diagram připojíme k metadatům datové sady, kterou spravujeme, potom jejich konzument může - byť třeba jen intuitivně - pochopit, že budovy jsou stavbami, mají adresu a adresa obsahuje ulici a číslo popisné.
Pokud neví, zda se mu daná datová sada hodí, může již pohledem na diagram rozhodnout -
aniž by zkoumal blíže obsah datové sady - zda datová sada obsahuje pro něj užitečná data.
Takový diagram je jednoduchým konceptuálním modelem, protože popisuje daný problém
pomocí tzv. konceptů (pojmů) - slov nebo sousloví (názvů), které jsou vybaveny synonymy,
definicemi, příp. dalšími charakteristikami upřesňujícími jejich význam, např:
Příklad konceptu:
budova
definice: nadzemní stavba spojená se zemí pevným základem, která je prostorově soustředěna a navenek převážně uzavřena obvodovými stěnami a střešní konstrukcí
Sémantický slovník pojmů je tvořen tzv. tezaurem (glosářem), který definuje důležité pojmy v dané oblasti zájmu, např. pojmy zavedené nějakým zákonem nebo pojmy používané v nějaké agendě, a konceptuálním modelem, který pojmy propojuje pomocí významových (sémantických) souvislostí, jak je ukázáno na jednoduchém příkladu výše. Vytváření a správa sémantických slovníků je proces náročný na lidské i časové zdroje, jehož výsledky - tezaury a konceptuální modely - se ovšem s výhodou dají využít nejen jako diagramy pro komunikaci mezi lidmi, ale i např. pro ● automatické vytváření výkladových slovníků, ● automatické generování datových schémat otevřených dat, nebo datových rozhraní ISVS či kontextů ISSS pro potřeby PPDF, ● evidenci údajů subjektů a objektů práva při ohlašování agendy v Registru práv a povinností, a to včetně jejich významu s odkazem na legislativu a identifikaci významových vazeb mezi pojmy, ● vyhledávání vzájemných významových souvislostí mezi datovými sadami, schématy a rozhraními. Tyto a další případy užití jsou podrobněji rozebrány v Definice scénářů využití konceptuálních modelů, výstup C5V1 projektu. 4. Struktura sémantických slovníků
Všechny sémantické (nebo-li významové) slovníky dohromady vytváří tzv. Sémantický slovník pojmů veřejné správy (SGoV). Podrobnější popis architektury sémantických slovníků lze nalézt v dokumentu Koncepce sémantického slovníku pojmů pro potřeby konceptuálního datového modelování agend. Výchozím sémantickým slovníkem je slovník veřejného sektoru (V-SGoV). Zavádí základní konsensuální pojmosloví používané napříč veřejnou správou zejména v oblasti základních pojmů teorie práva, struktury dat a jejich evidence. Jedná se o některé společné pojmy, které nejsou legislativně ukotveny, mají však široce přijímaný význam, např. pojem Člověk, Organizace, Dokument, apod. Jeho detailní popis je k dispozici v Koncepci sémantického slovníku pojmů pro potřeby konceptuálního datového modelování agend. V-SGoV spravuje správce SGoV, kterým je v současnosti Odbor hlavního architekta eGovernmentu Ministerstva vnitra ČR. Všechny orgány veřejné správy vytvářejí svoje vlastní doménové sémantické slovníky. Doménový sémantický slovník může např. definovat pojmy ze zákona nebo rozšiřovat sémantický slovník o pojmy, které jsou používány v konkrétní agendě, ale nejsou přímo zavedeny v příslušné legislativě. Technické pojmy používané v kontextu daného agendového informačního systému nebo datové sady lze také definovat v samostatném slovníku. Výkon veřejné správy je popisován z pohledu agend. Podle agend Na jejich základě je
řízeno sdílení údajů mezi jednotlivými orgány veřejné správy. Pojmy používané v těchto
agendách jsou ve velké většině případů převzaty z pojmosloví konkrétních legislativních
dokumentů (zákonů, vyhlášek…) navázanými doplňujícími podklady jako např. metodickými
pokyny. Pomocí sémantického modelování můžeme kombinovat pojmy z legislativních
slovníků do slovníků agend a vhodně je doplnit pojmy, které jsou pro agendu výzamené, ale
legislativa je nevysvětluje. To zahrnuje i sdílené, ale nedokumentované know-how
pracovníků veřejné správy o dané agendě.
Pojmy z nadřazené legislativy použité v agendových slovnících nejsou definovány v
opakovaně, ale agendové slovníky přepoužívají pojmosloví nadřazených slovníků. Všem
slovníkům je pak nadřazen V-SGoV. Konkrétní postupy budou popsány v katalogu
modelovacích vzorů.
Jak již vyplývá z výše uvedeného, základní stavební jednotkou sémantického slovníku je
pojem (též koncept nebo význam). Detailní koncepční výklad teorie pojmů a slovníků je
popsán v kapitole 4 Koncepce sémantického slovníku pojmů pro potřeby
konceptuálního datového modelování agend.
4.1. Pojmy
Základní stavební jednotkou sémantického slovníku je pojem (též koncept, nebo význam).
Pojem je slovo nebo sousloví v daném významu a kontextu opatřené definicí, synonymy,
zdrojem, příp. dalšími charakteristikami, které zpřesňují jeho význam tak, aby se omezila
možnost mu špatně porozumět nebo jej špatně použít, viz následující příklad slova budova,
které lze nalézt v české legislativě s různým významem a definicí.
Příklad nejednoznačnosti slov:
budova (dle zákona 256/2013 Sb.)
definice: nadzemní stavba spojená se zemí pevným základem, která je prostorově soustředěna a navenek převážně uzavřena obvodovými stěnami a střešní konstrukcí
budova (dle zákona 406/2000 Sb.)
definice: nadzemní stavba a její podzemní části, prostorově soustředěná a navenek převážně uzavřená obvodovými stěnami a střešní konstrukcí, v níž se používá energie k úpravě vnitřního prostředí za účelem vytápění nebo chlazení
Rozdíly v definicích přitom mají zásadní význam na interpretaci obou pojmů. Máme-li např. datovou sadu o budovách, bez znalosti, ve kterém významu se slovo budova používá, neumíme rozhodnout, jestli může obsahovat autobusové zastávky, nebo sklady - ty nespadají pod definici budovy dle zákona 406/2000 Sb. Pojem lze popsat následujícími základními charakteristikami:
název
slouží jako identifikátor významu, měl by být jednoznačný a
přesný.
definice
je nejvýše jedna.
alternativní název
zkratka/synonymum, používané pro označení pojmu.
zdroj
odkaz na nejmenší část dokumentu, ze které plyne význam pojmu
(např. odkaz na ustanovení právního předpisu s definicí).
doplňující poznámka
dále vysvětluje význam pojmu, nad rámec definice.
Textová definice je klíčová charakteristika pro vymezení významu pojmu. Není však jediná -
význam pojmu je vymezen rovněž vazbami na jiné pojmy. Je-li význam vymezen vazbami
přesně, není textovou definici nezbytně nutné uvádět.
Charakteristiky pojmu budova z katastrálního zákona by mohly být zachyceny například
takto:
Příklad pojmu1:
budova (dle zákona 256/2013 Sb.)
alternativní názvy: budova, objekt budovy
definice: nadzemní stavba spojená se zemí pevným základem, která je prostorově soustředěna a navenek převážně uzavřena obvodovými stěnami a střešní konstrukcí
zdroj: § 2 odst. 1 písm. l) zákona č. 256/2013 Sb. katastrální zákon
doplňující poznámka: jedná se např. o budovy uváděné v katastru nemovitostí.
Zdroje můžeme v nejjednodušší podobě reprezentovat pomocí textových citací, jak bylo ukázáno na příkladu výše. Pro zachycení přesnějších souvislostí mezi pojmy a jejich definičními výskyty v textu je však vhodné využít strukturovaný strojově čitelný odkaz - např. referenci na příslušnou část právního aktu v připravované otevřené datové sadě eSbírky, viz Detailní návrh technického řešení informačních systémů eSbírka a eLegislativa, 2018. To např. umožní spravovat pojmosloví jednotlivých dokumentů. 4.2. Slovníky Pojmy jsou sdružovány v sémantických slovnících podle zdroje, ze kterého pochází. Tím
1 Pro snadnější čtení je název pojmu uveden bez odsazení jako první řádek.
může být legislativní dokument, agenda, datová sada apod. Pojmy jsou vzájemně propojené významovými vazbami. Slovníky slouží ke správě pojmů a udržení jejich vnitřní konzistence. Každý sémantický slovník má gestora, který odpovídá za jeho správu a kvalitu pojmů v něm obsažených. Sémantické slovníky jsou mezi sebou vzájemně propojené - pojem z jednoho slovníku se může vázat na pojmy z jiných slovníků. Klíčové komponenty sémantického slovníku pojmů nutné pro konceptuální modelování jsou tezaurus (glosář)2, tedy hierarchie (seznamu) pojmů, jejich definic a dalších charakteristik a model, tedy samotný znalostní graf, který pojmy z tezauru vzájemně propojuje významovými vazbami:
4.2.1. Tezaury Tezaurus pojmů je seznamem pojmů představených v sekci Pojmy. Kromě prostého výčtu je možné pojmy v tezauru uspořádat do hierarchické struktury pro usnadnění orientace. Uvedený příklad ukazuje, že pojmy v hierarchické struktuře mohou mít různý vztah k nadřazenému pojmu - zatímco každá budova je speciálním typem stavby, Karlův most je její konkrétní instancí/realizací a základy jsou její částí.
2 Pro účely tohoto dokumentu a s ohledem na zpětnou kompatibilitu zavedeného pojmosloví v dokumentu Koncepce sémantického slovníku pojmů, výstup projektu Implementace strategií v oblasti otevřených dat II, CZ.03.4.74/0.0/0.0/15_025/0004172 budeme v tomto dokumentu pojmy tezaurus a glosář rozumět totéž.
Příklad jednoduchého tezauru s hierarchickou strukturou pojmů: (v příkladech budeme hierarchickou vazbu znázorňovat odsazením jednotlivých úrovní - pojem podřazený je odsazen oproti pojmu nadřazenému).
stavba (dle zákona 183/2006 Sb.)
budova (dle zákona 256/2013 Sb.)
Karlův most
základy má-adresu adresa ulice číslo popisné
Tento tezaurus obsahuje pojmy z příkladu. Každý z těchto pojmů je definován tak, jak bylo ukázáno v sekci Pojmy, což však v tomto příkladě pro stručnost neukazujeme. Takový slovník může být spravován např. Ministerstvem pro místní rozvoj pro účely systematizace pojmů v oblasti stavebního řízení.
Gestor slovníku však může mít zájem do slovníku přidat pojem, který je součástí tezauru
jiného (i tezauru spravovaného jiným gestorem nebo dokonce jinou organizací). Rozlišujeme
tak pojmy:
● vlastní - jedná se o pojmy, jejichž základní charakteristiky jsou spravované v tomto
tezauru. Např. v případě tezauru výše by se mohlo jednat o pojem stavba, příp.
budova, neboť se jedná o pojmy z legislativy, která je v gesci MMR ČR.
● přejaté - jedná se o pojmy, které jsou součástí tezauru, ke kterým je možné zavádět
nové alternativní názvy (synonyma, zkratky), ovšem není možné měnit další
charakteristiky - ty jsou spravované ve slovníku, kterému je pojem vlastní.
Každý pojem je tedy přesně v jednom tezauru SGoV vlastní a v libovolném množství jiných
slovníků přejatý.
4.2.2.
Konceptuální modely
Konceptuální modely vycházejí z pojmů vytvořených v tezauru, které mezi sebou mají pouze
základní hierarchické vztahy. V rámci konceptuálních modelů jsou mezi pojmy vytvořeny
významové vazby. V tomto dokumentu je konceptuálním modelem ontologický model dle
Koncepce sémantického slovníku pojmů, výstup projektu Implementace strategií v oblasti
otevřených dat II, CZ.03.4.74/0.0/0.0/15_025/0004172. Konceptuální model je standardní
součástí dokumentace informací spravovaných v informačních systémech jako data a žádný
softwarový projekt s více účastníky se bez něj nemůže obejít. Zmíněná metodika model
formalizuje takovým způsobem, aby byl strojově čitelný a využíval pojmy v kontextu
sémantických slovníků pojmů - například jako slovo z konkrétního zákona v konkrétním
významu, na který je možné odkázat.
- Metodika tvorby sémantických slovníků
Tato metodika popisuje, jak vytvářet sémantické slovníky pojmů tak, aby byly významově co
nejpřesnější a dobře udržovatelné.
5.1. Proces tvorby sémantického slovníku Sémantické slovníky pojmů vzniká prostřednictvím jednotlivých organizací veřejné správy jako uspořádané glosáře a na nich postavené modely s cílem tvorby legislativních, agendových či jiných slovníků. Samotný proces tvorby sestává z několika doporučených kroků, které jsou znázorněny na následujícím obrázku odstíny žluté. Pro zasazení tvorby slovníku do širšího kontextu jsou odstíny zelené zobrazeny návazné části procesu, které využívají výsledky konceptuálního modelování pro tvorbu datových schémat, nebo formulářů pro sběr dat. V každém kroku jsou rovněž jako příklad znázorněny nástroje, které v rámci projektu pro realizaci těchto kroků vznikly - otevřené datové standardy, které jsou použity pro reprezentaci jednotlivých částí SGoV umožňují každý krok realizovat pomocí jiných nástrojů. Detaily týkající se prototypových nástrojů včetně základního uživatelského manuálu lze nalézt v dokumentu Návrh a prototypování výrobní linky pro tvorbu a údržbu konceptuálních modelů agend, výstup C5V3 projektu.
Nejprve je identifikována potřeba pro tvorbu sémantického slovníku3. Na základě rozsahu slovníku doménový odborník shromáždí dokumenty, které obsahují relevantní terminologii (např. legislativu) a sestaví pojmový tezaurus (nebo tezaury) a publikuje ho. Datový architekt na jeho základě sestaví konceptuální model. Po vytvoření konceptuálního modelu je navržen k publikaci celý konceptuální model.
3 Jedná se o krok, který vyplývá ze scénářů využití konceptuálních modelů, viz Definice scénářů využití konceptuálních modelů, výstup C5V1 projektu.
5.2. Základní modelovací konstrukty
Klíčovými pojmy, které používáme pro kategorizaci pojmů jsou typ objektu, typ vztahu, typ
vlastnosti, a typ události s následujícím významem:
Název pojmu
Popis
Příklady
typ objektu
označuje prvek, který existuje
sám o sobě a může v čase
měnit své vlastnosti a vztahy s
ostatními prvky.
● člověk,
● orgán veřejné moci,
● silniční vozidlo,
● zákon
typ vlastnosti
je svázán s jedním typem
objektu. Vlastnost daného typu
označuje prvek, který závisí na
objektu daného typu (nemůže
bez něj existovat) .
● datum narození
člověka,
● jméno člověka,
● barva silničního
vozidla
typ vztahu
označuje typ vazby mezi dvěma
typy objektů. Vztah daného typu
závisí obou objektech (nemůže
existovat, pokud alespoň jeden
z obou objektů neexistuje).
● je manželem
● má řidičské
oprávnění
typ události
označuje prvek, který se stane v
čase (a může měnit objekty,
které se jej účastní)
● volby do PSP ČR
● dopravní nehoda
Např. při zavádění pojmu stavba, se tento pojem vyjádří jako typ objektu. Uvedené příklady
pojmů nejsou samoúčelné - pomáhají si uvědomit význam daného pojmu. Pokud bychom
zavedli pojem stavba jako proces, na jehož konci vzniká stavba jako objekt, identifikovali
bychom jej naopak jako typ události.
Uvedené typy vycházejí z tzv. Základního slovníku, který je blíže popsaný v dokumentu
Rozšíření Koncepce sémantického slovníku pojmů pro potřeby konceptuálního datového
modelování agend.
5.3. Tvorba tezaurů
Tvorba tezaurů vyžaduje kompetenci v příslušné doménové oblasti. Klíčovými činnostmi
jsou:
● identifikace pojmů dané domény
● začlenění pojmu do tezauru