C5V4.pdf

Type: Document | Status: ready

C5V4 - Metodika tvorby a údržby sémantického slovníku pojmů veřejné správy

Vytvořeno v rámci projektu

Rozvoj datových politik v oblasti zlepšování kvality a interoperability dat veřejné správy CZ.03.4.74/0.0/0.0/15_025/0013983

KA 6: Návrhy a realizace prostředí pro ontologické konceptuální datové modelování

Výstup: C5V4 - Metodika tvorby a údržby sémantického slovníku pojmů veřejné správy

Indikátor: 8 05 00 Počet napsaných a zveřejněných analytických a strategických dokumentů (vč. evaluačních)

Verze výstupu: 01

  1. Definice výstupu Typ výstupu: Dokument s metodikou Bude vypracována metodika a uživatelský manuál použití výrobní linky navržené ve výstupu Návrh a prototypování výrobní linky pro tvorbu a údržbu konceptuálních modelů agend, kter bude pracovníkům VS ČR popisovat, jakým způsobem s pomocí výrobní linky vytvářet ontologické konceptuální datové modely.
  2. O dokumentu Dokument si klade za cíl představit základní pojmy a postupy při vytváření sémantických slovníků a je určen zejména datovým architektům, úředníkům pověřeným vytvářet sémantické slovníky, úředníkům evidujícím agendy do registru práv a povinností a ostatním pracovníkům zajišťujícím sémantickou interoperabilitu dat ve veřejném sektoru.
  3. Úvod Diagramy jsou tradičně nástrojem pro komunikaci mezi lidmi s cílem porozumět složitému problému nebo doméně. Pokud např. následující diagram připojíme k metadatům datové sady, kterou spravujeme, potom jejich konzument může - byť třeba jen intuitivně - pochopit, že budovy jsou stavbami, mají adresu a adresa obsahuje ulici a číslo popisné.

Pokud neví, zda se mu daná datová sada hodí, může již pohledem na diagram rozhodnout - aniž by zkoumal blíže obsah datové sady - zda datová sada obsahuje pro něj užitečná data.
Takový diagram je jednoduchým konceptuálním modelem, protože popisuje daný problém pomocí tzv. konceptů (pojmů) - slov nebo sousloví (názvů), které jsou vybaveny synonymy, definicemi, příp. dalšími charakteristikami upřesňujícími jejich význam, např: Příklad konceptu:

budova

definice: nadzemní stavba spojená se zemí pevným základem, která je prostorově soustředěna a navenek převážně uzavřena obvodovými stěnami a střešní konstrukcí

Sémantický slovník pojmů je tvořen tzv. tezaurem (glosářem), který definuje důležité pojmy v dané oblasti zájmu, např. pojmy zavedené nějakým zákonem nebo pojmy používané v nějaké agendě, a konceptuálním modelem, který pojmy propojuje pomocí významových (sémantických) souvislostí, jak je ukázáno na jednoduchém příkladu výše. Vytváření a správa sémantických slovníků je proces náročný na lidské i časové zdroje, jehož výsledky - tezaury a konceptuální modely - se ovšem s výhodou dají využít nejen jako diagramy pro komunikaci mezi lidmi, ale i např. pro ● automatické vytváření výkladových slovníků, ● automatické generování datových schémat otevřených dat, nebo datových rozhraní ISVS či kontextů ISSS pro potřeby PPDF, ● evidenci údajů subjektů a objektů práva při ohlašování agendy v Registru práv a povinností, a to včetně jejich významu s odkazem na legislativu a identifikaci významových vazeb mezi pojmy, ● vyhledávání vzájemných významových souvislostí mezi datovými sadami, schématy a rozhraními. Tyto a další případy užití jsou podrobněji rozebrány v Definice scénářů využití konceptuálních modelů, výstup C5V1 projektu. 4. Struktura sémantických slovníků

Všechny sémantické (nebo-li významové) slovníky dohromady vytváří tzv. Sémantický slovník pojmů veřejné správy (SGoV). Podrobnější popis architektury sémantických slovníků lze nalézt v dokumentu Koncepce sémantického slovníku pojmů pro potřeby konceptuálního datového modelování agend. Výchozím sémantickým slovníkem je slovník veřejného sektoru (V-SGoV). Zavádí základní konsensuální pojmosloví používané napříč veřejnou správou zejména v oblasti základních pojmů teorie práva, struktury dat a jejich evidence. Jedná se o některé společné pojmy, které nejsou legislativně ukotveny, mají však široce přijímaný význam, např. pojem Člověk, Organizace, Dokument, apod. Jeho detailní popis je k dispozici v Koncepci sémantického slovníku pojmů pro potřeby konceptuálního datového modelování agend. V-SGoV spravuje správce SGoV, kterým je v současnosti Odbor hlavního architekta eGovernmentu Ministerstva vnitra ČR. Všechny orgány veřejné správy vytvářejí svoje vlastní doménové sémantické slovníky. Doménový sémantický slovník může např. definovat pojmy ze zákona nebo rozšiřovat sémantický slovník o pojmy, které jsou používány v konkrétní agendě, ale nejsou přímo zavedeny v příslušné legislativě. Technické pojmy používané v kontextu daného agendového informačního systému nebo datové sady lze také definovat v samostatném slovníku. Výkon veřejné správy je popisován z pohledu agend. Podle agend Na jejich základě je

řízeno sdílení údajů mezi jednotlivými orgány veřejné správy. Pojmy používané v těchto agendách jsou ve velké většině případů převzaty z pojmosloví konkrétních legislativních dokumentů (zákonů, vyhlášek…) navázanými doplňujícími podklady jako např. metodickými pokyny. Pomocí sémantického modelování můžeme kombinovat pojmy z legislativních slovníků do slovníků agend a vhodně je doplnit pojmy, které jsou pro agendu výzamené, ale legislativa je nevysvětluje. To zahrnuje i sdílené, ale nedokumentované know-how pracovníků veřejné správy o dané agendě.
Pojmy z nadřazené legislativy použité v agendových slovnících nejsou definovány v opakovaně, ale agendové slovníky přepoužívají pojmosloví nadřazených slovníků. Všem slovníkům je pak nadřazen V-SGoV. Konkrétní postupy budou popsány v katalogu modelovacích vzorů. Jak již vyplývá z výše uvedeného, základní stavební jednotkou sémantického slovníku je pojem (též koncept nebo význam). Detailní koncepční výklad teorie pojmů a slovníků je popsán v kapitole 4 Koncepce sémantického slovníku pojmů pro potřeby konceptuálního datového modelování agend.
4.1. Pojmy Základní stavební jednotkou sémantického slovníku je pojem (též koncept, nebo význam). Pojem je slovo nebo sousloví v daném významu a kontextu opatřené definicí, synonymy, zdrojem, příp. dalšími charakteristikami, které zpřesňují jeho význam tak, aby se omezila možnost mu špatně porozumět nebo jej špatně použít, viz následující příklad slova budova, které lze nalézt v české legislativě s různým významem a definicí. Příklad nejednoznačnosti slov:

budova (dle zákona 256/2013 Sb.)

definice: nadzemní stavba spojená se zemí pevným základem, která je prostorově soustředěna a navenek převážně uzavřena obvodovými stěnami a střešní konstrukcí

budova (dle zákona 406/2000 Sb.)

definice: nadzemní stavba a její podzemní části, prostorově soustředěná a navenek převážně uzavřená obvodovými stěnami a střešní konstrukcí, v níž se používá energie k úpravě vnitřního prostředí za účelem vytápění nebo chlazení

Rozdíly v definicích přitom mají zásadní význam na interpretaci obou pojmů. Máme-li např. datovou sadu o budovách, bez znalosti, ve kterém významu se slovo budova používá, neumíme rozhodnout, jestli může obsahovat autobusové zastávky, nebo sklady - ty nespadají pod definici budovy dle zákona 406/2000 Sb. Pojem lze popsat následujícími základními charakteristikami:

název slouží jako identifikátor významu, měl by být jednoznačný a přesný. definice je nejvýše jedna. alternativní název zkratka/synonymum, používané pro označení pojmu. zdroj odkaz na nejmenší část dokumentu, ze které plyne význam pojmu (např. odkaz na ustanovení právního předpisu s definicí).
doplňující poznámka dále vysvětluje význam pojmu, nad rámec definice.

Textová definice je klíčová charakteristika pro vymezení významu pojmu. Není však jediná - význam pojmu je vymezen rovněž vazbami na jiné pojmy. Je-li význam vymezen vazbami přesně, není textovou definici nezbytně nutné uvádět.
Charakteristiky pojmu budova z katastrálního zákona by mohly být zachyceny například takto: Příklad pojmu1:

budova (dle zákona 256/2013 Sb.)

alternativní názvy: budova, objekt budovy

definice: nadzemní stavba spojená se zemí pevným základem, která je prostorově soustředěna a navenek převážně uzavřena obvodovými stěnami a střešní konstrukcí

zdroj: § 2 odst. 1 písm. l) zákona č. 256/2013 Sb. katastrální zákon

doplňující poznámka: jedná se např. o budovy uváděné v katastru nemovitostí.

Zdroje můžeme v nejjednodušší podobě reprezentovat pomocí textových citací, jak bylo ukázáno na příkladu výše. Pro zachycení přesnějších souvislostí mezi pojmy a jejich definičními výskyty v textu je však vhodné využít strukturovaný strojově čitelný odkaz - např. referenci na příslušnou část právního aktu v připravované otevřené datové sadě eSbírky, viz Detailní návrh technického řešení informačních systémů eSbírka a eLegislativa, 2018. To např. umožní spravovat pojmosloví jednotlivých dokumentů. 4.2. Slovníky Pojmy jsou sdružovány v sémantických slovnících podle zdroje, ze kterého pochází. Tím

1 Pro snadnější čtení je název pojmu uveden bez odsazení jako první řádek.

může být legislativní dokument, agenda, datová sada apod. Pojmy jsou vzájemně propojené významovými vazbami. Slovníky slouží ke správě pojmů a udržení jejich vnitřní konzistence. Každý sémantický slovník má gestora, který odpovídá za jeho správu a kvalitu pojmů v něm obsažených. Sémantické slovníky jsou mezi sebou vzájemně propojené - pojem z jednoho slovníku se může vázat na pojmy z jiných slovníků. Klíčové komponenty sémantického slovníku pojmů nutné pro konceptuální modelování jsou tezaurus (glosář)2, tedy hierarchie (seznamu) pojmů, jejich definic a dalších charakteristik a model, tedy samotný znalostní graf, který pojmy z tezauru vzájemně propojuje významovými vazbami:

4.2.1. Tezaury Tezaurus pojmů je seznamem pojmů představených v sekci Pojmy. Kromě prostého výčtu je možné pojmy v tezauru uspořádat do hierarchické struktury pro usnadnění orientace. Uvedený příklad ukazuje, že pojmy v hierarchické struktuře mohou mít různý vztah k nadřazenému pojmu - zatímco každá budova je speciálním typem stavby, Karlův most je její konkrétní instancí/realizací a základy jsou její částí.

2 Pro účely tohoto dokumentu a s ohledem na zpětnou kompatibilitu zavedeného pojmosloví v dokumentu Koncepce sémantického slovníku pojmů, výstup projektu Implementace strategií v oblasti otevřených dat II, CZ.03.4.74/0.0/0.0/15_025/0004172 budeme v tomto dokumentu pojmy tezaurus a glosář rozumět totéž.

Příklad jednoduchého tezauru s hierarchickou strukturou pojmů: (v příkladech budeme hierarchickou vazbu znázorňovat odsazením jednotlivých úrovní - pojem podřazený je odsazen oproti pojmu nadřazenému).

stavba (dle zákona 183/2006 Sb.)

budova (dle zákona 256/2013 Sb.)

Karlův most

základy má-adresu adresa ulice číslo popisné

Tento tezaurus obsahuje pojmy z příkladu. Každý z těchto pojmů je definován tak, jak bylo ukázáno v sekci Pojmy, což však v tomto příkladě pro stručnost neukazujeme. Takový slovník může být spravován např. Ministerstvem pro místní rozvoj pro účely systematizace pojmů v oblasti stavebního řízení.

Gestor slovníku však může mít zájem do slovníku přidat pojem, který je součástí tezauru jiného (i tezauru spravovaného jiným gestorem nebo dokonce jinou organizací). Rozlišujeme tak pojmy: ● vlastní - jedná se o pojmy, jejichž základní charakteristiky jsou spravované v tomto tezauru. Např. v případě tezauru výše by se mohlo jednat o pojem stavba, příp. budova, neboť se jedná o pojmy z legislativy, která je v gesci MMR ČR.
● přejaté - jedná se o pojmy, které jsou součástí tezauru, ke kterým je možné zavádět nové alternativní názvy (synonyma, zkratky), ovšem není možné měnit další charakteristiky - ty jsou spravované ve slovníku, kterému je pojem vlastní. Každý pojem je tedy přesně v jednom tezauru SGoV vlastní a v libovolném množství jiných slovníků přejatý. 4.2.2. Konceptuální modely Konceptuální modely vycházejí z pojmů vytvořených v tezauru, které mezi sebou mají pouze základní hierarchické vztahy. V rámci konceptuálních modelů jsou mezi pojmy vytvořeny významové vazby. V tomto dokumentu je konceptuálním modelem ontologický model dle Koncepce sémantického slovníku pojmů, výstup projektu Implementace strategií v oblasti otevřených dat II, CZ.03.4.74/0.0/0.0/15_025/0004172. Konceptuální model je standardní součástí dokumentace informací spravovaných v informačních systémech jako data a žádný softwarový projekt s více účastníky se bez něj nemůže obejít. Zmíněná metodika model formalizuje takovým způsobem, aby byl strojově čitelný a využíval pojmy v kontextu sémantických slovníků pojmů - například jako slovo z konkrétního zákona v konkrétním významu, na který je možné odkázat.

  1. Metodika tvorby sémantických slovníků Tato metodika popisuje, jak vytvářet sémantické slovníky pojmů tak, aby byly významově co nejpřesnější a dobře udržovatelné.
    5.1. Proces tvorby sémantického slovníku Sémantické slovníky pojmů vzniká prostřednictvím jednotlivých organizací veřejné správy jako uspořádané glosáře a na nich postavené modely s cílem tvorby legislativních, agendových či jiných slovníků. Samotný proces tvorby sestává z několika doporučených kroků, které jsou znázorněny na následujícím obrázku odstíny žluté. Pro zasazení tvorby slovníku do širšího kontextu jsou odstíny zelené zobrazeny návazné části procesu, které využívají výsledky konceptuálního modelování pro tvorbu datových schémat, nebo formulářů pro sběr dat. V každém kroku jsou rovněž jako příklad znázorněny nástroje, které v rámci projektu pro realizaci těchto kroků vznikly - otevřené datové standardy, které jsou použity pro reprezentaci jednotlivých částí SGoV umožňují každý krok realizovat pomocí jiných nástrojů. Detaily týkající se prototypových nástrojů včetně základního uživatelského manuálu lze nalézt v dokumentu Návrh a prototypování výrobní linky pro tvorbu a údržbu konceptuálních modelů agend, výstup C5V3 projektu.

Nejprve je identifikována potřeba pro tvorbu sémantického slovníku3. Na základě rozsahu slovníku doménový odborník shromáždí dokumenty, které obsahují relevantní terminologii (např. legislativu) a sestaví pojmový tezaurus (nebo tezaury) a publikuje ho. Datový architekt na jeho základě sestaví konceptuální model. Po vytvoření konceptuálního modelu je navržen k publikaci celý konceptuální model.

3 Jedná se o krok, který vyplývá ze scénářů využití konceptuálních modelů, viz Definice scénářů využití konceptuálních modelů, výstup C5V1 projektu.

5.2. Základní modelovací konstrukty Klíčovými pojmy, které používáme pro kategorizaci pojmů jsou typ objektu, typ vztahu, typ vlastnosti, a typ události s následujícím významem: Název pojmu Popis Příklady typ objektu označuje prvek, který existuje sám o sobě a může v čase měnit své vlastnosti a vztahy s ostatními prvky.
● člověk,
● orgán veřejné moci,
● silniční vozidlo,
● zákon typ vlastnosti
je svázán s jedním typem objektu. Vlastnost daného typu označuje prvek, který závisí na objektu daného typu (nemůže bez něj existovat) . ● datum narození člověka, ● jméno člověka,
● barva silničního vozidla typ vztahu označuje typ vazby mezi dvěma typy objektů. Vztah daného typu závisí obou objektech (nemůže existovat, pokud alespoň jeden z obou objektů neexistuje). ● je manželem ● má řidičské oprávnění typ události označuje prvek, který se stane v čase (a může měnit objekty, které se jej účastní)
● volby do PSP ČR ● dopravní nehoda

Např. při zavádění pojmu stavba, se tento pojem vyjádří jako typ objektu. Uvedené příklady pojmů nejsou samoúčelné - pomáhají si uvědomit význam daného pojmu. Pokud bychom zavedli pojem stavba jako proces, na jehož konci vzniká stavba jako objekt, identifikovali bychom jej naopak jako typ události.
Uvedené typy vycházejí z tzv. Základního slovníku, který je blíže popsaný v dokumentu Rozšíření Koncepce sémantického slovníku pojmů pro potřeby konceptuálního datového modelování agend. 5.3. Tvorba tezaurů Tvorba tezaurů vyžaduje kompetenci v příslušné doménové oblasti. Klíčovými činnostmi jsou: ● identifikace pojmů dané domény ● začlenění pojmu do tezauru

Page 1 of 3