C5V2.pdf

Type: Document | Status: ready

C5V2 - Koncepce sémantického slovníku pojmů pro potřeby konceptuálního datového modelování agend

Vytvořeno v rámci projektu

Rozvoj datových politik v oblasti zlepšování kvality a interoperability dat veřejné správy CZ.03.4.74/0.0/0.0/15_025/0013983

KA 6: Návrhy a realizace prostředí pro ontologické konceptuální datové modelování

Výstup: C5V2 Koncepce sémantického slovníku pojmů pro potřeby konceptuálního datového modelování agend

Verze výstupu: 01 Indikátor: 8 05 00 Počet napsaných a zveřejněných analytických a strategických dokumentů (vč. evaluačních)

Motto
Sdílíme-li data, sdílejme i jejich význam.

  1. Definice výstupu Typ výstupu: Dokument s rozšířenou koncepcí Existující Koncepce sémantického slovníku pojmů vytvořená na OHA MV ČR bude rozšířena o koncepci ontologického konceptuálního datového modelování v prostředí eGovernmentu České republiky.
  2. O dokumentu Tento dokument je revizí a rozšířením dokumentu Koncepce sémantického slovníku pojmů, výstup projektu Implementace strategií v oblasti otevřených dat II, vytvořeného v rámci projektu CZ.03.4.74/0.0/0.0/15_025/0004172. Dokument si klade za cíl představit principy a architekturu sémantického slovníku pojmů a je určen zejména IT specialistům, datovým architektům, znalostním inženýrům a odborníkům na otevřená data a ostatním pracovník ům zajišťujícím sémantickou interoperabilitu dat ve veřejném sektoru.
  3. Úvod Sémantický slovník pojmů veřejné správy (SGoV) je prostředek pro postupnou harmonizaci významu (sémantiky) dat vedených v informačních systémech veřejné správy (ISVS). SGoV lze chápat jako katalog pojmosloví používaného v rámci veřejné správy, zahrnující pojmy, jejich definice, vazby pojmů na legislativu, vzájemné významové vazby pojmů mezi sebou i významové vazby pojmů na standardní veřejné slovníky používané v zahraničí (především z iniciativy EU, např. ISA Core Vocabularies). Významová vazba označuje souvislost mezi pojmy, která má určitý konkrétní definovaný význam. SGoV má podobu formální, strojově čitelné datové sady. SGoV je budován postupným doplňováním pojmů z jednotlivých d omén (tj. agend veřejné správy) a sémantických souvislostí mezi těmito pojmy. Jako takový je prostředkem usnadňujícím zajišťování syntaktické a sémantické interoperability dat. Je zveřejňován jako otevřená data , viz § 3 odst. 11 zákona č. 106/1999 Sb. o svobodném přístupu k informacím.

3.1. Cíle sémantického slovníku pojmů SGoV si klade za cíl udržovat a dokumentovat význam pojmosloví veřejné správy, sdílet jej napříč orgány veřejné správy i směrem k veřejnosti s různorodým využitím, viz Definice scénářů využití konceptuálních modelů.

Jedním ze scénářů využití je harmonizace sémantiky dat vedenýc h v ISVS. Zde jsou logická schémata popisující strojové (syntaktické) vyjádření dat vedených v ISVS propojována na pojmy SGoV. Tím je realizováno propojení sémantiky (významu) dat napříč jednotlivými ISVS. Díky tomu, že SGoV integruje údaje vedené v agendá ch Registru práv a povinností dle § 51 odst. 5 písm. g), h) a i) zákona č. 111/2009 Sb. o základních registrech, které jsou ukotveny v legislativě, je vazba každého pojmu SGoV na legislativu buď přímo uvedena, nebo je dohledatelná přes související pojmy pomocí dokumentovaných vazeb.

Některé další klíčové scénáře jsou ● poskytnout nástroj pro sdílení významu pojmů v rámci veřejné správy ČR,
● zakotvit význam propojeného datového pojmu (PPDF) veřejné správy a zajistit sémantickou interoperabilitu agendových informačních systémů, zejména tedy: ○ významově propojit kontexty subjektů a objektů údajů agend veřejné správy ○ umožnit generovat datová schémata (např. XSD) popisující přenášená data mezi AIS na základě dotazu sestávajícího z požadovaných údajů ● zakotvit význam veřejného datového fondu (VDF), včetně otevřených datových sad veřejné správy a dalších artefaktů eGovernmentu ve sdíleném odborném pojmosloví. To mj. umožní následné sdílení významu dat s třetími stranami, např. s evropskými institucemi, zejména: ● zlepšit vyhledatelnost otevřených datových sad vytvářených nebo spravovaných orgány veřejné moci ČR, ● zvýšení kvality popisu otevřených datových sad ○ omezení duplicit v pojmenovávání stejných prvků různými jmény, nebo různých prvků stejnými jmény ○ propojování sou visejících atributů dvou - dosud nepropojených - datových sad významovou vazbou ○ sjednocení způsobu modelování jednotlivých datových sad. ○ omezení většího počtu významů jedné hodnoty datového atributu. ● umožnit tvorbu katalogu datových sad veřejné správy . Katalogem datových sad veřejné správy je myšlena otevřená datová sada, která popisuje veškeré legislativou vymezené datové sady, t.j. nikoliv pouze otevřené datové sady, a zveřejňuje jejich popis strojově čitelným způsobem (neposkytuje však skutečný obsah těchto datových sad). Katalog se může stát nástrojem pro efektivní řízení a kontrolu procesu otevírání dat a rovněž nástrojem usnadňujícím informovanost a sdílení datových sad napříč veřejnou správou.

3.2. Příklady souvisejících aktivit Potřeba využívat sdílené pojmosloví při komunikaci a sdílení dat napříč sektory veřejné správy byla na identifikována na mnoha úrovních. Např. dokument Information principles for the UK public sector, 2011 vytvořený britskou vládou zmiňuje nutnost sdílených slovníků v jednom ze svých sedmi principů správy a sdílení informací veřejného sektoru. Příkladem sdíleného slovníku může být novozélandský tezaurus pro e-government, viz GEA-NZ Reference Models and Taxonomies, 2017, jednoduché slovníky pro e-government jsou rovněž vytvářeny na Slovensku, viz Centrálny model údajov verejnej správy, 2017. Evropská komise publikovala v roce 2014 několik specifikací základních slovníků pro e- government (tzv. e-Government Core Vocabularies), viz Handbook on using the Core Vocabularies, 2014. Tyto slovníky si kladou za cíl nabídnout základní datové prvky a jejich atributy v unifikované podobě, tj. s jedinečnou identifikací, možnými lexikalizacemi, definicemi a vztahy k ostatním datovým prvkům. Společným cílem těchto sémantických slovníků pojmů (od tezaurů, po složité výpočetní modely) je stabilizovat význam odborného pojmosloví.

V českém prostředí existuje od roku 2007 Informační systém o datových prvcích (ISDP). Související metodický pokyn popisuje životní cyklus tzv. datových prvků, tedy pojmů používaných pro popis dat, formalizovaných pomocí XML.Oproti ISDP je zde představený sémantický slovník pojmů budován od základních významových struktur na základě výzkumu v oblasti kognitivních věd a nabízí formální reprezentaci pojmů a vztahů v podobě otevřených propojených dat. Sémantický slovník pojmů navíc oproti ISDP nepředepisuje konkrétní datové struktury a jejich syntax, ale umožňuje nad různými datovými strukturami různých správců a poskytovatelů dat postupně budovat sémantickou vrstvu, která popisuje jejich význam. 4. Struktura sémantických slovníků

Ekosystém sémantických slovníků dohromady vytváří tzv. Sémantický slovník pojmů veřejné správy (SGoV), jehož základní struktura je vysvětlena v Koncepce sémantického slovníku pojmů, výstup projektu Implementace strategií v oblasti otevřených dat II, CZ.03.4.74/0.0/0.0/15_025/0004172. Zde navrženou architekturu revidujeme a rozšiřujeme tak, aby pokrývala případy užití zmíněné v kapitole Úvod. 4.1. Pojmy Základní stavební jednotkou sémantického slovníku je pojem (též koncept, nebo význam). Pojem je slovo nebo sousloví opatřené definicí, synonymy, zdrojem, příp. dalšími charakteristikami, které zpřesňují jeho význam tak, aby se zvýšila jeho srozumitelnost a pravděpodobnost jeho správného použití. Nejde tedy o samotné slovo nebo sousloví, ale o jeho význam v určitém kontextu, např. ve významu konkrétního zákona. Příkladem je slovo budova, které lze nalézt v české legislativě pod různými definicemi.

Příklad nejednoznačnosti slov:

budova (dle zákona 256/2013 Sb.)

definice: nadzemní stavba spojená se zemí pevným základem, která je prostorově soustředěna a navenek převážně uzavřená obvodovými stěnami a střešní konstrukcí

budova (dle zákona 406/2000 Sb.)

definice: nadzemní stavba a její podzemní části, prostorově soustředěná a navenek převážně uzavřená obvodovými stěnami a střešní konstrukcí, v níž se používá energie k úpravě vnitřního prostředí za účelem vytápění nebo chlazení

Existuje tedy více různých pojmů (tj. významů), které označujeme stejným slovem budova. Samotné slovo budova není dostatečné. Důležitý je kontext, ve kterém ho používáme a v rámci kterého již dokážeme ke slovu přiřadit i konkrétní význam. V příkladě s budovou jsou to dva kontexty dané dvěma různými zákony. Právě až tento kontextový význam pak chápeme jako pojem. Rozdíly v definicích přitom mají zásadní význam na interpretaci obou pojmů. Máme-li např. datovou sadu o budovách, bez znalosti, ve kterém významu se slovo budova používá, neumíme rozhodnout, jestli může obsahovat autobusové zastávky, nebo sklady - ty nespadají pod definici budovy dle zákona 406/2000 Sb. Pojem lze popsat následujícími základními charakteristikami: název Slovo nebo slovní spojení, které slouží jako identifikátor pojmu; musí být jednoznačný a přesný. definice Textový řetězec, který přesně a detailně charakterizuje pojem; pojem obsahuje nejvýše jednu definici (ne vždy je možné ji v daném kontextu přesně určit, např. proto, že některé legislativní předpisy pojmy využívají, ale nedefinují). alternativní název Slovo nebo slovní spojení, které je používáno jako zkratka nebo synonymum, používané pro označení pojmu (např. jazykem lidí zabývajících se danou agendou). zdroj Odkaz na nejmenší část dokumentu, ze které plyne význam pojmu (např. odkaz na definici pojmu ve znění konkrétního právního předpisu).
doplňující poznámka Dále vysvětluje význam pojmu, nad rámec definice, případně opisuje význam pojmu (např. pokud přesnou definici není možné určit).

Charakteristiky pojmu budova z katastrálního zákona by mohly být zachyceny například takto:

Příklad pojmu1:

budova (dle zákona 256/2013 Sb.)

  • alternativní názvy: budova, objekt budovy
  • definice: nadzemní stavba spojená se zemí pevným základem, která je prostorově soustředěna a navenek převážně uzavřená obvodovými stěnami a střešní konstrukcí
  • zdroj: § 2 odst. 1 písm. l) zákona č. 256/2013 Sb. katastrální zákon
  • doplňující poznámka: jedná se např. o budovy uvedené v katastru nemovitostí.

Zdroje můžeme v nejjednodušší podobě reprezentovat pomocí textových citací, jak bylo ukázáno na příkladě. Pro zachycení přesnějších souvislostí mezi pojmy a jejich definičními výskyty v textu je však vhodnější využít strojově čitelná metadata - např. referenci na příslušnou část právního aktu v připravované otevřené datové sadě eSbírky, viz Detailní návrh technického řešení informačních systémů eSbírka a eLegislativa, 2018 . Pro obecné typy dokumentů lze využít existující anotační schémat, např. ontologie BIBO, viz BIBO Ontologie, 2016. To umožní spravovat pojmosloví jednotlivých dokumentů, dle jednotlivých organizací, autorů, apod. 4.2. Slovníky SGoV rozdělujeme na jednotlivé sémantické slovníky. Ty slouží ke snazší správě pojmů a udržení jejich vnitřní konzistence. Každý sémantický slovník má jednoho gestora, který odpovídá za jeho správu a kvalitu pojmů v něm obsažených.
Sémantický slovník pojmů sestává z ● tezauru (glosáře) 2, tedy hierarchie (seznamu) pojmů, jejich definic a dalších charakteristik, ● modelu, tedy samotného znalostního grafu, který pojmy z tezauru vzájemně propojuje významovými vazbami a

1 Pro snadnější čtení je název pojmu uveden bez odsazení jako první řádek.
2 Pro účely tohoto dokumentu a s ohledem na zpětnou kompatibilitu zavedeného pojmosloví v dokumentu Koncepce sémantického slovníku pojmů, výstup projektu Implementace strategií v oblasti otevřených dat II, CZ.03.4.74/0.0/0.0/15_025/0004172 budeme v tomto dokumentu pojmy tezaurus a glosář rozumět totéž.

4.2.1. Tezaury Tezaurus pojmů je seznamem pojmů představených v sekci Pojmy. Kromě prostého výčtu je možné pojmy v tezauru uspořádat do hierarchické struktury pro usnadnění orientace. Uvedený příklad ukazuje, že pojmy v hierarchické struktuře mohou mít různý vztah k nadřazenému pojmu - zatímco každá budova je speciálním typem stavby, Karlův most je její konkrétní instancí a základy jsou její součástí. Příklad jednoduchého tezauru s hierarchickou strukturou pojmů:

stavba (dle zákona 183/2006 Sb.)

budova (dle zákona 256/2013 Sb.)

Karlův most

základy má-adresu adresa ulice číslo popisné stavební řízení

Každý z těchto pojmů je definován tak, jak bylo ukázáno v sekci Pojmy, což však v tomto příkladě pro stručnost neukazujeme. Takový slovník může být spravován např. Ministerstvem pro místní rozvoj pro účely systematizace pojmů v oblasti stavebního řízení.

Gestor slovníku však může mít zájem do tezauru přidat pojem, který je součástí tezauru jiného (i tezauru spravovaného jiným gestorem nebo dokonce jinou organizací). Rozlišujeme tak pojmy: ● vlastní - jedná se o pojmy, jejichž základní charakteristiky jsou spravované v tomto

tezauru. Např. v případě tezauru výše by se mohlo jednat o pojem stavba, příp. budova, neboť se jedná o pojmy z legislativy, která je v gesci MMR ČR.
● přejaté - jedná se o pojmy, které jsou součástí tezauru, ke kterým je možné zavádět nové alternativní názvy (synonyma, zkratky), ovšem není možné měnit další charakteristiky - ty jsou spravované ve slovníku, kterému je pojem vlastní. Každý pojem je tedy přesně v jednom tezauru SGoV vlastní a v libovolném množství jiných slovníků přejatý. 4.2.2. Konceptuální modely Konceptuální modely vycházejí z pojmů vytvořených v tezauru a definují pro ně významové vazby. Konceptuální model je standardní součástí dokumentace informací spravovaných v informačních systémech jako data a žádný softwarový projekt s více účastníky se bez něj nemůže obejít. Pro validaci, vzájemné propojování a čitelnost lidmi jsou konceptuální modely vytvářeny a spravovány pomocí zjednodušené varianty jazyka OntoUML3. Konceptuální model obsahuje pojmy tezauru, které dále charakterizuje jako typy objektů (obdélníky), typů vztahů (kosočtverce), typy vlastností (elipsy) a typy událostí (lichoběžníky) s následujícím významem: Název pojmu Popis Příklady typ objektu Označuje prvek, který existuje sám o sobě a může v čase měnit své vlastnosti a vztahy s ostatními prvky.
● člověk,
● orgán veřejné moci,
● silniční vozidlo,
● zákon typ vlastnosti
Je závislý na jednom typu objektu. Vlastnost daného typu označuje prvek, který závisí na objektu daného typu (nemůže bez něj existovat). ● datum narození člověka, ● jméno člověka,
● barva silničního vozidla typ vztahu Definuje typ vazby mezi dvěma typy objektů. Vztah daného typu závisí obou objektech. ● je manželem ● má řidičské oprávnění typ události Označuje prvek, který se odehrál v minulosti (a mohl změnit objekty, které se jej účastnily) . ● volby do PSP ČR ● dopravní nehoda

Takto klasifikované pojmy jsou prvky konceptuálního modelu, které jsou mezi sebou vzájemně propojené vazbami: ● má vztažený prvek 1 a má vztažený prvek 2 - propojuje typ vztahu s typy objektů,

3 https://ontouml.org/

Page 1 of 4