C2V4.pdf - Page 4

3.4 Správa katalogu témat otevřených dat Jedná se o přehledné zachycení vybraných navržených témat datových sad s cílem: ● časového naplánování postupné publikace navržených datových sad (vytvoření publikačního plánu), ● kontinuální správy a průběžné revize všech vlastností již publikovaných datových sad (rizika, přínosy, podmínky užití). Forma i způsob vedení katalogu témat otevřených dat je plně v kompetenci poskytovatele, vhodné je ale zachytit a spravovat podstatné informace o navržených tématech otevřených dat včetně informací o jejich publikaci. Příklad vedených informací v katalogu témat otevřených dat: ● Schválená témata (datové sady) k publikaci v podobě otevřených dat: o název datové sady, o popis datové sady, o určený kurátor dat zodpovědný za analýzu a přípravu datové sady, o časový plán její publikace, o periodicita publikace (aktualizace) datové sady, o identifikované přínosy, o identifikovaná rizika a způsoby jejich případných ošetření, o plánovaný datum publikace. ● Informace doplněné k tématům až při přípravě datových sad k publikaci: o doplňující informace a doporučení pro publikaci, o specifikované podmínky užití
o informace o jednotlivých distribucích,
o datum publikace, … 3.5 Analýza agendy a odvození údajů V případě témat, ve kterých se vyskytují agendové údaje, které nejsou v RPP evidovány, nebo jejich evidence není kvalitní a není provedena dle Metodiky definice údajů vedených v agendě, je nutné analýzu agendu nejprve provést. Agendu je nutné analyzovat dle Metodiky tvorby a údržby sémantického slovníku pojmů veřejné správy a následně odvozené údaje subjektů a objektů práva evidovat v RPP dle Metodiky definice údajů vedených v agendě. 4 Příprava datové sady 4.1 Východiska přípravy datové sady 4.1.1 Sémantická a syntaktická interoperabilita publikovaných dat. Interoperabilita otevřených dat se týká schopnosti různých datových souborů, formátů a standardů spolupracovat a být vyměňovány mezi různými aplikacemi, systémy a organizacemi bez ztráty informací a údajů. Pro přípravu datové sady k publikaci je důležité zajištění sémantické a syntaktické interoperability publikovaných

dat. Sémantická interoperabilita datové sady tedy znamená, že data jsou publikována v takovém formátu, který umožňuje jejich správné a konzistentní zpracování v aplikacích a systémech. Možnosti a způsoby zajištění sémantické interoperability datové sady: ● Použití standardů. o Standardy pro formáty dat, značkovací jazyky a ontologie usnadňují interpretaci dat mezi různými aplikacemi a systémy. ● Uvedení metadat. o Metadata o datové sadě usnadňují porozumění datům a způsobům, jakými jsou data uložena a jak mohou být použita. ● Přesné a konzistentní pojmenování. o Používání přesného a konzistentního pojmenování pro data a jejich popis podporuje sémantickou shodu mezi daty. ● Použití odkazů na další zdroje. o Odkazy na další zdroje, jako jsou ontologie a slovníky, pomáhají uživatelům interpretovat data a rozumět kontextu datové sady. ● Využívání globálně jednoznačných identifikátorů (IRI). o Použití jednoznačných identifikátorů pro data a jejich popis pomáhá při zajištění shody dat mezi různými aplikacemi a systémy. Výběr způsobů publikace datových schémat je určován přístupem a možnostmi zajištění sémantické i syntaktické interoperability. Publikace datových sad z pohledu zajištění sémantické interoperability se v zásadě člení následujícím způsobem: Sémantická interoperabilita zajišťuje, že při výměně a sdílení informací bude správně chápán a zachován jejich význam a smysl (datových prvků a vztahů mezi nimi).
Rozhodujícím způsobem se na tom podílí vytvoření a kvalita konceptuálních modelů datové sady (zachycení kontextu), a zejména jejich napojení na ontologie veřejné správy (Sémantický slovník pojmů veřejné správy). Syntaktická interoperabilita zajišťuje standardizaci formátů vyměňovaných informací (dat), metadat, datových schémat a definice datových typů. Mezi prostředky, které jsou určeny k její dosažení patří vydávané otevřené formální normy, technické standardy pro publikaci otevřených dat, doporučené datové formáty a jazyky pro popis datových schémat. Zajištění syntaktické interoperability je nezbytným předpokladem publikace otevřených dat.

Publikace strukturovaných údajů bez sémantiky dat: ● publikace bez existence souvisejících sémantických (konceptuálních) modelů, nebo navržených na základě sémantických modelů vytvořených „izolovaným“ způsobem mimo SSP, ● lze pouze ošetřit některá metadata datové sady jejich sémantickým napojením na SSP. ● Úsilí se zaměřuje především na zajištění s yntaktické interoperability datových formátů, případně na doplnění sémantiky některých metadat v katalogizačním záznamu.
● Typy datových schémat: ● Datové schéma otevřených dat bez vazeb do slovníku. ● Datové schéma otevřených dat s vazbou do slovníku na úrovni metadat. Publikace strukturovaných údajů včetně sémantiky dat: ● publikace s plnohodnotnou sémantikou dat i metadat, za předpokladu, že vytvořené modely jsou součástí repositáře sémantických modelů VS ČR a jsou vytvořeny dle příslušné metodiky. ● Úsilí je zaměřeno na sémantickou i syntaktickou interoperabilitu datových sad. To znamená zajištění sémantiky jednotlivých datových položek i sémantiky metadat v katalogizačním záznamu, v oblasti syntaktické interoperability dodržení doporučených datových modelů s povinným použitím standardizovaných otevřených formálních norem, použitím standardizovaných datových formátů a strojově čitelných datových schémat. ● Typy datových schémat: o Datové schéma otevřených dat s částečnou vazbou do slovníku. o Datové schéma otevřených dat s úplnou vazbou do slovníku. Publikace nestrukturovaných údajů: ● publikace dokumentů, obrázků a prostorových údajů,
● úsilí se zaměřuje především na zajištění syntaktické interoperability datových formátů,
● zajištění sémantiky dat je obtížně realizovatelné, lze pouze ošetřit některá metadata datové sady jejich sémantickým napojením na SSP.

4.1.2 Kontext tvorby datového schématu Jednotlivé oblasti přípravy datové sady se navíc významnou měrou podílí na zajištění: ● Sémantické interoperability (správného chápání a zachování smyslu sdílených informací). o Analýza a sémantické modelování. o Konceptuální modely, které jsou nezávislé na použitých technologiích, ▪ existují různé možnosti jejich tvorby, cílem je ale standardizace nástroji MV ČR,
▪ vždy jsou výstupem analýzy agend a sémantického modelování datových sad (témat), ▪ jsou nutným vstupem pro návrh datového modelu datové sady. ● Syntaktické interoperability (zajištění přesného a standardizova ného formátu vyměňovaných informací). o Datové modely – výběr způsobu reprezentace dat. o Datové formáty – způsob uložení dat modelu do souboru. o Datová schémata – v jazyce pro zápis schématu popis předepsané struktury dat čitelný lidmi i strojem.
Pohled na strukturu (kontext) přípravy datových schémat datové sady určené k publikaci strukturovaných údajů zachycuje obrázek 1 „Kontext tvorby datového schématu“. Kontext přípravy datového schématu datové sady přehledově ve zkratce: Vytvoření konceptuálního (sémantického) modelu, který zachycuje obraz reality publikovaného tématu datové sady. Výběr datového modelu pro reprezentaci dat na základě konceptuálního modelu. Datových modelů může být vybráno více a různého typu (volba možných distribucí datové sady). Výběr datového formátu pro ukládání dat do souboru, dle použitých datových modelů. Zápis datového schématu v jazyce pro zápis schématu (zajištění lidské i strojové čitelnosti).

Obrázek 1 Kontext tvorby datového schématu Klíčovou oblastí pro přípravu datové sady je konceptuální model.
Prakticky to tedy znamená, že nedostačuje pouze „nějak“ pojmenovat jednotlivé prvky modelu (následně i prvky datové sady) a model „nějak“ vytvořit, ale je nutné se vrátit k významu slova koncept – „pojem“ a modelovat pojmy v jejich plném významu a v kontextu sémantického slovníku pojmů veřejné správy (tedy v kontextu všech dat veřejné správy). Z tohoto důvodu jsou konceptuální modelování a tvorba konceptuálního modelu publikovaných otevřených dat detailněji vysvětleny v kapitole „Popis sémantiky veřejné správy“. Úplné informace o problematice sémantického modelování jsou uvedeny v Metodice tvorby a údržby sémantického slovníku pojmů veřejné správy. Možnosti získání / vytvoření konceptuálního modelu datové sady, nebo tématu otevřených dat: ● Vytvoření konceptuálního modelu na základě pojmů sémantického slovníku veřejné správy. o Model v (ne)úplné podobě je již součástí konceptuálního modelu modelované agendy.
● Vytvoření konceptuálního modelu na základě pojmů datové sady. o Na základě SSP, pokud obsahuje pojmy datové sady. o Na základě témat datových sad:

▪ tvorba modelu „od nuly“ (pojmy datové sady v SSP nejsou), ▪ téma odpovídá OFN (lze nalézt nadřazené pojmy datové sady a využít specializace). ● Vytvoření konceptuálního modelu datové sady nezávislým a izolovaným způsobem na sémantickém slovníku veřejné správy. Model je vytvořen bez zahrnutí nových pojmů do SSP a bez jeho začlenění do celkového konceptuálního modelu veřejné správy. o Jedná se o nepodporovanou variantu. 4.2 Příprava konceptuálního modelu datové sady a způsobu publikace 4.2.1 Vytvoření konceptuálního modelu datové sady.

V případě publikace nestrukturovaných údajů se způsob publikace řídí pokyny uvedenými v kapitole „Publikace nestrukturovaných údajů“. 4.2.1.1 Vymezení věcného obsahu datové sady Vstupem do přípravy datové sady jsou navržená témata otevřených dat z oblasti „Identifikace témat otevřených dat“. Každé navržené téma je zpravidla definováno svým názvem, odpovědným kurátorem a stručným popisem. Toto ještě ale nemusí znamenat přesné vymezení rozsahu publikovaného kontextu tématu, a tedy ani rozsahu publikovaných údajů. Je nutné si uvědomit, že při použití zejména hierarchických datových modelů model datové Možnosti využití existujících konceptuálních modelů v sémantickém slovníku pro návrh datových sad: Modely lze využít bez jakýchkoliv změn, obsah datových sad je omezen pouze na oblast v modelu zachyceného kontextu. Modely lze doplňovat o nové pojmy a vztahy, a tyto zahrnout do celkového kontextu konceptuálního modelu veřejné správy. Doplněné modely jsou k dispozici dalším poskytovatelům. Model lze doplnit o nové pojmy a vztahy pouze pro účel publikace konkrétní datové sady konkrétního poskytovatele. Sémantika bude v tomto případě zajištěna použitými pojmy SSP a pro případné zajištění sémantiky i nových pojmů je nutné, aby poskytovatel zpřístupnil také svůj vlastní vytvořený sémantický slovník (způsob a forma slovníku záleží na poskytovateli). Při výběru způsobu publikace strukturovaných údajů je nejprve nutné: upřesnit vymezení věcného obsahu datové sady, následně získání /vytvoření odpovídajícího konceptuálního modelu.

sady je obvykle určován jednou kořenovou entitou, a ta předurčuje účel využití příslušné datové sady. Při komplexnějších tématech (zastřešujících například tematickou oblast) to může odpovídající datovou sadu omezit při jejím využití. Pro komplexnější témata je jednoznačně výhodnější používat pro jejich publikaci grafové modely, které obsahují kompletní provázaný kontext celé tematické oblasti. Více na toto téma v „Příkladu různého vymezení věcného obsahu datové sady“. Rozhodnutí o rozsahu publikovaného kontextu tématu je zásadním předpokladem pro zajištění široké využitelnosti publikovaných datových sad. Pokud se ukáže, že původně definovaná témata datových sad v oblasti identifikace témat nebyla zcela přesně nebo vhodně vymezená a popsaná, je vhodné a nutné, témata v katalogu témat datových sad upravit takovým způsobem, aby jejich publikace byla jednoduchá. 4.2.1.2 Vytvoření konceptuálního modelu datové sady Na základě vymezení obsahu datové sady je nutné zachytit také strukturu obsahu. Ideálním způsobem je zachycení formou konceptuálního modelu, který zachytí nejen strukturu obsahu, ale také jeho kontext (vnitřní vazby prvků reprezentující obsah a jeho význam) a v případě využití pojmů sémantického slovníku veřejné správy také přesný význam jednotlivých prvků konceptuálního modelu v ontologii veřejné správy ČR. Koncept datové sady V případě, že nelze konceptuální model vytvořit, nebo kdyby vytvořený model nedával smysl (například v případě publikace jednoduché tabulky), bude dostačující obsah zamýšlené datové sady zachytit způsobem, ze kterého bude zřejmé, co přesně bude obsahem publikované datové sady, jaký je význam jednotlivých položek obsahu a jak bude struktura datové sady vypadat (tabulka, seznam pojmů, grafické zobrazení struktury, …). V dalším textu bude tento způsob zachycení obsahu datové sady označován pojmem „koncept datové sady“. Koncept datové sady lze považovat za prvotní představu vymezení kontextu publikovaného tématu, na jehož základě se v dalších krocích namodeluje plnohodnotný konceptuální model. Konceptuální model Konceptuální model je zcela obecný a základní pojmový model, nezávislý na jakékoliv potenciální implementaci jeho obsahu. Zajištění sémantické interoperability je důležitou podmínkou využitelnosti publikovaných dat. Z tohoto důvodu je problematika konceptuálního modelování a tvorby konceptuálního modelu p ublikovaných otevřených dat zařazena do kapitoly „Popis sémantiky veřejné správy“.
Ve zkratce to prakticky znamená, že je nutné se vrátit k významu slova koncept – „pojem“ a modelovat pojmy v jejich plném významu a v kontextu sémantického slovníku pojmů veřejné správy (a v kontextu všech dat veřejné správy). Základní prvky konceptuálního modelu. Doporučená hlediska pro vymezení rozsahu obsahu datových sad: počet entit (subjektů a objektů práva v případě agendových údajů) s atributy v údajích a jejich vzájemné vazby – složité datové sady vedou ke komplikovaným datovým schématům a konceptuálním modelům, externě stanovená vymezení tematických oblastí, např. v případě agend zákon ustavující příslušnou agendu mohou přesně vymezovat (oddělovat) vedené rejstříky, seznamy a evidence, smysluplný kontext – i samostatná datová sada by měla být cíleně použitelná a měla by dávat smysl, cíl publikace a použití publikované datové sady – vymezuje kořenovou entitu a její atributy, předurčuje jednoduchost / složitost její struktury, místo evidence a správy publikovaných údajů (entit, jejich atributů a vzájemných vazeb), v případě rozprostření informací (obsahu datové sady) mezi více zdrojů (informačních systémů) je nutné mít na paměti, že automatizovaná publikace datových sad by byla v takovém případě komplikovaná (v takovém případě je vhodné rozsah datové sady pokrýt více datovými sadami), místo evidence a správy informací o subjektech a objektech práva agendy (jednotlivé ISVS), v případě rozprostření informací mezi více ISVS je nutné se řídit pravidly publikace do VDF – publikace datových sad (zpřístupnění a katalogizace) je vždy zajišťována tím ISVS, který informace spravuje (publikace společné datové sady s informacemi z více ISVS by byla komplikovaná je vhodné jednu společnou datovou sadu pokrýt více datovými sadami,), množství publikovaných atributů – hodně atributů vzniká v důsledku vazeb na jiné objekty (entity), v takových případech je vhodnější údaje rozdělit do několika datových sad (například podle jednotlivých entit) a tím zmenšit datové struktury, a přitom dodržet publikaci všech atributů, celkové množství publikovaných dat – obtížnější práce s velkými datovými soubory.

● Entita je základním pojmem při popisu reálného světa a práci s informacemi o něm. Entita musí být rozlišitelná od ostatních entit a existovat nezávisle na nich. ● Mezi jednotlivými entitami mohou existovat vzájemné vztahy s uvedenými kardinalitami. ● V legislativních dokumentech jsou tyto entity, jejich vlastnosti, vztahy, role a související události popisovány „pojmy“, tyto jsou předmětem sémantického modelování.
● V různých konceptuálních modelech se mohou entity a s nimi související informace vyskytovat s různými názvy, vždy v závislosti na použité metodě modelování a způsobu tvorby konceptuálního modelu. V metodice je pro obl ast otevřených dat preferována terminologie i modely vycházející ze sémantického modelování. ● RPP používá pro označení entit při evidenci údajů poskytovaných agendou pojmy subjekty a objekty práva. ● Subjekty práva se rozumí osoby, které mohou být zavázány po vinností nebo oprávněni právem, mají vlastní vůli a schopnost konat. ● Objekty práva jsou předměty, věci hmotné či nehmotné, které nemají vlastní vůli a rozum, nejsou jim ukládány povinnosti ani přiznávána práva, se kterými subjekty práva nakládají a mohu k nim nabývat různých vztahů. Možnosti vytvoření konceptuálního modelu ● Vytvoření konceptuálního modelu na základě pojmů sémantického slovníku veřejné správy dle postupů uvedených v „Metodice tvorby a údržby konceptuálních datových modelů agend“. o Pokud model (nebo většina jeho prvků) v nějaké (ne)úplné podobě je již součástí konceptuálního modelu veřejné správy (již namodelované agendy, domény, datové sady, …) je ho možné převzít a pouze doplnit o chybějící prvky (objekty, subjekty, vazby, vlastnosti).
o Pokud model neexistuje je nutné ho vytvořit: ▪ na základě existujících pojmů SSP, pokud již SSP pojmy datové sady obsahuje, ▪ na základě pojmů témat (oblastí) datových sad, ty ale musí být nejdříve z avedeny do glosáře pojmů, ▪ na základě existujících OFN, pokud odpovídají tématu datové sady, v tomto případě lze využít pojmy OFN ke specializaci nových pojmů datové sady, a tyto zavést do glosáře pojmů.
● Vytvoření konceptuálního modelu datové sady nezávislým a izolovaným způsobem bez sémantického slovníku veřejné správy. Model je vytvořen bez zahrnutí nových pojmů do SSP a bez jeho začlenění do celkového konceptuálního modelu veřejné správy.

Page 4 of 16