C2V4.pdf

Type: Document | Status: ready

33

o Tato možnost je přijatelná pouze pro publikaci bez sémantiky dat.
o Jedná se o nepodporovanou variantu. 4.2.2 Výběr způsobu publikace

Výběr způsobu publikace se týká výhradně publikace strukturovaných údajů. Rozhodování začíná ověřením (A), do jaké míry jsou pojmy vytvořeného konceptuálního modelu datové sady, nebo jeho koncepčního návrhu již zavedeny v sémantickém slovníku pojmů veřejné správy.
Pokud slovník pojmy již obsahuje je důležité, zda je ve slovníku zachycen (B) i úplný kontext datové sady (konceptuální model pojmů veřejné správy obsahuje všechny vazby a všechny pojmy konceptuálního modelu). Pokud ano, tak nejlepší volbou je publikace datové sady s úplnou vazbou významu datových položek do slovníku (4). Pokud ne, tak je nutné zvážit možnosti (připravenost podkladů a organizace) k dokončení úplné (C) analýzy tématu/tematické oblasti, následně ji také provést a publikovat datovou sadu opět s úplnou vazbou do slovníku (4). Pokud úplnou analýzu nelze provést, je nutné zvážit provedení alespoň částečné (D) analýzy zaměřené na doplnění slovníku o vybrané klíčové prvky konceptuálního modelu (klíčové entity, použití OFN a specializace jejich pojmů, …). Po provedení částečné analýzy je nutné posoudit (E), zda výsledky analýzy (doplnění slovníku sémantických pojmů) jsou dostatečné k publikaci (3) datové sady s částečnou vazbou sémantiky dat do slovníku (3. úroveň otevřenosti s publikací kontextu), nebo je možné sémantiku datové sady zajistit pouze na (2) úrovni metadat. V případě, že slovník pojmy konceptuálního modelu datové sady neobsahuje, je nutné (F) rozhodnout, zda publikace proběhne bez (1) sémantiky (bez vazeb do slovníku), anebo se sémantikou. Pokud se sémantikou tak

34

je možné provést úplnou analýzu a získat možnost publikace (4) s úplnou vazbou do slovníku, nebo je nutné minimálně provést částečnou analýzu s možnostmi publikace (2) a (3). Upřesnění některých činností. ● (A) Ověření, zda sémantický slovník obsahuje pojmy datové sady. o Rozhodování o způsobu publikace probíhá na základě konceptuálního modelu datové sady, který může být v této fázi vytvořen různými (i nepodporovanými) způsoby a jeho kvalita i úplnost může být rozmanitá. Rovněž lze případně pro rozhodování využít koncept datové sady, pokud pro publikované téma konceptuální model nelze smysluplně vytvořit. o Rozhodování je založeno na zjištění, zda a do jaké míry jsou pojmy konceptuálního modelu datové sady (entity, vazby, atributy) již zavedeny v SSP.
o Posouzení dostatečnosti je individuální, ale mělo by být pravidlem, že pro rozhodnutí „obsahuje“ by mělo platit, že většina subjektů a objektů vyskytující se v konceptuálním modelu (nebo jejich nadřazených pojmů) by měla být v SSP již zavedena. ● (B) Posouzení úplného kontextu tématu ve slovníku SSP. ● (C) Posouzení možnosti provedení úplné analýzy. o Posouzení možností provedení úplné analýzy je možné provést s detailní znalostí věcné problematiky publikovaného tématu datové sady (kurátor dat, ohlašovatel agendy, datový analytik, …). ● (D) Posouzení možnosti provedení částečné analýzy. o Platí stejné podmínky jako u úplné analýzy. ● (E) Posouzení využitelnosti sémantiky v datovém schématu (kurátor dat, datový analytik). ● (F) Rozhodnutí o způsobu publikace. ● Provedení úplné / částečné analýzy a doplnění / vytvoření slovníku. o Vysvětlení a doplňující informace uvedeny v kapitole „Popis sémantiky veřejné správy“. o Doporučené postupy: ▪ „Metodika tvorby a údržby konceptuálních datových modelů agend“. ▪ Záznam školení „Modelování významu dat ve veřejné správě“.

35

4.2.3 Přiřazení rolí k činnostem přípravy konceptuálního modelu datové sady

Zapojení rolí ve skupinách činností: Z – zodpovídá S – spolupracuje R – rozhoduje Koordinátor otevírání dat Kurátor otevřených dat IT specialista Datový Specialista na modelovanou doménu Ohlašovatel agendy Vymezení věcného obsahu datové sady

Z S S S S Vytvoření konceptuálního modelu datové sady

Z

S S S Ověření, zda sémantický slovník obsahuje pojmy datové sady

S

Z

Rozhodnutí o způsobu publikace S S

Z

Posouzení úplného kontextu tématu ve slovníku

S

Z S Posouzení možnosti provedení úplné analýzy

S

Z S Posouzení možnosti provedení částečné analýzy

S

Z S Posouzení využitelnosti sémantiky v datovém schématu

S

Z S

Provedení úplné analýzy a doplnění / vytvoření slovníku S S

S Z

36

Provedení částečné analýzy a doplnění / vytvoření slovníku S S

S Z

4.3 Návrh datových modelů a datových schémat 4.3.1 Výběr způsobu reprezentace strukturovaných údajů – datových modelů Možnosti reprezentace konceptuálního modelu datovými modely v závislosti na jejich typech:

Z – zodpovídá S – spolupracuje R – rozhoduje Koordinátor otevírání dat Kurátor otevřených dat IT specialista Datový architekt Specialista na modelovanou doménu Ohlašovatel agendy Stanovení stupně otevřenosti S Z S

S

Vytvoření datového schéma

S S Z S

Výběr formátu distribucí S Z S S

Vytvoření strojově čitelných datových schémat

S S Z

Návrh tabulky pro publikaci datové sady S S S Z

Vytvoření RDF modelu

S S Z S

Serializace RDF modelu

S Z S

Pro přípravu datových schémat distribucí publikované datové sady je nutné mít připravený konceptuální model, nebo vybraný kontext odpovídající rozsahu datové sady.

37

4.3.2 Obecné charakteristiky publikované datové sady 4.3.2.1 Stanovení stupně otevřenosti Prvním rozhodnutím poskytovatele je výběr způsobu reprezentace publikovaného tématu dle zamýšleného stupně otevřenosti publikovaných datových sad. ● V kontextu otevřených dat veřejné správy České republiky je nutné pro každou publikovanou datovou sadu zvolit minimálně 3. stupeň otevřenosti (vysvětlení stupňů otevřenosti je uvedeno v kapitole “Stanovení stupně otevřenosti”). o Stupně otevřenosti 4 a 5 s sebou nesou větší pracnost při přípravě datové sady k publikaci.
o Je možné zvolit i více stupňů najednou (včetně 1. či 2.), platí však, že alespoň jeden ze stupňů musí být minimálně na úrovni 3. (vyplývá ze § 4b odst. 1 zákona č. 106/1999 Sb . o svobodném přístupu k informacím). ● S určením stupně otevřenosti souvisí i technická podoba zveřejnění datové sady, tedy: o v jakých distribucích bude obsah datové sady zveřejněn, o v jakém datovém formátu budou distribuce vyjádřeny. 4.3.2.2 Určení kódování dat datových sad Při předávání údajů mezi informačními systémy ve veřejné správě musí být vždy použito znakové sady Unicode a kódování UTF-8. Pokud je při předávání údajů využita i jiná znaková sada, pak údaj musí být povinně uveden i ve znakové sadě Unicode v kódování UTF-8 a takto uvedený údaj je referenční. Údaj v jiné znakové sadě je pouze dodatečným tvarem údaje a má pouze informativní charakter. 4.3.3 Tabulková data (relační datový model) 4.3.3.1 Návrh tabulky pro publikaci datové sady Distribuce datové sady, která reprezentuje tabulku, musí splňovat následující standardy: ● V jedné distribuci je reprezentována právě jedna tabulka. ● V distribuci neexistuje žádný jiný záznam, než je řádek tabulky nebo její hlavička. ● Všechny záznamy v distribuci, tj. jednotlivé řádky tabulky, mají stejnou strukturu, která odpovídá hlavičce. ● Celý obsah datové sady je vyjádřen v distribucích ve formátů Comma Separated Values (CSV) , (více k formátu CSV e-learning „Technické aspekty otevřených dat“ modul č.7 „Formáty pro otevřená data – CSV“). 4.3.3.2 Tabulka + využití sdílených specifikací V případě publikace údajů, které jsou specifikovány sdílenými specifikacemi OFN, je nutné strukturu těchto údajů (hlavičku tabulky) vyjadřovat ve struktuře definované sdílenou specifikací. Seznam vydaných sdílených specifikací je dostupný na stránkách POD. 4.3.3.3 Sémantika publikovaných tabulkových dat Sémantiku datové sady na úrovni metadat je možné zajistit provázáním jejích metadat s SSP. Postup je uveden v kapitole Příprava katalogizačního záznamu datové sady. Sémantiku datové sady na úrovni dat lze zajistit správným mapováním pomocí formátu „CSV on the Web“,

38

4.3.4 Hierarchicky strukturovaná data (hierarchický datový model) Hierarchicky strukturovaná data jsou data, která jsou organizovaná do stromové struktury, kde každý prvek datové sady je reprezentován uzlem stromu. Každý uzel může mít jednoho nebo více potomků (dětí), jednoho nebo více předků, přičemž nejbližší předek je vždy jeho rodičem, kromě kořene stromu, který nemá žádného předka.
Hierarchický datový model je z konceptuálního modelu odvozen následujícím postupem: ● výběr kořenové entity (kořene stromu), ● následné postupné doplňování struktury potomky odvozenými z vazeb mezi prvky konceptuálního modelu. Distribuce datové sady, která obsahuje hierarchické strukturované objekty (tj. objekty složené z jiných objektů), musí splňovat následující doporučení a standardy: ● V jedné distribuci je reprezentována kolekce stejného typu objektů ● Objekty v kolekci mohou obsahovat další vnořené typy objektů. ● Celý obsah datové sady je vyjádřen v distribucích v alespoň jednom z následujících formátů: o eXtensible Markup Lan guage (XML, http://www.w3.org/TR/xml/), jehož struktura vyjádřená v podobě XML elementů a XML atributů umožňuje výběr jednotlivých údajů reprezentovaných v datové sadě pomocí prostředků jazyka XPath či CSS selektorů bez nutnosti parsování získaných atomických údajů (více k formátu CSV e-learning „Technické aspekty otevřených dat“ modul č.6 „Formáty pro otevřená data – XML“). o JavaScript Object Notation (JSON, ECMA -404, nebo http://www.ecma- international.org/publications/files/ECMA-ST/ECMA-404.pdf), jehož struktura vyjádřená v
podobě JSON objektů a primitivních hodnot umožňuje výběr jednotlivých údajů reprezentovaných v datové sadě pomocí prostředků programovacích jazyků používaných pro tvorbu WWW aplikací (JavaScript, Java, .apod.) bez nutnosti parsování získaných atomických údajů (více k formátu CSV e -learning „Technické aspekty otevřených dat“ modul č.7 „ Formáty pro otevřená data – JSON“). Pro výměnu dat je důležité použití standardizovaných formátů, které umožňují různým systémům a aplikacím snadnou interpretaci dat a jejich využití. Z tohoto důvodu je nutné při publikaci dat dodržovat určitá pra vidla a standardy, aby byla zajištěna správnost a srozumitelnost dat pro všechny zúčastněné strany. To zahrnuje standardizaci názvů a popisů datových prvků, jakož i standardizaci vztahů mezi jednotlivými prvky v hierarchické struktuře.
Definice Otevřené formální normy v zákoně č. 106/1999 Sb. (3) Otevřenou formální normou se pro účely tohoto zákona rozumí pravidlo, které bylo vydáno písemně a obsahuje specifikace požadavků na zajištění schopnosti různých progr amových vybavení vzájemně si poskytovat služby a efektivně spolupracovat. K zajištění standardizace jsou určeny Otevřené formální normy (OFN), což jsou technická doporučení zaměřená na vybrané datové sady. Zajišťují, že stejná data publikovaná různými poskytovateli budou interoperabilní a bude je možné jednodušeji využívat nezávisle na tom, kdo data poskytuje. Pro poskytovatele otevřených dat, kteří jsou povinnými subjekty dle zákona č. 106/1999 Sb. o svobodném přístupu k informacím, jsou doporučení vyplývající z OFN závazná dle § 4b.

39

Podrobnější informace k otevřeným formálním normám jsou k dispozici v kapitole „OFN“, na stránkách POD v sekci „Otevřené formální normy (OFN)“ a v e-learningovém kurzu „Úvod do otevřených formálních norem“. 4.3.4.1 Varianty přípravy datového schématu hierarchicky strukturovaných dat Rozhodovací schéma pro výběr správné varianty přípravy datové sady.

Obrázek 2 Varianty přípravy hierarchicky strukturovaných dat ● Příprava datového schématu na základě OFN. o OFN existuje pro konkrétní téma datové sady, o OFN definuje datové schéma tématu konkrétní datové sady, katalogizační záznam, sémantiku vazbou do SSP. ● Příprava datového schématu na základě podobné OFN. o OFN může být základem pro podobné datové sady (využití specializace pojmů konceptuálního modelu datové sady), o OFN konkrétního tématu lze použít s malými úpravami pro návrh datového schématu podobných datových sad, katalogizační záznam i strojově vyjádřené schéma distribuce datové sady je nutné modifikovat dle tématu a sémantiku doplnit specializací pojmů OFN dle pojmů datové sady. ● Příprava datového schématu s využitím sdílených specifikací. o OFN pro konkrétní téma datové sady neexistuje a ani nelze využít podobné OFN prostřednictvím její specializace, o základem datového schématu je konceptuální model / koncept budoucí publikované datové sady a pro detailní vypracování datového schématu jsou využity sdílené specifikace, o sémantiku je nutné řešit zavedením pojmů datové sady do SSP a vytvořením konceptuálního modelu dle předepsané metodiky,
o strojově vyjádřené schéma distribuce datové sady je nutné připravit dle struktury datového schématu. ● Příprava datového schématu na základě datového schématu již publikované datové sady registrované v NKOD o postup využití je stejný, jako v případě použití podobné OFN, pouze s tím rozdílem, že základem

40

není OFN, o tuto možnost lze využít pouze v těch případech, kdy použitá publikovaná datová sada je publikované některou z výše uvedených možností. ● Vytvoření nové OFN a její následné použití pro přípravu datového schématu. o tato možnost vyžaduje příslib širokého využití více poskytovateli, neboť příprava nové OFN vyžaduje spolupráci více poskytovatelů organizovanou garantem otevřených dat VS, je pracnější a časově náročná, o vypracovaná nová OFN následně nabídne stejné možnosti využití jako již připravené OFN, o při výběru této varianty je nutné mít již předem prodiskutovaný návrh nové OFN s dalšími poskytovateli, kteří by data podle takové OFN měli zájem publikovat, a pak následně kontaktovat garanta otevřených dat VS. 4.3.4.2 Příprava datového schématu na základě OFN Otevřené formální normy ve smyslu § 3a odst. 3 zákona č. 106/1999 Sb., o svobodném přístupu k informacím jsou pro poskytovatele otevřených dat, kteří jsou povinnými subjekty dle § 4b zákona č. 106/1999 Sb. o svobodném přístupu k informacím, závazné.
Jedná se o technická doporučení zaměřená na vybrané datové sady, která zajišťují, že stejná data publikovaná různými poskytovateli budou interoperabilní. T ím je umožněno taková data jednodušeji využívat nezávisle na tom, od kterého jsou poskytovatele. Otevřená formální norma (OFN) specifikuje, jak publikovat data o konkrétních věcech (např. sportovištích, akcích apod).
Smysl OFN a zamýšlený způsob použití je ve zkratce následující: Pokud se publikují data, která významově odpovídají tomu, co je zachyceno v modelu, použije se specifikace odpovídající OFN. Všechny položky jsou nepovinné, tj. pokud některé nejsou k dispozici, a objektivně nejsou nutné, nic se neděje, prostě v datech nebudou. U každé OFN je uveden "minimalistický" příklad, který vymezuje, pod jakým rozsahem položek data zřejmě nebudou dávat smysl, a tudíž je nikdo nebude schopen použít. Pokud je k dispozici více položek, než je uvedeno v OFN, tak je lze libovolně přidat. V takovém případě by bylo vhodné o tom zaslat zprávu, aby bylo možné zvážit, zda to není něco, u čeho má smysl uvažovat o zanesení do OFN pro ostatní poskytovatele a zpracovatele těchto dat.

41

Návod k použití OFN poskytovateli dat.
4.3.4.3 Příprava datového schématu na základě podobné OFN Postup je založen na podobnosti hierarchických datových modelů. Taková podobnost je přirozená v případech, kdy oba modely jsou v podstatě specializací společného nadřazeného tématu.

V případě zachyceném na obrázku se jedná o datový model turistického cíle a datový model tržnice. Je snadné si představit, že v obou případech se jedná o specializaci nadřazeného datového modelu „Veřejně přístupného místa“ a je tedy přirozené, že většina atributů kořenové entity bude shodná a případné odlišnosti budou souviset pouze s jejich specializací. Využití podobnosti OFN je v takových případech poměrně snadné, a i přizpůsobení připravených strojově čitelných datových schémat není obtížné.
V případě publikace datové sady s částečnou vazbou do sémantického slovníku pojmů úpravy souboru s publikovaným kontextem schématu (soubory typu JSON-LD kontext v OFN) také nejsou obtížné, za předpokladu, že sémantický slovník obsahuje pojmy odpovídající významu jednotlivých datových položek datové sady. Pokud ve slovníku pojmy zavedeny nejsou, a datová sada má být publikována se sémantikou, je