33
o
Tato možnost je přijatelná pouze pro publikaci bez sémantiky dat.
o
Jedná se o nepodporovanou variantu.
4.2.2 Výběr způsobu publikace
Výběr způsobu publikace se týká výhradně publikace strukturovaných údajů. Rozhodování začíná ověřením (A),
do jaké míry jsou pojmy vytvořeného konceptuálního modelu datové sady, nebo jeho koncepčního návrhu již
zavedeny v sémantickém slovníku pojmů veřejné správy.
Pokud slovník pojmy již obsahuje je důležité, zda je ve slovníku zachycen (B) i úplný kontext datové sady
(konceptuální model pojmů veřejné správy obsahuje všechny vazby a všechny pojmy konceptuálního modelu).
Pokud ano, tak nejlepší volbou je publikace datové sady s úplnou vazbou významu datových položek do
slovníku (4).
Pokud ne, tak je nutné zvážit možnosti (připravenost podkladů a organizace) k dokončení úplné (C) analýzy
tématu/tematické oblasti, následně ji také provést a publikovat datovou sadu opět s úplnou vazbou do slovníku
(4).
Pokud úplnou analýzu nelze provést, je nutné zvážit provedení alespoň částečné (D) analýzy zaměřené na
doplnění slovníku o vybrané klíčové prvky konceptuálního modelu (klíčové entity, použití OFN a specializace
jejich pojmů, …).
Po provedení částečné analýzy je nutné posoudit (E), zda výsledky analýzy (doplnění slovníku sémantických
pojmů) jsou dostatečné k publikaci (3) datové sady s částečnou vazbou sémantiky dat do slovníku (3. úroveň
otevřenosti s publikací kontextu), nebo je možné sémantiku datové sady zajistit pouze na (2) úrovni metadat.
V případě, že slovník pojmy konceptuálního modelu datové sady neobsahuje, je nutné (F) rozhodnout, zda
publikace proběhne bez (1) sémantiky (bez vazeb do slovníku), anebo se sémantikou. Pokud se sémantikou tak
34
je možné provést úplnou analýzu a získat možnost publikace (4) s úplnou vazbou do slovníku, nebo je nutné
minimálně provést částečnou analýzu s možnostmi publikace (2) a (3).
Upřesnění některých činností.
● (A) Ověření, zda sémantický slovník obsahuje pojmy datové sady.
o
Rozhodování o způsobu publikace probíhá na základě konceptuálního modelu datové sady, který
může být v této fázi vytvořen různými (i nepodporovanými) způsoby a jeho kvalita i úplnost může
být rozmanitá. Rovněž lze případně pro rozhodování využít koncept datové sady, pokud pro
publikované téma konceptuální model nelze smysluplně vytvořit.
o
Rozhodování je založeno na zjištění, zda a do jaké míry jsou pojmy konceptuálního modelu
datové sady (entity, vazby, atributy) již zavedeny v SSP.
o
Posouzení dostatečnosti je individuální, ale mělo by být pravidlem, že pro rozhodnutí „obsahuje“
by mělo platit, že většina subjektů a objektů vyskytující se v konceptuálním modelu (nebo jejich
nadřazených pojmů) by měla být v SSP již zavedena.
● (B) Posouzení úplného kontextu tématu ve slovníku SSP.
● (C) Posouzení možnosti provedení úplné analýzy.
o
Posouzení možností provedení úplné analýzy je možné provést s detailní znalostí věcné
problematiky publikovaného tématu datové sady (kurátor dat, ohlašovatel agendy, datový
analytik, …).
● (D) Posouzení možnosti provedení částečné analýzy.
o
Platí stejné podmínky jako u úplné analýzy.
● (E) Posouzení využitelnosti sémantiky v datovém schématu (kurátor dat, datový analytik).
● (F) Rozhodnutí o způsobu publikace.
● Provedení úplné / částečné analýzy a doplnění / vytvoření slovníku.
o
Vysvětlení a doplňující informace uvedeny v kapitole „Popis sémantiky veřejné správy“.
o
Doporučené postupy:
▪
„Metodika tvorby a údržby konceptuálních datových modelů agend“.
▪
Záznam školení „Modelování významu dat ve veřejné správě“.
35
4.2.3 Přiřazení rolí k činnostem přípravy konceptuálního modelu datové sady
Zapojení rolí ve skupinách činností: Z – zodpovídá S – spolupracuje R – rozhoduje Koordinátor otevírání dat Kurátor otevřených dat IT specialista Datový Specialista na modelovanou doménu Ohlašovatel agendy Vymezení věcného obsahu datové sady
Z S S S S Vytvoření konceptuálního modelu datové sady
Z
S S S Ověření, zda sémantický slovník obsahuje pojmy datové sady
S
Z
Rozhodnutí o způsobu publikace S S
Z
Posouzení úplného kontextu tématu ve slovníku
S
Z S Posouzení možnosti provedení úplné analýzy
S
Z S Posouzení možnosti provedení částečné analýzy
S
Z S Posouzení využitelnosti sémantiky v datovém schématu
S
Z S
Provedení úplné analýzy a doplnění / vytvoření slovníku S S
S Z
36
Provedení částečné analýzy a doplnění / vytvoření slovníku S S
S Z
4.3 Návrh datových modelů a datových schémat 4.3.1 Výběr způsobu reprezentace strukturovaných údajů – datových modelů Možnosti reprezentace konceptuálního modelu datovými modely v závislosti na jejich typech:
Z – zodpovídá S – spolupracuje R – rozhoduje Koordinátor otevírání dat Kurátor otevřených dat IT specialista Datový architekt Specialista na modelovanou doménu Ohlašovatel agendy Stanovení stupně otevřenosti S Z S
S
Vytvoření datového schéma
S S Z S
Výběr formátu distribucí S Z S S
Vytvoření strojově čitelných datových schémat
S S Z
Návrh tabulky pro publikaci datové sady S S S Z
Vytvoření RDF modelu
S S Z S
Serializace RDF modelu
S Z S
Pro přípravu datových schémat distribucí publikované datové sady je nutné mít připravený konceptuální model, nebo vybraný kontext odpovídající rozsahu datové sady.
37
4.3.2 Obecné charakteristiky publikované datové sady
4.3.2.1 Stanovení stupně otevřenosti
Prvním rozhodnutím poskytovatele je výběr způsobu reprezentace publikovaného tématu dle zamýšleného
stupně otevřenosti publikovaných datových sad.
● V kontextu otevřených dat veřejné správy České republiky je nutné pro každou publikovanou datovou
sadu zvolit minimálně 3. stupeň otevřenosti (vysvětlení stupňů otevřenosti je uvedeno v kapitole
“Stanovení stupně otevřenosti”).
o Stupně otevřenosti 4 a 5 s sebou nesou větší pracnost při přípravě datové sady k publikaci.
o Je možné zvolit i více stupňů najednou (včetně 1. či 2.), platí však, že alespoň jeden ze stupňů
musí být minimálně na úrovni 3. (vyplývá ze § 4b odst. 1 zákona č. 106/1999 Sb . o svobodném
přístupu k informacím).
● S určením stupně otevřenosti souvisí i technická podoba zveřejnění datové sady, tedy:
o v jakých distribucích bude obsah datové sady zveřejněn,
o v jakém datovém formátu budou distribuce vyjádřeny.
4.3.2.2 Určení kódování dat datových sad
Při předávání údajů mezi informačními systémy ve veřejné správě musí být vždy použito znakové sady Unicode
a kódování UTF-8. Pokud je při předávání údajů využita i jiná znaková sada, pak údaj musí být povinně uveden i
ve znakové sadě Unicode v kódování UTF-8 a takto uvedený údaj je referenční. Údaj v jiné znakové sadě je pouze
dodatečným tvarem údaje a má pouze informativní charakter.
4.3.3 Tabulková data (relační datový model)
4.3.3.1 Návrh tabulky pro publikaci datové sady
Distribuce datové sady, která reprezentuje tabulku, musí splňovat následující standardy:
● V jedné distribuci je reprezentována právě jedna tabulka.
● V distribuci neexistuje žádný jiný záznam, než je řádek tabulky nebo její hlavička.
● Všechny záznamy v distribuci, tj. jednotlivé řádky tabulky, mají stejnou strukturu, která odpovídá
hlavičce.
● Celý obsah datové sady je vyjádřen v distribucích ve formátů Comma Separated Values (CSV) , (více
k formátu CSV e-learning „Technické aspekty otevřených dat“ modul č.7 „Formáty pro otevřená data
– CSV“).
4.3.3.2 Tabulka + využití sdílených specifikací
V případě publikace údajů, které jsou specifikovány sdílenými specifikacemi OFN, je nutné strukturu těchto údajů
(hlavičku tabulky) vyjadřovat ve struktuře definované sdílenou specifikací.
Seznam vydaných sdílených specifikací je dostupný na stránkách POD.
4.3.3.3 Sémantika publikovaných tabulkových dat
Sémantiku datové sady na úrovni metadat je možné zajistit provázáním jejích metadat s SSP. Postup je uveden
v kapitole Příprava katalogizačního záznamu datové sady.
Sémantiku datové sady na úrovni dat lze zajistit správným mapováním pomocí formátu „CSV on the Web“,
38
4.3.4 Hierarchicky strukturovaná data (hierarchický datový model)
Hierarchicky strukturovaná data jsou data, která jsou organizovaná do stromové struktury, kde každý prvek
datové sady je reprezentován uzlem stromu. Každý uzel může mít jednoho nebo více potomků (dětí), jednoho
nebo více předků, přičemž nejbližší předek je vždy jeho rodičem, kromě kořene stromu, který nemá žádného
předka.
Hierarchický datový model je z konceptuálního modelu odvozen následujícím postupem:
● výběr kořenové entity (kořene stromu),
● následné postupné doplňování struktury potomky odvozenými z vazeb mezi prvky konceptuálního
modelu.
Distribuce datové sady, která obsahuje hierarchické strukturované objekty (tj. objekty složené z jiných objektů),
musí splňovat následující doporučení a standardy:
● V jedné distribuci je reprezentována kolekce stejného typu objektů
● Objekty v kolekci mohou obsahovat další vnořené typy objektů.
● Celý obsah datové sady je vyjádřen v distribucích v alespoň jednom z následujících formátů:
o eXtensible Markup Lan guage (XML, http://www.w3.org/TR/xml/), jehož struktura vyjádřená v
podobě XML elementů a XML atributů umožňuje výběr jednotlivých údajů reprezentovaných v
datové sadě pomocí prostředků jazyka XPath či CSS selektorů bez nutnosti parsování získaných
atomických údajů (více k formátu CSV e-learning „Technické aspekty otevřených dat“ modul č.6
„Formáty pro otevřená data – XML“).
o JavaScript Object Notation (JSON, ECMA -404, nebo http://www.ecma-
international.org/publications/files/ECMA-ST/ECMA-404.pdf), jehož struktura vyjádřená v
podobě JSON objektů a primitivních hodnot umožňuje výběr jednotlivých údajů
reprezentovaných v datové sadě pomocí prostředků programovacích jazyků používaných pro
tvorbu WWW aplikací (JavaScript, Java, .apod.) bez nutnosti parsování získaných atomických
údajů (více k formátu CSV e -learning „Technické aspekty otevřených dat“ modul č.7 „ Formáty
pro otevřená data – JSON“).
Pro výměnu dat je důležité použití standardizovaných formátů, které umožňují různým systémům a aplikacím
snadnou interpretaci dat a jejich využití. Z tohoto důvodu je nutné při publikaci dat dodržovat určitá pra vidla a
standardy, aby byla zajištěna správnost a srozumitelnost dat pro všechny zúčastněné strany. To zahrnuje
standardizaci názvů a popisů datových prvků, jakož i standardizaci vztahů mezi jednotlivými prvky v hierarchické
struktuře.
Definice Otevřené formální normy v zákoně č. 106/1999 Sb.
(3) Otevřenou formální normou se pro účely tohoto zákona rozumí pravidlo, které bylo vydáno písemně a obsahuje
specifikace požadavků na zajištění schopnosti různých progr amových vybavení vzájemně si poskytovat služby a
efektivně spolupracovat.
K zajištění standardizace jsou určeny Otevřené formální normy (OFN), což jsou technická doporučení
zaměřená na vybrané datové sady. Zajišťují, že stejná data publikovaná různými poskytovateli budou
interoperabilní a bude je možné jednodušeji využívat nezávisle na tom, kdo data poskytuje. Pro poskytovatele
otevřených dat, kteří jsou povinnými subjekty dle zákona č. 106/1999 Sb. o svobodném přístupu k informacím,
jsou doporučení vyplývající z OFN závazná dle § 4b.
39
Podrobnější informace k otevřeným formálním normám jsou k dispozici v kapitole „OFN“, na stránkách POD v sekci „Otevřené formální normy (OFN)“ a v e-learningovém kurzu „Úvod do otevřených formálních norem“. 4.3.4.1 Varianty přípravy datového schématu hierarchicky strukturovaných dat Rozhodovací schéma pro výběr správné varianty přípravy datové sady.
Obrázek 2 Varianty přípravy hierarchicky strukturovaných dat
● Příprava datového schématu na základě OFN.
o
OFN existuje pro konkrétní téma datové sady,
o
OFN definuje datové schéma tématu konkrétní datové sady, katalogizační záznam, sémantiku
vazbou do SSP.
● Příprava datového schématu na základě podobné OFN.
o
OFN může být základem pro podobné datové sady (využití specializace pojmů konceptuálního
modelu datové sady),
o
OFN konkrétního tématu lze použít s malými úpravami pro návrh datového schématu podobných
datových sad, katalogizační záznam i strojově vyjádřené schéma distribuce datové sady je nutné
modifikovat dle tématu a sémantiku doplnit specializací pojmů OFN dle pojmů datové sady.
● Příprava datového schématu s využitím sdílených specifikací.
o
OFN pro konkrétní téma datové sady neexistuje a ani nelze využít podobné OFN prostřednictvím
její specializace,
o
základem datového schématu je konceptuální model / koncept budoucí publikované datové sady
a pro detailní vypracování datového schématu jsou využity sdílené specifikace,
o
sémantiku je nutné řešit zavedením pojmů datové sady do SSP a vytvořením konceptuálního
modelu dle předepsané metodiky,
o
strojově vyjádřené schéma distribuce datové sady je nutné připravit dle struktury datového
schématu.
● Příprava datového schématu na základě datového schématu již publikované datové sady registrované
v NKOD
o
postup využití je stejný, jako v případě použití podobné OFN, pouze s tím rozdílem, že základem
40
není OFN,
o tuto možnost lze využít pouze v těch případech, kdy použitá publikovaná datová sada je
publikované některou z výše uvedených možností.
● Vytvoření nové OFN a její následné použití pro přípravu datového schématu.
o tato možnost vyžaduje příslib širokého využití více poskytovateli, neboť příprava nové OFN
vyžaduje spolupráci více poskytovatelů organizovanou garantem otevřených dat VS, je pracnější
a časově náročná,
o vypracovaná nová OFN následně nabídne stejné možnosti využití jako již připravené OFN,
o při výběru této varianty je nutné mít již předem prodiskutovaný návrh nové OFN s dalšími
poskytovateli, kteří by data podle takové OFN měli zájem publikovat, a pak následně kontaktovat
garanta otevřených dat VS.
4.3.4.2 Příprava datového schématu na základě OFN
Otevřené formální normy ve smyslu § 3a odst. 3 zákona č. 106/1999 Sb., o svobodném přístupu k informacím jsou
pro poskytovatele otevřených dat, kteří jsou povinnými subjekty dle § 4b zákona č. 106/1999 Sb. o svobodném
přístupu k informacím, závazné.
Jedná se o technická doporučení zaměřená na vybrané datové sady, která zajišťují, že stejná data publikovaná
různými poskytovateli budou interoperabilní. T ím je umožněno taková data jednodušeji využívat nezávisle na
tom, od kterého jsou poskytovatele.
Otevřená formální norma (OFN) specifikuje, jak publikovat data o konkrétních věcech (např. sportovištích, akcích
apod).
Smysl OFN a zamýšlený způsob použití je ve zkratce následující:
Pokud se publikují data, která významově odpovídají tomu, co je
zachyceno v modelu, použije se specifikace odpovídající OFN.
Všechny položky jsou nepovinné, tj. pokud některé nejsou k dispozici,
a objektivně nejsou nutné, nic se neděje, prostě v datech nebudou.
U každé OFN je uveden "minimalistický" příklad, který vymezuje, pod
jakým rozsahem položek data zřejmě nebudou dávat smysl, a tudíž je
nikdo nebude schopen použít.
Pokud je k dispozici více položek, než je uvedeno v OFN, tak je lze
libovolně přidat. V takovém případě by bylo vhodné o tom zaslat zprávu,
aby bylo možné zvážit, zda to není něco, u čeho má smysl uvažovat o
zanesení do OFN pro ostatní poskytovatele a zpracovatele těchto dat.
41
Návod k použití OFN poskytovateli dat.
4.3.4.3 Příprava datového schématu na základě podobné OFN
Postup je založen na podobnosti hierarchických datových modelů. Taková podobnost je přirozená v případech,
kdy oba modely jsou v podstatě specializací společného nadřazeného tématu.
V případě zachyceném na obrázku se jedná o datový model turistického cíle a datový model tržnice. Je snadné
si představit, že v obou případech se jedná o specializaci nadřazeného datového modelu „Veřejně přístupného
místa“ a je tedy přirozené, že většina atributů kořenové entity bude shodná a případné odlišnosti budou
souviset pouze s jejich specializací. Využití podobnosti OFN je v takových případech poměrně snadné, a i
přizpůsobení připravených strojově čitelných datových schémat není obtížné.
V případě publikace datové sady s částečnou vazbou do sémantického slovníku pojmů úpravy souboru s
publikovaným kontextem schématu (soubory typu JSON-LD kontext v OFN) také nejsou obtížné, za
předpokladu, že sémantický slovník obsahuje pojmy odpovídající významu jednotlivých datových položek
datové sady. Pokud ve slovníku pojmy zavedeny nejsou, a datová sada má být publikována se sémantikou, je