42
nutné provést analýzu datové sady dle „Metodiky tvorby a údržby konceptuálních datových modelů agend“ a pojmy do slovníku doplnit. Podobnosti OFN lze využít pro návrh datového schématu i v těch případech, kdy datové modely neodpovídají specializaci nadřazeného modelu, avšak v těchto případech budou úpravy modelu a strojově čitelného schématu složitější. Postup přípravy datového schématu na základě podobnosti OFN je podrobněji uveden v kapitole „Příklad přípravy datového schématu na základě podobné OFN“. Doplňující informace včetně výkladu jsou k dispozici i v e-learningovém kurzu „Úvod do otevřených formálních norem (OFN)“ na Portálu otevřených dat v sekci vzdělávání. Problematice využití podobných OFN se věnuje modul „4. Využití připravených OFN pro tvorbu datových schémat“. 4.3.4.4 Příprava datového schématu s využitím sdílených specifikací. Příprava datového schématu v tematických oblastech, kde nejsou k dispozici připravené kompletní OFN pro konkrétní témata, je založena na: ● datovém modelu (vycházejícím z konceptuálního modelu nebo konceptu) datové sady k publikaci, ● využití prvků repositáře OFN (sdílených specifikací a základních datových typů) k postupnému nahrazování jednotlivých položek datového modelu vhodnými sdílenými specifikacemi. S výhodou je možné využít skutečnosti, že dekompozice sdílených specifikací je v podstatě základem jejich konstrukce, a že tato dekompozice je plně zachycena v repositáři OFN prostřednictvím vzájemných referencí. Repositář OFN si tak lze představit jako množinu hierarchických stromových modelů dat (reprezentující datová schémata a vyjádřených ve formátu JSON), které navzájem sdílí společné prvky repozitáře od těch nejjednodušších (základních datových typů) až po ty nejsložitější (specifické OFN). Samotný návrh datového schématu ze strany poskytovatele se tak zaměřuje zejména na návrh datového modelu (odvození z konceptuálního modelu) a postupnou náhradu jeho položek prostřednictvím referenčních odkazů na sdílené specifikace a základní datové typy. Při jejich náhradě stačí pro každou položku datového schématu vždy jenom odkazovat na vrchol hierarchického datového modelu odpovídající ošetřované položce datového schématu (odpovídající základnímu datovému typu, nebo sdílené specifikaci). Návrh datového schématu je tak posunut na logicky vyšší úroveň, kdy není nutné řešit technické a jiné detaily a stačí se plně soustředit na zachycení věcné tématiky publikované oblasti. Tvorba datového schématu. Postup tvorby datového schématu z datového modelu využitím sdílených specifikací základních datových typů. ● Identifikace a příprava kořenové entity: o určení kořenové entity připraveného konceptu (schématu) - určuje téma datové sady, o kořenová entita bude většinou vycházet ze subjektů nebo objektů práva agendy, jejíž veřejná data budou publikována, o ošetření kořenové entity prostřednictvím sdílené specifikace "věc", o označení položek, které jsou atributy kořenové entity, o ošetření atributů základními datovými typy z Repositáře OFN. ● Příprava zbývajících položek konceptu: o převedení zbývajících položek na vazební atributy a pojmenování vazby, o specifikace entity, na kterou vazba odkazuje. ● Ošetření entit navázaných vazbami na kořenovou entitu: o nahrazení navázaných entit sdílenými specifikacemi (pokud jsou k dispozici v Repositáři OFN),
43
o úprava jejich názvů na základě vazeb. ● Ošetření entit navázaných vazbami na kořenovou entitu a neodpovídajících sdíleným specifikacím: o ošetření navázané entity prostřednictvím sdílené specifikace "věc", o označení položek, které jsou atributy navázané entity, o ošetření atributů základními datovými typy z Repositáře OFN. o převedení zbývajících položek na vazební atributy a pojmenování vazby, o specifikace entity, na kterou vazba směřuje. o nahrazení navázaných entit sdílenými specifikacemi (pokud jsou k dispozici v Repositáři OFN), o úprava jejich názvů na základě vazeb. ● Datové schéma je nutné vyjádřit strojově čitelným způsobem ve formátu JSON.
Podrobnější výklad problematiky je v kapitole „Příprava datového schématu s využitím sdílených specifikací.“
Doplňující informace včetně výkladu jsou k dispozici i v e-learningovém kurzu „Úvod do otevřených formálních
norem (OFN)“ na Portálu otevřených dat v sekci vzdělávání. Problematice využití sdílených specifikací se věnuje
modul „5. Tvorba datových schémat s využitím sdílených specifikací“.
4.3.4.5 Příprava datového schématu (konceptuálního modelu) na základě datového schématu
(konceptuálního modelu), již publikované a registrované datové sady v NKOD
Návrh datového schématu je v principu shodný, jako v případě „Přípravy datového schématu na základě OFN“.
Rozdíl spočívá především ve skutečnosti, že v případě OFN se jedná o oficiálně vydanou normu, jejíž kvalita a
úplnost je garantovaná garantem otevřených dat veřejné správy a datové schéma je připraveno včetně zajištění
sémantiky dat.
V případě využití datového schématu již publikované datové sady si musí poskytovatel nejprve sám ověřit jeho
kvalitu, úplnost a správnost použití sdílených specifikací, případně i správné použití celé OFN. Částečně mu v tom
může pomoci katalogizační záznam datové sady v NKOD, kde v položce metadat „Specifikace“ by měly být
uvedeny odkazy a informace o využitých specifikacích (OFN, datové specifikace, sdílené specifikace, standardy,
44
…). 4.3.4.6 Vytvoření nové OFN a její následné použití pro přípravu datového schématu. Nová OFN se v zásadě připravuje v následujících situacích: ● Existuje předpoklad (a zájem) víc e poskytovatelů publikovat otevřená data zaměřená na stejné tematické oblasti (většinou se týká samosprávy). OFN v těchto případech zajistí syntaktickou i sémantickou interoperabilitu publikovaných dat, a tím připravuje podmínky pro snadné užití publikovaných datových sad. Předpokladem je tedy „masovost“ používání OFN, a také zapojení více potenciálních poskytovatelů do jejich přípravy. ● Jedná se o OFN, které mají „specifický charakter“ (nejsou vázány na zapojení potenciálních poskytovatelů do jejich přípravy, např. „Rozhraní katalogů otevřených dat“), nebo o situace, kdy OFN jsou důležité pro specifikací požadavků na dodavatele některých ISVS (např. „Registr práv a povinností“). V těchto případech příprava OFN je plně v kompetenci garanta otevřených dat. Průběh přípravy nové OFN určené pro „masové“ použití: ● Tvorba nové OFN musí být vždy opodstatněná výhledem budoucího hromadného využití připravované OFN. ● Vydání nové OFN zajišťuje a autorizuje vždy garant OD veřejné správy ČR (§ 3a odst. 3 zákona č. 106/1999 Sb.). ● Nová OFN nemůže vzniknout jako výsledek návrhu jednoho poskytovatele dat, ale vždy se jedná o společný návrh více poskytovatelů za účasti garanta OD. Je tedy nutné zaangažovat více potenciálních poskytovatelů publikace připravovaného tématu a celou přípravu koordinovat garantem OD. ● Klíčovým vstupem pro přípravu je úplný kontext tématu otevřených dat vyjádřený technologicky nezávislým konceptuálním modelem, vytvořeným na základě slovníku pojmů veřejné správy. Konceptuální model i vymezení kontextu tématu musí být ve shodě s představami všech do tvorby zapojených poskytovatelů, a také jimi musí být schválen. ● Pro všechny navržené datové modely musí být vytvořeny strojově čitelná datová schémata a připravena metadata pro katalogizaci datových sad vytvořených na základě vytvořené OFN. ● Dokumentace nové OFN musí být úplná a následně publikovaná na stránkách POD.
V případě, že se nějaký konkrétní poskytovatel rozhodne připravit si podle uvedených postupů „vlastní OFN“, tak se již nejedná o OFN, ale o tzv. „ datovou specifikaci “. Tyto hrají významnou roli při publikaci veřejných agendových údajů. Vlastní využití nové OFN pro přípravu datového schématu a datové sady konkrétním poskytovatelem již probíhá shodným způsobem jako v případě „Přípravy datového schématu na základě OFN“. 4.3.4.7 Výběr formátu distribucí Pro hi erarchicky strukturovaná data jsou k dispozici k výběru datový formát XML a datový formát JSON. Pro formát XML existuje řada standardů pro popis schémat, dotazování se, transformování dat a jejich ukládání. Formát XML se používá zejména ve světě tradičních informačních systémů a při výměně dat mezi nimi. Formát JSON se používá spíše ve světě webových aplikací pro poskytování dat na Webu. Data ve formátu JSON lze standardním způsobem obohatit o mapování na sémantické slovníky. Z tohoto důvodu existující OFN a Sdílené specifikace používají právě formát JSON. 4.3.4.8 Vytvoření strojově čitelných datových schémat Příprava strojově čitelných datových schémat se řídí technickými standardy pro datové sady na stupni otevřenosti 3, které jsou dostupné na stránkách POD prost řednictvím odkazu „Technické standardy vytváření datových
45
schémat pro datové sady na stupni otevřenosti 3“.
4.3.5 Propojená data (grafový datový model)
Podrobnější informace k problematice otevřených dat jsou uvedeny v kapitole Propojená data a otevřené
formální normě OFN Propojená data.
4.2.6.1 Vytvoření RDF modelu
Pro reprezentaci propojených dat se používá datový model RDF – Resource Description Framework [rdf11-
concepts]. Aktuální verze 1.1 byla vydána konsorciem W3C v roce 2014.
Jedná se o grafový datový model, tj. data jsou reprezentována jako uzly a hrany v grafu, kde uzl y reprezentují
entity a datové hodnoty, a hrany reprezentují jejich propojení.
Takový graf se dá popsat pomocí množiny trojic <uzel 1, hrana, uzel 2>, které říkají, že existuje entita uzel 1,
existuje entita uzel 2 a jsou propojeny hranou hrana.
V RDF se jednotlivým částem každé trojice říká subjekt, predikát a objekt, a trojice říká, že objekt je hodnotou
vlastnosti predikát nějaké entity subjekt.
Praktické postupy, doporučení, pravidla a seznam vhodných slovníků pro přípravu RDF modelu obsahuje OFN
Propojená data.
4.3.5.1 Serializace RDF modelu
Datový model RDF má 7 standardních serializací. Liší se podporou pro ukládání RDF trojic či RDF čtveřic a
využíváním jiných hostitelských datových formátů. Přirozenými trojicovými serializacemi jsou N -Triples a
doporučený Turtle, čtveřicovými N -Quads a doporučený TriG. Dále lze RDF trojice serializovat do RDF/XML a
RDFa. Pro vývojáře webových aplikací je pak populární serializace JSON -LD, která kombinuje výhody RDF a
formátu JSON. JSON-LD je základem Otevřených formálních norem.
Praktická doporučení a bližší informace k jednotlivým způsobům serializace jsou uvedena v OFN Propojená data.
4.4 Publikace nestrukturovaných údajů
Z – zodpovídá Koordinátor Kurátor IT
46
S – spolupracuje R – rozhoduje otevírání dat otevřených dat specialista Výběr typu nestrukturovaných údajů S Z S Návrh distribuce dle standardů pro datové sady v podobě kolekce obrázků
S Z Návrh distribuce dle standardů pro datové sady v podobě kolekce textových dokumentů
S Z Výběr formátů pro zápis geometrických objektů
Z S Výběr zápisu kódu souřadnicových referenčních systémů
Z S Výběr otevřených formátů pro vektorová data
Z S Vytvoření RDF modelu
S Z Výběr distribucí (typů serializace) prostorových dat
S Z 4.4.1 Publikace obrázků Pokud datová sada obsahuje osobní údaje, jako jsou například fotky lidí nebo citlivé informace, musí být tyto údaje řádně zabezpečeny a ochráněny v souladu s platnými právními předpisy. Distribuce datových sad, které mají charakter obrázků, musí splňovat následující pravidla a standardy: ● V jedné distribuci je reprezentována kolekce obrázků, kde každý dokument je jednoznačně identifikovatelný v podobě souboru a lze jej z kolekce získat pomocí běžných programovacích prostředků. ● Každý obrázek je vyjádřen ve formátu, který je strojově čitelný a má otevřenou specifikaci. o V případě bitmapových obrázků musí formát umožnit přistupovat pomocí běžných programovacích prostředků k jednotlivým pixelům tvořícím obrázek. o V případě vektorových obrázku musí formát umožnit přistupovat pomocí běžných programovacích prostředků k jednotlivým vektorovým objektům tvořícím obrázek. 4.4.2 Publikace textových dokumentů Pro publikaci nestrukturovaných údajů v podobě dokumentů existují následující možnosti: ● Převod nestrukturovaných údajů na strukturované údaje. o Pokud jsou nestrukturované údaje uloženy v textových souborech nebo jiných nestrukturovaných formátech, lze je převést na strukturované formáty, jako jsou např. CSV, XML, nebo JSON. Lze využít řadu nástrojů a technologií, které konverzi usnadní. ● Využití strojového učení a dalších technologií k extrahování strukturovaných dat. o Z textových dokumentů lze využitím strojového učení extrahovat strukturovaná data. Existuje řada technologií pro zpracování přirozeného jazyka (Natural Language Processing - NLP), které mohou pomoci při extrahování dat z textových dokumentů. ● Publikace nestrukturovaných údajů jako sémantická data. o Sémantické technologie umožňují vytvoření ontologií a mapování nestrukturovaných dat na konkrétní entity. Výsledkem jsou sémantická data, která jsou vhodná pro další zpracování a analýzy. Existuje řada nástrojů a technologií, které mohou pomoci s publikací sémantických dat. o Jedná se o stejné postupy jako v případě analýzy agend na základě legislativních dokumentů. ● Publikace v podobě textových souborů (kolekce textových dokumentů). o Pokud není možné nestrukturované údaje konvertovat na strukturované formáty, lze je publikovat jako textové soubory (například „obyčejný text .txt“, „HTML .html“, „Makrdown .md“ nebo formáty pro stránkované dokumenty .docx, .odt apod.).
47
Distribuce datových sad, které jsou publikované v podobě textových souborů (nejčastější varianta), musí splňovat následující pravidla a standardy: ● V jedné distribuci je reprezentována kolekce dokumentů, kde každý dokument je jednoznačně identifikovatelný v podobě souboru a lze jej z kolekce získat pomocí běžných programovacích prostředků. ● Všechny dokumenty v datové sadě jsou vyjádřeny alespoň v jednom z následujících formátů: o Formát odpovídající MIME typu text/plain obsahující pouze znaky textového dokumentu. o Libovolný jiný formát pro textové dokumenty, který je strojově čitelný, má otevřenou specifikaci a existuje volně dostupná knihovna, umožňující automatizovanou strojovou extrakci textového obsahu dokumentů v datové sadě (až do úrovně jednotlivých znaků). ▪ Např. HTML, DOCX, ODT, DocBook či TeX. 4.4.3 Publikace prostorových údajů Prostorová data zahrnují všechny typy dat, které jsou prostorově určeny, tedy že přímo nebo nepřímo odkazují na určitou polohu nebo zeměpisnou oblast. Zpravidla jsou určena geometrickým objektem a prostorovými vztahy s okolím (topologií). Obecně lze prostorová data rozdělit na vektorová a rastrová. Vektorová data by měla být publikována ve vhodném otevřeném formátu za použití standardizovaných geometrických objektů. Publikace prostorových dat je řešena otevřenou formální normou „Prostorová data“, která je zaměřena na: ● Výběr formátů pro zápis geometrických objektů. ● Výběr otevřených formátů pro vektorová data. ● Výběr zápisu kódu souřadnicových referenčních systémů. ● Rastrové formáty. ● Propojená prostorová data. ● Výběr distribucí (typů serializace) prostorových dat. ● Způsoby publikace prostorových dat. 4.5 Příprava katalogizačního záznamu
Z – zodpovídá S – spolupracuje R – rozhoduje Koordinátor otevírání dat Kurátor otevřených dat Správce katalogu OD IT specialista Datový architekt Doplnění vazeb do SSP
S S S Z Příprava katalogizačního záznamu datové sady S Z S
Katalogizace datové sady je důležitá pro její potenciální uživatele. Umožní jim datovou sadu nalézt. Záznam o datové sadě může být zveřejněn v různých katalozích. Tím je zajištěno, že se informace o existenci datové sady dostane k co nejširšímu okruhu uživatelů. Příprava katalogizačního záznamu je usnadněna průvodcem registrace datové sady v POD, který interaktivním