25
3.4 Správa katalogu témat otevřených dat
Jedná se o přehledné zachycení vybraných navržených témat datových sad s cílem:
● časového naplánování postupné publikace navržených datových sad (vytvoření publikačního plánu),
● kontinuální správy a průběžné revize všech vlastností již publikovaných datových sad (rizika, přínosy,
podmínky užití).
Forma i způsob vedení katalogu témat otevřených dat je plně v kompetenci poskytovatele, vhodné je ale zachytit
a spravovat podstatné informace o navržených tématech otevřených dat včetně informací o jejich publikaci.
Příklad vedených informací v katalogu témat otevřených dat:
● Schválená témata (datové sady) k publikaci v podobě otevřených dat:
o
název datové sady,
o
popis datové sady,
o
určený kurátor dat zodpovědný za analýzu a přípravu datové sady,
o
časový plán její publikace,
o
periodicita publikace (aktualizace) datové sady,
o
identifikované přínosy,
o
identifikovaná rizika a způsoby jejich případných ošetření,
o
plánovaný datum publikace.
● Informace doplněné k tématům až při přípravě datových sad k publikaci:
o
doplňující informace a doporučení pro publikaci,
o
specifikované podmínky užití
o
informace o jednotlivých distribucích,
o
datum publikace, …
3.5 Analýza agendy a odvození údajů
V případě témat, ve kterých se vyskytují agendové údaje, které nejsou v RPP evidovány, nebo jejich evidence není
kvalitní a není provedena dle Metodiky definice údajů vedených v agendě, je nutné analýzu agendu nejprve
provést.
Agendu je nutné analyzovat dle Metodiky tvorby a údržby sémantického slovníku pojmů veřejné správy a
následně odvozené údaje subjektů a objektů práva evidovat v RPP dle Metodiky definice údajů vedených
v agendě.
4 Příprava datové sady
4.1 Východiska přípravy datové sady
4.1.1 Sémantická a syntaktická interoperabilita publikovaných dat.
Interoperabilita otevřených dat se týká schopnosti různých datových souborů, formátů a standardů
spolupracovat a být vyměňovány mezi různými aplikacemi, systémy a organizacemi bez ztráty informací a údajů.
Pro přípravu datové sady k publikaci je důležité zajištění sémantické a syntaktické interoperability publikovaných
26
dat.
Sémantická interoperabilita datové sady tedy znamená, že data jsou publikována v takovém formátu, který
umožňuje jejich správné a konzistentní zpracování v aplikacích a systémech. Možnosti a způsoby zajištění
sémantické interoperability datové sady:
● Použití standardů.
o
Standardy pro formáty dat, značkovací jazyky a ontologie usnadňují interpretaci dat mezi
různými aplikacemi a systémy.
● Uvedení metadat.
o
Metadata o datové sadě usnadňují porozumění datům a způsobům, jakými jsou data uložena a
jak mohou být použita.
● Přesné a konzistentní pojmenování.
o
Používání přesného a konzistentního pojmenování pro data a jejich popis podporuje
sémantickou shodu mezi daty.
● Použití odkazů na další zdroje.
o
Odkazy na další zdroje, jako jsou ontologie a slovníky, pomáhají uživatelům interpretovat data a
rozumět kontextu datové sady.
● Využívání globálně jednoznačných identifikátorů (IRI).
o
Použití jednoznačných identifikátorů pro data a jejich popis pomáhá při zajištění shody dat mezi
různými aplikacemi a systémy.
Výběr způsobů publikace datových schémat je určován přístupem a možnostmi zajištění sémantické i syntaktické
interoperability.
Publikace datových sad z pohledu zajištění sémantické interoperability se v zásadě člení následujícím způsobem:
Sémantická interoperabilita zajišťuje, že při výměně a sdílení informací bude správně chápán a zachován
jejich význam a smysl (datových prvků a vztahů mezi nimi).
Rozhodujícím způsobem se na tom podílí vytvoření a kvalita konceptuálních modelů datové sady (zachycení
kontextu), a zejména jejich napojení na ontologie veřejné správy (Sémantický slovník pojmů veřejné správy).
Syntaktická interoperabilita zajišťuje standardizaci formátů vyměňovaných informací (dat), metadat,
datových schémat a definice datových typů. Mezi prostředky, které jsou určeny k její dosažení patří vydávané
otevřené formální normy, technické standardy pro publikaci otevřených dat, doporučené datové formáty a
jazyky pro popis datových schémat. Zajištění syntaktické interoperability je nezbytným předpokladem
publikace otevřených dat.
27
Publikace strukturovaných údajů bez sémantiky dat:
● publikace bez existence souvisejících sémantických (konceptuálních) modelů, nebo navržených na
základě sémantických modelů vytvořených „izolovaným“ způsobem mimo SSP,
● lze pouze ošetřit některá metadata datové sady jejich sémantickým napojením na SSP.
● Úsilí se zaměřuje především na zajištění s yntaktické interoperability datových formátů, případně na
doplnění sémantiky některých metadat v katalogizačním záznamu.
● Typy datových schémat:
● Datové schéma otevřených dat bez vazeb do slovníku.
● Datové schéma otevřených dat s vazbou do slovníku na úrovni metadat.
Publikace strukturovaných údajů včetně sémantiky dat:
● publikace s plnohodnotnou sémantikou dat i metadat, za předpokladu, že vytvořené modely jsou
součástí repositáře sémantických modelů VS ČR a jsou vytvořeny dle příslušné metodiky.
● Úsilí je zaměřeno na sémantickou i syntaktickou interoperabilitu datových sad. To znamená zajištění
sémantiky jednotlivých datových položek i sémantiky metadat v katalogizačním záznamu, v oblasti
syntaktické interoperability dodržení doporučených datových modelů s povinným použitím
standardizovaných otevřených formálních norem, použitím standardizovaných datových formátů a
strojově čitelných datových schémat.
● Typy datových schémat:
o Datové schéma otevřených dat s částečnou vazbou do slovníku.
o Datové schéma otevřených dat s úplnou vazbou do slovníku.
Publikace nestrukturovaných údajů:
● publikace dokumentů, obrázků a prostorových údajů,
● úsilí se zaměřuje především na zajištění syntaktické interoperability datových formátů,
● zajištění sémantiky dat je obtížně realizovatelné, lze pouze ošetřit některá metadata datové sady jejich
sémantickým napojením na SSP.
28
4.1.2 Kontext tvorby datového schématu
Jednotlivé oblasti přípravy datové sady se navíc významnou měrou podílí na zajištění:
● Sémantické interoperability (správného chápání a zachování smyslu sdílených informací).
o Analýza a sémantické modelování.
o Konceptuální modely, které jsou nezávislé na použitých technologiích,
▪ existují různé možnosti jejich tvorby, cílem je ale standardizace nástroji MV ČR,
▪ vždy jsou výstupem analýzy agend a sémantického modelování datových sad (témat),
▪ jsou nutným vstupem pro návrh datového modelu datové sady.
● Syntaktické interoperability (zajištění přesného a standardizova ného formátu vyměňovaných
informací).
o Datové modely – výběr způsobu reprezentace dat.
o Datové formáty – způsob uložení dat modelu do souboru.
o Datová schémata – v jazyce pro zápis schématu popis předepsané struktury dat čitelný lidmi i
strojem.
Pohled na strukturu (kontext) přípravy datových schémat datové sady určené k publikaci strukturovaných údajů
zachycuje obrázek 1 „Kontext tvorby datového schématu“.
Kontext přípravy datového schématu datové sady přehledově ve zkratce:
Vytvoření konceptuálního (sémantického) modelu, který zachycuje
obraz reality publikovaného tématu datové sady.
Výběr datového modelu pro reprezentaci dat na základě
konceptuálního modelu. Datových modelů může být vybráno více a
různého typu (volba možných distribucí datové sady).
Výběr datového formátu pro ukládání dat do souboru, dle použitých
datových modelů.
Zápis datového schématu v jazyce pro zápis schématu (zajištění
lidské i strojové čitelnosti).
29
Obrázek 1 Kontext tvorby datového schématu
Klíčovou oblastí pro přípravu datové sady je konceptuální model.
Prakticky to tedy znamená, že nedostačuje pouze „nějak“ pojmenovat jednotlivé prvky modelu (následně i prvky
datové sady) a model „nějak“ vytvořit, ale je nutné se vrátit k významu slova koncept – „pojem“ a modelovat
pojmy v jejich plném významu a v kontextu sémantického slovníku pojmů veřejné správy (tedy v kontextu všech
dat veřejné správy). Z tohoto důvodu jsou konceptuální modelování a tvorba konceptuálního modelu
publikovaných otevřených dat detailněji vysvětleny v kapitole „Popis sémantiky veřejné správy“.
Úplné informace o problematice sémantického modelování jsou uvedeny v Metodice tvorby a údržby
sémantického slovníku pojmů veřejné správy.
Možnosti získání / vytvoření konceptuálního modelu datové sady, nebo tématu otevřených dat:
● Vytvoření konceptuálního modelu na základě pojmů sémantického slovníku veřejné správy.
o
Model v (ne)úplné podobě je již součástí konceptuálního modelu modelované agendy.
● Vytvoření konceptuálního modelu na základě pojmů datové sady.
o
Na základě SSP, pokud obsahuje pojmy datové sady.
o
Na základě témat datových sad:
30
▪ tvorba modelu „od nuly“ (pojmy datové sady v SSP nejsou), ▪ téma odpovídá OFN (lze nalézt nadřazené pojmy datové sady a využít specializace). ● Vytvoření konceptuálního modelu datové sady nezávislým a izolovaným způsobem na sémantickém slovníku veřejné správy. Model je vytvořen bez zahrnutí nových pojmů do SSP a bez jeho začlenění do celkového konceptuálního modelu veřejné správy. o Jedná se o nepodporovanou variantu. 4.2 Příprava konceptuálního modelu datové sady a způsobu publikace 4.2.1 Vytvoření konceptuálního modelu datové sady.
V případě publikace nestrukturovaných údajů se způsob publikace řídí pokyny uvedenými v kapitole „Publikace nestrukturovaných údajů“. 4.2.1.1 Vymezení věcného obsahu datové sady Vstupem do přípravy datové sady jsou navržená témata otevřených dat z oblasti „Identifikace témat otevřených dat“. Každé navržené téma je zpravidla definováno svým názvem, odpovědným kurátorem a stručným popisem. Toto ještě ale nemusí znamenat přesné vymezení rozsahu publikovaného kontextu tématu, a tedy ani rozsahu publikovaných údajů. Je nutné si uvědomit, že při použití zejména hierarchických datových modelů model datové Možnosti využití existujících konceptuálních modelů v sémantickém slovníku pro návrh datových sad: Modely lze využít bez jakýchkoliv změn, obsah datových sad je omezen pouze na oblast v modelu zachyceného kontextu. Modely lze doplňovat o nové pojmy a vztahy, a tyto zahrnout do celkového kontextu konceptuálního modelu veřejné správy. Doplněné modely jsou k dispozici dalším poskytovatelům. Model lze doplnit o nové pojmy a vztahy pouze pro účel publikace konkrétní datové sady konkrétního poskytovatele. Sémantika bude v tomto případě zajištěna použitými pojmy SSP a pro případné zajištění sémantiky i nových pojmů je nutné, aby poskytovatel zpřístupnil také svůj vlastní vytvořený sémantický slovník (způsob a forma slovníku záleží na poskytovateli). Při výběru způsobu publikace strukturovaných údajů je nejprve nutné: upřesnit vymezení věcného obsahu datové sady, následně získání /vytvoření odpovídajícího konceptuálního modelu.
31
sady je obvykle určován jednou kořenovou entitou, a ta předurčuje účel využití příslušné datové sady. Při
komplexnějších tématech (zastřešujících například tematickou oblast) to může odpovídající datovou sadu omezit
při jejím využití. Pro komplexnější témata je jednoznačně výhodnější používat pro jejich publikaci grafové modely,
které obsahují kompletní provázaný kontext celé tematické oblasti. Více na toto téma v „Příkladu různého
vymezení věcného obsahu datové sady“.
Rozhodnutí o rozsahu publikovaného kontextu tématu je zásadním předpokladem pro zajištění široké
využitelnosti publikovaných datových sad.
Pokud se ukáže, že původně definovaná témata datových sad v oblasti identifikace témat nebyla zcela přesně
nebo vhodně vymezená a popsaná, je vhodné a nutné, témata v katalogu témat datových sad upravit takovým
způsobem, aby jejich publikace byla jednoduchá.
4.2.1.2 Vytvoření konceptuálního modelu datové sady
Na základě vymezení obsahu datové sady je nutné zachytit také strukturu obsahu. Ideálním způsobem je
zachycení formou konceptuálního modelu, který zachytí nejen strukturu obsahu, ale také jeho kontext (vnitřní
vazby prvků reprezentující obsah a jeho význam) a v případě využití pojmů sémantického slovníku veřejné správy
také přesný význam jednotlivých prvků konceptuálního modelu v ontologii veřejné správy ČR.
Koncept datové sady
V případě, že nelze konceptuální model vytvořit, nebo kdyby vytvořený model nedával smysl (například v případě
publikace jednoduché tabulky), bude dostačující obsah zamýšlené datové sady zachytit způsobem, ze kterého
bude zřejmé, co přesně bude obsahem publikované datové sady, jaký je význam jednotlivých položek obsahu a
jak bude struktura datové sady vypadat (tabulka, seznam pojmů, grafické zobrazení struktury, …). V dalším textu
bude tento způsob zachycení obsahu datové sady označován pojmem „koncept datové sady“.
Koncept datové sady lze považovat za prvotní představu vymezení kontextu publikovaného tématu, na jehož
základě se v dalších krocích namodeluje plnohodnotný konceptuální model.
Konceptuální model
Konceptuální model je zcela obecný a základní pojmový model, nezávislý na jakékoliv potenciální implementaci
jeho obsahu.
Zajištění sémantické interoperability je důležitou podmínkou využitelnosti publikovaných dat. Z tohoto důvodu
je problematika konceptuálního modelování a tvorby konceptuálního modelu p ublikovaných otevřených dat
zařazena do kapitoly „Popis sémantiky veřejné správy“.
Ve zkratce to prakticky znamená, že je nutné se vrátit k významu slova koncept – „pojem“ a modelovat pojmy
v jejich plném významu a v kontextu sémantického slovníku pojmů veřejné správy (a v kontextu všech dat veřejné
správy).
Základní prvky konceptuálního modelu.
Doporučená hlediska pro vymezení rozsahu obsahu datových sad:
počet entit (subjektů a objektů práva v případě agendových údajů) s
atributy v údajích a jejich vzájemné vazby – složité datové sady vedou
ke komplikovaným datovým schématům a konceptuálním modelům,
externě stanovená vymezení tematických oblastí, např. v případě
agend zákon ustavující příslušnou agendu mohou přesně vymezovat
(oddělovat) vedené rejstříky, seznamy a evidence,
smysluplný kontext – i samostatná datová sada by měla být cíleně
použitelná a měla by dávat smysl,
cíl publikace a použití publikované datové sady – vymezuje
kořenovou entitu a její atributy, předurčuje jednoduchost / složitost její
struktury,
místo evidence a správy publikovaných údajů (entit, jejich atributů a
vzájemných vazeb), v případě rozprostření informací (obsahu datové
sady) mezi více zdrojů (informačních systémů) je nutné mít na paměti,
že automatizovaná publikace datových sad by byla v takovém případě
komplikovaná (v takovém případě je vhodné rozsah datové sady pokrýt
více datovými sadami),
místo evidence a správy informací o subjektech a objektech práva
agendy (jednotlivé ISVS), v případě rozprostření informací mezi více
ISVS je nutné se řídit pravidly publikace do VDF – publikace datových
sad (zpřístupnění a katalogizace) je vždy zajišťována tím ISVS, který
informace spravuje (publikace společné datové sady s informacemi z
více ISVS by byla komplikovaná je vhodné jednu společnou datovou
sadu pokrýt více datovými sadami,),
množství publikovaných atributů – hodně atributů vzniká v důsledku
vazeb na jiné objekty (entity), v takových případech je vhodnější údaje
rozdělit do několika datových sad (například podle jednotlivých entit) a
tím zmenšit datové struktury, a přitom dodržet publikaci všech atributů,
celkové množství publikovaných dat – obtížnější práce s velkými
datovými soubory.
32
● Entita je základním pojmem při popisu reálného světa a práci s informacemi o něm. Entita musí být
rozlišitelná od ostatních entit a existovat nezávisle na nich.
● Mezi jednotlivými entitami mohou existovat vzájemné vztahy s uvedenými kardinalitami.
● V legislativních dokumentech jsou tyto entity, jejich vlastnosti, vztahy, role a související události
popisovány „pojmy“, tyto jsou předmětem sémantického modelování.
● V různých konceptuálních modelech se mohou entity a s nimi související informace vyskytovat
s různými názvy, vždy v závislosti na použité metodě modelování a způsobu tvorby konceptuálního
modelu. V metodice je pro obl ast otevřených dat preferována terminologie i modely vycházející ze
sémantického modelování.
● RPP používá pro označení entit při evidenci údajů poskytovaných agendou pojmy subjekty a objekty
práva.
● Subjekty práva se rozumí osoby, které mohou být zavázány po vinností nebo oprávněni právem, mají
vlastní vůli a schopnost konat.
● Objekty práva jsou předměty, věci hmotné či nehmotné, které nemají vlastní vůli a rozum, nejsou jim
ukládány povinnosti ani přiznávána práva, se kterými subjekty práva nakládají a mohu k nim nabývat
různých vztahů.
Možnosti vytvoření konceptuálního modelu
● Vytvoření konceptuálního modelu na základě pojmů sémantického slovníku veřejné správy dle
postupů uvedených v „Metodice tvorby a údržby konceptuálních datových modelů agend“.
o Pokud model (nebo většina jeho prvků) v nějaké (ne)úplné podobě je již součástí konceptuálního
modelu veřejné správy (již namodelované agendy, domény, datové sady, …) je ho možné převzít
a pouze doplnit o chybějící prvky (objekty, subjekty, vazby, vlastnosti).
o Pokud model neexistuje je nutné ho vytvořit:
▪ na základě existujících pojmů SSP, pokud již SSP pojmy datové sady obsahuje,
▪ na základě pojmů témat (oblastí) datových sad, ty ale musí být nejdříve z avedeny do
glosáře pojmů,
▪ na základě existujících OFN, pokud odpovídají tématu datové sady, v tomto případě lze
využít pojmy OFN ke specializaci nových pojmů datové sady, a tyto zavést do glosáře
pojmů.
● Vytvoření konceptuálního modelu datové sady nezávislým a izolovaným způsobem bez sémantického
slovníku veřejné správy. Model je vytvořen bez zahrnutí nových pojmů do SSP a bez jeho začlenění do
celkového konceptuálního modelu veřejné správy.