48
způsobem provede poskytovatele všemi kroky registrace, a navíc mu v závěru poskytnu informaci o správnosti
vytvořeného záznamu.
Struktura záznamu o datové sadě musí odpovídat evropskému standardu DCAT-AP. Ten rozlišuje datovou sadu a
distribuci datové sady.
● Datová sada je množina souvisejících dat, vztahujících se k jednomu věcnému tématu. Datová sada je
poskytována formou jedné či více distribucí, tj. datových souborů či prostřednictvím definované ho
programového rozhraní (API).
● Distribuce představuje datový zdroj v podobě elektronického souboru, který obsahuje samotná data.
Může to být datový soubor určený ke stažení nebo to může být datové API, které umožňuje přímé
dotazování do obsahu datové sady.
Záznam o datové sadě se dle uvedeného rozdělení rovněž dělí na 2 typové části:
● První část obsahuje metadata o datové sadě. Jedná se např. o název a popis datové sady.
● Druhá část obsahuje metadata o distribucích datové sady (datových zdrojích). Jedná se např. o
specifikaci datového formátu datového zdroje, jeho datové schéma apod. Každá distribuce má sv
vlastní metadata.
Stejným způsobem je i rozdělena samotná příprava metadat katalogizačního záznamu.
● Specifikace metadat datové sady probíhá v této fázi přípravy datové sady a je popsána v této kapitole.
● Doplnění metadat o distribucích datové sady probíhá až při samotné přípravě distribucí a je popsána
v kapitole „Finalizace katalogizačních záznamů“.
Struktura jednotlivých částí záznamu a popis metadat jsou detailně uvedeny v kapitole “Katalogizační záznam“:
● Metadata záznamu datové sady.
● Metadata záznamu distribuce datové sady.
● Metadata záznamu datové série.
Doplňující informace včetně výkladu jsou k dispozici i v e-learningovém kurzu „Katalogizace otevřených dat“ na
Portálu otevřených dat v sekci vzdělávání.
4.5.1 Doplnění vazeb do SSP (sémantika datové sady na úrovni metadat)
Zajištění sémantiky datové sady na úrovni vazeb metadat do slovníku pojmů veřejné správy (SSP) představuje:
● identifikaci relevantních pojmů uváděný ch v metadatech katalogizačního záznamu, pro které je
vhodné (potřebné) jejich význam přesně specifikovat pomocí pojmů uvedených ve slovníku pojmů
veřejné správy,
● vyhledání identifikovaných pojmů v SSP,
● nalezení a zkopírování jejich odpovídajících identifikátorů IRI,
● doplnění odkazů IRI k příslušným pojmům v metadatech katalogizačního záznamu.
4.5.2 Příprava katalogizačního záznamu datové sady
4.5.2.1 Katalogizační záznam pro katalogizaci do NKOD:
Příprava katalogizačního záznamu pro katalogizaci do NKOD se provádí prostřednictvím interakce s průvodcem
registrace datové sady v POD.
V případě návrhu datového schéma na základě OFN, průvodce umožňuje také využít předpřipravená metadata v
samotné OFN, a tyto použít jako základ pro přípravu katalogizačního záznamu.
Postup přípravy katalogizačního záznamu:
49
● (Případné stažení předpřipravených metadat z OFN). ● Nahrání předpřipravených metadat do průvodce (pouze v případech publikace dle OFN, nebo využití již hotových katalogizačních záznamů). ● Postupné vyplnění všech zbývajících metadat (včetně případných souvisejících IRI k zajištěné sémantiky) nutných pro katalogizaci datové sady, průvodce tuto činnost usnadňuje nabídkou výběru předpřipravených informací, pokud je to možné. ● Kontrola vytvořeného katalogizačního záznamu průvodcem. ● Stažení rozpracovaného katalogizačního záznamu z průvodce pro jeho doplnění metadaty distribucí až na základě jejich publikace. Po publikaci distribucí datové sady bude katalogizační záznam doplněn stejným způsobem o metadata jednotlivých distribucí. 4.5.2.2 Katalogizační záznam pro katalogizaci do LKOD Příprava katalogizačního záznamu pro katalogizaci do lokálního katalogu otevřených dat (LKOD) se řídí postupy vyplývajícími z konkrétní (specifické) implementace lokálního katalogu u konkrétního poskytovatele. 5 Publikace a katalogizace datové sady
Z – zodpovídá S – spolupracuje R – rozhoduje Koordinátor otevírání dat Kurátor otevřených dat Správce katalogu OD IT specialista Ohlašovatel agendy Příprava distribucí datové sady k publikaci S S
Z
Stanovení podmínek užití S Z
Zveřejnění distribucí datové sady a souborů s definicemi datového schématu každé distribuce S S
Z
Finalizace katalogizačních záznamů S S Z
Katalogizace v LKOD S S Z S
Katalogizace v NKOD S S Z
Publikace do VDF S S S Z Z
50
5.1 Příprava distribucí datové sady k publikaci
5.1.1 Příprava distribucí se strukturovanými daty
Při přípravě distribucí datové sady otevřených dat k publikaci je doporučené postupovat systematicky dle dále
uvedených postupných kroků:
● Identifikace zdrojů s požadovanými daty, případně sběr dat.
● Získání dat pro přípravu distribucí. Možné způsoby:
o
Export dat z informačního systému.
▪
Mnoho informačních systémů umožňuje export dat v různých formátech, jako jsou CSV,
XML nebo JSON. Tyto soubory mohou být následně zpracovány a převedeny do
požadovaného formátu pro přípravu distribuce datové sady.
o
Přímý přístup k databázi.
▪
Pokud je k dispozici přístup k databázi informačního systému, lze data získat pomocí
dotazovacího jazyka, jako je například SQL. Tento přístup umožňuje získat přesně ta data,
která jsou potřebná a lze je také transformovat a integrovat podle potřeb.
o
API rozhraní.
▪
Některé informační systémy poskytují API rozhraní, které umožňuje přístup k datům
pomocí programování. API rozhraní mohou být použity k získání dat v reálném čase a
také k automatizaci procesu získávání dat.
o
Webové stránky.
▪
Pokud jsou data publikována na webových stránkách, mohou být získána pomocí
webového skrapingu. Tento postup zahrnuje použití speciálních nástrojů nebo skriptů k
extrakci dat z webových stránek a převodu do požadovaného formátu.
o
Sběr dat pomocí dotazníků.
▪
Pokud data nejsou k dispozici v informačním systému, může být použit dotazník k získání
dat od uživatelů nebo subjektů, kteří data vlastní nebo s nimi pracují.
o
Sledování datových toků v případě publikace „dynamických dat“.
▪
Data mohou být získána sledováním datových toků, například pomocí senzorů, měření
nebo jiných technologií, které generují data.
o
Formou dohod s externími subjekty (dodavateli veřejné správy).
▪
V některých případech mohou být data získána prostřednictvím dohody s externími
subjekty, kteří data vlastní nebo s nimi pracují pro potřeby veřejné správy. Tyto subjekty
mohou poskytnout data v přímo požadovaném formátu nebo data mohou být
převedena do požadovaného formátu během přípravy distribuce datové sady.
● Posouzení kvality dat – klíčová aktivita pro publikaci kvalitních a použitelných datových sad.
o
Přesnost – data by měla být ověřena a validována, aby se zaručila přesnost.
o
Úplnost – data by měla být úplná, chybějící data mohou vést k nízké kvalitě data k jejich
nepoužitelnosti.
o
Konzistence – data by měla být konzistentní, logická a nesmí být v rozporu s jinými daty.
o
Aktuálnost – data by měla být aktuální a relevantní pro potřeby, pro které jsou data používána.
o
Spolehlivost – data by měla být získána ze spolehlivých a ověřených zdrojů.
o
Formát dat – data by měla být strukturovaná a organizovaná.
● Úprava dat (konsolidace, čištění, agregace, anonymizace, ...)
51
o
Čištění dat – data musí být vyčištěna, bez chyb a nesprávných hodnot. To zahrnuje ověření a
odstranění chybějících nebo nesprávných hodnot, duplicit a jiných nepotřebných informací.
o
Identifikace chybějících hodnot – mohou být například nahrazeny průměrnou hodnotou nebo
vymazány.
o
Odstranění duplicit – výskyt opakovaných záznamů nebo chyb v procesu sběru dat. Tyto záznamy
musí být identifikovány a odstraněny.
o
Korekce chybných hodnot – jako jsou nesprávné čísla nebo záznamy s nesprávným formátem.
o
Kontrola kvality dat – zaměřena na odhalení případných zbylých (neidentifikovaných) chyb.
Kontrola kvality může být provedena pomocí různých metod, jako jsou statistické analýzy,
kontrola srovnání s referenčními daty nebo kontroly provedené lidmi.
o
Anonymizace – transformace nebo odstranění osobních údajů takovým způsobem, aby nebylo
možné identifikovat jednotlivce, ke kterému se údaje vztahují. Anonymizovaná data již nelze
zpětně převést na původní osobní údaje, a tedy je nelze spojit s konkrétní osobou.
o
Pseudoanonymizace – osobní údaje jsou transformovány takovým způsobem, aby byly
identifikovatelné pouze s pomocí dodatečných informací. Pseudoanonymizovaná data lze stále
spojit s konkrétní osobou, ale pouze za předpokladu, že jsou k dispozici další informace, které
umožní identifikaci.
● Zajištění vazeb mezi položkami datové sady a hodnotami číselníků.
o
Pokud jsou v datové sadě položky kódované číselníky, je důležité zajistit, aby byly tyto číselníky
poskytnuty společně s datovou sadou. Tím bude zaručeno, že uživatelé budou moci správně
interpretovat jednotlivé položky v datové sadě.
o
Vazby mezi položkami datové sady a hodnotami číselníků lze v souboru zaznamenat například
pomocí unikátního identifikátoru, který je společný pro oba soubory. Tento identifikátor může
být například číselný kód, který je přiřazen k jednotlivým položkám v datové sadě a k
odpovídajícím položkám v číselníku.
o
Pro publikaci agendových údajů, jejichž možné hodnoty jsou vymezeny číselníky platí, že tyto
číselníky musí být vedeny v RPP (§ 51 odst. 6, písm. k) zákona č. 111/20009 Sb.).
o
Strukturu a formát číselníků upravuje OFN „Číselníky“.
● Transformace připravených dat do požadovaných formátů a struktur jednotlivých distribucí.
o
Transformace dat – do formátu distribuce (např. hierarchické stromové struktury), což může
zahrnovat úpravu a přebudování datových položek, vytvoření nových vztahů, přejmenování,
filtrování, seskupování nebo agregaci dat.
● Kontrola připravených distribucí.
o
Porovnání shody s datovým schématem – ověření, zda jsou data v souladu s datovým
schématem. Porovnání může být provedeno ručně nebo pomocí nástrojů pro automatizované
testování (evaluaci). Příklad možností uvedených na POD.
o
Validace datové sady – ověření, zda data jsou správná, úplná a platná. Validace může být
provedena pomocí automatizovaných nástrojů nebo manuálně prostřednictvím lidského
ověření.
5.1.2 Příprava distribucí s nestrukturovanými daty
5.1.2.1 Distribuce s obrázky
Příprava distribucí otevřených dat, které obsahují obrázky, vyžaduje specifický přístup a formáty souborů, aby
byla zaručena srozumitelnost a interoperabilita dat pro uživatele. Při jejich přípravě je nutné dodržovat Standardy
pro datové sady v podobě kolekce obrázků vydaný garantem otevřených dat veřejné správy.
52
5.1.2.2 Distribuce s dokumenty
Příprava distribucí datových sad, které mají charakter textových dokumentů, musí splňovat Standardy pro datové
sady v podobě kolekce textových dokumentů vydané garantem otevřených dat veřejné správy.
5.1.3 Příprava distribucí k publikaci do VDF
V případě distri buce datových sad publikovaných agendových údajů do VDF se jedná výhradně o publikaci
strukturovaných údajů a jejich příprava je téměř totožná s postupy uvedenými u kapitoly „Příprava distribucí se
strukturovanými daty“.
Rekapitulace a upřesnění kroků uvedených u strukturovaných dat:
● identifikace zdrojů – zdroje dat jsou pevně dané, neboť se jedná o agendové informační systémy.
● získání dat – v závislosti na provedení AIS připadají v úvahu pouze:
o export dat z informačního systému,
o přímý přístup k databázi a využití dotazovacího jazyka (například SQL),
o využití API rozhraní,
o dohoda s externími subjekty (dodavateli veřejné správy), případně poskytnutí data již v přímo
požadovaném formátu,
● posouzení kvality dat – s velkou pravděpodobností kvalita nebude problém, neboť se jedná o aktuální
údaje provozovaných agend zodpovědnými OVM,
● úprava dat – může se v minimálním počtu případů vyskytnout, ale v zásadě se dá očekávat, že to
nebude problém,
● zajištění vazeb mezi položkami datové sady a hodnotami číselníků – zcela určitě bude nutné zajistit
ve velkém počtu případů, neboť možné hodnoty údajů lze vymezit pouze veřejnými číselníky, a to buď
číselníky ČSÚ (§ 50 odst. 2 zákona č. 111/20009 Sb.), nebo číselníky ohlašovatele agendy (§ 54 odst. 1,
písm. a) zákona č. 111/20009 Sb.).
● transformace připravených dat do požadovaných formátů a struktur jednotlivých distribucí. – prvotní
publikace a související nastavení systému (AIS) je shodné, rutinní transformaci přebere AIS spolu
s jejími novými komponentami.
● kontrola připravených distribucí – v prvotním nastavení shodné, v rutinním režimu přebírá AIS spolu
s novými komponentami.
5.2 Stanovení podmínek užití
Detailní výklad problematiky včetně postupů pro jednotlivé způsoby ochrany jsou uvedeny na stránkách Portálu
otevřených dat (odkaz POD).
S publikací otevřených dat je spojeno možné porušení autorských a databázových práv, která se k danému
obsahu mohou vázat. Možnou překážkou je i situace, kdy jsou součástí distribuce datové sady osobní údaje. Před
publikací je nezbytné vypořádat se s těmito překážkami poskytnutím licencí tam, kde je to nezbytné a možné.
Je nutné také uvést, že poskytovatel dat nesmí zavádět omezující podmínky pro další užití dat, jako je například
omezení pouze na nekomerční užití. Toto pravidlo vyplývá přímo z definice otevřených dat uvedené v zákoně č.
106/1999 Sb. Pokud poskytovatel dat takový požadavek v podmínkách užití na příjemce dat klade, nejedná se již
o otevřená data. Nad rámec toho je pak třeba uvést, že pouhé umístění takového požadavku do metadatového
záznamu poskytovaných dat v naprosté většině případů nebude právně vymahatelné.
V případě, že data, ani žádná jejich součást, nejsou jakkoli chráněna, je vhodné uvést tuto informaci, za účelem
zvýšení právní jistoty budoucích uživatelů dat.
53
Proč jsou podmínky užití důležité?
● Aby uživatelé mohli publikovaná data využívat a mít jistotu, že je nepoužívají nesprávným způsobem.
● Aby publikace dat nevedla k porušení autorských a databázových práv, která se k jejich obsahu mohou
vázat.
● Aby byly ošetřeny situace, kdy obsahem distribuce datové sady jsou i osobní údaje.
Před publikací otevřených dat je nezbytné k nim připojit informaci o tom, zda a jak jsou chráněna z hlediska práv
duševního vlastnictví.
Doporučené možnosti nastavení podmínek užití.
● Veřejná licence CC BY 4.0 , kterou vykonavatel autorského práva umožňuje v olné užití svých děl za
předpokladu, že uživatel díla jej uvede jako autora ( https://creativecommons.org/licenses/by/4.0/).
Dále je pro její korektní použití třeba uvést rovněž název díla, odkaz na jeho původní umístění a odkaz
na znění licence. Zkušenost zatím říká, že použití CC BY 4.0 bude spíše výjimečné. Tuto licenci použijte
v následujících případech:
o Data jsou chráněna jako originální databáze dle § 2 odst. 2 Autorského zákona (tedy, je chráněna
jejich struktura) a zároveň nemohou být úředním dílem dle § 3 písm. a) Aut. Z.
o Data obsahují autorskoprávně chráněná díla a zároveň můžete tato díla dále licencovat. Pokud
je licencovat nemůžete, nelze je ani poskytnout jako otevřená data.
● Veřejná licence CC0 , která slouží jako prostředek ke vzdání se databázových práv pořizovatele
databáze ( https://creativecommons.org/publicdomain/zero/1.0/). Díky tomu bude moci každý
vytěžovat a zužitkovat obsah databáze – což je výsledek, který je zamýšlen otevřenými daty dosáhnout.
Použije se častěji než licence CC BY 4.0, zejména proto, že se na zvláštní práva pořizovatele databáze
vztahuje výjimka úředního díla až v případě databází pořízených po 1. 1. 2017. Použije se tehdy, když:
o Při tvorbě databáze byl učiněn pořizovatelem databáze (orgánem veřejné správy) pořízením
obsahu (zanesením dat do databáze), jeho ověřením nebo předvedením (zveřejněním)
kvantitativně nebo kvalitativně podstatný vk lad. Ten může být vyjádřen penězi, tak dalšími
způsoby. Pokud je databáze úředním dílem, licencovat není potřeba.
● V případě že distribuce datové sady obsahuje osobní údaje, je třeba na tento fakt upozornit a
informovat příjemce dat, že se stává správcem osobních údajů a vzhledem k tomu musí plnit zákonné
povinnosti, které mu z účinné právní úpravy ochrany osobních údajů vyplývají.
● Pokud poskytovaná data nejsou jakkoli chráněna, je vhodné tuto informaci výslovně sdělit, aby se tak
zvýšila právní jistota příjemce dat.
Obecně platí, že licence je potřebná jen tam, kde je poskytován obsah chráněný některým právem duševního
vlastnictví. Zároveň může být udělena jen tehdy, když je k tomu poskytovatel otevřených dat oprávněn (např. má
možnost udělovat podlicence). V případec h, kdy je poskytován obsah, který není nijak zatížen právy duševního
vlastnictví, se licence nesmí nikde u dat objevit (“ani jen tak pro jistotu”).
Předmět ochrany:
autorskoprávně chráněné dílo, dle § 2 odst., 1 Autorského zákona
(121/2000 Sb.),
autorskoprávní ochrana databáze jako díla, dle § 2 odst. 2 a 5
Autorského zákona,
ochrana zvláštních práv pořizovatele databáze, dle § 88 a
následujícími Autorského zákona.
ochrana dat s osobními údaji.
54
Licence je v českém kontextu specifický typ smlouvy, která se používá právě při udělení oprávnění užít obsah chráněný právy duševního vlastnictví. Její umístění v jiných případech je právně nesmyslné a jen povede ke zmatení příjemců dat. Ukázka z formuláře:
Datová sada a její distribuce. Podmínky užití se dle evropského standardu DCAT-AP připojují k distribuci datové sady. Jedna datová sada může obsahovat více distribucí, kde každá z nich může mít rozdílné podmínky užití. Přehledová tabulka. Následující tabulka představuje obecný přehled sumarizující různé varianty možných ochranných režimů a jejich obecné doporučené řešení. Kategorie Licenční podmínky URL v katalogizačním záznamu, pokud distribuce obsahuje data chráněná v této kategorii Autorské dílo jako součást distribuce datové sady (zcela výjimečné) Pokud mohu, udělím licenci dle podlicenčního oprávnění Pokud distribuce obsahuje více děl, licenční záznam musí být přítomný u každého díla. „Dílo <Jméno díla> autora <jméno autora>, které je součástí distribuce <název distribuce datové sady> datové sady <název datové sady> je zveřejněno za podmínek licence <uvést licenci - dle oprávnění>.“ URL v takovém případě bude Distribuce datové sady obsahuje více děl. Pokud je distribuce samostatným dílem, je možné licenci upravit přímo v katalogizačním záznamu. Katalogizační záznam v takovém případě bude Licence CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). Originální databáze Pokud není úředním dílem (většinou je), CC BY 4.0 „Licence CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/)“ Ochrana zvláštními Pokud se neaplikuje „Licence CC0 Pro vytvoření správného katalogizačního záznamu včetně udělení licencí lze využít interaktivní formulář průvodce registrace datové sady, který ve svém druhém kroku obsahuje předpřipravené doporučené volby licencování nebo upozornění na fakt, že daný obsah poskytovaná sada neobsahuje.