C2V4.pdf

Type: Document | Status: ready

48

způsobem provede poskytovatele všemi kroky registrace, a navíc mu v závěru poskytnu informaci o správnosti vytvořeného záznamu. Struktura záznamu o datové sadě musí odpovídat evropskému standardu DCAT-AP. Ten rozlišuje datovou sadu a distribuci datové sady.
● Datová sada je množina souvisejících dat, vztahujících se k jednomu věcnému tématu. Datová sada je poskytována formou jedné či více distribucí, tj. datových souborů či prostřednictvím definované ho programového rozhraní (API).
● Distribuce představuje datový zdroj v podobě elektronického souboru, který obsahuje samotná data. Může to být datový soubor určený ke stažení nebo to může být datové API, které umožňuje přímé dotazování do obsahu datové sady. Záznam o datové sadě se dle uvedeného rozdělení rovněž dělí na 2 typové části: ● První část obsahuje metadata o datové sadě. Jedná se např. o název a popis datové sady. ● Druhá část obsahuje metadata o distribucích datové sady (datových zdrojích). Jedná se např. o specifikaci datového formátu datového zdroje, jeho datové schéma apod. Každá distribuce má sv vlastní metadata. Stejným způsobem je i rozdělena samotná příprava metadat katalogizačního záznamu. ● Specifikace metadat datové sady probíhá v této fázi přípravy datové sady a je popsána v této kapitole. ● Doplnění metadat o distribucích datové sady probíhá až při samotné přípravě distribucí a je popsána v kapitole „Finalizace katalogizačních záznamů“. Struktura jednotlivých částí záznamu a popis metadat jsou detailně uvedeny v kapitole “Katalogizační záznam“: ● Metadata záznamu datové sady. ● Metadata záznamu distribuce datové sady. ● Metadata záznamu datové série. Doplňující informace včetně výkladu jsou k dispozici i v e-learningovém kurzu „Katalogizace otevřených dat“ na Portálu otevřených dat v sekci vzdělávání. 4.5.1 Doplnění vazeb do SSP (sémantika datové sady na úrovni metadat) Zajištění sémantiky datové sady na úrovni vazeb metadat do slovníku pojmů veřejné správy (SSP) představuje: ● identifikaci relevantních pojmů uváděný ch v metadatech katalogizačního záznamu, pro které je vhodné (potřebné) jejich význam přesně specifikovat pomocí pojmů uvedených ve slovníku pojmů veřejné správy, ● vyhledání identifikovaných pojmů v SSP,
● nalezení a zkopírování jejich odpovídajících identifikátorů IRI, ● doplnění odkazů IRI k příslušným pojmům v metadatech katalogizačního záznamu. 4.5.2 Příprava katalogizačního záznamu datové sady
4.5.2.1 Katalogizační záznam pro katalogizaci do NKOD: Příprava katalogizačního záznamu pro katalogizaci do NKOD se provádí prostřednictvím interakce s průvodcem registrace datové sady v POD.
V případě návrhu datového schéma na základě OFN, průvodce umožňuje také využít předpřipravená metadata v samotné OFN, a tyto použít jako základ pro přípravu katalogizačního záznamu.
Postup přípravy katalogizačního záznamu:

49

● (Případné stažení předpřipravených metadat z OFN). ● Nahrání předpřipravených metadat do průvodce (pouze v případech publikace dle OFN, nebo využití již hotových katalogizačních záznamů). ● Postupné vyplnění všech zbývajících metadat (včetně případných souvisejících IRI k zajištěné sémantiky) nutných pro katalogizaci datové sady, průvodce tuto činnost usnadňuje nabídkou výběru předpřipravených informací, pokud je to možné. ● Kontrola vytvořeného katalogizačního záznamu průvodcem. ● Stažení rozpracovaného katalogizačního záznamu z průvodce pro jeho doplnění metadaty distribucí až na základě jejich publikace. Po publikaci distribucí datové sady bude katalogizační záznam doplněn stejným způsobem o metadata jednotlivých distribucí. 4.5.2.2 Katalogizační záznam pro katalogizaci do LKOD Příprava katalogizačního záznamu pro katalogizaci do lokálního katalogu otevřených dat (LKOD) se řídí postupy vyplývajícími z konkrétní (specifické) implementace lokálního katalogu u konkrétního poskytovatele. 5 Publikace a katalogizace datové sady

Z – zodpovídá S – spolupracuje R – rozhoduje Koordinátor otevírání dat Kurátor otevřených dat Správce katalogu OD IT specialista Ohlašovatel agendy Příprava distribucí datové sady k publikaci S S

Z

Stanovení podmínek užití S Z

Zveřejnění distribucí datové sady a souborů s definicemi datového schématu každé distribuce S S

Z

Finalizace katalogizačních záznamů S S Z

Katalogizace v LKOD S S Z S

Katalogizace v NKOD S S Z

Publikace do VDF S S S Z Z

50

5.1 Příprava distribucí datové sady k publikaci 5.1.1 Příprava distribucí se strukturovanými daty Při přípravě distribucí datové sady otevřených dat k publikaci je doporučené postupovat systematicky dle dále uvedených postupných kroků: ● Identifikace zdrojů s požadovanými daty, případně sběr dat. ● Získání dat pro přípravu distribucí. Možné způsoby: o Export dat z informačního systému. ▪ Mnoho informačních systémů umožňuje export dat v různých formátech, jako jsou CSV, XML nebo JSON. Tyto soubory mohou být následně zpracovány a převedeny do požadovaného formátu pro přípravu distribuce datové sady. o Přímý přístup k databázi. ▪ Pokud je k dispozici přístup k databázi informačního systému, lze data získat pomocí dotazovacího jazyka, jako je například SQL. Tento přístup umožňuje získat přesně ta data, která jsou potřebná a lze je také transformovat a integrovat podle potřeb. o API rozhraní. ▪ Některé informační systémy poskytují API rozhraní, které umožňuje přístup k datům pomocí programování. API rozhraní mohou být použity k získání dat v reálném čase a také k automatizaci procesu získávání dat. o Webové stránky. ▪ Pokud jsou data publikována na webových stránkách, mohou být získána pomocí webového skrapingu. Tento postup zahrnuje použití speciálních nástrojů nebo skriptů k extrakci dat z webových stránek a převodu do požadovaného formátu. o Sběr dat pomocí dotazníků. ▪ Pokud data nejsou k dispozici v informačním systému, může být použit dotazník k získání dat od uživatelů nebo subjektů, kteří data vlastní nebo s nimi pracují. o Sledování datových toků v případě publikace „dynamických dat“. ▪ Data mohou být získána sledováním datových toků, například pomocí senzorů, měření nebo jiných technologií, které generují data.
o Formou dohod s externími subjekty (dodavateli veřejné správy). ▪ V některých případech mohou být data získána prostřednictvím dohody s externími subjekty, kteří data vlastní nebo s nimi pracují pro potřeby veřejné správy. Tyto subjekty mohou poskytnout data v přímo požadovaném formátu nebo data mohou být převedena do požadovaného formátu během přípravy distribuce datové sady. ● Posouzení kvality dat – klíčová aktivita pro publikaci kvalitních a použitelných datových sad. o Přesnost – data by měla být ověřena a validována, aby se zaručila přesnost. o Úplnost – data by měla být úplná, chybějící data mohou vést k nízké kvalitě data k jejich nepoužitelnosti. o Konzistence – data by měla být konzistentní, logická a nesmí být v rozporu s jinými daty. o Aktuálnost – data by měla být aktuální a relevantní pro potřeby, pro které jsou data používána.
o Spolehlivost – data by měla být získána ze spolehlivých a ověřených zdrojů. o Formát dat – data by měla být strukturovaná a organizovaná. ● Úprava dat (konsolidace, čištění, agregace, anonymizace, ...)

51

o Čištění dat – data musí být vyčištěna, bez chyb a nesprávných hodnot. To zahrnuje ověření a odstranění chybějících nebo nesprávných hodnot, duplicit a jiných nepotřebných informací. o Identifikace chybějících hodnot – mohou být například nahrazeny průměrnou hodnotou nebo vymazány. o Odstranění duplicit – výskyt opakovaných záznamů nebo chyb v procesu sběru dat. Tyto záznamy musí být identifikovány a odstraněny. o Korekce chybných hodnot – jako jsou nesprávné čísla nebo záznamy s nesprávným formátem.
o Kontrola kvality dat – zaměřena na odhalení případných zbylých (neidentifikovaných) chyb. Kontrola kvality může být provedena pomocí různých metod, jako jsou statistické analýzy, kontrola srovnání s referenčními daty nebo kontroly provedené lidmi. o Anonymizace – transformace nebo odstranění osobních údajů takovým způsobem, aby nebylo možné identifikovat jednotlivce, ke kterému se údaje vztahují. Anonymizovaná data již nelze zpětně převést na původní osobní údaje, a tedy je nelze spojit s konkrétní osobou. o Pseudoanonymizace – osobní údaje jsou transformovány takovým způsobem, aby byly identifikovatelné pouze s pomocí dodatečných informací. Pseudoanonymizovaná data lze stále spojit s konkrétní osobou, ale pouze za předpokladu, že jsou k dispozici další informace, které umožní identifikaci. ● Zajištění vazeb mezi položkami datové sady a hodnotami číselníků. o Pokud jsou v datové sadě položky kódované číselníky, je důležité zajistit, aby byly tyto číselníky poskytnuty společně s datovou sadou. Tím bude zaručeno, že uživatelé budou moci správně interpretovat jednotlivé položky v datové sadě. o Vazby mezi položkami datové sady a hodnotami číselníků lze v souboru zaznamenat například pomocí unikátního identifikátoru, který je společný pro oba soubory. Tento identifikátor může být například číselný kód, který je přiřazen k jednotlivým položkám v datové sadě a k odpovídajícím položkám v číselníku. o Pro publikaci agendových údajů, jejichž možné hodnoty jsou vymezeny číselníky platí, že tyto číselníky musí být vedeny v RPP (§ 51 odst. 6, písm. k) zákona č. 111/20009 Sb.). o Strukturu a formát číselníků upravuje OFN „Číselníky“. ● Transformace připravených dat do požadovaných formátů a struktur jednotlivých distribucí. o Transformace dat – do formátu distribuce (např. hierarchické stromové struktury), což může zahrnovat úpravu a přebudování datových položek, vytvoření nových vztahů, přejmenování, filtrování, seskupování nebo agregaci dat. ● Kontrola připravených distribucí. o Porovnání shody s datovým schématem – ověření, zda jsou data v souladu s datovým schématem. Porovnání může být provedeno ručně nebo pomocí nástrojů pro automatizované testování (evaluaci). Příklad možností uvedených na POD. o Validace datové sady – ověření, zda data jsou správná, úplná a platná. Validace může být provedena pomocí automatizovaných nástrojů nebo manuálně prostřednictvím lidského ověření. 5.1.2 Příprava distribucí s nestrukturovanými daty 5.1.2.1 Distribuce s obrázky Příprava distribucí otevřených dat, které obsahují obrázky, vyžaduje specifický přístup a formáty souborů, aby byla zaručena srozumitelnost a interoperabilita dat pro uživatele. Při jejich přípravě je nutné dodržovat Standardy pro datové sady v podobě kolekce obrázků vydaný garantem otevřených dat veřejné správy.

52

5.1.2.2 Distribuce s dokumenty Příprava distribucí datových sad, které mají charakter textových dokumentů, musí splňovat Standardy pro datové sady v podobě kolekce textových dokumentů vydané garantem otevřených dat veřejné správy. 5.1.3 Příprava distribucí k publikaci do VDF V případě distri buce datových sad publikovaných agendových údajů do VDF se jedná výhradně o publikaci strukturovaných údajů a jejich příprava je téměř totožná s postupy uvedenými u kapitoly „Příprava distribucí se strukturovanými daty“. Rekapitulace a upřesnění kroků uvedených u strukturovaných dat:
● identifikace zdrojů – zdroje dat jsou pevně dané, neboť se jedná o agendové informační systémy.
● získání dat – v závislosti na provedení AIS připadají v úvahu pouze: o export dat z informačního systému, o přímý přístup k databázi a využití dotazovacího jazyka (například SQL), o využití API rozhraní, o dohoda s externími subjekty (dodavateli veřejné správy), případně poskytnutí data již v přímo požadovaném formátu, ● posouzení kvality dat – s velkou pravděpodobností kvalita nebude problém, neboť se jedná o aktuální údaje provozovaných agend zodpovědnými OVM, ● úprava dat – může se v minimálním počtu případů vyskytnout, ale v zásadě se dá očekávat, že to nebude problém, ● zajištění vazeb mezi položkami datové sady a hodnotami číselníků – zcela určitě bude nutné zajistit ve velkém počtu případů, neboť možné hodnoty údajů lze vymezit pouze veřejnými číselníky, a to buď číselníky ČSÚ (§ 50 odst. 2 zákona č. 111/20009 Sb.), nebo číselníky ohlašovatele agendy (§ 54 odst. 1, písm. a) zákona č. 111/20009 Sb.). ● transformace připravených dat do požadovaných formátů a struktur jednotlivých distribucí. – prvotní publikace a související nastavení systému (AIS) je shodné, rutinní transformaci přebere AIS spolu s jejími novými komponentami. ● kontrola připravených distribucí – v prvotním nastavení shodné, v rutinním režimu přebírá AIS spolu s novými komponentami. 5.2 Stanovení podmínek užití Detailní výklad problematiky včetně postupů pro jednotlivé způsoby ochrany jsou uvedeny na stránkách Portálu otevřených dat (odkaz POD). S publikací otevřených dat je spojeno možné porušení autorských a databázových práv, která se k danému obsahu mohou vázat. Možnou překážkou je i situace, kdy jsou součástí distribuce datové sady osobní údaje. Před publikací je nezbytné vypořádat se s těmito překážkami poskytnutím licencí tam, kde je to nezbytné a možné. Je nutné také uvést, že poskytovatel dat nesmí zavádět omezující podmínky pro další užití dat, jako je například omezení pouze na nekomerční užití. Toto pravidlo vyplývá přímo z definice otevřených dat uvedené v zákoně č. 106/1999 Sb. Pokud poskytovatel dat takový požadavek v podmínkách užití na příjemce dat klade, nejedná se již o otevřená data. Nad rámec toho je pak třeba uvést, že pouhé umístění takového požadavku do metadatového záznamu poskytovaných dat v naprosté většině případů nebude právně vymahatelné. V případě, že data, ani žádná jejich součást, nejsou jakkoli chráněna, je vhodné uvést tuto informaci, za účelem zvýšení právní jistoty budoucích uživatelů dat.

53

Proč jsou podmínky užití důležité? ● Aby uživatelé mohli publikovaná data využívat a mít jistotu, že je nepoužívají nesprávným způsobem. ● Aby publikace dat nevedla k porušení autorských a databázových práv, která se k jejich obsahu mohou vázat. ● Aby byly ošetřeny situace, kdy obsahem distribuce datové sady jsou i osobní údaje. Před publikací otevřených dat je nezbytné k nim připojit informaci o tom, zda a jak jsou chráněna z hlediska práv duševního vlastnictví. Doporučené možnosti nastavení podmínek užití. ● Veřejná licence CC BY 4.0 , kterou vykonavatel autorského práva umožňuje v olné užití svých děl za předpokladu, že uživatel díla jej uvede jako autora ( https://creativecommons.org/licenses/by/4.0/). Dále je pro její korektní použití třeba uvést rovněž název díla, odkaz na jeho původní umístění a odkaz na znění licence. Zkušenost zatím říká, že použití CC BY 4.0 bude spíše výjimečné. Tuto licenci použijte v následujících případech: o Data jsou chráněna jako originální databáze dle § 2 odst. 2 Autorského zákona (tedy, je chráněna jejich struktura) a zároveň nemohou být úředním dílem dle § 3 písm. a) Aut. Z. o Data obsahují autorskoprávně chráněná díla a zároveň můžete tato díla dále licencovat. Pokud je licencovat nemůžete, nelze je ani poskytnout jako otevřená data. ● Veřejná licence CC0 , která slouží jako prostředek ke vzdání se databázových práv pořizovatele databáze ( https://creativecommons.org/publicdomain/zero/1.0/). Díky tomu bude moci každý vytěžovat a zužitkovat obsah databáze – což je výsledek, který je zamýšlen otevřenými daty dosáhnout. Použije se častěji než licence CC BY 4.0, zejména proto, že se na zvláštní práva pořizovatele databáze vztahuje výjimka úředního díla až v případě databází pořízených po 1. 1. 2017. Použije se tehdy, když: o Při tvorbě databáze byl učiněn pořizovatelem databáze (orgánem veřejné správy) pořízením obsahu (zanesením dat do databáze), jeho ověřením nebo předvedením (zveřejněním) kvantitativně nebo kvalitativně podstatný vk lad. Ten může být vyjádřen penězi, tak dalšími způsoby. Pokud je databáze úředním dílem, licencovat není potřeba. ● V případě že distribuce datové sady obsahuje osobní údaje, je třeba na tento fakt upozornit a informovat příjemce dat, že se stává správcem osobních údajů a vzhledem k tomu musí plnit zákonné povinnosti, které mu z účinné právní úpravy ochrany osobních údajů vyplývají. ● Pokud poskytovaná data nejsou jakkoli chráněna, je vhodné tuto informaci výslovně sdělit, aby se tak zvýšila právní jistota příjemce dat. Obecně platí, že licence je potřebná jen tam, kde je poskytován obsah chráněný některým právem duševního vlastnictví. Zároveň může být udělena jen tehdy, když je k tomu poskytovatel otevřených dat oprávněn (např. má možnost udělovat podlicence). V případec h, kdy je poskytován obsah, který není nijak zatížen právy duševního vlastnictví, se licence nesmí nikde u dat objevit (“ani jen tak pro jistotu”).
Předmět ochrany: autorskoprávně chráněné dílo, dle § 2 odst., 1 Autorského zákona (121/2000 Sb.), autorskoprávní ochrana databáze jako díla, dle § 2 odst. 2 a 5 Autorského zákona, ochrana zvláštních práv pořizovatele databáze, dle § 88 a následujícími Autorského zákona. ochrana dat s osobními údaji.

54

Licence je v českém kontextu specifický typ smlouvy, která se používá právě při udělení oprávnění užít obsah chráněný právy duševního vlastnictví. Její umístění v jiných případech je právně nesmyslné a jen povede ke zmatení příjemců dat. Ukázka z formuláře:

Datová sada a její distribuce. Podmínky užití se dle evropského standardu DCAT-AP připojují k distribuci datové sady. Jedna datová sada může obsahovat více distribucí, kde každá z nich může mít rozdílné podmínky užití. Přehledová tabulka. Následující tabulka představuje obecný přehled sumarizující různé varianty možných ochranných režimů a jejich obecné doporučené řešení. Kategorie Licenční podmínky URL v katalogizačním záznamu, pokud distribuce obsahuje data chráněná v této kategorii Autorské dílo jako součást distribuce datové sady (zcela výjimečné) Pokud mohu, udělím licenci dle podlicenčního oprávnění Pokud distribuce obsahuje více děl, licenční záznam musí být přítomný u každého díla. „Dílo <Jméno díla> autora <jméno autora>, které je součástí distribuce <název distribuce datové sady> datové sady <název datové sady> je zveřejněno za podmínek licence <uvést licenci - dle oprávnění>.“ URL v takovém případě bude Distribuce datové sady obsahuje více děl. Pokud je distribuce samostatným dílem, je možné licenci upravit přímo v katalogizačním záznamu. Katalogizační záznam v takovém případě bude Licence CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). Originální databáze Pokud není úředním dílem (většinou je), CC BY 4.0 „Licence CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/)“ Ochrana zvláštními Pokud se neaplikuje „Licence CC0 Pro vytvoření správného katalogizačního záznamu včetně udělení licencí lze využít interaktivní formulář průvodce registrace datové sady, který ve svém druhém kroku obsahuje předpřipravené doporučené volby licencování nebo upozornění na fakt, že daný obsah poskytovaná sada neobsahuje.