1
C2V9 Kontrola kvality otevřených dat obsahující analytické reporty jednotlivých kontrol kvality otevřených dat
Vytvořeno v rámci projektu
Rozvoj datových politik v oblasti zlepšování kvality a interoperability dat veřejné správy CZ.03.4.74/0.0/0.0/15_025/0013983
Klíčová aktivita: 03 Návrhy a realizace opatření pro zlepšování kvality otevřených dat
Indikátor: 8 05 00 Počet napsaných a zveřejněných analytických a strategických dokumentů (vč. evaluačních)
Verze výstupu: 01
2 Automatizovatelná pravidla kontroly kvality datových sad Automatizovatelná pravidla kontroly kvality datových sad se řídí Otevřenou formální normou Rozhraní katalogů otevřených dat: DCAT-AP-CZ1, kterou implementuje Národní katalog otevřených dat2. Dělí se na dvě základní skupiny měření. První skupina počítá indikátory kvality nad metadaty registrovanými v NKOD. Druhá skupina pak kontroluje dostupnost zdrojů registrovaných v rámci metadatového záznamu na Webu, a také dostupnost techniky CORS na těchto zdrojích. Technika CORS3 zajišťuje, že s daty publikovanými na webu lze pracovat v aplikacích běžících ve webových prohlížečích na jiných doménách, než na kterých jsou publikována data. To je v případě otevřených dat žádoucí.
Měření probíhají zpravidla denně, a jejich výsledky jsou zobrazovány na webu
https://opendata.gov.cz/statistika:start.
Měření nad metadatovými záznamy
Nad metadatovými záznamy z NKOD se měří následující indikátory:
Převzaté indikátory
Z minulého projektu Implementace strategií v oblasti otevřených dat II č.
CZ.03.4.74/0.0/0.0/15_025/0004172 byly převzaty následující indikátory kvality metadat v
NKOD a způsoby jejich měření:
● Q1: Počet distribucí bez specifikovaných podmínek užití dle poskytovatele
● Q2: Počet datových sad, jejichž distribuce nemají specifikovány podmínky užití dle
poskytovatele
● Q3: Počet záznamů datových sad nesplňujících povinné atributy dle poskytovatele
● Q4: Formáty dat distribucí dle poskytovatele
● Q5: Podmínky užití distribucí dle poskytovatele
● Q5b: Počty poskytovatelů dle podmínek užití distribucí
● Q6: Počty datových sad s danou periodicitou aktualizace dle poskytovatele
● Q7a: Počet datových sad a distribucí dle poskytovatele
● Q7b: Počty poskytovatelů datových sad s daným klíčovým slovem
● Q8: Nesprávné Media typy dle poskytovatele
Aktualizované indikátory
V souvislosti s výstupem C2V2, ve kterém navrhujeme úpravy NKOD pro kompatibilitu, a na
základě sběru požadavků uživatelů NKOD došlo ke změně následujících indikátorů
● Q3 Počet záznamů datových sad nesplňujících povinné atributy dle poskytovatele
○ upravuje se tak, aby zahrnoval datové služby
● Q4 => Q4a Formáty dat distribucí dle poskytovatele
1 https://ofn.gov.cz/rozhraní-katalogů-otevřených-dat/2021-01-11/ 2 https://data.gov.cz 3 https://developer.mozilla.org/en-US/docs/Web/HTTP/CORS
3 ○ omezuje se na distribuce v podobě souborů ke stažení ● Q8: Nesprávné Media typy dle poskytovatele ○ rozšířeno o podporu media typu komprese a balíčkování Nové indikátory V souvislosti s výstupem C2V2, ve kterém navrhujeme úpravy NKOD pro kompatibilitu, a na základě sběru požadavků uživatelů NKOD došlo k rozšíření měření kvality metadat a dostupnosti zdrojů odkazovaných z metadatového záznamu NKOD a přidání výsledného indikátoru:
- Q4b Specifikace datových služeb dle poskytovatele
Povinné atributy metadatového záznamu dle OFN Rozhraní katalogů otevřených dat: DCAT-AP-CZ. Červeně jsou povinné atributy pro všechny datové sady. Zeleně jsou atributy povinné pro datové služby a modře povinné atributy pro soubory ke stažení.
4 Dostupnost registrovaných zdrojů identifikovaných URL Položky metadatového záznamu dle OFN Rozhraní katalogů otevřených dat: DCAT-AP-CZ, které obsahují URL odkazy na zdroje na Webu jsou kontrolovány na jejich dostupnost a na dostupnost techniky CORS.
Červeně jsou vyznačeny položky metadatového záznamu, které obsahují URL a jsou tak kontrolovány na dostupnost a dostupnost techniky CORS Převzaté indikátory Z minulého projektu Implementace strategií v oblasti otevřených dat II č. CZ.03.4.74/0.0/0.0/15_025/0004172 byly převzaty následující indikátory kvality metadat v NKOD a způsoby jejich měření: ● A1.1: Nedostupnost distribucí datových sad ● A1.2: Nedostupné distribuce datových sad ● A2.1: Nedostupnost schémat distribucí datových sad ● A2.2: Nedostupná schémata distribucí datových sad ● A3.1: Nedostupnost podmínek užití distribucí datových sad ● A3.2: Nedostupné podmínky užití distribucí datových sad
5 ● A4.1: Nedostupnost uživatelské dokumentace datových sad ● A4.2: Nedostupné uživatelské dokumentace datových sad ● A5.1: Neshoda mezi formátem distribuce v NKOD a formátem indikovaným serverem Nové indikátory V souvislosti s výstupem C2V2, ve kterém navrhujeme úpravy NKOD pro kompatibilitu, a na základě sběru požadavků uživatelů NKOD došlo k rozšíření měření kvality metadat a dostupnosti zdrojů odkazovaných z metadatového záznamu NKOD a přidání výsledných indikátorů:
- A1.3 Nedostupnost techniky CORS u distribucí ve formě souboru ke stažení
- A1.4 Distribuce ve formě souboru ke stažení s nedostupnou technikou CORS u souboru ke stažení
- A2.3 Nedostupnost techniky CORS u schémat distribucí ve formě souboru ke stažení
- A2.4 Distribuce ve formě souboru ke stažení s nedostupnou technikou CORS u schématu souboru ke stažení
- A3.3.1 Nedostupnost techniky CORS u podmínek užití - autorské dílo
- A3.3.2 Nedostupnost techniky CORS u podmínek užití - autorskoprávně chráněná databáze
- A3.3.3 Nedostupnost techniky CORS u podmínek užití - databáze chráněná zvláštním právem pořizovatele databáze
- A3.4.1 Podmínky užití s nedostupnou technikou CORS - autorské dílo
- A3.4.2 Podmínky užití s nedostupnou technikou CORS - autorskoprávně chráněná databáze
- A3.4.3 Podmínky užití s nedostupnou technikou CORS - databáze chráněná zvláštním právem pořizovatele databáze
- A4.3 Nedostupnost techniky CORS u dokumentací datových sad
- A4.4 Dokumentace datových sad s nedostupnou technikou CORS
- A6.1 Nedostupnost přístupových bodů distribucí ve formě datové služby
- A6.2 Nedostupné přístupové body distribucí ve formě datové služby
- A6.3 Nedostupnost techniky CORS u přístupových bodů distribucí ve formě datové služby
- A6.4 Přístupové body distribucí ve formě datové služby s nedostupnou technikou CORS
- A7.1 Nedostupnost popisů přístupových bodů distribucí ve formě datové služby
- A7.2 Nedostupné popisy přístupových bodů distribucí ve formě datové služby
- A7.3 Nedostupnost techniky CORS u popisů přístupových bodů distribucí ve formě datové služby
- A7.4 Popisy přístupových bodů distribucí ve formě datové služby s nedostupnou technikou CORS
- A8.1 Nedostupnost specifikací datových služeb
- A8.2 Nedostupné specifikace datových služeb
- A8.3 Nedostupnost techniky CORS u specifikací datových služeb
- A8.4 Specifikace datových služeb s nedostupnou technikou CORS
- A9.1 Nedostupnost specifikací datových sad
- A9.2 Nedostupné specifikace datových sad
- A9.3 Nedostupnost techniky CORS u specifikací datových sad
6 28. A9.4 Specifikace datových sad s nedostupnou technikou CORS Měření jednotlivých indikátorů Měření jednotlivých indikátorů jsou navrženy jako datové transformační procesy v nástroji LinkedPipes ETL4, který je použit i pro samotný Národní katalog otevřených dat. Jedná se o 3 procesy, které jsou popsány v této sekci a jsou k dispozici v příloze. Měření dostupnosti zdrojů registrovaných v metadatových záznamech datových sad v NKOD Tento proces přistupuje k metadatům NKOD a pak pro každý registrovaný zdroj kontroluje jeho dostupnost pomocí metody HTTP HEAD s timeoutem 3 vteřiny. Výsledky reprezentuje jako data v RDF pomocí Data Quality Vocabulary5.
4 https://etl.linkedpipes.com 5 https://www.w3.org/TR/vocab-dqv/
7 Měření dostupnosti techniky CORS u zdrojů registrovaných v metadatových záznamech datových sad v NKOD Tento proces přistupuje k metadatům NKOD a pak pro každý registrovaný zdroj kontroluje dostupnost techniky CORS pomocí metody HTTP OPTIONS s timeoutem 3 vteřiny. Výsledky reprezentuje jako data v RDF pomocí Data Quality Vocabulary.
Měření kvality metadatových záznamů v NKOD Tento proces přistupuje k metadatům NKOD a pak pro každou registrovanou datovou sadu kontroluje, zda její metadata obsahují povinné položky a počítá statistické přehledy Q*. Výsledky reprezentuje jako data v RDF pomocí Data Quality Vocabulary.
8
Generování CSV výstupů jednotlivých indikátorů kvality datových sad Tento proces načítá výsledky předchozích tří procesů a generuje jejich CSV reprezentaci, která je následně použita i pro prezentaci v podobě webových stránek v HTML. Výsledky tohoto procesu pro několik měření jsou v příloze.
9 Výsledky měření indikátorů V přílohách jsou k dispozici výsledky měření stanovených indikátorů spočítaných procesy popsanými výše. Ty probíhají pravidelně, z pravidla jednou denně, po aktualizaci Národního katalogu otevřených dat. Měření dostupnosti, dostupnosti techniky CORS a měření kvality metadatových záznamů jsou organizována do CSV souborů obsahujících statistiky o zjištěných problémech a seznamy zjištěných problémů. CSV soubory jsou pojmenovány po identifikátorech jednotlivých indikátorů, např. a1-1-nedostupnost.csv, q4.csv apod. Kromě naměřených dat daná příloha obsahuje soubory a.pdf a q.pdf, obsahující výtisky webových stránek prezentujících výsledky měření v HTML podobě. Přílohy V přílohách jsou zdrojové kódy použitého open-source software vyjma RDF úložiště a 2 prototypy LKOD podle 2 typů rozhraní DCAT-AP v Otevřené formální normě Rozhraní katalogů otevřených dat: DCAT-AP-CZ. Použitý open-source software
- LinkedPipes ETL (fork v https://github.com/opendata-mvcr/etl) ○ soubor etl-develop.zip Transformační procesy pro LinkedPipes ETL implementující měření
- Statistika dostupnosti distribucí, schémat, podmínek užití a dokumentace ○ počítá indikátory A* týkající se dostupnosti ○ soubor 09 Statistika dostupnosti distribucí, schémat, podmínek užití a dokumentace - HEAD.jsonld
- Statistika dostupnosti CORS distribucí, schémat, podmínek užití a dokumentace ○ počítá indikátory A* týkající se dostupnosti techniky CORS ○ soubor 10 Statistika dostupnosti distribucí, schémat, podmínek užití a dokumentace - CORS.jsonld
- Kvalita metadatových záznamů v NKOD ○ počítá indikátory Q* ○ soubor 11 Kvalita metadatových záznamů v NKOD DQV.jsonld
- Generování reportů v CSV ○ generuje výsledné CSV soubory na základě výsledků minulých procesů ○ soubor 13 Generování reportů v CSV.jsonld Výsledky měření
- 25.10.2021 ○ soubor 2021-10-25.zip
10 2. 9.11.2021 ○ soubor 2021-11-09.zip 3. 22.11.2021 ○ soubor 2021-11-22.zip