C5V6.pdf - Page 3

pd: <http://onto.fel. cvut.cz/ontologies/slovnik/agendovy/popis- dat/pojem/>

pp: https://slovnik.gov.cz/datovy/pracovni-prostor/pojem/

ma typ hodnoty

Obrázek 16: Schéma ontologie pro popis změn.

Proběhla také rešerše nástrojů pro porovnávání RDF. Z nástrojů Python RDFLib, Protégé Desktop s pluginem na porovnávání RDF, OWLDiff, porovnávání Normalizovaného RDF a Apache JenaAPI byly vybrán Apache JenaAPI, kvůli jeho výkonnosti na větších datových sadách, objektové reprezentaci RDF dat umožňující flexibilní vyhledávání parametrů pojmů k reprezentaci změn v kontextu okolí, schopnosti rozpoznávat nezměněné blank nody a jeho využití již v současných nástrojích Výrobní linky. Prototyp nástroje CheckIt urče ný pro obhajobu diplomových prací běží na adrese https://onto.fel.cvut.cz/modelujeme/v-nástroji/checkit/ se stejnými přihlašovacími údaji, jaké platí pro demo verzi výrobní linky. 7. Funkční požadavky pro další vývoj výrobní linky Další vývoj Výrobní linky je podrobně rozmyšlen a naplánován. V následující kapitole je seznam funkčních požadavků pro další vývoj. Některé z nich stihly být naimplementovány ještě v závěrečně fázi projektu (duben/květen 2023). Z důvodu zachování integrity textu jsou přesto uvedeny v tomto výčtu. Autentifikace pomocí Centrálního agendového a informačního systému (CAIS) Během roku 2023 je nově zaváděn Centrální agendový a informační systém (CAIS). Jeho součástí by měla být identifikace zaměstnanců veřejné správy. Jedním z funkčních požadavků pro implementaci do systému Výrobní linky je integrace přihlašování uživatelů z veřejné správy pomocí autentizační služby systému CAIS. V současné době veřejná správa používá autentizační systém Jednotného identitního prostoru informačních systémů veřejné správy a Katalog autentizačních a autorizačních služeb (JIP/KAAS). Jeho použití pro informační systémy, kde interní uživatelé jsou zaváděni úřady, které nejsou správci těchto informačních systémů je použití autentizačního systému JIP/KAAS povinné. Podle všeho se to ale Výrobní linky netýká, přestože to jistě přináší řadu výhod. Jedná se především o využití stávajícího systému, který identifikuje úředníky s jejich oblastí působnosti. Díky tomu by bylo možné přiřazovat uživatelské role ke konkrétním slovníkům ve správě daného úřadu. Správa uživatelských rolí pro jednotlivé slovníky V současné verzi prototypu Výrobní linky nejsou uživatelské role řešeny pro jednotlivé slovníky, nebo jejich skupiny. V praxi to znamená, že kdokoliv se přihlásí do výrobní linky má právo měnit všechny kopie slovníků ve všech projektech. V rámci prototypu to není problém, pro plné nasazení jako služby (nebo systému) veřejné správy je nutné tento problém vyřešit. Předpokládáme vznik několika uživatelských rolí. V praxi by se mělo jednat o právo prohlížet

slovníky (to by asi nemělo být omezeno), právo slovníky editovat a dále vlastnické právo, umožňující publikaci a správu práv ostatních uživatelů. Nabízí se několik řešení: Uživatelské skupiny Uživatelé budou organizováni ve skupinách podle pracoviště. Uživatelská práva ke kopiím slovníků jsou přiřazena konkrétní skupině a všichni její členové mohou ke slovníku přistupovat, editovat ho, komentovat nebo publikovat. Zakladatel je vlastníkem Uživatel, kter ý vytvořil kopii slovníku pro ní získává vlastnické právo. Ostatním uživatelům může udělovat právo k editaci, nebo vlastnické právo předat.
Vlastnictví v rámci skupiny Podobně jako v prvním případě mají členové skupiny přístup k projektu a všem slovníkům v něm, ale zároveň mají mezi sebou rozdělená práva. Jeden nebo více uživatelů jsou vlastníky skupiny a mohou ostatním uživatelům přidávat práva k editaci všech slovníků v organizaci, nebo přímo ke konkrétním kopiím konkrétních slovníků. Všechny řešení vyža dují zavedení uživatelských rolí, jejich přiřazování uživatelům a tedy i úpravu ontologie. Kromě toho je potřeba zavést systém pro správu uživatelských rolí a to mimo autentizační službu, která by měla být na systému nezávislá.
V delším horizontu by správa slovníků mohla být přiřazována na základě pracovního zařazení uživatele a jeho vztahu k agendě/zákonu. To souvisí s propojením s autentizačním Centrálním agendovým a informačním systémem, u kterého se předpokládá, že bude organizovat uživatele ve vztahu k agendám a zákonům, které se dotýkají jeho pracovní náplně. Správa dokumentů V jedné z předchozích verzí systému TermIt byla funkce anotace dokumentu a jeho obsahu pojmy ze slovníků a textová analýza dokumentů. Diagramy vytvářené v nástroji OntoGrapher jsou v tomto kontextu také považovány za dokumenty. Z pohledu architektury celého systému Výrobní linky dává smysl aby byly dokumenty spravovány v samostatném nástroji, ke kterému budou přistupovat ostatní nástroje výrobní linky. K tomuto účelu je možné použ ít některé existující nástroje pro správu dokumentů. Cílem je, aby bylo možné vytvořit entitu typu dokument (existuje v ontologii a je k tomuto účelu využívána ve standalone verzi systému TermIt), opatřit ji metadaty a dalšími anotačními vlastnostmi a přiř adit k ní konkrétní soubory (ve formátech HTML, PDF, SVG, ale i dalších). Nástroj musí zároveň umožnit nahrát a uchovat tyto soubory a také je náležitě oanotovat. Součástí řešení v dlouhodobějším horizontu musí být integrace s eSbírkou. Textová analýza dokumentů v nástroji TermIt Po vyřešení předchozího požadavku je možné v upravené podobě vrátit do nástroje TermIt anotační komponentu. Analytická komponenta systému TermIt umožňuje analyzovat

dokumenty a k nim náležící soubory a dokumenty k nim přiřazené. Tato komponenta analyzuje text (v současné době ve formátu HTML), vyhledává v něm výskyty pojmů z vybraných slovníků a na základě lematických pravidel navrhuje možné výskyty pojmů, které se v textu nachází a ve slovníku ne. Pojmy, jejichž výskyt je v textu potvrzen jsou dále použity k anotaci samotného dokumentu.

Obrázek 17: Nástroj textové analýzy dokumentů na příkladu textu Metropolitního slovníku hlavního města Prahy ve verzi 3.4 ze standalone verze TermIta, která je provozována pro Institut plánování a rozvoje hlavního města Prahy Elektrotechnickou fakultou ČVUT. Seznam všech slovníků do ShowIta Nástroj ShowIt slouží k prohlížení obsahu Sémantického slovníku pojmů a je plně popsán v kapitole ShowIt. Na základě zpětné vazby uživatelů se ukázalo, že samotné vyhledávání v pojmech nemusí všem vyhovovat a že část uživatelů vyžaduje možnost vyhledávání v seznamu všech slovníků, které jsou součástí SSP. Součástí úkolu je citlivě zapracovat ovládací prvek do uživatelského pros tředí nástroje ShowIt. Tento požadavek stihl být zapracován ještě v rámci projektu.

Obrázek 18: Zapracování zobrazení dostupných slovníků do úvodní stránky Výrobní linky a seznam slovníků s možností vyhledávání. Export/import slovníku z/do VL, příp. jednotlivých nástrojů. Úpravy nástroje TermIt při aplikaci nové architektury způsobily vyřazení i dalš í komponenty - exportu slovníků. Tato komponenta byla ještě v rámci do projektu do nástroje vrácena. Export je umožněn ve formátu CSV, Excel, SKOS v serializaci Turtle nebo SKOS v serializaci Turtle včetně vazeb exact match.

Obrázek 19: Dialogové okno v aplikaci TermIt umožňující export slovníku ve vybraných formátech. Integrace nástroje Dataspecer do Výrobní linky Nástroj Dataspecer je jedním z výstupů projektu KODI, konkrétně jeho cíle 3. Nástroj je dostupný na adrese https://slovník.gov.cz/generujeme/ a umožňuje na základě slovníků ze Sémantického slovníku pojmů vytvářet datová schémata a dokonce i jejich dokumentaci. Nástroj je popsán ve výstupu C3V8 - Návrh zajištění podpory dokumentace datových sad generované z ontologických konceptuálních datových modelů agend v NKOD.

Obrázek 20: Z výstupů Výrobní linky, tedy Sémantického slovníku, je pomocí nástroje

Dataspecer možné generovat datová schémata včetně dokumentace. Dalším logickým krokem je na základě vygenerovaných schémat generovat formuláře těmto schématům odpovídající. Vyplňováním formulářům pak poskytovatelé získají data, v ideálním případě propojená a otevřená a zároveň odpovídající datovým schématům vycházejícím ze slovníku. Cílem tohoto požadavku je zařazení nástroje Dataspecer do workflow za výrobní linku tak, jak je vidět na obrázku 20. Souvisí s tím i následující požadavek na Generátor formulářů. Zařazení dataspeceru vyžaduje změny na straně tohoto nástroje, jedná se především o přihlašování uživatelů za použití autentizační služby (ať už stávající, nebo pomocí Centrálního agendového a informačního systému) a použití uživatelských rolí, které by zabránilo tomu, aby byly schémata editovatelná všemi uživateli. Na straně Výrobní linky očekáváme zařazení tlačítka do Kontrolního panelu, které uživatele přesměruje do nástroje Dataspecer. Další možností by bylo zařadit tlačítko k detailu slovníku v nástroji ShowIt. Dataspecer by načetl rovnou slovník, ze kterého do něj byl uživatel přesměrován. Dokončení a tvorba nástroje pro generování formulářů pro sběr dat odpovídajících SSP

Cílem je vytvořit nástroj Správce otevřených dat, který umožní tvorbu dat pomocí formulářů generovaných z OFN specifikací, nebo přímo z SSP. Hlavní scénář je tvorba dat dle OFN – aplikace by měla být umožnit vytvoření formuláře na základě specifikace OFN, umožnit uživateli tento formulář vyplnit a exportovat data kompatibilní s OFN a připravená pro publikaci do Národního katalogu otevřených dat (NKOD). Nástroj byl v rámci projektu vytvářen, ale nebyl dokončen. Pro dokončení nástroje je potřeba doplnit integraci s nástrojem Dataspacer – formulář půjde generovat z konfigurace projektu definovaném v Dataspaceru (jak je vidět na obrázku 20) a umožnit ukládání dat ve formátu JSON-LD, který odpovídá požadavkům na otevřená data ze strany OFN. Požadavky na funkcionalitu byly analyzovány v dokumentu Generování formulářů z SGOV. Aktuální stav nástroje umožňuje zobrazení formulářů pro OFN Turistické cílem Aktuality, Události a Sportoviště.
Rozšíření a validace stereotypů pro OntoGrapher a TermIt odpovídající RPP V dokumentu Metodika definice údajů vedených v agendě jsou definovány stereotypy pojmů pro modelování pojmů agend. V současné podobě nástrojů ve Výrobní lince nejsou tyto stereotypy podporovány. V případě nástroje TermIt je podporována pouze základní sada stereotypů podle Unified Foundational Ontology (UFO). Pro nástroj OntoGrapher je podporovaná ještě základní sada stereotypů podle OntoUML.

Obrázek 21: Seznam stereotypů podle OntoUML v nástroji OntoGrapher. Metodika obsahuje doporučené postupy pro definici údajů vedených v agendě v rámci procesu ohlašování a registrace agend podle zákona č. 111/2009. Pro popis pojmů v agendách je v dokumentu doporučen konceptuální model. Reprezentace pojmů do ko nceptuálního modelu probíhá následujícím způsobem:

Stereotypy na pravé straně není v OntoGrapheru možné pojmům přiřadit. Pro zjednodušení modelování agend by bylo vhodné tyto stereotypy přidat do nástrojů TermIt i OntoGrapher. Všechny stereotypy by mělo být možné vztáhnout ke stereotypům dle UFO i OntoUML. V nástroji OntoGrapher je seznam stereotypů řešen v JSON souborech.
Dalším problémem je validace. Dokument definuje podmínky, za jakých vznikají vztahy mezi pojmy s různými stereotypy. Validace může být řešena dvěma způsoby, buď na straně OntoGrapheru, nebo při publikaci na straně SGoV serveru. Podmínkou může být například to, že vztah směřuje vždy směrem od osoby k jiné osobě nebo k věci. Podle prvního způsobu by OntoGrapher upozornil na nesoulad v případě, že by tato podmínka nebyla dodržena. Validace při publikaci by nechala modeláře vymodelovat v OntoGrapheru téměř cokoliv (pokud by to neporušovalo podmínky vnitřně nastavené v OntoGrapheru), ale publikace by neproběhla. V logu validace budou uvedeny důvody, proč validace neprošla. K validaci je vhodné použít např. SHACL.

Modulární rozšiřování stereotypů a jejich validace Jedná se o rozšíření předchozího funkčního požadavku na možnost přidání libovolné sady pojmů jako stereotypů pro projmy ve slovníku. Pro libovolný slovník by mělo být možné vybrat sadu pojmů a používat ji jako sadu stereotypů v nástrojích výrobní linky. Modulárním způsobem bude možné použít jako stereotypy libovolné pojmy ze Sémantického slovníku pojmů a stejným způsobem vytvořit i větší počet sad stereotypů, a to i pro jediný slovník.
Konfigurace implicitního jazyka slovníku Aktuálně celý deployment výrobní linky má implicitní jazyk pro tvorbu pojmů, který je aplikován na každý slovník. Do budoucna by bylo užitečné mít možnost vytváře t slovníky v různých jazycích (typicky angličtina nebo čeština). Implementace by byla možná se zachováním implicitního jazyka pro celé nasazení výrobní linky s možností měnit jazyk pro jednotlivé slovníky. Integrace s eSbírkou, nástroj pro analýzu HTML stránek, nebo nástroj pro konverzi dokumentů do HTML podoby, která je analyzovatelná. V rámci práce na projektu probíhala spolupráce na návrhu schémat datových sad v RDF formátech pro publikaci eSbírky. Samotná eSbírka není v současné době ještě hotová, ale počítáme v dalším rozvoji výrobní linky s tím, že jednou bude hotová. Cílem našich n ávrhů bylo mimo jiné i to, aby bylo legislativní dokumenty eSbírky možné anotovat pomocí pojmů ze Sémantického slovníku pojmů a na druhou stranu aby bylo přímo v dokumentech eSbírky možné vybírat pojmy a vytvářet glosář. Pro integraci výrobní linky s eSbír kou bude potřeba použít anotační nástroj a nástroj textové analýzy (po vzoru podobných nástrojů ze standalone verze nástroje TermIt, viz kapitola Textová analýza dokumentů ) nad HTML dokumenty samotné eSbírky. Toho by bylo možné dosáhnout pluginem buď do internetového prohlížeče, nebo do samotné eSbírky. Prototyp takového pluginu vznikl v rámci studentské diplomové práce na Fakultě elektrotechnické ČVUT.
Batch editing Při tvorbě slovníků pomocí nástrojů výrobní linky je řada atributů pojmů, které by bylo možné editovat dávkově. To by mohlo výrazně zefektivnit a zrychlit tvorbu slovníků v nástrojích. Jedná se například o hromadnou úpravu stereotypu pojmu nebo kardinality vztahu nebo typu vlastnosti.

Posouzení kvality výstupu na základě uživatelského testování Na základě specifikace tohoto výstupu má být jeho kvalita posouzena třemi vybranými pracovníky Odboru hlavního architekta MVČR nebo jiných subjektů. Vybraní pracovn íci už během projektu používali výrobní linku k modelování vybraných agend. Pro zhodnocení výstupu jim byly položeny tři otázky:
Popište scénář, k jehož řešení využíváte Výrobní linku. Které její nástroje využíváte k jakým činnostem?
Které části výrobní linky a jejich funkce oceníte nejvíce?
Které funkce Vám v současné podobě výrobní linky chybí? Které z nich jsou zásadní pro to, abyste mohli použít výrobní linku k řešení vámi uvedeného scénáře/scénářů? Na základě odpovědí na tyto otázky byly vyhodnoceny funkce, které by do výrobní linky měly být přidány. Zároveň získáváme přehled o tom, k řešení jakých scénářů je výrobní linka používána a které její funkcionality jsou nejdůležitější. Testování nakonec provedly čtyři osoby. Z výsledků testování vychází, že všichni uživatelé výrobní linky, kteří posuzovali kvality výstupu, používají výrobní linku jako celek, tedy TermIt pro tvorbu glosáře a OntoGrapher pro tvorbu významových vztahů mezi objekty, ačkoliv to popisují různě. Jejich cílem je vytvoření uceleného s lovníku, nebo také tvorba grafického vyjádření modelu. Uživatelé pak nejvíce pracují v modelovacím nástroji OntoGrapher a používají ho i k tvorbě glosáře. Návrhů pro vylepšení výrobní linky se sešlo více.
Jako největší problém se jeví propisování změn z O ntoGrapheru do nástroje TermIt. Uživatelům také chybí pro nástroje dostatečná nápověda nebo návod pro práci. Uživatelé by ocenili propojení nástrojů výrobní linky na zákonné normy nebo legislativní dokumenty. Dalším požadavkem je podpořit import/export v j ednoduchém výměnném formátu (např. CSV). To bohužel z důvody komplexity RDF není možné v takovém rozsahu, aby se tém neztrácely informace. Poslední připomínkou je nedokonalý export dat z výrobní linky směrem k registraci údajů do Registru práv a povinností. Další připomínky, které testéři uváděli (například dočasné vypuštění exportu do CSV, excelu nebo do formátu Turtle, nebo propojení pojmů k jejich definici nebo výskytu v dokumentu) jsou buď již nově naimplementované, nebo se s nimi počítá. Návrhy na změny i hlášení chyb (bugů) probíhá nadále ve formě GitHub issues v repozitáři https://github.com/datagov-cz/sgov- assembly-line/issues.
Zdrojové kódy nástrojů výrobní linky Výrobní linka je vytvářena jako Open source a zdrojové kódy jejích součástí jsou udržovány v repozitářích na GitHubu. Odkazy na zdrojové kódy všech nástrojů a návod na nasazení celé výrobní linky je README souboru v centrálním repozítáři https://github.com/datagov-cz/sgov- assembly-line.

Reference
[1] - Návrh zajištění podpory dokumentace datových sad generované z ontologických konceptuálních datových modelů agend v NKOD , výstup C3V8 projektu, [2] - Generování formulářů z SGOV , detailní analýza požadavků na nástroj pro generování formulářů, [3] - Metodika definice údajů vedených v agendě, výstup C2V11 projektu,

Page 3 of 3