pd: <http://onto.fel. cvut.cz/ontologies/slovnik/agendovy/popis- dat/pojem/>
pp: https://slovnik.gov.cz/datovy/pracovni-prostor/pojem/
ma typ hodnoty
Obrázek 16: Schéma ontologie pro popis změn.
Proběhla také rešerše nástrojů pro porovnávání RDF. Z nástrojů Python RDFLib, Protégé Desktop s pluginem na porovnávání RDF, OWLDiff, porovnávání Normalizovaného RDF a Apache JenaAPI byly vybrán Apache JenaAPI, kvůli jeho výkonnosti na větších datových sadách, objektové reprezentaci RDF dat umožňující flexibilní vyhledávání parametrů pojmů k reprezentaci změn v kontextu okolí, schopnosti rozpoznávat nezměněné blank nody a jeho využití již v současných nástrojích Výrobní linky. Prototyp nástroje CheckIt urče ný pro obhajobu diplomových prací běží na adrese https://onto.fel.cvut.cz/modelujeme/v-nástroji/checkit/ se stejnými přihlašovacími údaji, jaké platí pro demo verzi výrobní linky. 7. Funkční požadavky pro další vývoj výrobní linky Další vývoj Výrobní linky je podrobně rozmyšlen a naplánován. V následující kapitole je seznam funkčních požadavků pro další vývoj. Některé z nich stihly být naimplementovány ještě v závěrečně fázi projektu (duben/květen 2023). Z důvodu zachování integrity textu jsou přesto uvedeny v tomto výčtu. Autentifikace pomocí Centrálního agendového a informačního systému (CAIS) Během roku 2023 je nově zaváděn Centrální agendový a informační systém (CAIS). Jeho součástí by měla být identifikace zaměstnanců veřejné správy. Jedním z funkčních požadavků pro implementaci do systému Výrobní linky je integrace přihlašování uživatelů z veřejné správy pomocí autentizační služby systému CAIS. V současné době veřejná správa používá autentizační systém Jednotného identitního prostoru informačních systémů veřejné správy a Katalog autentizačních a autorizačních služeb (JIP/KAAS). Jeho použití pro informační systémy, kde interní uživatelé jsou zaváděni úřady, které nejsou správci těchto informačních systémů je použití autentizačního systému JIP/KAAS povinné. Podle všeho se to ale Výrobní linky netýká, přestože to jistě přináší řadu výhod. Jedná se především o využití stávajícího systému, který identifikuje úředníky s jejich oblastí působnosti. Díky tomu by bylo možné přiřazovat uživatelské role ke konkrétním slovníkům ve správě daného úřadu. Správa uživatelských rolí pro jednotlivé slovníky V současné verzi prototypu Výrobní linky nejsou uživatelské role řešeny pro jednotlivé slovníky, nebo jejich skupiny. V praxi to znamená, že kdokoliv se přihlásí do výrobní linky má právo měnit všechny kopie slovníků ve všech projektech. V rámci prototypu to není problém, pro plné nasazení jako služby (nebo systému) veřejné správy je nutné tento problém vyřešit. Předpokládáme vznik několika uživatelských rolí. V praxi by se mělo jednat o právo prohlížet
slovníky (to by asi nemělo být omezeno), právo slovníky editovat a dále vlastnické právo,
umožňující publikaci a správu práv ostatních uživatelů. Nabízí se několik řešení:
Uživatelské skupiny
Uživatelé budou organizováni ve skupinách podle pracoviště. Uživatelská práva ke kopiím
slovníků jsou přiřazena konkrétní skupině a všichni její členové mohou ke slovníku přistupovat,
editovat ho, komentovat nebo publikovat.
Zakladatel je vlastníkem
Uživatel, kter ý vytvořil kopii slovníku pro ní získává vlastnické právo. Ostatním uživatelům
může udělovat právo k editaci, nebo vlastnické právo předat.
Vlastnictví v rámci skupiny
Podobně jako v prvním případě mají členové skupiny přístup k projektu a všem slovníkům v
něm, ale zároveň mají mezi sebou rozdělená práva. Jeden nebo více uživatelů jsou vlastníky
skupiny a mohou ostatním uživatelům přidávat práva k editaci všech slovníků v organizaci,
nebo přímo ke konkrétním kopiím konkrétních slovníků.
Všechny řešení vyža dují zavedení uživatelských rolí, jejich přiřazování uživatelům a tedy i
úpravu ontologie. Kromě toho je potřeba zavést systém pro správu uživatelských rolí a to mimo
autentizační službu, která by měla být na systému nezávislá.
V delším horizontu by správa slovníků mohla být přiřazována na základě pracovního zařazení
uživatele a jeho vztahu k agendě/zákonu. To souvisí s propojením s autentizačním Centrálním
agendovým a informačním systémem, u kterého se předpokládá, že bude organizovat
uživatele ve vztahu k agendám a zákonům, které se dotýkají jeho pracovní náplně.
Správa dokumentů
V jedné z předchozích verzí systému TermIt byla funkce anotace dokumentu a jeho obsahu
pojmy ze slovníků a textová analýza dokumentů. Diagramy vytvářené v nástroji OntoGrapher
jsou v tomto kontextu také považovány za dokumenty. Z pohledu architektury celého systému
Výrobní linky dává smysl aby byly dokumenty spravovány v samostatném nástroji, ke kterému
budou přistupovat ostatní nástroje výrobní linky. K tomuto účelu je možné použ ít některé
existující nástroje pro správu dokumentů. Cílem je, aby bylo možné vytvořit entitu typu
dokument (existuje v ontologii a je k tomuto účelu využívána ve standalone verzi systému
TermIt), opatřit ji metadaty a dalšími anotačními vlastnostmi a přiř adit k ní konkrétní soubory
(ve formátech HTML, PDF, SVG, ale i dalších). Nástroj musí zároveň umožnit nahrát a uchovat
tyto soubory a také je náležitě oanotovat. Součástí řešení v dlouhodobějším horizontu musí
být integrace s eSbírkou.
Textová analýza dokumentů v nástroji TermIt
Po vyřešení předchozího požadavku je možné v upravené podobě vrátit do nástroje TermIt
anotační komponentu. Analytická komponenta systému TermIt umožňuje analyzovat
dokumenty a k nim náležící soubory a dokumenty k nim přiřazené. Tato komponenta analyzuje text (v současné době ve formátu HTML), vyhledává v něm výskyty pojmů z vybraných slovníků a na základě lematických pravidel navrhuje možné výskyty pojmů, které se v textu nachází a ve slovníku ne. Pojmy, jejichž výskyt je v textu potvrzen jsou dále použity k anotaci samotného dokumentu.
Obrázek 17: Nástroj textové analýzy dokumentů na příkladu textu Metropolitního slovníku hlavního města Prahy ve verzi 3.4 ze standalone verze TermIta, která je provozována pro Institut plánování a rozvoje hlavního města Prahy Elektrotechnickou fakultou ČVUT. Seznam všech slovníků do ShowIta Nástroj ShowIt slouží k prohlížení obsahu Sémantického slovníku pojmů a je plně popsán v kapitole ShowIt. Na základě zpětné vazby uživatelů se ukázalo, že samotné vyhledávání v pojmech nemusí všem vyhovovat a že část uživatelů vyžaduje možnost vyhledávání v seznamu všech slovníků, které jsou součástí SSP. Součástí úkolu je citlivě zapracovat ovládací prvek do uživatelského pros tředí nástroje ShowIt. Tento požadavek stihl být zapracován ještě v rámci projektu.
Obrázek 18: Zapracování zobrazení dostupných slovníků do úvodní stránky Výrobní linky a seznam slovníků s možností vyhledávání. Export/import slovníku z/do VL, příp. jednotlivých nástrojů. Úpravy nástroje TermIt při aplikaci nové architektury způsobily vyřazení i dalš í komponenty - exportu slovníků. Tato komponenta byla ještě v rámci do projektu do nástroje vrácena. Export je umožněn ve formátu CSV, Excel, SKOS v serializaci Turtle nebo SKOS v serializaci Turtle včetně vazeb exact match.
Obrázek 19: Dialogové okno v aplikaci TermIt umožňující export slovníku ve vybraných formátech. Integrace nástroje Dataspecer do Výrobní linky Nástroj Dataspecer je jedním z výstupů projektu KODI, konkrétně jeho cíle 3. Nástroj je dostupný na adrese https://slovník.gov.cz/generujeme/ a umožňuje na základě slovníků ze Sémantického slovníku pojmů vytvářet datová schémata a dokonce i jejich dokumentaci. Nástroj je popsán ve výstupu C3V8 - Návrh zajištění podpory dokumentace datových sad generované z ontologických konceptuálních datových modelů agend v NKOD.
Obrázek 20: Z výstupů Výrobní linky, tedy Sémantického slovníku, je pomocí nástroje
Dataspecer možné generovat datová schémata včetně dokumentace. Dalším logickým krokem je na základě vygenerovaných schémat generovat formuláře těmto schématům odpovídající. Vyplňováním formulářům pak poskytovatelé získají data, v ideálním případě propojená a otevřená a zároveň odpovídající datovým schématům vycházejícím ze slovníku. Cílem tohoto požadavku je zařazení nástroje Dataspecer do workflow za výrobní linku tak, jak je vidět na obrázku 20. Souvisí s tím i následující požadavek na Generátor formulářů. Zařazení dataspeceru vyžaduje změny na straně tohoto nástroje, jedná se především o přihlašování uživatelů za použití autentizační služby (ať už stávající, nebo pomocí Centrálního agendového a informačního systému) a použití uživatelských rolí, které by zabránilo tomu, aby byly schémata editovatelná všemi uživateli. Na straně Výrobní linky očekáváme zařazení tlačítka do Kontrolního panelu, které uživatele přesměruje do nástroje Dataspecer. Další možností by bylo zařadit tlačítko k detailu slovníku v nástroji ShowIt. Dataspecer by načetl rovnou slovník, ze kterého do něj byl uživatel přesměrován. Dokončení a tvorba nástroje pro generování formulářů pro sběr dat odpovídajících SSP
Cílem je vytvořit nástroj Správce otevřených dat, který umožní tvorbu dat pomocí formulářů
generovaných z OFN specifikací, nebo přímo z SSP. Hlavní scénář je tvorba dat dle OFN –
aplikace by měla být umožnit vytvoření formuláře na základě specifikace OFN, umožnit
uživateli tento formulář vyplnit a exportovat data kompatibilní s OFN a připravená pro publikaci
do Národního katalogu otevřených dat (NKOD). Nástroj byl v rámci projektu vytvářen, ale nebyl
dokončen. Pro dokončení nástroje je potřeba doplnit integraci s nástrojem Dataspacer –
formulář půjde generovat z konfigurace projektu definovaném v Dataspaceru (jak je vidět na
obrázku 20) a umožnit ukládání dat ve formátu JSON-LD, který odpovídá požadavkům na
otevřená data ze strany OFN. Požadavky na funkcionalitu byly analyzovány v dokumentu
Generování formulářů z SGOV. Aktuální stav nástroje umožňuje zobrazení formulářů pro OFN
Turistické cílem Aktuality, Události a Sportoviště.
Rozšíření a validace stereotypů pro OntoGrapher a
TermIt odpovídající RPP
V dokumentu Metodika definice údajů vedených v agendě jsou definovány stereotypy pojmů
pro modelování pojmů agend. V současné podobě nástrojů ve Výrobní lince nejsou tyto
stereotypy podporovány. V případě nástroje TermIt je podporována pouze základní sada
stereotypů podle Unified Foundational Ontology (UFO). Pro nástroj OntoGrapher je
podporovaná ještě základní sada stereotypů podle OntoUML.
Obrázek 21: Seznam stereotypů podle OntoUML v nástroji OntoGrapher. Metodika obsahuje doporučené postupy pro definici údajů vedených v agendě v rámci procesu ohlašování a registrace agend podle zákona č. 111/2009. Pro popis pojmů v agendách je v dokumentu doporučen konceptuální model. Reprezentace pojmů do ko nceptuálního modelu probíhá následujícím způsobem:
Stereotypy na pravé straně není v OntoGrapheru možné pojmům přiřadit. Pro zjednodušení
modelování agend by bylo vhodné tyto stereotypy přidat do nástrojů TermIt i OntoGrapher.
Všechny stereotypy by mělo být možné vztáhnout ke stereotypům dle UFO i OntoUML.
V nástroji OntoGrapher je seznam stereotypů řešen v JSON souborech.
Dalším problémem je validace. Dokument definuje podmínky, za jakých vznikají vztahy mezi
pojmy s různými stereotypy. Validace může být řešena dvěma způsoby, buď na straně
OntoGrapheru, nebo při publikaci na straně SGoV serveru. Podmínkou může být například
to, že vztah směřuje vždy směrem od osoby k jiné osobě nebo k věci. Podle prvního
způsobu by OntoGrapher upozornil na nesoulad v případě, že by tato podmínka nebyla
dodržena. Validace při publikaci by nechala modeláře vymodelovat v OntoGrapheru téměř
cokoliv (pokud by to neporušovalo podmínky vnitřně nastavené v OntoGrapheru), ale
publikace by neproběhla. V logu validace budou uvedeny důvody, proč validace neprošla. K
validaci je vhodné použít např. SHACL.
Modulární rozšiřování stereotypů a jejich validace
Jedná se o rozšíření předchozího funkčního požadavku na možnost přidání libovolné sady
pojmů jako stereotypů pro projmy ve slovníku. Pro libovolný slovník by mělo být možné vybrat
sadu pojmů a používat ji jako sadu stereotypů v nástrojích výrobní linky. Modulárním
způsobem bude možné použít jako stereotypy libovolné pojmy ze Sémantického slovníku
pojmů a stejným způsobem vytvořit i větší počet sad stereotypů, a to i pro jediný slovník.
Konfigurace implicitního jazyka slovníku
Aktuálně celý deployment výrobní linky má implicitní jazyk pro tvorbu pojmů, který je aplikován
na každý slovník. Do budoucna by bylo užitečné mít možnost vytváře t slovníky v různých
jazycích (typicky angličtina nebo čeština). Implementace by byla možná se zachováním
implicitního jazyka pro celé nasazení výrobní linky s možností měnit jazyk pro jednotlivé
slovníky.
Integrace s eSbírkou, nástroj pro analýzu HTML
stránek, nebo nástroj pro konverzi dokumentů do
HTML podoby, která je analyzovatelná.
V rámci práce na projektu probíhala spolupráce na návrhu schémat datových sad v RDF
formátech pro publikaci eSbírky. Samotná eSbírka není v současné době ještě hotová, ale
počítáme v dalším rozvoji výrobní linky s tím, že jednou bude hotová. Cílem našich n ávrhů
bylo mimo jiné i to, aby bylo legislativní dokumenty eSbírky možné anotovat pomocí pojmů ze
Sémantického slovníku pojmů a na druhou stranu aby bylo přímo v dokumentech eSbírky
možné vybírat pojmy a vytvářet glosář. Pro integraci výrobní linky s eSbír kou bude potřeba
použít anotační nástroj a nástroj textové analýzy (po vzoru podobných nástrojů ze standalone
verze nástroje TermIt, viz kapitola Textová analýza dokumentů ) nad HTML dokumenty
samotné eSbírky. Toho by bylo možné dosáhnout pluginem buď do internetového prohlížeče,
nebo do samotné eSbírky. Prototyp takového pluginu vznikl v rámci studentské diplomové
práce na Fakultě elektrotechnické ČVUT.
Batch editing
Při tvorbě slovníků pomocí nástrojů výrobní linky je řada atributů pojmů, které by bylo možné
editovat dávkově. To by mohlo výrazně zefektivnit a zrychlit tvorbu slovníků v nástrojích. Jedná
se například o hromadnou úpravu stereotypu pojmu nebo kardinality vztahu nebo typu
vlastnosti.
- Posouzení kvality výstupu na základě uživatelského testování Na základě specifikace tohoto výstupu má být jeho kvalita posouzena třemi vybranými pracovníky Odboru hlavního architekta MVČR nebo jiných subjektů. Vybraní pracovn íci už během projektu používali výrobní linku k modelování vybraných agend. Pro zhodnocení výstupu jim byly položeny tři otázky:
- Popište scénář, k jehož řešení využíváte Výrobní linku. Které její nástroje využíváte k jakým činnostem?
- Které části výrobní linky a jejich funkce oceníte nejvíce?
- Které funkce Vám v současné podobě výrobní linky chybí? Které z nich jsou zásadní
pro to, abyste mohli použít výrobní linku k řešení vámi uvedeného scénáře/scénářů?
Na základě odpovědí na tyto otázky byly vyhodnoceny funkce, které by do výrobní linky měly
být přidány. Zároveň získáváme přehled o tom, k řešení jakých scénářů je výrobní linka
používána a které její funkcionality jsou nejdůležitější.
Testování nakonec provedly čtyři osoby. Z výsledků testování vychází, že všichni uživatelé
výrobní linky, kteří posuzovali kvality výstupu, používají výrobní linku jako celek, tedy TermIt
pro tvorbu glosáře a OntoGrapher pro tvorbu významových vztahů mezi objekty, ačkoliv to
popisují různě. Jejich cílem je vytvoření uceleného s lovníku, nebo také tvorba grafického
vyjádření modelu. Uživatelé pak nejvíce pracují v modelovacím nástroji OntoGrapher a
používají ho i k tvorbě glosáře. Návrhů pro vylepšení výrobní linky se sešlo více.
Jako největší problém se jeví propisování změn z O ntoGrapheru do nástroje TermIt. Uživatelům také chybí pro nástroje dostatečná nápověda nebo návod pro práci. Uživatelé by ocenili propojení nástrojů výrobní linky na zákonné normy nebo legislativní dokumenty. Dalším požadavkem je podpořit import/export v j ednoduchém výměnném formátu (např. CSV). To bohužel z důvody komplexity RDF není možné v takovém rozsahu, aby se tém neztrácely informace. Poslední připomínkou je nedokonalý export dat z výrobní linky směrem k registraci údajů do Registru práv a povinností. Další připomínky, které testéři uváděli (například dočasné vypuštění exportu do CSV, excelu nebo do formátu Turtle, nebo propojení pojmů k jejich definici nebo výskytu v dokumentu) jsou buď již nově naimplementované, nebo se s nimi počítá. Návrhy na změny i hlášení chyb (bugů) probíhá nadále ve formě GitHub issues v repozitáři https://github.com/datagov-cz/sgov- assembly-line/issues. - Zdrojové kódy nástrojů výrobní linky Výrobní linka je vytvářena jako Open source a zdrojové kódy jejích součástí jsou udržovány v repozitářích na GitHubu. Odkazy na zdrojové kódy všech nástrojů a návod na nasazení celé výrobní linky je README souboru v centrálním repozítáři https://github.com/datagov-cz/sgov- assembly-line.
Reference
[1] - Návrh zajištění podpory dokumentace datových sad generované z
ontologických konceptuálních datových modelů agend v NKOD , výstup C3V8
projektu,
[2] - Generování formulářů z SGOV , detailní analýza požadavků na nástroj pro
generování formulářů,
[3] - Metodika definice údajů vedených v agendě, výstup C2V11 projektu,