Linee Guida per la Valorizzazione del Patrimonio Informativo Pubblico (2016) 29
STANDARD DI RIFERIMENTO
I principali standard di riferimento per l’architettura dell’informazione del settore pubblico, necessari
anche ad abilitare i livelli 4 e 5 del modello dei dati e i livelli 3 e 4 del modello dei metadati derivano
dalle esperienze maturate dagli esperti nel settore del Web Semantico, con la visione di trasformare il
Web in un unico spazio informativo globale. Essi sono riportati nella tabella seguente.
Standard Descrizione
RDF
(Resource
Description
Framework)27
È un framework per la rappresentazione dell’informazione nel Web e uno degli
standard alla base del Web Semantico. Esso consente di catturare la semantica dei
dati, quindi la loro comprensibilità, facilitandone l'accessibilità da parte di agenti
automatici tramite l'infrastruttura e i protocolli Internet esistenti. In una
concezione astratta della realtà, ogni oggetto e ogni entità (reale o virtuale) sono
risorse. Associando a ogni risorsa un identificativo univoco, nello specifico un
URI (Uniform Resource Identifier), si rappresentano nel Web le informazioni
relative alle risorse, rendendole accessibili e riferibili da tutti.
Tecnicamente, RDF è un framework concettuale che consente, sfruttando la
suddetta identificazione delle risorse, di descriverle mettendole in relazione tra
loro. RDF ha un solo costrutto informativo di base, la cosiddetta tripla
<soggetto> <predicato> <oggetto>. Un soggetto è sempre una
risorsa (i.e., il suo URI), un oggetto è una risorsa o un valore (in quest’ultimo caso
un'espressione puramente simbolica come un numero, una stringa, una data, ecc.),
un predicato è una relazione, cui è associato un tipo, tra due risorse o una
proprietà di una risorsa. Si noti che anche i predicati sono rappresentati con URI.
In questo modo le risorse sono descritte tramite delle relazioni aventi un
significato ben preciso e inserite in un particolare contesto. Le triple RDF sono
strutture ricorsive, soggetto-verbo-oggetto (come nel caso del linguaggio naturale).
La concatenazione di triple genera un “grafo RDF”; pertanto, un insieme di dati
rappresentati attraverso il framework RDF è un grafo. Lo spazio Web in cui dati
RDF sono localizzati è il cosiddetto Web dei Dati (“Web of Data”), mentre la sua
prospettiva, focalizzata maggiormente sul contenuto informativo, è detta Web
Semantico.
RDF può essere implementato attraverso diverse forme sintattiche, anche dette
serializzazioni, quali RDF/XML, Notation3, N-Triple, Turtle e JSON-LD (si veda
sotto). La scelta tra le diverse soluzioni sintattiche deve essere fatta sulla base di
requisiti richiesti quali compattezza, spazio fisico utilizzato, leggibilità, ecc. Le
serializzazioni sono comunque fra loro inter-traducibili.
Infine, esiste la possibilità di poter includere informazioni RDF all'interno di
pagine Web mediante il formalismo RDFa (RDF in Attributes) 28.
RDFS
(RDF
Schema)29
È un’estensione di RDF che permette di definire semplici schemi per i dati. Lo
standard introduce alcuni costrutti come le classi (rdfs:Class), le collezioni (ad
esempio, rdfs:List) e una serie di proprietà per poter definire tassonomie e
relazioni tra classi e proprietà (ad esempio, rdfs:subClassOf, rdfs:subPropertyOf).
In pratica, con RDFS si possono gestire relazioni insiemistiche, ereditarietà e vari
tipi di vincoli. Gli schemi definiti con RDFS sono comunemente detti ontologie.
OWL
(Ontology
Web
Language)30
Mentre RDFS consente di definire semplici schemi per dati RDF, schemi più
evoluti possono essere definiti tramite OWL, uno standard W3C che arricchisce
RDFS con ulteriori formalismi, includendo semantica formale e logica descrittiva.
Un'ontologia consente in modo preciso ed efficace di modellare un dominio di
interesse, quindi i suoi oggetti e le relazioni tra questi. In pratica, OWL fornisce il
pieno supporto alla definizione di ontologie . M o l t e o n t o l o g i e , n a t e p e r
rappresentare le informazioni di domini ben precisi, sono note e condivise
globalmente. Questa condivisione agevola la comprensione e il riutilizzo di schemi
e metadati, abilitando di conseguenza l'interoperabilità semantica tra sistemi
Linee Guida per la Valorizzazione del Patrimonio Informativo Pubblico (2016) 30
differenti.
L'aspetto logico delle ontologie fornisce la possibilità di verificare
automaticamente la correttezza logica di ciò che si rappresenta. Inoltre i cosiddetti
ragionatori automatici per le logiche descrittive consentono di inferire, sui dati
conformi all'ontologia, nuove triple e quindi informazione addizionale.
SPARQL
(Sparql
Protocol And
Rdf Query
Language)31
Tra le diverse proposte di linguaggi di interrogazione per dati RDF, il W3C ha
standardizzato SPARQL. Una semplice interrogazione SPARQL si compone di
una concatenazione di triple in cui alcuni elementi possono essere delle variabili
incognite. L'esecuzione di una interrogazione SPARQL cerca tra i dati le
concatenazioni di triple “conformi” a quelle dell’interrogazione, assegnando (i.e.,
istanziando) degli URI o dei valori alle variabili che possono anche essere restituiti
in output. È anche possibile specificare operazioni di manipolazione dei dati, come
ad esempio istruzioni di “insert”, “update” e “delete”.
SPARQL non è solo un linguaggio di interrogazione ma è un protocollo completo
per l'accesso ai dati in quanto definisce anche le modalità con cui le interrogazioni
possono essere eseguite via Web (appoggiandosi al protocollo HTTP) e come i
risultati devono essere restituiti all'utente. I servizi Web che implementano il
protocollo SPARQL sono detti SPARQL endpoint.
SDMX
(Statistical
Data and
Metadata
eXchange)32
È uno standard ISO per lo scambio di dati statistici basato su sintassi XML. Esso
implementa al suo interno un modello dati per la rappresentazione di dati
multidimensionali. Pertanto descrive la struttura di un particolare “dataflow”
attraverso un insieme di dimensioni (e.g., territorio o tempo), un insieme di
attributi (e.g., unità di misura) e le classificazioni associate. Si nota che sebbene
SDMX sia nato come modello per lo scambio di dati, esso viene anche usato per
la loro rappresentazione.
27. W3C, RDF (Reseource Description Framewok) https://www.w3.org/standards/techs/rdf#w3c_all, 2016
28. W3C, RDFa, https://www.w3.org/standards/techs/rdfa#w3c_all, 2016.
29. W3C Recommendation, RDF Schema 1.1, https://www.w3.org/TR/rdf-schema/, 25 febbraio 2014.
30. W3C, OWL – Web Ontology Language, https://www.w3.org/OWL/, 2016.
31. W3C Reccommendation, SPARQL 1.1 Query Language, https://www.w3.org/TR/sparql11-query/, 21 marzo
2013.
32. SDMX, https://sdmx.org/, 2016.
Linee Guida per la Valorizzazione del Patrimonio Informativo Pubblico (2016) 31
FORMATI APERTI PER I DATI E I DOCUMENTI
Formati aperti per i dati
Formato Descrizione
XML
(eXtensible
Markup
Language)
33
È un linguaggio di marcatura standardizzato dal W3C usato per l'annotazione di
documenti e per la costruzione di altri linguaggi più specifici per l'annotazione di
documenti (e.g., XBRL per la rappresentazione dei bilanci, Normattiva per la
rappresentazione di documenti informatici in ambito giuridico, ecc.). Il mondo legato
all'XML è molto ampio e la sua trattazione non rientra tra gli obiettivi del presente
documento. Nell’ambito del Web Semantico è stata definita una specifica
serializzazione RDF/XML.
N-Triples
36
È una serializzazione di RDF in cui ogni tripla è espressa interamente e
indipendentemente dalle altre. La concatenazione delle triple di un dataset RDF
secondo N-Triples avviene utilizzando il carattere punto (i.e., <soggetto1>
<predicato1> <oggetto1> . <soggetto2> <predicato2> <oggetto2>).
Notation3
34
Notation3 (o N3) è una serializzazione RDF pensata per essere più compatta rispetto
a quella ottenuta utilizzando la sintassi XML Essa risulta più leggibile da parte degli
utenti e possiede delle caratteristiche che esulano dall'uso stretto di RDF (e.g.,
rappresentazione di formule logiche).
Turtle 35
È una versione semplificata (un sottoinsieme di funzionalità) di N3. Un dataset in
Turtle è una rappresentazione testuale di un grafo RDF e, al contrario di RDF/XML,
è di più facile lettura e gestione anche manuale.
JSON
(JavaScript
Object
Notation)
37
È un formato aperto per la rappresentazione e lo scambio di dati semi-strutturati,
leggibile anche dagli utenti e che mantiene, rispetto a formati simili come l'XML, una
sintassi poco prolissa. Questo aspetto ne fa un formato flessibile e compatto. Esso
nasce dalla rappresentazione di strutture dati semplici nel linguaggio di
programmazione JavaScript, ma mantiene indipendenza rispetto ai linguaggi di
programmazione.
JSON-LD
38
È un formato di serializzazione per RDF, standardizzato dal W3C, che fa uso di una
sintassi JSON. Viene proposto come formato per Linked Data, mascherando di
proposito la sua natura di serializzazione di RDF per ragioni di diffusione del
formato. Il gruppo di lavoro che l'ha definito ha posto come obiettivo, oltre quello di
mettere a disposizione un'ulteriore funzionalità al framework RDF, anche quello di
avvicinare il mondo dello sviluppo Web e degli utilizzatori dei sistemi di gestione dati
AZIONE 11: SELEZIONA I FORMATI CHE MEGLIO SI ADATTANO AL
CONTENUTO E AI DATI DA CONDIVIDERE E RILASCIARE…
Si adottano formati aperti senza assumere che gli utenti possano leggere formati
proprietari. Nel caso inevitabile di rilascio in formati proprietari, è necessario assicurare la
disponibilità anche di un’alternativa non proprietaria.
È necessario evitare di utilizzare un formato per dati non strutturati (e.g., PDF) in
presenza di dati strutturati (e.g., è da evitare la pubblicazione di tabelle di tassi di assenza
in PDF, privilegiando un formato come il CSV). Si raccomanda inoltre, nel rilasciare i dati
secondo i formati sotto riportati, di specificare la codifica dei caratteri privilegiando, ove
possibile, UTF 8 50.
Infine, nel caso di rilascio programmato di dati, è da evitare l’uso di formati per dati non
strutturati, privilegiando formati “machine-readable”.
Nel caso di documenti, sono da evitare scansioni di documenti cartacei in quanto non
accessibili e quindi non aperti. In generale, si raccomanda di adottare, ove esistano,
standard XML documentali internazionali o nazionali.
Linee Guida per la Valorizzazione del Patrimonio Informativo Pubblico (2016) 32
NoSQL (in particolare dei document store) al Web Semantico. Da un punto di vista
pratico è possibile rilasciare dati RDF utilizzando questo "dialetto" JSON nelle
situazioni in cui inizialmente non ci si possa dotare di tecnologie ad-hoc come triple
store. Allo stesso tempo, con JSON-LD si fornisce uno strumento standard che
consente il collegamento di documenti JSON che per loro natura sono unità di
informazione indipendenti.
CSV
(Comma
Separated
Values)
È un formato di file testuale utilizzato per rappresentare informazioni con struttura
tabellare. Esso è spesso usato per importare ed esportare il contenuto di tabelle di
database relazionali e fogli elettronici. Le righe delle tabelle corrispondono a righe nel
file di testo CSV e i valori delle celle sono divisi da un carattere separatore, che di
solito, come indica il nome stesso, è la virgola. Il CSV non è uno standard vero e
proprio ma la sua modalità d'uso è descritta nell’RFC 4180 39.. Nel rilascio di dati
secondo il formato CSV, per agevolare i riutilizzatoti, si raccomanda di dichiarare
almeno 1) il separatore di campo utilizzato (e.g, virgola, punto e virgola); 2) se è stato
usato un carattere per delimitare i campi di testo11.
Nel corso del 2015, un gruppo di lavoro del W3C "CSV on the web" ha rilasciato una
serie di standard del Web tra cui alcuni relativi ai meccanismi necessari a trasformare
CSV in vari formati quali JSON, XML e RDF. Per gli scopi del presente
aggiornamento delle linee guida, si raccomanda di considerare due standard:
“Generating JSON from Tabular Data on the Web” 40 e “Generating RDF from
Tabular Data on the Web” 41.
Formati aperti più diffusi per i dati geografici
Formato Descrizione
Shapefile
42
È il formato standard de-facto per la rappresentazione dei dati dei sistemi informativi
geografici (GIS). I dati sono di tipo vettoriale. Lo shapefile è stato creato dalla società
privata ESRI che rende comunque pubbliche le sue specifiche. L’apertura delle
specifiche ha consentito lo sviluppo di diversi strumenti in grado di gestire e creare
tale formato. Seppur impropriamente ci si riferisca a uno shapefile, nella pratica si
devono considerare almeno tre file: un .shp contenente le forme geometriche, un .dbf
contenente il database degli attributi delle forme geometriche e un file .shx come
indice delle forme geometriche. A questi tre si deve anche accompagnare un file .prj
che contiene le impostazioni del sistema di riferimento.
Si raccomanda comunque di specificare nei metadati la proiezione utilizzata.
È importante notare che non risulta ancora chiaro se tale formato lo si possa
considerare propriamente aperto (e quindi coerente con la definizione introdotta
dall’art. 68 del CAD) di livello 3 secondo il modello per i dati proposto nel presente
documento. Questo è dovuto al fatto che, per alcune comunità, esso è un formato
proprietario e quindi di livello 2, mentre per altre i dati possono essere gestiti
attraverso una serie di strumenti non necessariamente confinati a determinate
tipologie software (grazie alle specifiche tecniche aperte e pubbliche rese disponibili
da ESRI). Tenuto conto dell’ampio uso di tale formato per la rappresentazione dei
dati geografici si ritiene opportuno includerlo comunque in questo elenco.
KML 43 È un formato basato su XML per rappresentare dati geografici. Nato con Google, è
diventato poi uno standard OGC. Le specifiche della versione 2.2 presentano una
serie di entità XML attraverso cui archiviare le coordinate geografiche che
rappresentano punti, linee e poligoni espressi in coordinate WGS84 e altre utili a
definire gli stili attraverso cui visualizzare i dati. Eventuali attributi delle geometrie
vanno espressi invece attraverso la personalizzazione di alcune entità. Molti strumenti
di conversione non si occupano tuttavia di creare questa struttura dati e delegano gli
attributi delle geometrie allo stile di visualizzazione. Si consiglia pertanto di distribuire
11 http://specs.frictionlessdata.io/csv-dialect/#specification
Linee Guida per la Valorizzazione del Patrimonio Informativo Pubblico (2016) 33
questo dato prestando attenzione o, eventualmente, accompagnando il dataset
assieme ad un altro formato aperto per i dati geografici (ad esempio, .shp, .geojson).
GeoJSON
44
È un formato aperto per la rappresentazione e l'interscambio dei dati territoriali in
forma vettoriale, basato su JSON. Ogni dato è codificato come oggetto che può
rappresentare una geometria, una caratteristica o una collezione di caratteristiche. A
ogni oggetto è associato un insieme di coppie nome/valore (membri). I principali
nomi di membri che rappresentano le caratteristiche dei dati geografici sono: "type"
che serve a indicare il tipo di geometria (punto, linea, poligono o insieme multi-parte
di questi tipi); "coordinates" attraverso cui sono indicate le coordinate dell'oggetto in
un dato sistema di riferimento; "bbox" attraverso cui sono indicate le coordinate di
un riquadro di delimitazione geografica; "crs" (opzionale) per l'indicazione del
sistema di riferimento. Inoltre, è possibile associare all'oggetto specifici attributi,
attraverso il membro con nome "properties". Si tratta di un formato molto diffuso e
supportato da diversi software, ampiamente utilizzato in ambito di sviluppo web.
Lo scorso agosto 2016 è stata pubblicata la relativa RFC 7946 “The GeoJSON
Format” 49. La specifica raccomanda di limitare la precisione delle coordinate a 6
decimali, attraverso cui si può specificare qualsiasi posizione sulla terra con una
tolleranza di 10 centimetri. La specifica inoltre richiede che i dati siano memorizzati
con un sistema di riferimento di coordinate geografiche WGS 84, in latitudine e
longitudine, nello stesso stile dei dati GPS.
GML
(Geography
Markup
Language)
45
È una grammatica XML che rappresenta un formato di scambio aperto per i dati
territoriali. Definita originariamente da OGC, e diventata poi lo Standard ISO
19136:2008, essa fornisce la codifica XML (schemi XSD) delle classi concettuali
definite in diversi Standard ISO della serie 19100 e di classi aggiuntive quali:
geometrie, oggetti topologici, unità di misura, tipi di base, riferimenti temporali,
caratteristiche, sistemi di riferimento, copertura.
GeoPackag
e 46
È un formato aperto per la rappresentazione di dati geografici e può essere
un’alternativa al suddetto formato shapefile. Esso supporta SpatiaLite ovvero
un’estensione dello schema del database SQLite. Il principale vantaggio offerto da
GeoPackage è quello di rappresentare in un unico file diversi dati geografici, sia di
tipo vettoriale che raster, che possono essere gestiti anche tramite apposite
interrogazioni SQL. Lo standard è riconosciuto dall'Open Geospatial Consortium.
Formati aperti per i documenti
L’articolo 1 del nuovo CAD definisce:
p) documento informatico: l il documento elettronico che contiene la rappresentazione informatica di atti, fatti o
dati giuridicamente rilevanti;
p-bis) documento analogico: la rappresentazione non informatica di atti, fatti o dati giuridicamente rilevanti.
Il contesto normativo del recepimento della direttiva relativa al riutilizzo dell’informazione del settore
pubblico (D.lgs 2006, 24 gennaio, n. 36 – art. 2), definisce il documento come " la rappresentazione di
atti, fatti e dati a prescindere dal supporto nella disponibilità della pubblica amministrazione o dell’organismo di diritto
pubblico. La definizione di documento non comprende i programmi informatici”.
Formato Descrizione
ODF
(Open
Document
Format) 47
È uno standard dell’OASIS che specifica le caratteristiche di un formato per
documenti digitali basato su XML, indipendente dall’applicazione e dalla piattaforma
utilizzata.
La seguente serie di formati aperti è parte dello standard OASIS ODF:
• ODT (Open Document Text). Standard aperto per documenti testuali. È
stato adottato come formato principale per i testi in alcune suite per
l'automazione d'ufficio come OpenOffice.org e LibreOffice; è supportato da
altre come Microsoft Office, Google Drive e IBM Lotus.
• ODS (Open Document Spreadsheet). Standard aperto per fogli di calcolo.
Linee Guida per la Valorizzazione del Patrimonio Informativo Pubblico (2016) 34
Come nel caso precedente, è stato adottato come formato principale per i
fogli di calcolo in alcune suite per l'automazione d'ufficio come
OpenOffice.org e LibreOffice; è supportato da altre come Microsoft Office,
Google Drive e IBM Lotus.
• ODP (Open Document Presentation). Standard aperto per documenti di
presentazione. È stato adottato come formato principale per i documenti di
presentazione in alcune suite per l'automazione d'ufficio come
OpenOffice.org e LibreOffice; è supportato da altre come Microsoft Office,
Google Drive e IBM Lotus.
PDF
È un formato aperto creato da Adobe per la rappresentazione di documenti
contenenti testo e immagini che sia indipendente dalla piattaforma di lettura
(applicativo, sistema operativo e hardware). È stato standardizzato dall’ISO
(ISO/IEC 32000-1:2008) con una serie di formati differenti, ognuno avente una
propria prerogativa (e.g., PDF/UA per l’accessibilità, PDF/H per documenti
sanitari, PDF/A per l’archiviazione, ecc.). Si noti che rilasciare dati secondo tale
formato limita fortemente il riutilizzo dei dati stessi in quanto l'intervento umano
richiesto per la loro elaborazione è molto elevato (dati rilasciati in formato PDF con
una licenza aperta rappresentano solo il primo livello del modello dei dati aperti).
Akoma
Ntoso 48
È un linguaggio basato su XML per la rappresentazione di documenti giuridici. È in
fase di approvazione presso il consorzio OASIS ed è utilizzato dal Parlamento
Europeo e dalla Commissione Europea come standard documentale per i documenti
legislativi, giuridici e allegati tecnici.
33. W3C, Recommendation, Extensible markup language (XML) 1.0, http://www .w3.org/TR/xml/, novembre 2008
34. W3C, W3C, “Notation3 (N3): A readable RDF syntax”, http://www.w3.org/TeamSubmission/n3/, 2016
35. W3C Recommendation, RDF 1.1. Turtle, https://www.w3.org/TR/2014/REC-turtle-20140225/, febbraio 2014
36. W3C Recommendation, RDF 1.1. N-Triples https://www.w3.org/TR/2014/REC-n-triples-20140225/, febbraio
2014
37. IETF, RFC 4627 - The application/json Media Type for JavaScript Object Notation (JSON),
http://www.ietf.org/rfc/rfc4627.txt, 2016
38. W3C, Recommendation, “JSON-LD 1.0”, https://www.w3.org/TR/json-ld/, gennaio 2014
39. IETF, RFC 4180 - Common Format and MIME Type for Comma Separated Values (CSV) Files,
http://tools.ietf.org/html/rfc4180 , 2016.
40. W3C Recommendation – Generating JSON from Tabular Data on the Web https://www.w3.org/TR/csv2json/,
dicembre 2015
41. W3C Recommendation – Generating RDF from Tabular Data on the Web https://www.w3.org/TR/csv2json/,
dicembre 2015
42. ESRI, “Shapefile Technical Description”, http://www.esri.com/library/whitepapers/pdfs/shapefile.pdf, luglio
1998
43. OGC, KML, http://www.opengeospatial.org/standards/kml, 2016
44. geoJSON, http://geojson.org/, 2016.
45. OGC, Geography Markup Language – GML”,http://www.opengeospatial.org/standards/gml, 2016
46. OGC, GeoPackage http://www.geopackage.org/, 2016.
47. OASIS, “Open Document Format for Office Applications”, https://www.oasis-
open.org/committees/tc_home.php?wg_abbrev=office-collab, 2016.
48. Akoma Ntoso, XML for parliamentary, legislative & judiciary documents, http://www.akomantoso.org/, 2016.
49. IETF, RFC 7946 “The GeoJSON format”, https://tools.ietf.org/html/rfc7946, agosto 2016
50. UTF 8, https://tools.ietf.org/html/rfc3629, novembre 2003