sabato 12 luglio 2014

I formati di pubblicazione - Aumentare la readability

I dati aperti relativi ai settori formazione e lavoro della Provincia di Roma, pubblicati su RomaLabor alla pagina

http://romalabor.provincia.roma.it/RomaLabor/it/dettagli.page?contentId=PAG1169

sono stati inizialmente forniti in 4 formati: xml, tsv, csv e csv leggibile da Excel italiano. Tale scelta ha ricalcato quella del portale opendata.provincia.roma.it, e si basa su valutazioni che io stesso stabilii nel 2012.

Per rendere però maggiormente fruibili i dati, abbiamo stabilito di aggiungere, per ogni dataset, una ulteriore pubblicazione in formato json, nonchè di fornire un file xml per descrivere la struttura di ciascuna tipologia di dato pubblicato.
Tale aggiornamento è stato appena completato. Pertanto già da ora gli utenti trovano, per ciascun dataset, 6 file differenti. Lo scopo è ovviamente quello di consentire un accesso ai dati che sia il più facile e il più chiaro possibile, nonchè quello di aumentare la "machine readability" di quanto pubblicato.

Un ulteriore sviluppo che stiamo portando avanti è quello di fornire un file xml contenente l'indice dei dati pubblicati. L'obiettivo è quello di creare una "directory tree" di tutti i dataset, che consenta una visione d'insieme delle informazioni presenti e che permetta un download diretto oppure, ove possibile, una anteprima del dato.
In tale file verranno fornite anche una serie di indicazioni ausiliari, quali ad esempio la data di creazione del dataset o il significato specifico del fileset stesso.

Contiamo di presentare questo file indice entro la prossima settimana, insieme ad uno strumento di analisi interattiva dei dati degli avviamenti al lavoro che consentirà l'esportazione automatica dei risultati in formato open.

Nessun commento:

Posta un commento