H Περαιτέρω Χρήση Πληροφοριών του Δημόσιου Τομέα 5 - Ετοιμασία Συνόλων Δεδομένων για δημοσίευση στην Εθνική Διαδικτυακή Πύλη Ανοικτών Δεδομένων Έκδοση v.1.0 Εκπαίδευση Λειτουργών-Συνδέσμων
Εισαγωγή Ετοιμασία Μηχαναγνώσιμου Αρχείου Δεδομένων Καλές Πρακτικές Μορφοποίησης Παραδείγματα Μετατροπή Αρχείου Excel σε CSV Περιεχόμενα Για να καταστεί δυνατή η διάθεση ενός συνόλου δεδομένων κατά τρόπο που αυτό να μπορεί να επαναχρησιμοποιηθεί από εξωτερικές εφαρμογές (applications), το σύνολο δεδομένων θα πρέπει να εισαχθεί στο datastore της Πύλης. Εισάγοντας ένα σύνολο δεδομένων στο datastore, λαμβάνουν χώρα μια σειρά εσωτερικών διεργασιών, οι οποίες επιτρέπουν την διάθεση των δεδομένων στο κοινό μέσω API. Για να καταστεί αυτό δυνατό θα πρέπει τα δεδομένα να δημοσιευθούν στην Πύλη σε μορφή CSV. Μηχαναγνώσιμα είναι τα δεδομένα σε μορφότυπο που μπορεί να αναγνωστεί και ερμηνευτεί αυτόματα από ένα πρόγραμμα υπολογιστή, όπως για παράδειγμα δεδομένα οργανωμένα σε πίνακα με στήλες, ο οποίος μπορεί να εξαχθεί σαν αρχείο CSV (comma separated value). Εισαγωγή
Η μετατροπή ενός αρχείου Excel σε CSV δεν απαιτεί πέραν των 2 απλών χειρισμών (Save As CSV και καθορισμός encoding σε UTF8). Προτού όμως γίνει αυτό τα δεδομένα που περιλαμβάνονται στο αρχείο Excel θα πρέπει να οργανωθούν σε ενιαίο μηχαναγνώσιμο πίνακα ακολουθώντας μια σειρά από κανόνες: Υποχρεωτικά: Η κάθε στήλη έχει όνομα (πρώτη γραμμή ενός πίνακα = ονόματα στηλών) (Παραδείγματα 1 και 3) Τα ονόματα των στηλών είναι στα αγγλικά ή με λατινικούς χαρακτήρες (Παράδειγμα 1) Οι τιμές των πεδίων είναι μηχαναγνώσιμες (Παράδειγμα 1) Ετοιμασία Μηχαναγνώσιμου Αρχείου Δεδομένων
Δεν επιτρέπονται: Χ Ενοποιημένα κελιά (Merged cells) (Παράδειγμα 3) Χ Πολλαπλοί Πίνακες (Παράδειγμα 3) Χ Υποσημειώσεις/περιγραφές (περιλάβετε τις πληροφορίες αυτές στα μεταδεδομένα) (Παράδειγμα 1) Χ Κενές γραμμές ή στήλες στον πίνακα (Παραδείγματα 1 και 3) Χ Σύνολα τιμών (sum of values) των γραμμών Ετοιμασία Μηχαναγνώσιμου Αρχείου Δεδομένων
Καλές Πρακτικές Μορφοποίησης: Οι ημερομηνίες (πχ έτος, ημερομηνία) να περιλαμβάνονται σε μία στήλη (Παράδειγμα 2) Οι τιμές κάθε αριθμητικού πεδίου (πχ αρ. εργοδοτουμένων, ασφαλιστέες αποδοχές) θα πρέπει να βρίσκονται σε μία μοναδική στήλη (Παραδείγματα 1 και 3) Ο πίνακας δεδομένων καλύτερα να περιλαμβάνει όσο το δυνατό λιγότερες στήλες, και κατά προτίμηση όχι περισσότερες από 30 (Παράδειγμα 2) Χρησιμοποιήστε τις γραμμές (records) για να περιλάβετε όλα τα δεδομένα μίας εγγραφής (πχ ένα πρόσωπο /αντικείμενο / στατιστική μονάδα / έτος, κλπ) και τις στήλες σαν αριθμητικά πεδία. (Παραδείγματα 2 και 4) Ετοιμασία Μηχαναγνώσιμου Αρχείου Δεδομένων
Παρουσίαση του τρόπου «καθαρισμού» ενός συνόλου δεδομένων. Σε πρώτη φάση αφαιρέθηκαν οι κενές γραμμές και στήλες στον πίνακα δεδομένων και στη συνέχεια δημιουργήθηκε νέα ενιαία στήλη για την ημερομηνία, σε μηχαναγνώσιμο μορφότυπο, η οποία αντικατέστησε τις αρχικές στήλες με τον μήνα και το έτος. Παράδειγμα 1
Σύγκριση τρόπων οργάνωσης πίνακα δεδομένων (κατά ύψος Vs κατά μήκος). Παράδειγμα 2
Παρουσίαση τρόπου σύμπτυξης πολλαπλών πινάκων δεδομένων σε ένα πίνακα, με ταυτόχρονη δημιουργία στήλης για το έτος, μεταφορά των υποσημειώσεων στα μεταδεδομένα, αφαίρεση ενοποιημένων κελιών (merged cells) και προσθήκη ονομάτων των στηλών με λατινικούς χαρακτήρες. Παράδειγμα 3
Παρουσίαση τρόπου οργάνωσης πίνακα δεδομένων – Χρήση γραμμών (records) για περίληψη όλων των δεδομένων μίας εγγραφής (πχ ένα πρόσωπο /αντικείμενο / στατιστική μονάδα / έτος, κλπ) και χρήση στηλών σαν αριθμητικά πεδία. Παράδειγμα 4
Η μετατροπή ενός αρχείου Excel, στο οποίο περιέχονται τα δεδομένα, σε CSV είναι μια απλή διαδικασία 2 φάσεων. Βασική προϋπόθεση για την εκτέλεση της διαδικασίας αυτής είναι τα δεδομένα μας να έχουν καθαριστεί και οργανωθεί σε πίνακα ακολουθώντας τις οδηγίες που περιγράφηκαν πιο πάνω. Μετατροπή Αρχείου Excel σε CSV A’ Φάση – Αποθήκευση Αρχείου ως CSV Βήμα 1: Από το κυρίως μενού του Excel επιλέξτε File και μετά Save As Βήμα 2: Στο παράθυρο που εμφανίζεται από τον κατάλογο Save as type επιλέξτε CSV (Comma delimited) και κάντε κλικ στο κουμπί Save. Βήμα 3: Στο παράθυρο που εμφανίζεται επιλέξτε Yes. Βήμα 4: Κλείστε το αρχείο. Στο παράθυρο που εμφανίζεται επιλέξτε Don’t Save. 1 2 3 4
Μετατροπή Αρχείου Excel σε CSV B’ Φάση – Καθορισμός encoding σε UTF8 Βήμα 1: Ανοίξτε το αρχείο CSV που αποθηκεύσατε κάνοντας δεξί κλικ πάνω του και επιλέγοντας κατά σειρά Open With Notepad Βήμα 2: Ελέγξτε τα δεδομένα στο αρχείο και βεβαιωθείτε ότι δεν υπάρχουν περιττά κόμματα δεξιά των δεδομένων ή μετά την τελευταία γραμμή δεδομένων. Βήμα 3: Από το μενού που εμφανίζεται επιλέξτε Save As. Βήμα 4: Στο παράθυρο που εμφανίζεται προσθέστε στο τέλος του ονόματος του αρχείου .csv Ακολούθως καθορίστε το Encoding σε UTF-8 κάντε κλικ στο κουμπί Save. 1 2 4 3
Ομάδα Ανοικτών Δεδομένων Τμήμα Δημόσιας Διοίκησης και Προσωπικού Υπουργείο Οικονομικών Tel: +357 22 60 1523 / 1515 | Fax: +357 22 602763 Web: www.data.gov.cy | Twitter: @OpenDataCY