1 / 22

WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης. Γρηγορίου Παρασκευή ΚΕΡΚΥΡΑ 2004.

landry
Download Presentation

WEB ARCHIVING : Πρακτικές Ψηφιακής Αρχειοθέτησης

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. WEBARCHIVING:Πρακτικές Ψηφιακής Αρχειοθέτησης Γρηγορίου Παρασκευή ΚΕΡΚΥΡΑ 2004

  2. As we move into the electronic era of digital objects it is important to know that there are new barbarians at the gate and that we are moving into an era where much of what we know today, much of what is coded and written electronically, will be lost forever. We are, to my mind, living in the midst of digital Dark Ages; consequently, much as monks of times past, it falls to librarians and archivists to hold to the tradition which reveres history and the published heritage of our times. – Terry Kuny, XIST/Consultant, National Library of Canada [Kuny 1998]

  3. Εισαγωγή… WEB – πυρήνας πολιτισμού & γνώσης αλλά παρατηρείται άγνοια όσον αφορά τη σπουδαιότητα αρχειοθέτησης και διατήρησης του περιεχομένου του

  4. Εισαγωγή… ταχεία ανάπτυξη της δημιουργίας και της διάδοσης των ψηφιακών αντικειμένων βραχυπρόθεσμα όμως αδιαφορία για τη μακροπρόθεσμη συντήρηση των ψηφιακών πληροφοριών γιατί ψηφιακές πληροφορίες είναι ιδιαίτερα εύθραυστες

  5. Εισαγωγή… σύγχρονα μέσα ψηφιακής απομνημόνευσης -> πιο μικρή διάρκεια ζωής τεχνολογίες πρόσβασης > αλλάζουν συνεχώς ο χρόνος μεταξύ της κατασκευής μιας ψηφιακής πληροφορίας και της συντήρησης της στενεύει

  6. Πρώτες Προσπάθειες (1) 1996 • Εθνικές Βιβλιοθήκες: –Αυστραλίας (NLA)->PANDORA project -Καναδά (NLC) -Σουηδίας • Internet Archive (ένα μη κερδοσκοπικό οργανισμό που αναπτύχθηκε στις Η.Π.Α.)

  7. Πρώτες Προσπάθειες (2) Χρησιμοποιήθηκαν 2 διαφορετικές προσεγγίσεις αρχειοθέτησης του Web: • Αυστραλία & Καναδάς: πολιτική επιλεκτικής αρχειοθέτησης που βασίστηκε στην προεπιλογή, συγκέντρωση και καταλογογράφηση μεμονωμένων ιστοσελίδων

  8. Πρώτες Προσπάθειες (3) 2. Σουηδία & Internet Archive: χρησιμοποίησαν crawlers (εργαλεία αυτόματης επιλογής υλικού) για την αρχειοθέτηση –> δίνουν μεγαλύτερο εύρος σε θέματα επιλογής και συλλογής υλικού αλλά δεν επιτρέπουν τον έλεγχο μεμονωμένων περιοχών ή την προσαρμογή της συχνότητας αρχειοθέτησης των συγκεκριμένων περιοχών

  9. Πρώτες Προσπάθειες (4) • Οι 2 παραπάνω προσπάθειες δενεπέφεραν αξιόλογα αποτελέσματα αλλάυπογράμμισαν την αναγκαιότητα κ τησπουδαιότητα της διαδικασίαςαρχειοθέτησης του web. • Ολοένα και αυξανόμενος αριθμός Εθνικών Βιβλιοθηκών, Πανεπιστημίων & συναφών ιδρυμάτων συνειδητοποιεί τη σπουδαιότητα του εγχειρήματος και στοχεύει στη βέλτιστη πραγματοποίησή του με συγκεκριμένα projects.

  10. Πρώτες Προσπάθειες (5) Παράδειγμα: • NEDLIB European Project -> δημιουργία ενός open source crawler που θα παρέχει συγκεκριμένες λειτουργικές απαιτήσεις σε θέματα επιλογής των ιστοτόπων προς αρχειοθέτηση

  11. Εθνική Βιβλιοθήκη της Γαλλίας (BnF) - 1999 • Ερευνητικό Project Αρχειοθέτησης του Web • 2 στόχοι: • βελτίωση των crawlers για συνεχή και προσαρμοσμένη αρχειοθέτηση • εξέταση κάθε βήματος της διαδικασίας ώστε να επιτευχθεί η σωστή και πλήρης αποθήκευση του υλικού του Διαδικτύου

  12. Προβλήματα… Μεγάλο τμήμα του πολυποίκιλου υλικού του web δεν είναι προσβάσιμο από τους crawlers -> ”deep web” : αποθετήρια εγγράφων προσβάσιμα μόνο μέσω των περιγραφικών πληροφοριών που αποθηκεύονται στις σχεσιακές βάσεις δεδομένων (βλ. τις 30 εκ. ψηφιοποιημένες σελίδες από τη συλλογή Gallica <http://gallica.bnf.fr>).

  13. Προτεραιότητες… • πρέπει να εκμεταλλευτούμε την δυνατότητα του Διαδικτύου να συλλέγει αυτόματα περιεχόμενο χρησιμοποιώντας τους crawlers • τα εργαλεία συλλογής πρέπει να είναι αυτόματα, όσο το δυνατόν περισσότερο, προκειμένου να εξεταστεί το τεράστιο σε μεγέθη περιεχόμενο που διατίθεται στο Διαδίκτυο

  14. Προτεραιότητες… • για υψηλής ποιότητας περιεχόμενο στον Ιστό, το οποίο δεν είναι εντοπίσιμο και συλλέξιμο από τους crawlers (άρα δεν υπάρχει κανένας αυτοματοποιημένος τρόπος να αποκτηθεί αυτό) αλλά είναι όμως αξιόλογο, απαιτούνται επιπρόσθετες προσπάθειες «χειρωνακτικής συγκομιδής»

  15. Προτεραιότητες… • ακόμη κι αν οι crawlers δεν μπορούν να έχουν πρόσβαση στο «βαθύ περιεχόμενο» του Ιστού, μπορούν τουλάχιστον να παρέχουν την τεχνική ανάλυση χαρακτηριστικών γνωρισμάτων για την ανίχνευση του • ο συνδυασμός αυτόματης & χειρωνακτικής συλλογής περιεχομένου είναι ο μόνος τρόπος για να εξασφαλίσουμε τον εντοπισμό και την διατήρηση του πολύτιμου υλικού του Web

  16. Εντοπισμός & Αρχειοθέτηση Υλικού του Web

  17. Στιγμιαία Συλλογή Υλικού • Διαρκεί μήνες λόγω της μεγάλης ποσότητας των δεδομένων • Κάθε site αρχειοθετείται κάθε 2-6 μήνες ανεξαρτήτως περιεχομένου • Ανεπαρκές διάστημα για την πλειοψηφία των sites (π.χ. site εφημερίδας) • Αύξηση συχνότητας συλλογής ->μεγάλο κόστος • Λύση: βελτίωση της διαδικασίας συλλογής προσαρμόζοντας τη συχνότητα αποθήκευσης με τa χαρακτηριστικά του site

  18. Αξιολόγηση Ιστοσελίδων (1) • Μελέτηκαι εκτίμηση των ποσοστών ανανέωσης των σελίδων με τη βοήθεια του πρωτοκόλλου http • Αξιολόγηση χρησιμότητας μιας ιστοσελίδας • Παράμετροι και πολιτικές επιλογής υλικού ανάλογα με τη βιβλιοθήκη/ίδρυμα που κάνει την διαδικασία αρχειοθέτησης π.χ. Εθνική Βιβλιοθήκη – διατηρούμε και πάλι οτιδήποτε δημοσιεύεται στο Διαδίκτυο; - ποια τα κριτήρια επιλογής ;

  19. Αξιολόγηση Ιστοσελίδων (2) • Ένα εξίσου σημαντικό κριτήριο μπορεί να είναι τα link που μπορεί να περιέχει ένα site • κάποιες ιδιαιτερότητες όσον αφορά γλώσσα, δομή κ.λ.π. • ή ακόμη και το ποσοστό «επισκεψιμότητας» του π.χ. Google Όμως όλα τα παραπάνω μπορεί να παραπλανήσουν και να οδηγήσουν σε λανθασμένα συμπεράσματα

  20. Συμπεράσματα… • Είναι δύσκολο να δημιουργήσουμε μεγάλες συλλογές υλικού προερχόμενο από το Διαδίκτυο με «χειρωνακτικά μέσα» επιλογής, αλλά ούτε μπορούμε να εμπιστευτούμε μια τέτοια διαδικασία άβουλες μηχανές όπως είναι οι crawlers. • Κρίνεται λοιπόν απαραίτητη η δημιουργία νέων εκσυγχρονισμένων εργαλείων συλλογής υλικού προσαρμοσμένων στις απαιτήσεις της εποχής.

  21. Βιβλιογραφία/Δικτυογραφία • http://www.dlib.org/dlib/january00/01hodge.html • http://www.dlib.org/dlib/december02/masanes/12masanes.html • http://www.dlib.org/dlib/january02/kenney/01kenney.html • http://www.dlib.org/dlib/january01/warnick/01warnick.html

  22. ΕΡΩΤΗΣΕΙΣ - ΑΠΟΡΙΕΣ

More Related