290 likes | 461 Views
Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο. Μεταπτυχιακό Πρόγραμμα στην Επιστήμη της Πληροφορίας Ηλεκτρονική Δημοσίευση Διδάσκοντες Σαράντος Καπιδάκης Μανόλης Γεργατσούλης. Εργασία με θέμα: Αρχειοθέτηση του Ιστού: η περίπτωση του UK Web Archiv ing Consortium. Εισηγητής:
E N D
Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο Μεταπτυχιακό Πρόγραμμα στην Επιστήμη της Πληροφορίας Ηλεκτρονική Δημοσίευση Διδάσκοντες Σαράντος Καπιδάκης Μανόλης Γεργατσούλης
Εργασία με θέμα:Αρχειοθέτηση του Ιστού: η περίπτωση του UK Web Archiving Consortium Εισηγητής: Σταμάτιος Γιαννουλάκης
Σημεία Παρουσίασης • Λόγοι αρχειοθέτησης ιστού • Τεχνικές αρχειοθέτησης • Προβλήματα αρχειοθέτησης • UK Web Archiving Consortium • Ιστορία • Στόχοι • Μεθοδολογία • Λογισμικό • Πνευματικά δικαιώματα • Οφέλη • Δυσκολίες • Ψηφιακή διατήρηση • Συμπεράσματα UK Web Archive Consortium
Λόγοι αρχειοθέτησης Ιστού 1/2 • Ο ιστός μετατρέπεται σε μέσο δημοσίευσης νέας πληροφορίας, η οποία τώρα είναι διαθέσιμη μόνο σε ψηφιακή μορφή • Ο όγκος του ιστού είναι τεράστιος, πάνω από 8,4 δισεκατομμύρια σελίδες το 2001 • 550 δισεκατομμύρια συνδεδεμένα τεκμήρια που αποτελούν τον ονομαζόμενο «Βαθύ» Ιστό • Ο όγκος του αυξάνεται κατά 7 εκατομμύρια σελίδες καθημερινά UK Web Archive Consortium
Λόγοι αρχειοθέτησης Ιστού 2/2 Όμως ταυτόχρονα • Το ψηφιακό υλικό έχει αποδειχθεί παροδικό, εύθραυστο και εφήμερο • Ο μέσος όρος ζωής μιας σελίδας είναι περίπου 6 εβδομάδες • Αρκετό υλικό έχει χαθεί • 44% των σελίδων δεν μπορούσαν να εντοπιστούν τον επόμενο χρόνο • Έρευνα έδειξε ότι σχεδόν το 20% των ιστοσελίδων που αναφερόντουσαν στις επιτομές της Medline, την δεκαετία πριν το 2004 είχαν εξαφανιστεί • Από τους 175 κατόχους ιστοσελίδας που έχουν μέχρι τώρα δώσει την άδεια τους στην Wellcome Library, ώστε ο ιστοχώρος τους να είναι μέρος του UKWAC: • 70% δήλωσε ότι δεν αρχειοθετούσε τους ιστοχώρους του • 24% δήλωσε ότι αρχειοθετούσε τους ιστοχώρους του • 6% δεν δήλωσε τίποτα UK Web Archive Consortium
Αρχειοθέτηση UK Web Archive Consortium
Τεχνικές αρχειοθέτησης • Εκτεταμένη ή Αυτόματη Συγκομιδή • Περιλαμβάνει τη συλλογή των ιστοχώρων και των απευθείας πόρων χρησιμοποιώντας crawlers για να ανακτήσει αυτόματα το υλικό • Επιλεκτική ή Θεματική • Οι επιλεκτικές προσεγγίσεις στοχεύουν στην αρχειοθέτηση καθορισμένων περιοχών του Ιστού η συγκεκριμένους πόρους σύμφωνα με τα διευκρινισμένα κριτήρια UK Web Archive Consortium
Τεχνικές αρχειοθέτησης • Κατάθεση • Σ’ αυτή τη προσέγγιση οι εκδότες καταθέτουν το δικτυακό υλικό τους σ’ ένα αποθετήριο που μπορεί να είναι ένα εθνικό αρχείο ή μια βιβλιοθήκη • Συνδυασμένες προσεγγίσεις • Ουσιαστικά πρόκειται για ένα συνδυασμό επιλεκτικών και θεματικών τεχνικών συλλογής για τη βέλτιστη κάλυψη του υλικου UK Web Archive Consortium
Προβλήματα αρχειοθέτησης • Το πολιτιστικό πρόβλημα. Ο ίδιος ο ρυθμός της τεχνικής αλλαγής παρασύρει μαζί του πολλά έγγραφα. Ποία από αυτά αργότερα θα γίνουν ιστορικά και πως θα μπορέσουν να συντηρηθούν • Το τεχνικό πρόβλημα. Ένα αρχείο Ιστού πρέπει να λύσει τα τεχνικά προβλήματα που αντιμετωπίζουν όλα τα ψηφιακά έγγραφα καθώς επίσης και τα μοναδικά προβλήματά του. • Το οικονομικό πρόβλημα. Ποιος έχει την ευθύνη για την διατήρηση και την συντήρηση του Ιστού και τους πόρους για να το κάνει αυτό • Το νομικό πρόβλημα. Το θέμα των πνευματικών δικαιωμάτων στον ψηφιακό κόσμο ακόμα δεν είναι απόλυτα ξεκάθαρο UK Web Archive Consortium
UK Web Archiving Consortium • Το UKWAC δημιουργεί το πρώτο δημόσιο διαθέσιμο αρχείο των βρετανικών ιστοχώρων. • 912 τίτλοι στο αρχείο • 3067 στιγμές ιστοχώρων UK Web Archive Consortium
Συνεργασία UK Web Archive Consortium
Ιστορία • Ιστός έχει γίνει η πηγή πληροφοριών, ωστόσο πολύ λίγη προσοχή έχει δοθεί στη μακροπρόθεσμη συντήρηση των ιστοχώρων • Με αφορμή το παραπάνω έξη κορυφαία βρετανικά λειτούργησαν ώστε να αναπτυχθεί μια δοκιμή για την αρχειοθέτηση των βρετανικών ιστοχώρων. • Η ιστορία του προγράμματος αρχίζει τον Ιούνιο του 2004 και αποφασίζεται αρχικά να διαρκέσει δυο χρόνια UK Web Archive Consortium
Στόχοι • Να προμηθευτεί μια άδεια από την Εθνική Βιβλιοθήκη της Αυστραλίας για να χρησιμοποιήσει το λογισμικό PANDAS για το πρόγραμμα. • Να αναθέσει μια σύμβαση σε έναν εξωτερικό ανάδοχο για να παρέχει την κοινή υποδομή για το πιλοτικό έργο. • Να εργαστεί σε συνεργασία στο επίτευγμα ενός κοινού εξερευνήσιμου αρχείου των επιλεγμένων ιστοχώρων που ερευνούν τις λύσεις στα ζητήματα όπως, την επιλογή, τη διαχείριση δικαιωμάτων και την ψηφιακή συντήρηση. • Να αξιολογήσει την ανάπτυξη της συνεργάσιμης υποδομής για την αρχειοθέτηση Ιστού σε σχέση με την αξιολόγηση της μονιμότητας και της μακροπρόθεσμης δυνατότητας πραγματοποίησης μιας τέτοιας συνεργάσιμης επιχείρησης. UK Web Archive Consortium
Μεθοδολογία • Η μέθοδος που χρησιμοποιείται για την συλλογή των ιστοσελίδων είναι η επιλεκτική. • Η διαδικασία αρχειοθέτησης ιστοχώρων ακολουθεί τις βασικές αρχειακές αρχές της Επιλογής, της Απόκτησης, της Περιγραφής και της Πρόσβασης • Πλεονεκτήματα • Κάθε ντοκουμέντο του αρχείου ελέγχεται ώστε να διασφαλίζεται αφενός μεν η ποιότητά του, αφετέρου δε ότι έχει αντιγραφεί σωστά και με τη μέγιστη λειτουργικότητα όσο αυτό είναι δυνατό • Κάθε ντοκουμέντο μπορεί να καταλογογραφηθεί πλήρως και να αποτελέσει έτσι μέρος της εθνικής βιβλιογραφίας • Η επιλεκτική αρχειοθέτηση υποστηρίζει τη συνεννόηση με τους εκδότες ώστε να συμπεριληφθούν τα ψηφιακά τους δημοσιεύματα στο αρχείο. Αυτό είναι απαραίτητο αφού δεν υπάρχει ακόμη το νομικό πλαίσιο της υποχρεωτικής κατάθεσης όπως συμβαίνει με το έντυπο υλικό UK Web Archive Consortium
Μεθοδολογία • Μειονεκτήματα • Υποκειμενική κρίση για την αξία των πόρων, είναι αναπόφευκτη • Η επιλεκτική προσέγγιση απαιτεί χρόνο, κόπο και έχει υψηλό κόστος • Η επιλεκτική προσέγγιση κοστίζει σε απώλεια εύρους και ποικιλομορφίας των δημοσιευμάτων UK Web Archive Consortium
Λογισμικό • Το λογισμικό που χρησιμοποιήθηκε είναι το PANDAS(PANDORA Digital Archiving System) • PANDORA(Preserving and Accessing Networked DOcumentary Resources of Australia) UK Web Archive Consortium
Λογισμικό • Διαχείριση των μεταδεδομένων για τους τίτλους που και έχουν επιλεχτεί και έχουν απορριφθεί για το συνυπολογισμό στο αρχείο. • Αρχικά συλλέγει τους τίτλους που αρχειοθετούνται. • Διαχείριση της ποιότητας ελέγχου και της διαδικασίας επίλυσης προβλήματος. • Προετοιμασία του τεκμηρίου για τη δημόσια επίδειξη και παραγωγή μιας σελίδας τίτλου. • Διαχείριση των περιορισμών πρόσβασης. • Παροχή διοικητικών εκθέσεων. • Επίσης στον HTML της σελίδας εισάγει μια κεφαλίδα σαν και αυτή: • <html lang="eng"><!--Gathered with permission by UKWAC from www.history.ac.uk/ihr/Resources/ at Tue, 28 Jun 2005 09:05:17 GMT--><head><title>History On-Line</title><meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"><!--owner_name="Nicole Harris"--> UK Web Archive Consortium
Λογισμικό • Το λογισμικό που χρησιμοποιείται για την πρόσκτηση των ιστοσελίδων είναι το HTTrack • Επιτρέπει τη μεταφόρτωση της περιοχής από το Διαδίκτυο σε έναν τοπικό κατάλογο • Συνεχώς δημιουργεί όλους τους καταλόγους • Φορτώνει το HTML, τις εικόνες, και άλλα αρχεία από τον κεντρικό υπολογιστή • Τακτοποιεί τη δομή των συνδέσεων της αρχικής ιστοσελίδας UK Web Archive Consortium
Σελίδα τίτλου UK Web Archive Consortium
Πνευματικά δικαιώματα • Οι πληροφορίες που φυλάσσονται στο αρχείο κοινοπραξίας αρχειοθέτησης βρετανικού Ιστού φυλάσσονται με την άδεια των κατόχων πνευματικών δικαιωμάτων. Οι οποίοι και είναι κάτοχοι των πνευματικών δικαιωμάτων • Εάν επιθυμεί ο χρήστης να αντιγράψει οποιεσδήποτε πληροφορίες που περιλαμβάνονται στο αρχείο πρέπει να έρθει σε επαφή με τον κάτοχο πνευματικών δικαιωμάτων και να επιδιώξει την άδειά του • Μια σύνδεση με τη δήλωση πνευματικών δικαιωμάτων κάθε εκδότη, όπου παρέχονται και οι όροι για αρχείο UK Web Archive Consortium
Πνευματικά δικαιώματα • Το UKWAC έχει αποκλείσει σκόπιμα τις μηχανές αναζήτησης από το περιεχόμενο του. Αυτό για να εξασφαλιστεί η αποφυγή σύγχυσης μεταξύ των "ζωντανών" και αρχειοθετημένων εκδόσεων των ιστοχώρων • Το λογισμικό πρόσκτησης ιστοχώρων δεν μπορεί να συλλέξει οποιοδήποτε υλικό που προστατεύεται πίσω από έναν κωδικό πρόσβασης, ούτε μπορεί αυτό "να ραγίσει" ή "να σπάσει" τους κωδικούς πρόσβασης UK Web Archive Consortium
Οφέλη • Ανοιχτή πρόσβαση • Εύρεση σημαντικού υλικού • Εντοπισμός υλικού που δεν είναι πλέον διαθέσιμο • Έλεγχος παραπομπών Για τους παραγωγούς των ιστοχώρων • Μεγαλύτερη έκθεση για την οργάνωσή και την ιστοσελίδα • Διατήρηση της ιδρυματικής μνήμης • Διατήρηση των διανοητικών προτερημάτων του ιδρύματος UK Web Archive Consortium
Δυσκολίες • Υπήρξαν λίγες εφαρμογές από τις οποίες UKWAC θα μπορούσε να επιλέξει κατά τον έρευνα μιας κατάλληλης εφαρμογής αρχειοθέτησης Ιστού • Το Διαδίκτυο είναι ένα μέσο που εκτίθεται στην ανάπτυξη και αλλαγές • Ανάγκη για νέες δεξιότητες UK Web Archive Consortium
Ψηφιακή διατήρηση • Το θέμα της ψηφιακής διατήρησης είναι σημαντικό ζήτημα για το UKWAC • Το UKWAC στηρίζεται στη διεθνή συνεργασία στην εργασία του και μοιράζεται την πείρα με την κοινότητα αρχειοθέτησης Ιστού • British Library μέλος του International Internet Preservation Consortium (IIPC), μέλη του UKWAC έχουν λειτουργήσει με το IIPC στις προδιαγραφές και τις απαιτήσεις για το επερχόμενο "εργαλείο διατήρησης" UK Web Archive Consortium
Συμπεράσματα • Η αρχειοθέτηση του ιστού είναι μια πολύπλοκη εργασία που απαιτεί κόπο και πόρους. • Το κυριότερο ίσως ζήτημα που αντιμετωπίζουμε είναι η ψηφιακή διατήρηση • Πως μπορούμε να διατηρήσουμε τα ψηφιακά τεκμήρια με τις προκλήσεις που παρουσιάζουν; • Σίγουρα το μέλλον, η πείρα και τα λάθη του παρελθόντος, καθώς και η σταθεροποίηση της τεχνολογίας θα βοηθήσουν στην καλύτερη αρχειοθέτηση των ψηφιακών τεκμηρίων στον (Ιστό;) UK Web Archive Consortium
Βιβλιογραφία • National Library of Australia. Preservation Services Branch.(12 Απριλίου 2006). PADI - Web archiving. Ανακτήθηκε 12 Απριλίου, 2006, από http://www.nla.gov.au/padi/topics/92.html • Day, M. (25 Φεβρουαρίου 2005). Collecting and preserving the World Wide Web: A feasibility study undertaken for the JISC and Wellcome Trust. Ανακτήθηκε 16 Απριλίου, 2006, από http://www.jisc.ac.uk/uploaded_documents/archiving_feasibility.pdf • UK Web Archiving Consortium. UK Web Archiving Consortium: Archive. Ανακτήθηκε 12 Μαρίου, 2006, από http://www.webarchive.org.uk/ • Bailey, S. & Thompson, D. (Ιανουάριος 2006). UKWAC: Building the UK's First Public Web Archive. D-Lib Magazine, 12 . Ανακτήθηκε 13 Μαρτίου, 2006, απόhttp://www.dlib.org/dlib/january06/thompson/01thompson.html • Phillips, M. PANDORA, Australia's Web Archive, and the Digital Archiving System that Supports it. Ανακτήθηκε 16 Απριλίου, 2006, από http://www.nla.gov.au/nla/staffpaper/2003/mphillips1.html • Cathro, W., Webb, C. & Whiting, J. Archiving the Web: The PANDORA Archive at the National Library of Australia. Ανακτήθηκε 15 Απριλίου, 2006, από http://www.nla.gov.au/nla/staffpaper/2001/cathro3.html • National Library of Australia. Pandora Archive - NLA Selection Guidelines. Ανακτήθηκε 19 Απριλίου, 2006, απόhttp://pandora.nla.gov.au/selectionguidelines.html • OCLC(14 Οκτωβρίου 2001). On the size of the World Wide Web. Ανακτήθηκε 12 Ιουνίου, 2006, από http://www.pandia.com/sw-2001/57-websize.html • Rauber, A., Aschenbrenner, A., Witvoet, O., Bruckner, O. & Kaiser, M. (Δεκέμβριος 2002). Uncovering Information Hidden in Web Archives: A Glimpse at Web Analysis building on Data Warehouses. D-Lib Magazine, 8. Ανακτήθηκε 21 Απριλίου, 2006, από http://www.dlib.org/dlib/december02/rauber/12rauber.html • Lyman, P. Archiving the World Wide Web: Problem Statement: Why Archive the Web?. Ανακτήθηκε 12 Απριλίου, 2006, από http://www.clir.org/pubs/reports/pub106/web.html • Thompson, D. Future Proofing your Website an UKWAC Perspective. Ανακτήθηκε 11 Ιουνίου, 2006, από http:// www.dcc.ac.uk/events/fpw-2006/fpw_2006_UKWAC.ppt UK Web Archive Consortium
Ευχαριστώ πολύ για την προσοχή και την υπομονή σας UK Web Archive Consortium