250 likes | 393 Views
ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ. Κουλικούρδη Άννα Τηλ/νο: 210-6682737 E-mail: akou@ait.gr. ΘΕΜΑ:. Πολυγλωσσικές & Πολυπολιτισμικές Ψηφιακές Βιβλιοθήκες. Τι περιλαμβάνει το θέμα;. Γενικά ζητήματα του πολιτισμού και της γλώσσας
E N D
ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ Κουλικούρδη Άννα Τηλ/νο: 210-6682737 E-mail: akou@ait.gr
ΘΕΜΑ: Πολυγλωσσικές& Πολυπολιτισμικές Ψηφιακές Βιβλιοθήκες
Τι περιλαμβάνει το θέμα; • Γενικά ζητήματα του πολιτισμού και της γλώσσας • Μετάβαση από τοπικά σε παγκόσμια συστήματα & οι σχεδιαστικές προκλήσεις τους • Πολυγλωσσική ανάκτηση πληροφοριών (CLIR) • Τεχνικά ζητήματα (σετ χαρακτήρων γλωσσών- μονογλωσσικά & πολυγλωσσικά) • Τρέχουσες χρήσεις & προσεγγίσεις στο διεθνή & ελληνικό χώρο • Περιορισμοί του σήμερα • Κριτική & σχόλια • Σημαντικές πηγές, προσπάθειες και θέματα • Ερωτήματα και προβληματισμοί
Πώς εντάσσεται το θέμα στην ενότητα; • Ψηφιακές Βιβλιοθήκες (DLs) προσβάσιμες μέσω WWW χωρίς εθνικά όρια και σύνορα • Αποτελεσματικότερη ανταλλαγή δεδομένων και επικοινωνία • Διεθνής βιβλιοθηκονομική κοινότητα • Κατάργηση αποκλεισμών ή περιορισμών πρόσβασης στη γνώση • Επιβίωση μη κυρίαρχων (non-dominant) γλωσσών και των ψηφιακών βιβλιοθηκών που διαθέτουν υλικό σε αυτές
Γιατί είναι σημαντικό ως θέμα; • Ως τώρα, προσπάθειες επικεντρωμένες σε μονογλωσσικές ψηφιακές βιβλιοθήκες • Δεσπόζουσα γλώσσα η Αγγλική • Επιτακτική ανάγκη για διαλειτουργικότητα, φορητότητα και ανταλλαγή δεδομένων • Ανάπτυξη πληροφοριακής υποδομής και προτύπων • Ενημέρωση επιστημόνων της πληροφόρησης, σχεδιαστών και ειδικών στις τεχνολογίες επικοινωνίας
Στατιστικά Στοιχεία • Οι on-line γλώσσες που χρησιμοποιούνται για τη διάχυση γνώσης στο WWW έχουν ως εξής: • Αγγλική: 40.2% • Κινεζική:9.8% • Γιαπωνέζικη:9.2% • Ισπανική:7.2% • Αν θέλαμε να μεταφράσουμε τις 400.000.000 μη Αγγλικές σελίδες του WWW θα χρειάζονταν 100.000 ημέρες (300χρόνια) σε ένα πολύ γρήγορο Η/Υ. Ή αλλιώς 1 μήνα σε 3.600 Η/Υ. • Οι χρήστες του Internet που δεν μιλούν Αγγλικά: 2003: 54% 2005: 59% • Η 1η διδακτορική διατριβή πολυγλωσσικής ανάκτησης πληροφοριών: 1994 του Khaled Radwan
Πολιτισμός και Γλώσσα • Πλούτος ανθρώπινης επικοινωνίας (προφορική, γραπτή, μεταφράσεις) • Ιδιαίτεροι τρόποι έκφρασης • Πολύπλοκη η αναζήτηση & ανάκτηση πληροφοριών • Ακριβείς αναπαραστάσεις • Ελάχιστες αλλοιώσεις των προθέσεων του δημιουργού • Εναρμόνιση των αναγκών και εκφράσεων των δημιουργών και των χρηστών της πληροφορίας
Ορολογία Πολυγλωσσικών Ψηφιακών Βιβλιοθηκών • Internationalization: παγκόσμια επικοινωνία ανεξαρτήτως γλώσσας • Localization: προσαρμογή στις τοπικές ανάγκες • Multilingual Digital Library: πολυγλωσσική ψηφιακή βιβλιοθήκη • Multilingual Document: πολυγλωσσικό τεκμήριο • Cross-Language Information Retrieval (CLIR): πολυγλωσσική ανάκτηση πληροφοριών • Transliteration (TL): μεταγραφή • Large Passive Vocabulary: η 2η γλώσσα που μπορούν να διαβάζουν οι χρήστες≠Small active vocabulary
Από τοπικά συστήματα σε παγκόσμια ΤΟΠΙΚΑ ΣΥΣΤΗΜΑΤΑ: • Εύκολα για σχεδιασμό • Προορισμένα για συγκεκριμένες εφαρμογές & κοινότητες χρηστών ΠΑΓΚΟΣΜΙΑ ΣΥΣΤΗΜΑΤΑ: • Ανοικτά συστήματα • Εξυπηρετούν απομακρυσμένους πληθυσμούς & πολλές τοπικές γλώσσες (minority languages) ΠΑΡΑΔΕΙΓΜΑΤΑ: • Ψηφιακές Βιβλιοθήκες Πανεπιστημίων • Εταιρικά sites • Επιστημονικές βάσεις δεδομένων
Σχεδιαστικές Προκλήσεις Στα τοπικά συστήματα: • Προσαρμογή: • Διεπιφάνειας χρήστη (GUI) • Παράμετροι εισόδου (input) & εξόδου (output) • Πληκτρολόγια, οθόνες, εκτυπωτές, γραμματοσειρά
Σχεδιαστικές Προκλήσεις Στα Παγκόσμια συστήματα: • Απίστευτη ποικιλία υλικού & λογισμικού • Ποικιλία συστημάτων κωδικοποίησης χαρακτήρων • Λιγότερος έλεγχος από τους σχεδιαστές • Σχεδιαστικές προδιαγραφές (trade-offs) • Διλήμματα
Πολυγλωσσική Ανάκτηση Πληροφοριών (Cross-LanguageInformation Retrieval: CLIR) • Ανερχόμενος και αναπτυσσόμενος κλάδος (http://www.clis.umd.edu/dlrg/clir) • 3 προσεγγίσεις: • Μετάφραση κειμένου μέσω μηχανών μετάφρασης(Machine Translation-MT):μη υψηλά αποτελέσματα και ακριβή σε κόστος • Τεχνικές βασισμένες στη γνώση (λεξικά- MRD: machine readable dictionaries,πολυγλωσσικοί θησαυροί): δόμηση & διατήρηση ακριβή, υψηλή εκπαίδευση • Χρήση οντολογιών (EuroWordNet project- http://www.illc.uva.nl/EuroWordNet) : δύσκολες στην ενημέρωση, ακριβή δόμηση
Μεταγραφή (Transliteration) • Αντιστοιχεί χαρακτήρες από μια γλώσσα σε άλλη • Δεν μεταφράζει νοήματα • Απώλεια αξιοσημείωτων δεδομένων (π.χ. Mao Tse-tung έναντι Mao Zedong στα Κινέζικα) • Παράλειψη διακριτικών σημείων-γνωρισμάτων(accents, διαλυτικά, κ.ά.) • Μη ολοκληρωμένες μορφές λέξεων • Ανέφικτη η αντιστοίχιση & το ταίριασμα λέξεων
Μονογλωσσικά, πολυγλωσσικά & παγκόσμια σετ χαρακτήρων Μονογλωσσικά (ASCII, ALA) - Παγκόσμια (Unicode) • HTTP 1.1, HTML 2.0 • Universal Character Set (UCS) του ISO 10646:1993 • Unicode • Συγχώνευση του Unicode με το ISO 10646
Unicode 4.0 (15η έκδοση) • Κωδικοποιεί αλφάβητα (χαρακτήρες), όχι γλώσσες • Έναςμοναδικός αριθμός για κάθε χαρακτήρα • Ανεξάρτητο από λειτουργικά συστήματα, λογισμικά & γλώσσες • Απαιτεί 16 bits δηλ. >65.000 χαρακτήρες • Κύριες γλώσσες Αμερικής, Ευρώπης, Μέσης Ανατολής, Αφρικής, Ινδίας, Ασίας • Ελληνικό αλφάβητο: U+0370-U+03FF • Υψηλότερες απαιτήσεις- Χρόνοι μετάδοσης • Υιοθέτηση & υποστήριξη από κορυφαίους παράγοντες (IBM, Oracle, κ.ά.)
Τρέχουσες Εφαρμογές-Διεθνής Χώρος • Πολυγλωσσικές ψηφιακές βιβλιοθήκες: 1960 • Ενεργή συμμετοχή Ευρώπης & Ασίας • OCLC (www.oclc.org): Σετ χαρακτήρων της ALA • Βιβλιοθήκη Κογκρέσσου (www.loc.gov) & RLIN (http://www.rlg.org/rlin.html): πρωτότυπη καταλογογράφηση & κωδικοποίηση μη Ρωμαϊκών αλφαβήτων • Υποστήριξη Unicode (Ευρωπαϊκή Ένωση) • Ερευνητικά έργαφορέων, όπως: IFLA, Mellon Foundation, κ.ά.
Τρέχουσες Εφαρμογές-Ελλάδα • Πρότυπο ISO 843:1997 της επιτροπής ISO/TC46/SC2 για τη μεταγραφή των Ελληνικών χαρακτήρων σε Λατινικούς • Working Group 5 της ISO/TC46/SC2 για μεταγραφή Ελληνικών • HELEN Project (1993-1995): προβλήματα μεταγραφής των Ελληνικών στις βιβλιογραφικές εγγραφές
Περιορισμοί & Όρια • Μαζικός όγκος κειμένων • Ποικιλία λογισμικού & υλικού (έλλειψη διαλειτουργικότητας) • Κάθε ψηφιακή βιβλιοθήκη= ξεχωριστές εφαρμογές, εργαλεία, αρχιτεκτονική, χρήστες, γλώσσα & πολιτισμό • Έλλειψη προτυποποίησης
Κριτική και Σχόλια • Ενημέρωση ευρύτερου κοινού - Πρωτοβουλίες • Εκπαίδευση & εμπειρία επί του αντικειμένου • Εμφάνιση νέων προκλήσεων (πολυγλωσσική ανάκτηση λόγου και ομιλίας) • Τελική επιδίωξη: παγκόσμια (global) ψηφιακή βιβλιοθήκη
Σημαντικές Πηγές • CLEF (Cross-Language Evaluation Forum- http://www.clef-campaign.org) • TREC (Text Retrieval Conference- http://trec.nist.gov) • NTCIR(NII-NACSIS Test Collection for IR Systems – http://reserach/nii.ac.jp/ntcir/) • ELRA (Evaluations and Languages Resources Distribution Association): http://www.elra.info Ερευνητικά προγράμματα: • HLT Central: Human Language Technologies on the Web (European Commission) (http://www.elra.info) • TIDES: Transligual Information Detection, Extraction and Summarization (DARPA) (http://www.darpa.mil/iao/TIDES.htm)
Ερωτήματα & Προβληματισμοί • Όλες οι προαναφερόμενες τεχνικές βρίσκονται σε πειραματικό στάδιο • Συνεκδοχικά, ποιος ο ρυθμός υιοθέτησης καθολικά αποδεκτών & εφαρμόσιμων μεθόδων; • Πόσο ικανοποιητικά αποτελέσματα αποφέρουν οι λύσεις αυτές; • Η ανάπτυξη νέων γλωσσικών εργαλείων και τεχνικών πολυγλωσσικής ανάκτησης πληροφοριών χρήζει μείζονος προσοχής
Βιβλιογραφία • Borgman C.L., Multi-Media, Multi-Cultural, and Multi-Lingual Digital Libraries or How Do We Exchange Data in 400 Languages?, D-Lib, June 1997 (available at: http://www.dlib.org/dlib/june97/06borgman.html ) • Oard D.W., Ruiz M., Klavans J., Multi-lingual Information Discovery and AccesS (MIDAS), D-Lib, October 1999 (available at: http://www.dlib.org/dlib/october99/10oard.html) • Murthy T., Interoperability among Multi-Lingual Digital Libraries through Unicode based metadata: a model for India, Indo-US Workshop on Open Digital Libraries and Interoperability, Virginia Tech, USA, 23-25 June 2003 (available at: http://fox.cs.vt.edu/IndoUSdl/ ) • Oard D.W., Multilingual Information Access: the user’s perspective )available at: http://www.iei.pi.cnr.it/DELOS/CLEF/workshop00.html) • Clews J., Digital Language Access: scripts, transliteration, and computer access, D-Lib, March 1997 (available at: http://www.dlib.org/dlib/march97/sesame/03clews.html)
Βιβλιογραφία • Peters C., Picchi E., Across Languages, Across Cultures: issues in multilinguality and digital libraries, D-Lib, May 1997 (available at: http://www.dlib.org/dlib/may97/peters/05peters.html) • Pavani A., A Model of Multilingual Digital Library, Ci.Inf., Brasilia, v.30, n.3.,p.73-81, Sep./Dec. 2001 (available at: http://www.dlib.org/dlib/may97/peters/05peters.html) • Maeda A., Multi-lingual Information Processing for Digital Libraries (available at http://pnclink.org/annual/annual2002/pdf/0921/12/c21/206-1.pdf) • Peters C., Cross-Language Evaluation Forum (CLEF): agenda for 2002, D-Lib, February 2002 (available at http://www.dlib.org/dlib/february02/02inbrief.html) • Peters C., ECDL 2003 Workshop Report: cross-language evaluation forum (CLEF 2003), D-Lib, September 2003 (available at: http://www.dlib.org/dlib/september03/09inbrief.html)
Βιβλιογραφία • Peters C., Cross-Language Evaluation Forum, D-Lib, February 2000 (available at: http://www.dlib.org/dlib/february00/02inbrief.html) • Caidi N., Komlodi A., Cross-cultural Considerations in Digital Library ResearchL report for the JCDL 2003 workshop, D-Lib, July/August 2003 (available at: http://www.dlib.org/dlib/july03/07inbrief.html) • Dartois M., Maeda A., Sakaguchi T., A Multilingual Electronic Text Collection of Folk Tales for Casual Users Using Off-the-Shelf Browsers, D-Lib, October 1997 (available at: http://www.dlib.org/dlib/october97/sugimoto/10sugimoto.html) • Croft W.B., What Do People Want from Information Retrieval?, D-Lib, November 1995 (available at: http://www.dlib.org/dlib/november95/11croft.html) • Java: how to program/ Deitel H.M., Deitel P.J., Prentice Hall PTRM, 5th ed., 2002
Βιβλιογραφία • Osawa N., A Multilingual Information Processing Infrastructure for Global Digital Libraries: EPICIST, D-Lib, 1997 (available at: http://www.dl.ulis.ac.jp/ISDL97/proceedings/osawa/osawa.html) • Powell J., Fox E.A., Multilingual Fedearted Searching Across Heterogeneous Collections, D-Lib, September 1998 (available at: http://www.dlib.org/dlib/septemeber98/powell/09powell.html) • Anderson D., Unicode and Historic Scripts, Ariadne (available at: http://www.ariadne.ac.uk/issue37/anderson/)