180 likes | 319 Views
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ Εργασία με θέμα: “YAPI: Yet another path index for XML searching”. YAPI: ένα ακόμα ευρετήριο μονοπατιών στην έρευνα με XML
E N D
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗΕργασία με θέμα:“YAPI: Yet another path index for XML searching” YAPI: ένα ακόμα ευρετήριο μονοπατιών στην έρευνα με XML Συγγραφείς άρθρου: Giuseppe Amato, Franca Debole, Pavel Zezula και Fausto Rabitti LNCS 2769 του 2003 Επιμέλεια εργασίας: Βικτωρία-Σοφία Γιαλοψού
ΕΠΙΣΚΟΠΗΣΗ ΘΕΜΑΤΩΝ • Εισαγωγικά • XML και Ψηφιακές Βιβλιοθήκες • Υπάρχουσες προσεγγίσεις κατά την επεξεργασία ερωτημάτων χρησιμοποιώντας XML • YAPI: Παρουσίαση νέας προσέγγισης όσον αφορά ευρετηρίαση δομής και περιεχομένου
ΕΙΣΑΓΩΓΙΚΑ • Αποδοτική διαχείριση μεταδεδομένων σημαντική • Dublin Core μη ικανό στα σύνθετα μοντέλα μεταδεδομένων • Ψηφιακές β/θ νέας γενιάς όπως ECHO, OpenDlib κωδικοποίηση μεταδεδομένων σε XML • «Ανεστραμμένα ευρετήρια» αποτελεσματικά στην ανάκτηση τεκμηρίων • Ανάπτυξη νέων τεχνολογιών για καλύτερη διαχείριση
XML ΚΑΙ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ • Οι ψηφιακές βιβλιοθήκες νέας γενιάς χρησιμοποιούν σύνθετες δομές μεταδεδομένων • Η XML είναι αποτελεσματική στην αναπαράσταση σύνθετων μεταδεδομένων • MPEG-7 κωδικοποιείται σε XML • ECHO και OpenDlib επίσης κωδικοποιούν τα μεταδεδομένα τους σε XML • Οι σχεσιακές βάσεις δεδομένων δεν μπορούν να αντιμετωπίσουν αποτελεσματικά τέτοιες πολύπλοκες δομές • Τα αποθετήρια δεδομένων σε XML κάνουν πιο αποτελεσματική την επεξεργασία των ερωτημάτων
ΥΠΑΡΧΟΥΣΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ (1/2) • Ευρετηρίαση δομής: • Ανεστραμμένα ευρετήρια με τα ονόματα των στοιχείων – element names ως εγγραφές • Ανεστραμμένα ευρετήρια με τη χρήση των ονομάτων διαδρομών - pathnames ως εγγραφές
Key: content B-Tree ΥΠΑΡΧΟΥΣΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ (2/2) • Ευρετηρίαση περιεχομένου: • Τα αρχεία ανεστραμμένων εγγραφών συγκεκριμένων στοιχείων (ή και γνωρισμάτων) μπορούν να οργανωθούν ως B+-Trees όπου το κλειδί είναι το περιεχόμενο /people/person/name/fn 4->{4,12,…}
Ανεστραμμένα ευρετήρια με τα ονόματα των στοιχείων ως εγγραφές (1/2) • Παράδειγμα: /people//name/fn κάνει έρευνα για people, name και fn και μετά εξετάζει τις εμπεριεχόμενες σχέσεις αυτών των όρων • Οι εμπεριεχόμενες σχέσεις μεταξύ των όρων εξετάζονται με τη χρήση αλγορίθμων ένωσης: • Multi Predicate Merge Join • Holistic Join • Μειονέκτημα αυτών των αλγορίθμων: • Κοστίζουν πολλές εργατοώρες
Ανεστραμμένα ευρετήρια με τα ονόματα των στοιχείων ως εγγραφές (2/2) • Λεξικό στοιχείων: people->{1} person->{2,10} name->{3,11} address->{8,16} fn->{4,12} ln->{6,14}
Ανεστραμμένα ευρετήρια με τα ονόματα των διαδρομών ως εγγραφές (1/2) • Λεξικό διαδρομής: /people->{1} /people/person->{2,10} /people/person/name->{3,11} /people/person/name/fn->{4,12} /people/person/name/ln->{6,4} /people/person/address->{8,16}
Ανεστραμμένα ευρετήρια με τα ονόματα των διαδρομών ως εγγραφές (2/2) • Πλεονεκτήματα: • Τα ακριβή μονοπάτια επεξεργάζονται αποτελεσματικά • Μονοπάτια με μπαλαντέρ στα στοιχεία επίσης επεξεργάζονται αποτελεσματικά • Μειονέκτημα: • Προβλήματα με τα επιθέματα και προθέματα των μπαλαντέρ (τι θα μπει στην αρχή και στο τέλος της διαδρομής)
XML Ευρετήριο μονοπατιών • Βασισμένα σε τεχνικές για την υποστήριξη μερικώς συγκεκριμενοποιημένων όρων ερώτησης (ερωτήματα με μπαλαντέρ) στα συστήματα ανάκτησης κειμένου • Περιστρεφόμενο λεξικό: • Κάθε όρος περιστρέφεται και κάθε όρος που βγαίνει ως αποτέλεσμα της περιστροφής εισέρχεται στο περιστρεφόμενο λεξικό • Π.χ. apple -> apple^, pple^a, ple^ap, le^app, e^appl, ^apple • Αποτέλεσμα: το περιστρεφόμενο λεξικό διατηρεί τη σειρά του
Περιστρεφόμενο λεξικό Αρχικό λεξικό: Περιστρεφόμενο λεξικό: ^aisle 1 ^appeal 2 ^apple 3 ^employ 4 ^staple 5 aisle^ 1 al^appe 2 aple^st 5 appeal^ 2 apple^ 3 e^aisl 1 e^appl 3 e^stapl 5 eal^app 2 employ^ 4 isle^a 1 l^appea 2 le^ais 1 le^app 3 le^stap 5 loy^emp 4 mploy^e 4 oy^empl 4 peal^ap 2 ple^ap 3 ple^sta 5 ploy^em 4 ppeal^a 2 pple^a 3 sle^ai 1 staple^ 5 taple^s 5 y^emplo 4 aisle 1 appeal 2 apple 3 employ 4 staple 5 Ερωτήματα: Μετατροπή: apple ^apple *ple ple^* *pl* pl* app* ^app* a*le le^a*
Ευρετηρίαση ονομάτων γνωρισμάτων • Τα γνωρίσματα ενός στοιχείου μπορεί να θεωρηθούν ως “ειδικά” παιδιά του στοιχείου αυτού • Το σύμβολο @ της XPath χρησιμοποιείται για το διαχωρισμό μεταξύ ονομάτων στοιχείων και ονομάτων γνωρισμάτων • Παράδειγμα: • @age είναι το γνώρισμα age • Ενώ age χωρίς @ είναι το στοιχείο age • People/person/age είναι στοιχείο ενώ • People/person/@ageείναι γνώρισμα
Συμπεράσματα • Υψηλά αποτελεσματικό • Ιδιότητα καλύτερης κλιμάκωσης όταν ο αριθμός στοιχείων σε XML αυξάνεται • Το πείραμα με τη χρήση μέτρησης Text Centric Multiple Document της εφαρμογής XBench και ενός αλγορίθμου έδειξε υπεροχή έναντι άλλων προσεγγίσεων • Μειονεκτήματα: • Πλεονασμός • Πλεονεκτήματα: • Κατάλληλο για ψηφιακές βιβλιοθήκες νέας γενιάς
B-Tree: δυαδικός, εδώ είναι σχηματοποιημένο ως δέντρο και υποδηλώνει ότι κάθε κόμβος έχει 2 παιδιά. Cardinality: αριθμός συνόλου Containment join: εμπεριεχόμενη ένωση Content predicates: κατηγόρημα περιεχομένου Element instance identifier: προσδιοριστής στιγμιότυπου στοιχείου Index structure: δομή ευρετηρίου Inverted file entries: αρχεία ανεστραμμένων εγγραφών Inverted index: ανεστραμμένο ευρετήριο Nodes: κουκκίδες Path expressions: εκφράσεις μονοπατιών Path index: ευρετήρια μονοπατιών Pathname: όνομαδιαδρομής Posting list: «ταχυδρομικές λίστες» Preorder: προπαραγγελία Rotatedlexicon: περιστρεφόμενο λεξικό Wildcard: μπαλαντέρ Γλωσσάρι
Βιβλιογραφία • Justin Zobel, Alistair Moffat, and Ron Sacks-Davis. Searching large lexicons for partially specified terms using compressed inverted files. In Rakesh Agrawal, Sean Baker, and David A. Bell, editors, 19th International Conference on Very Large Data Bases, August 24-27, 1993, Dublin, Ireland, Proceedings, pages 290-301. Morgan Kaufmann, 1993. Διαθέσιμο στο: http://www.sigmod.org/vldb/conf/1993/P290.PDF. • Nikolas Bruno, Nick Koudas, and Divesh Srivastava. Holistic twig joins: Optimal Xml Pattern Matching. In Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data, pp. 310-321, Madison Wisconsin, USA, June 2002. ACM, 2002. Διαθέσιμο στο: http://www.research.att.com/~divesh/papers/bks2002-twigjoin.pdf. • Giuseppe Amato, Claudio Gennaro, and Pasquale Savino. Indexing and retrieving documentary films: managing metadata in the ECHO system. In 4th Intl. Workshop on Multimedia Information Retrieval December 6, Juan-les-Pins, France, in conjuction with ACM Multimedia, 2002. Διαθέσιμο στο: http://www.nmis.isti.cnr.it/amato/papers/MIR02.pdf.
Βιβλιογραφία • P. Bratley and Choueka. Processing truncated terms in document retrieval systems. Information Processing & Management, 18 (5):257-266, 1982. Διαθέσιμο στο: http://eric.ed.gov/ERICWebPortal/custom/portlets/recordDetails/detailmini.EJ286912 • Chun Zhang, Jeffrey F. Naughton, David J. DeWitt, Qiong Luo, and Guy M. Lohman. On supporting containment queries in relational database management systems. InWalid G. Aref, editor, ACM SIGMOD Conference 2001: Santa Barbara, CA, USA, Proceedings. ACM, 2001. Διαθέσιμο στο: http://www.cs.wisc.edu/niagara/papers/ZND+01.pdf. • World Wide Web Consortium. XML path language (XPath), version 1.0, W3C Recommendation, November 1999. Διαθέσιμο στο: http://www.w3.org/TR/xpath-datamodel/. • Quanzhong Li and Bongki Moon. Indexing and Querying XML data for regular path expressions. Proceedings of the 27th VLDB Conference, Roma, Italy, 2001. Διαθέσιμο στο: http://www.cs.arizona.edu/people/bkmoon/papers/vldb01.pdf