160 likes | 311 Views
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας – Βιβλιοθηκονομίας Μεταπτυχιακό πρόγραμμα σπουδών στην Επιστήμη της Πληροφορίας. Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ XML ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ. επιμέλεια : ΡΑΜΜΑ ΧΑΡΙΚΛΕΙΑ ΑΘΗΝΑ 2007. XML Ανάκτηση. XML ( Extensible Markup Language) INEX
E N D
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας – ΒιβλιοθηκονομίαςΜεταπτυχιακό πρόγραμμα σπουδών στην Επιστήμη της Πληροφορίας Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ XML ΑΝΑΚΤΗΣΗΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ επιμέλεια : ΡΑΜΜΑ ΧΑΡΙΚΛΕΙΑ ΑΘΗΝΑ 2007
XML Ανάκτηση • XML (Extensible Markup Language) • INEX (Initiative for the Evaluation of XML Retrieval)
XML Ανάκτηση • XML Ανάκτηση • Content-oriented Κάθε στοιχείο αποτελεί ανεξάρτητη δομική μονάδα, η οποίαείναι ανακτήσιμη • Toc (Table of Contents) • Περιλήψειςμπορούν να συσχετιστούν με κάθε στοιχείο του εγγράφου
Στόχος πειράματος • Χρήση των περιλήψεων στην XML ανάκτηση • Zoltan Szlávik, • Anastasios Tombros • Mounia Lalmas (Department of Computer Science, Queen Mary University of London) • Πωςοι χρήστες αλληλεπιδρούν με τις περιλήψεις • Αν διευκολύνονται κατά τη διαδικασία αναζήτησης
Οργάνωση Πειράματος • Διεπαφή χρήστη
Οργάνωση Πειράματος • Διεπαφή χρήστη
Οργάνωση Πειράματος • Δημιουργία περιλήψεων query-biased αλγόριθμος • Συλλογή 12.107 άρθρα από τη συλλογή τουοργανισμού IEEE • XML Μηχανή Ανάκτησης Hyspirit retrieval framework • Χρήστες 9 άντρες – 3 γυναίκες
Πρώτο επίπεδο: Ολόκληρο το άρθρο Δεύτερο επίπεδο: Κυρίως μέρος (body) Προκαταρκτικά μέρη(frontmatters) Τελικά μέρη(backmatters) Τρίτο επίπεδο Περίληψη (abstract) Ενότητες (sections) Παραρτήματα (appendices) Τέταρτο επίπεδο Υποενότητες (subsections) Παράγραφοι (paragraphs) Οργάνωση Πειράματος Σύστημα Ελέγχου (System Control – Sc)
Οργάνωση Πειράματος • Πειραματικό Σύστημα (Experimental System Se) Τρία πρώτα επίπεδα δόμησης • Καθήκοντα (tasks) • Background-type • List-type 20 λεπτά για την ολοκλήρωσηκάθε καθήκοντος Συνεδρία αναζήτησης (search session) • Μοντέλο Αναζήτησης Ομάδες των 4 ατόμων • Δεδομένα - Ενέργειες χρήστη σύμφωνα με τα κλικτου ποντικιού - Κάθε πότε εμφανιζόταν μία περίληψη
Ανάλυση • Χρόνος περιλήψεων Sc – 3.98s ο μέσος χρόνος εμφάνισης των περιλήψεων Se – 4.58s ο μέσος χρόνος εμφάνισης των περιλήψεων
Ανάλυση • Αριθμός περιλήψεων που διαβαστηκαν Se – 12.5 περιλήψεις σε κάθε συνεδρία αναζήτησης Sc – 16.33 περιλήψεις σε κάθε συνεδρία αναζήτησης
Ανάλυση • Χρόνος περιλήψεων vs Αριθμός περιλήψεων • Αρνητική συσχέτιση (-0.5) • SeΔιάβασαν λιγότερες περιλήψεις αλλά για περισσότερη ώρα • Sc Διάβασαν περισσότερες περιλήψεις αλλά για λιγότερη ώρα
Ανάλυση • Χρήση ToC (Table of Contents) και Άρθρο • Περισσότερα από τα μισά στοιχεία που εμφανίστηκαν προέρχονταν από τον Toc • Το άρθρο εμφανίστηκε σε ποσοστό 6.12%
Συμπεράσματα - Προβληματισμοί • Οι χρήστεςχρησιμοποίησαν τις περιλήψεις των XML στοιχείων που τους προσέφερε το σύστημα και ξόδεψαν και αρκετό χρόνο για να τις διαβάσουν • Οι χρήστες εκμεταλλέυτηκαν τη λογική δομή των εγγράφων και πλοηγήθηκαν στον Πίνακα Περιεχομένων (ToC) • Θεωρώντας δεδομένη τη στενή συσχέτιση ανάμεσα στον πίνακα περιεχομένων και τις περιλήψεις, μέχρι ποιο επίπεδο δόμησης πρέπει να φτάσει κανείς για τη δημιουργία περιλήψεων; • Ο Πίνακας Περιεχομένων (ToC) πρέπει να εμφανίζει όλα τα δομικά στοιχεία ή μόνο αυτά που σχετίζονται με το ερώτημα του χρήστη;
Βιβλιογραφία 1) Z. Szlávik, A. Tombros and M. Lalmas. The use of summaries in XML retrieval. Proceedings of the 10th European Conference on Research and Advanced Technology for Digital Libraries, pp. 75-86. Alicante, Spain, September 2006. 2) Zoltán Szlávik, Anastasios Tombros and Mounia Lalmas. Investigating the use of summarization for interactive XML retrieval. In Proceedings of the 21st ACM Symposium on Applied Computing, Information Access and Retrieval Track (SAC-IARS'06), pp. 1068-1072. Dijon, France, April 2006 3) A.Tombros, S. Malik, and B. Larsen.Report on the INEX 2004 interactive track.ACM SIGIR Forum, 39(1): 43–49, June 2005. 4) A.Tombros and M. Sanderson. Advantages of query biased summaries in information retrieval. In SIGIR’98, pages 2–10. ACM Press, 1998. 5) A.Tombros, S. Malik, and B.Larsen.Report on the INEX 2004 interactive track.ACM SIGIR Forum, 39(1):43–49, June 2005. 6) Charles L.A. Clarke. Controlling overlap in content-oriented XML retrieval. Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval, pp 314-321.Salvador, Brazil, 2005 7) INEX http://inex.is.informatik.uni-duisburg.de/
Ευχαριστώ Ερωτήσεις - Απορίες