180 likes | 271 Views
Ένα εργαλείο σε Java για την ανάκτηση πληροφοριών και τον εντοπισμό ομοιοτήτων σε ακαδημαϊκές εκδόσεις με τη χρήση τεχνικών εξόρυξης δεδομένων. Δημήτρης Ρουσίδης - drousid@gmail.com , Εμμανουήλ Γαρουφάλλου - mgarou@libd.teithe.gr Πάνος Μπαλατσούκας - pan-bal@hotmail.com. Κύρια Σημεία.
E N D
Ένα εργαλείο σε Java για την ανάκτηση πληροφοριών και τον εντοπισμό ομοιοτήτων σε ακαδημαϊκές εκδόσεις με τη χρήση τεχνικών εξόρυξης δεδομένων Δημήτρης Ρουσίδης - drousid@gmail.com, Εμμανουήλ Γαρουφάλλου - mgarou@libd.teithe.gr Πάνος Μπαλατσούκας - pan-bal@hotmail.com
Κύρια Σημεία • Δεδομένα – Στατιστικά – Μελέτες Περίπτωσης που οδήγησαν στη δημιουργία του εργαλείου • Σκοπός-Στόχοι Εργαλείου • Κύρια Χαρακτηριστικά - Μεθοδολογία
Δεδομένα για τις ακαδημαϊκές εκδόσεις • Αριθμός peer-reviewed άρθρων (2010) = 2,5 εκατ. • Συνολικός αριθμός δημοσιευμένων άρθρων σε περιοδικά μέχρι το 2009 = 50 εκατ. • Πλούτος γνώσης • Οι χρήστες χρησιμοποιούν διαφορετικά κριτήρια για να αξιολογήσουν τη συνάφεια ενός άρθρου πέρα από τα κριτήρια που περιλαμβάνουν λέξεις κλειδιά (keywords) σε κάποιο ερώτημα (query) • Δεν είναι πάντα δυνατή η αξιολόγηση όλων των σχετικών πληροφοριών
Στατιστικά • 144.000 πλήρους απασχόλησης επαγγελματίες στον ακαδημαϊκό χώρο • 10-15 εκατ. το αναγνωστικό κοινό των περιοδικών • 5,5 εκατ. ερευνητές • Συνολικό κόστος διεξαγωγής και κοινοποίησης της έρευνας που δημοσιεύεται σε περιοδικά 219,3 δισ. € • 145,4 δισ. € για την έρευνα • 31,3 δισ. € για τη δημοσίευση, διανομή και πρόσβαση • 42,6 δισ. € για την ανάγνωση των άρθρων • Έρευνα JISC 2011: Τρομερά οφέλη από την εφαρμογή εξόρυξης κειμένου σε ακαδημαϊκές εκδόσεις
Μελέτες Περίπτωσης Στατιστικών • Αυτοματοποιημένη περίληψη που να υποστηρίζει την ανασκόπηση βιβλιογραφίας • Χρόνος ανάγνωσης και σύνοψης περιεχομένου ενός ακαδ. άρθρου = 31 λεπτά • Χρόνος για να διαβαστεί μια αυτοματοποιημένη περίληψη = 5 λεπτά • Χρόνος που εξοικονομείται 26 λεπτά • Εξοικονόμηση κόστους ανά περίληψη = 15,8 € • 131 εργαλεία εξόρυξης κειμένου στο SciVerse • 22 χρησιμοποιούν association rules, classification ή clustering • 12 από αυτά αναφέρονται σε ακαδημαϊκές εκδόσεις • 5 επικεντρώνονται μόνο στους συγγραφείς • 2 μόνο βρίσκουν ομοιότητες αλλά χρησιμοποιούν ελάχιστα μεταδεδομένα
Μελέτη Περίπτωσης Αναζήτησης • Αναζήτηση στο Google για το θέμα «Συμπεριφορά αναζήτησης πληροφοριών» • 7 εκ. σελίδες – 700 χιλ. Pdf • Συνήθης τακτική: download από τις πρώτες σελίδες αποτελεσμάτων • Λόγοι: Περιορισμοί στη λήψη αποφάσεων – έλλειψη γνωστικής προσπάθειας στην ανάπτυξη ερωτημάτων μέσω κριτηρίων • Συμπέρασμα: Η διαδικασία της αξιολόγησης ανακτώμενων εγγράφων στα πλαίσια των διερευνητικών αναζητήσεων είναι απαιτητική τόσο από πλευράς χρόνου όσο και γνωστικής προσπάθειας που ξοδεύεται
Σκοπός-Στόχοι Εργαλείου • Υποστήριξη και βελτιστοποίηση της διαδικασίας λήψης αποφάσεων των χρηστών • Μείωση χρόνου που ξοδεύεται για την σύγκριση και ανακάλυψη ομοιότητας μεταξύ ακαδημαϊκών άρθρων • Διευκόλυνση στη κρίση για τη χρησιμότητα ανάγνωσης συγκεκριμένων ακαδημαϊκών άρθρων • Κατανόηση του περιεχομένου ενός επιλεγμένου συνόλου εκδόσεων • Συμπληρωματικό (plug-in) στα IR συστήματα, μηχανές αναζήτησης και όχι υποκατάστατο
Κύρια Χαρακτηριστικά Εργαλείου • Προτείνεται ένα εργαλείο σε Java (στο στάδιο υλοποίησης): • Αυτοματοποιημένο – Αγγλική Γλώσσα • Θα εντοπίζει σημασιολογικές ομοιότητες μεταξύ ανακτώμενων συγγραμμάτων μέσω συμβατικών και μη κριτηρίων (π.χ. Μέθοδοι έρευνας και τεχνικές ανάλυσης αποτελεσμάτων) • Μέσω συνδυασμών μεταδεδομένων θα ανακαλύπτεικαι θα οπτικοποιεί • Κρυμμένα μοτίβα • Κανόνες σχέσεις (association rules) – π.χ. 80% των άρθρων του συγγραφέα Χ περιέχουν την λέξη Υ στις λέξεις-κλειδιά • Κατηγοριοποίηση (classification) • Συσταδοποίηση (clustering) – Οπτικοποίηση ομαδοποίησης εγγράφων απάντησης D ενός ερωτήματος q του χρήστη • Θα δημιουργεί μια βάση ορολογιών μέσω ανάλυσης ευρετηρίων από e-books • Προβλέπεται ενσωμάτωση σε υπάρχοντα εργαλεία και μηχανές εργαλείων ακαδημαϊκών εκδόσεων
Μεθοδολογία Εργαλείου • Γραμμένο σε Java (Write Once, Run Anywhere) • Desktop application με σκοπό την ενσωμάτωση σε ακαδημαϊκά αποθετήρια, ακαδημαϊκές ψηφιακές βιβλιοθήκες και μηχανές αναζήτησης • Μεταφόρτωση αρχείων κειμένου και μετατροπή σε .xml • Δημιουργία πινάκων μεταδεδομένων • Επιλογή και ανάθεση κριτηρίων ομοιότητας
Πίνακες Μεταδεδομένων • Μεταδεδομένα: • Άρθρου • Λέξεων – Κλειδιά • Περίληψης • Κυρίου Σώματος • Συγγραφέων • Αναφορών • Η συντριπτική πλειοψηφία θα εισάγονται αυτοματοποιημένα και ορισμένα manually
Κριτήρια Ομοιότητας • Άρθρο πηγή (υψίστης χρησιμότητας για τον χρήστη) • Τιμές με ένα δεκαδικό μεταξύ 0 και 1 • Αυτόματη Εισαγωγή (προεπιλεγμένη από τον προγραμματιστή) • Εισαγωγή από το χρήστη • Ημιαυτόματη Εισαγωγή (μέσω scroll bars)
Αλγόριθμοι Ομοιότητας & Εξόρυξης Δεδομένων • Αρχικός Αλγόριθμος: • όπου: Wi = η βαρύτητα, N = ο αριθμός των άρθρων στη βάση δεδομένων και Xij = ο αριθμός όλων των άρθρων (j) που μοιράζονται μια κοινή τιμή μεταδεδομένου με το άρθρο «πηγή» • Μελέτη αλγόριθμων εξόρυξης δεδομένων όπως C4.5, K-Means, SVM: Support Vector Machines, EM, PageRank, AdaBoost, k-Nearest Neighbors, Naïve Bayes and CART
Προσδιορισμός Μεθοδολογιών Ακαδημαϊκών Άρθρων • Αποθετήριο γλωσσάριων και υπο-γλωσσάριων • Δημιουργία μέσω ευρετηρίων e-books • Δενδροειδής μορφή • Χρήση των labels και headers της .xml • Ανίχνευση της μεθοδολογίας μέσω αντιστοίχησης των λέξεων του άρθρου με τα γλωσσάρια
Δοκιμή & Αξιολόγηση • Μερικές δεκάδες χιλιάδες ακαδημαϊκά άρθρα, περιοδικά, πρακτικά, e-books. • Πηγές: open access ηλεκτρονικές βιβλιοθήκες, καταλόγους, βάσεις δεδομένων διατριβών, πανεπιστημιακές βιβλιοθήκες και ακαδημαϊκές προσωπικές συλλογές • Αξιολόγηση μέσω τεστ χρηστικότητας και μελετών χρηστών από φοιτητές, πανεπιστημιακούς και ειδικούς
Συμπεράσματα – Τρέχουσα Εργασία • Εφαρμογή data mining και text mining τεχνικών προκειμένου να αποκαλυφθούν ομοιότητες μεταξύ ακαδημαϊκών συγγραμμάτων • Επιλογή πληθώρας κριτηρίων • Δημιουργία γλωσσαρίων • Έρευνα και υλοποίηση σε εξέλιξη • Προσπάθεια για αυτόματη τροφοδότηση άρθρων μέσω Web
Ένα εργαλείο σε Java για την ανάκτηση πληροφοριών και τον εντοπισμό ομοιοτήτων σε ακαδημαϊκές εκδόσεις με τη χρήση τεχνικών εξόρυξης δεδομένων Δημήτρης Ρουσίδης - drousid@gmail.com, Εμμανουήλ Γαρουφάλλου - mgarou@libd.teithe.gr Πάνος Μπαλατσούκας - pan-bal@hotmail.com