310 likes | 453 Views
Γλωσσική Τεχνολογία. Μάθημα 3 ο Επεξεργασία Κειμένου και Δεικτοδότηση. Σοφία Στάμου Άκ.Έτος 200 9 - 1 0. Τι είναι το ευρετήριο;. Συστηματική οργάνωση δεδομένων με στόχο τη διευκόλυνση των χρηστών για τον εντοπισμό πληροφορίας σε ένα κείμενο Τύποι οργάνωσης Αλφαβητική (Α-Ω)
E N D
Γλωσσική Τεχνολογία Μάθημα 3ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10
Τι είναι το ευρετήριο; • Συστηματική οργάνωση δεδομένων με στόχο τη διευκόλυνση των χρηστών για τον εντοπισμό πληροφορίας σε ένα κείμενο • Τύποι οργάνωσης • Αλφαβητική (Α-Ω) • Δευτερευόντων όρων (υπο-καταχωρήσεων) • Διαφόρων όρων (πολλαπλές καταχωρήσεις) • Ετερο-αναφορών Γλωσσική Τεχνολογία
Κανόνες ευρετηρίασης • Δεικτοδοτούμε όρους που πιθανώς θα επιλέξουν οι χρήστες για να διατυπώσουν ερωτήματα • Επιλέγουμε και τροποποιούμε (όπου χρειάζεται) τους όρους βάσει των αναγκών του χρήστη • Συνέπεια στη μεθοδολογία επιλογής, απόδοσης και οργάνωσης θεματικών όρων Γλωσσική Τεχνολογία
Δημιουργώντας το ευρετήριο Αρχείο Ευρετηρίου Αρχείο κειμένων Γλωσσική Τεχνολογία
Αξιολόγηση της Ανάκτησης • Ακρίβεια • Ποσοστό σχετικών κειμένων στα ανακτηθέντα • Ακρίβεια(P) = |σχετικάÇ ανακτηθέντα| ÷ |ανακτηθέντα| = P( σχετικά| ανακτηθέντα ) • Ανάκληση • Ποσοστό σχετικών ανακτηθέντων στο σύνολο σχετικών • Ανάκληση(R) = |σχετικάÇ ανακτηθέντα| ÷ |σχετικά| = R( ανακτηθέντα| σχετικά ) • F1 Μετρική • F1 = 2PR / (P+R) … αρμονική μέση τιμή ανάκλησης και ακρίβειας Γλωσσική Τεχνολογία
Σχετικά κείμενα Λόγος Ακρίβειας/Ανάκλησης Κείμενα Ανακτηθέντα σχετικά! Ra P R Ακρίβεια Ανάκληση Recall 0.2 0.2 0.4 0.4 0.4 0.6 0.6 0.6 0.8 1.0 Μέση Ακρίβεια = 0.62 (1 + .67 + .5 + .44 + .5) / 5 Precis. 1.0 0.5 0.67 0.5 0.4 0.5 0.43 0.38 0.44 0.5 Γλωσσική Τεχνολογία
Μουσική 2 4 8 16 32 64 128 Θέατρο 1 2 3 5 8 13 21 34 Τέχνη 13 16 Θεματικά Ευρετήρια • Για κάθε θεματική κατηγορία δημιουργείται μια λίστα όλων των όρων που την περιγράφουν Αναγνωριστικά κειμένων Γλωσσική Τεχνολογία
Θεματικά Ευρετήρια Κεντρικό ευρετήριο αναζητήσεων Πολλαπλά ευρετήρια • Αν για κάθε θεματική κατηγορία έχουμε ξεχωριστό ευρετήριο μπορούν να συγχωνευθούν για τη σύνθεση του τελικού ευρετηρίου Γλωσσική Τεχνολογία
Αναζήτηση κειμένων Λεξικό Ερώτημα αναζήτησης: “Η τέχνη της Μουσικής” Μουσική – 0Τέχνη – 1Πιάνο – 2 Τομή των IDs κειμένων που βρίσκονται και στις 2 λίστες (boolean AND): Ευρετήριο IDs λέξεων : 0, 1 0 -> 0, 11 -> 0, 22 -> 1 Γλωσσική Τεχνολογία
Είδη Ευρετηρίων • Θεματικά • Συγγραφέων • Ονομάτων • Γεωγραφικά • Τίτλων • Αριθμών και κωδικών Γλωσσική Τεχνολογία
Ευρετήρια ΤίτλωνKWIC (KeyWord-in-Context) • Κάθε σημαντικός όρος καταχωρίζεται στο ευρετήριο και εμφανίζεται στο μέσο του τίτλου και όχι αριστερά. Π.χ. Descent of Man The Ascent of Man The Old Man and The Sea A Portrait of the Artist As a Young : a portrait of the ARTIST as a young man the ASCENT of man DESCENT of man descent of MAN the ascent of MAN the old MAN and the sea Γλωσσική Τεχνολογία
Ευρετήρια Τίτλων KWOC (KeyWord-out-of-Context) Κάθε σημαντική λέξη αποσπάται από τον τίτλο και τοποθετείται με αλφαβητική σειρά στο αριστερό τμήμα της σελίδας και ακολουθείται από τις υπόλοιπες λέξεις του τίτλου: Library A modern outline of library classification Library Introduction to library classification Library Library education Library Public library administration Library National Library of Canada Γλωσσική Τεχνολογία
KWIC vs. KWOC • Απαλοιφή τερματικών όρων • Το επίπεδο εξειδίκευσης των όρων ευρετηρίασης εξαρτάται από τις επιλογές του ειδικού • Το επίπεδο εξαντλητικότητας των όρων ευρετηρίασης εξαρτάται από το πόσο λεπτομερείς είναι οι τίτλοι Η Ευρετηρίαση τίτλων σήμερα είναι λιγότερο αποτελεσματική από κάθε άλλη φορά λόγω λεξιλογικών δυσκολιών εδικά στις Κοινωνικές Επιστήμες Γλωσσική Τεχνολογία
Λέξεις - Κλειδιά Πλεονεκτήματα • Παρέχουν πρόσβαση στις λέξεις που χρησιμοποιούνται στα ευρετήρια συλλογών Μειονεκτήματα • Δεν μπορούν να αντισταθμίσουν την πολυπλοκότητα των φυσικών γλωσσών • Δεν μπορούν να υποκαταστήσουν πλήρως το περιεχόμενο Η αναζήτηση με λέξεις-κλειδιά διευκολύνεται όταν η ευρετηρίαση είναι ελεγχόμενου λεξιλογίου Γλωσσική Τεχνολογία
Επιλέγοντας τις λέξεις-κλειδιά Βήματα επεξεργασίας κειμένου: • Αναγνώριση προτάσεων και λέξεων • Μορφοσυντακτική ανάλυση • Απαλοιφή τερματικών όρων • Μετρική βαθμολόγησης σπουδαιότητας • Επιλογή σημαντικών όρων Γλωσσική Τεχνολογία
Μορφοσυντακτική ανάλυση • Κρυφά Μοντέλα Markov • Νευρωνικά Δίκτυα • Μετασχηματιστικοί Κανόνες • Δέντρα Απόφασης • Μοντέλα Μέγιστης Εντροπίας Γλωσσική Τεχνολογία
Λέξεις Ετικέτες the koala put the keys on the table N V P DET Μορφοσυντακτική ανάλυση • Σε ποιο μέρος του λόγου (Part-of-Speech) ανήκει κάθε λέξη του κειμένου Πώς θα βρούμε την POS ετικέτα; Γλωσσική Τεχνολογία
Μορφοσυντακτική ανάλυση Γλωσσική Τεχνολογία
Πού θα βρούμε τις ετικέτες; Γλωσσική Τεχνολογία
Μετασχηματιστικοί Κανόνες • Μορφοσυντακτική ετικέτα μεγαλύτερης συχνότητας (άγνωστες λέξεις = ουσιαστικό) • Charniak: 90% σωστές επιλογές ως εδώ! • Χρήση μετασχηματιστικών κανόνων • Διόρθωση ετικετών που είναι ασύμβατες με τα συμφραζόμενα Γλωσσική Τεχνολογία
Μηχανική Μάθηση Κανόνων Γλωσσική Τεχνολογία
Μηχανική Μάθηση Κανόνων • Είσοδος: • Σώμα κειμένων C1 χωρίς ετικέττες (tags) • Ακριβές αντίγραφό του C2, μορφοσυντακτικά σχολιασμένο από ειδικούς. • Πρότυπα κανόνων • Βήμα 1: Ανάθεση ετικεττών χρησιμοποιώντας τον αρχικό tagger Παραγωγή του C1a. • Βήμα 2: • Σύγκριση του σώματος C1a με το ιδανικό C2. • Καθορισμός της λίστας των λανθασμένων επιλογών. • Από τη λίστα των λαθών, κατασκευάζονται με χρήση προτύπων κανόνων όλοι οι πιθανοί κανόνες που μπορούν να εφαρμοστούν. Γλωσσική Τεχνολογία
Μηχανική Μάθηση Κανόνων • Βήμα 3: • Εφαρμογή των κανόνων και ανάθεση ενός σκορ σε κάθε κανόνα. • Σκορ = #σωστών αλλαγών - #λανθασμένων αλλαγών • Επιλογή κανόνα με το καλύτερο σκορ • Βήμα 4: Ανανέωση του C1a με εφαρμογή του επιλεγμένου κανόνα. • Βήμα 5: • Τερματισμός αν η βελτίωση είναι μικρότερη από ένα κατώφλι • Αλλιώς: επανάληψη από το βήμα 2 • Έξοδος: Διατεταγμένο σύνολο κανόνων. Γλωσσική Τεχνολογία
Μετασχηματιστικοί Κανόνες Γλωσσική Τεχνολογία
Επιλέγοντας λέξεις κλειδιά Γλωσσική Τεχνολογία
tf*idfΒαθμολόγηση tf = term frequency • Συχνότητα όρου σε ένα κείμενο. df = document frequency • Πόσα κείμενα περιέχουν τον όρο; • Κατανομή του όρου idf = inverse document frequency • Η άνιση κατανομή του όρου στο κείμενο • Πόσο συγκεκριμένος είναι ο όρος για το κείμενο Όσο πιο ομοιόμορφη είναι η κατανομή του όρου στη συλλογή τόσο λιγότερο συγκεκριμένος είναι για ένα κείμενο weight(t,D) = tf(t,D) * idf(t) Γλωσσική Τεχνολογία
Index Search #1: The brown cat purred. Brown 1, 3 Cat 1, 2, 3 #2: Cats like brown chairs. Chair 2 Like 2, 3 #3: Tommy likes cats. Purr 1 Tommy 3 Ευρετηρίαση Γλωσσική Τεχνολογία
Στο επόμενο μάθημα.... • Ποια είδη ευρετηρίων υπάρχουν; • Αξιολόγηση πληρότητας και ποιότητας ευρετηρίου Γλωσσική Τεχνολογία
..... http://www.dblab.upatras.gr/gr/GlwssikiTexnologia.html Γλωσσική Τεχνολογία