340 likes | 534 Views
Μάθημα 8 ο : Πεδία ενδιαφέροντος κ’ εφαρμογών ( 2 ). Γλωσσικη τεχνολογια. Οι διαφάνειες αυτού του μαθήματος βασίζονται στα κεφάλαια 6, 7 του βιβλίου: «Η τεχνολογία της πληροφορίας στην επεξεργασία φυσικής γλώσσας», Κ. Φράγγος και Αν. Κουτσούκος, εκδόσεις ΜΥΡΜΙΔΟΝΕΣ, 2010.
E N D
Μάθημα 8ο: Πεδία ενδιαφέροντος κ’ εφαρμογών (2) Γλωσσικη τεχνολογια
Οι διαφάνειες αυτού του μαθήματος βασίζονται στα κεφάλαια 6, 7 του βιβλίου: «Η τεχνολογία της πληροφορίας στην επεξεργασία φυσικής γλώσσας», Κ. Φράγγος και Αν. Κουτσούκος, εκδόσεις ΜΥΡΜΙΔΟΝΕΣ, 2010. Ακαδημαϊκό Έτος: 2013-2014
Ανάκτηση πληροφορίας (1) Εξαγωγή πληροφορίας (1) Αποσαφήνιση εννοιών λέξεων (Word Sense Disambiguation- WSD) Αυτόματη παραγωγή περιλήψεων (Summarization) Ακαδημαϊκό Έτος: 2013-2014 Πεδια εφαρμογων
Ακαδημαϊκό Έτος: 2013-2014 Αποσαφήνιση εννοιών λέξεων Πεδια εφαρμογων
Οι περισσότερες λέξεις στις φυσικές γλώσσες είναι πολύσημες: • Ποντίκι: τρωκτικό, εξάρτημα Η/Υ, μυς • Βιβλιοθήκη: έπιπλο, κτήριο • Η άρση της ασάφειας γίνεται στο πλαίσιο του περιβάλλοντος (context): • Απόδοση της σωστής σημασίας σε μια λέξη (target word) μέσα στο πλαίσιο που αποτελείται από τις περιβάλλουσες λέξεις Ακαδημαϊκό Έτος: 2013-2014 Ασαφεια εννοιασ λεξεων
Εισαγωγή συντακτικών ή/και σημασιολογικών περιορισμών στο πώς συνδυάζονται οι λέξεις • Τρώω: το υποκείμενο πρέπει να είναι ζωντανός οργανισμός και το αντικείμενο κάτι φαγώσιμο • Κίτρινος: μπορεί να προσδιορίζει φυσικά αντικείμενα αλλά όχι αφηρημένες έννοιες • Οι κανόνες αυτοί καλούνται περιορισμοί επιλογής (selectional restrictions) Ακαδημαϊκό Έτος: 2013-2014 Παραδοσιακη προσεγγιση(1)
Η απόδοση της παραδοσιακής προσέγγισης έχει δοκιμαστεί σε μικρά σώματα κειμένων • Ταυτόχρονα, είναι περιοριστική, αφού μας επιτρέπει μόνο να ελέγξουμε αν κάτι είναι επιτρεπτό • Και δεν μας βοηθά ιδιαίτερα να βρούμε το επιτρεπτό • Η διαθεσιμότητα μεγάλων ηλεκτρονικών λεξικών, όπως το Wordnet έδωσε μεγάλη ώθηση στην ανάπτυξη συστημάτων αποσαφήνισης εννοιών λέξεων Ακαδημαϊκό Έτος: 2013-2014 Παραδοσιακη προσεγγιση(2)
Το λεξικό περιλαμβάνει το πλήρες σύνολο εννοιών για μια λέξη • Κάθε έννοια αποδίδεται σαν ένα σύνολο από συνώνυμες λέξεις (synsets) • Οι λέξεις είναι ιεραρχημένες σε υπερώνυμα – υπώνυμα • Διακριτές ιεραρχίες για ουσιαστικά, επίθετα, ρήματα, επιρρήματα • Υπάρχουν και άλλες σχέσεις • Π.χ. μερώνυμα Ακαδημαϊκό Έτος: 2013-2014 Wordnet
Η ΑΕΛ μπορεί να θεωρηθεί πρόβλημα ταξινόμησης • Κατάταξη των εμφανίσεων κάθε λέξης σε κατηγορίες • Έννοιες της λέξης, από τις διαθέσιμες έννοιες ενός λεξικού • Ουσιαστικά, χρειαζόμαστε έναν ταξινομητή για κάθε λέξη • Το οποίο είναι εφικτό μόνο για μικρά σύνολα λέξεων • Χαρακτηριστικά που είναι χρήσιμα: • Ποιες λέξεις ή/και ποια μέρη του λόγου εμφανίζονται στα συμφραζόμενα (βάσει παραθύρου), ή/και σε συγκεκριμένες θέσεις στο περιβάλλον Ακαδημαϊκό Έτος: 2013-2014 ΑΕΛ μεσω μηχανικησ μαθησησ
Βασίζεται στην σύγκριση «υπογραφών» για κάθε έννοια, με την πρόταση που εμφανίζεται μια λέξη • Σαν «υπογραφή» μιας έννοιας, θεωρείται το “gloss” της έννοιας (simplified Lesk) • Επίσης, μπορεί να θεωρηθεί το “gloss” μαζί με άλλες προτάσεις που εμφανίζεται η λέξη με την συγκεκριμένη έννοια (corpus Lesk) • Η σύγκριση γίνεται με μέτρα ομοιότητας • Όπως το edit distance (μεταξύ πρότασης και υπογραφής), ή το cosine similarity (των διανυσμάτων πρότασης και υπογραφής) Ακαδημαϊκό Έτος: 2013-2014 Η μεθοδοσ αελ του lesk
Παριστάνουμε τα δύο κείμενα (π.χ. υπογραφή και πρόταση στη μέθοδο Lesk) ως δύο διανύσματα • Boolean διανύσματα • Δείχνουν ποιες λέξεις ενός λεξιλογίου εμφανίζονται ή όχι σε κάθε κείμενο • Διανύσματα συχνοτήτων (term frequency, TF) • Δείχνουν πόσες φορές εμφανίζεται κάθε λέξη του λεξιλογίου • Διανύσματα TF-IDF • Για κάθε λέξη W𝑖 του λεξιλογίου, το διάνυσμα περιέχει την τιμή (βάρος) TF𝑖⋅ IDF𝑖 • Θέλουμε οι συχνές στο κείμενο και σπάνιες στη γλώσσα λέξεις να έχουν μεγάλα βάρη • Το IDF𝑖δείχνει πόσο σπάνια είναι η W𝑖στη γλώσσα Ακαδημαϊκό Έτος: 2013-2014 Διανυσματικη παρασταση κειμενων
Μέτρα σημασιολογικής ομοιότητας λέξεων ή εννοιών λέξεων τα οποία βασίζονται σε θησαυρούς λέξεων • Π.χ. «αγοράζω» – «αποκτώ», «πτήση» – «αεροπλάνο» • Π.χ. εξετάζουν το μήκος του συντομότερου μονοπατιού που ενώνει δύο έννοιες στο Wordnet • Πολλές παραλλαγές • Επεκτείνονται και σε μέτρα που εξετάζουν την ομοιότητα λέξεων (αντί συγκεκριμένων εννοιών λέξεων), προτάσεων, κειμένων Ακαδημαϊκό Έτος: 2013-2014 Μετρα σημασιολογικησ ομοιοτητασ (1)
Μέτρα σημασιολογικής ομοιότητας λέξεων ή εννοιών λέξεων που χρησιμοποιούν συχνότητες συνεμφανίσεων • Λέξεις με παρόμοια σημασία τείνουν να εμφανίζονται με παρόμοια συμφραζόμενα (distributional hypothesis) • Μπορούμε να αναπαραστήσουμε κάθε λέξη με ένα διάνυσμα • Που δείχνει πόσο συχνά συνεμφανίζεται η συγκεκριμένη λέξη με κάθε άλλη λέξη ενός λεξιλογίου • Πρέπει να αποφασίσουμε τι ακριβώς μετρήσεις θα περιλαμβάνει το διάνυσμα κάθε λέξης w • Μέτρηση της ομοιότητας των διανυσμάτων Ακαδημαϊκό Έτος: 2013-2014 Μετρα σημασιολογικησ ομοιοτητασ (2)
Συγκρίνει τους παρατηρηθέντες και αναμενόμενους αριθμούς, όταν οι δυνατές εκβάσεις ενός πειράματος υποδιαιρούνται σε αμοιβαία αποκλειόμενες κατηγορίες • Π.χ. “art” • Art, fine art • Art, artistic creation, artistic production • Art, artistry, prowess • Artwork, art, graphics, nontextual matter • Χρησιμοποιώντας τις σχέσεις του Wordnet, εμπλουτίζω κάθε synsetκαι με άλλες λέξεις • Μετρώ συχνότητες εμφάνισης στο περιβάλλον του “art” • Υπολογίζω τον χ-τετράγωνο έλεγχο, και επιλέγω την έννοια με την μικρότερη τιμή Ακαδημαϊκό Έτος: 2013-2014 Χ-τετρaγωνο eλεγχοσ
Ακαδημαϊκό Έτος: 2013-2014 Αυτόματη εξαγωγή περίληψης Πεδια εφαρμογων
Τι είναι η αυτόματη εξαγωγή περιλήψεων; Η διαδικασία της διήθησης της πιο σημαντικής πληροφορίας από ένα κείμενο, ώστε να δημιουργηθεί μια σύντομη εκδοχή, για μια συγκεκριμένη εργασία και χρήστη Ακαδημαϊκό Έτος: 2013-2014 Εξαγωγη περιληψεων
Δημιουργία «περιγράμματος» (outline) εγγράφων • Περίληψη/σύνοψη επιστημονικών άρθρων • Τίτλοι άρθρων εφημερίδων • Μικρά αποσπάσματα (snippets) ιστοσελίδων • Π.χ. στα αποτελέσματα μηχανών αναζήτησης • Αποφάσεις ενεργειών (action items) συναντήσεων, πρακτικά συναντήσεων • Περιλήψεις από αλληλουχίες e-mail • Εκτενέστερες απαντήσεις σε ερωτήσεις ορισμού ή τρόπου • Π.χ. «Ποιος ήταν ο Σωκράτης;», «Πώς ετοιμάζω το φαγητό Χ;» Ακαδημαϊκό Έτος: 2013-2014 Χρησιμη για πολλεσ εργασιεσ..
Τρεις βασικές διαστάσεις: • Από ένα ή πολλά έγγραφα • Single-document summarization: εξαγωγή περίληψης από ένα μόνο έγγραφο • Multiple-document summarization: εξαγωγή περίληψης από πολλά έγγραφα, συμπτύσσοντας πληροφορία από πολλές πηγές • Π.χ. περίληψη γεγονότος από πολλά ειδησεογραφικά πρακτορεία Ακαδημαϊκό Έτος: 2013-2014 Κατηγοριεσ περιληψεων (1)
Γενική ή εστιασμένη σε ερώτημα • Generic summary: εξαγωγή περίληψης χωρίς να ληφθεί υπ’ όψιν μια συγκεκριμένη πληροφοριακή ανάγκη, ή ένας χρήστης • Query-based summarization: η περίληψη εξάγεται σαν απάντηση σε κάποιο ερώτημα χρήστη • Συχνά θεωρείται σαν μια εκτενής/λεπτομερής απάντηση σε κάποιο ερώτημα • Συνώνυμα: focused-summarization, topic-based summarization, user-focused summarization Ακαδημαϊκό Έτος: 2013-2014 Κατηγοριεσ περιληψεων (2)
Επιλογή αποσπασμάτων ή αναδιατύπωση Extract: παράγεται από συνδυασμό φράσεων/προτάσεων που έχουν επιλεγεί (εξαχθεί) από το κείμενο Abstract: χρησιμοποίηση διαφορετικών λέξεων/φράσεων για να περιγραφούν τα περιεχόμενα ενός εγγράφου Ακαδημαϊκό Έτος: 2013-2014 Κατηγοριεσ περιληψεων (3)
Ακαδημαϊκό Έτος: 2013-2014 Αναδιατυπωση ή επιλογη αποσπασματων;
Τα συστήματα αυτόματης παραγωγής περιλήψεων είναι και συστήματα παραγωγής φυσικής γλώσσας • Κυριότερα στάδια: • Επιλογή περιεχομένου (content selection) • Επιλογή της πληροφορίας για την περίληψη • Συνήθως επιλογή φράσεων/προτάσεων • Σχεδιασμός κειμένου (information ordering) • Ταξινόμηση και διάταξη των επιλεγμένων μονάδων • Επιφανειακή πραγμάτωση (sentence realization) • Εργασίες όπως συνένωση μονάδων, επισκευή αναφορικών εκφράσεων, κλπ. Ακαδημαϊκό Έτος: 2013-2014 Αυτoματη παραγωγh περιλhψεων (1)
Όταν παράγεται περίληψη από ένα έγγραφο, πολλά συστήματα: • Απλά επιλέγουν προτάσεις • Ενδεχομένως τις συντομεύουν • Τις εμφανίζουν με τη σειρά που είχαν στο έγγραφο • Συχνά, το πρόβλημα διατυπώνεται σαν πρόβλημα επιλογής προτάσεων • Στο οποίο μπορεί να εφαρμοστεί μηχανική μάθηση Ακαδημαϊκό Έτος: 2013-2014 Αυτoματη παραγωγh περιλhψεων (2)
Επιλογή περιεχομένου • Επιλογή φράσεων/προτάσεων από το κείμενο • Σχεδιασμός κειμένου • Επιλογή σειράς εμφάνισης των επιλεγμένων προτάσεων στην περίληψη • Επιφανειακή πραγμάτωση • Καθαρισμός προτάσεων • Π.χ. αφαίρεση μη απαραίτητων τμημάτων • Συνένωση προτάσεων σε μια πρόταση • Βελτίωση συνεκτικότητας (coherence) Ακαδημαϊκό Έτος: 2013-2014 Εξαγωγh απoeνα eγγραφο (1)
Ακαδημαϊκό Έτος: 2013-2014 Εξαγωγh απoeνα eγγραφο (2)
Μέσω μηχανικής μάθησης • Πρόβλημα ταξινόμησης προτάσεων/φράσεων σε δύο κατηγορίες • Σημαντική ή όχι, άξια/ανάξια επιλογής • Επιβλεπόμενη ή μη-επιβλεπόμενη μηχανική μάθηση • Παραδείγματα χαρακτηριστικών • TF-IDF • Log-likelihood ratio (LLR) • Σκοπός η αξιοποίηση σημαντικών (salient) ή πληροφοριακών (informative) λέξεων Ακαδημαϊκό Έτος: 2013-2014 Επιλογh περιεχομeνου απoeνα eγγραφο (1)
Μη-επιβλεπόμενη μέθοδος Luhn, 1958 • Η μέθοδος υπολογίζει το βάρος κάθε πρότασης • Επιλέγει ν προτάσεις με το καλύτερο βάρος • Η μέθοδος ανήκει στην κατηγορία των centroid-based summarization αλγορίθμων • Αν θεωρήσουμε τους όρους «υπογραφής» σαν ψευδο-πρόταση, που αποτελεί το κεντροειδές (centroid) • Επιλέγουμε τις προτάσεις που βρίσκονται πιο κοντά στο «κέντρο» Ακαδημαϊκό Έτος: 2013-2014 Επιλογh περιεχομeνου απoeνα eγγραφο (2)
Κεντρικότητα (centrality) • Πολλές οι μέθοδοι που βασίζονται σε αποστάσεις από ένα κεντροειδές • Αντί να χρησιμοποιηθούν σημαντικές λέξεις, μπορεί απλά να μετρηθεί το πόσο μοιάζουν οι προτάσεις μεταξύ τους • Και να επιλεγούν προτάσεις που μοιάζουν μεταξύ τους (clustering) • Vector-space model Ακαδημαϊκό Έτος: 2013-2014 Επιλογh περιεχομeνου απoeνα eγγραφο (3)
Επιλογή περιεχομένου μέσω επιβλεπόμενης μηχανικής μάθησης • Δεδομένα εκπαίδευσης: • Κείμενα και προτάσεις που επέλεξαν άνθρωποι, ή • Προτάσεις περιλήψεων που έγραψαν άνθρωποι • ευθυγραμμισμένες με τις αρχικές (αναδιατύπωση) • Η ευθυγράμμιση μεταξύ περίληψης και αρχικού κειμένου είναι σημαντική Ακαδημαϊκό Έτος: 2013-2014 Επιβλεπoμενη μηχανικh μaθηση
Απλούστευση/συμπίεση προτάσεων (sentence simplification/compression) • Χρήση κανόνων για την επιλογή φράσεων που θα κρατηθούν ή θα απορριφθούν Ακαδημαϊκό Έτος: 2013-2014 Επιφανειακh πραγμaτωση
Πρέπει να επιλεγούν προτάσεις που είναι σημαντικές • Αλλά δεν λένε το ίδιο πράγμα • Ομαδοποιούμε τις προτάσεις που λένε το ίδιο πράγμα, και επιλέγουμε μόνο μία • Επιλέγουμε προτάσεις σαν να είχαμε ένα έγγραφο, και απορρίπτουμε αυτές που μοιάζουν μεταξύ τους Ακαδημαϊκό Έτος: 2013-2014 Εξαγωγh απo πολλaeγγραφα
Το ερώτημα επηρεάζει την επιλογή των εγγράφων • Αν χρησιμοποιείται σύστημα ανάκτησης πληροφοριών • Η επιλογή μπορεί να γίνει μέσω ομοιότητας προτάσεων με το ερώτημα • Το ερώτημα μπορεί να καταταχθεί σε κατηγορίες • Και να δημιουργούνται απαντήσεις με βάση σχεδιότυπα (templates) απαντήσεων • Π.χ. για το ερώτημα «Ποιος ήταν ο Σωκράτης;», το σύστημα εντοπίζει πληροφορίες για γέννηση, θάνατο, επιτεύγματα κλπ., και τις διατάσει με προκαθορισμένο τρόπο • Μέσω μηχανικής μάθησης να εξαχθεί διαφορετικό μοντέλο επιλογής και διάταξης ανά κατηγορία ερώτησης Ακαδημαϊκό Έτος: 2013-2014 Περιληψεισ εστιασμενεσ σε ερωτηματα
Ανοιχτό ερευνητικό ζήτημα • Η πιο αξιόπιστη αξιολόγηση γίνεται μέσω ανθρώπων-κριτών • Οι οποίοι εξετάζουν αν διατηρούνται οι σημαντικότερες πληροφορίες, την ποιότητα της περίληψης, αν είναι κατανοητή, κλπ. • Δεν είναι πρακτικός τρόπος αξιολόγησης • Δεν είναι εύκολο να επαναλαμβάνεται ή διαδικασία κάθε φορά που ελέγχεται μια παραλλαγή του συστήματος Ακαδημαϊκό Έτος: 2013-2014 Αξιολογηση
Το πρόβλημα: • Με δεδομένο ένα σύνολο από περιλήψεις αναφοράς, καθόρισε την ποιότητα μιας αυτόματα παραχθείσας περίληψης • Η λύση • Αναπαράσταση όλων των περιλήψεων σαν γράφους ν-γραμμάτων • Εξαγωγή της ομοιότητας των γράφων μεταξύ της αυτόματης περίληψης, και των περιλήψεων αναφοράς • Υπολογισμός του μέσου όρου ομοιότητας • Εναλλακτικά: δημιουργία ενός γράφου για όλες τις περιλήψεις αναφοράς • Σύγκριση μόνο δύο γράφων Ακαδημαϊκό Έτος: 2013-2014 Αξιολογηση περιληψεων