430 likes | 583 Views
Γλωσσική Τεχνολογία. Μάθημα 3 ο : Βασικές Γλωσσολογικές Έννοιες Ι : Μορφολογία. Επεξεργασία Φυσικής Γλώσσας. Κυρίως γραπτή γλώσσα, κύριος στόχος η δημιουργία υπολογιστικών μοντέλων γλωσσολογικών θεωριών Γλωσσολογικοί κανόνες και αρχές που διέπουν τα επίπεδα ανάλυσης της φυσικής γλώσσας
E N D
Γλωσσική Τεχνολογία Μάθημα 3ο: Βασικές Γλωσσολογικές ΈννοιεςΙ: Μορφολογία Ακαδημαϊκό Έτος 2013-2014
Ακαδημαϊκό Έτος 2013-2014 Επεξεργασία Φυσικής Γλώσσας • Κυρίως γραπτή γλώσσα, κύριος στόχος η δημιουργία υπολογιστικών μοντέλων γλωσσολογικών θεωριών • Γλωσσολογικοί κανόνες και αρχές που διέπουν τα επίπεδα ανάλυσης της φυσικής γλώσσας • Εισαγωγή σε βασικές γλωσσολογικές έννοιες, ιδιαίτερα σημαντικές στην ΕΦΓ
Ακαδημαϊκό Έτος 2013-2014 Γλωσσολογία • Η επιστημονική μελέτη της ανθρώπινης γλώσσας • Μορφή (μορφολογία, φωνολογία, σύνταξη) • Νόημα (σημασιολογία, πραγματολογία) • Ευρύτερο πλαίσιο (εξελικτική, ιστορική γλωσσολογία, κοινωνιογλωσσολογία, ψυχογλωσσολογία, νευρογλωσσολογία, γλωσσική απόκτηση, ανάλυση λόγου) • Αλληλεπίδραση και με άλλες γνωστικές επιστήμες
Ακαδημαϊκό Έτος 2013-2014 Γενετική Θεωρία, Noam Chomsky • Ανθρώπινη (φυσική) γλώσσα: σημαντικότερο γνωσιακό σύστημα του ανθρώπου Οι ομιλητές μιας φυσικής γλώσσας κατέχουν ένα σύνολο γνώσεων που αποτελεί το το γλωσσικό τους σύστημα, έτσι όπως εκφράζεται και αναπαρίσταται από τη γραμματική • Γραμματική: σύνολο αρχών και κανόνων που καθορίζει αν μια πρόταση είναι γραμματική ή όχι Colorless green ideas sleep furiously
Ακαδημαϊκό Έτος 2013-2014 Γλωσσολογική Ανάλυση • Πολυεπίπεδη (μορφή, νόημα, ευρύτερο πλαίσιο) • Γλωσσική Ιεραρχία: • Φωνήματα • Μορφήματα* • Λέξεις • Φράσεις • Προτάσεις
Ακαδημαϊκό Έτος 2013-2014 Eπίπεδα ανάλυσης
Ακαδημαϊκό Έτος 2013-2014 Μορφολογία • Στον πυρήνα της γλωσσολ. έρευνας • Μελετά τη δομή των λέξεων, τα επιμέρους συστατικά τους, και τις σχέσεις αυτών των συστατικών • Προτείνει αρχές και κανόνες =>ανάλυση και δημιουργία των λέξεων *μόρφημα: η ελάχιστη μονάδα που συνδυάζει μορφή και σημασία, π.χ. αντι-μιλ-ώ
Ακαδημαϊκό Έτος 2013-2014 Μορφολογικές κατηγορίες Ι • Λέξεις: • Φέρουν έναν τόνο • Έχουν ολοκληρωμένη σημασία • Ανεπηρέαστη η εσωτερική τους δομή από τη σύνταξη • Μεσολαβούν παύσεις μεταξύ τους στο γραπτό λόγο • Δυσκολίες στην αναγνώριση και τα όρια των λέξεων=>χαλαρά σύνθετα : ψυχρός πόλεμος
Ακαδημαϊκό Έτος 2013-2014 Μορφολογικές κατηγορίες ΙΙ • Μορφήματα: • Ελάχιστα συστατικά των λέξεων • Ελεύθερα • χωρίς, με, και, σήμερα κτλ. • Δεσμευμένα • Θέματα* (stems) • ομορφ-, τρεχ-, ανθρωπ- κτλ. • Προσφύματα(affixes) • Προθήματα • δυσ- τυχος, ξε- φευγω • Επιθήματα • παιδ- ακι, τρεχ- ω
Ακαδημαϊκό Έτος 2013-2014 Θέμα VS Ρίζα • Θέμα(stem): βάση για τη δημιουργία των λέξεων, ευθύνη για σημασία. • Ρίζα(root): μόνο ετυμολογική και ιστορική αξία στην ΚΝΕ (Ralli, 1988) • Δυσδιάκριτα τα όρια των δύο στοιχείων => • Θέμα: βάση για δημιουργία λέξεων, ταύτιση με ρίζα σε πολλές πρισπτώσεις
Ακαδημαϊκό Έτος 2013-2014 Διαδικασίες σχηματισμού λέξεων Ι • Κλίση: • Διαδικασία σχηματισμού διαφορετικών μορφών μιας λέξης, συνδυασμός συγκεκριμένου θέματος και κλιτικών προσφυμάτων • παίζω=> έ – παιζ – α • γιατρός=> γιατρ- ού • Παραγωγή • Διαδικασία σχηματισμού νέων λέξεων, συνδυασμός θέματος και παραγωγικού προσφύματος • όργαν(ο)=> οργαν-ώνω, οργανω-τής, οργανω-τικ(ός), οργανωτικ-ά
Ακαδημαϊκό Έτος 2013-2014 Διαδικασίες σχηματισμού λέξεων ΙΙ • Σύνθεση • Διαδικασία που δημιουργεί μορφολογικά πολύπλοκα στοιχεία από τουλάχιστον δύο θέματα • ντομάτα+σαλάτα=> ντοματοσαλάτα • αλάτι+πιπέρι=> αλατοπίπερο • δεύτερος+λεπτό=> δευτερόλεπτο • σφιχτά+αγκαλιάζω=> σφιχταγκαλιάζω
Ακαδημαϊκό Έτος 2013-2014 Η Μορφολογία στην ΕΦΓ Ι • Ανάλυση της ενσωματωμένης γραμματικής πληροφορίας λεξικών μορφών • αυτή: γ’πρόσωπο, ενικός αριθμός, αρσενικό γένος • τραγούδησα: α’ πρόσωπο, ενικός αριθμός, αόριστος χρόνος • Parsing σύνθετων λεξικών μορφών στα επιμέρους συστατικά τους • Αντιπολεμικός: αντι+πολεμ+ικ+ος
Ακαδημαϊκό Έτος 2013-2014 Η Μορφολογία στην ΕΦΓ ΙΙ • Αnaphora resolution: • Ο Κώστας συνάντησε τους φίλους του στο δρόμο και τους είπε τι του συνέβη. • Αναγνώριση μερών του λόγου(Parts of Speech) • Noun: ονόματα, ουσιαστικά • Verb: ρηματικοί τύποι • Adjective: επίθετα • Η ίδια κλάση ελέγχεται με το τεστ της αντικατάστασης: το καλό/κακό/χαζό κορίτσι/αγόρι/παιδί/ζώο έτρεχε/έπαιζε/χτύπησε
Ακαδημαϊκό Έτος 2013-2014 Άλλα μέρη του λόγου • Σχεση με ονόματα: pronouns και determiners* • Εκείνος, μας, εγώ, αυτών, ο, το, ένας *στη ΝΕ ταυτίζεται με το άρθρο • Αdverbs, prepositions και particles • συχνά, καλώς, μετά, έτσι, για, με, σε, θα, μα • Conjunctions • Και, αλλά, ή, είτε-είτε
Ακαδημαϊκό Έτος 2013-2014 Αυτόματα πεπερασμένων καταστάσεων • Finite State Automata (FSA) • Αναπαριστάνεται σαν γράφος • ενός συνόλου καταστάσεων • κατευθυνόμενων μεταβάσεων • που αντιστοιχούν σε σύμβολα ενός αλφαβήτου • Μια κατάσταση ορίζεται σαν αρχική • Μερικές καταστάσεις ορίζονται σαν τελικές
Ακαδημαϊκό Έτος 2013-2014 Αναγνώριση με FSA Ι • Είσοδος: μια «ταινία» με «κελιά». Κάθε κελί περιέχει ένα σύμβολο από την είσοδο • Η μηχανή ξεκινά από την αρχική κατάσταση:
Ακαδημαϊκό Έτος 2013-2014 Αναγνώριση με FSA ΙΙ • Σε κάθε κατάσταση, ελέγχεται ο επόμενος χαρακτήρας εισόδου • Αν υπάρχει μετάβαση για αυτόν τον χαρακτήρα, γίνεται η μετάβαση και η είσοδος μετακινείται 1 κελί • Αν δεν υπάρχει μετάβαση, η είσοδος δεν είναι αποδεκτή • Αν τελειώσουν τα κελιά εισόδου: • Αν η τρέχουσα κατάσταση είναι τελική, η είσοδος είναι αποδεκτή
Ακαδημαϊκό Έτος 2013-2014 Μορφολογία Ι • Εφαρμόζεται σε επίπεδο λέξης • Εξετάζει τη μορφή των λέξεων • Επηρεάζει/εται (από) τη φωνολογία • Είναι το επίπεδο ανάλυσης που συσχετίζει: • Αλεπού, αλεπούδες, αλεπουδάκι • Είμαι, ήμουν • Έρχομαι, ήρθα • …
Ακαδημαϊκό Έτος 2013-2014 Μορφολογία ΙΙ • Δύο ειδών κανόνες: • Ορθογραφικοί κανόνες • Ο πληθυντικός αγγλικών λέξεων σε –y σχηματίζεται με την μετατροπή του –y σε –i, και την προσθήκη –es • Μορφολογικοί κανόνες • Μας λένε ότι οι λέξεις fish, deer, beer δεν έχουν πληθυντικό • Ο πληθυντικός την λέξης goose γίνεται με αλλαγή του φωνήεντος (geese)
Ακαδημαϊκό Έτος 2013-2014 Μορφολογική Ανάλυση • Το πρόβλημα της: • αναγνώρισης ότι μια λέξη (όπως αλεπούδες) αποσυντίθεται σε μορφήματα (αλεπ + ούδες), και • η δημιουργία μιας δομημένης αναπαράστασης για αυτό το γεγονός, • ονομάζεται μορφολογική ανάλυση (morphological parsing) • Parsing: η διαδικασία της παραγωγής κάποιας μορφής γλωσσικής πληροφορίας για κάποια είσοδο
Ακαδημαϊκό Έτος 2013-2014 Υπολογιστική μορφολογία • Η αυτόματη (μέσω μηχανής) αντιστοίχηση μιας λέξης με τις μορφολογικές πληροφορίες που την χαρακτηρίζουν • Μορφολογική ανάλυση (parsing) • Αλεπούδες: αλεπού + ονομαστική + πληθυντικός • Μορφολογική παραγωγή (generation) • Αλεπού + ονομαστική + πληθυντικός: αλεπούδες
Ακαδημαϊκό Έτος 2013-2014 Αλγόριθμοι και εργασίες • Μορφολογική ανάλυση • Finite state transducers • Μορφολογικά λεξικά (ηλεκτρονικά) • Μορφολογική παραγωγή • Μορφολογικά λεξικά (ηλεκτρονικά) • Συστήματα κανόνων • Συχνές εργασίες • Εύρεση θέματος (stemming) • Λημματοποίηση: εύρεση λήμματος (lemmatization) • Αναγνώριση μερών του λόγου (POS tagging) • Αναγνώριση λέξεων/προτάσεων
Ακαδημαϊκό Έτος 2013-2014 Μορφολογική ανάλυση • Στόχος: • Μορφολογική πληροφορία για την είσοδο
Ακαδημαϊκό Έτος 2013-2014 Μορφολογικός αναλυτής • Για την κατασκευή ενός μορφολογικού αναλυτή χρειαζόμαστε: • Λεξικό: λίστα από θέματα και προσφύματα, μαζί με βασική πληροφορία για αυτά (π.χ. μέρος του λόγου) • Μορφοτακτικοί κανόνες (morphotactics): το μοντέλο της οργάνωσης των μορφημάτων • ποιοι τύποι μορφημάτων μπορούν να ακολουθούν άλλα μορφήματα μέσα σε μια λέξη • Ορθογραφικοί κανόνες: περιγράφουν τις αλλαγές που συμβαίνουν όταν συνδυάζονται μορφήματα • city + s→ cities (καιόχιcitys)
Ακαδημαϊκό Έτος 2013-2014 Προσεγγίσεις • Προσεγγίσεις για την κατασκευή μορφολογικών αναλυτών • Αποκλειστική χρήση λεξικού • Χρήση λεξικού και κανόνων • Finite state transducers • Finite state automata • Αποκλειστική χρήση κανόνων
Ακαδημαϊκό Έτος 2013-2014 Προσεγγίσεις Ι: Χρήση λεξικού • Το λεξικό απαριθμεί όλες τις λέξεις και τις πληροφορίες που την χαρακτηρίζουν • Δεν υπάρχουν κανόνες …? • Εύκολη ανάλυση/παραγωγή • Μεγάλο μέγεθος (αγγλικά) • Ελληνικά, Γαλλικά; • Αραβικά, Τούρκικα; • Κινέζικα;
Ακαδημαϊκό Έτος 2013-2014 Προσεγγίσεις ΙΙ: Λεξικό + κανόνες (1) Λεξικό:
Ακαδημαϊκό Έτος 2013-2014 Προσεγγίσεις ΙΙ: Λεξικό + κανόνες (2)
Ακαδημαϊκό Έτος 2013-2014 Μορφολογικός αναγνωριστής • Μια συμβολοσειρά από χαρακτήρες, είναι έγκυρη λέξη; • Ενσωμάτωση των «υπο-λεξικών» στο FSA των κανόνων:
Ακαδημαϊκό Έτος 2013-2014 Μορφολογική ανάλυση • Αυτόματα πεπερασμένων καταστάσεων (FSA) • Αναγνώριση • Μορφολογία ενός επιπέδου • Finite state transducers (FST) • Μορφολογία δύο επιπέδων • Παράγουν έξοδο, ανάλογα με την είσοδο • Όπως και στην περίπτωση των FSA, τόσο το λεξικό όσο και οι μορφοτακτικοί κανόνες μπορούν να αναπαρασταθούν από FSTs
Ακαδημαϊκό Έτος 2013-2014 Μορφολογία δύο επιπέδων • Επιφανειακή (surface) μορφή: λέξη όπως απαντάται στο κείμενο • Λεξιλογική (lexical) μορφή: η ακολουθία των μορφολογικών χαρακτηριστικών • Μορφολογία δύο επιπέδων: αντιστοίχιση μεταξύ επιφανειακού/λεξιλογικού επιπέδου • Λεξιλογικό επίπεδο • Επιφανειακό επίπεδο
Ακαδημαϊκό Έτος 2013-2014 Ορθογραφικοί κανόνες (1) • Οι μέθοδοι που περιγράφηκαν αναγνωρίζουν λέξεις όπως «fox» και «goose» • Όμως η απλή συνένωση μορφημάτων δεν λειτουργεί όταν απαιτούνται ορθογραφικές προσθήκες • foxs: αποδεκτό, foxes: απορριπτέο
Ακαδημαϊκό Έτος 2013-2014 Ορθογραφικοί κανόνες (2) • Μπορούν να ειδωθούν σαν μετασχηματισμός: • Δέχεται μια συνένωση μορφημάτων (ενδιάμεσο επίπεδο) • Παράγει την επιφανειακή μορφή της λέξης
Ακαδημαϊκό Έτος 2013-2014 Ορθογραφικοί κανόνες (3) • Λεξιλογικό επίπεδο • Ενδιάμεσο επίπεδο • Επιφανειακό επίπεδο
Ακαδημαϊκό Έτος 2013-2014 Ορθογραφικοί κανόνες (4) • «Εισαγωγή ενός e στην ταινία επιφανειακού επιπέδου, όταν η ταινία του λεξιλογικού επιπέδου έχει ένα μόρφημα που τελειώνει σε x (ή z) και το επόμενο μόρφημα είναι το -s» • Chomsky and Halle (1968) notation:
Ακαδημαϊκό Έτος 2013-2014 Ορθογραφικοί κανόνες (5) • Αναπαράσταση του ορθογραφικού κανόνα σαν FST, πίνακας μεταβάσεων
Ακαδημαϊκό Έτος 2013-2014 Συνδυάζοντας λεξικό και κανόνες (1) • Το FST λεξικού αντιστοιχίζει το λεξιλογικό επίπεδο στο ενδιάμεσο επίπεδο, που αναπαριστά απλές συνενώσεις μορφημάτων • Ένα σύνολο από FST κανόνων τρέχουν παράλληλα/σειριακά αντιστοιχίζοντας το ενδιάμεσο στο επιφανειακό επίπεδο • Ο FST λεξικού και οι FST των ορθογραφικών κανόνων σχηματίζουν μια αλληλουχία (cascade)
Ακαδημαϊκό Έτος 2013-2014 Συνδυάζοντας λεξικό και κανόνες (2)
Ακαδημαϊκό Έτος 2013-2014 FSTs και ασάφεια • Η ανάλυση είναι δυσκολότερη της παραγωγής • Λόγω ασάφειας: π.χ. foxes • fox +V +3Sg • fox +N +PL • Η αποσαφήνιση δεν μπορεί να γίνει χωρίς τα συμφραζόμενα • Ο FST πρέπει να δημιουργήσει και τις δύο αναλύσεις • Ασάφεια μπορεί να προκληθεί και εξαιτίας πολλαπλών πιθανών μονοπατιών, ή λόγω μεταβάσεων 𝜖
Ακαδημαϊκό Έτος 2013-2014 Αναγνώριση θέματος • Stemming: η εύρεση της ρίζας/θέματος μιας λέξης • Συνήθως δεν χρησιμοποιείται λεξικό • Χρησιμοποιείται σε εφαρμογές ανάκτησης πληροφορίας και ταξινόμησης κειμένων • Η βελτίωση που επιφέρει στην ανάκτηση πληροφορίας δεν είναι πάντα αξιόλογη • Χρησιμοποιείται στην μείωση διαστατικότητας, όταν εφαρμόζεται μηχανική μάθηση
Ακαδημαϊκό Έτος 2013-2014 Porter stemmer (1980) • Ευρέως διαδεδομένος stemmer (Αγγλικά) • Βασίζεται σε ένα σύνολο κανόνων, που εφαρμόζονται σειριακά • ATIONAL →ATE (relational → relate) • ING → 𝜖 if stem contains vowel (motoring → motor) • Παραδείγματα λαθών: • organization → organ, doing → doe • Παραδείγματα παραλείψεων: • matrices → matrix, explain → explanation http://www.tartarus.org/~martin/PorterStemmer/
Ακαδημαϊκό Έτος 2013-2014 Βιβλιογραφία • Αγγελική Ράλλη, 2005. Μορφολογία. Εκδόσεις Πατάκη, Αθήνα • Κεφάλαια 2 & 3 από το εγχειρίδιο «Speech and Language Processing» των D. Jurafskyκαι J.H. Martin, 2η έκδοση, Pearson, 2009