290 likes | 415 Views
Η αυτόματη επεξεργασία των φυσικών γλωσσών: Μέθοδοι και εφαρμογές. Αναστασία Γιαννακοπούλου Δρ Υπολογιστικής Γλωσσολογίας. Εργαστήριο ΤΝΤΛ Τομέα ΕΥ Γενικό Τμήμα Θετικών Επιστημών ΤΕΙ Κρήτης. Πλάνο. Τι είναι η Υπολογιστική Γλωσσολογία Πεδία εφαρμογής Αυτόματη Μετάφραση Βασική έρευνα
E N D
Η αυτόματη επεξεργασία των φυσικών γλωσσών: Μέθοδοι και εφαρμογές Αναστασία ΓιαννακοπούλουΔρ Υπολογιστικής Γλωσσολογίας Εργαστήριο ΤΝΤΛ Τομέα ΕΥ Γενικό Τμήμα Θετικών Επιστημών ΤΕΙ Κρήτης
Πλάνο • Τι είναι η Υπολογιστική Γλωσσολογία • Πεδία εφαρμογής • Αυτόματη Μετάφραση • Βασική έρευνα • Εφαρμογές • Συστήματα ερωταποκρίσεων στα ελληνικά
Αυτόματη επεξεργασία των φυσικών γλωσσών: ορισμός • Αυτόματη επεξεργασία των φυσικών γλωσσών = NLP:Natural Language Processing • Είναι μια επιστήμη που συνδυάζει την Πληροφορική, τη Γλωσσολογία και την Τεχνητή Νοημοσύνη. • Φυσική γλώσσα = ανθρώπινη γλώσσα • Απώτερος στόχος = κατανόηση της ανθρώπινης γλώσσας από τον υπολογιστή
Πεδία εφαρμογής • Αυτόματη μετάφραση –MT: Machine Translation • Ανάκτηση πληροφορίας–IR: Information Retrieval • Εξαγωγή πληροφορίας –IE: Information Extraction • Εξόρυξη δεδομένων –DM: Data Mining • Αναγνώριση μερών του λόγου –Part-of-speech (POS) tagging • Συντακτική ανάλυση – Parsing • Αναγνώριση ονοματικών οντοτήτων – NER: NamedEntities Recognition • Μηχανική μάθηση– ML: Machine Learning • Αυτόματη αναπαραγωγή κειμένων–NLG: Natural LanguageGeneration • Αναγνώριση προφορικού λόγου– Speech Recognition (Text-to-speech and Speech-to-textsystems) • …
Αυτόματη Μετάφραση http://translate.google.com/
Αυτόματη Μετάφραση • Ruled-based machine translation (RBMT) – SYSTRAN Μεταφορά Σημασιολογία Σημασιολογία Σύνταξη Σύνταξη Μορφολογία Μορφολογία Κείμενο-πηγήΑνάλυση Κείμενο-στόχος Σύνθεση
Αυτόματη Μετάφραση • Statistical Machine Translation (SMT) • Παράλληλα σώματα κειμένων (parallel corpus) – +1.000.000λέξεις • 2 μονόγλωσσα σώματα κειμένων – +1δις λέξεις το καθένα Στατιστικά μοντέλα Προβλήματα: • Ευθυγράμμιση προτάσεων (Sentence alignement) • Σύνθετες λέξεις και ιδιωματικές εκφράσεις • Μορφολογικοί τύποι • Σύνταξη
Αυτόματη Μετάφραση Output Text • Υβριδικά μοντέλα SMT System(Moses)Phrase Table Hybrid Output Phrase substitution Input Text RBMT System Output Text
Βασική έρευνα • Δημιουργία ηλεκτρονικών λεξικών • Εμπλουτισμός και διαχείριση ηλεκτρονικών λεξικών • Συντακτικο-σημασιολογική περιγραφή των ιδιοτήτων των ρημάτων με συμπλήρωμα που δηλώνει τον τόπο. • Δημιουργία γραμματικών για τη συντακτική ανάλυση, μερική ή πλήρη, δομών • Ονοματικές Οντότητες (NER) • Κυρίως γλώσσες: αγγλικά, γαλλικά, ελληνικά
Γλωσσολογικά δεδομένα Χρησιμοποιούμε τα γλωσσολογικά δεδομένα για να αναλύσουμε τα κείμενα (parsing), δηλαδή: • μορφολογική ανάλυση των κειμένων, με την εφαρμογή ηλεκτρονικών λεξικών(electronic dictionaries) • συντακτική και σημασιολογική ανάλυση των κειμένων, με την εφαρμογή γραμματικών (local grammars)
Ηλεκτρονικά λεξικά • Με τον όρο «ηλεκτρονικά λεξικά» εννοούμε τα λεξικά που έχουν μια συγκεκριμένη δομή, η πληροφορία είναι κωδικοποιημένη και μπορούν να χρησιμοποιηθούν σε αναλυτές κειμένων (parsers). • Διαφορά ηλεκτρονικών λεξικών και λεξικών σε ηλεκτρονική μορφή.
Ηλεκτρονικά λεξικά • Παράδειγμα ηλεκτρονικού λεξικού: book,.N+Conc:s book,.V:W:P1s:P2s:P1p:P2p:P3p bookingoffice,.N+XN+Conc+z1:s bookingoffices,booking office.N+XN+Conc+z1:p booking,.N:s booking,book.V:G bookings,booking.N:p books,book.N+Conc:p books,book.V:P3s bookseller,.N+Hum:s booksellers,bookseller.N+Hum:p • Μορφή: κλιτός_τύπος,λημματικός_τύπος.γραμμ_κατ+ΣΣ_πλρφ+…:κλιτ_πλρφ:…
Γραμματικές • Γενικά, μια γραμματική περιγράφει έναν ή περισσότερους κανόνες. • Για τη διατύπωσή της, χρησιμοποιούμε τη μορφή πεπερασμένων αυτομάτων(Finite-State Automata, Roche 1997).
Ανάλυση σε XML Input: for an hour and a half Output: <duration hour=“1” min=“30”/>
UNITEX • Πολύγλωσσος οpen-source parser που κατασκευάστηκε από τονSébastienPaumierστο Εργαστήριο Υπολογιστικής Γλωσσολογίας του InstitutGarspardMonge (IGM)στο ΠανεπιστήμιοParis-Est Marne-la-Vallée. http://www-igm.univ-mlv.fr/~unitex/ • Χρησιμoποιούμε την επιφάνεια διεπαφής για να κατασκευάσουμε, να εμπλουτίσουμε και να διορθώσουμε τις τοπικές γραμματικές. • Χρησιμοποιούμε τα εργαλεία του Unitexγια να κάνουμε την ανάλυση κειμένων. • Οι πηγές του UNITEX διατίθενται με την άδειαLGPLRS.
Convex • Natural Language Processing module Output: <note><conversion><convert-from value="7.1" unit="l/100km"/><convert-to unit="mpg"/></conversion></note>
Convex • Γλωσσολογικά δεδομένα • Ηλεκτρονικά λεξικά • Γραμματικές αναγνώρισηςδομών • Αναπαράσταση της πληροφορίας σε XML • Επιδόσεις • PAF = PackedArray File • Αναγνώριση σε πραγματικό χρόνο
Αναγνώριση ονοματικών οντοτήτων • Systran • Κώδικας σε C++ για την αυτόματη μετάφραση των ημερομηνιών σε 14 ζεύγη γλωσσών. • Ergonotics • ημερομηνίες • κύρια ονόματα προσώπων • τοπωνύμια και διευθύνσεις • url,email • τηλεφωνικοί αριθμοί και αριθμοί • μονάδες μέτρησης
Συστήματα ερωταποκρίσεων • Ομάδα Επεξεργασίας Φυσικής Γλώσσας, Τμήμα Πληροφορικής, Οικονομικό Πανεπιστήμιο Αθηνών (Ιων Ανδουτσόπουλος)(URL) • «Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων» (URL) • «Αυτόματη κατάταξη ελληνικών ερωτήσεων σε κατηγορίες» (URL) • «Χειρισµός Ερωτήσεων Ορισµού σε Συστήµατα Ερωταποκρίσεων» (URL)
Συστήματα ερωταποκρίσεων • Πολυτεχνείο Κρήτης (Σ. Χριστοδουλάκης) • «Συντακτικός αναλυτής ελληνικήςγλώσσας και εφαρμογές ανάληψηςπληροφορίας” (URL) • TEI Κρήτης (Μ. Μαρακάκης) • «Ανάπτυξη συστήµατος ανάλυσης προτάσεων – ερωτήσεωντης Ελληνικής γλώσσας, µετατροπή τους σε στόχους Prolog καιεπεξεργασία τους από σχεσιακή βάσηδεδοµένων». • Ανάπτυξη συστήματος δημιουργίας προτάσεων στην Ελληνική γλώσσα σαν απάντηση από την επεξεργασία ερωτήσεων σε σχεσιακή βάση δεδομένων. • Καναδά: • “Working Towards a Greek-English Cross-Language Question-Answering System” (URL)
Συστήματα ερωταποκρίσεων • Ερωτήσεις των οποίων η απάντηση είναι αυστηρά καθορισµένη (factual questions) • όνοµα προσώπου • όνομα οργανισμού • χρονική έκφραση • τοποθεσία • ποσότητα • ορισμός • Ερωτήσεις γνώμης (opinion questions) • Eρωτήσεις περίληψης (summary questions)
Συστήματα ερωταποκρίσεων • Σύστημα αναγνώρισης μερών του λόγου (POS tagger) • Σύστημα αναγνώρισης ονοματικών οντοτήτων (NER)
Ευχαριστώ! anastasiay@cs.teicrete.grhttp://www.linkedin.com/in/anastasiayannacopoulou
Βιβλιογραφία Emmanuel Roche. 1997. Parsing with finite state transducers. In E. Roche & Y. Schabes (eds), Finite-State Language Processing, Cambridge, Mass./London, The MIT Press, pp. 241-281.