1 / 29

Η αυτόματη επεξεργασία των φυσικών γλωσσών: Μέθοδοι και εφαρμογές

Η αυτόματη επεξεργασία των φυσικών γλωσσών: Μέθοδοι και εφαρμογές. Αναστασία Γιαννακοπούλου Δρ Υπολογιστικής Γλωσσολογίας. Εργαστήριο ΤΝΤΛ Τομέα ΕΥ Γενικό Τμήμα Θετικών Επιστημών ΤΕΙ Κρήτης. Πλάνο. Τι είναι η Υπολογιστική Γλωσσολογία Πεδία εφαρμογής Αυτόματη Μετάφραση Βασική έρευνα

vicki
Download Presentation

Η αυτόματη επεξεργασία των φυσικών γλωσσών: Μέθοδοι και εφαρμογές

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Η αυτόματη επεξεργασία των φυσικών γλωσσών: Μέθοδοι και εφαρμογές Αναστασία ΓιαννακοπούλουΔρ Υπολογιστικής Γλωσσολογίας Εργαστήριο ΤΝΤΛ Τομέα ΕΥ Γενικό Τμήμα Θετικών Επιστημών ΤΕΙ Κρήτης

  2. Πλάνο • Τι είναι η Υπολογιστική Γλωσσολογία • Πεδία εφαρμογής • Αυτόματη Μετάφραση • Βασική έρευνα • Εφαρμογές • Συστήματα ερωταποκρίσεων στα ελληνικά

  3. Αυτόματη επεξεργασία των φυσικών γλωσσών: ορισμός • Αυτόματη επεξεργασία των φυσικών γλωσσών = NLP:Natural Language Processing • Είναι μια επιστήμη που συνδυάζει την Πληροφορική, τη Γλωσσολογία και την Τεχνητή Νοημοσύνη. • Φυσική γλώσσα = ανθρώπινη γλώσσα • Απώτερος στόχος = κατανόηση της ανθρώπινης γλώσσας από τον υπολογιστή

  4. Πεδία εφαρμογής • Αυτόματη μετάφραση –MT: Machine Translation • Ανάκτηση πληροφορίας–IR: Information Retrieval • Εξαγωγή πληροφορίας –IE: Information Extraction • Εξόρυξη δεδομένων –DM: Data Mining • Αναγνώριση μερών του λόγου –Part-of-speech (POS) tagging • Συντακτική ανάλυση – Parsing • Αναγνώριση ονοματικών οντοτήτων – NER: NamedEntities Recognition • Μηχανική μάθηση– ML: Machine Learning • Αυτόματη αναπαραγωγή κειμένων–NLG: Natural LanguageGeneration • Αναγνώριση προφορικού λόγου– Speech Recognition (Text-to-speech and Speech-to-textsystems) • …

  5. Αυτόματη Μετάφραση http://translate.google.com/

  6. Αυτόματη Μετάφραση • Ruled-based machine translation (RBMT) – SYSTRAN Μεταφορά Σημασιολογία Σημασιολογία Σύνταξη Σύνταξη Μορφολογία Μορφολογία Κείμενο-πηγήΑνάλυση Κείμενο-στόχος Σύνθεση

  7. Αυτόματη Μετάφραση • Statistical Machine Translation (SMT) • Παράλληλα σώματα κειμένων (parallel corpus) – +1.000.000λέξεις • 2 μονόγλωσσα σώματα κειμένων – +1δις λέξεις το καθένα Στατιστικά μοντέλα Προβλήματα: • Ευθυγράμμιση προτάσεων (Sentence alignement) • Σύνθετες λέξεις και ιδιωματικές εκφράσεις • Μορφολογικοί τύποι • Σύνταξη

  8. Αυτόματη Μετάφραση Output Text • Υβριδικά μοντέλα SMT System(Moses)Phrase Table Hybrid Output Phrase substitution Input Text RBMT System Output Text

  9. Βασική έρευνα • Δημιουργία ηλεκτρονικών λεξικών • Εμπλουτισμός και διαχείριση ηλεκτρονικών λεξικών • Συντακτικο-σημασιολογική περιγραφή των ιδιοτήτων των ρημάτων με συμπλήρωμα που δηλώνει τον τόπο. • Δημιουργία γραμματικών για τη συντακτική ανάλυση, μερική ή πλήρη, δομών • Ονοματικές Οντότητες (NER) • Κυρίως γλώσσες: αγγλικά, γαλλικά, ελληνικά

  10. Γλωσσολογικά δεδομένα Χρησιμοποιούμε τα γλωσσολογικά δεδομένα για να αναλύσουμε τα κείμενα (parsing), δηλαδή: • μορφολογική ανάλυση των κειμένων, με την εφαρμογή ηλεκτρονικών λεξικών(electronic dictionaries) • συντακτική και σημασιολογική ανάλυση των κειμένων, με την εφαρμογή γραμματικών (local grammars)

  11. Ηλεκτρονικά λεξικά • Με τον όρο «ηλεκτρονικά λεξικά» εννοούμε τα λεξικά που έχουν μια συγκεκριμένη δομή, η πληροφορία είναι κωδικοποιημένη και μπορούν να χρησιμοποιηθούν σε αναλυτές κειμένων (parsers). • Διαφορά ηλεκτρονικών λεξικών και λεξικών σε ηλεκτρονική μορφή.

  12. Ηλεκτρονικά λεξικά • Παράδειγμα ηλεκτρονικού λεξικού: book,.N+Conc:s book,.V:W:P1s:P2s:P1p:P2p:P3p bookingoffice,.N+XN+Conc+z1:s bookingoffices,booking office.N+XN+Conc+z1:p booking,.N:s booking,book.V:G bookings,booking.N:p books,book.N+Conc:p books,book.V:P3s bookseller,.N+Hum:s booksellers,bookseller.N+Hum:p • Μορφή: κλιτός_τύπος,λημματικός_τύπος.γραμμ_κατ+ΣΣ_πλρφ+…:κλιτ_πλρφ:…

  13. Γραμματικές • Γενικά, μια γραμματική περιγράφει έναν ή περισσότερους κανόνες. • Για τη διατύπωσή της, χρησιμοποιούμε τη μορφή πεπερασμένων αυτομάτων(Finite-State Automata, Roche 1997).

  14. Γραμματικές

  15. Ανάλυση σε XML Input: for an hour and a half Output: <duration hour=“1” min=“30”/>

  16. UNITEX • Πολύγλωσσος οpen-source parser που κατασκευάστηκε από τονSébastienPaumierστο Εργαστήριο Υπολογιστικής Γλωσσολογίας του InstitutGarspardMonge (IGM)στο ΠανεπιστήμιοParis-Est Marne-la-Vallée. http://www-igm.univ-mlv.fr/~unitex/ • Χρησιμoποιούμε την επιφάνεια διεπαφής για να κατασκευάσουμε, να εμπλουτίσουμε και να διορθώσουμε τις τοπικές γραμματικές. • Χρησιμοποιούμε τα εργαλεία του Unitexγια να κάνουμε την ανάλυση κειμένων. • Οι πηγές του UNITEX διατίθενται με την άδειαLGPLRS.

  17. Convex

  18. Convex • Natural Language Processing module Output: <note><conversion><convert-from value="7.1" unit="l/100km"/><convert-to unit="mpg"/></conversion></note>

  19. Convex • Γλωσσολογικά δεδομένα • Ηλεκτρονικά λεξικά • Γραμματικές αναγνώρισηςδομών • Αναπαράσταση της πληροφορίας σε XML • Επιδόσεις • PAF = PackedArray File • Αναγνώριση σε πραγματικό χρόνο

  20. Αναγνώριση ονοματικών οντοτήτων • Systran • Κώδικας σε C++ για την αυτόματη μετάφραση των ημερομηνιών σε 14 ζεύγη γλωσσών. • Ergonotics • ημερομηνίες • κύρια ονόματα προσώπων • τοπωνύμια και διευθύνσεις • url,email • τηλεφωνικοί αριθμοί και αριθμοί • μονάδες μέτρησης

  21. Συστήματα ερωταποκρίσεων

  22. Συστήματα ερωταποκρίσεων

  23. Συστήματα ερωταποκρίσεων • Ομάδα Επεξεργασίας Φυσικής Γλώσσας, Τμήμα Πληροφορικής, Οικονομικό Πανεπιστήμιο Αθηνών (Ιων Ανδουτσόπουλος)(URL) • «Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων» (URL) • «Αυτόματη κατάταξη ελληνικών ερωτήσεων σε κατηγορίες» (URL) • «Χειρισµός Ερωτήσεων Ορισµού σε Συστήµατα Ερωταποκρίσεων» (URL)

  24. Συστήματα ερωταποκρίσεων • Πολυτεχνείο Κρήτης (Σ. Χριστοδουλάκης) • «Συντακτικός αναλυτής ελληνικήςγλώσσας και εφαρμογές ανάληψηςπληροφορίας” (URL) • TEI Κρήτης (Μ. Μαρακάκης) • «Ανάπτυξη συστήµατος ανάλυσης προτάσεων – ερωτήσεωντης Ελληνικής γλώσσας, µετατροπή τους σε στόχους Prolog καιεπεξεργασία τους από σχεσιακή βάσηδεδοµένων». • Ανάπτυξη συστήματος δημιουργίας προτάσεων στην Ελληνική γλώσσα σαν απάντηση από την επεξεργασία ερωτήσεων σε σχεσιακή βάση δεδομένων. • Καναδά: • “Working Towards a Greek-English Cross-Language Question-Answering System” (URL)

  25. Συστήματα ερωταποκρίσεων • Ερωτήσεις των οποίων η απάντηση είναι αυστηρά καθορισµένη (factual questions) • όνοµα προσώπου • όνομα οργανισμού • χρονική έκφραση • τοποθεσία • ποσότητα • ορισμός • Ερωτήσεις γνώμης (opinion questions) • Eρωτήσεις περίληψης (summary questions)

  26. Συστήματα ερωταποκρίσεων

  27. Συστήματα ερωταποκρίσεων • Σύστημα αναγνώρισης μερών του λόγου (POS tagger) • Σύστημα αναγνώρισης ονοματικών οντοτήτων (NER)

  28. Ευχαριστώ! anastasiay@cs.teicrete.grhttp://www.linkedin.com/in/anastasiayannacopoulou

  29. Βιβλιογραφία Emmanuel Roche. 1997. Parsing with finite state transducers. In E. Roche & Y. Schabes (eds), Finite-State Language Processing, Cambridge, Mass./London, The MIT Press, pp. 241-281.

More Related