1 / 16

Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα.

Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα. Γ. Ταμπουρατζής Ινστιτούτο Επεξεργασίας του Λόγου. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING. Εισαγωγή.

bud
Download Presentation

Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα. Γ. Ταμπουρατζής Ινστιτούτο Επεξεργασίας του Λόγου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

  2. Εισαγωγή • Στόχος είναι η χρήση ευφυών μεθόδων στην αυτόματη ταξινόμηση/κατηγοριοποίηση συλλογών κειμένων σύμφωνα με το ύφος έκφρασης των συγγραφέων. • Παρόμοιες μέθοδοι απαιτούνται πολύ συχνά σε εφαρμογές αναζήτησης πληροφορίαςόπου οι βάσεις περιέχουν μεγάλο πλήθος κειμένων. Στις περιπτώσεις αυτές, το ύφος μπορεί να συνδυαστεί με το περιεχόμενο για να βελτιωθεί η ακρίβεια της αναζήτησης. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

  3. Εισαγωγή (2) • Ο υφολογικός χαρακτηρισμός κειμένων με χειρωνακτικό τρόπο είναι χρονοβόρος και απαιτεί εξειδικευμένο προσωπικό. • Για την αυτοματοποίηση του χαρακτηρισμού έχουν χρησιμοποιηθεί αρκετές μέθοδοι, ως επί το πλείστον βασισμένες σε στατιστικές μεθόδους. • Πρόσφατα έχουν προταθεί μέθοδοι βασισμένες σε μοντέλα νευρωνικών δικτύων. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

  4. Εισαγωγή (3) Στη συγκεκριμένη παρουσίαση εξετάζεται η εφαρμογή του νευρωνικού δικτύου SOM (Self-Organising Map) στην υφολογική σύγκριση κειμένων της Ελληνικής γλώσσας. Στο ΙΕΛ έχει πραγματοποιηθεί έρευνα στον τομέα της υφολογικής ανάλυσης τα τελευταία χρόνια στα πλαίσια ερευνητικών προγραμμάτων, με συμμετοχή των: • Σ. Μαρκαντωνάτου • Ν. Χαιρετάκη • Μ. Βασιλείου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

  5. Το νευρωνικό δίκτυο SOM Το νευρωνικό δίκτυο SOM έχει εμπνευστεί από τη δομή των βιολογικών νευρωνικών δικτύων. • Έχει μία κανονική δομή κόμβων/νευρώνων, όπου γειτονικοί κόμβοι εκπαιδεύονται με παρόμοιο τρόπο. • Έχει εφαρμοστεί σε ποικίλους τομείς, όπως αναγνώριση φωνής, εύρεση βέλτιστου μονοπατιού, αυτόνομη πλοήγηση στο χώρο. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

  6. Χαρακτηριστικά του μοντέλου SOM • Εκπαιδεύεται αυτόνομα, χωρίς την ανάγκη παροχής πληροφορίας για την κατηγορία στην οποία ανήκει κάθε πρότυπο. • H δομή του είναι άμεσα επεκτάσιμη, επιτρέποντας τη χρήση του σε πραγματικές εφαρμογές. • Έχει τη δυνατότητα να απεικονίζει άμεσα στον χάρτη την κατάσταση στο χώρο προτύπων, διατηρώντας τις σχέσεις μεταξύ ομάδων προτύπων. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

  7. Αρχιτεκτονική διδιάστατου SOM ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

  8. Eκπαίδευση δικτύου SOM (t1<t2) ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

  9. ΠείραμαΤαξινόμησης • Η μέθοδος SOM χρησιμοποιείται για να διαχωρίσει ένα σώμα κειμένων βάσει των χαρακτηριστικών των συγγραφέων τους. • Συγκεκριμένα, επιλέχθηκαν πέντε μέλη της Ελληνικής Βουλής, ένα από κάθε πολιτικό κόμμα με κοινοβουλευτική εκπροσώπηση κατά την περίοδο 1996-2000. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

  10. Δομή σωμάτων κειμένων ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

  11. Γλωσσικές Μεταβλητές ΠλήθοςΓλωσσική ιδιότητα κατηγορίας 22 Ρηματικές μεταβλητές (διγλωσσία + τρόπος εκφοράς λόγου) 11 Μέρη του Λόγου 24Μακροσκοπικά δομικά χαρακτηριστικά 3 Μικροσκοπικά δομικά χαρακτηριστικά 9 Έκφραση άρνησης 17 Συχνότητα εμφάνισης συγκεκριμένων λημμάτων ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

  12. Ομαδοποιώντας τα αποτελέσματα του SOM • Χρησιμοποιείται υβρίδιο (CSOM), όπου οι κόμβοι ενός χάρτη SOM ομαδοποιούνται με στατιστική μέθοδο για να καταδείξουν τις ομάδες που ενυπάρχουν στη βάση. • Aν και το βασικό SOM δίνει τα καλύτερα αποτελέσματα διαχωρισμού, το υβρίδιο CSOM εμφανίζει μία παραπλήσια ακρίβεια ενώ μία αμιγώς στατιστική μέθοδος ομαδοποίησης δίνει χαμηλότερη ακρίβεια. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

  13. Πειραματικά Αποτελέσματα Η ακρίβεια κατηγοριοποίησης είναι 84% (χάρτης 4x8 κόμβων) για τα κείμενα του Corpus I. Με χρήση υβριδικού μοντέλου, η ακρίβεια κατηγοριοποίησης είναι 80% ενώ οι απαιτήσεις επισημείωσης μειώνονται στο 35%. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

  14. Παράδειγμα ταξινόμησης του Corpus I ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

  15. Εφαρμογή του CSOM στο Corpus II ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

  16. Συμπεράσματα • Εφαρμόστηκαν νευρωνικά δίκτυα στο πρόβλημα του διαχωρισμού κειμένων της Ελληνικής γλώσσας. • Τα αποτελέσματα δείχνουν ότι τα δίκτυα ταξινομούν επιτυχώς τα κείμενα, βάσει των υφολογικών χαρακτηριστικών των συγγραφέων. • Tο υβρίδιο CSOM παράγει μία αποτελεσματική κατηγοριοποίηση για τα σώματα κειμένων με αυτοματοποιημένο τρόπο, ενώ μειώνει τις απαιτήσεις επισημείωσης των κατηγοριών. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

More Related