Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα.

Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα. Γ. Ταμπουρατζής Ινστιτούτο Επεξεργασίας του Λόγου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Εισαγωγή • Στόχος είναι η χρήση ευφυών μεθόδων στην αυτόματη ταξινόμηση/κατηγοριοποίηση συλλογών κειμένων σύμφωνα με το ύφος έκφρασης των συγγραφέων. • Παρόμοιες μέθοδοι απαιτούνται πολύ συχνά σε εφαρμογές αναζήτησης πληροφορίαςόπου οι βάσεις περιέχουν μεγάλο πλήθος κειμένων. Στις περιπτώσεις αυτές, το ύφος μπορεί να συνδυαστεί με το περιεχόμενο για να βελτιωθεί η ακρίβεια της αναζήτησης. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Εισαγωγή (2) • Ο υφολογικός χαρακτηρισμός κειμένων με χειρωνακτικό τρόπο είναι χρονοβόρος και απαιτεί εξειδικευμένο προσωπικό. • Για την αυτοματοποίηση του χαρακτηρισμού έχουν χρησιμοποιηθεί αρκετές μέθοδοι, ως επί το πλείστον βασισμένες σε στατιστικές μεθόδους. • Πρόσφατα έχουν προταθεί μέθοδοι βασισμένες σε μοντέλα νευρωνικών δικτύων. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Εισαγωγή (3) Στη συγκεκριμένη παρουσίαση εξετάζεται η εφαρμογή του νευρωνικού δικτύου SOM (Self-Organising Map) στην υφολογική σύγκριση κειμένων της Ελληνικής γλώσσας. Στο ΙΕΛ έχει πραγματοποιηθεί έρευνα στον τομέα της υφολογικής ανάλυσης τα τελευταία χρόνια στα πλαίσια ερευνητικών προγραμμάτων, με συμμετοχή των: • Σ. Μαρκαντωνάτου • Ν. Χαιρετάκη • Μ. Βασιλείου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Το νευρωνικό δίκτυο SOM Το νευρωνικό δίκτυο SOM έχει εμπνευστεί από τη δομή των βιολογικών νευρωνικών δικτύων. • Έχει μία κανονική δομή κόμβων/νευρώνων, όπου γειτονικοί κόμβοι εκπαιδεύονται με παρόμοιο τρόπο. • Έχει εφαρμοστεί σε ποικίλους τομείς, όπως αναγνώριση φωνής, εύρεση βέλτιστου μονοπατιού, αυτόνομη πλοήγηση στο χώρο. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Χαρακτηριστικά του μοντέλου SOM • Εκπαιδεύεται αυτόνομα, χωρίς την ανάγκη παροχής πληροφορίας για την κατηγορία στην οποία ανήκει κάθε πρότυπο. • H δομή του είναι άμεσα επεκτάσιμη, επιτρέποντας τη χρήση του σε πραγματικές εφαρμογές. • Έχει τη δυνατότητα να απεικονίζει άμεσα στον χάρτη την κατάσταση στο χώρο προτύπων, διατηρώντας τις σχέσεις μεταξύ ομάδων προτύπων. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Αρχιτεκτονική διδιάστατου SOM ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Eκπαίδευση δικτύου SOM (t1<t2) ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

ΠείραμαΤαξινόμησης • Η μέθοδος SOM χρησιμοποιείται για να διαχωρίσει ένα σώμα κειμένων βάσει των χαρακτηριστικών των συγγραφέων τους. • Συγκεκριμένα, επιλέχθηκαν πέντε μέλη της Ελληνικής Βουλής, ένα από κάθε πολιτικό κόμμα με κοινοβουλευτική εκπροσώπηση κατά την περίοδο 1996-2000. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Δομή σωμάτων κειμένων ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Γλωσσικές Μεταβλητές ΠλήθοςΓλωσσική ιδιότητα κατηγορίας 22 Ρηματικές μεταβλητές (διγλωσσία + τρόπος εκφοράς λόγου) 11 Μέρη του Λόγου 24Μακροσκοπικά δομικά χαρακτηριστικά 3 Μικροσκοπικά δομικά χαρακτηριστικά 9 Έκφραση άρνησης 17 Συχνότητα εμφάνισης συγκεκριμένων λημμάτων ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Ομαδοποιώντας τα αποτελέσματα του SOM • Χρησιμοποιείται υβρίδιο (CSOM), όπου οι κόμβοι ενός χάρτη SOM ομαδοποιούνται με στατιστική μέθοδο για να καταδείξουν τις ομάδες που ενυπάρχουν στη βάση. • Aν και το βασικό SOM δίνει τα καλύτερα αποτελέσματα διαχωρισμού, το υβρίδιο CSOM εμφανίζει μία παραπλήσια ακρίβεια ενώ μία αμιγώς στατιστική μέθοδος ομαδοποίησης δίνει χαμηλότερη ακρίβεια. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Πειραματικά Αποτελέσματα Η ακρίβεια κατηγοριοποίησης είναι 84% (χάρτης 4x8 κόμβων) για τα κείμενα του Corpus I. Με χρήση υβριδικού μοντέλου, η ακρίβεια κατηγοριοποίησης είναι 80% ενώ οι απαιτήσεις επισημείωσης μειώνονται στο 35%. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Παράδειγμα ταξινόμησης του Corpus I ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Εφαρμογή του CSOM στο Corpus II ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Συμπεράσματα • Εφαρμόστηκαν νευρωνικά δίκτυα στο πρόβλημα του διαχωρισμού κειμένων της Ελληνικής γλώσσας. • Τα αποτελέσματα δείχνουν ότι τα δίκτυα ταξινομούν επιτυχώς τα κείμενα, βάσει των υφολογικών χαρακτηριστικών των συγγραφέων. • Tο υβρίδιο CSOM παράγει μία αποτελεσματική κατηγοριοποίηση για τα σώματα κειμένων με αυτοματοποιημένο τρόπο, ενώ μειώνει τις απαιτήσεις επισημείωσης των κατηγοριών. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα.

Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα.

Presentation Transcript