660 likes | 735 Views
Εισαγωγή στα Conditional Random Fields. Κατερίνα Φραγκιαδάκη Εθνικό Μετσόβιο Πολυτεχνείο. Οργάνωση Ομιλίας. Θεωρία γραφικών μοντέλων ΗΜΜ - generative # discriminative ΜΕΜΜ - Label bias problem Θεωρία CRF Feature Induction Πειραματικά αποτελέσματα.
E N D
Εισαγωγή στα Conditional Random Fields Κατερίνα Φραγκιαδάκη Εθνικό Μετσόβιο Πολυτεχνείο
Οργάνωση Ομιλίας Θεωρία γραφικών μοντέλων ΗΜΜ - generative # discriminative ΜΕΜΜ - Label bias problem Θεωρία CRF Feature Induction Πειραματικά αποτελέσματα
Ραγδαία εξάπλωση του παγκόσμιου Ιστού • Προσπάθεια αντιμετώπισης της πληροφοριακής έκρηξης Συστήματα Εξαγωγής Πληροφορίας
Εξαγωγή Πληροφορίας Περιγραφή Προβλήματος • Input Ένα κείμενο προς αναγνώριση • Output Η πιο πιθανή ακολουθία από ετικέτες για τιςλέξεις του κειμένου (το πιο πιθανό labeling)
Βασικάχαρακτηριστικά • Πλούσια αλληλεξαρτώμενα features της ακολουθίας παρατηρήσεων Π.χ. ορθογραφική πληροφορία,part-of-speech, συμμετοχή σε λίστες… • Εξαρτήσεις μεταξύ των labels των λέξεων Γραφικά Στατιστικά Μοντέλα
Γραφικά μοντέλα (1) • Χ : σύνολο τυχαίων μεταβλητών εισόδου (λέξεις)- παρατηρήσιμες Π.χ. το Χ παίρνει τιμές από διάφορα κείμενα προς αναγνώριση • Υ : σύνολο τυχαίων μεταβλητών εξόδου(αντίστοιχες labels) -θέλουμε να τις προβλέψουμε Π.χ. το Υ παίρνει τιμές από τα αντίστοιχα labelings (Με τα μικρά x,y υποδηλώνουμε συγκεκριμένη ανάθεση τιμών στα παραπάνω σύνολα) • Α συλλογή υποσυνόλων του ΧUY
Γραφικά μοντέλα (3) Ζ παράγοντας κανονικοποίησης Η κατανομή αθροίζει σε 1
Γραφικά Μοντέλα(2) Μία κατανομή πάνω σε ένα μεγάλο πλήθος τυχαίων μεταβλητών αναπαρίσταται ως ένα γινόμενο τοπικών συναρτήσεων που η καθεμία εξαρτάται από ένα μικρό πλήθος μεταβλητών.
Γραφικά Μοντέλα(2) Ορισμός Ένα γραφικό μοντέλο είναι μια οικογένεια από κατανομές πιθανότητας οι οποίες παραγοντοποιούνται σύμφωνα με κάποιον δεδομένο factor graph
Γραφικά Μοντέλα(4) Factor graph Ένας διμερής γράφος στον οποίο ένα variable node υs ε Vσυνδέεται με ένα factor node ΨΑ ε F αν αποτελεί όρισμά του • Τετραγωνάκι Factor node • Κύκλος Variable node
Local Functions Θεωρούμε local functions εκθετικής μορφής Κυρτότητα!! • θΑ: πραγματικές παράμετροι • fΑ : feature functions
Εφαρμογές γραφικών μοντέλων Classification Είσοδος: διάνυσμα χαρακτηριστικών x=(x1,x2,…xΚ) Ζητούμενο: Πρόβλεψη της αντίστοιχης label-κατηγορίας (μία μεταβλητή εξόδου)
Naïve Bayes Classifier Θεωρεί όλα τα χαρακτηριστικά ανεξάρτητα μεταξύ τους Παράδειγμα:Τα x1,x2,..xKείναι οι ταυτότητες λέξεων ενός κειμένου και το ζητούμενο είναι να κατηγοριοποιηθεί το κείμενο βάσει περιεχομένου
Logistic regression Classifier που υπολογίζει δεσμευμένη πιθανότητα!
Ακολουθιακά μοντέλα • Δε θέλουμε να ταξινομούμε κάθε διάνυσμα παρατήρησης ξεχωριστά • Στις εφαρμογές κειμένου θέλουμε να εκμεταλλευτούμε τις εξαρτήσεις μεταξύ των labels γειτονικών λέξεων -διανυσμάτων παρατηρήσεων!! • Εκεί συνίσταται και η δύναμη των γραφικών μοντέλων!!!
Hidden Markov Models • Χαλαρώνουν την υπόθεση ανεξαρτησίας μεταξύ των μεταβλητών εξόδου οργανώνοντάς τες σε σειρά • Εδώ το κάθε διάνυσμα παρατήρησης xtαποτελείται μόνο από την ταυτότητα της λέξης
Hidden Markov Models(2) 2 υποθέσεις ανεξαρτησίας: • Κάθε κατάσταση εξαρτάται μόνο από την αμέσως προηγούμενή της • Κάθε μεταβλητή παρατήρησης xt εξαρτάται μόνο από την παρούσα κατάσταση yt
Hidden Markov Models(3) Συνεπώς μπορούμε να ορίσουμε ένα ΗΜΜ καθορίζοντας τις εξής κατανομές πιθανότητας: • Την κατανομή πιθανότητας p0(y) πάνω στις αρχικές καταστάσεις • Την κατανομή πιθανότητας μεταβάσεων p(yt/yt-1). • Την κατανομή πιθανότητας των παρατηρήσεων p(x t/ yt)
Hidden Markov Models (4) Είναι ένα αυτόματο πεπερασμένων καταστάσεων που μοντελοποιεί μία πιθανοτική παραγωγική διαδικασία για το πώς μία ακολουθία παρατηρήσεων παράγεται ξεκινώντας από κάποια αρχική state, βγάζοντας μια παρατήρηση, πηγαίνοντας σε μία επόμενη state, δίδοντας τη 2η παρατήρηση κοκ.
Discriminative-generative • Κατά παράδοση τα γραφικά μοντέλα μοντελοποιούν την από κοινού κατανομή p(x,y) • Εμπεριέχει τον υπολογισμό της p(x) • Πολύ δύσκολο να χρησιμοποιήσουμε πλούσια αλληλοεξαρτώμενα χαρακτηριστικά της ακολουθίας εισόδου • Καταλήγουμε σε χρήση λίγων χαρακτηριστικών (στα ΗΜΜ μόνο ταυτότητα λέξης) και υιοθέτηση υποθέσεων ανεξαρτησίας μεταξύ τους! Βλάπτεται η απόδοση του μοντέλου μας!!!
Discriminative-generative(2) • Ωστόσο στο πρόβλημα του classificationοι ακολουθίες προς αναγνώριση είναι δεδομένες και συνεπώς δε μας απασχολεί η πιθανότητα εμφάνισής τους! • Συνεπώς αρκεί να ενδιαφερθούμε για την αναπαράσταση της δεσμευμένης πιθανότητας p(y/x) !!
Discriminative-generative(3) • Conditional models! • Δυνατότητα χρήσης πλούσιων χαρακτηριστικών για τη βοήθεια της αναγνώρισης της ακολουθίας εισόδου • Δε γίνεται προσπάθεια το μοντέλο να γεννήσει την ακολουθία εισόδου! Απλά τη λαμβάνει ως συνθήκη στη δεσμευμένη πιθανότητα!
Maximum Entropy Markov Models • Τα ΜΜΕΜs μοντελοποιούν Conditionalπιθανότητα. Ενσωματώνουν πλήθος χαρακτηριστικών της ακολουθίας παρατηρήσεων • Αντικαθιστούν τα transition και observation functions των HMM με τη συνάρτηση P(s|s’,o) που δίνει την πιθανότητα της επόμενης κατάστασης s δεδομένης της παρούσας κατάστασης s’ και του τρέχοντος διανύσματος παρατήρησης • Με Viterbi παίρνω την πιο πιθανή ακολουθία καταστάσεων δεδομένης μιας ακολουθίας παρατηρήσεων εισόδου
Maximum Entropy Markov Models(2) Ένα εκθετικό μοντέλο ανά κατάσταση!!
Label-Bias problem Έχω classifier σε κάθε βήμα για να πάρω την επόμενη κατάσταση Ανά κατάσταση κανονικοποίηση των scores των μεταβάσεων Οι μεταβάσεις από μία κατάσταση ανταγωνίζονται μεταξύ τους παρά με άλλες μεταβάσεις στο μοντέλο Το μοντέλο είναι biased προς καταστάσεις με λιγότερες output μεταβάσεις Όσο μικρότερη η εντροπία των επόμενων μεταβάσεων τόσο περισσότερο αγνοούνται οι παρατηρήσεις. Όταν μία state έχει μόνο μία output μετάβαση, θα αγνοήσει παντελώς την παρατήρηση!
Label-Bias problem(3) • Τα CRF ξεπερνούν το label-bias πρόβλημα! • Ενώ τα ΜΕΜΜs έχουν ένα εκθετικό μοντέλο ανά κατάσταση τα CRF χρησιμοποιούν ένα μόνο εκθετικόγια τον υπολογισμό της από κοινού πιθανότητας ολόκληρης της ακολουθίας από label δεδομένης της ακολουθίας παρατηρήσεων • H κανονικοποίηση δε γίνεται ανά κατάσταση αλλά ανά labeling
General form CRF Ορισμός: Χ : τ. μ. πάνω σε ακολουθίες από τ.μ. εισόδου (παρατηρήσεων) Υ : τ. μ. πάνω σε αντίστοιχες ακολουθίες από τ.μ. εξόδου (labels) Έστω G ένας factor graph πάνω στην τυχαία μεταβλητή Υ. Τότε η p(y/x) είναι CRF αν για κάθε δεδομένοx η κατανομή παραγοντοποιείται σύμφωνα με το G.
General form CRF(2) Το σύνολο των παραγόντων του G • Aν κάθε παράγοντας παίρνει την εκθετική μορφή:
General form CRF(3) • Z παράγοντας κανονικοποίησης
General form CRF (4) Ο υπολογισμός των παραμέτρων θ, θ=(λ1,λ2,…;μ1,μ2…)) του μοντέλου συνίσταται στη μεγιστοποίηση της δεσμευμένης log likelihood των ακολουθιών εξόδου δεδομένου των ακολουθιών εισόδου στo training set
Μαρκοβιανή ιδιότητα Ορισμός: Χ : τ. μ. πάνω σε ακολουθίες από τ.μ. εισόδου (παρατηρήσεων) Υ : τ. μ. πάνω σε αντίστοιχες ακολουθίες από τ.μ. εξόδου (labels) Έστω γράφος G(V,E) τέτοιος ώστε Υ=(Υυ) υε V, έτσι ώστε η Υ να δεικτοδοτείται από τις κορυφές του G.Τότε το (Χ, Υ) είναι ένα conditional random field στην περίπτωση που δεδομένου του Χ οι τυχαίες μεταβλητές Υυ υπακούουν τη μαρκοβιανή ιδιότητα σε σχέση με το γράφο G, δηλαδή:
Μαρκοβιανή ιδιότητα(2) • Τα CRF απαλείφουν τις υποθέσεις ανεξαρτησίας μεταξύ των παρατηρήσεων στην ακολουθία εισόδου αλλά κρατάνε τις υποθέσεις ανεξαρτησίας μεταξύ των labels με τον τρόπο που υπαγορεύει ο factor graph • Dependencies μεταξύτων μεταβλητών εξόδου μπορούμε να αναπαραστήσουμε μόνο αν αυτές αντιστοιχούν σε κορυφές που συμμετέχουν σε κλίκα στο γράφημα.
Μαρκοβιανή ιδιότητα(3) • Ανάλογα με τις υποθέσεις ανεξαρτησίας που θέτουμε μεταξύ των τ.μ. εξόδου έχουμε και το αντίστοιχο γράφο G • Ο G δείχνει πωςγκρουπάρονται οι μεταβλητές εξόδου στους παράγοντες • Στον ίδιο παράγοντα μπορούν να μπουν μεταβλητές εξόδου που αντιστοιχίζονται στην ίδια κλίκα στον G-αλληλοεξαρτώμενες
HMM like CRF • Θεωρούμε το γράφο G με μορφή αλυσίδας Ειδική περίπτωση των linear chain CRF Ορίζουμε τις παρακάτω feature functions: Οι αντίστοιχες παράμετροι λy’,y και μy,x παίζουν παρόμοιο ρόλο με τους λογαρίθμους των παραμέτρων των ΗΜΜ p(y’/y) και p(x/y)
Linear chain CRF • Σε αντίθεση με τα ΗΜΜ like CRF μπορώ να χρησιμοποιήσω πολλαπλά observational features της ακολουθίας παρατηρήσεων Όχι περιορισμός στην ταυτότητα της λέξης!
Linear chain CRF (2) • Σε αντίθεση με τα ΗΜΜ like CRF στα linear chain CRFμπορεί γενικά μία μετάβαση (i,j) να εξαρτάται από το τρέχον διάνυσμα παρατήρησης ! Χρησιμοποιώ feature functions της μορφής: δ{yt=j} δ{yt-1=i} δ{xt=o} Π.χ. η μετάβαση μεταξύ των καταστάσεων i και j που αντιστοιχούν και οι δύο στην label speaker name εξαρτάται από το αν η παρούσα λέξη αρχίζει με κεφαλαίο
Linear Chain CRF (3) Factor Graph για HMM like CRF Factor Graph για linear chain CRF
Linear Chain CRF (4) Θεωρούμε ότι οι εξαρτήσεις μεταξύ των μεταβλητών εξόδουσχηματίζουν αλυσίδα
Feature Functions • Όσο πιο συχνά επαληθεύεται μία featurefunction στο training set τόσο πιο μεγάλο βάρος ανατίθεται σε αυτή, τόσο πιο σημαντική είναι. • Διαισθητικά, αν έχω θετικά βάρη στις ff μπορώ να σκεφτώ ότι όσες περισσότερες ff ικανοποιεί μία ακολουθία τόσο υψηλότερο score p(y/x) ανατίθεται σε αυτή
Feature Functions (2) • Binary ff • Parameter tying: Το σύνολο παραγόντων: μοιράζονται τα ίδια βάρη!
Feature Functions (3) • Τα κάθε διάνυσμα παρατήρησης xtπεριλαμβάνει παρατηρήσεις από οποιοδήποτε χρονικό βήμα της ακολουθίας εισόδου που συνιστούν τα χρήσιμα χαρακτηριστικά για την απόφαση τη χρονική στιγμή t, όχι περιορισμός στην ταυτότητα της λέξης wt
Feature Functions (4) • Οι feature functions fpk σε γλωσσικές εφαρμογέςεπιλέγονται να έχουν την παρακάτω μορφή: Π.χ. αν βρίσκομαι στην κατάσταση με label location και η παρούσα λέξη ανήκει σε λίστα με ονόματα χωρών Οι ff σαν να εξαρτώνται μόνο από το διάνυσμα με χαρακτηριστικά της ακολουθίας παρατήρησης, αλλά έχουμε ξεχωριστό σύνολο βαρών για κάθε διαφορετική διαμόρφωση της εξόδου!
Parameter Estimation ανεξάρτητα και ομοίωςκατανεμημένα δεδομένα εκπαίδευσης μία ακολουθία εισόδων ακολουθία από αντίστοιχες labels Μεγιστοποίηση ως προς θ της:
Parameter Estimation(2) l(θ) κυρτή
Inference 3σημαντικά προβλήματα • Στη διάρκεια της εκπαίδευσης η εύρεση των περιθωριακών κατανομών P(yt,yt-1|x) για κάθε ακμή που απαιτούνται για τον υπολογισμό του gradient • η εύρεση του Ζ(x) που απαιτείται για τον υπολογισμό της πιθανότητας. • Κατά την πρόβλεψη για να label ένα καινούριο στιγμιότυπο θα πρέπει να υπολογίσουμε το πιο πιθανό Viterbi labeling:
Inference(2) Για τα linear chain CRF όλα τα προβλήματα inference μπορούν να γίνουν αποδοτικά και επακριβώς από παραλλαγές του βασικού αλγορίθμου δυναμικού προγραμματισμού που χρησιμοποιείται στα ΗΜΜ Z(x)!
Inference(3) αt(j) :η πιθανότητα της μερικής ακολουθίας παρατηρήσεων x1..xt και της κατάληξης στην κατάσταση i στο χρόνο t Αναδρομή: Αρχικοποίηση:
Inference(4) βi(t) : πιθανότητα της μερικής ακολουθίας παρατηρήσεων από το t+1 μέχρι το τέλος δεδομένης της κατάστασης i στο χρόνο t Αναδρομή: Αρχικοποίηση: