650 likes | 844 Views
Bayes Classifiers. Θεώρημα Bayes. T ο θεώρημα Bayes εκφράζεται ως: όπου ω j η κλάση j και x το διάνυσμα χαρακτηριστικών Ένας τυπικός κανόνας απόφασης είναι να επιλέγουμε την κλάση με τη μέγιστη P[ ω j |x] P[ ω j ] εκ των προτέρων πιθανότητα P[ ω j | x] εκ των υστέρων πιθανότητα
E N D
Θεώρημα Bayes • Tο θεώρημα Bayesεκφράζεται ως: • όπου ωj η κλάση j και x το διάνυσμα χαρακτηριστικών • Ένας τυπικός κανόνας απόφασης είναι να επιλέγουμε την κλάση με τη μέγιστη P[ωj|x] • P[ωj] εκ των προτέρων πιθανότητα • P[ωj|x] εκ των υστέρων πιθανότητα • P[x|ωj] πιθανοφάνεια • P[x] σταθερά κανονικοποίησης
Λόγος Πιθανοφάνειας • Δεδομένου του θεωρήματος Bayes: • H P(x) μπορεί να απλοποιηθεί και μετά από ανακατάταξη της σχέσης προκύπτει ο λόγος πιθανοφάνειας Λ(x) και ο κανόνας απόφασης του Bayes:
Κανόνας Απόφασης Bayes - Άσκηση • Δεδομένου προβλήματος ταξινόμησης με τις πιο κάτω υπό συνθήκη πιθανότητες και υποθέτοντας ίσες εκ των προτέρων πιθανότητες, εξάγετε κανόνα απόφασης.
Κανόνας Απόφασης Bayes - Λύση • Αντικαθιστώντας στον κανόνα: • Απλοποιώντας • Λογαριθμόντας
Συμπέρασμα • Πιθανότητα λάθους
Gaussian συνάρτηση πυκνότητας πιθανότητας • Σύμφωνα με το θεώρημα κεντρικού ορίου, η συνάρτηση πυκνότητας πιθανότητας του αθροίσματος ενός πλήθους στατιστικώς ανεξάρτητων τυχαίων μεταβλητών, τείνει στη Gaussian συνάρτηση πυκνότητας πιθανότητας, όταν το πλήθος των όρων τείνει στο άπειρο.
Gaussian συνάρτηση πυκνότητας πιθανότητας • Gaussian pdf πολλών μεταβλητών • όπου • Και ο Πίνακας συνδιασποράς
Ταξινομητές Ελάχιστης Απόστασης • Ο Βέλτιστος Bayesian ταξινομητής, απλοποιείται σημαντικά όταν: • Οι κλάσεις είναι ισοπίθανες • Τα δεδομένα σε όλες τις κλάσεις ακολουθούν κανονική κατανομή • Το μητρώο συνδιασποράς είναι το ίδιο για όλες τις κλάσεις • Το μητρώο συνδιασποράς είναι διαγώνιο με όλα τα στοιχεία ίσα S=σ2Ι
Ταξινομητές Ελάχιστης Απόστασης • Αν ισχύουν οι περιορισμοί ο Βayes classifier γίνεται: Euclidean Distance: • Αν δεν ισχύει ο τελευταίος περιορισμός γίνεται: Mahalanobis Distance:
Επιβλεπόμενη vs Μη-Επιβλεπόμενη Μάθηση • Μέχρι τώρα θεωρήσαμε μεθόδους αναγνώρισης με classification όπου το πρότυπο χαρακτηρίζεται από τα μεγέθη {x,ω} • Αυτά τα προβλήματα αναγνώρισης ονομάζονται Επιβλεπόμενα (supervised) αφού διατίθενται και το χαρακτηριστικό διάνυσμα και η σωστή απάντηση. • Υπάρχουν όμως περιπτώσεις όπου δίνεται το χαρακτηριστικό διάνυσμα χωρίς την κλάση. • Αυτές οι μέθοδοι καλούνται Μη-Επιβλεπόμενες (unsupervised) λόγω του ότι δεν χρησιμοποιούν τη σωστή απάντηση.
Επιβλεπόμενη vs Μη-Επιβλεπόμενη Μάθηση Αν και η μέθοδοι μη επιβλεπόμενης μάθηση φαίνονται περιορισμένων δυνατοτήτων υπάρχουν πολλές περιπτώσεις που επιβάλλεται η χρήση τους: • Ο χαρακτηρισμός πολλών δεδομένων μπορεί να αποβεί δαπανηρός (π.χ. αναγνώριση ομιλίας) • Το είδος της κλάσης μπορεί να μην είναι γνωστό εξ’αρχής.
Κατηγοριοποιήση των μη-επιβλεπόμενων μεθόδων εκμάθησης • Παραμετρικές (μείγματα κατανομών): Αυτές οι μέθοδοι μοντελοποιούν την υπό συνθήκη πυκνότητα πιθανότητας με ένα μίγμα παραμετρικών πυκνοτήτων με σκοπό να βρουν τις παραμέτρους του μοντέλου. • Μη-παραμετρικές (clustering): Δεν γίνεται υπόθεση για την πυκνότητα πιθανότητα αλλά επιχειρείται διαχωρισμός των δεδομένων σε clusters.
Μοντέλα Μίξης • Θεωρήστε το πρόβλημα μοντελοποίησης συνάρτησης πυκνότητας πιθανότητας δεδομένου ενός συνόλου δεδομένων X={x(1, x(2, …, x(N} • Αν η μορφή πυκνότητας ήταν γνωστή το πρόβλημα θα λύνονταν με το κριτήριο της Μέγιστης Πιθανότητας • Αν η μορφή πυκνότητας ήταν άγνωστη, θα μπορούσε να λυθεί με τα παράθυρα Parzen
Μοντέλα Μίξης • Εδώ θα θεωρήσουμε μια εναλλακτική μέθοδο εκτίμησης της πυκνότητας, μέσω μείγματος παραμετρικών πυκνοτήτων
Ο αλγόριθμος ΕΜ (ExpectationMaximization -μεγιστοποίησηαναμονής) • Ο ΕΜ είναι γενική μέθοδος για την εκτίμηση της μέγιστης πιθανότητας όταν λείπουν δεδομένα. • Χρησιμοποιείται όταν όντως έχουν καταστραφεί ή λείπουν δεδομένα ή ότι η υπόθεση ότι λείπουν δεδομένα απλοποιεί τη συνάρτηση πιθανότητας • Υποθέστε σύνολο δεδομένων που περιέχει δύο είδη χαρακτηριστικών: τα Χ που είναι γνωστά και τα Ζ που είναι άγνωστα
Ο αλγόριθμος ΕΜ (ExpectationMaximization-μεγιστοποίησηαναμονής) • Ορίζουμε μια συνάρτηση κατανομής πιθανότητας όλων των δεδομένων p(X,Z|θ) όπου θ={μ,Σ} • Η συνάρτηση είναι τυχαίας μεταβλητής ως προς Ζ δηλ. p(X,Z|θ)=hX,θ(Z) • Ο ΕΜ έχει δύο λειτουργίες που επαναλαμβάνει: • Μια λειτουργία αναμονής (Expectation) • Μια λειτουργία μεγιστοποίησης (Maximization)
Ο αλγόριθμος ΕΜ (ExpectationMaximization -μεγιστοποίησηαναμονής) ANAMONH • Υπολόγισε την αναμενόμενη τιμή της πιθανότητας log[p(X,Z|θ)] ως προς τα άγνωστα δεδομένα Ζ, δεδομένων των Χ και την τρέχουσα τιμή θ(i-1 ΜΕΓΙΣΤΟΠΟΙΗΣΗ • Υπολόγισε το όρισμα θ • Αποδεικνύεται ότι ο ΕΜ συγκλίνει σε τοπικό μέγιστο της συνάρτησης πιθανότητας
Ο αλγόριθμος ΕΜ (ExpectationMaximization -μεγιστοποίησηαναμονής) • Κατά την Ε λειτουργία τα χαρακτηριστικά Ζ διώχνονται με ολοκλήρωση • Κατά την Μ λειτουργία υπολογίζονται οι τιμές των παραμέτρων που μεγιστοποιούν την αναμενόμενη τιμή. • Αφού το Ζ είναι άγνωστο μεγιστοποιούμε τη λογαριθμική συνάρτηση πιθανότητας για όλες τις πιθανές τιμές του Ζ
Ο αλγόριθμος ΕΜ και μίγμα μοντέλων • Έχοντας ορίσει τον αλγόριθμο ΕΜ μπορούμε να λύσουμε το πρόβλημα μίγματος παραμετρικών κατανομών • Για λόγους απλοποίησης θα θεωρήσουμε πρόβλημα μιας μεταβλητής όπου όλα τα μέρη έχουν γνωστή τυπική απόκλιση σ.
Ο αλγόριθμος ΕΜ και μίγμα μοντέλων • Δεδομένου του συνόλου δεδομένων X={x(1, x(2, …, x(N}, ζητείται να υπολογίσουμε τις παραμέτρους του μοντέλου θ={µ1, µ2, …µC} • Θεωρούμε ότι κάθε μεταβλητή x(n δημιουργήθηκε με τον εξής τρόπο: • Αρχικά μια κατανομή Gaussεπιλέγεται βάσει των συντελεστών του μίγματος P(ωc) • Τότε, το x(n δημιουργείται βάσει της πιθανότητας p(x|µc) του συγκεκριμένου συστατικού • Σε ένα τέτοιο πρόβλημα, οι κρυφές μεταβλητές Z={z1(n,z2(n,…zC(n} χρησιμοποιούνται για να δείξουν ποια από τις Cκατανομές Gauss παρήγαγε το x(n
Ο αλγόριθμος ΕΜ και μίγμα μοντέλων • Η πιθανότητα p(x,z|θ) για ένα συγκεκριμένο δείγμα είναι: • Μόνο ένα από τα zc(nμπορεί να είναι 1.
Ο αλγόριθμος ΕΜ και μίγμα μοντέλων • Η λογαριθμική συνάρτηση πιθανότητας για όλο το σύνολο θα είναι • Για να υπολογίσουμε το Q(θ|θ(i-1) πρέπει να πάρουμε τη μέση τιμής ως προς Ζ • E[zc(n] είναι η πιθανότητα το παράδειγμα x(n να δημιουργήθηκε από τη c-στη κατανομή Gauss δεδομένων των παραμέτρων θ(i-1
Ο αλγόριθμος ΕΜ και μίγμα μοντέλων • Αυτές οι δύο εκφράσεις δίνουν την Q συνάρτηση:
Ο αλγόριθμος ΕΜ και μίγμα μοντέλων • Το δεύτερο βήμα (Maximization) είναι ο υπολογισμός των τιμών {µ1,µ2,…,µC} όπου μεγιστοποιεί τη συνάρτηση Q • Και υπολογίζοντας τα μηδενικά της μερικής παραγώγισης:
Ιστόγραμμα • Η πιο απλή μορφή μη παραμετρικής εκτίμησης πυκνότητας είναι το ιστόγραμμα • Χωρίζει το δειγματοχώρο σε μικρές περιοχές και προσεγγίζει την πυκνότητα από το πλήθος των δειγμάτων που εμπίπτουν στην κάθε περιοχή.
Ιστόγραμμα - Μειονεκτήματα • Το τελικό σχήμα της συνάρτησης πυκνότητας πιθανότητας εξαρτάται από το σημείο εκκίνησης των περιοχών • Η φαινομενική συνέχεια στα δεδομένα εξαρτάται από την επιλογή των περιοχών • Σε προβλήματα πολλών διαστάσεων θα απαιτούνται πολλά δείγματα αλλιώς ο σχηματισμός θα είναι ελλιπής.
Γενική διατύπωση εκτίμησης • Η πιθανότητα ένα διάνυσμα x, με κατανομήp(x), να ανήκει σε μια περιοχή είναι: • Αν υποθέσουμε ότι Ν είναι τα δείγματα της κατανομής, η πιθανότητα να ανήκουν k στην περιοχή , είναι:
Γενική διατύπωση εκτίμησης • Από τις ιδιότητες των διωνυμικών κατανομών έχουμε: • Που σημαίνει ότι όταν Ν→∞ η κατανομή γίνεται πιο αιχμηρή, άρα μπορούμε να θεωρήσουμε ότι μία καλή εκτίμηση της Pείναι το μέσο των σημείων που εμπίπτουν στην :
Γενική διατύπωση εκτίμησης • Αν υποθέσουμε ότι η περιοχή είναι τόσο μικρή που η p(x) δεν αλλάζει: • Και συνδυάζοντας με το προηγούμενο αποτέλεσμα: • Ο υπολογισμός είναι πιο ακριβής όσο αυξάνει το πλήθος των δειγμάτων Ν και μικραίνει ο όγκος V
Γενική διατύπωση εκτίμησης • Στην προηγούμενη σχέση ο συνολικός αριθμός δειγμάτων Ν είναι σταθερός • Για να βελτιωθεί η ακρίβεια στην εκτίμηση του p(x) μπορούμε να ελαχιστοποιήσουμε τον όγκο (σχεδόν 0), αλλά τότε η περιοχή θα γίνει τόσο μικρή που δεν θα περιέχει πρακτικά δείγματα • Άρα θα πρέπει να γίνει ένας συμβιβασμός ώστε το V να είναι αρκετά μεγάλο για να περιέχει αρκετά δείγματα και αρκετά μικρό ώστε να στηρίζεται η υπόθεση ότι το p(x) παραμένει σταθερό εντός της
Γενική διατύπωση εκτίμησης • Στην πράξη δύο προσεγγίσεις ακολουθούνται: • Μπορούμε να επιλέξουμε μια σταθερή τιμή για τον όγκο V και να υπολογίσουμε τα περιεχόμενα δείγματα από τα δεδομένα (Εκτίμηση Πυκνότητας Kernel) • Μπορούμε να ορίσουμε σταθερό αριθμό δειγμάτων k και να υπολογίσουμε τον αντίστοιχο όγκο V από τα δεδομένα (k-Nearest Neighbours) • Αποδεικνύεται ότι και οι δύο πιο πάνω προσεγγίσεις συγκλίνουν στην πραγματική τιμή της συνάρτησης πυκνότητας πιθανότητας όταν N→∞, δεδομένου ότι ο όγκος V συρρικνώνεται και το k μεγαλώνει με το N,
Παράθυρα Parzen • Αν υποθέσουμε ότι η περιοχή που περικλείει k δείγματα είναι ένας κύβος πλευράς h κεντραρισμένος στο σημείο εκτίμησης x, ο όγκος είναι V=hD. • Για να βρούμε τον αριθμό των δειγμάτων στην περιοχή ορίζουμε την Kernel συνάρτηση:
Παράθυρα Parzen • Αυτή η συνάρτηση, μοναδιαίου υπερκύβου κεντραρισμένο στο x, ονομάζεται παράθυρο Parzen • Η ποσότητα K((x-x(n)/h) ισούται με τη μονάδα αν το σημείο x(n βρίσκεται μέσα στον κύβο.
Παράθυρα Parzen • Ο συνολικός αριθμός δειγμάτων μέσα στον κύβο είναι: • Και αν αντικαταστήσουμε στην έκφραση εκτίμησης της πυκνότητας πιθανότητας:
Παράθυρα Parzen - Άσκηση • Βάσει των δεδομένων που ακολουθούν, χρησιμοποίησε τα παράθυρα Parzen να υπολογίσετε τη συνάρτηση πυκνότητας πιθανότητας στα σημεία y=3,10,15. Χρησιμοποιήστε h=4
Παράθυρα Parzen - Λύση • Αν παραστήσουμε τα δεδομένα σε έναν άξονα, έχουμε:
Εκτίμηση Πυκνότητας με k-NN • Επιλέγοντας σταθερή τιμή για το k και ορίζοντας ελάχιστο όγκο V στο σύνολο δεδομένωνπου περικλείει τα k σημεία, εφαρμόζουμε τη μέθοδο του k πλησιέστερου γείτονα (k Nearest Neighbor kNN)
Εκτίμηση Πυκνότητας με k-NN • Στη μέθοδο k-NN μεγαλώνουμε τον όγκο που περικλείει το σημείο εκτίμησης xεωσότου περικλείει kσημεία δεδομένων. • Τότε η εκτίμηση πυκνότητας γίνεται: • Όπου Rk(x) είναι η απόσταση μεταξύ του σημείου εκτίμησης και του k-στού πλησιέστερου γείτονα. • cDείναι ο όγκος της μοναδιαίας σφαίρας στις D διαστάσεις, και είναι: • c1=2, c2=π, c3=4π/3 κλπ
Εκτίμηση Πυκνότητας με k-NN • Η εκτίμηση με k-NN δεν είναι πολύ ικανοποιητική καθώς: • Η προσέγγιση επηρεάζεται από τοπικό θόρυβο • Καθώς η συνάρτηση Rk(x) δεν είναι παραγωγίσιμη θα υπάρχουν ασυνέχειες. • Το αποτέλεσμα θα αποκλίνει σε όλο το δειγματοχώρο
Εκτίμηση Πυκνότητας με kNN για δύο Gaussians
Εκτίμηση Πυκνότητας με k-NN • Για δύο Gaussians όπου: • Εκτίμηση για k=10 γείτονες και Ν=200 δείγματα
Εκτίμηση Πυκνότητας με k-NN Πραγματικά περιγράμματα Eκτίμησης με kNN
k-NNvs Bayes classifier • Το μεγαλύτερο πλεονέκτημα της μεθόδου k-NN είναι ότι αποτελεί μια πολύ απλή προσέγγιση του Bayes classifier • Ας υποθέσουμε ότι έχουμε ένα σύνολο δεδομένων με N δείγματα και Niανήκουν στην κλάση ωi και θέλουμε να ταξινομήσουμε άγνωστο δείγμα xu • Θεωρούμε όγκο V γύρω από το xuμε k δείγματα συνολικά και έστω kiαπό ωi.
kNNvs Bayes classifier • Μπορούμε να προσεγγίσουμε τη συνάρτηση πιθανότητας με k-NN ως: • Παρόμοια η συνάρτηση πυκνότητας θα είναι: • Και οι εκ των προτέρων πιθανότητα • Αν τα βάλουμε όλα μαζί στο ταξινομητή Bayes
Ο κανόνας ταξινόμησης του kπλησιέστερου γείτονα (k-NN) • Ο κανόνας του k Nearest Neighbor Rule (kNN) είναι διαισθητική μέθοδο που ταξινομεί άγνωστα δείγματα με βάσει την ομοιότητα τους με τα δείγματα εκπαίδευσης. • Για δεδομένο άγνωστο πρότυπο xu βρες τα k «κοντινότερα» δείγματα από τα δεδομένα εκπαίδευσης και απέδωσε το xuστην κλάση που εμφανίζεται πιο πολύ στο k-υποσύνολο
Κανόνας k-NN Απαιτεί μόνο: • Έναν ακέραιο k • Ένα σετ γνωστών δειγμάτων (σύνολο εκπαίδευσης) • Ένα μέτρο «απόστασης»
Κανόνας k-NN • Στο παράδειγμα έχουμε 3 κλάσεις και άγνωστο δείγμα xu • Χρησιμοποιείται Ευκλείδεια απόσταση και k=5 γείτονες • 4 γείτονες ανήκουν στην ω1 και 1 ανήκει στην ω3 • Το xuκατατάσσεται στην ω1