1 / 33

Αναγνώριση Προτύπων

Αναγνώριση Προτύπων. Σημερινό Μάθημα. Μη-επιβλεπόμενη εκπαίδευση ( Clustering) Μη-παραμετρική Μη-επιβλεπόμενη εκπαίδευση Μέτρα εγγύτητας Αλγόριθμος k-means ISODATA Ιεραρχικό clustering Δεντρογράμματα. Επιβλεπόμενη vs Μη-Επιβλεπόμενη Μάθηση.

Download Presentation

Αναγνώριση Προτύπων

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Αναγνώριση Προτύπων

  2. Σημερινό Μάθημα • Μη-επιβλεπόμενη εκπαίδευση(Clustering) • Μη-παραμετρική Μη-επιβλεπόμενη εκπαίδευση • Μέτρα εγγύτητας • Αλγόριθμος k-means • ISODATA • Ιεραρχικό clustering • Δεντρογράμματα

  3. Επιβλεπόμενη vs Μη-Επιβλεπόμενη Μάθηση • Μέχρι τώρα θεωρήσαμε μεθόδους αναγνώρισης με classification όπου το πρότυπο χαρακτηρίζεται από τα μεγέθη {x,ω} • Αυτά τα προβλήματα αναγνώρισης ονομάζονται Επιβλεπόμενα (supervised) αφού διατίθενται και το χαρακτηριστικό διάνυσμα και η σωστή απάντηση. • Υπάρχουν όμως περιπτώσεις όπου δίνεται το χαρακτηριστικό διάνυσμα χωρίς την κλάση. • Αυτές οι μέθοδοι καλούνται Μη-Επιβλεπόμενες (unsupervised) λόγω του ότι δεν χρησιμοποιούν τη σωστή απάντηση.

  4. Επιβλεπόμενη vs Μη-Επιβλεπόμενη Μάθηση Αν και η μέθοδοι μη επιβλεπόμενης μάθηση φαίνονται περιορισμένων δυνατοτήτων υπάρχουν πολλές περιπτώσεις που επιβάλλεται η χρήση τους: • Ο χαρακτηρισμός πολλών δεδομένων μπορεί να αποβεί δαπανηρός (π.χ. αναγνώριση ομιλίας) • Το είδος της κλάσης μπορεί να μην είναι γνωστό εξ’αρχής.

  5. Κατηγοριοποιήση των μη-επιβλεπόμενων μεθόδων εκμάθησης • Παραμετρικές (μείγματα κατανομών): Αυτές οι μέθοδοι μοντελοποιούν την υπό συνθήκη πυκνότητα πιθανότητας με ένα μίγμα παραμετρικών πυκνοτήτων με σκοπό να βρουν τις παραμέτρους του μοντέλου. • Μη-παραμετρικές (clustering): Δεν γίνεται υπόθεση για την πυκνότητα πιθανότητα αλλά επιχειρείται διαχωρισμός των δεδομένων σε κλάσεις.

  6. Μη-παραμετρική Μη-επιβλεπόμενη εκπαίδευση • Δεν ασχολούμαστε με συναρτήσεις πυκνότητας • Αναζητούμε ομαδοποιήσεις (clusters) σε ένα σύνολο δεδομένων • Το μη παραμετρικό clustering συμπεριλαμβάνει 3 βήματα: • Ορισμός ενός μέτρου ομοιότητας (ανομοιότητας) μεταξύ των παραδειγμάτων • Ορισμός κριτηρίου για clustering (συνάρτηση) • Ορισμός αλγορίθμου βελτιστοποίησης της συνάρτησης κριτηρίου

  7. Μέτρα εγγύτητας • Ένας κανόνας μέτρησης της απόστασης d(x,y) μεταξύ δύο διανυσμάτων x και y πρέπει να πληρεί τις ιδιότητες: • Αν έχει και την ιδιότητα: • Τότε καλείται νόρμα και δηλώνεται ως d(x,y)=||x-y||

  8. Μέτρα εγγύτητας • Η πιο γενική μορφή ενός μέτρου απόστασης είναι

  9. Γνωστά μέτρα εγγύτητας • Μέτρο Minkowski (Lk) Η επιλογή του kεξαρτάται από την έμφαση που θέλουμε να δώσουμε σε μεγάλες διαφορές μεταξύ διαστάσεων • Απόσταση Manhattan (L1 norm) • Όταν χρησιμοποιείται με δυαδικά διανύσματα είναι γνωστή και ως απόσταση Hamming

  10. Γνωστά μέτρα εγγύτητας • Euclidean απόσταση (L2 norm) • Chebyshev απόσταση (L∞ norm)

  11. Γνωστά μέτρα εγγύτητας • Μη γραμμική απόσταση: • Εσωτερικό γινόμενο (απαιτεί κανονικοποιημένα διανύσματα) • Correlation coefficient (συσχέτιση)

  12. Συνάρτηση κριτηρίου για clustering • Όταν έχει ορισθεί μέτρο ομοιότητας (ανομοιότητας) χρειάζεται να ορίσουμε μια συνάρτηση κριτηρίου • Η πιο γνωστή συνάρτηση κριτηρίου για clustering είναι το άθροισμα τετραγωνικού λάθους • Μετράει πόσο καλά το σετ δεδομένων απέχει από τα κέντρα των clusters • Επίσης χρησιμοποιούνται οι scatter matrices από το LDA

  13. Αξιοπιστία cluster • Η επιλογή του μέτρου ομοιότητας (ανομοιότητας) έχει άμεση επίδραση στα παραγόμενα clusters • H αξιοπιστία των clusters και το πλήθος τους είναι υποκειμενικά

  14. Επαναληπτική βελτιστοποίηση • Άπαξ και οριστεί συνάρτηση κριτηρίου, απομένει να ορίσουμε διαμερισμό που να ελαχιστοποιεί το κριτήριο. • Εξαντλητική απαρίθμηση όλων των διαμερισμών δεν είναι εφικτή. • Φανταστείτε ότι πρόβλημα 5 clustersκαι 100 παραδειγμάτων δίνει 1067 διαμερισμούς.

  15. Επαναληπτική βελτιστοποίηση Ο πιο κοινός τρόπος είναι η επαναληπτική προσέγγιση: • Βρες λογικό αρχικό διαμερισμό • Μετέφερε δείγματα ώστε να βελτιστοποιηθεί η συνάρτηση κριτηρίου • Τέτοιες προσεγγιστικές μέθοδοι παράγουν υποβέλτιστες λύσεις αλλά είναι υπολογιστικά βολικές

  16. Επαναληπτική βελτιστοποίηση Υπάρχουν δύο κατηγορίες επαναληπτικών προσεγγίσεων: • Επίπεδοι αλγόριθμοι για clustering • Παράγουν σετ ανεξάρτητων clusters • Οι πιο γνωστοί είναι οι k-means και ISODATA • Ιεραρχικοί αλγόριθμοι για clustering • Το αποτέλεσμα είναι μια ιεραρχία εμφωλιασμένων clusters • Χωρίζονται στους ενωτικούς (agglomerative) και διαχωριστικούς (divisive)

  17. Αλγόριθμος k-means • Είναι απλή διαδικασία clusteringπου επιδιώκει την ελαχιστοποίηση της συνάρτησης JMSE με επαναληπτική διαδικασία:

  18. Αλγόριθμος k-means • Όρισε το πλήθος των clusters • Αρχικοποίησε clusters με: • Τυχαία κατανομή παραδειγμάτων στα clusters • Ή τυχαία επιλογή κέντρων clusters • Υπολόγισε το μέσο κάθε cluster • Απέδωσε κάθε δείγμα στο πλησιέστερο μέσο • Αν η κατανομή των δειγμάτων δεν άλλαξε τερμάτισε, αλλιώς βήμα 3

  19. Αλγόριθμος k-means • Ο k-means χρησιμοποιείται στην επεξεργασία σήματος για διανυσματικό κβαντισμό • Μονοδιάστατα σήματα κβαντίζονται σε αριθμό επιπέδων για μετάδοση ή αποθήκευση με δυαδικό τρόπο • Κβαντίζουμε το πολυδιάστατο διάνυσμα επιλέγοντας ένα σετ πολυδιάστατων προτύπων (κέντρα clusters) • Αυτά τα κέντρα των clusters αποτελούν το codebook της εφαρμογής

  20. Αλγόριθμος k-means

  21. ISODATA • ISODATA είναι συντομογραφία του Iterative Self-Organizing Data Analysis TechniqueAlgorithm • Είναι επέκταση του k-means που εμπεριέχει ευριστικούς τρόπους για την αυτόματη επιλογή του πλήθους των κλάσεων • Ο χρήστης επιλέγει τις παραμέτρους: • NMIN_EX ελάχιστο πλήθος δειγμάτων ανά cluster • ND επιθυμητό πλήθος cluster • σS2μέγιστη διασπορά για διαχωρισμό clusters • DMERGE μέγιστη απόσταση για ένωση clusters • NMERGE μέγιστο πλήθος clusters που μπορούν να ενωθούν

  22. ISODATA • Εκτέλεσε k-means clustering • Διάσπασε όσα clusters έχουν αρκετά ανόμοια δεδομένα • Ένωσε όσα clusters έχουν αρκετά όμοια δεδομένα • Βήμα 1

  23. ISODATA Πλεονεκτήματα • Διαθέτει δυνατότητες αυτό-οργάνωσης • Ευελιξία στον να καταργεί clusters με λίγα δείγματα • Ικανότητα να διαιρεί clustersμε ανομοιότητες • Ικανότητα να ενώνει clustersμε ομοιότητες Μειονεκτήματα • Τα δεδομένα πρέπει να είναι γραμμικά διαχωριζόμενα • Δύσκολος ο προκαθορισμός των παραμέτρων και καθοριστικός • Για μεγάλα σετ ή πλήθος clustersυπάρχουν καλύτεροι αλγόριθμοι Στην πράξη εφαρμόζεται για διάφορες παραμέτρους και επιλέγεται ο συνδυασμός με το μικρότερο τετραγωνικό σφάλμα

  24. Ιεραρχικό clustering • O k-meansκαι ο ISODATA δημιουργούν ανεξάρτητα clusters με αποτέσμα μια επίπεδη αναπαράσταση των δεδομένων • Μερικές φορές επιθυμούμε ιεραρχική αναπαράσταση με clusters και sub-clusters σε δεντρική δομή • Οι ιεραρχικές μέθοδοι χωρίζονται σε: • Ενωτικές (Agglomerative ή bottom-up): ξεκινούν με Ν clustersπου ενώνονται διαδοχικά μέχρι να μείνει ένα • Διαχωριστικές (Divisive ή top-down): ξεκινούν με ένα clusterπου διασπάται μέχρι να δημιουργήθούν Ν

  25. Δεντρογράμματα • Προτιμώνται για την αναπαράσταση ιεραρχικών clusters • Το δεντρόγραμμα είναι δυαδικό δέντρο που δείχνει τη δομή των clusters • Επιπλέον δείχνει το μέτρο ομοιότητας μεταξύ clusters • Εναλλακτική αναπαράσταση είναι με σύνολα {{x1, {x2, x3}}, {{{x4, x5}, {x6, x7}}, x8}} • Τα δεντρογράμματα δεν δίνουν ποσοτική πληροφορία Μεγάλη ομοιότητα Μικρή ομοιότητα

  26. Διαχωριστικό Clustering • Όρισε NCclusters και NEXεπιθυμητό • Ξεκίνησε με ένα μεγάλο cluster • Βρες «χειρότερο» cluster • Διαίρεσε το • Αν NC< NEX πήγαινε στο 2

  27. Διαχωριστικό Clustering • Επιλογή «χειρότερου» cluster • Μεγαλύτερο πλήθος δειγμάτων • Μεγαλύτερη διασπορά • Μεγαλύτερο τετραγωνικό λάθος • Διαχωρισμός clusters • Μέσο ή μεσαίο ως προς ένα χαρακτηριστικό • Κάθετα ως προς την κατεύθυνση μεγαλύτερης διασποράς • Η διαχωριστικοί είναι πιο επίπονοι υπολογιστικά από τους ενωτικούς

  28. Ενωτικό Clustering Όρισε NCclusters και NEXεπιθυμητό Ξεκίνησε με NCcluster ενός μέλους Βρες «κοντινότερα» clusters Ένωσε τα Αν NC>Nex πήγαινε στο 2

  29. Ενωτικό clustering Ελάχιστη Απόσταση • Όταν χρησιμοποιείται το dminγια την απόσταση μεταξύ clusters, πρόκειται για τον ΝΝ αλγόριθμο (single-linkage clustering) • Αν ο αλγόριθμος τρέξει μέχρι να μείνει ένα cluster έχουμε ελάχιστο δέντρο • Ευνοεί classes μεγάλου μήκους

  30. Ενωτικό clustering Μέγιστη Απόσταση • Όταν χρησιμοποιείται το dmax πρόκειται για τον αλγόριθμο μακρύτερου γείτονα (farthestneighbor ή complete-linkage clustering) • Κάθε cluster αποτελεί υπο-γράφο • Ευνοεί συμπαγείς classes

  31. Ενωτικό clustering Μεσαία και μέση απόσταση • Η ελάχιστη και μέγιστη απόσταση είναι ιδιαίτερα ευαίσθητες σε outliersκαθώς το μέτρο των μεταξύ κλάσεων αποστάσεων περιέχει μέγιστα ή ελάχιστα • Οι μέση και μεσαία απόσταση είναι πιο ευέλικτες • Η μεσαία απόσταση είναι πιο ελκυστική υπολογιστικά • Η μέση απόσταση περιλαμβάνει τον υπολογισμό NiNjαποστάσεων για κάθε ζεύγος cluster.

  32. Ενωτικό clustering παράδειγμα • Εκτέλεσε ενωτικό clustering με ΝΝ για: X = {1, 3, 4, 9, 10, 13, 21, 23, 28, 29} • Ένωσε clustersμε single-linkage

  33. Ενωτικό clustering, ελάχιστη Vs. μέγιστηαπόσταση • clustering 9 πόλεων στις USA

More Related