1 / 90

B. Μεγαλοοικονόμου, Χ. Μακρής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. Κατηγοριοποίηση και Πρόβλεψη. B. Μεγαλοοικονόμου, Χ. Μακρής. ( εν μέρη βασισμένο σε σημειώσεις των J . Han και M . Kamber ). Θεματολογία. Τι είναι Κατηγοριοποίηση ; Τι είναι Πρόβλεψη ;

keren
Download Presentation

B. Μεγαλοοικονόμου, Χ. Μακρής

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Εξόρυξη Δεδομένωνκαι Αλγόριθμοι Μάθησης Κατηγοριοποίηση και Πρόβλεψη B. Μεγαλοοικονόμου, Χ. Μακρής (εν μέρη βασισμένο σε σημειώσεις των J. Han και M.Kamber)

  2. Θεματολογία • Τι είναι Κατηγοριοποίηση; Τι είναι Πρόβλεψη; • Ζητήματα κατηγοριοποίησης και πρόβλεψης • Κατηγοριοποίηση με επαγωγή δένδρου απόφασης • Μπεϋζιανή Κατηγοριοποίηση • Κατηγοριοποίηση με πίσω διάδοση (backpropagation) • Κατηγοριοποίηση βασισμένη σε έννοιες από την εξόρυξη κανόνων συσχετίσεων • Λοιπές μέθοδοι Κατηγοριοποίησης • Πρόβλεψη • Ακρίβεια κατηγοριοποίησης (accuracy) • Σύνοψη

  3. Κατηγοριοποίηση vs. Πρόβλεψη • Κατηγοριοποίηση: • Προβλέπει κατηγορικές ετικέτες κλάσης • Κατηγοριοποιεί δεδομένα (κατασκευάζει μοντέλο) χρησιμοποιώντας το σύνολο εκπαίδευσης και τις τιμές (ετικέτες κλάσης) του προς κατηγοριοποίηση χαρακτηριστικού και με βάση αυτά κατηγοριοποιεί τα νέα δεδομένα • Πρόβλεψη: • Μοντελοποιεί συνεχείς συναρτήσεις, π.χ. προβλέπει άγνωστες ή χαμένες τιμές • Βασικές Εφαρμογές: • Πιστοληπτική απόφαση • Εύρεση στοχευόμενου κοινού (target marketing) • Ιατρική διάγνωση • Ανάλυση απόδοσης διαχείρισης • Μεγάλα σύνολα δεδομένων:αποθήκευση στο δίσκο αντί αποθήκευσης στην κύρια μνήμη

  4. Κατηγοριοποίηση —Μία διαδικασία δύο βημάτων • Κατασκευή Μοντέλου: η περιγραφή ενός συνόλου προκαθορισμένων κλάσεων • Κάθε πλειάδα θεωρείται ότι ανήκει σε μια προκαθορισμένη κλάση, που καθορίζεται από το χαρακτηριστικό της ετικέτας κλάσης (επιβλεπόμενη μάθηση – supervised learning) • Σύνολο εκπαίδευσης(training set):το σύνολο των πλειάδων που χρησιμοποιείται για την κατασκευή του μοντέλου • Το μοντέλο αναπαρίστανται ως κανόνες κατηγοριοποίησης, δέντρα απόφασης ή μαθηματικοί τύποι • Εφαρμογή Μοντέλου: για την κατηγοριοποίηση νέων αντικειμένων • Αξιολόγηση της απόδοσης του μοντέλου χρησιμοποιώντας ένα σύνολο ελέγχου (test set) • Η γνωστή κλάση του δείγματος ελέγχου συγκρίνεται με το αποτέλεσμα της κατηγοριοποίησης • Ακρίβεια (accuracy) είναι το ποσοστό των δειγμάτων ελέγχου που κατηγοριοποιήθηκαν ορθά από το μοντέλο • Το σύνολο ελέγχου πρέπει να είναι ανεξάρτητο από το σύνολο εκπαίδευσης για αποφυγή over-fitting

  5. Training Data Classifier (Model) Διαδικασία Κατηγοριοποίησης: Κατασκευή Μοντέλου Classification Algorithms IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’

  6. Classifier Testing Data Unseen Data Διαδικασία Κατηγοριοποίησης: Εφαρμογή Μοντέλου για Πρόβλεψη (Jeff, Professor, 4) Tenured?

  7. Επιβλεπόμενη vs. Μη Επιβλεπόμενη Μάθηση • Επιβλεπόμενη μάθηση (κατηγοριοποίηση) • Επίβλεψη: Τα δεδομένα εκπαίδευσης (παρατηρήσεις, μετρήσεις, κ.α.) συνοδεύονται από ετικέτες που δείχνουν την κλάση τους • Τα νέα δεδομένα κατηγοριοποιούνται βάση του συνόλου εκπαίδευσης • Μη επιβλεπόμενη μάθηση (συσταδοποίηση) • Οι ετικέτες κλάσης του συνόδου εκπαίδευσης είναι άγνωστες • Δοσμένου ενός συνόλου μετρήσεων, παρατηρήσεων, κτλ, ο στόχος είναιη εύρεση της ύπαρξης κλάσεων ή συστάδων μεταξύ των δεδομένων

  8. Θεματολογία • Τι είναι Κατηγοριοποίηση; Τι είναι Πρόβλεψη; • Ζητήματα κατηγοριοποίησης και πρόβλεψης • Κατηγοριοποίηση με επαγωγή δένδρου απόφασης • Μπεϋζιανή Κατηγοριοποίηση • Κατηγοριοποίηση με πίσω διάδοση (backpropagation) • Κατηγοριοποίηση βασισμένη σε έννοιες από την εξόρυξη κανόνων συσχετίσεων • Λοιπές μέθοδοι Κατηγοριοποίησης • Πρόβλεψη • Ακρίβεια κατηγοριοποίησης (accuracy) • Σύνοψη

  9. Ζητήματα κατηγοριοποίησης και πρόβλεψης: Προετοιμασία Δεδομένων • Καθαρισμός δεδομένων • Μείωση του θορύβου και διαχείριση των χαμένων τιμών • Ανάλυση συσχετίσεων (επιλογή χαρακτηριστικών) • Απομάκρυνση των μη-σχετικών ή πλεοναζόντων χαρακτηριστικών • Μετασχηματισμός δεδομένων • Γενίκευση ή/και κανονικοποίηση των δεδομένων

  10. Ζητήματα κατηγοριοποίησης και πρόβλεψης: Αξιολόγηση Μεθόδων Κατηγοριοποίησης • Ακρίβεια πρόβλεψης • Ταχύτητα και κλιμάκωση • Χρόνος κατασκευής του μοντέλου • Χρόνος εφαρμογής του μοντέλου • Αποδοτικότητα σε βάσεις δεδομένων αποθηκευμένες στο δίσκο (disk-resident) • Ανθεκτικότητα (robustness) • Διαχείριση θορύβου και χαμένων τιμών • Ερμηνευσιμότητα (interpretability): • Κατανόηση και διορατικότητα που προσφέρει το μοντέλο • Ποιότητα των κανόνων • Μέγεθος του δένδρου απόφασης • Περιεκτικότητα των κανόνων κατηγοριοποίησης

  11. Θεματολογία • Τι είναι Κατηγοριοποίηση; Τι είναι Πρόβλεψη; • Ζητήματα κατηγοριοποίησης και πρόβλεψης • Κατηγοριοποίηση με επαγωγή δένδρου απόφασης • Μπεϋζιανή Κατηγοριοποίηση • Κατηγοριοποίηση με πίσω διάδοση (backpropagation) • Κατηγοριοποίηση βασισμένη σε έννοιες από την εξόρυξη κανόνων συσχετίσεων • Λοιπές μέθοδοι Κατηγοριοποίησης • Πρόβλεψη • Ακρίβεια κατηγοριοποίησης (accuracy) • Σύνοψη

  12. Κατηγοριοποίηση με Επαγωγή Δένδρου Απόφασης • Βασικά χαρακτηριστικά δένδρου απόφασης (καλύφθηκαν προηγουμένως) • Μέτρα επιλογής χαρακτηριστικών: • Κέρδος πληροφορίας (ID3/C4.5) • Όλα τα χαρακτηριστικά θεωρούνται κατηγορικά • Δυνατότητα τροποποίησης για συνεχή χαρακτηριστικά • Δείκτης Gini(IBM IntelligentMiner) • Όλα τα χαρακτηριστικά θεωρούνται συνεχείς μεταβλητές • Θεωρεί ότι υπάρχουν διάφορες πιθανές τιμές διαχωρισμού για κάθε χαρακτηριστικό • Η εύρεση των τιμών διαχωρισμού μπορεί να απαιτεί χρήση εργαλείων όπως π.χ. συσταδοποίηση • Δυνατότητα τροποποίησης για κατηγορικά χαρακτηριστικά • Αποφυγή overfitting • Εξαγωγή κανόνων κατηγοριοποίησης από δένδρα

  13. Δείκτης Gini (IBM IntelligentMiner) • Για ένα σύνολο δεδομένωνT, που περιέχει παραδείγματα από nκλάσεις, ο δείκτης gini index, gini(T), ορίζεται ως όπου pjείναι η σχετική συχνότητα της κλάσηςjστοT. • Για ένα σύνολο δεδομένωνT, που αποτελείται από δύο υποσύνολαT1καιT2με μέγεθος N1και N2αντίστοιχα, ο δείκτης giniτων διαχωρισμένων δεδομένων περιέχει παραδείγματα από nκλάσεις και ορίζεται ως • Το γνώρισμα που παρέχει το ελάχιστοginisplit(T) επιλέγεται για τον διαχωρισμό του κόμβου (απαιτείται η απαρίθμηση όλων των πιθανών σημείων διαχωρισμού για κάθε γνώρισμα)

  14. Προσεγγίσεις για τον Καθορισμό του Τελικού Μεγέθους του Δένδρου • Διαχωρισμός συνόλου εκπαίδευσης (2/3) και συνόλου ελέγχου (1/3) • Χρήση σταυρωτής επικύρωσης (cross validation), π.χ., 10-fold cross validation • Χρήση όλων των δεδομένων για εκπαίδευση • αλλά εφαρμογή ενός στατιστικού test (π.χ., chi-square) για την εκτίμηση του αν η διεύρυνση ή η περικοπή ενός κόμβου θα βελτιώσει τη συνολική κατανομή • Χρήση της Αρχής Ελάχιστου Μήκους Περιγραφής (Minimum Description Length (MDL) principle) • αναστολή της ανάπτυξης του δένδρου όταν η κωδικοποίηση ελαχιστοποιείται

  15. Βελτιώσεις στην Βασική Μέθοδο Επαγωγής Δένδρων Απόφασης • Δυνατότητα για συνεχή χαρακτηριστικά • Δυναμικός ορισμός νέων διακριτών χαρακτηριστικών τα οποία διαχωρίζουν τα συνεχή χαρακτηριστικά σε ένα διακριτό σύνολο διαστημάτων • Διαχείριση χαμένων τιμών των χαρακτηριστικών • Ανάθεση της πιο συχνά εμφανιζόμενης τιμής του χαρακτηριστικού • Ανάθεση πιθανότητας σε κάθε πιθανή τιμή • Κατασκευή γνωρισμάτων • Δημιουργία νέων γνωρισμάτων με βάση τα υπάρχοντα τα οποία αναπαριστούνται αραιά • Συμβάλλει στη μείωση της κατάτμησης (fragmentation), της επανάληψης και της πολλαπλής αντιγραφής (replication)

  16. Κατηγοριοποίηση σε Μεγάλες Βάσεις Δεδομένων • Κατηγοριοποίηση — ένα κλασικό πρόβλημα που έχει διερευνηθεί εκτενώς από στατιστικούς και ερευνητές μηχανικής μάθησης • Κλιμάκωση: Κατηγοριοποίηση συνόλων δεδομένων με εκατομύρια παραδείγματα και εκατοντάδες χαρακτηριστικά με λογική ταχύτητα • Γιατί επαγωγή με δένδρα απόφασης στην εξόρυξη δεδομένων; • σχετικά μεγαλύτερη ταχύτητα μάθησης (σε σχέση με άλλες μεθόδους κατηγοριοποίησης) • δυνατότητα μετατροπής σε απλούς και κατανοητούς κανόνες κατηγοριοποίησης • δυνατότητα χρήσης SQL ερωτημάτων για πρόσβαση σε βάσεις δεδομένων • σύγκρισιμη ακρίβεια κατηγοριοποίησης με άλλες μεθόδους

  17. Κλιμάκωση της Επαγωγής με Δένδρα Απόφασης • Διαχωρισμός των δεδομένων σε υποσύνολα και κατασκευή ενός δένδρου απόφασης για κάθε υποσύνολο; • SLIQ (EDBT’96 — Mehta et al.) • Κατασκευήενός ευρετηρίου για κάθε χαρακτηριστικό και αποθήκευση μόνο της λίστας κλάσεων και της λίστας των τρέχοντων χαρακτηριστικών στην μνήμη • SPRINT (VLDB’96 — J. Shafer et al.) • κατασκευάζει μια δομή δεδομένων για τη λίστα των χαρακτηριστικών • PUBLIC (VLDB’98 —Rastogi & Shim) • ενοποιείtree splitting και tree pruning: τερματισμός ανάπτυξης του δένδρου νωρίτερα • RainForest (VLDB’98 —Gehrke, Ramakrishnan & Ganti) • διαχωρίζει τις προοπτικές κλιμάκωσης από τα κριτήρια που καθορίζουν την ποιότητα του δένδρου • κατασκευάζει μια AVC λίστα (γνώρισμα, τιμή, ετικέτα κλάσης)

  18. Επαγωγή Δένδρου Απόφασης με βάση Κύβους Δεδομένων • Ενοποίηση της γενίκευσης με την επαγωγή δένδρου απόφασης (Kamber et al’97) • Κατηγοριοποίηση σε επίπεδα βασικών εννοιών • Π.χ., ακριβής θερμοκρασία, υγρασία, εμφάνιση, κ.α. • Χαμηλού επιπέδου έννοιες, διασκορπισμένες κλάσεις, πυκνά δένδρα κατηγοριοποίησης • Προβλήματα σημασιολογικής ερμηνείας • Πολύ-επίπεδη κατηγοριοποίηση βασισμένη σε κύβους • Ανάλυση σχετικότητας σε πολλαπλά επίπεδα • Ανάλυση κέρδους πληροφορίας με διάσταση + επίπεδο

  19. Παρουσίαση των Αποτελεσμάτων Κατηγοριοποίησης

  20. Θεματολογία • Τι είναι Κατηγοριοποίηση; Τι είναι Πρόβλεψη; • Ζητήματα κατηγοριοποίησης και πρόβλεψης • Κατηγοριοποίηση με επαγωγή δένδρου απόφασης • Μπεϋζιανή Κατηγοριοποίηση • Κατηγοριοποίηση με πίσω διάδοση (backpropagation) • Κατηγοριοποίηση βασισμένη σε έννοιες από την εξόρυξη κανόνων συσχετίσεων • Λοιπές μέθοδοι Κατηγοριοποίησης • Πρόβλεψη • Ακρίβεια κατηγοριοποίησης (accuracy) • Σύνοψη

  21. Μπεϋζιανή Κατηγοριοποίηση: Γιατί; • Πιθανοτική Μάθηση: • Υπολόγισε άμεσα τις πιθανότητες για την υπόθεση • Μεταξύ των πλέον πρακτικών μεθόδων για συγκεκριμένους τύπους προβλημάτων μάθησης • Επαυξησιμότητα: • Κάθε παράδειγμα εκπαίδευσης μπορεί επαυξητικά να αυξήσει/μειώσει την πιθανότητα της ορθότητας της υπόθεσης • Προηγούμενη γνώση μπορεί να συνδυαστεί με τα παρατηρημένα δεδομένα • Πιθανοτική πρόβλεψη: • Προβλέπει πολλαπλές υποθέσεις, σταθμισμένες με βάση τις πιθανότητές τους • Τυπικά: • Ακόμα και αν οι Μπεϋζιανές μέθοδοι είναι υπολογιστικά intractable, μπορούν να παρέχουν ένα standardεπίπεδο βέλτιστης λήψης αποφάσεων σε σύγκριση με άλλες μεθόδους που μπορούν να μετρηθούν

  22. Μπεϋζιανό Θεώρημα • Δοσμένου ενός σύνολο εκπαίδευσης D, ηεκ των υστέρων πιθανότητα (posteriori probability) της υπόθεσης h, P(h|D) ακολουθεί το θεώρηματου Bayes: • MAP (maximum posteriori) υπόθεση: • Πρακτικές δυσκολίες: • Απαιτούν αρχική γνώση αρκετών πιθανοτήτων • Σημαντικό υπολογιστικό κόστος

  23. Μπεϋζιανή Κατηγοριοποίηση • Το πρόβλημα της κατηγοριοποίησης μπορεί να διατυπωθεί χρησιμοποιώντας εκ των υστέρων πιθανότητες: • P(C|X) = πιθ. ότι το δείγμα-πλειάδα X=<x1,…,xk> ανήκει στην κλάση C • Π.χ. P(class=N | outlook=sunny,windy=true,…) • Ιδέα:ανάθεσε στο δείγμαXτην κλάση Cώστε η πιθανότητα P(C|X) είναι μέγιστη

  24. Υπολογισμός των εκ των υστέρων πιθανοτήτων • Μπεϋζιανό θεώρημα: P(C|X) = P(X|C)·P(C) / P(X) • P(X) είναι σταθερή για κάθε κλάση • P(C) = σχετική συχνότητα των δειγμάτων της κλάσης C • C έτσι ώστε P(C|X)να μεγιστοποιείται = C έτσι ώστε P(X|C)·P(C)να μεγιστοποιείται • Πρόβλημα: ο υπολογισμός της P(X|C) είναι ανέφικτος!

  25. Αφελής Μπεϋζιανή Κατηγοριοποίηση • Αφελής υπόθεση: ανεξαρτησία των χαρακτηριστικών P(x1,…,xk|C) = P(x1|C)·…·P(xk|C) • Αν το i-οστό χαρακτηριστικό είναι κατηγορικό:P(xi|C) υπολογίζεται ως η σχετική συχνότητα των δειγμάτων που έχουν την τιμή xiως το i-οστό χαρακτηριστικό στην κλάση C • Αν το i-οστό χαρακτηριστικό είναι συνεχές:P(xi|C) υπολογίζεται μέσω μιας Γκαουσιανής συνάρτησης πυκνότητας πιθανότητας • Υπολογιστικά εύκολο, και στις δύο περιπτώσεις !!!

  26. Play-tennis παράδειγμα: Υπολογισμός P(xi|C)

  27. Play-tennis παράδειγμα: Κατηγοριοποίηση του X • Ένα άγνωστο δείγμα X = <rain, hot, high, false> • P(X|p)·P(p) = P(rain|p)·P(hot|p)·P(high|p)·P(false|p)·P(p) = 3/9·2/9·3/9·6/9·9/14 = 0.010582 • P(X|n)·P(n) = P(rain|n)·P(hot|n)·P(high|n)·P(false|n)·P(n) = 2/5·2/5·4/5·2/5·5/14 = 0.018286 • Το δείγμα X κατηγοριοποιείται στην κλάσηn(don’t play)

  28. Η υπόθεση ανεξαρτησίας… • … καθιστά τον υπολογισμό δυνατό • … αποφέρει βέλτιστους κατηγοριοποιητές όταν ικανοποιείται • … ωστόσο, σπάνια ικανοποιείται στην πράξη, καθώς τα χαρακτηριστικά (μεταβλητές) συχνά συσχετίζονται • Προσπάθειες να υπερπηδήσουν αυτόν τον περιορισμό: • Μπεϋζιανά δίκτυα, τα οποία συνδυάζουν την Μπεϋζιανή λογική με αιτιατές σχέσεις μεταξύ των χαρακτηριστικών • Δέντρα απόφασης, τα οποία χειρίζονται ένα γνώρισμα κάθε στιγμή, ξεκινώντας από τα πλέον σημαντικά γνωρίσματα

  29. Δίκτυα Μπεϋζιανής Λογικής Family History Smoker (FH, S) (FH, ~S) (~FH, S) (~FH, ~S) LC 0.7 0.8 0.5 0.1 LungCancer Emphysema ~LC 0.3 0.2 0.5 0.9 Ο πίνακας με τις υπό-συνθήκη πιθανότητες για τη μεταβλητή LungCancer PositiveXRay Dyspnea Δίκτυο Μπεϋζιανής Λογικής

  30. Δίκτυα Μπεϋζιανής Λογικής • Τα δίκτυα Μπεϋζιανής λογικής θεωρούν ότι ένα υποσύνολο των μεταβλητών είναι υπό-συνθήκη ανεξάρτητο • Ένα γραφικό μοντέλο των αιτιατών σχέσεων • Διάφορες περιπτώσεις μάθησης των Μπεϋζιανών δικτύων • Δεδομένου μιας δομής δικτύου και όλων των μεταβλητών: εύκολο • Δεδομένου μιας δομής δικτύου αλλά μερικών μεταβλητών • Όταν η δομή του δικτύου δεν είναι γνωστή εξ αρχής • Η διαδικασία κατηγοριοποίησης επιστρέφει μια κατανομή πιθανότητας για όλες τις ετικέτες του χαρακτηριστικού κλάσης (όχι μόνο για μία ετικέτα κλάσης)

  31. Θεματολογία • Τι είναι Κατηγοριοποίηση; Τι είναι Πρόβλεψη; • Ζητήματα κατηγοριοποίησης και πρόβλεψης • Κατηγοριοποίηση με επαγωγή δένδρου απόφασης • Μπεϋζιανή Κατηγοριοποίηση • Κατηγοριοποίηση με πίσω διάδοση (backpropagation) • Κατηγοριοποίηση βασισμένη σε έννοιες από την εξόρυξη κανόνων συσχετίσεων • Λοιπές μέθοδοι Κατηγοριοποίησης • Πρόβλεψη • Ακρίβεια κατηγοριοποίησης (accuracy) • Σύνοψη

  32. Νευρωνικά Δίκτυα Ένα σύνολο συνεκτικών μονάδων εισόδου/εξόδου όπου κάθε σύνδεση έχει ένα συντελεστή βαρύτητας • Πλεονεκτήματα • η ακρίβεια πρόβλεψης είναι γενικά υψηλή • robust, δουλεύει όταν τα παραδείγματα του συνόλου εκπαίδευσης περιέχουν λάθη • η έξοδος μπορεί να είναι διακριτή,συνεχών τιμών, ή ένα διάνυσμα διαφόρων διακριτών ή συνεχών τιμών χαρακτηριστικών • γρήγορη αξιολόγηση της μαθημένηςσυνάρτησης στόχου • Προβληματισμοί • μεγάλος χρόνος εκπαίδευσης • απαιτούν παραμέτρους (που συνήθως καθορίζονται εμπειρικά) (π.χ. η τοπολογία του δικτύου) • δύσκολη η κατανόηση της μαθημένηςσυνάρτησης (βάρη) • δεν είναι εύκολη η ενσωμάτωση της γνώσης του εκάστοτε γνωστικού πεδίου

  33. - mk x0 w0 x1 w1 f å Έξοδος y xn wn Συνάρτηση Ενεργοποίησης Διάνυσμα Εισόδου x Διάνυσμα Βαρών w Βεβαρυμένο Άθροισμα Ένας νευρώνας • Το n-διαστάσεων διάνυσμα εισόδου xαντιστοιχίζεται στη μεταβλητήyμέσω ενός βαθμωτού γινομένου και μιας μη-γραμμικής συνάρτησης αντιστοίχισης

  34. Εκπαίδευση Δικτύου • Ο απώτερος στόχος της εκπαίδευσης • Εύρεση ενός συνόλου βαρών τα οποία εφαρμοζόμενα σε (σχεδόν) όλες τις πλειάδες του συνόλου εκπαίδευσης, τις κατηγοριοποιούν σωστά • Βήματα • Αρχικοποίηση βαρών με τυχαίες τιμές • Τροφοδοσία των πλειάδων εισόδου στο δίκτυο μία προς μία • Για κάθε μονάδα • Υπολόγισε την συνολική είσοδο της μονάδας ως το γραμμικό συνδυασμό όλων των εισόδων της μονάδας • Υπολόγισε την τιμή εξόδου χρησιμοποιώντας τησυνάρτηση ενεργοποίησης • Υπολόγισε το σφάλμα • Ανανέωσε τα βάρη και τα bias

  35. Πολυ-επίπεδο δίκτυο Perceptron Διάνυσμα Εξόδου Κόμβοι Εξόδου Κρυμμένοι Κόμβοι wij Κόμβοι Εισόδου Διάνυσμα Εισόδου: xi

  36. Θεματολογία • Τι είναι Κατηγοριοποίηση;Τι είναι Πρόβλεψη; • Ζητήματα κατηγοριοποίησης και πρόβλεψης • Κατηγοριοποίηση με επαγωγή δένδρου απόφασης • Μπεϋζιανή Κατηγοριοποίηση • Κατηγοριοποίηση με πίσω διάδοση (backpropagation) • Μηχανές Διανυσμάτων Υποστήριξης • Κατηγοριοποίηση βασισμένη σε έννοιες από την εξόρυξη κανόνων συσχετίσεων • Λοιπές μέθοδοι Κατηγοριοποίησης • Πρόβλεψη • Ακρίβεια κατηγοριοποίησης (accuracy) • Σύνοψη

  37. SVM- Support Vector MachinesΜηχανές Διανυσμάτων Υποστήριξης • Μια νέα μέθοδος κατηγοριοποίησης για γραμμικά και μη γραμμικά δεδομένα • Χρησιμοποιεί μη γραμμική αντιστοίχιση για να μετασχηματίσει τα αρχικά δεδομένα εκπαίδευσης σε δεδομένα υψηλότερης διάστασης • Με βάση τη νέα διάσταση, ψάχνει για γραμμικώς διαχωριζόμενα υπερεπίπεδα (δηλ., “όρια απόφασης”) • Με μια κατάλληλη μη γραμμική αντιστοίχιση σε μια επαρκώς υψηλότερη διάσταση, τα δεδομένα από δύο κλάσεις μπορούν να διαχωριστούν από ένα υπερεπίπεδο • Η μέθοδος SVM βρίσκει αυτό το υπερεπίπεδο χρησιμοποιώντας • Διανύσματα υποστήριξης (support vectors) (“κρίσιμες” πλειάδες εκπαίδευσης) και • Όρια - margins (που καθορίζονται από τα διανύσματα υποστήριξης)

  38. SVM—Ιστορία και Εφαρμογές • Vapniket al.(1992)—βασίστηκαν στην θεωρία στατιστικής εκμάθησης τωνVapnik & Chervonenkis (δεκαετία 1960) • Χαρακτηριστικά: • η εκπαίδευση μπορεί να είναι αργή • η ακρίβεια είναι υψηλή χάρη στην ικανότητα μοντελοποίησης σύνθετων, μη γραμμικών ορίων απόφασης (μεγιστοποίηση ορίων) • Χρησιμοποίηση για κατηγοριοποίηση και πρόβλεψη • Εφαρμογές: • αναγνώριση χειρόγραφων, αναγνώριση αντικειμένων, ταυτοποίηση ομιλίας, έλεγχοι πρόβλεψης χρονοσειρών benchmarking

  39. Μικρό Όριο Μεγάλο Όριο Διανύσματα Υποστήριξης SVM—Γενική Φιλοσοφία

  40. SVM—Όρια και Διανύσματα Υποστήριξης

  41. SVM—Όταν τα δεδομένα είναι γραμμικώς διαχωριζόμενα m Έστω το σύνολο δεδομένων D που αποτελείται από (X1, y1), …, (X|D|, y|D|), όπου Xiείναι το σύνολο των πλειάδων εκπαίδευσης που σχετίζονται με τις ετικέτες κλάσης yi Υπάρχουν άπειρες γραμμές (υπερεπίπεδα) που διαχωρίζουν τις δύο κλάσεις αλλά δεν είναι βέλτιστες. Στόχος είναι η εύρεση του βέλτιστου υπερεπιπέδου (αυτό που ελαχιστοποιεί το σφάλμα κατηγοριοποίησης στα άγνωστα δεδομένα) Η μέθοδος SVM αναζητά το υπερεπίπεδο με το μέγιστο όριο, π.χ., maximum marginal hyperplane (MMH)

  42. SVM—Γραμμικώς Διαχωριζόμενα • Ένα διαχωρίζον υπερεπίπεδο μπορεί να γραφτεί ως • W ● X + b = 0 • όπου W={w1, w2, …, wn} είναι ένα διάνυσμα βαρών και b ένας αριθμός (πόλωση-bias) • Για 2-Δ μπορεί να γραφτεί ως • w0 + w1 x1 + w2 x2 = 0 • Τα υπερεπίπεδα που καθορίζουν τις πλευρές του ορίου: • H1: w0 + w1 x1 + w2 x2 ≥ 1 για yi= +1, και • H2: w0 + w1 x1 + w2 x2 ≤ – 1 για yi= –1 • Οι πλειάδες εκπαίδευσης που πέφτουν στα υπερεπίπεδαH1ή H2 (π.χ., πλευρές που καθορίζουν τα όρια) αποτελούν διανύσματα υποστήριξης • Το πρόβλημαγίνεται ένα τετραγωνικό πρόβλημα βελτιστοποίησης με περιορισμούς (convex) : τετραγωνική συνάρτηση στόχου και γραμμική περιορισμοίQuadratic Programming (QP) Lagrangianπολλαπλασιαστές

  43. Γιατί η μέθοδος SVM είναι αποδοτική για Δεδομένα Υψηλών Διαστάσεων; • Η πολυπλοκότητα του εκπαιδευμένου κατηγοριοποιητή χαρακτηρίζεται από το πλήθος των διανυσμάτων υποστήριξης παρά από τη διαστατικότητα των δεδομένων • Τα διανύσματα υποστήριξης είναι τα κρίσιμα παραδείγματα εκπαίδευσης, τα οποία βρίσκονται πλησιέστερα στο όριο απόφασης(maximum marginal hyperplane) • Αν όλα τα άλλα παραδείγματα εκπαίδευσης αφαιρεθούν και η εκπαίδευση επαναληφθεί, τα ίδια υπερεπίπεδα θα βρεθούν • Το πλήθος των διανυσμάτων υποστήριξης που εντοπίστηκαν μπορεί να χρησιμοποιηθεί για το υπολογισμό ενός άνω ορίου για το εκτιμώμενο σφάλμα του SVM κατηγοριοποιητή, το οποίο είναι ανεξάρτητο από τη διαστατικότητα των δεδομένων • ..έναSVM με ένα μικρό σύνολο διανυσμάτων υποστήριξης μπορεί να έχει καλή γενίκευση, ακόμα και αν η διαστατικότητα των δεδομένων είναι υψηλή

  44. SVM—Γραμμικώς Διαχωρίσιμα • Μετασχηματίζει το αρχικό σύνολο δεδομένων εισόδου σε ένα υψηλότερης διάστασης χώρο • Αναζήτηση για ένα γραμμικώς διαχωρίζον υπερεπίπεδο στο νέο χώρο • Έστω το ακόλουθο παράδειγμα. Ένα 3-Δ διάνυσμα εισόδου X=(x1, x2, x3) αντιστοιχίζεται σε έναν 6-Δ χώρο Z χρησιμοποιώντας τις αντιστοιχίσεις Φ1(Χ)= x1, Φ2(Χ)= x2, Φ3(Χ)= x3, Φ4(Χ)=(x1)2, Φ5(Χ)= x1x2και Φ6(Χ)= x1x3. Ένα υπερεπίπεδο απόφασης στο νέο χώρο είναι το d(Z)=WZ+b, όπου W και Z διανύσματα. Η εξίσωση είναι γραμμική. Λύνουμε ως προς W και b και αντικαθιστώντας στην εξίσωση, βλέπουμε ότι το υπερεπίπεδο γραμμικής απόφασης στο νέο χώρο Ζ αντιστοιχεί σε ένα μη γραμμικό, δεύτερης τάξης πολυώνυμο στο αρχικό 3-Δ χώρο.

  45. SVM—Συναρτήσεις Πυρήνα (Kernel functions) • Αντί του υπολογισμού του εσωτερικού γινομένου στις μετασχηματισμένες πλειάδες δεδομένων, είναι μαθηματικά ισοδύναμη η εφαρμογή συναρτήσεων πυρήνα K(Xi, Xj) στα αρχικά δεδομένα, π.χ., K(Xi, Xj) = Φ(Xi) Φ(Xj) • Τυπικές Συναρτήσεις Πυρήνα • Η μέθοδος SVM μπορεί να χρησιμοποιηθεί για κατηγοριοποίηση περισσότερων (> 2) κλάσεων και για ανάλυση παλινδρόμησης (regression analysis)με χρήση επιπλέον παραμέτρων

  46. Κλιμάκωση SVM με Ιεραρχική ΜικροΣυσταδοποίηση • Η SVM δεν είναι κλιμακώσιμη για μεγάλο αριθμό αντικειμένων ως προς το χρόνο εκπαίδευσης και τη χρήση μνήμης • “Classifying Large Datasets Using SVMs with Hierarchical Clusters Problem” by H. Yu, J. Yang, J. Han, KDD’03 • CB-SVM (Clustering-Based SVM) • Πρόβλημα: Δεδομένων περιορισμένων υπολογιστικών πόρων (π.χ., μνήμη), μεγιστοποίησε την απόδοση της SVM ως προς την ακρίβεια και την ταχύτητα εκπαίδευσης • Χρησιμοποίησε micro-clustering για να μειωθεί αποδοτικά το πλήθος των σημείων που θα χρησιμοποιηθούν • Για τον εντοπισμό των διανυσμάτων υποστήριξης, de-cluster micro-clusters που βρίσκονται κοντά σε ένα “υποψήφιο διάνυσμα” για την εξασφάλιση υψηλής ακρίβειας κατηγοριοποίησης

  47. Clustering-Based SVM (CB-SVM) • Τα σύνολα δεδομένων εκπαίδευσης μπορεί να μην χωρούν στη μνήμη • Διάβασε το σύνολο δεδομένων μία φορά (ελαχιστοποίηση προσπελάσεων στο δίσκο) • Κατασκευή ενός στατιστικού προφίλ των δεδομένων (π.χ., ιεραρχικές συστάδες) λόγω της περιορισμένης χωρητικότητας μνήμης • Το στατιστικό προφίλ μεγιστοποιεί το όφελος της εκπαίδευσης της SVM • Η σύνοψη παίζει σημαντικό ρόλο στην δεικτοδότηση των SVMs • Βασική Ιδέα του Micro-clustering (Ιεραρχική δομή δεικτοδότησης) • Χρήση micro-cluster ιεραρχικής δομής δεικτοδότησης • Παροχή πιο λεπτομερών δειγμάτων που είναι πλησιέστερα στο όριο και λιγότερο λεπτομερών δειγμάτων που απέχουν αρκετά από το όριο • Επιλεκτικό de-clustering για να εξασφαλιστεί υψηλή ακρίβεια

  48. CF-Tree: Hierarchical Micro-cluster

  49. CB-SVM Αλγόριθμος: Περίγραμμα • Κατασκευή δύο CF-δένδρων από θετικά και αρνητικά ανεξάρτητα σύνολα δεδομένων • Απαιτείται μία σάρωση του συνόλου δεδομένων • Εκπαίδευση της SVM μετα κεντροειδή των εγγραφών της ρίζας • De-cluster τις εγγραφές που είναι κοντά στο όριο προς το επόμενο επίπεδο • Οι εγγραφές-παιδιά που έχουν από-συσταδοποιηθεί (de-clustered) από τις εγγραφές-γονείς, συσσωρεύονται στο σύνολο εκπαίδευσης με τις μη-declusteredεγγραφές-γονείς • Επανεκπαίδευση της SVM μετα κεντροειδή των εγγραφών του συνόλου εκπαίδευσης • Επανάληψη μέχρι να μην υπάρχει συσσώρευση

  50. Επιλεκτική Από-συσταδοποίηση (Declustering) • Το CF δέντρο είναι η κατάλληλη δομή βάσης για την επιλεκτική απο-συσταδοποίηση • Από-συσταδοποίηση μόνο των συστάδωνEiέτσι ώστε: • Di – Ri < Ds, όπου Diείναι η απόσταση από το όριο μέχρι το κεντρικό σημείοEiκαιRiείναι η ακτίνα τουEi • Αποσυσταδοποίηση μόνο των συστάδων των οποίων οι υποσυστάδες έχουν πιθανότητες να αποτελέσουν «συστάδες υποστήριξης» των ορίων • “Συστάδα υποστήριξης”: Συστάδα της οποία το κεντροειδές είναι διάνυσμα υποστήριξης

More Related