450 likes | 603 Views
Αναγνώριση Προτύπων. Σημερινό Μάθημα. Επιλογή Χαρακτηριστικών - Feature selection Αντικειμενική συνάρτηση Φίλτρα Wrappers Διαδικασία Αναζήτησης Σειριακοί αλγόριθμοι Εκθετικοί αλγόριθμοι Τυχαίοι αλγόριθμοι. Feature extraction vs. Feature selection.
E N D
Σημερινό Μάθημα • Επιλογή Χαρακτηριστικών - Feature selection • Αντικειμενική συνάρτηση • Φίλτρα • Wrappers • Διαδικασία Αναζήτησης • Σειριακοί αλγόριθμοι • Εκθετικοί αλγόριθμοι • Τυχαίοι αλγόριθμοι
Feature extraction vs. Feature selection • Υπάρχουν δύο τρόποι να μειώσουμε τις διαστάσεις ενός διανύσματος (feature): • Feature extraction (εξαγωγή χαρακτηριστικών):Μετασχηματισμός των υπαρχόντων δεδομένων σε χώρο μικρότερο διαστάσεων • Feature selection (επιλογή χαρακτηριστικών):Επιλογή ενός υποσυνόλου των υπάρχοντων χαρακτηριστικών χωρίς μετασχηματισμό.
Επιλογή Χαρακτηριστικών - Feature selection • Η Επιλογή χαρακτηριστικών αποκαλείται επίσης Feature Subset Selection (FSS) • Αν και η FSSμπορεί να θεωρηθεί ως ειδική περίπτωση της εξαγωγής χαρακτηριστικών είναι πολύ διαφορετικό πρόβλημα • Η FSS βλέπει το πρόβλημα της διαστατικότητας από άλλη άποψη • Υπάρχει διαφορετικό σετ μεθοδολογιών για την FSS
Ορισμός • Δεδομένου ενός σετ XΝ={xi | i=1…N}, επιλέξτε υποσύνολο YM ={xi1, xi2, …, xiM}, με Μ<Ν όπου βελτιστοποιεί μια αντικειμενική συνάρτηση J(Y), ιδανικά, την πιθανότητα σωστής ταξινόμησης (classification)
Επιλογή Χαρακτηριστικών Η επιλογή χαρακτηριστικών είναι αναγκαία σε ορισμένες περιπτώσεις: • Μπορεί η διαδικασία επίτευξης των χαρακτηριστικών να είναι ακριβή • Μπορεί να θέλουμε να εξάγουμε κανόνες με νόημα • Μπορεί τα αρχικά χαρακτηριστικά να μην είναι μετρήσιμα μεγέθη Επιπλέον λιγότερα χαρακτηριστικά σημαίνει • Λιγότερες παράμετροι στην αναγνώριση • Μειωμένη πολυπλοκότητα • Καλύτερο υπολογιστικό χρόνο
Διαδικασία Αναζήτησης • Διεξοδική αξιολόγηση των υποσυνόλων χαρακτηριστικών συμπεριλαμβάνει συνδυασμούς για σταθερή τιμή του M και 2Ν συνδυασμούς αν πρέπει να υπολογίσουμε το Μ. • Το νούμερο είναι ανέφικτο ακόμα και για μέτριες τιμές των Μ και Ν • Για παράδειγμα για Μ=10 και Ν=20 έχουμε 1874756 υποσύνολα • Για το λόγο αυτό απαιτείται μια διαδικασία να κατευθύνει το FSSσε όλους τους πιθανούς συνδυασμούς.
Στρατηγική Αναζήτησης και Αντικειμενική συνάρτηση Η επιλογή υποσυνόλου χαρακτηριστικών απαιτεί: • Μια διαδικασία αναζήτησης για την επιλογή υποψήφιων υποσυνόλων • Μια αντικειμενική συνάρτηση για να αξιολογηθούν οι υποψήφιοι
Στρατηγική Αναζήτησης και Αντικειμενική συνάρτηση
Αντικειμενική συνάρτηση • Η αντικειμενική συνάρτηση αξιολογεί τα διάφορα υποσύνολα και επιστρέφει ένα μέτρο της καταλληλότητας τους. • Υπάρχουν δύο κατηγορίες αντικειμενικών συναρτήσεων: • Φίλτρα: Η αντικειμενική συνάρτηση αξιολογεί τα υποσύνολα από την περιεχόμενη πληροφορία, την απόσταση των κλάσεων και τη στατιστική ανεξαρτησία τους • Wrappers: Η αντικειμενική συνάρτηση είναι μέθοδος αναγνώρισης προτύπων που αξιολογεί τα υποσύνολα βάσει της προβλεπόμενης ακρίβειας (τεστ).
Φίλτρα • Μέτρα απόστασης ή διαχωριστικότητας: αυτές οι μέθοδοι χρησιμοποιούν μέτρα απόστασης για να μετρήσουν τη διαχωριστικότητα των κλάσεων π.χ. Ευκλείδεια απόσταση, SW & SB (LDA) • Μέτρα συσχέτισης και πληροφορίας: Αυτές οι μέθοδοι βασίζονται στο σκεπτικό ότι καλά υποσύνολα χαρακτηριστικών περιλαμβάνουν χαρακτηριστικά υψηλά συσχετιζόμενα εντός της ίδιας κλάσης και λιγότερο συσχετιζόμενα με άλλες κλάσεις
Φίλτρα vs. Wrappers Φίλτρα • Πλεονεκτήματα • Γρήγορη Εκτέλεση: γιατί δεν περιλαμβάνουν επαναλήψεις • Γενικότητα: γιατί δεν βασίζονται σε ένα συγκεκριμένο ταξινομητή (classifier) • Μειονεκτήματα • Τάση να επιλέγουν μεγάλα υποσύνολα
Φίλτρα vs. Wrappers Wrappers • Πλεονεκτήματα • Ακρίβεια: γιατί βασίζονται στην ιδιαίτερη αλληλεπίδραση μεταξύ του ταξινομητή και της βάσης δεδομένων • Ικανότητα γενίκευσης: αποφεύγεται το overfitting εξαιτίας της χρήσης cross-validation • Μειονεκτήματα • Αργή εκτέλεση: λόγω των επαναλήψεων και τον επανεκπαιδεύσεων που απαιτούνται • Έλλειψη γενικότητας ως προς τη μέθοδο αναγνώρισης
Βαθμωτές τεχνικές επιλογής χαρακτηριστικών • Αποκοπή outliers • Κανονικοποίηση δεδομένων • Έλεγχος υποθέσεων:t-test • Εναλλακτική υπόθεση • Μηδενική Υπόθεση • Καμπύλη receiver operating characteristic (ROC) • Λόγος Διάκρισης Fisher
Στρατηγικές Αναζήτησης Υπάρχει μεγάλο πλήθος στρατηγικών αναζήτησης που χωρίζονται σε τρεις κατηγορίες: • Σειριακοί αλγόριθμοι: προσθέτουν ή αφαιρούν χαρακτηριστικά σειριακά αλλά τείνουν να παγιδεύονται σε τοπικά ελάχιστα • Εκθετικοί αλγόριθμοι: αποτιμούν ένα πλήθος υποσυνόλων που αυξάνει εκθετικά με τη διάσταση • Τυχαίοι αλγόριθμοι: επιστρατεύουν το τυχαίο στο ψάξιμο τους για να αποφύγουν την παγίδευση σε τοπικά ελάχιστα
Απλός σειριακός αλγόριθμος επιλογής • Μια τεχνική θα ήταν να εκτιμήσουμε το κάθε χαρακτηριστικό ξεχωριστά και να επιλέξουμε τα Μ καλύτερα • Αυτή η στρατηγική θα δουλέψει σπάνια γιατί δεν εξετάζει την μεταξύ τους εξάρτηση των χαρακτηριστικών
Απλός σειριακός αλγόριθμος επιλογής Παράδειγμα Έστω ένα πρόβλημα 4-διάστατο με 5 κλάσεις: • Σκοπός είναι να επιλέξουμε το καλύτερο σετ 2 χαρακτηριστικών • Μια λογική αντικειμενική συνάρτηση θα έδινε την εξής κατάταξη: J(x1)>J(x2)≈J(x3)>J(x4) όπου: • το x1φαίνεται το καλύτερο χαρακτηριστικό λόγω του ότι διαχωρίζει τις ω1, ω2, ω3 και {ω4, ω5} • Τα x2και x3έχουν παρόμοια συμπεριφορά αφού διακρίνουν τις κλάσεις σε 3 ομάδες • Το x4 μπορεί μόνο να διακρίνει ω4 από ω5 • Αν διακρίνουμε με το κριτήριο του αλγορίθμου θα έπρεπε να επιλέξουμε x1και x2 ή x3. • Είναι φανερό όμως ότι η πιο σωστή επιλογή είναι {x1, x4}
Sequential Forward Selection (SFS) • Είναι ο πιο απλός σειριακός greedyαλγόριθμος • Ξεκινώντας από ένα άδειο σετ χαρακτηριστικών, προσθέτει σειριακά τα χαρακτηριστικά που βελτιώνουν το αποτέλεσμα σε συνδυασμό με τα υπάρχοντα χαρακτηριστικά
Sequential Forward Selection (SFS)Αλγόριθμος • Όρισε σετ Υ0={ø} • Επέλεξε x+: • Yk+1=Yk+x+, k=k+1 • Επανάληψη από βήμα 2 άδειο σετ γεμάτο σετ
Sequential Forward Selection (SFS) • Ο SFS έχει καλύτερη απόδοση όταν είναι μικρό το πλήθος των βέλτιστων χαρακτηριστικών • Στην αρχή του αλγορίθμου είναι πολλές οι πιθανές καταστάσεις που μπορούν να εξεταστούν • Κοντά στο τέλος η επιλογές στενεύουν • Το μεγαλύτερο μειονέκτημα του SFS είναι ότι δεν μπορεί να αφαιρέσει από το σετ χαρακτηριστικά που έχουν ήδη επιλεγεί.
SFS Παράδειγμα • Κάνετε SFS θεωρώντας την αντικειμενική συνάρτηση J(X): • το xk γίνεται 1 όταν επιλέγεται το χαρακτηριστικό αλλιώς είναι 0.
Sequential Backward Selection (SBS) • Η Προς-τα-πίσω Σειριακή Επιλογή λειτουργεί με τον αντίθετο τρόπο από την SFS • Ξεκινώντας από το πλήρες σετ, αφαιρεί το χαρακτηριστικό με τη μικρότερη απόδοση στην αντικειμενική συνάρτηση
Sequential Backward Selection (SBS) • Ξεκίνα με σετ Υ0=Χ • Αφαίρεσε x-: • Yk+1=Yk-x-, k=k+1 • Επανέλαβε από βήμα 2 άδειο σετ γεμάτο σετ
Sequential Backward Selection (SBS) • H SBS δουλεύει καλά όταν το βέλτιστο υποσύνολο έχει πολλά features (τελειώνει γρηγορότερα), καθώς η SBS ξοδεύει περισσότερο χρόνο για να επισκεφτεί μεγάλα υποσύνολα. • Το μεγαλύτερο μειονέκτημα είναι η ανικανότητα της SBS να επανεκτιμήσει feature που έχει απορρίψει.
Plus-L Minus-R Selection (LRS) • Είναι μια γενίκευση των SFS και SBS • Αν L>R, η LRS ξεκινάει από άδειο σετ και επαναλαμβανόμενα προσθέτει ‘L’ features και αφαιρεί ‘R’ features • Αν L<R, η LRS ξεκινάει από το γεμάτο σετ και επαναλαμβανόμενααφαιρεί ‘R’ features ενώ προσθέτει ‘L’ features
Plus-L Minus-R Selection (LRS) • Αν L>R τότε ξεκίνα με Υ={ø} Αλλιώς ξεκίνα με Υ=Χ πήγαινε στο 3 • Επανέλαβε L φορές Yk+1=Yk+x+, k=k+1 • Επανέλαβε R φορές Yk+1=Yk-x-, k=k+1 • Πήγαινε στο 2 άδειο σετ γεμάτο σετ
Plus-L Minus-R Selection (LRS) • Το LRS προσπαθεί να εξουδετερώσει τις αδυναμίες των SFS και SBS με επαναλήψεις • Το μεγαλύτερο του μειονέκτημα είναι ότι δεν υπάρχει τρόπος για να προβλεφθούν τα βέλτιστα L και R
Bidirectional Search (BDS) • Η δικατευθυντήρια αναζήτηση είναι μια παράλληλη υλοποίηση των SFS και SBS • Εκτελείται SFS για το άδειο σετ και SBS για το γεμάτο • Για να εξασφαλίσουμε ότι δίνουν την ίδια λύση πρέπει να εξασφαλίσουμε ότι υπάρχει συμφωνία στις αφαιρέσεις του ενός και στις προσθήκες του άλλου. (έλεγχος σε κάθε προσθήκη ή διαγραφή) άδειο σετ γεμάτο σετ
Bidirectional Search (BDS) • Ξεκίνησε SFS με ΥF={ø} • Ξεκίνησε SBS με ΥB=X • Πήγαινε στο 3
Εκθετικοί αλγόριθμοι • Branch and Bound (Β&Β) - διακλάδωση και οριοθέτηση • Approximate Monotonicity με Branch and Bound ΑΜΒ&Β • Beam Αναζήτηση
Branch and Bound • Ο αλόγριθμος Branch and Bound εγγυάται την ανεύρεση του βέλτιστου υποσυνόλου χαρακτηριστικών υπό το πρίσμα της μονοτονικότητας • Η μονοτονικότητα υποστηρίζει ότι η πρόσθεση χαρακτηριστικών μπορεί μόνο να αυξήσει την απόδοση της αντικειμενικής συνάρτησης:
Branch and Bound • Ο αλγόριθμος αρχίζει από το πλήρες σετ και αφαιρεί χαρακτηριστικά. • Κόμβοι που η αντικειμενική τους συνάρτηση είναι χαμηλότερη από την τρέχουσα δεν εξετάζονται καθώς σύμφωνα με την υπόθεση της μονοτονικότητας δεν αναμένεται να δώσουν καλύτερη λύση
Branch and Bound • Θεωρήστε το υποσύνολο M’=N-M features που έχει ήδη απορριφθεί • Καθώς δεν υπάρχει καθορισμένη σειρά θεωρούμε i1<i2<...iM’ • Για Ν=6 και Μ=2 έχουμε το δέντρο:
Approximate Monotonicity με Β&Β • Ο AMB&B είναι μια παραλλαγή του κλασσικού αλγορίθμουΒ&Β • Θεωρήστε ότι τρέχουμε τον Β&Β θέτοντας σαν κριτήριο ένα ποσοστό σφάλματος Ε(Υ)=τ αντί τα Μ χαρακτηριστικά • Υπό τον AMB&B, ένα υποσύνολο Υ θα θεωρείται • Εφικτό αν Ε(Υ)≤τ • Εφικτό υπό συνθήκη εάν Ε(Υ)≤τ(1+Δ) • Ανέφικτο ανΕ(Υ)>τ(1+Δ)
Beam Αναζήτηση (ΒS) • Οργανώνεται μια ουρά των καταστάσεων από το καλύτερο προς το χειρότερο • Σε κάθε επανάληψη, ο BS αξιολογεί όλες τις πιθανές καταστάσεις που απορρέουν από την προσθήκη ενός feature στο υποσύνολο • Αν το μέγεθος της ουράς τεθεί 1 ο BS συμπίπτει με τον SFS
Beam Αναζήτηση (ΒS) - Παράδειγμα • Για 4-διάστατο χώρο και ουρά μεγέθους 3 • Δεν υπάρχει εγγύηση ότι θα βρεθεί το βέλτιστο
Τυχαίοι αλγόριθμοι • Random Generation plus Sequential Selection(RGSS) • Γενετικοί Αλγόριθμοι (GA)
Random Generation plus Sequential Selection • O RGSS είναι μια προσπάθεια εισαγωγής του «τυχαίου» στους αλγόριθμους SFS και SBS για να αποφύγουμε τα τοπικά ελάχιστα. • Επανέλαβε για αριθμό επαναλήψεων • Δημιούργησε τυχαίο υποσύνολο χαρακτηριστικών 3b.Εκτέλεσε SFS στο υποσύνολο 3c. Εκτέλεσε SBS στο υποσύνολο
Δομή Γενετικού Αλγόριθμου • Κατά την διάρκεια της επαναληπτικής εκτέλεσης t, ο ΓA διατηρεί ένα πληθυσμό από πιθανά χαρακτηριστικά: • Κάθε χαρακτηριστικό αξιολογείται και δίνει ένα μέτρο της καταλληλότητας του • Δημιουργείται ένας νέος πληθυσμός από την επιλογή των πιο κατάλληλων στοιχείων • Μερικά µέλη υφίστανται µετατροπές µε µετάλλαξη (mutation) ή διασταύρωση (crossover) σχηµατίζοντας νέες πιθανές λύσεις
Δομή Γενετικού Αλγόριθμου • Η διασταύρωση συνδυάζει τα στοιχεία δύο χρωμοσωμάτων γονέων για να δημιουργήσει δύο νέους απογόνους ανταλλάσσοντας κομμάτια • Η διασταύρωση εξυπηρετεί την ανταλλαγή πληροφοριών μεταξύ διαφορετικών πιθανών λύσεων • Η μετάλλαξη αλλάζει αυθαίρετα ένα ή περισσότερα γονίδια ενός συγκεκριμένου χρωμοσώματος. • Η μετάλλαξη εξυπηρετεί την εισαγωγή νέων πιθανών λύσεων
Δομή Γενετικού Αλγόριθμου - Παράδειγμα • έστω ότι οι γονείς αναπαριστώντα µε διανύσματα πέντε διαστάσεων: (a1,b1,c1,d1,e1) και (a2,b2,c2,d2,e2) • τότε οι απόγονοι µε σημείο διασταύρωσης (crossover point) 2 είναι: (a1,b1,c2,d2,e2) και (a2,b2,c1,d1,e1)
Δομή Γενετικού Αλγόριθμου Ένας ΓA αποτελείται από πέντε τµήµατα: • Μια γενετική αναπαράσταση των πιθανών λύσεων • Ένα τρόπο δημιουργίας ενός αρχικού πληθυσμού των πιθανών λύσεων • Μια αντικειμενική συνάρτηση αξιολόγησης • Γενετικούς τελεστές που μετατρέπουν τη σύνθεση των παιδιών • Διάφορες παραμέτρους όπως μέγεθος πληθυσμού, πιθανότητες εφαρμογής των γενετικών τελεστών, κ.λπ.
BEGIN/* Γενετικός Αλγόριθμος */ Δημιουργία αρχικού πληθυσμού Υπολογισμός της αντικειμενικής συνάρτησης για κάθε άτομο WHILE NOT ολοκληρωμένος DO BEGIN/* Δημιουργία νέας γενιάς */ FOR μέγεθος πληθυσμού / 2 DO BEGIN Επιλογή δύο ατόμων από για ζευγάρωμα Συνδυασμός των δύο ατόμων και δημιουργία δύο νέων Εφαρμογή μετάλλαξης σε κάποια από τα νέα άτομα Εισαγωγή των νέων ατόμων στην νέα γενιά END IF ο πληθυσμός συγκλίνει σε επιθυμητό βαθμό THEN ολοκληρωμένος := TRUE END END