130 likes | 253 Views
Diverse Ensembles for Active Learning. Prem Melville Raymond J. Mooney Department of Computer Sciences, University of Texas Présenté par : Shan CHEN. Plan. I . Introduction II. Algorithme Active-Decorate Algorithme Query by Committee Algorithme Decorate
E N D
Diverse Ensembles for Active Learning Prem Melville Raymond J. Mooney Department of Computer Sciences, University of Texas Présenté par : Shan CHEN
Plan • I. Introduction • II. Algorithme Active-Decorate Algorithme Query by Committee Algorithme Decorate • III.Evaluation Experimental • VI. Experimentations Additionnelle • VII.Conclusions et perspective
Introduction L’apprentissage supervisé L'apprentissage actif: choisir les exemples • L’algorithme Query by Committes(QBC) • L’algorithme Query by Bagging (QBag) • L’algorithme Query by Boosting (QBoost) • L'algorithme Decorate
Objectif • Un algorithme Active –Decorate: ⅰ une variante de l'algorithme Query by Committes. ⅱ profiter l'algorithme Decorate • Comparer les performances de ces quatre algorithmes :Active-Decorate ; Decorate ; Query by Bagging et Query by Boosting • Varier les paramètres essentiels
Algorithme Query by Committee • S’appliquer sur les problèmes de classification différents • Choisir récursivement les exemples non-étiquette plus informatifs • Répéter jusqu’à plus de la requête disponibles pour l'étiquette • Dans QBC l'utilité d’un exemple non étiquette la discordance de ces étiquettes prédictives
Algorithme Active-Decorate • Profiter l'algorithme Decorate • Le ensemble d’hypothèses diversifiés ⅰ les plus différentes mutuellement ⅱ garder la cohérence • Généraliser le definition de La marge du exemple pour mesurer l’utilité
Algorithme Decorate • L'algorithme Decorate: ⅰSe concentre sur la discordance de l'ensemble d’hypothèse ⅱLes données diversité artificiellement,Chaque itération, pour le cassifieur,ne pas ajouter dans T ⅲTester les erreurs dans T ⅳRépéter jusqu'à la taille désirée de l’ensemble classifieur=15 ou le nombre maximal d'itérations =50
Evaluation Experimental • Comparer les performances des quatre algorithmes :Active-Decorate ; Decorate ; Query by Bagging et Query by Boosting Le arbre decision (C 4.5) la méthode basique • Deux objectifs de l’apprentissage actif ⅰLa réduction du nombre des données demandé (Active-Decorate 78%) ⅱLe niveau de l’amélioration de la fidélité-la réduction d’erreur (Active-Decorate 21.15%)
Experimentations Additionnel 1 • essayer de mesurer l’utilité par la méthode Jensen-shannon divergence(JS divergence) dans l’algorithme Active –Decorate • Wi est le poids vote de ième classifieur dans les ensemble . H(p)est le entropy shannon du distribution de p. p ={pj, j= 1,2,,,,k } • JS divergence (l’utilisation de donnée ) VS La marge (la réduction d’erreur) • JS divergence : causer le choix et ameliorer la fidélité de la classification
Experimentations Additionnel 2 • Comparer le diversité de l’ensemble entre Decorate et Bagging ainsi que Decorate et Adaboost • Le diversité de i ème classifieur sur exemple X Wi est le poids vote de ième classier. • Le diversité de l’ensemble ( m exemples)
Experimentations Additionnel 3 • Utiliser les trois algorithmes bagging boosting et Decorate pour choisir les exemples dans l’algorithme Active -Decorate. • Toujours profiter l’algorithme Decorate pour faire le prédiction. • 4 ensembles des données réels. • Conjueguer meilleur
Conclusions et Perspective • L’algorithme ACTIVE-DECORATE simple et efficace ⅰ Diminuer le besoin du nombre des données d’entraînement ⅱ Baser sur l’ensemble diversifié Perspective • Appliquer l’ensemble de Decorate pour choisir les exemples non-étuquette , et les entraîne sur bagging ou boostiong ou C4.5.Les résultats ? • Le mesure de l’utilité est un domaine très intéressant ( vote entropy ,JS divergence....)
Mon Avis • Les différentes méthodes de l'apprentissage actif les différentes techniques choisir les exemples plus informatifs • Comme choisir mesurer l’utilité • Comme mesurer l’utilité les différentes méthodes basé sur l’ensemble d’hypothèse diversifiés . • les différentes méthodes la marge, le JS- divergence, le vote entropie ......... • l’ensemble d’hypothèse diversifiés l’algorithme Decorate est meilleur