150 likes | 250 Views
Apprentissage et Fouilles de données. FilterBoost : Regression et Classification On Large Datasets. Joseph K. Bradley et Robert E.Schapire. Salma Najar 20 Mars 2008 . Plan. Introduction Filterboost
E N D
Apprentissage et Fouilles de données FilterBoost: Regression et Classification On Large Datasets Joseph K. Bradley et Robert E.Schapire Salma Najar 20 Mars 2008
Plan • Introduction • Filterboost • Analyse • Expérimentations • Conclusion
Introduction Introduction • Analyse Expérimentations Conclusion FilterBoost Introduction Problématique Motivation • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Batch Boosting • WeakLearner • S: Ensemble fixe d’exemple d’entrainement • Après T ronds Booster ht + Hypothèse Finale H - - - + • αt εt Dt Dt
Problématique Introduction • Analyse Expérimentations Conclusion FilterBoost Introduction Problématique Motivation • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Batch Booster accède à l’ensemble entier des exemples d’entrainement • Traitement très cher pour les larges bases de données. • Limite son application: Problème de classification des sites en ligne par exemple • Limite son efficacité: A chaque rond Un traitement dans la base de données entière.
Motivation Introduction • Analyse Expérimentations Conclusion FilterBoost IntroductionProblématique Motivation • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion Le but principal : Rendre le boosting faisable dans de large base de données Idée principle: Utiliser un flux de données au lieu d’utiliser la base de données en entier. Entrainer un nouveau sous ensemble de données à chaque rond. FilterBoost
Présentation du FilterBoost Introduction • Analyse Expérimentations Conclusion FilterBoost Présentation Batch Algorithme FilterBoost Algorithme Filtre • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Oracle Nouveaux exemples IID de D dans chaque rond. • Algorithme : • Adaptif • Basé sur une logique de régression logistique. • Moins d’assomptions exigées que les travaux antérieurs. • Applicable: • Estimation de la probabilité conditionnelle • plus robuste au bruit et au sur apprentissage. • Classification • prouve compétitivité.
Batch Algorithme Introduction • Analyse Expérimentations Conclusion FilterBoost PrésentationBatch Algorithme FilterBoost Algorithme Filtre • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Etant donné: Un ensemble fixe d’entrainement S • Pour t = 1,…,T • Construire la distribution Dt de S • Faire fonctionner le Weak Learner • Choix hypothèse ht • Estimer Erreur εt de ht • Donner un poidsαtà ht • Sortie : Hypothèse Finale • H(x) = Σt αt ht(x) Dans le Filtrage : Il n’ya pas d’ensemble fixe d’entrainement. Mécanisme du Filtre: Simuler Dt Accepter ou rejeter les exemples selon une probabilité qt
Introduction FilterBoost Algorithme • Analyse Expérimentations Conclusion FilterBoost Présentation Batch Algorithme FilterBoost Algorithme Filtre • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Etant donné: Oracle • Pour t = 1,…,T • Filtre donneacces à Dt • Tirermtexemple du filtre • Choisirl’hypothèse ht • Tirer de nouveaxexemples du filtre • Estimerl’erreur εt de ht • Donner un poidsαt à ht • Output: Hypothèse Finale Le nombre mt d’exemple doit être suffisamment large pour assurer que l’erreur εt < ½ avec une forte probabilité. • Tirermtexemple du filtre L’erreur de l’hypothèse finale < ε Output: Hypothèse Finale
Filtre Introduction • Analyse Expérimentations Conclusion FilterBoost Présentation Batch Algorithme FilterBoost Algorithme Filtre • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion Accepter Oracle - + Refuser • Label = -1 • Booster prédit -1 • Bien classé • Poidsfaible • Probabilité faible d’être accepté • Label = + 1 • Booster prédit -1 • Mal classé • Poidsélevé • Probabilité élevé d’être accepté Le filtre accepte l’exemple (x,y) avec une probabilité proportionnelle à l’erreur de la prédiction du booster H(x)
Analyse Introduction • Analyse Expérimentations Conclusion FilterBoost • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Condition d’arrêt du boosting? • Si le filtre rejète suffisament d’exemples dans un seulappel, pt est petite • Ht est suffisamment correcte. • Nombre de rondsque le boosting a besoin? • Si l’erreur de ht : εt < ½ progrés significatif dans ce rond. • Estimation des limites de l’Hypothèsefaible? • Utilisation du NonmonotonicAdativeSampling
Expérimentation (1/2) Introduction • Analyse Expérimentations Conclusion FilterBoost Expérimentation Expérimentation :CPE Expérimentation: Classification • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • La pondération au lieu du filtrage des exemples. • Augmente l’exactitude. • Augmente la taille de l’ensemble d’entrainement. • Simulation Oracle • Permutation par hasard des données et utilisation des • exemples dans le nouvel ordre. Filtrer lors de l’entrainement du WeakLearner. Pondérer lors de l’estimation des limites.
Expérimentation (2/2) Introduction • Analyse Expérimentations Conclusion FilterBoost Expérimentation Expérimentation :CPE Expérimentation: Classification • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Tester FilterBoost avec et sans Confidence-Ratedpredictions. • Tester FilterBoost contre d’autres Batch et FilteringBoostings: MadaBoost, AdaBoost, Logistic AdaBoost • Tester: classification et conditional probability estimation FilteringBosterest plus long que les batch dans de petite base de données. Mais plus rapide dans les larges base de données.
Expérimentation: CPE Introduction • Analyse Expérimentations Conclusion FilterBoost Expérimentation Expérimentation :CPE Expérimentation: Classification • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion Décision Expert Arbre de Décision
Expérimentation: Classification Introduction • Analyse Expérimentations Conclusion FilterBoost Expérimentation Expérimentation :CPE Expérimentation: Classification • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion
Conclusion Introduction • Analyse Expérimentations Conclusion FilterBoost • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • FilterBooster utilise des techniques de régression logistique, pour l’Estimation des probabilités conditionnelles et la classification. • Boosting-by-Filtering • Utilisation d’un oracle et non pas d’un ensemble fixe d’entraînement. • Résultats: • Plus efficace et plus robuste pour apprendre avec de large bases de données. Plus rapide et plus robuste que le batch booster sans sacrifié l’exactitude.