420 likes | 516 Views
Évaluation de l’apprentissage: méthodes. A. Cornuéjols LRI (basé sur Sebastian Thrun CMU class). Questions. L’induction est une forme d’inférence faillible, il faut donc savoir évaluer sa qualité Questions types: Quelle est la performance d’un système sur un type de tâche ?
E N D
Évaluation de l’apprentissage:méthodes A. Cornuéjols LRI (basé sur Sebastian Thrun CMU class)
Questions L’induction est une forme d’inférence faillible, il faut donc savoir évaluer sa qualité • Questions types: • Quelle est la performance d’un système sur un type de tâche ? • Est-ce que mon système est meilleur que l’autre ? • Comment dois-je régler mon système ?
Approches • Évaluation théoriquea priori • Dimension de Vapnik-Chervonenkis • Critères sur la complexité des modèles : MDL / AIC / BIC • Estimer l’optimisme de la méthode et ajouter ce terme au taux d’erreur • Évaluation empirique • E.g. taux d’erreur : (dans le cas d’un classifieur binaire avec une fonction de coût lié au nombre derreurs)
Plan • Mesurer la performance • Méthodes de validation • Matrices de confusion et courbe ROC • La comparaison de méthodes d’apprentissage • Autres mesures de performance
Évaluation des hypothèses produites données illimitées beaucoup de donnés très peu de données
Ensembles de données(collections) Toutes les données disponibles Ensemble de test Ensemble d’apprentissage Ensemble de validation
Prédiction asymptotique(le cas idéal) • Useful for very large data sets
Utilisation de l’ensemble de validation • On règle les paramètres de l’algorithme d’apprentissage • E.g. : nb de couches cachées, nb de neurones, ... • en essayant de réduire l’erreur de test • Pour avoir une estimation non optimiste de l’erreur, il faut recourir à une base d’exemples non encore vus : la base de validation
Évaluation des hypothèses produites beaucoup peu de données
Évaluation de l’erreur • Erreur vraie: • Erreur de test: (Risque réel) D = toutes les données possibles T (Risque empirique) T = données test m = # de données test
Exemple: • L’hypothèse classe mal 12 des 40 exemples dans l’ensemble de test T. • Q : Quelle sera l’erreur sur des exemples non vus ? • R : ???
Intervalle de confiance (1) • Définition : un intervalle de confiance à N% pour une variable p est l’intervalle dans lequel sa valeur est attendue avec une probabilité de N% • Soit une probabilité d’erreur (pour 2 classes) de p, la probabilité d’avoir r erreurs sur n évènements est : (loi binomiale) Espérance du nombre d’erreurs Variance Ecart-type
Intervalles de confiance (2) • La loi binomiale peut être estimée par la loi normalesi n p (1 - p) ≥ 5 de même moyenne m et même variance s
Intervalles de confiance (3) • Je voudrais évaluer erreurD(h). • Je l’estime en utilisant erreurT(h) qui est régie par une loi binomiale • De moyenne • D’écart-type • Que l’on estime par la loi normale • De moyenne : • D’écart-type :
Intervalles de confiance (4) • Loi normale • Loi normale
Intervalles de confiance (5) Avec une probabilité de N%, l’erreur vraie erreurD est dans l’intervalle :
Intervalles de confiance (cf. Mitchell 97) Si • T contient m exemples tirés indépendamment • m 30 Alors • Avec une probabilité de 95%, l’erreur vraie eD est dans l’intervalle :
Exemple: • L’hypothèse classe mal 12 des40 exemples dans la base de test T. • Q: Quelle sera l’erreur vraie sur les exemples non vus ? • A: Avec 95% de confiance, l’erreur vraie sera dans l’intervalle :
Courbes de performance intervalle de confiance à 95% Erreur de test Erreur d’apprentissage
Comparaison de différentes hypothèses • On cherche la différence vraie: • On estime par : • Qui est une loi normale différence de 2 lois normales • Intervalle de confiance à 95% : Rq : il faudrait normalement ne pas tester les deux hypothèses sur le même ensemble de test. La variance obtenue avec un même ensemble de test est un peu plus faible (cf. paired t tests).
Évaluation des hypothèses produites Beaucoup de données peu
Différents ensembles test erreur Données apprentissage
Validation croisée à k plis (k-fold) Apprend sur jaune, test sur rose erreur1 Apprend sur jaune, test sur rose erreur2 Apprend sur jaune, test sur rose erreur3 Apprend sur jaune, test sur rose erreur4 k-way split Apprend sur jaune, test sur rose erreur5 Apprend sur jaune, test sur rose erreur6 Apprend sur jaune, test sur rose erreur7 Apprend sur jaune, test sur rose erreur8 erreur = erreuri / k Données
Procédure “leave-one-out” Données • Faible biais • Haute variance • Tend à sous-estimer l’erreur si les données ne sont pas vraiment i.i.d. [Guyon & Elisseeff, jMLR, 03]
Le Bootstrap Données • Apprend sur jaune, test sur rose erreur • Répéter et faire la moyenne
Problème • Le calcul des intervalles de confiance suppose l’indépendance des estimations. • Mais nos estimations sont dépendantes. Estimation du risque réel pour h finale Moy. du risque sur l’ens. des données Moy. du risque sur les k ens. de test
La comparaison de différentes hypothèses : Paired t test • Vraie différence: • Pour chaque partition k: • Moyenne: • Intervalle de confiance à N% : erreur de test pour la partition k N : intervalle de confiance k-1 degrés de liberté
Matrice de confusion 14% des poissons sont pris pour des papillons
Types d’erreurs • Erreur de type 1 (alpha) : faux positifs • Probabilité d’accepter l’hypothèse alors qu’elle est fausse • Erreur de type 2 (beta) : faux négatifs • Probabilité de rejeter l’hypothèse alors qu’elle est vraie • Comment arbitrer entre ces types d’erreurs ?
Courbe ROC ROC = Receiver Operating Characteristic
Courbe ROC VP VP • Spécificité • Sensibilité • Rappel • Précision VP + FN VP + FN VP VN VP + FP FP + VN
Résumé • Attention à votre fonction de coût : • qu’est-ce qui importe pour la mesure de performance ? • Données en nombre fini: • calculez les intervalles de confiance • Données rares : • Attention à la répartition entre données d’apprentissage et données test. Validation croisée. • N’oubliez pas l’ensemble de validation • L’évaluation est très importante • Ayez l’esprit critique • Convainquez-vous vous même !
Problèmes particuliers • Distribution des exemples + / - très déséquilibrée (e.g. 1% ou 1%O ) • Existence de « zones grises » (étiquettes peu informées) • Tâche multi-objectif
Autres critères d’évaluation • Intelligibilité des résultats (hypothèses produites) • E.g. exit les réseaux de neurones • Performances en généralisation • Pas toujours en adéquation totale avec le point précédent • Coûts • de préparation (des données) • coût computationnel (e.g. coût d’une passe et nombre de passes nécessaires, …) • coût de l’expertise en apprentissage • coût de l’expertise sur le domaine
Références Littérature très vaste sur les tests statistiques • Dietterich, T. G., (1998). Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms. Neural Computation, 10 (7) 1895-1924. • Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3, 1157-1182.