420 likes | 566 Views
Principes généraux de l’I NDUCTION. Antoine Cornuéjols. CNAM-IIE et L.R.I., Université de Paris-Sud, Orsay (France) antoine@lri.fr http://www.lri.fr/~antoine/. Cours 5. 1 & 2- Introduction à l’induction 3- Apprentissage et espace des versions 4- Réseaux de neurones multicouches
E N D
Principes généraux del’INDUCTION Antoine Cornuéjols CNAM-IIE et L.R.I., Université de Paris-Sud, Orsay (France) antoine@lri.fr http://www.lri.fr/~antoine/
Cours 5 1 & 2- Introduction à l’induction 3- Apprentissage et espace des versions 4- Réseaux de neurones multicouches 5-Analyse formelle de l’induction 6- Les SVM 7- Les arbres de décision 8- Le boosting 9 & 10- Apprentissage par renforcement
1- Quel niveau de description ? 1. Analyse de principe, de faisabilité sans référence à un algorithme particulier !! • Théories mathématiques en particulier de nature statistique 2. Niveau de la réalisation / simulation • Algorithmes • Programmes • Réalisations et tests empiriques
1- Le scénario de base x1, x2, ..., xm Environnement X : distribution de prob. F(x) “Oracle” Sm = (x1,u1), (x2,u2), ..., (xm,um) Apprenant : h (x) x1, x2, ..., xm y1, y2, ..., ym
1- Définition formelle du problème • Hypothèse : les données empiriques caractérisent une dépendance probabilisteP entre l’espace X des descriptions et l’espace Y des étiquettes • Z = (X, Y) : variable aléatoire sur (, B, P), où P est inconnue • S = {(x1,u1), (x2,u2), … (xm,um)} (XY)m • Échantillon d’apprentissage • Les observation sont i.i.d. suivant P • H : famille (éventuellement infinie) de fonctions h définies sur X • Objectif : prédire l’étiquette y connaissant l’observation x
1- L’objectif de l’induction • Objectif : trouver une hypothèse hH minimisant le risque réel (espérance de risque, erreur en généralisation) Loi de probabilité jointe sur XY Fonction de perte Étiquette prédite Étiquette vraie (ou désirée)
1- Exemples de fonctions de pertes • Discrimination • Régression • Estimation de densité
1- Les grands principes inductifs • Étant donnés: • un échantillon d’apprentissageSm • et un espace d’hypothèseH • Qu’est-ce qui caractérise la (les) meilleure(s) hypothèse(s) ? • Quelle hypothèse devrais-je chercher ? Le principe inductif
2.1- Le principe inductif ERM • On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y). • Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèsehH minimisant le risque empirique
2.2- Le principe ERM est-il pertinent ? • h* : hypothèse optimale dans H suivant le risque réel • hSm : hypothèse optimale dans H suivant le risque empirique mesuré sur l’échantillon Sm
2.2- Analyse du principe de minimisation du risque empirique • Rappel : a-t-on des garanties sur le risque réel lorsque l’on choisit l’hypothèse minimisant le risque empirique sur un échantillon Sm ?
3- Analyse statistique du principe ERM • Étude de la corrélation entre : et • Cette corrélation fait intervenir : • RRéel(hS) - RRéel(h*) nécessairement ≥ 0 (pourquoi ?) • La probabilité que cette différence soit supérieure à une borne donnée • car hS dépend de la représentativité de l’échantillon d’apprentissage Sm
3- Pertinence (consistance) du principe ERM • On dit que le principe ERM est pertinent (ou consistant) si le risque réel inconnu R(hS) et le risque empiriqueREmp(hS) convergent vers la même limite R(h*) lorsque la taille m de l’échantillon S tend vers .
3.1- Le cas de la discrimination : l’analyse PAC • Contexte : • Discrimination • Fonction de perte l : {0,1} • F = H • H : espace fini • L’apprentissage consiste alors à éliminer toutes les hypothèsesnon cohérentes avec les données et à en choisir une parmi les restantes Quelle est la probabilité qu’une hypothèse de risque empirique nul soit de fait de risque réel ≥ e ? (0 ≤ e ≤ 1)
3.2- Le cas de la discrimination : l’analyse PAC • Le risque réel d’une hypothèse herr est égal à la probabilité qu’un exemple tombe dans la zone d’erreur entre herr et la fonction cible f
3.2- Le cas de la discrimination : l’analyse PAC Raisonnement par l’absurde • Supposons une hypothèse de risque réel > e • Quelle est la probabilité que son risque empirique soit nul après observation d’un échantillon de m exemples tirés i.i.d. suivant la distribution DX ? • Après observation d’un exemple, la probabilité de « survie » de herr est : 1 - e • Après observation de m exemples i.i.d., elle est : (1 - e)m
3.2- Le cas de la discrimination : l’analyse PAC Quelle est la probabilité qu’une hypothèse au moins dans H « survive » ? • Événements disjoints : • Donc borné par : |H| (1 - e)m < | H | e-em • Il suffit donc d’avoir un échantillon de taille • pour que le risque réel de l’hypothèse hS minimisant le risque empirique soit borné par e avec une probabilité 1 - d
3.2- Le cas de la discrimination : l’analyse PAC Pourquoi PAC ? • Les hypothèses qui « survivent » sont approximativement correctes (à moins de e de la fonction cible) • Avec une certitude qui dépend de l’échantillon d’apprentissage tiré aléatoirement (taux 1 - d) • Probablement Approximativement Correct
3.3- Les leçons • La cardinalité de H (en un certain sens la « richesse » de H) intervient directement dans la borne d’erreur • Le raisonnement implique l’ensemble des hypothèsesH : argument de convergence uniforme • L’idée directrice de la démonstration consiste à borner la probabilité qu’une zone d’erreur de poids > e ne soit pas atteinte par un exemple au moins de l’échantillon d’apprentissage
3.4- Extension : l’analyse de Vapnik • Contexte : une généralisation • N’importe quel type de fonctions hypothèses • N’importe quel type de fonction de perte (> 0 et bornée) • F éventuellement ≠ H (apprentissage agnostique) • H : espace infini • Ici, on va cependant se limiter au cas de la discrimination • Risque empirique :
3.4- Extension : l’analyse de Vapnik • Définition (Fonction de croissance) : La fonction de croissance GH d’une famille Hde fonctions h à valeurs dans {0,1} associe à tout entier positif m le nombre maximal de dichotomies réalisées par les fonctions de H sur un ensemble de m points de X.
3.4- Extension : l’analyse de Vapnik • Théorème (Vapnik, 98) : Pour toute valeur de d dans ]0,1], simultanément pour toutes les fonctions h de H, avec une probabilité au moins de 1 - d, on a : Terme dépendant de la « richesse » de H
3.4- Extension : l’analyse de Vapnik • Problème angoissant : comment croît la fonction de croissance GH(m) ? • Si elle croît exponentiellement : il ne peut pas y avoir de garantie sur les hypothèses sélectionnées par l’apprentissage sur la base du risque empirique (ERM) !!! • Définition (Dimension de Vapnik-Chervonenkis, 1971)La dimension de Vapnik-Chervonenkis dVC(H) est le plus grand entier d vérifiant GH(d) = d, si un tel entier existe, l’infini sinon. Si la dimension de Vapnik-Chervonenkis est finie, elle correspond à la taille du plus grand sous-ensemble de Xpulvérisé par H.
3.4- Un lemme sauveur : le lemme de Sauer (1972) • Si H est de dimension de Vapnik-Chervonenkis finie dH = dVC(H), alors, pour m supérieur à dH, sa fonction de croissance est bornée :
3.4- Qu’est-ce que cela signifie ? • Cas de fonctions de discrimination et H = F • La convergence du risque empirique vers le risque réel est exponentiellement rapide, et ceci pour toutes les fonctions de H • E.g. la taille de l’échantillon suffisante pour que la probabilité ci-dessus soit bornée par d est : linéaire en dH !!
3.4- Le « take-home » message • Pour que le principe ERM soit pertinent, il faut que la dimension de Vapnik-Chervonenkis dH soit finie • Alors, l’erreur d’estimation entre RRéel(h) et REmp(h) converge vers 0 comme: • dans le cas général • dans le cas où H = F
3.5- Vers d’autres principes inductifs • Reconsidérons l’équation (valable pour la discrimination et H = F) • Plutôt que de chercher seulement l’hypothèse minimisant le risque empirique (valable seulement si m/dH très grand), il faut aussi tenir compte des caractéristiques de l’espace des hypothèses H, et chercher une hypothèse satisfaisant au mieux un compromis entre : • un risque empirique faible : bonne adéquation aux données • et un espace d’hypothèse d’expressivité bien réglée
3.5- Les méthodes par « sélection de modèles » • Méthodes cherchant à régler le compromis par réglage automatique de l’espace d’hypothèses (modèles) • Le SRM (Structural Risk Minimization) • La théorie de la régularisation • Le MDLp • Les approches bayésiennes
3.5- Le SRM • La procédure s’appuie sur une structure sur H définie a priori
3.5- La théorie de la régularisation • Issue de l’étude des problèmes « mal posés » (plusieurs solutions) • Il faut imposer des conditions supplémentaires • Contraindre l’espace des paramètres si H = {fonctions paramétrées} • Imposer des conditions de régularité (e.g. dynamique limitée) • …
3.5- Le MDLp (Minimum Description Length principle) • On suppose qu’il existe : • un coût associé à la transmission des données brutes (mesuré en bits) : L(x) • un coût associé à la transmission d’un codage (modèle des données) : L(h) • On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données
3.6- En d’autres mots … Notion de biais Toute connaissance qui restreint le champ des hypothèses que l'apprenant doit considérer à un instant donné. • Biais de représentation • On ne peut pas apprendre sans biais • Plus le biais est fort, plus l’apprentissage est facile • Bien choisir le biais • Biais de préférence • Dû au contrôle de la recherche • Critère de choix entre hypothèses • Simplicité, complétude, intelligibilité, facilité d’évaluation, ... • Dû au protocole • Stratégie éducative (si apprentissage incrémental)
3.6- En d’autres mots … Réponses qualitatives 1. De quelle information doit-on disposer ? • Compromis entre taille de l'échantillon d'apprentissage nécessaire ET "richesse" de l'espace d'hypothèses 1'. Quel principe inductif ? • Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en pariant que l'erreur sera également minimisée sur les exemples non vus • Un nouveau principe : minimiser à la fois • l'erreur sur l'échantillon d'apprentissage • ET une mesure de la richesse de H