940 likes | 2.24k Views
Les SVM : Séparateurs à Vastes Marges (Support Vector Machines). Antoine Cornuéjols IIE & CNRS - Université de Paris-Sud, Orsay antoine@lri.fr http://www.lri.fr/~antoine. Plan. 1- Introduction à l’induction 2- Ingrédients de l’apprentissage supervisé 3- Les SVMs
E N D
Les SVM :Séparateurs à Vastes Marges(Support Vector Machines) Antoine Cornuéjols IIE & CNRS - Université de Paris-Sud, Orsay antoine@lri.fr http://www.lri.fr/~antoine
Plan 1- Introduction à l’induction 2- Ingrédients de l’apprentissage supervisé 3- Les SVMs 4- Applications 5- Bilan
Introduction à l’induction • Induction : Proposer des lois générales à partir de l’observation de cas particuliers
Types d’apprentissages • Apprentissage supervisé • Apprentissage non supervisé • Apprentissage par renforcement
Apprentissage supervisé (1) À partir d’un échantillon d’apprentissageS= {(xi, ui)}1,mchercher une loi de dépendance sous-jacente • Par exemple une fonction h (hypothèse) aussi proche que possible de f (fonction cible) tq : ui = f(xi) • Ou bien une distribution de probabilités P(xi, ui) afin de prédire l’avenir
Apprentissage supervisé (2) • Si f est une fonction continue • Régression • Estimation de densité • Si f est une fonction discrète • Classification • Si f est une fonction binaire(booléenne) • Apprentissage de concept
Apprentissage non supervisé D’un échantillon d’apprentissageS = {(xi)}1,mchercher des régularités sous-jacentes • Sous forme d’une fonction : régression • Sous forme de nuages de points (e.g. mixture de gaussiennes) • Sous forme d’un modèle complexe (e.g. réseau bayésien) afin de résumer, détecter des régularités, comprendre …
App. Supervisé : le scénario de base x1, x2, ..., xm Environnement X : distribution de prob. F(x) “Oracle” Sm = (x1,u1), (x2,u2), ..., (xm,um) y1, y2, ..., ym Apprenant : h (x) x1, x2, ..., xm
+/- ? - - - - + + + - + + - + + - - - X Espace des exemples : Apprendre prédiction dans X • Méthodes par plus proches voisins • Nécessité d’unenotion de distance • Hypothèse de continuité dans X
h x - - - - + + + - + + - + + - - - • Comment choisir l’espace des hypothèses (i.e. le langage LH) ? Apprendre = un jeu entre espaces • Cas particulier de l’apprentissage de concepts LH Espace des exemples : X Espace des hypothèses : H
LH - h x - - - + + + - + + - + + - - X - H • Quel critère inductif ? • Qu’est-ce qu’une hypothèse optimale étant donné l’échantillon d’apprentissage ? Le critère inductif
LH - h h x x - - ? ? - h + + x + - + + - + + - - X - H • Quelle méthode d’exploration de H ? L’exploration de H
Trois ingrédients : trois questions • Quel critère inductif ? • Quelle hypothèse devrait-on choisir étant donné l’échantillon d’apprentissage ? • Quel espace d’hypothèses ? • Quel espace d’hypothèses est approprié ? • Comment explorer l’espace des hypothèses ? • Résolution d’un problème d’optimisation
Critère de performance • Objectif : trouver une hypothèse hH minimisant le risque réel(espérance de risque, erreur en généralisation) Loi de probabilité jointe sur XY Fonction de perte Étiquette prédite Étiquette vraie (ou désirée)
Exemples de fonctions de perte • Discrimination • Régression • Estimation de densité
Les grands principes inductifs • Principe de minimisation du risque empirique (ERM) • Principe du maximum de vraisemblance (approche bayésienne) • Principe de compression maximale
(i) Le principe inductif ERM • On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y). • Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèsehH minimisant le risque empirique
(ii) Approche bayésienne • On suppose qu’il existe une distribution de probabilités a priori sur l’espace H : pH(h) Principe du Maximum A Posteriori(MAP): • On cherche l’hypothèse h la plus probable après observation des données S • Exemple : le 11 septembre 2001
(iii) Principe de compression maximale • Inspiration : la théorie du codage de l’information • Rasoir d’Occam • On suppose qu’il existe : • un coût associé à la transmission d’un codage (modèle des données) : L(h) • un coût associé à la transmission des données brutes (E.D. h) : L(x|h) • On cherche le modèle (ou l’hypothèse) permettant la transmission la plus économique de l’échantillon de données
Choix de l’espace d’hypothèses • Il faut contrôler l’expressivité de l’espace d’hypothèses • Analyse statistique de l’induction [Vapnik, …] Terme dépendant de la « richesse » de H
Définition d’un problème d’apprentissage • Des acteurs • L’environnement • L’oracle • L’apprenant • Une tâche d’apprentissage • Discrimination (ou classification multiclasses) / régression / estimation de densité • Un principe inductif • ERM (et dérivés) / Bayésien / compression d’information • Un espace d’hypothèses (avec sélection automatique) un protocole d’apprentissage • Choix d’une méthode d’apprentissage (et d’un algorithme)
Relation d’inclusion et relation de généralité • Vers la généralisation
La relation de généralité induite dans H Relation de généralité dans H induite parlarelation d'inclusion dans X
Le choix d’une méthode d’apprentissage Dépend fondamentalement de l’espace des hypothèses H • Structuré par une relation de généralité (ordre partiel) • Toutes les méthodes guidées par cette relation • Espace des versions • PLI (Programmation Logique Inductive) • EBL, reformulation, révision de théorie • Inférence grammaticale • Seulement une notion de voisinage dans H • Méthodes de « gradient » • Réseaux de neurones / SVMs • Recuit simulé / algorithmes d’évolution simulée • Réseaux bayésiens / HMMs • Pas d’espace d’hypothèses • Méthodes de plus proches voisins (Raisonnement par cas / Instance-based learning) h x H
Hyperplans séparateurs • Tâche de classification • Cas de la séparation linéaire - On cherche h sous forme d’une fonction linéaire : h(x) = w.x + b - La surface de séparation est donc l’hyperplan : - Elle est valide si - L’hyperplan est dit sous forme canonique lorsque ou encore
Optimisation de la marge • La distance d’un point à l’hyperplan est : • L’hyperplan optimal est celui pour lequel la distance aux points les plus proches (marge) est maximale. Cette distance vaut • Maximiser la marge revient donc à minimiser ||w|| sous contraintes:
EXPRESSION PRIMAIRE SVMs : un problème d’optimisation quadratique • Il faut donc déterminerwetw0minimisant : (afin de maximiser le pouvoir de généralisation) • sous les contraintes (hyperplan séparateur) :
Résolution de la forme primaire du problème d : dimension de l’espace d’entrée Il faut régler d + 1 paramètres • Possible quand d est assez petit avec des méthodes d'optimisation quadratique • Impossible quand d est grand (> qqs 103)
EXPRESSION DUALE Transformation du problème d’optimisation • Méthode des multiplicateurs de Lagrange • Problème dual
Propriétés de la forme duale • La conversion est possible car les fonctions de coût et les contraintes sont strictement convexes (Th. de Kuhn-Tucker) • La complexité du problème d'optimisation est • µm (taille de l'échantillon d'apprentissage) • et non µd( taille de l'espace d'entrée X ) • Possible d'obtenir des solutions pour des problèmes impliquant ≈ 105 exemples
* : estimé (xS,uS) étant n'importe quel point de support Solution du problème d’optimisation Propriété1 : seuls les i correspondant aux points les plus proches sont non-nuls. On parle de points de support(exemples critiques). Propriété 2 : seuls interviennent les produits scalaires entre les observations x dans le problème d’optimisation.
Problèmes non linéairement séparables dans X La majorité des problèmes !!! Idée : Si on projette dans un espace de redescription de très grande dimension ?? • Presque toujours le problème devient linéairement séparable Mais : • Fléau de la dimensionalité • dVC explose !!?
SVM et redescription Espace des représentations internes Espace d'entrées X Espace de sortie F h x y Séparation linéaire Redescription non linéaire
Petite digression … … La reconnaissance de chiffres manuscrits par réseaux de neurones (ATT Bell labs, 1993)
La redescription des entrées : illustration • Soit un espace d’entrée à 2 dimensions • Tout vecteur x = (x1, x2) peut être redécrit à l’aide de polynômes d’ordre 6 • Nouvel espace de descripteurs à 16 dimensions (fonctions de base):
Le nouveau problème d’optimisation • Soit : X -> (X), on peut remplacer partout x par (x) • Si est bien choisie, K(x, x’) = (x).(x’) peut être facile à calculer et le problème devient :
Solution du nouveau problème d’optimisation • La fonction de décision devient : • Soit dans la forme duale : n : nb de fcts de base (peut être très grand) mS : nb de points de support
Les conditions de Mercer • Si on prend une fonction K symétrique, il existe une fonction tq: • ssi, pour toute fonction f telle que : • l’on a : • Si cette condition est vérifiée, on peut appliquer les SVMs • MAIS cela ne dit pas comment construire
Fonctions noyau usuelles (1/2) • Polynomiale : Les polynomes de degré qont pour fonction noyau associée : • RBF : Les fcts à base radiale : ont pour fct noyau associée : • Sigmoïde : Les réseaux de neurones à fcts d'activation : ont pour fct noyau associée :
Fonctions noyau usuelles (2/2) • Construction à partir de fonctions noyau de base(Propriétés de clôture) • K(x,z) = K1(x,z) + K2(x,z) • K(x,z) = aK1(x,z) • K(x,z) = K1(x,z) . K2(x,z) • … • Construction de fonctions noyau dédiées • Splines Bm • Expansion de Fourrier • Ondelettes • ...
Les fonctions noyau • … encodent : • Une mesure de similarité sur les données • La forme fonctionnelle des fonctions de décision • Le type de régularisation réalisée • (ex : les fcts gaussiennes favorisent les solutions régulières) • Le type de covariance dans l’espace des entrées • (ex : fcts noyau invariantes par rotation) • Sorte de distribution de probabilité a priori sur l’espace des hypothèses
Illustration : le cas du XOR Fonction noyau polynomiale de d° 2 : K(x,x') = [1 + (xT . x')]2 soit : K(x,xi ) = 1 + x12xi12 + 2 x1x2xi1xi2 + x22xi22 + 2x1xi1 + 2x2xi2 correspondant à la projection F : [1, x12, √2 x1x2, x22, √2 x1, √2 x2 ] T
Illustration : le cas du XOR • L'optimisation de Q(a) en fonction des multiplicateurs de Lagrange conduit au système d'équations : • La valeur optimale des multiplicateurs de Lagrange est :
Illustration : le cas du XOR • Les 4 exemples sont donc des exemples critiques ("support vectors") (i , ai ≠ 0) • La fonction de décision s’écrit :
Illustration : le cas du XOR En revenant dans l’espace d’origine : Le vecteur poids optimal est : soit :
Illustration : le cas du XOR L'hyperplan optimal correspond à :