1 / 80

Méthodes à noyaux et SVMs (Séparateurs à Vastes Marges)

Méthodes à noyaux et SVMs (Séparateurs à Vastes Marges). Antoine Cornuéjols Équipe TAO (INRIA/CNRS) - Université de Paris-Sud, Orsay & ENSIIE (Evry) antoine@lri.fr http://www.lri.fr/~antoine. Plan. 1- Induction 2- Méthodes à noyaux 2.1- Exemple de la régression

oakley
Download Presentation

Méthodes à noyaux et SVMs (Séparateurs à Vastes Marges)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Méthodes à noyauxetSVMs (Séparateurs à Vastes Marges) Antoine Cornuéjols Équipe TAO (INRIA/CNRS) - Université de Paris-Sud, Orsay & ENSIIE (Evry) antoine@lri.fr http://www.lri.fr/~antoine

  2. Plan 1- Induction 2- Méthodes à noyaux 2.1-Exemple de la régression 2.2-Fonctions noyau 3- Exemple d’algorithme à noyau : les SVMs 4- Mise en œuvre 5- Bilan

  3. Apprentissage inductif supervisé À partir de l’échantillon d’apprentissageS= {(xi, ui)}1,mon cherche à identifier une loi de dépendance sous-jacente • Par exemple une fonction h aussi proche possible de f (fonction cible) tq : ui = f(xi) • Ou bien de la distribution de probabilités P(xi, ui) afin de prédire l’avenir

  4. Apprentissage inductif supervisé • Identification : h « proche de » f • Prédiction : h « bonne règle de décision » Échantillon d’apprentissage

  5. x1, x2, ..., xm Environnement X : distribution de prob. P(x) “Oracle” Sm = (x1,u1), (x2,u2), ..., (xm,um) Apprenant : h (x) x1, x2, ..., xm y1, y2, ..., ym Cadre • Hypothèses fondamentales • Données i.i.d. • Distribution PXxU identique en apprentissage et après

  6. Mesure de performance : le risque réel Objectif : trouver une hypothèse hH minimisant le risque réel(espérance de risque, erreur en généralisation) Loi de probabilité jointe sur XY Fonction de perte Étiquette prédite Étiquette vraie (ou désirée)

  7. Le principe inductif ERM • On ne connaît pas la loi de probabilité PXxY. • Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèsehH minimisant le risque empirique

  8. ERM régularisé • Pour éviter le surapprentissage (« overfitting »)

  9. Exemple : régression linéaire

  10. Approximation par moindres carrés Représentation duale

  11. (Coefficient de régularisation) Ridge regression • Sin’est pas inversible • Pas assez de données • Bruit • Problème mal-posé Régularisation

  12. (Primale) Système de d équations linéaires à d inconnues : O(d3) Solution pour la « ridge regression » (Duale)

  13. Formule duale • L’information sur les exemples est entièrement contenue dans les produits scalaires (matrice de Gram G et les <xi , x>) • L’équation en a requiert O(m) opérations • Le calcul de h(x) requiert O(m l) opérations Provient directement des données

  14. Régression non linéaire • Idée : re-décrire les données dans un espace dans lequel la relation cherchée puisse avoir la forme d’une droite

  15. Régression non linéaire • Idée : re-décrire les données dans un espace dans lequel la relation cherchée puisse avoir la forme d’une droite • Expression primale : • Expression duale :

  16. Les fonctions noyau (kernel functions) • Fonctionktelle que : Espace de redescription muni d’un produit interne où :

  17. Les fonctions noyau : exemple • Rq (non unicité de l’espace F défini par F) : est une fonction noyau (le même noyau calcule le produit interne dans cet espace aussi)

  18. Les fonctions noyau • Efficacité computationnelle :

  19. Les méthodes à noyau • Modularité • Découplage entre • Les algorithmes (linéaires) • La description des données

  20. Petite digression … … La reconnaissance de chiffres manuscrits par réseaux de neurones (ATT Bell labs, 1993)

  21. Leçons (provisoires) L’emploi de fonctions noyau permet : • D’utiliser les algorithmes de recherche de régularités linéaires pour la recherche de régularités non linéaires • D’employer ces algorithmes même sur des données non vectorielles (du moment que l’on sait trouver une fonction noyau adéquate) • De redécrire implicitement les données dans des espaces de grande dimension sans en avoir le coût computationnel

  22. Les méthodes à noyaux Tout passe par les produits internes dans F !!! Philosophie de représentation des données radicalement différente

  23. Conséquences d’une représentation par noyau • Des informations sont perdues • Orientation (invariance de la matrice K par rotation) • Alignement des données avec les axes (idem)

  24. Les fonctions noyau : définition • Fonction noyau positive définie • Symétrique : • Positive définie : • Théorème de Mercer • Toute fonction positive définie peut être exprimée comme un produit interne dans un espace de description

  25. Si tous les points sont de même « longueur » dans F, ( ), alors le noyau est une fonction décroissante de d. Inversement : Fonctions noyau et similarité • k(x, z) grand xsimilaire à z • Évident pour le noyau gaussien : • Plus généralement :

  26. Fonctions noyau pour des vecteurs • Noyaux polynomiaux Tous les produits d’exactement d variables Tous les produits d’au plus d variables • Noyaux gaussiens Sorte de décomposition en série de Fourrier • Noyaux sigmoïdes Pas définie positive. Mais fonction de décision proche des réseaux connexionnistes

  27. Les SVMs (Séparateurs à Vastes Marges) • Tâche de discrimination (entre deux classes) • Cas de la séparation linéaire - On cherche h sous forme d’une fonction linéaire : h(x) = w. x + b - La surface de séparation est donc l’hyperplan : - Elle est valide si - L’hyperplan est dit sous forme canonique lorsque ou encore

  28. Hyperplan de plus vaste marge

  29. Optimisation de la marge

  30. EXPRESSION PRIMALE Optimisation de la marge • La distance d’un point à l’hyperplan est : • L’hyperplan optimal est celui pour lequel la distance aux points les plus proches (marge) est maximale. Cette distance vaut • Maximiser la marge revient donc à minimiser ||w|| sous contraintes:

  31. Remarques sur la justification de ce critère inductif • Intuitivement satisfaisant • Si il y a du bruit dans les données, le séparateur à marge maximale sera plus robuste • Risque empirique régularisé • Satisfaire les données : • Régulariser : Min ( )

  32. EXPRESSION DUALE Transformation du problème d’optimisation • Méthode des multiplicateurs de Lagrange

  33. Espace d’hypothèses de norme bornée • Fonction de perte (hinge loss) • Alors : Complexité de Rademacher de Justification impliquant la fonction noyau • Norme du vecteur de poids Avec prob ≥ 1-d

  34. Morale • Les données s’expriment à travers la matrice noyau • La matrice noyau contrôle la régularisation du risque

  35. Solution du problème d’optimisation dual • Dans la forme duale : mS : nb de points de support

  36. Schéma de fonctionnement des SVMs

  37. Cas du problème non séparable : marges douces • On introduit des variables “ressort” qui pénalisent l’erreur commise : • Le problème dual a la même forme à l’exception d’une constante C

  38. 2 4 5 6 1 Illustration • Soient 5 points sur la droite : {(x1=1, u1 =1), (x2=2, u2= 2), (x3= 4, u3= -1), (x4= 5, u4 = -1), (x5= 6, u5= 1)} • Utilisation d’un noyau polynomial de degré 2 • k(xi, xj) = (xixj + 1)2 • C = 100 • Recherche de ai par :

  39. Illustration • Utilisation d’un programme de résolution de problème quadratique • a1=0, a2=2.5, a3=0, a4=7.333, a5=4.833 • Les points de supports sont : { x2=2, x4= 5, x5= 6} • La fonction de décision est : • h(x) = (2.5)(1)(2x+1)2 + 7.333(1)(5x+1)2 + 4.833(1)(6x+1)2+b = 0.6667 x2 - 5.333 x + b • Avec b obtenue par h(2)=1 ou par h(5)=-1 ou par h(6)=1, puisque x2, x4 et x5 sont sur la droite ui(wTF(x)+b)=1ce qui donne b=9 • D’où : h(x) = 0.6667 x2 - 5.333 x + 9

  40. Illustration Valeur de la fonction discriminante classe 1 classe 1 classe 2 1 2 4 5 6 {x=2, x=5, x=6} sont points supports

  41. Illustration : le cas du XOR

  42. Illustration : le cas du XOR Fonction noyau polynomiale de d° 2 : K(x,x') = [1 + (xT . x')]2 soit : K(x,xi ) = 1 + x12xi12 + 2 x1x2xi1xi2 + x22xi22 + 2x1xi1 + 2x2xi2 correspondant à la projection F : [1, x12, √2 x1x2, x22, √2 x1, √2 x2 ] T

  43. Illustration : le cas du XOR Ici :

  44. Illustration : le cas du XOR • L'optimisation de Q(a) en fonction des multiplicateurs de Lagrange conduit au système d'équations : • La valeur optimale des multiplicateurs de Lagrange est :

  45. Illustration : le cas du XOR • Les 4 exemples sont donc des exemples critiques ("support vectors") • La valeur optimale de Q(a) est : • Et : soit :

  46. Illustration : le cas du XOR • Les 4 exemples sont donc des exemples critiques ("support vectors") (i , ai ≠ 0) • La fonction de décision s’écrit :

  47. Illustration : le cas du XOR En revenant dans l’espace d’origine : Le vecteur poids optimal est : soit :

  48. Illustration : le cas du XOR L'hyperplan optimal correspond à :

  49. Illustration : le cas du XOR Séparatrice dans l'espace d'entrée D(x) = -x1x2 Séparatrice dans l'espace F(X) (espace à 6 dimensions)

  50. La mise en pratique • Il faut choisir : • Le type de fonction noyau k • Sa forme • Ses paramètres • La valeur de la constante C • La sélection de ces paramètres requiert l’utilisation de méthodes empiriques pour faire le meilleur choix (validation croisée)

More Related