1 / 107

CONTENU DU COURS

CONTENU DU COURS. CONTENU DU COURS. B. Algorithmes d’apprentissage: B.1 Introduction aux algorithmes d’apprentissage B.2 Apprentissage non-supervisé pour la catégorisation de vecteurs B.3 Apprentissage supervisé pour la classification de vecteurs

kiri
Download Presentation

CONTENU DU COURS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CONTENU DU COURS SYS828: Systèmes biométriques Éric Granger

  2. CONTENU DU COURS B. Algorithmes d’apprentissage: B.1 Introduction aux algorithmes d’apprentissage B.2 Apprentissage non-supervisé pour la catégorisation de vecteurs B.3 Apprentissage supervisé pour la classification de vecteurs B.4 Apprentissage supervisé pour la classification de séquences SYS828: Systèmes biométriques Éric Granger

  3. Sommaire – Section B.3 B.3 Apprentissage supervisé pour la catégorisation de vecteurs • réseaux de neurones ARTMAP • réseaux de neurones à fonctions de base radiale (RBF) • réseaux de neurones probabilistes (PNN) • machines à vecteurs de support (SVM) SYS828: Systèmes biométriques Éric Granger

  4. B.3(1) Réseaux ARTMAP Fondements – modèle ART • Taxonomie des réseaux ARTMAP: SYS828: Systèmes biométriques Éric Granger

  5. B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP • Modèle ARTMAP: famille de RNA classificateurs capables d’apprentissage rapide, en-ligne, supervisé, non-supervisé et incrémental SYS828: Systèmes biométriques Éric Granger

  6. B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP • Structure simplifiée d’un réseau ARTMAP: SYS828: Systèmes biométriques Éric Granger

  7. B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP • Description algorithmique – mode entraînement: • Initialisation des poids: fixer tous les poids Wab = 0 • Encodage d’un patron d’entrée: remise à la base du ρ • Choix de catégorie • Critère de vigilance • Prédiction d’une classe: • le code de réponse désirée t est transmise à Fab • fonction de prédiction: le patron y active la couche Fab via les poids Wab SYS828: Systèmes biométriques Éric Granger

  8. B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP • Description algorithmique – mode entraînement: • Prédiction d’une classe: (suite) • prédiction: • actif pour le neurone K correspondant à la prédiction (yKab= 1 et ykab= 0 pour k ≠ K) • si la prédiction K correspond à la réponse désirée, on procède à l’apprentissage (étape 6), sinon on effectue un ‘match tracking’ SYS828: Systèmes biométriques Éric Granger

  9. B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP • Description algorithmique – mode entraînement: • ‘match tracking’: • augmente ρ du fuzzy ART juste assez pour induire une recherche pour soit: • trouver un autre neurone commis de F2 qui prédit la classe désirée (étape 3) • créer un neurone non-commis de F2 pour apprendre la classe désirée (étape 6) SYS828: Systèmes biométriques Éric Granger

  10. B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP • Description algorithmique – mode entraînement: 6. Apprentissage: • mise à jour du prototype de J: le vecteur prototype wJ du neurone J est adapté selon: • création d’un nouveau lien associatif: si J vient d’être commis, on fixe wJKab = 1, où k = K est la réponse désiré Retour à l’étape 2 pour prendre une autre entrée SYS828: Systèmes biométriques Éric Granger

  11. B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP • Description algorithmique – mode test: Afin de prédire la classe liée à chaque patron d’entrée: • Encodage d’un patron d’entrée • Choix de catégorie • Prédiction d’une classe (sans tests) SYS828: Systèmes biométriques Éric Granger

  12. B.3(1) Réseaux ARTMAP Réseau ARTMAP-FD • Entraînement sur patrons de classes connues: patronsétiquette de classe A a a class #1 b bB class #2 C c C class #3 • Test sur patrons de classes connues et inconnues: patronsprédiction du classificateur A class #1 C class #3 Dclasse inconnue! SYS828: Systèmes biométriques Éric Granger

  13. B.3(1) Réseaux ARTMAP Réseau ARTMAP-FD • ARTMAP-FD: une extension de fuzzy ARTMAP qui permet de détecter des patrons qui appartiennent à de classes inconnues • pour chaque entrée a en mode test, on calcul la mesure de familiarité: Si patron déclaré connu (prédit une classe K) Si patron déclaré inconnu (aucune prédiction) SYS828: Systèmes biométriques Éric Granger

  14. X X X X X X 1 0 B.3(1) Réseaux ARTMAP Réseau ARTMAP-FD • Mesure simple du degré d’appartenance d’un patron à un hyper rectangle (catégorie): • φ(A) = 1 à l’intérieur, et φ(A) < 1 à l’extérieur a SYS828: Systèmes biométriques Éric Granger

  15. Sommaire – Section B.3 B.3 Apprentissage supervisé pour la classification de vecteurs • réseaux de neurones ARTMAP • réseaux de neurones à fonctions de base radiale (RBF) • réseaux de neurones probabilistes (PNN) • machines à vecteurs de support (SVM) SYS828: Systèmes biométriques Éric Granger

  16. B.3(2) Réseaux RBF • Qu’est ce qu’un réseau RBF? • fonctions à bases radiales – un domaine de recherche actif an analyse numérique depuis environ 1980 • solution au problème d’interpolation multi variable • approximation de fonctions dans des espaces multidimensionnels • réseau RBF – un réseau de neurone pour la classification et la régression (Broomhead et Low, 1988) • un réseau de neurones non-récurrent (‘feedforward’) à apprentissage supervisé • conception inspirée de méthodes d’interpolation qui exploitent les RBF SYS828: Systèmes biométriques Éric Granger

  17. B.3(2) Réseaux RBF • Méthodes d’interpolation: • Apprentissage: trouver une surface multidimensionnelle qui correspond le mieux avec les données d’entraînement • Généralisation: utiliser cette surface pour interpoler les données de test SYS828: Systèmes biométriques Éric Granger

  18. B.3(2) Réseaux RBF • Structure générale d’un réseau de neurones RBF: • couche cachée: transformation non linéaire x→ φ(x) • chaque neurone constitue une fonction cachée φ(x) (i.e., RBF) pour la transformation non linéaire des patrons d’entrée x • le nombre de neurones est généralement bien plus grand que le nombre de nœuds d’entrée • couche de sortie: transformation linéaire φ(x)→ y • combinaison linéaire des fonctions φ(x) pour produire une sortie SYS828: Systèmes biométriques Éric Granger

  19. B.3(2) Réseaux RBF Théorème sur la séparabilité de patrons (Cover, 1965) • Un problème de classification qui est transposé de façon non linéaire dans un espace de haute dimensionnalité a une plus grande probabilité d’être séparable qu’en basse dimensionnalité • Séparabilité – problème à 2 classes: • transpose x dans l’espace image de haute dimensionnalité avec des fonctions cachées φ(x) non-linéaires à valeur réelle: • le problème est ‘φ – séparable’ s’il existe un vecteur de paramètres w à m1 dimensions tel que: SYS828: Systèmes biométriques Éric Granger

  20. B.3(2) Réseaux RBF Théorème sur la séparabilité de patrons (Cover, 1965) • Exemple 2D– cas des fonctions cachées φpolynomiales: • classe de transformations obtenue à partir d’une combinaison linéaire des produits des coordonnées de x = (x1, x2) • variété d’ordre r : SYS828: Systèmes biométriques Éric Granger

  21. B.3(2) Réseaux RBF Théorème sur la séparabilité de patrons (Cover, 1965) • Exemple – cas des fonctions cachées Gaussiennes: problème XOR (linéairement non séparable) SYS828: Systèmes biométriques Éric Granger

  22. d x2 x1 B.3(2) Réseaux RBF Interpolation • Problème: étant donnée N patrons différents et les N réponses désirées correspondantes , trouvez une fonction qui satisfait: • La technique RBF consiste à utiliser une fonction de la forme: SYS828: Systèmes biométriques Éric Granger

  23. B.3(2) Réseaux RBF Interpolation • Théorème de Micchelli (1986): • Si est un ensemble de patrons distincts, alors la matrice N-par-N d’interpolation est non singulière (i.e., une solution existe). • Théorème de Light (1971): • Si est un ensemble de patrons distincts, une matrice d’interpolation avec éléments de la forme est positive et définie. SYS828: Systèmes biométriques Éric Granger

  24. B.3(2) Réseaux RBF Interpolation • RBF communes qui respectent le théorème de Light: • fonctions multi quadratiques: • fonctions multi quadratiques inverse: • fonctions Gaussiennes: SYS828: Systèmes biométriques Éric Granger

  25. B.3(2) Réseaux RBF Interpolation • Exemple en 1-D: données d’entraînement {(xi ,yi)} = {(-1, 1), (0, 2), (1, 1)} avec RBF multi quadratique: SYS828: Systèmes biométriques Éric Granger

  26. B.3(2) Réseaux RBF Interpolation • Selon les théorèmes de Michelli et Light, on peut résoudre: • mais, en pratique, on veut résoudre quand Φ est arbitrairement proche d’une matrice singulière • solutions: • théorie de régularisation (solution exacte) • réseau RBF généralisé (estimation) SYS828: Systèmes biométriques Éric Granger

  27. B.3(2) Réseaux RBF Régularisation • Problème avec l’interpolation stricte: • généralisation sur de nouvelles données → sur apprentissage • L’apprentissage peut être perçu comme un problème de reconstruction d’hyper surfaces: • problèmes directes vs inverses • Problèmes inverses sont soit bien ou mal posés: • un problème est bien posé ssi il respecte 3 conditions: • existe: il exister un y(x) pour chaque x • unique: y(x1) = y(x2) ssi x1 = x2 • continue: si dist(x1,x2) < δ(ε) implique dist(y(x1),y(x2)) < ε SYS828: Systèmes biométriques Éric Granger

  28. B.3(2) Réseaux RBF Régularisation • Problèmes inverses mal posés: • pas assez d’information dans TRAIN pour décrire un y(x) de façon unique (viole #2) • bruit/imprécisions dans TRAIN ajoute trop d’incertitude dans y(x): discontinuités (viole #3) • Solution possible: inclure de l’information a priori sur la transformation entrée-sortie y(x) • mais, le processus générateur de TRAIN doit être lisse et exhiber de la redondance SYS828: Systèmes biométriques Éric Granger

  29. B.3(2) Réseaux RBF Régularisation • Idée de base de la régularisation: • stabiliser la solution avec une fonctionnelle non négative qui intègre de l’information a priori sur la forme de la solution. • information a priori contient des contraintes de lissage sur y(x) • hypothèse sur la famille de fonctions qui décrit le phénomène qu’on cherche à approximer... SYS828: Systèmes biométriques Éric Granger

  30. B.3(2) Réseaux RBF Régularisation • Théorie de régularisation de Tikhonov: • terme d’erreur standard– distance entre y(xi) et di • terme de régularisation (stabilisateur) – dépend des propriétés géométriques de y(xi) • où P est unopérateur différentielle linéaire qui intègre l’information a priori sur la forme de la solution y(x) • fonction de coût totale à minimiser: SYS828: Systèmes biométriques Éric Granger

  31. B.3(2) Réseaux RBF Régularisation • paramètre de régularisation λ : • nombre positif réel qui indique si TRAIN est suffisant pour spécifier y(x) • si λ→ 0 , problème non-contrainte: y(x)est déterminée entièrement par TRAIN • si λ→ ∞, les contraintes de lissage imposées a priori par P sont suffisant pour spécifier y(x): TRAIN est non fiable • en pratique , alors les deux informations contribuent à la solution SYS828: Systèmes biométriques Éric Granger

  32. B.3(2) Réseaux RBF Réseau de régularisation • Une solution au problème de régularisation: [Poggio et Girosi, 1990] • somme pondérée de fonctions de Green, G(x;xi), centrées sur les xi de TRAIN: • l’approche par régularisation est équivalent à l’expansion de y(x)en termes d’un ensemble de fonctions de Green, spécifiée par la forme de P • le nombre de fonctions de Green est égal à |TRAIN| SYS828: Systèmes biométriques Éric Granger

  33. B.3(2) Réseaux RBF Réseau de régularisation • Détermination de coefficients wi: • est évaluées pour chaque patron de TRAIN, alors: • si on pose: et • en éliminant y, alors: SYS828: Systèmes biométriques Éric Granger

  34. B.3(2) Réseaux RBF Réseau de régularisation • Les fonctions G(x;xi), centrées à xi, sont spécifiées par la forme de P • si P est invariant aux rotations et aux translations, alors G(x;xi) dépend seulement de la norme Euclidienne du vecteur différence, alors: • sous ces conditions, G(x;xi) doit être une RBF, et la solution de régularisation doit prendre la forme: SYS828: Systèmes biométriques Éric Granger

  35. B.3(2) Réseaux RBF Réseau de régularisation • Exemple: fonctions Gaussiennes multi variables • correspondent à un opérateur différentiel P qui est invariants aux rotations et aux translations: • la solution au problème de régularisation prend la forme: qui consiste d’une superposition linéaire de Gaussiennes avec centres xi et avec dispersions σi SYS828: Systèmes biométriques Éric Granger

  36. Output layer Hidden layer of N Green’s functions Input Layer B.3(2) Réseaux RBF Réseau de régularisation • Réseau RBF de régularisation: • la sortie est la somme pondérée des sorties de la couche cachée SYS828: Systèmes biométriques Éric Granger

  37. B.3(2) Réseaux RBF Réseau de régularisation • Propriétés d’un réseau RBF de régularisation: [Poggio et Girosi, 1990] • approximateurs universels: ils peuvent approximer n’importe quelle fonction continue arbitrairement bien avec un nombre suffisant de neurones cachées: • étant donnée une fonction non linéaire inconnue f, il existe toujours un choix de coefficients w qui approxime f mieux que tout autre choix possible; • ses solutions sont optimales: il minimise la fonction de coût ε(y). • complexité de calculs:la correspondance des neurones cachées avec N patrons donne un réseau très coûteux • calcul des poids w est O(N3) car on doit inverser une matrice N-par-N • difficile à réaliser en pratique pour de grands N... SYS828: Systèmes biométriques Éric Granger

  38. B.3(2) Réseaux RBF Réseaux RBF généralisés • Un approximation de la solution régularisée: • solution sous optimale dans l’espace à dimension M < N, qui est alors moins coûteuse • on peut dériver un approximation avec la méthode de Galerkin’s [Poggio and Girosi, 1990]: car: où les centre ti et les poids wi sont à déterminer. SYS828: Systèmes biométriques Éric Granger

  39. Output layer Input Layer Hidden layer of of radial functions B.3(2) Réseaux RBF Réseaux RBF généralisés • Architecture générale: SYS828: Systèmes biométriques Éric Granger

  40. B.3(2) Réseaux RBF Réseaux RBF généralisés • Détermination des poids wi: • Un nouvelle fonction de coût: • la minimisation de cette fonction de coût en fonction du vecteur de poids donne: SYS828: Systèmes biométriques Éric Granger

  41. B.3(2) Réseaux RBF Réseaux RBF généralisés • il a été démontré que lorsque le paramètre λ → 0, le vecteur w converge vers une solution pseudo-inverse pour M ≤ N[Broomhead et Lowe, 1988]: SYS828: Systèmes biométriques Éric Granger

  42. B.3(2) Réseaux RBF Réseaux RBF généralisés • Comparaison entre réseaux RBF régularisés (exact) et généralisés (estimation): • le nombre de neurones de la couche cachée: • régularisation: N • généralisés: M ≤ N (selon la complexité du problème) • les paramètres inconnus: • régularisation: poids de la couche de sortie • généralisés: les poids de la couche de sortie et la position des centres SYS828: Systèmes biométriques Éric Granger

  43. B.3(2) Réseaux RBF Stratégies d’apprentissage • Structure générale d’un réseau RBF classificateur: • couche cachée: transformation non linéaire x→ φ (x) • couche de sortie: transformation linéaire φ(x)→ y (combinaison linéaire des fonctions cachées) SYS828: Systèmes biométriques Éric Granger

  44. B.3(2) Réseaux RBF Stratégies d’apprentissage • L’activation des neurones: • couche cachée: (j = 1, .., M) (dans le cas de RBF de forme Gaussienne) • couche de sortie: (par classe k) • superposition linéaire de RBF capables d’approximation universelle • Apprentissage: optimiser les centre μi, les dispersions σj et les poids wkj SYS828: Systèmes biométriques Éric Granger

  45. B.3(2) Réseaux RBF Stratégies d’apprentissage • Le processus d’apprentissage du réseau RBF généralisé comprend deux phases d’optimisation: • les neurones cachées – évoluent lentement selon une stratégie d’optimisation non linéaire • les poids de sortie – s’ajustent rapidement selon une stratégie d’optimisation linéaire SYS828: Systèmes biométriques Éric Granger

  46. B.3(2) Réseaux RBF Stratégies d’apprentissage • Plusieurs différentes stratégies d’apprentissage selon la façon dont les centres sont déterminés • Principales stratégies en littérature: • centres fixes, sélectionnés de façon aléatoire • centres obtenus par apprentissage non-supervisé • centres obtenus par apprentissage supervisé SYS828: Systèmes biométriques Éric Granger

  47. B.3(2) Réseaux RBF SYS828: Systèmes biométriques Éric Granger

  48. B.3(2) Réseaux RBF 1. centres fixes sélectionnés de façon aléatoire • Approche LMS –résoudre des équations linéaires pour dériver les poids wi de la couche de sortie: • méthode pseudo-inverse: • où G+ est la matrice pseudo-inverse de la matrice • Calcul de G+ par décomposition en valeur singulière • si G est une matrice réelle N-by-M, il existe deux matrices orthogonales et telle que • alors, la matrice avec matrice N-by-N SYS828: Systèmes biométriques Éric Granger

  49. Fixed input = +1 b(bias) Linear output neuron Input node Gaussian Function B.3(2) Réseaux RBF 1. centres fixes sélectionnés de façon aléatoire • Exemple: problème XOR (linéairement non séparable) , SYS828: Systèmes biométriques Éric Granger

  50. Input-Output Transformation Computed for XOR Problem Data Point,j Input Pattern, Desired Output, 1 (1,1) 0 2 (0,1) 1 3 (0,0) 0 4 (1,0) 1 B.3(2) Réseaux RBF 1. centres fixes sélectionnés de façon aléatoire SYS828: Systèmes biométriques Éric Granger

More Related