1.1k likes | 1.37k Views
CONTENU DU COURS. CONTENU DU COURS. B. Algorithmes d’apprentissage: B.1 Introduction aux algorithmes d’apprentissage B.2 Apprentissage non-supervisé pour la catégorisation de vecteurs B.3 Apprentissage supervisé pour la classification de vecteurs
E N D
CONTENU DU COURS SYS828: Systèmes biométriques Éric Granger
CONTENU DU COURS B. Algorithmes d’apprentissage: B.1 Introduction aux algorithmes d’apprentissage B.2 Apprentissage non-supervisé pour la catégorisation de vecteurs B.3 Apprentissage supervisé pour la classification de vecteurs B.4 Apprentissage supervisé pour la classification de séquences SYS828: Systèmes biométriques Éric Granger
Sommaire – Section B.3 B.3 Apprentissage supervisé pour la catégorisation de vecteurs • réseaux de neurones ARTMAP • réseaux de neurones à fonctions de base radiale (RBF) • réseaux de neurones probabilistes (PNN) • machines à vecteurs de support (SVM) SYS828: Systèmes biométriques Éric Granger
B.3(1) Réseaux ARTMAP Fondements – modèle ART • Taxonomie des réseaux ARTMAP: SYS828: Systèmes biométriques Éric Granger
B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP • Modèle ARTMAP: famille de RNA classificateurs capables d’apprentissage rapide, en-ligne, supervisé, non-supervisé et incrémental SYS828: Systèmes biométriques Éric Granger
B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP • Structure simplifiée d’un réseau ARTMAP: SYS828: Systèmes biométriques Éric Granger
B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP • Description algorithmique – mode entraînement: • Initialisation des poids: fixer tous les poids Wab = 0 • Encodage d’un patron d’entrée: remise à la base du ρ • Choix de catégorie • Critère de vigilance • Prédiction d’une classe: • le code de réponse désirée t est transmise à Fab • fonction de prédiction: le patron y active la couche Fab via les poids Wab SYS828: Systèmes biométriques Éric Granger
B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP • Description algorithmique – mode entraînement: • Prédiction d’une classe: (suite) • prédiction: • actif pour le neurone K correspondant à la prédiction (yKab= 1 et ykab= 0 pour k ≠ K) • si la prédiction K correspond à la réponse désirée, on procède à l’apprentissage (étape 6), sinon on effectue un ‘match tracking’ SYS828: Systèmes biométriques Éric Granger
B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP • Description algorithmique – mode entraînement: • ‘match tracking’: • augmente ρ du fuzzy ART juste assez pour induire une recherche pour soit: • trouver un autre neurone commis de F2 qui prédit la classe désirée (étape 3) • créer un neurone non-commis de F2 pour apprendre la classe désirée (étape 6) SYS828: Systèmes biométriques Éric Granger
B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP • Description algorithmique – mode entraînement: 6. Apprentissage: • mise à jour du prototype de J: le vecteur prototype wJ du neurone J est adapté selon: • création d’un nouveau lien associatif: si J vient d’être commis, on fixe wJKab = 1, où k = K est la réponse désiré Retour à l’étape 2 pour prendre une autre entrée SYS828: Systèmes biométriques Éric Granger
B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP • Description algorithmique – mode test: Afin de prédire la classe liée à chaque patron d’entrée: • Encodage d’un patron d’entrée • Choix de catégorie • Prédiction d’une classe (sans tests) SYS828: Systèmes biométriques Éric Granger
B.3(1) Réseaux ARTMAP Réseau ARTMAP-FD • Entraînement sur patrons de classes connues: patronsétiquette de classe A a a class #1 b bB class #2 C c C class #3 • Test sur patrons de classes connues et inconnues: patronsprédiction du classificateur A class #1 C class #3 Dclasse inconnue! SYS828: Systèmes biométriques Éric Granger
B.3(1) Réseaux ARTMAP Réseau ARTMAP-FD • ARTMAP-FD: une extension de fuzzy ARTMAP qui permet de détecter des patrons qui appartiennent à de classes inconnues • pour chaque entrée a en mode test, on calcul la mesure de familiarité: Si patron déclaré connu (prédit une classe K) Si patron déclaré inconnu (aucune prédiction) SYS828: Systèmes biométriques Éric Granger
X X X X X X 1 0 B.3(1) Réseaux ARTMAP Réseau ARTMAP-FD • Mesure simple du degré d’appartenance d’un patron à un hyper rectangle (catégorie): • φ(A) = 1 à l’intérieur, et φ(A) < 1 à l’extérieur a SYS828: Systèmes biométriques Éric Granger
Sommaire – Section B.3 B.3 Apprentissage supervisé pour la classification de vecteurs • réseaux de neurones ARTMAP • réseaux de neurones à fonctions de base radiale (RBF) • réseaux de neurones probabilistes (PNN) • machines à vecteurs de support (SVM) SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF • Qu’est ce qu’un réseau RBF? • fonctions à bases radiales – un domaine de recherche actif an analyse numérique depuis environ 1980 • solution au problème d’interpolation multi variable • approximation de fonctions dans des espaces multidimensionnels • réseau RBF – un réseau de neurone pour la classification et la régression (Broomhead et Low, 1988) • un réseau de neurones non-récurrent (‘feedforward’) à apprentissage supervisé • conception inspirée de méthodes d’interpolation qui exploitent les RBF SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF • Méthodes d’interpolation: • Apprentissage: trouver une surface multidimensionnelle qui correspond le mieux avec les données d’entraînement • Généralisation: utiliser cette surface pour interpoler les données de test SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF • Structure générale d’un réseau de neurones RBF: • couche cachée: transformation non linéaire x→ φ(x) • chaque neurone constitue une fonction cachée φ(x) (i.e., RBF) pour la transformation non linéaire des patrons d’entrée x • le nombre de neurones est généralement bien plus grand que le nombre de nœuds d’entrée • couche de sortie: transformation linéaire φ(x)→ y • combinaison linéaire des fonctions φ(x) pour produire une sortie SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Théorème sur la séparabilité de patrons (Cover, 1965) • Un problème de classification qui est transposé de façon non linéaire dans un espace de haute dimensionnalité a une plus grande probabilité d’être séparable qu’en basse dimensionnalité • Séparabilité – problème à 2 classes: • transpose x dans l’espace image de haute dimensionnalité avec des fonctions cachées φ(x) non-linéaires à valeur réelle: • le problème est ‘φ – séparable’ s’il existe un vecteur de paramètres w à m1 dimensions tel que: SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Théorème sur la séparabilité de patrons (Cover, 1965) • Exemple 2D– cas des fonctions cachées φpolynomiales: • classe de transformations obtenue à partir d’une combinaison linéaire des produits des coordonnées de x = (x1, x2) • variété d’ordre r : SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Théorème sur la séparabilité de patrons (Cover, 1965) • Exemple – cas des fonctions cachées Gaussiennes: problème XOR (linéairement non séparable) SYS828: Systèmes biométriques Éric Granger
d x2 x1 B.3(2) Réseaux RBF Interpolation • Problème: étant donnée N patrons différents et les N réponses désirées correspondantes , trouvez une fonction qui satisfait: • La technique RBF consiste à utiliser une fonction de la forme: SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Interpolation • Théorème de Micchelli (1986): • Si est un ensemble de patrons distincts, alors la matrice N-par-N d’interpolation est non singulière (i.e., une solution existe). • Théorème de Light (1971): • Si est un ensemble de patrons distincts, une matrice d’interpolation avec éléments de la forme est positive et définie. SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Interpolation • RBF communes qui respectent le théorème de Light: • fonctions multi quadratiques: • fonctions multi quadratiques inverse: • fonctions Gaussiennes: SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Interpolation • Exemple en 1-D: données d’entraînement {(xi ,yi)} = {(-1, 1), (0, 2), (1, 1)} avec RBF multi quadratique: SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Interpolation • Selon les théorèmes de Michelli et Light, on peut résoudre: • mais, en pratique, on veut résoudre quand Φ est arbitrairement proche d’une matrice singulière • solutions: • théorie de régularisation (solution exacte) • réseau RBF généralisé (estimation) SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Régularisation • Problème avec l’interpolation stricte: • généralisation sur de nouvelles données → sur apprentissage • L’apprentissage peut être perçu comme un problème de reconstruction d’hyper surfaces: • problèmes directes vs inverses • Problèmes inverses sont soit bien ou mal posés: • un problème est bien posé ssi il respecte 3 conditions: • existe: il exister un y(x) pour chaque x • unique: y(x1) = y(x2) ssi x1 = x2 • continue: si dist(x1,x2) < δ(ε) implique dist(y(x1),y(x2)) < ε SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Régularisation • Problèmes inverses mal posés: • pas assez d’information dans TRAIN pour décrire un y(x) de façon unique (viole #2) • bruit/imprécisions dans TRAIN ajoute trop d’incertitude dans y(x): discontinuités (viole #3) • Solution possible: inclure de l’information a priori sur la transformation entrée-sortie y(x) • mais, le processus générateur de TRAIN doit être lisse et exhiber de la redondance SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Régularisation • Idée de base de la régularisation: • stabiliser la solution avec une fonctionnelle non négative qui intègre de l’information a priori sur la forme de la solution. • information a priori contient des contraintes de lissage sur y(x) • hypothèse sur la famille de fonctions qui décrit le phénomène qu’on cherche à approximer... SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Régularisation • Théorie de régularisation de Tikhonov: • terme d’erreur standard– distance entre y(xi) et di • terme de régularisation (stabilisateur) – dépend des propriétés géométriques de y(xi) • où P est unopérateur différentielle linéaire qui intègre l’information a priori sur la forme de la solution y(x) • fonction de coût totale à minimiser: SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Régularisation • paramètre de régularisation λ : • nombre positif réel qui indique si TRAIN est suffisant pour spécifier y(x) • si λ→ 0 , problème non-contrainte: y(x)est déterminée entièrement par TRAIN • si λ→ ∞, les contraintes de lissage imposées a priori par P sont suffisant pour spécifier y(x): TRAIN est non fiable • en pratique , alors les deux informations contribuent à la solution SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Réseau de régularisation • Une solution au problème de régularisation: [Poggio et Girosi, 1990] • somme pondérée de fonctions de Green, G(x;xi), centrées sur les xi de TRAIN: • l’approche par régularisation est équivalent à l’expansion de y(x)en termes d’un ensemble de fonctions de Green, spécifiée par la forme de P • le nombre de fonctions de Green est égal à |TRAIN| SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Réseau de régularisation • Détermination de coefficients wi: • est évaluées pour chaque patron de TRAIN, alors: • si on pose: et • en éliminant y, alors: SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Réseau de régularisation • Les fonctions G(x;xi), centrées à xi, sont spécifiées par la forme de P • si P est invariant aux rotations et aux translations, alors G(x;xi) dépend seulement de la norme Euclidienne du vecteur différence, alors: • sous ces conditions, G(x;xi) doit être une RBF, et la solution de régularisation doit prendre la forme: SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Réseau de régularisation • Exemple: fonctions Gaussiennes multi variables • correspondent à un opérateur différentiel P qui est invariants aux rotations et aux translations: • la solution au problème de régularisation prend la forme: qui consiste d’une superposition linéaire de Gaussiennes avec centres xi et avec dispersions σi SYS828: Systèmes biométriques Éric Granger
Output layer Hidden layer of N Green’s functions Input Layer B.3(2) Réseaux RBF Réseau de régularisation • Réseau RBF de régularisation: • la sortie est la somme pondérée des sorties de la couche cachée SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Réseau de régularisation • Propriétés d’un réseau RBF de régularisation: [Poggio et Girosi, 1990] • approximateurs universels: ils peuvent approximer n’importe quelle fonction continue arbitrairement bien avec un nombre suffisant de neurones cachées: • étant donnée une fonction non linéaire inconnue f, il existe toujours un choix de coefficients w qui approxime f mieux que tout autre choix possible; • ses solutions sont optimales: il minimise la fonction de coût ε(y). • complexité de calculs:la correspondance des neurones cachées avec N patrons donne un réseau très coûteux • calcul des poids w est O(N3) car on doit inverser une matrice N-par-N • difficile à réaliser en pratique pour de grands N... SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Réseaux RBF généralisés • Un approximation de la solution régularisée: • solution sous optimale dans l’espace à dimension M < N, qui est alors moins coûteuse • on peut dériver un approximation avec la méthode de Galerkin’s [Poggio and Girosi, 1990]: car: où les centre ti et les poids wi sont à déterminer. SYS828: Systèmes biométriques Éric Granger
Output layer Input Layer Hidden layer of of radial functions B.3(2) Réseaux RBF Réseaux RBF généralisés • Architecture générale: SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Réseaux RBF généralisés • Détermination des poids wi: • Un nouvelle fonction de coût: • la minimisation de cette fonction de coût en fonction du vecteur de poids donne: SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Réseaux RBF généralisés • il a été démontré que lorsque le paramètre λ → 0, le vecteur w converge vers une solution pseudo-inverse pour M ≤ N[Broomhead et Lowe, 1988]: SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Réseaux RBF généralisés • Comparaison entre réseaux RBF régularisés (exact) et généralisés (estimation): • le nombre de neurones de la couche cachée: • régularisation: N • généralisés: M ≤ N (selon la complexité du problème) • les paramètres inconnus: • régularisation: poids de la couche de sortie • généralisés: les poids de la couche de sortie et la position des centres SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Stratégies d’apprentissage • Structure générale d’un réseau RBF classificateur: • couche cachée: transformation non linéaire x→ φ (x) • couche de sortie: transformation linéaire φ(x)→ y (combinaison linéaire des fonctions cachées) SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Stratégies d’apprentissage • L’activation des neurones: • couche cachée: (j = 1, .., M) (dans le cas de RBF de forme Gaussienne) • couche de sortie: (par classe k) • superposition linéaire de RBF capables d’approximation universelle • Apprentissage: optimiser les centre μi, les dispersions σj et les poids wkj SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Stratégies d’apprentissage • Le processus d’apprentissage du réseau RBF généralisé comprend deux phases d’optimisation: • les neurones cachées – évoluent lentement selon une stratégie d’optimisation non linéaire • les poids de sortie – s’ajustent rapidement selon une stratégie d’optimisation linéaire SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF Stratégies d’apprentissage • Plusieurs différentes stratégies d’apprentissage selon la façon dont les centres sont déterminés • Principales stratégies en littérature: • centres fixes, sélectionnés de façon aléatoire • centres obtenus par apprentissage non-supervisé • centres obtenus par apprentissage supervisé SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF SYS828: Systèmes biométriques Éric Granger
B.3(2) Réseaux RBF 1. centres fixes sélectionnés de façon aléatoire • Approche LMS –résoudre des équations linéaires pour dériver les poids wi de la couche de sortie: • méthode pseudo-inverse: • où G+ est la matrice pseudo-inverse de la matrice • Calcul de G+ par décomposition en valeur singulière • si G est une matrice réelle N-by-M, il existe deux matrices orthogonales et telle que • alors, la matrice avec matrice N-by-N SYS828: Systèmes biométriques Éric Granger
Fixed input = +1 b(bias) Linear output neuron Input node Gaussian Function B.3(2) Réseaux RBF 1. centres fixes sélectionnés de façon aléatoire • Exemple: problème XOR (linéairement non séparable) , SYS828: Systèmes biométriques Éric Granger
Input-Output Transformation Computed for XOR Problem Data Point,j Input Pattern, Desired Output, 1 (1,1) 0 2 (0,1) 1 3 (0,0) 0 4 (1,0) 1 B.3(2) Réseaux RBF 1. centres fixes sélectionnés de façon aléatoire SYS828: Systèmes biométriques Éric Granger