310 likes | 426 Views
Réseaux de neurones à base radiale. Introduction. Une fonction de base radiale (FBR) dépend de manière non croissante de la distance entre la variable indépendante et un vecteur de référence.
E N D
Introduction • Une fonction de base radiale (FBR) dépend de manière non croissante de la distance entre la variable indépendante et un vecteur de référence. • Les FBRs représentent des récepteurs locaux; dans la figure, chaque point vert est un vecteur de référence pour une FBR. • Un réseau à base radiale contient une couche cachée constituée de FBRs. Une unité de sortie réalise la combinaison linéaire de leurs sorties. w3 Les coordonnées du point noir sont “interpolées” à l’aide de celles des trois points verts, dont la contribution individuelle de chacun dépend de sa distance du point noir et de son poids w. Dans l’illustration : w2 w1
x1 w1 x2 y wm1 xm Architecture RBR • Couche cachée : fonction d’activation/sortie FBR Sont généralement des gaussiennes • Unité de sortie : fonction d’activation/sortie linéaire. Couche de sortie ; combinateur linéaire. Peut être suivi d’une fonction de sortie au besoin Couche cachée ; les « poids » sont les coordonnées des centres des FBR Couche tampon
Modèle des unitéscachées • Unités cachées : Utilisent des FBR La sortie dépend de la distance entre L’entrée x et le centre t φ( || x - t||) x1 • φ( || x - t||) • t est le centre • est l’étendue • t et sont à déterminer x2 xm
petit grand Propriétés des unités cachées • Un neurone caché est plus sensible aux entrées situées proche de son centre. • Pour un FBR de type gaussien, la sensibilité est réglée à l’aide du paramètre d’étendue, pour lequel une valeur plus grande signifie moins de sensibilité. • Plausibilité biologique: Les cellules cochléaires stéréociliaires du système auditif possèdent des réponses qui sont optimales pour des bandes de fréquences données. centre
Différentessortes de FBR • Multiquadriques • Multiquadriques inverses • Gaussiennes (les plus utilisées)
f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f(.) Illustration du rôle de la couche cachée
x2 (0,1) (1,1) 0 1 y x1 (0,0) (1,0) Exemple: le problème du OU-X • Espace simuli (problème) : • Espace réseau (solution) : • Construire un classifieur RBR tel que : (0,0) et (1,1) sont projetés sur 0 (classe C1) (1,0) et (0,1) sont projetés sur 1 (classe C2)
x1 t1 φ2 -1 (0,0) Frontière de décision 1.0 y x2 t2 -1 0.5 (1,1) +1 1.0 φ1 0.5 (0,1) et (1,0) le problème du OU-X (2) • Dans l’espace des traits (couche cachée) : • Une fois projetées dans la couche cachée, C1 and C2deviennent linéairement séparables, permettant au classifieur linéaire à la sortie de prendre 1(x) and 2(x) comme entrées et donner la bonne sortie OU-X.
Paramètres d’un réseau RBR • Quedoit-on connaître (apprendre) pour un réseau RBR donné? • Le nombre de FBR • Les centres desFBR • Les étendues des FBR • Les poids entre la couchecachée et la couche de sortie • Plusieursalgorithmesd’apprentissagesontpossibles
Algorithmed’apprentissage 1 • Centres : sélectionnés aléatoirement • Les centres sont choisis aléatoirement en partant de l’ensemble d’apprentissage • Étendues: déterminées par normalization: • La fontion d’activation/sortie d’un neurone caché i est alors :
Algorithmed’apprentissage 1 • Poids:Déterminés par la méthode de la matrice pseudo-inverse: • Considérons la sortie du réseau pour la paire d’apprentissage: • Nous voulons avoir pour chaque xi :
Algorithmed’apprentissage 1 • On peut réécrire les équations précédentes : pour un exemple d’apprentissage xi donné, et pour tous les exemples simultanément
Algorithmed’apprentissage 1 Si on pose Alors on a : et où est la matrice pseudo-inverse de
Principe du pseudo inverse • Soit un vecteurX = (X1…Xp) et une relation linéaire : • Règle des moindrescarrés : min
Résumé de l’algorithme Choisir les centres aléatoirement à partir de l’ensemble d’apprentissage. Déterminer les étendues des FBR en utilisant la méthode de normalisation. Trouver les poids de sortie en utilisant la méthode de la pseudo-inverse.
Algorithmed’apprentissage 2 • Centres : déterminés par un l’algorithme de groupement des k moyennesadaptatif • Initialisation: tk(0) aléatoire k = 1, …, m1 • Échantillonnage: on tire x dansl’espaced’apprentissage • Appariement par similarité: trouverl’index du centre le plus proche de x • Mise à jour : adaptation des centres • Continuation: n=n+1, aller à 2 et continuer jusqu’àceque les centres se stabilisent (changentpeu).
Algorithme d’apprentissage 2 • Étendues : déterminés par un algorithme basés sur les plus P plus proches voisins • Un nombre P est choisi, et pour chaque centre, les P centres les plus proches sont déterminés. • La distance quadratique moyenne entre le centre courant et les centres de ses P plus proches voisins est calculée, et est utilisée comme valeur de . Si le centre du groupe courant est cj, la valeur de est : Une valeur typique pour P est 2, auquel cas est la distance moyenne entre les deux plus proches centroÍdes voisins.
Résumé de l’algorithme • Processus d’apprentissage hybride: • Algorithme de groupement pour trouver lescentres. • Étenduefixée par normalisation des distances entre P plus proches voisins. • Poidsdéterminés par un algorithme de moindres carrés (e.g. Adaline)
Algorithme d’apprentissage 3 • Appliquer la technique de descente de gradient pour trouver aussi bien les centres, les étendues et les poids, de manière à minimiser l’erreur quadratique Centres Étendues Poids
ComparaisonRBR-PMC • Tous les deux approximateurs universels de fonctions L2. • Réseaux non récurrents à couches multiples. • RBR surtout utilisé pour la régression et la classification binaire. • RBR apprend plus vite que PMC • La couche cachée RBR est souvent plus facile à interpréter que celle d’un PMC • Après apprentissage, les réseaux RBR sont généralement plus lents en phase de rappel.
ComparaisonRBR-PMC • PMC peut posséder plus d’une couche cachée. • Dans PMC, le modèle de neurone dans les différentes couches peut être le même. • Dans PMC, toutes les couches peuvent être non-lineaires. • Architecture: • RBR possèdeune seulecouche cachée. • Modèle de neurone: • Dans RBR, le modèle des neurones cachés estdifférentde celui des neurones de sortie. • La couche cachée dans RBR estnon-linéaire, celle de sortie estlinéaire.
ComparaisonRBR-PMC • Fonctions de sortie : • Dans RBR, l’argument d’une FBR de la couche cachée est ladistance(euclidienne ou autre) entre un vecteur d’entrée et le centre de l’unité. • Dans PMC, l’argument d’un neurone caché est le produit scalaire d’un vecteur d’entrée et du vecteur des poids synaptiques qui alimentent le neurone. • Approximation: • Les réseaux RBR construisent généralement une approximationlocale de projections non-linéaires. Peuvent demander plus de ressources mais mènent à des représententations terses et linéairement decodables. • Les réseaux PMC construisent une approximation globale des mêmes projections. Peuvent êter difficiles à interpréter.
Application: Reconnaissance de visages • Le problème : • Reconnaitre des visages de personnes faisant partie d’un groupe dans un environnement intérieur. • L’approche: • Apprendre les différentes classes, chacune représentant des poses diverses d’un même visage en utilisant un réseau RBR.
Données • Base de données • 100 images de 10 personnes (tons de gris sur 8 bits, résolution de 384 x 287) • Pour chaque individu, 10 images de la tête vue de face et de profil • Conçue pour évaluer la performance de techniques de reconnaissance du visage en présence de variations de l’angle de prise de vue.
Données Images des classes 0-3 de la base de données Sussex, centrées sur le nez et réduites à un format de 25x25 avant traitement
Approche: RBR pour chaque visage • Un réseau RBR par personne est utilisé pour reconnaître le visage de la personne. • L’apprentissage utilise des exemples d’images de la personne à reconnaître comme évidence positive et des images d’autres personnes pouvant prêter à confusion comme évidence négative.
Architecture du réseau • La couche d’entrée contient25*25 entrées répréseantant les intensités (normalisées) des pixels d’une image. • La couche cachéecontient p+a neurones: • p neurones cachés pro (récepteur pour évidence positive) • aneurones cachés con (récepteurs for évidence negative) • La couche de sortiecontient deux neurones: • Un pour la personne visée. • Un pour toutes les autres. Le résultat est ignoré si la différence absolue entre les sorties des deux neurones est inférieure à un seuil R.
Architecture pour reconnaître un visage Unités de sortie linéaires Supervisé Unités FBR Non-linéaires Non supervisé Unités d’entrée
Couche cachée • Les unités cachées peuvent être : • Neurones pro : Évidence positive pour la personne. • Neuones anti : Évidence négative pour la personne. • Le nombre de neurones pro est égal aux exemples positifs dans l’ensemble d’apprentissage. À chaque Neurone pro correspondent un ou deux neurones anti. • Modèle de neurone caché : FBR gaussienne.
Apprentissage et test • Centres: • d’un neurone pro : l’exemplepositifcorrespondant • D’un neurone anti : l’exemplenégatifle plus similaire au neurone pro correspondant, en utilisantune distance euclidienne. • Étendue : distance moyenne entre le centre du neurone et tous les autrescentres. L’étendue d’un neuronecachéestdonc oùH est le nombre de neuronescachés et est le centre du neurone. • Poids: déterminés par la méthode du pseudo inverse. • Un réseau RBR avec 6 neurones pro, 12 neurones anti, et R égal à 0.3, rejeta 23 % des images de l’ensemble de test et classacorrectement 96 % des images retenues.