1 / 31

Réseaux de neurones à base radiale

Réseaux de neurones à base radiale. Introduction. Une fonction de base radiale (FBR) dépend de manière non croissante de la distance entre la variable indépendante et un vecteur de référence.

sanne
Download Presentation

Réseaux de neurones à base radiale

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Réseaux de neurones à base radiale

  2. Introduction • Une fonction de base radiale (FBR) dépend de manière non croissante de la distance entre la variable indépendante et un vecteur de référence. • Les FBRs représentent des récepteurs locaux; dans la figure, chaque point vert est un vecteur de référence pour une FBR. • Un réseau à base radiale contient une couche cachée constituée de FBRs. Une unité de sortie réalise la combinaison linéaire de leurs sorties. w3 Les coordonnées du point noir sont “interpolées” à l’aide de celles des trois points verts, dont la contribution individuelle de chacun dépend de sa distance du point noir et de son poids w. Dans l’illustration : w2 w1

  3. x1 w1 x2 y wm1 xm Architecture RBR • Couche cachée : fonction d’activation/sortie FBR Sont généralement des gaussiennes • Unité de sortie : fonction d’activation/sortie linéaire. Couche de sortie ; combinateur linéaire. Peut être suivi d’une fonction de sortie au besoin Couche cachée ; les « poids » sont les coordonnées des centres des FBR Couche tampon

  4. Modèle des unitéscachées • Unités cachées : Utilisent des FBR La sortie dépend de la distance entre L’entrée x et le centre t φ( || x - t||) x1 • φ( || x - t||) • t est le centre • est l’étendue • t et  sont à déterminer x2 xm

  5.  petit  grand Propriétés des unités cachées • Un neurone caché est plus sensible aux entrées situées proche de son centre. • Pour un FBR de type gaussien, la sensibilité est réglée à l’aide du paramètre d’étendue, pour lequel une valeur plus grande signifie moins de sensibilité. • Plausibilité biologique: Les cellules cochléaires stéréociliaires du système auditif possèdent des réponses qui sont optimales pour des bandes de fréquences données. centre

  6. Différentessortes de FBR • Multiquadriques • Multiquadriques inverses • Gaussiennes (les plus utilisées)

  7. f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f(.) Illustration du rôle de la couche cachée

  8. x2 (0,1) (1,1) 0 1 y x1 (0,0) (1,0) Exemple: le problème du OU-X • Espace simuli (problème) : • Espace réseau (solution) : • Construire un classifieur RBR tel que : (0,0) et (1,1) sont projetés sur 0 (classe C1) (1,0) et (0,1) sont projetés sur 1 (classe C2)

  9. x1 t1 φ2 -1 (0,0) Frontière de décision 1.0 y x2 t2 -1 0.5 (1,1) +1 1.0 φ1 0.5 (0,1) et (1,0) le problème du OU-X (2) • Dans l’espace des traits (couche cachée) : • Une fois projetées dans la couche cachée, C1 and C2deviennent linéairement séparables, permettant au classifieur linéaire à la sortie de prendre 1(x) and 2(x) comme entrées et donner la bonne sortie OU-X.

  10. Paramètres d’un réseau RBR • Quedoit-on connaître (apprendre) pour un réseau RBR donné? • Le nombre de FBR • Les centres desFBR • Les étendues des FBR • Les poids entre la couchecachée et la couche de sortie • Plusieursalgorithmesd’apprentissagesontpossibles

  11. Algorithmed’apprentissage 1 • Centres : sélectionnés aléatoirement • Les centres sont choisis aléatoirement en partant de l’ensemble d’apprentissage • Étendues: déterminées par normalization: • La fontion d’activation/sortie d’un neurone caché i est alors :

  12. Algorithmed’apprentissage 1 • Poids:Déterminés par la méthode de la matrice pseudo-inverse: • Considérons la sortie du réseau pour la paire d’apprentissage: • Nous voulons avoir pour chaque xi :

  13. Algorithmed’apprentissage 1 • On peut réécrire les équations précédentes : pour un exemple d’apprentissage xi donné, et pour tous les exemples simultanément

  14. Algorithmed’apprentissage 1 Si on pose Alors on a : et où est la matrice pseudo-inverse de

  15. Principe du pseudo inverse • Soit un vecteurX = (X1…Xp) et une relation linéaire : • Règle des moindrescarrés : min

  16. Résumé de l’algorithme Choisir les centres aléatoirement à partir de l’ensemble d’apprentissage. Déterminer les étendues des FBR en utilisant la méthode de normalisation. Trouver les poids de sortie en utilisant la méthode de la pseudo-inverse.

  17. Algorithmed’apprentissage 2 • Centres : déterminés par un l’algorithme de groupement des k moyennesadaptatif • Initialisation: tk(0) aléatoire k = 1, …, m1 • Échantillonnage: on tire x dansl’espaced’apprentissage • Appariement par similarité: trouverl’index du centre le plus proche de x • Mise à jour : adaptation des centres • Continuation: n=n+1, aller à 2 et continuer jusqu’àceque les centres se stabilisent (changentpeu).

  18. Algorithme d’apprentissage 2 • Étendues : déterminés par un algorithme basés sur les plus P plus proches voisins • Un nombre P est choisi, et pour chaque centre, les P centres les plus proches sont déterminés. • La distance quadratique moyenne entre le centre courant et les centres de ses P plus proches voisins est calculée, et est utilisée comme valeur de . Si le centre du groupe courant est cj, la valeur de  est : Une valeur typique pour P est 2, auquel cas  est la distance moyenne entre les deux plus proches centroÍdes voisins.

  19. Résumé de l’algorithme • Processus d’apprentissage hybride: • Algorithme de groupement pour trouver lescentres. • Étenduefixée par normalisation des distances entre P plus proches voisins. • Poidsdéterminés par un algorithme de moindres carrés (e.g. Adaline)

  20. Algorithme d’apprentissage 3 • Appliquer la technique de descente de gradient pour trouver aussi bien les centres, les étendues et les poids, de manière à minimiser l’erreur quadratique Centres Étendues Poids

  21. ComparaisonRBR-PMC • Tous les deux approximateurs universels de fonctions L2. • Réseaux non récurrents à couches multiples. • RBR surtout utilisé pour la régression et la classification binaire. • RBR apprend plus vite que PMC • La couche cachée RBR est souvent plus facile à interpréter que celle d’un PMC • Après apprentissage, les réseaux RBR sont généralement plus lents en phase de rappel.

  22. ComparaisonRBR-PMC • PMC peut posséder plus d’une couche cachée. • Dans PMC, le modèle de neurone dans les différentes couches peut être le même. • Dans PMC, toutes les couches peuvent être non-lineaires. • Architecture: • RBR possèdeune seulecouche cachée. • Modèle de neurone: • Dans RBR, le modèle des neurones cachés estdifférentde celui des neurones de sortie. • La couche cachée dans RBR estnon-linéaire, celle de sortie estlinéaire.

  23. ComparaisonRBR-PMC • Fonctions de sortie : • Dans RBR, l’argument d’une FBR de la couche cachée est ladistance(euclidienne ou autre) entre un vecteur d’entrée et le centre de l’unité. • Dans PMC, l’argument d’un neurone caché est le produit scalaire d’un vecteur d’entrée et du vecteur des poids synaptiques qui alimentent le neurone. • Approximation: • Les réseaux RBR construisent généralement une approximationlocale de projections non-linéaires. Peuvent demander plus de ressources mais mènent à des représententations terses et linéairement decodables. • Les réseaux PMC construisent une approximation globale des mêmes projections. Peuvent êter difficiles à interpréter.

  24. Application: Reconnaissance de visages • Le problème : • Reconnaitre des visages de personnes faisant partie d’un groupe dans un environnement intérieur. • L’approche: • Apprendre les différentes classes, chacune représentant des poses diverses d’un même visage en utilisant un réseau RBR.

  25. Données • Base de données • 100 images de 10 personnes (tons de gris sur 8 bits, résolution de 384 x 287) • Pour chaque individu, 10 images de la tête vue de face et de profil • Conçue pour évaluer la performance de techniques de reconnaissance du visage en présence de variations de l’angle de prise de vue.

  26. Données Images des classes 0-3 de la base de données Sussex, centrées sur le nez et réduites à un format de 25x25 avant traitement

  27. Approche: RBR pour chaque visage • Un réseau RBR par personne est utilisé pour reconnaître le visage de la personne. • L’apprentissage utilise des exemples d’images de la personne à reconnaître comme évidence positive et des images d’autres personnes pouvant prêter à confusion comme évidence négative.

  28. Architecture du réseau • La couche d’entrée contient25*25 entrées répréseantant les intensités (normalisées) des pixels d’une image. • La couche cachéecontient p+a neurones: • p neurones cachés pro (récepteur pour évidence positive) • aneurones cachés con (récepteurs for évidence negative) • La couche de sortiecontient deux neurones: • Un pour la personne visée. • Un pour toutes les autres. Le résultat est ignoré si la différence absolue entre les sorties des deux neurones est inférieure à un seuil R.

  29. Architecture pour reconnaître un visage Unités de sortie linéaires Supervisé Unités FBR Non-linéaires Non supervisé Unités d’entrée

  30. Couche cachée • Les unités cachées peuvent être : • Neurones pro : Évidence positive pour la personne. • Neuones anti : Évidence négative pour la personne. • Le nombre de neurones pro est égal aux exemples positifs dans l’ensemble d’apprentissage. À chaque Neurone pro correspondent un ou deux neurones anti. • Modèle de neurone caché : FBR gaussienne.

  31. Apprentissage et test • Centres: • d’un neurone pro : l’exemplepositifcorrespondant • D’un neurone anti : l’exemplenégatifle plus similaire au neurone pro correspondant, en utilisantune distance euclidienne. • Étendue : distance moyenne entre le centre du neurone et tous les autrescentres. L’étendue d’un neuronecachéestdonc oùH est le nombre de neuronescachés et est le centre du neurone. • Poids: déterminés par la méthode du pseudo inverse. • Un réseau RBR avec 6 neurones pro, 12 neurones anti, et R égal à 0.3, rejeta 23 % des images de l’ensemble de test et classacorrectement 96 % des images retenues.

More Related