1 / 34

Réseaux de Neurones Formels Commande de processus

Réseaux de Neurones Formels Commande de processus. Groupe Heuristiques et Systèmes complexes. Plan. Introduction Axes de recherche sur les RNF au LGI2P Applications à la commande de processus Perspectives. Introduction. sorties. sortie. retards. entrées. entrées.

ouida
Download Presentation

Réseaux de Neurones Formels Commande de processus

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Réseaux de Neurones FormelsCommande de processus Groupe Heuristiques et Systèmes complexes

  2. Plan • Introduction • Axes de recherche sur les RNF au LGI2P • Applications à la commande de processus • Perspectives

  3. Introduction

  4. sorties sortie retards ... entrées entrées Cartes Auto-organisatrices Kohonen entrées Réseau multicouche (statique) Réseau bouclé Réseaux de neurones formels • Propriétés des réseaux de neurones formels : • Approximation universelle • Apprentissage • Généralisation Neurone formel v : potentiel neuronal f : fonction dévaluation

  5. Approximation • Approximation universelle • Un réseau statique à une couche cachée à fonction d'évaluation sigmoïde peut approcher toute fonction continue avec la précision désirée (Hornik[89],Cybenko[89]). • Mais : • Comment choisir les entrées ? • Combien de neurones ? • Comment calculer les coefficients synaptiques ?

  6. Apprentissage • Apprentissage C'est la phase de calcul des poids synaptiques à partir de données afin que le réseau associe convenablement entrées et sorties du réseau. • Apprentissage supervisé : Le "professeur"connaît les sorties désirées et corrige le réseau en fonction des erreurs commises. • Apprentissage par renforcement : Le "professeur" ne connaît pas les sorties désirées mais est capable de guider l'ajustement des poids par une forme de "critique". • Apprentissage non supervisé : Pas de "professeur", le réseau s'auto-organise en fonction des données et d'une règle de modification des poids synaptiques.

  7. Généralisation • Généralisation : C'est la capacité du réseau à interpoler, c'est à dire à traiter correctement des données "proches" de celle rencontrées pendant l'apprentissage. • Un réseau ne peut pas a priori extrapoler : Sa réponse à des entrées éloignées de celles présentées pendant l'apprentissage est a priori incorrecte.

  8. Applications des RNF • Approximation de fonction, • Classification, • Traitement du signal, • Modélisation et commande de processus non linéaires, • Simulation et prédiction de phénomènes : physiques, économiques ...

  9. Axes de recherche sur les RNF au LGI2P

  10. - Choix d’un modèle neuronal - Approches locales/globales Architectures - Apprentissage supervisé (réseaux bouclés) - Apprentissage par renforcement - Apprentissage non supervisé (voisinage g obs) Apprentissage RNF - Classification, prédiction, commande - Systèmes des production, environnement, services, biotechnologies Applications Outils - Test de cartes neuronales : ZISC - Développement de logiciels Axes de recherche

  11. Travaux menés en laboratoire • Thèses : 4 + 1 en cours • Séparation de source de signaux présentant des retards purs • Contribution a l’étude et au développement de modèles connexionnistes à apprentissage par renforcement : application à l’acquisition de comportements adaptatifs • Commande par Réseaux de Neurones : Application au Contrôle d’un Préhenseur Pneumatique • Approximation de variétés par réseaux auto-organisés • Apprentissage par renforcement et systèmes distribués • DEA : 5 • Thèmes : Classification, Identification de processus dynamiques, Apprentissage par renforcement • Travaux personnels d’étudiants (IR, stages…) : • Thèmes : Apprentissage par renforcement (Hexapode), apprentissage de réseaux bouclés (modélisation de systèmes karstiques, méthodes des copies), reconnaissance de formes

  12. Projets Européens (ESPRIT) QUETA [Esprit, 1996-1999] : Quality Engineering Tools for Assembly and Small Batches Manufacturing Projets Nationaux IMRA [|99-00] : Détection d’obstacles par radar ultrasonore. SABATE[99] : classification de bouchons QUALIFLOW [00] : Conception d’un contrôleur de débit massique. Convention de collaboration IBM (carte ZISC) [00-…] Projets d ’étudiants en entreprise et encadrés par le LGI2P CVI : Maintenance conditionnelle : Diagnostic de défaut sur machine tournante SNR : Analyse qualité sur des roulements à bille [00-02] Projets

  13. Applications à la commande de processus

  14. Application à la commande en position d’un actionneur pneumatique Analyse et calcul de paramètres d’une chaîne logistique Metal bellows Apprentissage supervisé de Réseaux de neurones bouclés

  15. d k e1k Fonction réalisée par le RNF : + S f S f - e2k s k S f s k-1 Fonction de coût : 1 Règle d’apprentissage (descente de gradient) avec Apprentissage supervisé de réseau bouclés : problème Problème : le gradient à l’itération k dépend de toutes les valeurs de gradient passées. => complexité de calcul croissante

  16. Méthode des ‘copies’ [ESPCI] • 1 : Représenter le réseau sous forme canonique (tous les retours sont externes au réseau et présentent un retard unitaire) • 2 : Ouvrir les boucles et dupliquer le réseau dans le temps sur une fenêtre temporelle de longueur fixe. • 3 : Ajuster les coefficients par rétropropagation sur le réseau déplié et considéré comme statique Contribution du LGI2P : adaptation de la méthode au calcul de contrôleurs récursifs en commande de processus

  17. Variantes selon initialisation sk-2 sk-1 sk-Nt-1 . . . . sk-3 1 Id Id Id 1 sk-1 sk-1 sk sk-2 sk-Nt sk-2 Id S f S f S f S f S f S f sk-1 e3k-Nt+1 S f e3k-1 S f e3k S f e1k S f S f e3k sk e2k-Nt+1 e2k-1 e2k S f e2k e1k-Nt+1 e1k-1 e1k Copy Nt Copy 2 Copy 1 Méthode des copies 1)Représentation canonique 2) Les boucles sont ouvertes et le réseau est dupliqué 3) Rétropropagation à travers la fenêtre temporelle Nt copies du réseau dans la fenêtre de Nt périodes d’échantillonnage

  18. 300 mm Soufflets métalliques air Commande en position d’un actionneur pneumatique Méthode : 1)Etude dynamique et choix des entrées/sorties. 2) Calcul d’un modèle neuronal de l’actionneur. 3) Choix d’une stratégie de commande et adaptation de la méthode des copies au calcul du contrôleur neuronal. Système non linéaire car : - l’air est compressible, - phénomènes de turbulences dans la vanne ‘jet-pipe’.

  19. ydk+1 + - yk+1 yk yk-1 uk uk-1 Yd U n Modèle neuronal de l’actionneur + Y - Id Id Id Id 1 period delay Y c U contrôleur neuronal U Yp Yp + uk-1 uk-2 yck yk yk-1 yk-2 Modèle neuronal de la pince Id: fonction identité Schéma de commande Contrôleur neuronal Représentation sous forme canonique du bloc de commande Pince Commande par RNF

  20. Neural controller: u k-1 c ext. inputs: y u ,y ,y y k k-1 k-2, k k-2 u state variables: u y k , u k k-1 k-2 output: u y k-1 k 6 neurons in the hidden layer y k-2 c y D : 0.1 s sampling period k nd Reference model 2 order system output is y z=0,7; w0=2rd/s d Learning algorithm applied SD: Nc=5,Nt=5 to the global network Résultats p Test of the neural controller uk: tension de vanne à l’instant k.D ydk: trajectoire désirée yk: sortie du modèle à k.D ypk: position réelle yck: position désirée

  21. Unité de production Processus d’assemblage ORDRES ORDRES Commande d’approvisionnement: app Ordre de fabrication: fab pth rth Stock de sortie Stocks en entrés PRODUITS PRODUITS Temps de réappro. : tapp Seuil de réapprovisionnement : rth Seuil de mis en fabrication : pth Minimum d’appro : appmin Capacité de production : cmax Maximum d’appro : appmax Nombre de composants pour fabriquer un produit final : num Niveau de stock en sortie : stout Temps de fabrication : tfab If (rth-stin) >0 app =Max[appmin, Min[appmax,(rth-stin)]] else app=0 fab = Max[0, Min[cmax,(pth-stout)]] Niveau de stock en entrée : stin Chaîne logistique : unité de production [P. Massotte] Paramètres: rth, pth

  22. one block per part j stoutik fab ik stin k app jk fabi k pthi delay -1 rthj 1 -1 stinjk delay 1 stout ik S S 1 - numij -1 1 1 1 1 1 fabik-1 fabik-tfab stin k-1 appjk-tapp stout k-1 appjk-1 appik-1 Modèle neuronal d’une unité fabik = Max[0, Min[cmaxi,(pthi-stoutik)]] Modèle neuronal sous forme canonique If rthj-stinjk >0 appjk =Max[appminj, Min[appmaxj,(rthj-stinjk)]] else appjk =0

  23. Ajustement des paramètres Ajustement des paramètres pour minimiser le niveau de stock avec stin>3 and stout>0 Sk stin k = 100 p. Sk stout k = 109 p.

  24. Acteur(s) ou Agent(s) Renforcement Action Situation a t s t r t+1 Environnement Schéma de principe Apprentissage par renforcement • Le renforcement est déterminé par l’objectif à atteindre : définition ? • Le but de l’acteur est de maximiser les récompenses à venir : estimation ? • L’acteur apprend par processus essai/erreur : méthode ? • Il doit résoudre un dilemme exploration/exploitation: compromis ? • Cas des systèmes distribués et des systèmes dynamiques : qui et quand récompenser ?

  25. Apprentissage de la marche d ’un robot hexapode L3 L2 R3 L1 R2 R1 • But de l’étude • Montrer que grâce aux propriétés d ’apprentissage, il n ’est pas nécessaire de construire un modèle du robot. • La coordination des mouvements est guidée par les informations renvoyées par l’environnement.

  26. Architecture du réseau • Les neurones calculent la probabilité d’effectuer une poussée • L’action Si est binaire • 1 : la patte exerce une poussée vers l ’arrière • 0 : la patte est ramenée en position avant • Les traitements sont distribués : un neurone par patte mais l’apprentissage est centralisé (même renforcement pour toutes les pattes). [A. Johannet ]

  27. Résultat : Marche tripode des insectes R3R2R1L3L2L1 proaction -- Apprentissage centralisé • A chaque itération et pour tout neurone, on calcule • <Si> = (+1).P(+1) + (-1).P(-1) ; <Si> qui représente la valeur de sortie moyenne. • Selon un algorithme de pénalité/récompense : • DCij = µr (r.Si - <Si>).Ej • si le dernier mouvement conduit à un succès (avance), le réseau est encouragé à le refaire (r = +1); • si le dernier mouvement est un échec (chute, recul …), le réseau est encouragé à l’éviter (r = -1). • Toutes les pattes reçoivent les mêmes pénalités/récompenses (apprentissage centralisé)

  28. R3R2R1L3L2L1 Résultats : • * diverses marches hexapodes sont obtenues comme cycles attracteurs du système non linéaire bouclé, • * il est possible de passer d’une marche à une autre par choix de la vitesse de déplacement (durée du mouvement de rétraction), • * l’apprentissage est plus rapide si certains renforcements sont envoyés à toutes les pattes. Apprentissage de systèmes distribués • Chaque patte a sa propre fonction objectif, la marche devient un phénomène ‘ émergeant ’. • Algorithme de pénalité/récompense de type Q-learning • Chaque patte choisit depuis l’état s l’action a qui maximise le cumul des récompenses futures Q(s,a) • En appliquant l’action achaque patte passe d’un état s à un état s’ et reçoit le renforcement r => Q(s,a) inconnue est estimée au cours du processus essais/erreurs : A chaque nouvel essai d’une action a : Q(s,a)  Q(s,a) + a.(r+ maxbQ(s’,b) - Q(s,a))

  29. Approximation de variétéspar réseaux de neurones auto-organisés [Michael Aupetit 98-2001] Modèle discret Modèle linéaire Modèle non linéaire Position des sommets (Représentants) Topologie (TDI) CHL [Martinetz94] Interpolation

  30. Principe : Quantification Vectorielle sans voisinage avecvoisinage + convergence + distorsion voisin 2 voisin 1 donnée gagnant Compétition Adaptation • Résultat : respect densité apprentissage n Taille voisinage 1 Placement des représentants • Quel voisinage utiliser => proposition voisinage g Observable

  31. Noyaux de Voronoï • Principe: • But : approximer une fonction g par f • Fonctions noyaux j dont l’étendue dépend de la position des voisins dans la triangulation • Les paramètres de Ai et bi sont calculés par une méthode supervisée (minimisation de l’écart quadratique entre f et la fonction à approximer) Représentant intervenant dans l’approximation (c.a.d appartenant à Sx) x Noyaux j 0 1

  32. 300 mm Soufflets métalliques air Noyaux de Voronoï Induits en Approximation de Fonctions • Identification d’un préhenseur électropneumatique • Résultat :EQM app. : 0.02, EQM test : 0.08 comparable MLP bouclé [Couturier97] 54 paramètres au lieu de 37. Volts uk yk 4 0 -4 Unité y : 3mm/Volts T = 0.1 s Volts Ecart entre sortie observée et modèle 1 0 -1

  33. Perspectives • Architectures • architectures modulaires • approches locales • Règles d’apprentissage • application de la méthode des copies en apprentissage par renforcement • travaux sur les règles d’apprentissage non supervisé (recrutement) • Applications • biotechnologie (tri de molécules) • introduction de techniques d’apprentissage dans les approches heuristiques de résolution de problèmes d’optimisation combinatoire • apprentissage par renforcement dans les systèmes multi-agents

  34. Biblographie • JOHANNET A., SARDA I., Goal-directed behaviours by renforcement learning , Neuro-computing, Elsevier, pp 107-125, 1999 • COUTURIER, P. , JOHANNET, A. and BÉTEMPS, M. Neural Controllers: Tracking and Regulation of a Nonlinear Pneumatic Plant, International Journal of Knowledge-Based Intelligent Engineering Systems, October 1998. Vol 2, N° 4, p233-246. • AUPETIT, M. , Lepetz, D. , Nemoz-Gaillard, M. , Couturier, P. , Massotte, P. , Réseaux de Neurones et Traitement de Données: la Notion de Voisinage g-Observable, Valgo 2001 (ISSN 1625-9661), n. 1, March 2001 • AUPETIT, M. , COUTURIER, P., MASSOTTE, P. , Induced Voronoï Kernels for Principal Manifolds Approximation , Workshop on Self-Organizing Maps (WSOM2001), Lincoln, England, June 13-15, 2001. • AUPETIT, M. , COUTURIER, P., MASSOTTE, P. , Vector Quantization with g-Observable Neighbors , Workshop on Self-Organizing Maps (WSOM2001), Lincoln, England, June 13-15, 2001. • COUTURIER P., Modelling and control of mecatronics systems using recurrent neural networks,MECATRONICS'01,Actes électroniques, Besançon, France, pp 219-224,octobre 2001.

More Related