360 likes | 632 Views
Réseaux de Neurones Formels Commande de processus. Groupe Heuristiques et Systèmes complexes. Plan. Introduction Axes de recherche sur les RNF au LGI2P Applications à la commande de processus Perspectives. Introduction. sorties. sortie. retards. entrées. entrées.
E N D
Réseaux de Neurones FormelsCommande de processus Groupe Heuristiques et Systèmes complexes
Plan • Introduction • Axes de recherche sur les RNF au LGI2P • Applications à la commande de processus • Perspectives
sorties sortie retards ... entrées entrées Cartes Auto-organisatrices Kohonen entrées Réseau multicouche (statique) Réseau bouclé Réseaux de neurones formels • Propriétés des réseaux de neurones formels : • Approximation universelle • Apprentissage • Généralisation Neurone formel v : potentiel neuronal f : fonction dévaluation
Approximation • Approximation universelle • Un réseau statique à une couche cachée à fonction d'évaluation sigmoïde peut approcher toute fonction continue avec la précision désirée (Hornik[89],Cybenko[89]). • Mais : • Comment choisir les entrées ? • Combien de neurones ? • Comment calculer les coefficients synaptiques ?
Apprentissage • Apprentissage C'est la phase de calcul des poids synaptiques à partir de données afin que le réseau associe convenablement entrées et sorties du réseau. • Apprentissage supervisé : Le "professeur"connaît les sorties désirées et corrige le réseau en fonction des erreurs commises. • Apprentissage par renforcement : Le "professeur" ne connaît pas les sorties désirées mais est capable de guider l'ajustement des poids par une forme de "critique". • Apprentissage non supervisé : Pas de "professeur", le réseau s'auto-organise en fonction des données et d'une règle de modification des poids synaptiques.
Généralisation • Généralisation : C'est la capacité du réseau à interpoler, c'est à dire à traiter correctement des données "proches" de celle rencontrées pendant l'apprentissage. • Un réseau ne peut pas a priori extrapoler : Sa réponse à des entrées éloignées de celles présentées pendant l'apprentissage est a priori incorrecte.
Applications des RNF • Approximation de fonction, • Classification, • Traitement du signal, • Modélisation et commande de processus non linéaires, • Simulation et prédiction de phénomènes : physiques, économiques ...
- Choix d’un modèle neuronal - Approches locales/globales Architectures - Apprentissage supervisé (réseaux bouclés) - Apprentissage par renforcement - Apprentissage non supervisé (voisinage g obs) Apprentissage RNF - Classification, prédiction, commande - Systèmes des production, environnement, services, biotechnologies Applications Outils - Test de cartes neuronales : ZISC - Développement de logiciels Axes de recherche
Travaux menés en laboratoire • Thèses : 4 + 1 en cours • Séparation de source de signaux présentant des retards purs • Contribution a l’étude et au développement de modèles connexionnistes à apprentissage par renforcement : application à l’acquisition de comportements adaptatifs • Commande par Réseaux de Neurones : Application au Contrôle d’un Préhenseur Pneumatique • Approximation de variétés par réseaux auto-organisés • Apprentissage par renforcement et systèmes distribués • DEA : 5 • Thèmes : Classification, Identification de processus dynamiques, Apprentissage par renforcement • Travaux personnels d’étudiants (IR, stages…) : • Thèmes : Apprentissage par renforcement (Hexapode), apprentissage de réseaux bouclés (modélisation de systèmes karstiques, méthodes des copies), reconnaissance de formes
Projets Européens (ESPRIT) QUETA [Esprit, 1996-1999] : Quality Engineering Tools for Assembly and Small Batches Manufacturing Projets Nationaux IMRA [|99-00] : Détection d’obstacles par radar ultrasonore. SABATE[99] : classification de bouchons QUALIFLOW [00] : Conception d’un contrôleur de débit massique. Convention de collaboration IBM (carte ZISC) [00-…] Projets d ’étudiants en entreprise et encadrés par le LGI2P CVI : Maintenance conditionnelle : Diagnostic de défaut sur machine tournante SNR : Analyse qualité sur des roulements à bille [00-02] Projets
Application à la commande en position d’un actionneur pneumatique Analyse et calcul de paramètres d’une chaîne logistique Metal bellows Apprentissage supervisé de Réseaux de neurones bouclés
d k e1k Fonction réalisée par le RNF : + S f S f - e2k s k S f s k-1 Fonction de coût : 1 Règle d’apprentissage (descente de gradient) avec Apprentissage supervisé de réseau bouclés : problème Problème : le gradient à l’itération k dépend de toutes les valeurs de gradient passées. => complexité de calcul croissante
Méthode des ‘copies’ [ESPCI] • 1 : Représenter le réseau sous forme canonique (tous les retours sont externes au réseau et présentent un retard unitaire) • 2 : Ouvrir les boucles et dupliquer le réseau dans le temps sur une fenêtre temporelle de longueur fixe. • 3 : Ajuster les coefficients par rétropropagation sur le réseau déplié et considéré comme statique Contribution du LGI2P : adaptation de la méthode au calcul de contrôleurs récursifs en commande de processus
Variantes selon initialisation sk-2 sk-1 sk-Nt-1 . . . . sk-3 1 Id Id Id 1 sk-1 sk-1 sk sk-2 sk-Nt sk-2 Id S f S f S f S f S f S f sk-1 e3k-Nt+1 S f e3k-1 S f e3k S f e1k S f S f e3k sk e2k-Nt+1 e2k-1 e2k S f e2k e1k-Nt+1 e1k-1 e1k Copy Nt Copy 2 Copy 1 Méthode des copies 1)Représentation canonique 2) Les boucles sont ouvertes et le réseau est dupliqué 3) Rétropropagation à travers la fenêtre temporelle Nt copies du réseau dans la fenêtre de Nt périodes d’échantillonnage
300 mm Soufflets métalliques air Commande en position d’un actionneur pneumatique Méthode : 1)Etude dynamique et choix des entrées/sorties. 2) Calcul d’un modèle neuronal de l’actionneur. 3) Choix d’une stratégie de commande et adaptation de la méthode des copies au calcul du contrôleur neuronal. Système non linéaire car : - l’air est compressible, - phénomènes de turbulences dans la vanne ‘jet-pipe’.
ydk+1 + - yk+1 yk yk-1 uk uk-1 Yd U n Modèle neuronal de l’actionneur + Y - Id Id Id Id 1 period delay Y c U contrôleur neuronal U Yp Yp + uk-1 uk-2 yck yk yk-1 yk-2 Modèle neuronal de la pince Id: fonction identité Schéma de commande Contrôleur neuronal Représentation sous forme canonique du bloc de commande Pince Commande par RNF
Neural controller: u k-1 c ext. inputs: y u ,y ,y y k k-1 k-2, k k-2 u state variables: u y k , u k k-1 k-2 output: u y k-1 k 6 neurons in the hidden layer y k-2 c y D : 0.1 s sampling period k nd Reference model 2 order system output is y z=0,7; w0=2rd/s d Learning algorithm applied SD: Nc=5,Nt=5 to the global network Résultats p Test of the neural controller uk: tension de vanne à l’instant k.D ydk: trajectoire désirée yk: sortie du modèle à k.D ypk: position réelle yck: position désirée
Unité de production Processus d’assemblage ORDRES ORDRES Commande d’approvisionnement: app Ordre de fabrication: fab pth rth Stock de sortie Stocks en entrés PRODUITS PRODUITS Temps de réappro. : tapp Seuil de réapprovisionnement : rth Seuil de mis en fabrication : pth Minimum d’appro : appmin Capacité de production : cmax Maximum d’appro : appmax Nombre de composants pour fabriquer un produit final : num Niveau de stock en sortie : stout Temps de fabrication : tfab If (rth-stin) >0 app =Max[appmin, Min[appmax,(rth-stin)]] else app=0 fab = Max[0, Min[cmax,(pth-stout)]] Niveau de stock en entrée : stin Chaîne logistique : unité de production [P. Massotte] Paramètres: rth, pth
one block per part j stoutik fab ik stin k app jk fabi k pthi delay -1 rthj 1 -1 stinjk delay 1 stout ik S S 1 - numij -1 1 1 1 1 1 fabik-1 fabik-tfab stin k-1 appjk-tapp stout k-1 appjk-1 appik-1 Modèle neuronal d’une unité fabik = Max[0, Min[cmaxi,(pthi-stoutik)]] Modèle neuronal sous forme canonique If rthj-stinjk >0 appjk =Max[appminj, Min[appmaxj,(rthj-stinjk)]] else appjk =0
Ajustement des paramètres Ajustement des paramètres pour minimiser le niveau de stock avec stin>3 and stout>0 Sk stin k = 100 p. Sk stout k = 109 p.
Acteur(s) ou Agent(s) Renforcement Action Situation a t s t r t+1 Environnement Schéma de principe Apprentissage par renforcement • Le renforcement est déterminé par l’objectif à atteindre : définition ? • Le but de l’acteur est de maximiser les récompenses à venir : estimation ? • L’acteur apprend par processus essai/erreur : méthode ? • Il doit résoudre un dilemme exploration/exploitation: compromis ? • Cas des systèmes distribués et des systèmes dynamiques : qui et quand récompenser ?
Apprentissage de la marche d ’un robot hexapode L3 L2 R3 L1 R2 R1 • But de l’étude • Montrer que grâce aux propriétés d ’apprentissage, il n ’est pas nécessaire de construire un modèle du robot. • La coordination des mouvements est guidée par les informations renvoyées par l’environnement.
Architecture du réseau • Les neurones calculent la probabilité d’effectuer une poussée • L’action Si est binaire • 1 : la patte exerce une poussée vers l ’arrière • 0 : la patte est ramenée en position avant • Les traitements sont distribués : un neurone par patte mais l’apprentissage est centralisé (même renforcement pour toutes les pattes). [A. Johannet ]
Résultat : Marche tripode des insectes R3R2R1L3L2L1 proaction -- Apprentissage centralisé • A chaque itération et pour tout neurone, on calcule • <Si> = (+1).P(+1) + (-1).P(-1) ; <Si> qui représente la valeur de sortie moyenne. • Selon un algorithme de pénalité/récompense : • DCij = µr (r.Si - <Si>).Ej • si le dernier mouvement conduit à un succès (avance), le réseau est encouragé à le refaire (r = +1); • si le dernier mouvement est un échec (chute, recul …), le réseau est encouragé à l’éviter (r = -1). • Toutes les pattes reçoivent les mêmes pénalités/récompenses (apprentissage centralisé)
R3R2R1L3L2L1 Résultats : • * diverses marches hexapodes sont obtenues comme cycles attracteurs du système non linéaire bouclé, • * il est possible de passer d’une marche à une autre par choix de la vitesse de déplacement (durée du mouvement de rétraction), • * l’apprentissage est plus rapide si certains renforcements sont envoyés à toutes les pattes. Apprentissage de systèmes distribués • Chaque patte a sa propre fonction objectif, la marche devient un phénomène ‘ émergeant ’. • Algorithme de pénalité/récompense de type Q-learning • Chaque patte choisit depuis l’état s l’action a qui maximise le cumul des récompenses futures Q(s,a) • En appliquant l’action achaque patte passe d’un état s à un état s’ et reçoit le renforcement r => Q(s,a) inconnue est estimée au cours du processus essais/erreurs : A chaque nouvel essai d’une action a : Q(s,a) Q(s,a) + a.(r+ maxbQ(s’,b) - Q(s,a))
Approximation de variétéspar réseaux de neurones auto-organisés [Michael Aupetit 98-2001] Modèle discret Modèle linéaire Modèle non linéaire Position des sommets (Représentants) Topologie (TDI) CHL [Martinetz94] Interpolation
Principe : Quantification Vectorielle sans voisinage avecvoisinage + convergence + distorsion voisin 2 voisin 1 donnée gagnant Compétition Adaptation • Résultat : respect densité apprentissage n Taille voisinage 1 Placement des représentants • Quel voisinage utiliser => proposition voisinage g Observable
Noyaux de Voronoï • Principe: • But : approximer une fonction g par f • Fonctions noyaux j dont l’étendue dépend de la position des voisins dans la triangulation • Les paramètres de Ai et bi sont calculés par une méthode supervisée (minimisation de l’écart quadratique entre f et la fonction à approximer) Représentant intervenant dans l’approximation (c.a.d appartenant à Sx) x Noyaux j 0 1
300 mm Soufflets métalliques air Noyaux de Voronoï Induits en Approximation de Fonctions • Identification d’un préhenseur électropneumatique • Résultat :EQM app. : 0.02, EQM test : 0.08 comparable MLP bouclé [Couturier97] 54 paramètres au lieu de 37. Volts uk yk 4 0 -4 Unité y : 3mm/Volts T = 0.1 s Volts Ecart entre sortie observée et modèle 1 0 -1
Perspectives • Architectures • architectures modulaires • approches locales • Règles d’apprentissage • application de la méthode des copies en apprentissage par renforcement • travaux sur les règles d’apprentissage non supervisé (recrutement) • Applications • biotechnologie (tri de molécules) • introduction de techniques d’apprentissage dans les approches heuristiques de résolution de problèmes d’optimisation combinatoire • apprentissage par renforcement dans les systèmes multi-agents
Biblographie • JOHANNET A., SARDA I., Goal-directed behaviours by renforcement learning , Neuro-computing, Elsevier, pp 107-125, 1999 • COUTURIER, P. , JOHANNET, A. and BÉTEMPS, M. Neural Controllers: Tracking and Regulation of a Nonlinear Pneumatic Plant, International Journal of Knowledge-Based Intelligent Engineering Systems, October 1998. Vol 2, N° 4, p233-246. • AUPETIT, M. , Lepetz, D. , Nemoz-Gaillard, M. , Couturier, P. , Massotte, P. , Réseaux de Neurones et Traitement de Données: la Notion de Voisinage g-Observable, Valgo 2001 (ISSN 1625-9661), n. 1, March 2001 • AUPETIT, M. , COUTURIER, P., MASSOTTE, P. , Induced Voronoï Kernels for Principal Manifolds Approximation , Workshop on Self-Organizing Maps (WSOM2001), Lincoln, England, June 13-15, 2001. • AUPETIT, M. , COUTURIER, P., MASSOTTE, P. , Vector Quantization with g-Observable Neighbors , Workshop on Self-Organizing Maps (WSOM2001), Lincoln, England, June 13-15, 2001. • COUTURIER P., Modelling and control of mecatronics systems using recurrent neural networks,MECATRONICS'01,Actes électroniques, Besançon, France, pp 219-224,octobre 2001.