550 likes | 689 Views
Apprentissage de représentation et auto-organisation modulaire pour un agent autonome. Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet. long-terme. Environnement. action. perception. renforcement. instantané. Construire un agent autonome.
E N D
Apprentissage de représentation et auto-organisation modulairepour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet
long-terme Environnement action perception renforcement instantané Construire un agent autonome • Calculer une stratégie/politique • Exemples • marcher • conduire une voiture • jouer au backgammon
24 V 50000 V ? Représentation et organisation modulaire Perception brute Représentation Organisation en modules spécialisés Organisation centralisée
S'inspirer d'un système performant • autonome • robuste • "anytime" • dynamique • distribué & parallèle • tolérant aux pannes Algorithmes connexionnistes réseaux fortement connectés de processeurs élémentaires fonctionnant en parallèle
Objectifs • Montrer que les problèmes consistant à • calculer une stratégie/politique • apprendre une représentation • organiser un système en modules admettent des solutions connexionnistes Comprendre les enjeux computationnels d'une telle approche
Plan • Introduction • Un calcul connexionniste • Contrôle optimal et apprentissage par renforcement • Apprentissage de représentation • Auto-organisation modulaire • Conclusions et perspectives
sorties entrées propagation synchrone Loi de Hebb Algorithmes connexionnistes • Connectivité • Activations • Loi(s) d'apprentissage • (A)synchronisme ? Système dynamique généralement complexe à analyser et concevoir !
t=∞ t=1 M M M M M M ... Point fixe Contraction <1 ... Un calcul connexionniste t=0 Activation unités
Un calcul connexionniste • Calcul du point fixe d'une contraction • Solution traditionnelle • Solution connexionniste calcul distribué parallèle asynchrone M [Bertsekas & Tsitsiklis, 89]
Bilan • Propriétés du calcul du point fixe… • anytime • dynamique • … avec une méthode connexionniste • massivement parallèle • Difficulté : taille du réseau • nombre d’itérations pour approcher le point fixe
Plan • Introduction • Un calcul connexionniste • Contrôle optimal et apprentissage par renforcement • Apprentissage de représentation • Auto-organisation modulaire • Conclusions et perspectives
états long-terme T(s,a,s’)=P(s’|s,a) actions instantané transition récompense R(s) Contrôle optimal On cherche une politique qui maximise les récompenses sur le long terme On calcule la fonction de valeur optimale : : S → A
Plan : Illustration Actions
Illustration • Récompense
Illustration • Fonction de valeur optimale récompense
Illustration • Politique optimale fonction de valeur optimale
T(s,←,s') s' T(s,↑,s'') s'' V R ... s Lien avec le connexionnisme
Apprentissage par renforcement • Problème de contrôle optimal dont on ne connaît pas les paramètres a priori • Estimation des paramètres • Le dilemme exploration/exploitation ? ?
Lien avec le connexionnisme • Dans le réseau • Estimation de R : calculée par chaque unité • Estimation de T : loi d'apprentissage du réseau T(s,←,s') s' T(s,↑,s'') similaire à la loi de Hebb s'' V R ... s
Bilan • Une architecture connexionniste pour l’apprentissage par renforcement : • Difficulté : taille de l'espace d'états • nombre d’itérations pour le point fixe • estimation de R et T environnement Estimation paramètres Controle π TR SA SATR
Plan • Introduction • Un calcul connexionniste • Contrôle optimal et apprentissage par renforcement • Apprentissage de représentation • Auto-organisation modulaire • Conclusions et perspectives
Représentation Difficile à exploiter
Représentation Chemin sous-optimal
Représentation Chemin optimal
Qualité Complexité Qu'est-ce qu'une bonne représentation ?
long-terme instantané Mesure de l’erreur d'approximation • L’erreur d’approximation définie par dépend de l’erreur d’interpolation et est le point fixe de • Calcul de la politique la plus incertaine [Munos, 99]
Mesure de l’erreur • Erreur d’interpolation
Mesure de l’erreur • Erreur d’approximation
Mesure de l’erreur • Politique la plus incertaine
Qualité Spécialisation Généralisation Complexité Réduction de l'erreur
zones d'intérêt Point fixe Réduction de l’erreur • On peut améliorer une approximation... …en faisant une descente de gradient : long-terme instantané
Spécialisation Généralisation Réduction de l’erreur zone d'intérêt
Spécialisation Généralisation Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs
Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs
Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs
Spécialisation Généralisation Réduction de l’erreur • Nouvelle représentation, nouvelles erreurs
TR App. représentation π TR S Bilan • Une couche fonctionnelle connexionniste supplémentaire environnement Estimation paramètres Controle π TR SA SATR Optimisation du rapport complexité / qualité
Plan • Introduction • Un calcul connexionniste • Contrôle optimal et apprentissage par renforcement • Apprentissage de représentation • Auto-organisation modulaire • Conclusions et perspectives
mauvaise représentation bonne représentation Apprentissage de représentation M
Apprentissage de représentation M4 M2 M3 M1 Avoir une seule représentation peut être insuffisant !
Apprentissage de représentations M4 M2 M3 M1
Une approche modulaire M4 M2 M3 M1
Description • L’apprentissage de représentation c’est : • L’auto-organisation modulaire c’est : Problème de classification : nuées dynamiques
Expérience 6 tâches à résoudre 3 modules
Expérience 3 2 1 Module 1 Module 3 Module 2