Algorithmes de Curiosité Adaptative en Apprentissage Auto-Supervisé

Algorithmes deCuriosité Adaptative en Apprentissage Auto-Supervisé Adrien Baranès InriaBordeaux Sud-Ouest Equipe-Projet Flowers Université P.&M. Curie, Paris

Robotique traditionnelle Utilisation d’un modèle du monde Machine capable de très bien effectuer un nombre limité de taches Robotique développementale Modèle du monde non nécessaire Machine capable de bien effectuer un nombre de taches non limité Apprentissage du fonctionnement de l’espace des configurations

Développement Mental chez la Machine Développement Mental Humain Environnement physique réel Développement prénatal Développement postnatal Développement mental autonome Programme développemental du génome Esprit à la naissance Esprit adulte Programme développemental dans l’esprit de la machine jeune Programme développemental dans l’esprit adulte

Développement Mental Autonome ? Comment l’ enfant s’intéresse t-il aux choses ? Comment différencier différentes situations ? Qu’est-ce qui rend une situationintéressante? Qu’est-ce que la curiosité ?

Motivations intrinsèques : Théories en psychologie White (1959) : Exposition des formes basiques de motivations Berlyne (1960), Csikszentmihalyi (1996) : Recherche de situations nouvelles, surprenantes, incongrues, cognitivement dissonantes… Anxiété Position optimale de Flow Challenges Ennui Qualifications

Motivations intrinsèques : Neurosciences Dayan & Belleine (2002), Kakade and Dayan (2002) : Les circuits dopaminergiques pourraient être impliqués dans le contrôle de comportements d’exploration et de recherche de nouveauté • Horvitz (2000) : • Certaines réponses dopaminergiques peuvent être interprétées comme signalant des erreurs en prédictions sensorielles • Sutoo & Akiyama (2004) • Découverte de l’augmentation de la transmission de dopamine lors d’une écoute musicale

Comment implémenter un système de Motivations Intrinsèques dans un Robot ?

Avoir envie de rechercher, d’explorer ce qu’on ne sait pas Qu’est-ce qu’être curieux ? Un robot peut-il savoir qu’il ne sait pas ?

Le monde vu par le Robot Instant t Instant t+1 Signal sensoriel 1 Machine de Prédiction Signal sensoriel 2 (Réseaux neuronaux, k-ppv, SVM..) … Signal moteur 1 Signal moteur 2

Quantité d’apprentissage Prédiction de l’état sensoriel pour l’instant t+1 S’(t+1) Erreur en prédiction : E(t) = (S’(t+1) – S(t+1))² - Evaluation des performances immédiates Etant sensoriel réel à l’instant t+1 S(t+1)

Progrès en apprentissage : Diminution des Erreurs ? Erreur de prédiction Sommes nous dans un même contexte sensorimoteur ? Dans une unique situation ? Temps Notion d’Intérêt On calcule la dérivée des erreurs au cours du temps

Découpe récursive de l’espace sensorimoteur

Découpe récursive de l’espace sensorimoteur Vocalisation Vision Marche Ecoute

Algorithme IAC :Curiosité AdaptativeIntelligente

Objectifs Proposer des moyens de découpe capable de correspondre aux différences entre les situations Explorer les régions sensorimotrices permettant un progrès en apprentissage maximal Présenter différents moyens de visualisation pour comprendre le fonctionnement de l’algorithme Comment sélectionner l’action qui apporte le plus de progrès ?

Mode de découpe des régions : Selon les Variances

Mode de découpe des régions : Selon les Dérivées Taux d’erreur Temps

Espace Sensorimoteur 1D Niveau de difficulté de l’apprentissage Bruit Difficulté croissante Bruit Sorties Entrées Sensorimotrices

Mode de découpe des régions

Méthodes d’exploration Dans 30% des cas : Exploration Uniforme, Sinon : Meilleure Dérivée Dérivées Proportionnelles Minimisation de l’Erreur en Exploration Minimisation de l’Erreur en Exploitation Considération de l’ennui Exploration prudente

Comparaison des résultats Mode de comparaison des résultats : le Taux d’Erreur Base de comparaison : Exploration uniforme de l’espace 4% Uniforme 0.5% Meilleure dérivée 1000 Nombre d’itérations 10000

Comparaison des résultats Mode de sélection : Dérivées proportionnelles 4% Uniforme Meilleure dérivée Dérivées proportionnelles 0.5% 1000 Nombre d’itérations 10000

Comparaison des résultats Mode de sélection : Minimisation de l’erreur en Exploration Uniforme 4% Meilleure dérivée Dérivées proportionnelles 0.5% Minimisation de l’erreur 1000 Nombre d’itérations 10000

Aspect Comportemental Temps total passé à l’apprentissage de l’espace sensorimoteur Difficulté croissante Itérations Espace Sensorimoteur

Découpe de l’espace sensorimoteur

Conclusion et Perspectives Mode de découpe de régions sensorimotrices Politiques de choix des régions Outils de visualisation du comportement de l’IAC Analyse du comportement de l’algorithme dans des dimensions supérieures Effectuer des taches de Visual-Servoing & comparaison avec les algorithmes existants Lien avec la théorie des options

Algorithmes de Curiosité Adaptative en Apprentissage Auto-Supervisé

Algorithmes de Curiosité Adaptative en Apprentissage Auto-Supervisé

Presentation Transcript

STATUS OF THE INDIAN AUTOMOTIVE AND AUTO-COMPONENT INDUSTRY

An Introduction to Digital Camera Signal Processor

Fiscal Year End Cutoff Dates

Développement cognitif mémoire et apprentissage

EPA Design for the Environment (DfE) Training: Best Practices for Auto Refinishing

Introduction à l'Apprentissage Artificiel

Différentes approches de l’enseignement et de l’apprentissage

Module I : Apprentissage de l’exercice médical (2) Cours DCEM 3 Année 2009-2010 Pr Jean-Luc CHOPARD

REPERAGE et DEPISTAGE DES TROUBLES D’APPRENTISSAGE

3D Auto CAD 3ds Max

Vers un système de vision auto-adaptatif à base de systèmes multi-agents.

Les troubles d’apprentissage spécifiques

Copian Brancher les Canadiens dans l’apprentissage

Raphaël LECA UFRSTAPS DIJON raphael.leca@wanadoo.fr

Apprentissage automatique et notions connexes

中国汽车零部件企业竞争力分析 China Auto Component Manufacturers’ Competitiveness Analysis 倪威 Wilson Ni

Auto CAD 2004 강의 – 기초에서 활용까지

Échec , erreur, et apprentissage en éducation physique et sportive

Módulo de Auto Aprendizaje :

Auto-tuning Performance on Multicore Computers

Vers un système de vision auto-adaptatif à base de systèmes multi-agents.

Paris Auto Show