Algorithmes de Curiosité Adaptative en Apprentissage Auto-Supervisé

Algorithmes deCuriosité Adaptative en Apprentissage Auto-Supervisé Adrien Baranès InriaBordeaux Sud-Ouest Equipe-Projet Flowers Université P.&M. Curie, Paris

Robotique traditionnelle Utilisation d’un modèle du monde Machine capable de très bien effectuer un nombre limité de taches Robotique développementale Modèle du monde non nécessaire Machine capable de bien effectuer un nombre de taches non limité Apprentissage du fonctionnement de l’espace des configurations

Développement Mental chez la Machine Développement Mental Humain Environnement physique réel Développement prénatal Développement postnatal Développement mental autonome Programme développemental du génome Esprit à la naissance Esprit adulte Programme développemental dans l’esprit de la machine jeune Programme développemental dans l’esprit adulte

Développement Mental Autonome ? Comment l’ enfant s’intéresse t-il aux choses ? Comment différencier différentes situations ? Qu’est-ce qui rend une situationintéressante? Qu’est-ce que la curiosité ?

Motivations intrinsèques : Théories en psychologie White (1959) : Exposition des formes basiques de motivations Berlyne (1960), Csikszentmihalyi (1996) : Recherche de situations nouvelles, surprenantes, incongrues, cognitivement dissonantes… Anxiété Position optimale de Flow Challenges Ennui Qualifications

Motivations intrinsèques : Neurosciences Dayan & Belleine (2002), Kakade and Dayan (2002) : Les circuits dopaminergiques pourraient être impliqués dans le contrôle de comportements d’exploration et de recherche de nouveauté • Horvitz (2000) : • Certaines réponses dopaminergiques peuvent être interprétées comme signalant des erreurs en prédictions sensorielles • Sutoo & Akiyama (2004) • Découverte de l’augmentation de la transmission de dopamine lors d’une écoute musicale

Comment implémenter un système de Motivations Intrinsèques dans un Robot ?

Avoir envie de rechercher, d’explorer ce qu’on ne sait pas Qu’est-ce qu’être curieux ? Un robot peut-il savoir qu’il ne sait pas ?

Le monde vu par le Robot Instant t Instant t+1 Signal sensoriel 1 Machine de Prédiction Signal sensoriel 2 (Réseaux neuronaux, k-ppv, SVM..) … Signal moteur 1 Signal moteur 2

Quantité d’apprentissage Prédiction de l’état sensoriel pour l’instant t+1 S’(t+1) Erreur en prédiction : E(t) = (S’(t+1) – S(t+1))² - Evaluation des performances immédiates Etant sensoriel réel à l’instant t+1 S(t+1)

Progrès en apprentissage : Diminution des Erreurs ? Erreur de prédiction Sommes nous dans un même contexte sensorimoteur ? Dans une unique situation ? Temps Notion d’Intérêt On calcule la dérivée des erreurs au cours du temps

Découpe récursive de l’espace sensorimoteur

Découpe récursive de l’espace sensorimoteur Vocalisation Vision Marche Ecoute

Algorithme IAC :Curiosité AdaptativeIntelligente

Objectifs Proposer des moyens de découpe capable de correspondre aux différences entre les situations Explorer les régions sensorimotrices permettant un progrès en apprentissage maximal Présenter différents moyens de visualisation pour comprendre le fonctionnement de l’algorithme Comment sélectionner l’action qui apporte le plus de progrès ?

Mode de découpe des régions : Selon les Variances

Mode de découpe des régions : Selon les Dérivées Taux d’erreur Temps

Espace Sensorimoteur 1D Niveau de difficulté de l’apprentissage Bruit Difficulté croissante Bruit Sorties Entrées Sensorimotrices

Mode de découpe des régions

Méthodes d’exploration Dans 30% des cas : Exploration Uniforme, Sinon : Meilleure Dérivée Dérivées Proportionnelles Minimisation de l’Erreur en Exploration Minimisation de l’Erreur en Exploitation Considération de l’ennui Exploration prudente

Comparaison des résultats Mode de comparaison des résultats : le Taux d’Erreur Base de comparaison : Exploration uniforme de l’espace 4% Uniforme 0.5% Meilleure dérivée 1000 Nombre d’itérations 10000

Comparaison des résultats Mode de sélection : Dérivées proportionnelles 4% Uniforme Meilleure dérivée Dérivées proportionnelles 0.5% 1000 Nombre d’itérations 10000

Comparaison des résultats Mode de sélection : Minimisation de l’erreur en Exploration Uniforme 4% Meilleure dérivée Dérivées proportionnelles 0.5% Minimisation de l’erreur 1000 Nombre d’itérations 10000

Aspect Comportemental Temps total passé à l’apprentissage de l’espace sensorimoteur Difficulté croissante Itérations Espace Sensorimoteur

Découpe de l’espace sensorimoteur

Conclusion et Perspectives Mode de découpe de régions sensorimotrices Politiques de choix des régions Outils de visualisation du comportement de l’IAC Analyse du comportement de l’algorithme dans des dimensions supérieures Effectuer des taches de Visual-Servoing & comparaison avec les algorithmes existants Lien avec la théorie des options

Algorithmes de Curiosité Adaptative en Apprentissage Auto-Supervisé

Algorithmes de Curiosité Adaptative en Apprentissage Auto-Supervisé

Presentation Transcript

How long can left and right handed life forms coexist?

Auto Extrication Safety for the Rescuer

Introduction à l’ Apprentissage Artificiel

Hypersensibilités, inflammation, autoimmunité

Différentes approches de l’enseignement et de l’apprentissage

Global Auto Industry

EPA Design for the Environment (DfE) Training: Best Practices for Auto Refinishing

La ou les mémoire(s) et les troubles d’apprentissage Une approche neuropsychologique

Analyse des algorithmes: une introduction

Auto-ID Center Connecting the world

Avionics and Aircraft Electrical Systems

TED CAR

INTUBATION DIFFICILE EN 2010

Auto-ID Center

Auto CAD 2004 강의 – 기초에서 활용까지

as

Mécanismes moléculaires de l’apprentissage et de la mémoire

Les phénomènes d’apprentissage moteur.

Neurobiologie de l’apprentissage

Les signes radiologiques précoces de l’AVC ischémique

Detroit Auto Show

Detroit auto show 2018 rocked by 5 concept vehicles