580 likes | 770 Views
Agents apprenants pour l'intelligence ambiante. Sofia Zaidenberg Laboratoire d’Informatique de Grenoble Équipe Prima. Encadré par Patrick Reignier et James L. Crowley. Informatique ambiante. [Weiser, 1991] [Weiser, 1994] [Weiser et Brown, 1996]. Informatique ubiquitaire.
E N D
Agents apprenantspour l'intelligence ambiante Sofia Zaidenberg Laboratoire d’Informatique de Grenoble Équipe Prima Encadré par • Patrick Reignier et James L. Crowley Journée rfia : apprentissage et robotique
Informatique ambiante [Weiser, 1991] [Weiser, 1994] [Weiser et Brown, 1996] Informatique ubiquitaire Journée rfia : apprentissage et robotique
L’informatique ambiante • Dispositifs « autistes » • Indépendants • Hétérogènes • Inconscients • Système ubiquitaire • Accompagner sans s’imposer • En périphérie de l’attention • Invisible • Informatique calme Journée rfia : apprentissage et robotique
Problématique • Context-aware computing+Personnalisation • Situation + utilisateur action Perception Décision Alice Bob Journée rfia : apprentissage et robotique
Solution proposée Personnalisation par Apprentissage Journée rfia : apprentissage et robotique
Plan • Présentation du problème • Apprentissage dans les systèmes ubiquitaires • Système ubiquitaire • Apprentissage par renforcement du modèle de contexte • Expérimentations et résultats • Conclusion Journée rfia : apprentissage et robotique
Système proposé • Un assistant virtuel qui personnifiele système ubiquitaire • L’assistant • Perçoit le contexte grâce aux capteurs • Exécute des actions grâce aux actionneurs • Reçoit les retours de l’utilisateur pour l’entraînement • Adapte son comportement à ces retours (apprentissage) Journée rfia : apprentissage et robotique
Contraintes • Entraînement simple • Apprentissage rapide • Cohérence au départ • Life long learning • Confiance de l’utilisateur • Transparence [Bellotti et Edwards, 2001] • Système intelligible • Avoir un fonctionnement compris par l’utilisateur • Système « responsable » • Peut s’expliquer système s’adapte aux changements de l’environnement et des préférences Journée rfia : apprentissage et robotique
Exemple Rappel ! hyperion J109 J120 Journée rfia : apprentissage et robotique
Plan • Présentation du problème • Apprentissage dans les systèmes ubiquitaires • Système ubiquitaire • Apprentissage par renforcement du modèle de contexte • Expérimentations et résultats • Conclusion Journée rfia : apprentissage et robotique
Interconnexion des modules Capteurs Actionneurs applications applications Activitéclavier Emails Emails localisation Synthèsevocale présence Contrôledistant Journée rfia : apprentissage et robotique
Base de données • Regroupe • Connaissances statiques • Historique des événements et actions • Permet de fournir des explications • Centralisée • Interrogée • Alimentée • Simplifie les requêtes par tous les modules sur tous les dispositifs Journée rfia : apprentissage et robotique
Plan • Présentation du problème • Apprentissage dans les systèmes ubiquitaires • Système ubiquitaire • Apprentissage par renforcementdu modèle de contexte • Apprentissage par renforcement • Application de l’apprentissage par renforcement • Expérimentations et résultats • Conclusion Journée rfia : apprentissage et robotique
Rappel : nos contraintes • Entraînement simple • Apprentissage rapide • Cohérence au départ • Apprentissage à vie • Explications Supervisé [Brdiczkaet al., 2007] Journée rfia : apprentissage et robotique
Apprentissage par renforcement (AR) • Propriété de Markov • L’état à l’instant t ne dépend que de l’état à l’instant t-1 Journée rfia : apprentissage et robotique
Algorithme standard • q-Learning [Watkins, 1989] • Mise-à-jour des q-valeurs lors d’une nouvelle expérience{état, action, état suivant, récompense} • Lent car ne progresse que lorsque quelque chose se passe • A besoin de beaucoupd’exemples pour apprendre un comportement Journée rfia : apprentissage et robotique
Exemple Rapide Ouvrir la porte Loin de la porte+ Rapide = Modèle du monde Journée rfia : apprentissage et robotique
Architecture dyna [Sutton, 1991] dyna Switch Modèle du monde Monde État Récompense Action Agent Journée rfia : apprentissage et robotique
Modèle du monde Environnement Architecture dyna Interactionsréelles Mise-à-jour Mise-à-jour Utilisation Mise-à-jour Politique Politique Journée rfia : apprentissage et robotique
Modèle du monde Fonctionnement global Perception Politique État Mise-à-jour Interactionsréelles Action Action Récompense ? Exemple Exemple Utilisation Mise-à-jour Récompense Politique Base de données Environnement Journée rfia : apprentissage et robotique
Modèle du monde Modélisation du problème • Composants : • États • Actions • Composants : • Modèle de transition • Modèle de récompense Interactionsréelles Mise-à-jour Utilisation Mise-à-jour Politique Journée rfia : apprentissage et robotique
Modèle du monde L’espace d’états • États définis par des prédicats • Humainement compréhensibles (explications) • Exemples : • arrivéeEmail ( de = Marc, à = Bob ) • dansSonBureau ( John ) • État-action : • entrée( ) • Musique en pause Prédicats Interactionsréelles Mise-à-jour Prédicats système Utilisation Mise-à-jour Politique Karl <+> Prédicats environnement Journée rfia : apprentissage et robotique
L’espace d’états • Division d’états • arrivéeEmail( de= directeur, à= <+> ) • Notifier • arrivéeEmail(de = newsletter, à= <+> ) • Ne pas notifier Journée rfia : apprentissage et robotique
Modélisation du problème [Buffet, 2003] • Utilisateur état ? • Oui état non-observable • Problème non-markovien& Environnement stationnaire • Non état observable • Problème markovien & Environnement non-stationnaire • Apprentissage à vie • Évolutions peu fréquentes de l’environnement • Dyna adapté aux modèles imparfaits • Pdmpo oudec-pdmpo • Résolution exacte très complexe • Méthodes approximatives • Passage à l’échelle de problèmes réels difficile Journée rfia : apprentissage et robotique
Modèle du monde L’espace d’actions • Les actions possibles combinent • Transmettre un rappel à l’utilisateur • Informer d’un nouvel email • Verrouiller l’écran d’un ordinateur • Déverrouiller l’écran d’un ordinateur • Pauser la musique jouant sur un ordinateur • Relancer la musique jouant sur un ordinateur • Ne rien faire Interactionsréelles Mise-à-jour Utilisation Mise-à-jour Politique Journée rfia : apprentissage et robotique
Modèle du monde Récompenses • Récompenses explicites • Par une interface non intrusive • Problèmes récompenses utilisateur • Récompenses implicites • Collectées à partir d’indices(valeur numérique moindre) • Utilisation de traces d’éligibilité • Lissage du modèle Interactionsréelles Mise-à-jour Utilisation Mise-à-jour Politique Journée rfia : apprentissage et robotique
Modèle du monde Modèle de l’environnement • Construits par apprentissage supervisé • À partir d’exemples réels • Initialisés par le sens commun • Système fonctionnel immédiatement • Modèle initial vs. Q-valeurs initiales [Kaelbling, 2004] • Extensibilité Modèle de transition Modèle de récompense Modèle de récompense Interactionsréelles Mise-à-jour Utilisation Mise-à-jour Politique Journée rfia : apprentissage et robotique
Modèle de transition Modèle de transition Modèle de récompense Action ou événement s1 s2 + Probabilité États de départ Modifications Journée rfia : apprentissage et robotique
Modèle du monde Apprentissage supervisédu modèle de transition • La base de données contient des exemples{état précédent, action, état suivant} s s’ Mise-à-jour Interactionsréelles t1 t2 Utilisation Mise-à-jour t3 Politique … tn+1 s’ Journée rfia : apprentissage et robotique
Modèle du monde Fonctionnement global Perception Politique État Mise-à-jour Interactionsréelles Action Action Récompense ? Exemple Exemple Utilisation Mise-à-jour Récompense Politique Base de données Environnement Journée rfia : apprentissage et robotique
Modèle du monde Épisode • Un pas d’un épisode en 2 temps : • Sélection d’un événement qui modifie l’état • Sélection d’une action pour réagir à l’événement Mise-à-jour Interactionsréelles Utilisation Mise-à-jour Politique Journée rfia : apprentissage et robotique
Modèle du monde Environnement Épisode Expérience Q-Learning : mise à jour de Politique Mise-à-jour Interactionsréelles Modèle du monde Agent d’AR Utilisation Mise-à-jour Politique ou Politique Appris à partir d’interactions réelles Base de données Journée rfia : apprentissage et robotique
Plan • Présentation du problème • Apprentissage dans les systèmes ubiquitaires • Enquête grand public • Système ubiquitaire • Apprentissage par renforcement du modèle de contexte • Expérimentations et résultats • Conclusion Journée rfia : apprentissage et robotique
Expérimentations • Enquête grand public évaluation qualitative • Évaluations quantitatives en 2 étapes : • Évaluation de la phase initiale • Évaluation du système en fonctionnement normal Journée rfia : apprentissage et robotique
Évaluation n°1« autour de l’apprentissage initial » Journée rfia : apprentissage et robotique
Évaluation n°1« autour de l’apprentissage initial » Nombred’itérationspar épisode : Journée rfia : apprentissage et robotique
Évaluation n°2« interactions et apprentissages » Journée rfia : apprentissage et robotique
Évaluation n°2« interactions et apprentissages » Journée rfia : apprentissage et robotique
Plan • Présentation du problème • Apprentissage dans les systèmes ubiquitaires • Enquête grand public • Système ubiquitaire • Apprentissage par renforcement du modèle de contexte • Expérimentations et résultats • Conclusion Journée rfia : apprentissage et robotique
Contributions • Personnalisation d’un système ubiquitaire • Sans spécification explicite • Évolutive • Adaptation de l’apprentissage par renforcement indirectà un problème réel • Construction d’un modèle du monde • Injection de connaissances initiales • Mise en place d’un prototype Journée rfia : apprentissage et robotique
Perspectives • Analyse non-interactive des données • Interactions avec l’utilisateur • Phase de débriefing Journée rfia : apprentissage et robotique
Conclusion • L’assistant est un moyende faire une application d’intelligence ambiante • C’est l’utilisateur qui le rend intelligent Journée rfia : apprentissage et robotique
Merci de votre attention Questions ? Journée rfia : apprentissage et robotique
Bibliographie Journée rfia : apprentissage et robotique
Bibliographie Journée rfia : apprentissage et robotique
Interconnexion des modules Capteurs Actionneurs applications Activitéclavier applications Emails Emails localisation Synthèsevocale présence Contrôledistant Journée rfia : apprentissage et robotique
Service omiscid Journée rfia : apprentissage et robotique
Définition d’un état Journée rfia : apprentissage et robotique