1 / 51

Romaric CHARTON Directeurs de thèse : Anne BOYER et Jean-Paul HATON

Des agents intelligents dans un environnement de communication multimédia : vers la conception de services adaptatifs. Romaric CHARTON Directeurs de thèse : Anne BOYER et Jean-Paul HATON Directeur entreprise : Michel LEDERMAN Mardi 2 décembre 2003.

barto
Download Presentation

Romaric CHARTON Directeurs de thèse : Anne BOYER et Jean-Paul HATON

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Des agents intelligents dans un environnement de communication multimédia : vers la conception de services adaptatifs Romaric CHARTON Directeurs de thèse : Anne BOYER et Jean-Paul HATON Directeur entreprise : Michel LEDERMAN Mardi 2 décembre 2003

  2. Les services de communication multimédia Service :"Ce que l'on fait pour être utile, à titre onéreux ou non" (Larousse 1998). Mon étude : services réalisés sur des supports et réseaux informatiques • qui utilisent des médias de communication divers : • le téléphone, • la messagerie électronique, • le web, etc. • pour permettre de : • passer une commande en ligne, • rechercher une information, • gérer un portefeuille de titres boursiers, etc.

  3. Approche Agent Systèmes Multi-Agents hétérogènes (h-SMA) • Indices • satisfaction • coûts • Communication multimédia • applications concrètes • environnements incertains • déroulement • préférences de l'utilisateur Interactions dans les h-SMA Théorie des probabilités (Modélisation stochastique) Théorie de l'utilité Apprentissage Positionnement des travaux Fournir des services adaptatifs Acteurs Évaluation Adaptation Nature des services

  4. Plan de l'exposé Contexte et problématique 1 Approche théorique 2 Les services de recherche d'informations 3 Mise en œuvre des propositions 4 Conclusion et perspectives 5

  5. Partie 1 - Contexte et problématique Contexte et problématique 1 Approche théorique 2 Les services de recherche d'informations 3 Mise en œuvre des propositions 4 Conclusion et perspectives 5

  6. 1 Collaboration avec la société DIALOCA • Création : octobre 1996 à Paris • Domaine : Gestion de la relation client et langage naturel • Clients : Danone, Ministère de l'Intérieur, PSA, CNP, TopTrades, etc. • Large palette d'applications Multimédia, interactives et grand public • accès au web par téléphone, • support de bornes interactives et de centres d'appels, • gestion de télé-réunions ... • Plate-forme UniMédia

  7. E-Nots : notification téléphonique démarrage Moteurs Synthèse de parole Reconnaissance de parole Authentification ... Pilotes Destinataire (abonné) Expéditeur Web E-Mail Téléphone Fax SGBD ... 1 Déroulement d'un service sur la plate-forme UniMédia Applications PMMU Administration

  8. Scripts (automates finis déterministes) • Complexité (cas particuliers / erreurs) • Modèle implicite et figé de l'utilisateur • Besoin de connaissances expertes + contrainte : garder l'existant Services adaptatifs 1 Objectifs de la collaboration • Objectifs (utiliser des méthodes IA) • Faciliter la conception et le déroulement des applications • Adapter leur exécution au comportement de l'utilisateur et à ses préférences Comportement d'un agent Applications existantes (scripts statiques) Plate-forme UniMédia

  9. Environnement Actions Perceptions Satisfaction • comportementutile Capteurs Effecteurs Agent Agent à rationalité limitée(Russell et Norvig 1995) 1 Pourquoi une approche agent ? • Besoin de propriétés : • autonomie • prise de décisions • communiquer • gérer des connaissances • gérer des ressources Comportement

  10. Un choix classique : Notre choix plus "orienté" vers les services adaptatifs U = R - C Réussite de la tâche accomplie du point de vue du concepteur Réussite de la tâche accomplie du point de vue des utilisateurs Coûts d'utilisation des ressources (propres / détenues par des tiers) 1 Utilité et évaluation des services Nombreux indices possibles  difficile à définir Problème : Comment mesurer la satisfaction de l'utilisateur ? Approximation : une valeur numérique associée actions de l'utilisateur  Idée que l'agent estime son utilité à partir de ses perceptions des autres ...

  11. Un Système Multi-Agent (SMA) Interaction Interaction Environnement buts compatibles Coopération objets capacités individuelles insuffisantes Collaboration coordonnée 1 Systèmes Multi-Agents(Ferber 1995) Réaliser un service de façon collective

  12.   ? A quelle heure mon avion part-t-il ? ,? Langage L A Langage L B Agent A Agent B Contrainte : Sachant que A et B ne sont pas "modifiables" Comment faire interagir A et B ? Et si A est un humain ? 1 Communication et hétérogénéité • Difficultés de l'interaction Homme-SMA (Grislin-LeSturgeon et Peninou 1998) • comment déterminer ce que A veut ? • comment prévoir son comportement ? • que préfère-t-il ? ...

  13. 1 Problématique générale Scientifique Comment coordonner un ensemble d'agents hétérogènes pour réaliser coopérativement une tâche ? Applicative Comment faciliter la conception et le contrôle de services adaptatifs ? Difficultés à prendre en compte • Interaction avec des agents humains • Applications réelles  environnements incertains • Réponse à des besoins industriels

  14. Partie 2 - Approche Théorique Contexte et problématique 1 Approche théorique 2 Les services de recherche d'informations 3 Mise en œuvre des propositions 4 Conclusion et perspectives 5

  15. Environnement logiciel A L N N N Environnement physique A P Agents contrôlés A C Comparables à UniMédia C P Agents partiellement contrôlés A PC Experts, sites partenaires, ... C C P C Agents non-contrôlés A NC Utilisateurs, clients, ... P P Liens d'interaction 2 Les Systèmes Multi-Agents hétérogènes (h-SMA) • Ensemble A d'agents de nature très différente : humains, logiciels, etc. • Partition selon la nature des agents et de leur environnement • Partition selon l'influence et le degré de connaissance que l'on a sur les agents

  16. 2 Une solution au problème de l'hétérogénéité Introduire un agent coordinateur pour amener A et B à coopérer en modifiant leurs interactions. Langage L B Langage L A Agent A Besoins Agent C Coordinateur Agent B Capacités Coordination : colle qui lie des activités(Gelernter et Carriero 1992)

  17. Statique Dynamique Automates : programmes, scripts, règles, etc. Planification Apprentissage Modèle connu explicitement Expériences ou traces Connaissances implicites du concepteur Monde de l'agent 2 Comment obtenir le comportement du coordinateur ?

  18. Debut : SEQ{ send, NULL, "debut.mod", SEQ {PARAMS}, SEQ {BRANCH} }; Etape_Demande : SEQ { getstrings, NULL, "demande.mod", SEQ {PARAMS}, SEQ{ BRANCH , SEQ { ReturnCode, SEQ{"Media_IF_TypeUnknown", Etape_Demande }, SEQ{"Media_UserInactivity", Etape_Demande }} } }; ... Langage de scénarisation UniMédia Automate de comportement Attente Recevoir demande Abstraction Demande à traiter Analyse FAQ Réponse Connue Échec Envoyer réponse Transmettre question Recevoir réponse Attente ... 2 D'un coordinateur à base de scripts ...

  19. G 1 : Comportement de l'utilisateur G 2 : Comportement du coordinateur G 3 : Comportement d'un expert Attente Besoin Attente Liens d'interaction Recevoir demande Recevoir demande Poser question Demande à traiter ... Traiter la demande Attente Échec Envoyer réponse Analyse FAQ Réponse trouvée Transmettre question Recevoir réponse Envoyer réponse Réponse Connue Recevoir réponse Attente ... ... Utilisateur (A PC) Coordinateur (A LC) Expert (A PPC) 2 ... à des schémas d'interaction

  20. instanciation Structure organisationnelle Organisation concrète subordination ? • Endosser un rôle : • satisfaire des contraintes sur ses capacités • adopter un comportement typique ? ? Rôles 2 Comment structurer les relations ? Organisation : agencement de relationsentre composants ou individus qui produit une unité, ou système, dotée de qualités inconnues au niveau des composants ou individus. (Ferber 1995)

  21. Rôles génériques Coordination simple S S S U Utilisateur Recherche d'informations et assistance à la navigation C Coordinateur C C S Source U U U T Traitement Traitement intelligent de l'information Diagnostic, filtrage ... S S S S Télé-réunion C T C U U U U U 2 Structures organisationnelles et classes de service

  22. Partie 3 - Les services de recherche d'informations Contexte et problématique 1 Approche théorique 2 Les services de recherche d'informations 3 Mise en œuvre des propositions 4 Conclusion et perspectives 5

  23. 3 Assistance à la recherche d'information Source Contraintes : • Utilisateurs : occasionnel, novice • Sources d'informations : non propriété, coût Objectif : Améliorer la qualité du service fourni par rapport à la recherche classique Utilisateur Coordinateur Source Source

  24. Ne sait pas formuler sa requête Souhait : réserver un vol de Paris à Moscou Fournit trop de résultats, bruits ... Source d'informations Requête Interaction Résultats Coordinateur 3 Exemple de problème : le choix d'un vol Client

  25. 3 Rôle de l'agent coordinateur Ses buts : • Construire une requête correspondant le plus au besoin de l'utilisateur • Fournir des résultats appropriés à l'utilisateur • Maximiser son utilité : • Maximiser la satisfaction de l'utilisateur • Minimiser les coûts liés à la source d'information • A tout moment, il peut • Poser une question à l'utilisateur au sujet de la requête • Envoyer la requête à la source d'information • Proposer des résultats à l'utilisateur en nombre limité En retour, il perçoit les réponses des autres agents : valeurs, résultats, sélections, rejets …

  26. 3 Coordination et stratégies de coordination Coordination : Contrôle d'une séquence d'interactions (questions-réponses) Réussie : • Sélection d'un résultat • Absence de résultat constatée au niveau de la source Problème : Comment obtenir le comportement de coordination adéquat ? Stratégie de coordination : Façon de choisir les actions pour coordonner la suite des interactions. Solution proposée : Trouver une stratégie de coordination optimale

  27. 3 Caractéristiques du coordinateur Gérer l'incertitude et les connaissances incomplètes • Utilisateurs : • Mauvaise compréhension des questions • Connaissance partielle de leurs besoins • Environnement : • Bruits pendant la communication • Capteurs imparfaits Proposition : • Modéliser la coordination avec un Processus de Décision Markovien • Calculer un comportement stochastique de coordination

  28. Modèle Stochastique <S,A,T,R> 0.5 0.5 • États S={s0,s1,s2} 0.4 a1 • Actions A={a0,a1} s0 a1 s1 0.9 a0 • Transition T : S  A  S  [0;1] avec T(s,a,s') = P (s'|s,a) a0 0.1 0.3 0.5 0.6 0.5 0.8 a1 0.2 0.7 s2 • Optimiser la récompense espérée a0  : Attenuation 3 Processus de Décision Markovien (MDP) • Décider selon une politique  : S  A  [0;1] • Récompense R : S  A  S  IR Calculer une stratégie de coordination revient à Calculer une politique stochastique

  29. 3 Un MDP pour contrôler les interactions Environnement du coordinateur Définir • S : L'espace d'états • A : Les actions du coordinateur • T : Les transitions • R : Les récompenses Utilisateur Source Suite d'interactions (MDP à contrôler) T S, R A Coordinateur

  30. 3 Etats : Comment décrire les requêtes et les objets ? Approche de remplissage de formulaire(Goddeau et al. 1996) : Référentiel construit sur un ensemble d'attributs Ref = { At 1, … , At m } • Exemple de référentiel : • Départ :{ Londres, Genève, Paris, Berlin, … } • Arrivée:{ Pékin, Moscou, New-York, … } • Classe :{Première,Affaire, Économique, ... }

  31. sR sU • La requête partielle courante de l'utilisateur • sU = { ( ea 1 , val 1 ) ; ... ; ( ea m , val m ) } • État d'un attribut : • Ouvert ea = ‘?’ val est inconnue • Affecté ea = ‘A’ val est affectée • Fermé ea = ‘F’ val est inconnue et ne peut plus être demandée S=SUSR • L'ensemble des objets connus qui correspondent à la requête courante • s R = { vol 1; ... ; vol r} •  Espace d'états S = SUSR • S U est l'ensemble des requêtes partielles utilisateur • S R est l'ensemble des parties des objets de la source d'informations 3 Utilisateur Source Espace d'états S Coordinateur

  32.  Une idée : une abstraction S de l'espace d'états Spour définir le MDP en conservant : s U {?, A, F} m l'état d'affectation des m attributs dans s U • s R {?, 0, +, *} la quantité de réponses sur s R Nombre de réponses qr = ? Inconnu (vide) qr = 0 qr = + qr = * 0 nrmax 3 Abstraction des états (S S) Taille de l'espace d'états S : (2 n +1) (2+i) m • n : nombre total d'objets de la source d'information • m : nombre d'attributs • i : nombre moyen de valeurs par attribut  Taille de l'espace d'états abstrait S : 4  3m

  33. Question Requête ou résultats • Poser une question sur un attribut à l'utilisateur • Exemple pour la classe de voyage : • Valuation : “En quelle classe souhaitez-vous voyager ?” • Proposition : “Voulez-vous voyager en classe [affaire] ?” • Confirmation : “Êtes-vous sûr de vouloir voyager en classe [économique] ?” • Interroger la source d'informations • Demander à l'utilisateur de sélectionner un résultat 3 Actions du coordinateur Utilisateur Source Coordinateur

  34. Sélection, déconnexion Réponses • par l'interaction avec l'utilisateur • + R selection l'utilisateur sélectionne une proposition • - R timeout l'interaction est trop longue (déconnexion / seuil) • par l'interaction avec la source d'informations • + R noresp pas de réponses pour une requête totalement spécifiée • - R overnum trop de réponses (quantité de réponses s R = *) 3 Récompenses Utilisateur Source Elles sont obtenues : Coordinateur

  35. 3 Exemple de coordination pour la réservation de vol Légende : Utilisateur Coordinateur Source

  36. 3 Calculer la stratégie de coordination Problème : Deux parties du modèle restent inconnues ! • T = f (utilisateur, source d'information) • R = f (utilisateur, source d'information)  Apprendre la stratégie de coordination par renforcement

  37. Renforcement (récompenses) Q(s,a) a Besoin d'une méthode d'apprentissage en ligne  Algorithme du Q-Learning (Watkins 1989) qui fonctionne par la mise à jour de Q-Valeurs (Q : S  A  IR) V(s) V(s') s s' 3 Apprentissage par Renforcement(Sutton et Barto 1998) Transition Observation Système Dynamique Action

  38. Etat Abstrait Gestionnaire des profils utilisateurs Récompenses Actions sélectionnées Préférences Mise à jour Réponses et sélections Résultats Requêtes Questions et résultats 3 Architecture du coordinateur Agent Coordinateur Module de Décision (Q-Learning) Module de Représentation (état réel) Gestionnaire d'Interactions Agent Utilisateur Agent Source d'Information

  39. 0,05 0,2 0,75 p(classe) Première Affaire Economique 3 Gestion des préférences des utilisateurs Ensemble de profilsProf = { prof 0 , prof 1 , ... , profn } avec un profil par défaut prof 0 pour les nouveaux utilisateurs. Un profil prof i • mémorise, pour chaque attribut At i , la probabilité p ( v k | prof i , At j ) que cet utilisateur préfère la valeur v k • est initialisé avec des distributions uniformes • est mis à jour à la sélection d'une proposition

  40. Partie 4 -Mise en œuvre Contexte et problématique 1 Approche théorique 2 Les services de recherche d'informations 3 Mise en œuvre des propositions 4 Conclusion et perspectives 5

  41. UniMédia Modélisation Applications Service (rôles et classes de service) U C S T Agent (nature / contrôlabilité) Moteurs et pilotes Ressource (capteurs / effecteurs) Média Média (canaux média et "prises") 4 Modélisation d'UniMédia Objectif : Se doter d'un modèle conceptuel pour fournir les services dans les h-SMA Proposition :Une modélisation agent à 4 niveaux Utilisation : • sur les services Dialoca • pour des applications de l'équipe MAIA (Diatélic, Cycab, ...)

  42. 4 Implantation de la maquette SmallMu Objectifs : Pouvoir travailler sur un agent logiciel contrôlé reproduisant ou émulant les fonctionnalités nécessaires Réalisation : • Une bibliothèque fournissant un corps d'agent capable d'accueillir • un cerveau pour le comportement, • des membres pour percevoir et agir. • Un ensemble de membres dédiés à l'environnement multimédia : • Reconnaissance et synthèse de parole, • E-Mail, • SMS (émulé) Utilisation :Prototype de coordinateur pour la réservation de vol

  43. 4 Expérimentations sur l'application de réservation de vol Entraînement du coordinateur avec • 3 attributs (villes de départ/arrivée et classe) • 4 attributs (+ période de la journée de départ) • 5 attributs (+ la compagnie aérienne) Croissance de la complexité en fonction du nombre des attributs :

  44. 4 Résultats d'apprentissagetaux de coordinations réussies • 3 et 4 attributs 99% de coordinations réussies (proche de l'optimum) • 5 attributs 90% de réussite (plus de temps nécessaire pour converger)

  45. 4 Résultats d'apprentissagelongueur moyenne de coordination • 3 et 4 attributs longueur minimale de la coordination atteinte • 5 attributs coordination plus longue

  46. 4 Critique des comportements obtenus • Grand nombre d'interactions nécessaires • besoin d'une phase d'apprentissage préalable Problème : difficulté d'obtenir un corpus de traces d'interaction réelles • utilisation d'un utilisateur simulé avec un comportement naïf Constats : + stratégie optimale obtenue / adaptation au comportement simulé - manque de richesse dans les stratégies de coordination Futur : Simulateur d'utilisateurs réels  comportements plus intéressants

  47. Partie 5 – Conclusion et perspectives Contexte et problématique 1 Approche théorique 2 Les services de recherche d'informations 3 Mise en œuvre des propositions 4 Conclusion et perspectives 5

  48. 5 Conclusion Rattachement à un mouvement récent utilisant l'apprentissage par renforcement pour des applications réelles avec des humains. • Aspect stratégie de coordination • Apports • Possibilité d'apprendre ces stratégies par renforcement en utilisant des MDP • Réponse aux besoins du plus grand nombre comme du particulier avec les profils • Limites • Observabilité partielle de l'utilisateur au travers des perceptions de l'agent • Baisse des performances pour des tâches plus complexes • Aspect modélisation logicielle • Apports : • Passage à une approche "orientée utilisateur" pour les services • Solution incrémentale

  49. 5 Perspectives • Utiliser d'autres modèles/méthodes probabilistes : • Apprendre à partir de politiques pré-établies • Apprendre en généralisant le modèle (DynaQ, Classifieurs) • Approche POMDP (Q-learning modifié, Gradient de Baxter) • Pour résoudre des tâches plus complexes • Reformuler l'espace d'états abstrait pour mieux guider le processus dans l'espace réel. • Décomposition hiérarchique (H-MPD et H-POMDP) avec une gestion des dépendances entre les attributs • Passage à plusieurs sources et aux autres classes de services • Composition de services (plusieurs coordinateurs)

  50. 5 Références (Ferber 1995) Ferber J., Les Systèmes Multi-Agents. Vers une intelligence collective. Interéditions, 1995. (Gelernter et Carriero 1992) Gelernter D. et Carriero N., Coordination Languages and Their Significance. Communications of the ACM, n°35(2), pp. 96-107, 1992. (Grislin-LeSturgeon et Peninou 1998) Grislin-Le Sturgeon E. et Péninou A., Les interactions Homme-SMA : réflexions et problématiques de conception. Systèmes Multi-Agents de l'interaction à la Socialité. Dans JFIADSMA'98, Hermès, pp. 133-145, 1998. (Goddeau et al. 1996) Goddeau D., Meng H., Polifroni J., Seneff S., Busayapongchaiy S., A Form-Based Dialogue Manager For Spoken Language Applications, In Proceedings of ICSLP'96, Philadelphia, 1996. (Larousse 1998)Le petit Larousse 1998, Larousse-Bordas, 1998. (Russell et Norvig 1995) Russell S. et Norvig P., Artificial Intelligence: A Modern Approach, The Intelligent Agent Book. Prentice Hall Series in Artificial Intelligence, 1995. (Sutton et Barto 1998) R. S. and Barto A. G. Reinforcement Learning: An Introduction. MIT Press Cambridge MA, 1998. (Watkins 1989) Watkins C., Learning from Delayed Rewards. PhD Thesis of the King's College, University of Cambridge, England, 1989.

More Related