270 likes | 437 Views
Apprentissage. Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003. Introduction : Pourquoi ?. Approche classique de la conception d’un agent: « L’intelligence » de l’agent est entièrement introduite par le programmeur. MAIS:
E N D
Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003
Introduction : Pourquoi ? • Approche classique de la conception d’un agent: • « L’intelligence » de l’agent est entièrement introduite par le programmeur. • MAIS: • Le programmeur ne connaît pas toujours parfaitement l’environnement de l’agent. • Dans un tel cas, l’apprentissage peut être la seule façon pour un agent d’acquérir les compétences dont il a besoin. • N’est-ce pas là une réelle forme d’autonomie et par le fait même d’intelligence?
Introduction : Comment ? • Apprendre pour un humain: facile! • Pour une machine: difficile!!! • On aura besoin d’algorithmes précis et parfois complexes • L’apprentissage est un vaste domaine qui chevauche l’informatique, les statistiques et les domaines précis des applications
Plan de la présentation • L’apprentissage: aperçu général • Modèle général d’un agent qui apprend • Présentation de quelques techniques d’apprentissage • L’apprentissage dans les systèmes multi-agents • De l’apprentissage mono-agent à multi-agents • Qu’apprend un agent dans les SMA ? • Caractéristiques multi-agents des apprentissages • Conclusion
Objectifs de l’apprentissage • Acquisition d’une connaissance explicite par un système informatique • Construction de nouvelles connaissances ou amélioration de connaissances déjà existantes [inférence] • « Les perceptions [d’un agent] ne devraient pas seulement lui servir à choisir ses actions mais aussi à améliorer ses capacités à agir » [Russell & Norvig] Objectif :améliorer les performances du système
Modèle d’un agent qui apprend Standard de performance E n v i r o n n e m e n t Senseurs Unité de critique feedback changements Module de performance Module d’apprentissage connaissances objectifs d’apprentissage Générateur de problèmes Actions Agent Source: Russell & Norvig
Les formes d’apprentissage • Supervisé • Un exemple de « la bonne solution » est donné pendant une phase d’entraînement • Utilisé pour la classification, les régressions, estimation de probabilités conditionnelles • Par renforcement • Le système n’a pas accès à des exemples; il a cependant un feedback sur ses actions • Utilisé pour le contrôle des robots
Apprentissage supervisé - Exemple intuitif - Une image = profil d’un cas Anne Exemple test Jean ( , ?) Maude Qui est-ce? Eric Paul Ensemble des exemples d’entraînement {(visage, identité)} Source: Yoshua Bengio
Apprentissage supervisé- Exemple intuitif (plus proche voisin) - Choisir l’exemple d’apprentissage dont le « profil » (image) est le plus proche de celui de l’exemple test identité =Paul plus proche voisin Source: Yoshua Bengio
Apprentissage supervisé- Deux phases - • La phase d’entraînement • On présente des exemples au système • L’agent « apprend » à partir des exemples • La phase d’application (ou d’utilisation) • Nouvelles situations jamais vues auparavant • On demande à l’agent de généraliser ce qu’il a appris (faire un transfert)
Apprentissage supervisé - Généralisation - • Idée: mémoriser les paires (perception,action) pour ensuite s’en servir afin d’induire l’action à exécuter devant une situation nouvelle • On veut éviter que l’agent apprenne par cœur • Qu’il ne puisse que résoudre des problèmes qu’il a déjà vus • On veut un apprentissage qui lui permette de généraliser • Il doit savoir faire ressortir l’essence des exemples qu’il apprend
Apprentissage supervisé - Généralisation - • Principe de la généralisation par induction • Situation inconnue Induction de h, une approximation (maximisation de la vraisemblance) de la fonction f permettant d’associer une perception à une action • Évaluer h(nouvelle situation) action • Feedback mise-à-jour de la base de connaissances (ou d’exemples)
Apprentissage supervisé - Généralisation - Pointillé : la meilleure réponse possible étant donnée l’entrée (mais inconnue de l’apprenant) Chaque point: un exemple Sortie : valeur à prédire Entrée : profil du cas Source: Yoshua Bengio
Apprentissage supervisé - Généralisation - On apprend par cœurmais ça ne généralise pas bien de nouveaux cas. Erreur faible sur les exemples d’apprentissage mais élevée en test. Source: Yoshua Bengio
Apprentissage supervisé - Généralisation - On a choisi un modèle trop simple (linéaire): erreur élevée en apprentissage ET en test Source: Yoshua Bengio
Apprentissage supervisé - Généralisation - Le modèle est suffisamment flexible pour capturer la forme courbe Source: Yoshua Bengio
Apprentissage supervisé - Arbres de décision - • Un arbre de décision permet de représenter un ensemble de fonctions booléennes associées à une activité de prise de décision • Input: situation décrite par un ensemble de propriétés • Output: une décision (oui/non) relative à cette situation • Principe: Propriétés d’une situation Décision à prendre Décision (oui/non)
Apprentissage supervisé - Arbres de décision - Clients Vais-je attendre ??? Aucun Beaucoup Peu Non Oui Temps d’attente <10 >60 30-60 10-30 Non Oui J’ai faim Aller ailleurs Oui Non Oui Non Oui J’ai réservé Aller ailleurs Ven ou sam Oui Oui Non Oui Non Non Oui Non Oui Bar Oui Il pleut Non Oui Non Oui Non Oui Oui Non r Clients(r,Beaucoup) Temps d’attente(r,10-30) J’ai faim(r,Non) J’attends(r) Source: Russell & Norvig
Apprentissage supervisé - Apprendre des arbres de décision - • Ensemble d’entraînement • Série d’exemples dans lesquels toutes les propriétés d’une situation sont connues • Comment apprendre un arbre ? • Un exemple => un chemin dans l’arbre • Arbres trop gros • Quoi faire dans des situations inconnues ? • Trouver l’arbre minimal est incalculable • Des heuristiques permettent un compromis entre la taille de l’arbre et la difficulté de calcul
Apprentissage supervisé - Apprendre des arbres de décision - • Les heuristiques d’apprentissage • Classifier les exemples en considérant d’abord les variables les plus importantes: celles qui permettent d’obtenir une décision le plus rapidement • On continue d’introduire des variables permettant d’obtenir une décision à partir des conséquences de sa variable parent • Les exemples impertinents sont éliminés
Apprentissage supervisé - Application des arbres de décision - • Entraînement d’un simulateur de vol • Professeurs : 3 pilotes expérimentés • « Enseignement » : chacun répète 30 fois un vol prédéterminé • 90000 exemples sont créés • Les exemples sont décrits par 20 variables • Résultats • L’élève dépasse ses maîtres!!
Apprentissage supervisé - Réseaux de neurones - • Réseau composé de nœuds reliés entre eux par des arcs auxquels des poids sont associés Exemples
Apprentissage par renforcement • Apprentissage à l’aide d’exemples: • Professeur => exemples • Modèle de l’environnement => faire des prédictions • Fonction d’utilité => évaluer les actions • Mais si on a rien de tout ça ??? • Utiliser les feedback reçus • Aux échecs : gagner constitue une récompense • Au ping pong : chaque point devient une récompense Reinforcement learning
Apprentissage par renforcement Principe: Action Agent Perceptions Évaluation Environnement Positif? Il faut apprendre les meilleurs actions à poseretla façon d’évaluer les perceptions
Apprentissage par renforcement- Applications - • Joueur d’échecs (Samuel 1959-1967) • Utilisation d’une fonction linéaire permettant d’évaluer les différentes positions • Les poids dans cette fonction sont appris par reinforcement learning • Les décisions du joueur virtuel finissait par s’approcher de celles des bons joueurs • Robots • Utilisation dans les SMA
Résumé • L’agent apprend en observant: • l’effet de ses actions • Apprentissage par renforcement • une série d’exemples (supervisé) • Induction d’arbres de décision • Réseaux de neurones
Références • Bengio, Yoshua. Présentation sur les algorithmes d’apprentissage, www.iro.umontreal.ca/~bengioy • Russell, S. et Norvig, P. Artificial Intelligence A Modern Approach, Prentice-Hall, 1995, 932 pages.