1 / 25

Est -ce que les ordinateurs peuvent apprendre ?

Est -ce que les ordinateurs peuvent apprendre ?. Yoshua Bengio Labo Universitaire Bell Université de Montréal 21 septembre 2001. Apprentissage et nouvelles technologies. L’apprentissage: une caract éristique centrale de l’intelligence

lourdes
Download Presentation

Est -ce que les ordinateurs peuvent apprendre ?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Est-ce que les ordinateurs peuvent apprendre? Yoshua Bengio Labo Universitaire Bell Université de Montréal 21 septembre 2001

  2. Apprentissage et nouvelles technologies • L’apprentissage: une caractéristique centrale de l’intelligence • L’apprentissage: facile pour les humains, difficile pour les machines! • Les algorithmes d’apprentissage: nouvelles technologies, vaste domaine d’applications

  3. Aibo Taibo Robot-chien-jouet japonais avec de l’apprentissage par renforcement.

  4. Intelligence artificielle • Aibo réagit à son environnement • Il peut s’adapter en vue d’obtenir plus de renforcements positifs • Le contrôle de tous les moteurs est extrêmement complexe, • L’interprétation des signaux provenant des senseurs: aussi très complexe. • Robots: on ne sait pas comment lesprogrammer mais on peut dire quand ça marche.

  5. Aibo: Rôle de l’apprentissage • Apprentissage d’une identité • Propriétaire peut baptiser Aibo • Reconnaissance vocale • On peut lui apprendre quelques commandes simples • Apprentissage de comportements, grâce à des algorithmes d’apprentissage • On joue à la balle avec Aibo, et il développe l’intérêt pour jouer à la balle

  6. Algorithmes • Algorithme • « Recette » pour faire accomplir une tâche à un ordinateur • Par ex.: trier une liste, faire une recherche dans une base de données, calculer √2 • Sujet d’étude de l’informatique • On programme un algorithme dans un langage de programmation (Java, C++…) • Informatique classique: définition de la tâche + solution mathématique algorithme

  7. Alternative: programmer par l’exemple… Une image = profil d’un cas Anne Exemple test Jean ( , ?) Maud Qui est-ce? Eric Paul Ensemble des exemples d’entraînement {(visage, identité)}

  8. Algorithme du plus proche voisin Choisir l’exemple d’apprentissage dont le ‘profil’ (image) est le plus proche de celui de l’exemple test identité =Paul plus proche voisin

  9. Pourquoi l’apprentissage? • Si on a pas assez de connaissances explicites pour obtenir un algorithme qui résout le problème • Mais on a beaucoup d’exemples de la tâche à accomplir (base de données = exemples) • Exemples: • Reconnaissance de visages/caractères/voix • Prise de décision • finance • marketing • Estimation • du risque de crédit, de probabilité de fraude • de primes d’assurance • Etc…

  10. Où se situe le machine learning • Intersection de l’informatique, statistiques et domaines particuliers statistiques informatique Domaine d’application

  11. Deux phases dans l’apprentissage • Entraînement (supervisé) • On présente des exemples au système • Le système « apprend » à partir des exemples • Le système modifie graduellement ses paramètres ajustables pour que sa sortie ressemble à la sortie désirée • Utilisation • Nouveaux exemples jamais vus auparavant • On demande au système de GÉNÉRALISER

  12. Types de problèmes • Classification • Dire si l’entrée appartient à une certaine CLASSE • Y a-t-il un visage, oui ou non? • De qui est-ce le visage? (parmi un nombre fini) • Régression • Faire une prédiction à partir d’un exemple • Prédire la valeur de la bourse demain,étant donné les valeurs des jours et mois passés • Estimation de densité • A-t-on déjà vu cet exemple (ou un exemple similaire)? • Quelles sont les K catégories principales de données?

  13. Formes d’apprentissage/ feedback • Supervisé • On donne “la bonne réponse” pendant l’entraînement • Le plus efficace, car fournit plus d’informations • Utile pour classification,régression, estimation de probabilité conditionnelle (quelle est la probabilité qu’un client avec tel profil achète tel produit?) • Renforcement • On ne donne PAS la bonne réponse,le système fait une hypothèse, et on lui dit “bon / pas bon” • Utile pour le contrôle de robots (Aibo) • Non supervisé • Ex: quelles sont les catégories principales de clients typiques? (segmentation du marché)

  14. Généraliser est difficile • On ne veut pasapprendre par cœur • Bonne réponse sur exemples d’entraînement seulement • Facile pour un ordinateur (un fichier de données) • Difficile pour les humains (on force nos enfants…) • Apprendre en vue de généraliser • Plus intéressant! • FONDAMENTALEMENT plus difficile: plusieurs façons de généraliser • On doit extraire l’essence, la structure dans les données,et pas seulement apprendre la bonne réponse pour quelques cas

  15. Exemple: on tire des données Pointillé = la meilleure réponse possible étant donnée l’entrée (mais inconnue de l’apprenant) Sortie = valeur à prédire Chaque point= un exemple Entrée = profil du cas

  16. Overfitting On apprend par cœur mais ça ne généralise pas bien à de nouveaux cas. Erreur faible sur les exemples d’apprentissage mais élevée en test.

  17. Underfitting On a choisi un modèle trop simple (linéaire): erreur élevée en apprentissage ET en test (pointillé)

  18. Un « bon modèle » Le modèle est suffisamment flexible pour capturer la forme courbe mais pas trop pour obtenir de l’overfitting.

  19. Malédiction de la dimensionalité • L’apprentissage peut devenir de plus en plus difficile au fur et à mesure que le nombre de caractéristiques de chaque cas augmente. • Exemple: profils des clients ciblés Chaque case contient le nombre de cas rencontrés. Nombre D’appels 1 2 1 On peut dresser ce genre de table aussi pour les autres clients, puis comparer les deux tables à la case correspondant à un nouveau cas. 1 4 3 9 2 2 6 1 1 Nombre de cases = # cat. durées fois # cat. appels = 6 x 5 2 6 2 8 2 15 3 1 1 Durée des appels

  20. Malédiction de la dimensionalité • Si le nombre de caractéristiques est 100 et que chaque caractéristique peut prendre 10 valeurs, alors le nombre de cases (profils différents) est 10 x 10 x 10 … x 10 = 10 • Ce nombre étant astronomique, même le grand nombre de clients de Bell Canada en est une infime fraction(sans compter que les clients ciblés sont très minoritaires). • La plupart des cases seront donc vides. La plupart des cases non-vides contiendront seulement 1 cas. • Pour généraliser il faut donc découvrir une structure plus vaste (regarder le plus proche voisin ne suffit pas), ce que beaucoup de cas ont en commun. 100

  21. Battre la malédiction! • Certains algorithmes d’apprentissage modernes prétendent faire face à ce défi: • Réseaux de neurones artificiels • Support vector machines • Adaboost • L’idée de base: utiliser un modèle flexible mais qui permet de résumer l’information dans les données. Si il existe des régularités dans les données alors ce type de modèle a de bonnes chances de les capturer. • Réseaux de neurones: découvrir des projections intéressantes des données.

  22. Estimation de probabilité • Détection de fraude: • Estimer la distribution de probabilité des cas ordinaires. Quand un client a un profil qui est très différent (cas peu probable), envoyer un signal. • Marketing ciblé: • Prédire avec quel probabilité un client avec un certain profil sera intéressé par un nouveau produit X. On pourra concentrer les efforts de marketing sur les clients avec probabilité élevée. • Entrée = profil du client • Sortie = probabilité d’un évènement

  23. Infrastructure pour l’analyse de donnéees • ESSENTIEL: pour que de telles applications fonctionnent, il faut • une grande quantité de données, • bien structurées(bases de données accessibles aux autres départements de l’entreprise) • uniformisation de la capture de données à travers l’entreprise. • Expertise sur le domaine (e.g. marketing) • Expertise en statistique / algorithmes d’apprentissage

  24. Meilleure estimation, meilleur profit • Le modèle estime P(achat|profil) • On peut estimer les coûts impliqués dans le contact marketing et le gain futur découlant de l’achat • Ça nous donne le profit ou la perte espérée: on peut donc ordonner les clients et choisir un seuil de profit.

  25. Pour en savoir plus… • Yoshua Bengio dirige le LISA (laboratoire d’informatique des systèmes adaptatifs) • Chaire de Recherche du Canada sur les Algorithmes d’Apprentissage Statistique • http://www.iro.umontreal.ca/~bengioy • Yoshua.Bengio@umontreal.ca • Chez Bell: Alan Bernardi, Krzystof Dzieciolowski, Oryal Tanir, Rick Booth.

More Related