1 / 24

Apprendre à partir des observations

Apprendre à partir des observations. Chap. 18 Section 1 – 3. Plan. Apprentissage Inductif Apprentissage par arbre de décision. Apprendre. La capacité d ’ apprendre est essentielle pour des environnements inconnus, i.e., quand le concepteur manque de l ’ omniscience

ursula
Download Presentation

Apprendre à partir des observations

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Apprendre à partir des observations Chap. 18 Section 1 – 3

  2. Plan • Apprentissage Inductif • Apprentissage par arbre de décision

  3. Apprendre • La capacité d’apprendre est essentielle pour des environnements inconnus, • i.e., quand le concepteur manque de l’omniscience • L’apprentissage est utile comme méthode de construction de système, • i.e., exposer l’agent à la réalité plutôt que d’essayer d’écrire tout • L’apprentissage modifie les mécanismes d’agent pour prendre des décisions afin d’améliorer la performance

  4. Apprentissage inductif • Forme la plus simple: apprendre une fonction des exemples f est la fonction cible Un exemple est une paire (x, f(x)) Problème: trouver une hypothèse h telle que h ≈ f Étant donné un ensemble d’entraînement d’exemples (C’est un modèle très simplifié par rapport à l’apprentissage réel: • Ignore les connaissances a priori • Suppose que les exemples sont donnés)

  5. Méthode d’apprentissage inductif • Construire/ajuster h afin de conformer à l’ensemble d’entraînement • (h est consistante si elle est conforme à toutes les données) • E.g., fiter une courbe:

  6. Inductive learning method • Construire/ajuster h afin de conformer à l’ensemble d’entraînement • (h est consistante si elle est conforme à toutes les données) • E.g., fiter une courbe:

  7. Inductive learning method • Construire/ajuster h afin de conformer à l’ensemble d’entraînement • (h est consistante si elle est conforme à toutes les données) • E.g., fiter une courbe:

  8. Inductive learning method • Construire/ajuster h afin de conformer à l’ensemble d’entraînement • (h est consistante si elle est conforme à toutes les données) • E.g., fiter une courbe:

  9. Inductive learning method • Construire/ajuster h afin de conformer à l’ensemble d’entraînement • (h est consistante si elle est conforme à toutes les données) • E.g., fiter une courbe:

  10. Apprendre des arbres de décision Problème: décider si on doit attendre pour une table à un restaurant, basé sur les attributs suivants • Alternate: Est-ce qu’il y a des restaurants alternatifs proches? • Bar: Est-ce qu’il y a un bar confortable pour attendre? • Fri/Sat: Est-ce qu’on est vendredi ou samedi? • Hungry: Avons nous faim? • Patrons: nombre de personnes dans le restaurant (None, Some, Full) • Price: zone de prix ($, $$, $$$) • Raining: est-ce qu’il pleut dehors? • Reservation: Avons nous une réservation? • Type: Type de restaurant (French, Italian, Thai, Burger) • WaitEstimate: Temps d’attente estimé (0-10, 10-30, 30-60, >60)

  11. Représentations basées sur des attributs • Exemples décrits par des valeurs d’attribut (booléen, discret, continu) • E.g., pour l’attente d’une table: • Classification des exemples (des décisions) en positif (T) ou négatif (F)

  12. Arbre de décision • Une représentation possible des hypothèses • E.g., un arbre pour décider si on attend:

  13. Capacité d’expression • Un arbre de décision peut exprimer toute expression des attributs en entrée • E.g., pour des fonctions booléennes, ligne de table de vérité → chemin vers feuille: • On peut “stocker” tous les exemples, en créant un chemin pour chaque exemple. Mais cette représentation n’est pas compact et ne généralise pas. • Préfère trouver un arbre plus compact

  14. Espace d’hypothèses Combien d’arbres distincts avec n variables booléenne? = nombre de fonctions booléennes = nombre de tables de vérités distinctes avec 2n lignes = 22n • E.g., avec 6 attributs booléens, il y a 18,446,744,073,709,551,616 arbres

  15. Espace d’hypothèses Combien d’arbres distincts avec n variables booléenne? = nombre de fonctions booléennes = nombre de tables de vérités distinctes avec 2n lignes = 22n • E.g., avec 6 attributs booléens, il y a 18,446,744,073,709,551,616 arbres Combien d’hypothèses purement conjunctives (e.g., Hungry  Rain)? • Chaque attribut peut être dedans (positive), dedans (negative), or dehors  3n hypothèses conjonctives distinctes • Espace d’hypothèses plus expressif • Augmenter la chance que la fonction cible soit exprimée • Augmenter le nombre d’hypothèses consistantes à l’ensemble d’entraînement  Peut faire des prédictions moins bonnes

  16. Apprendre un arbre de décision • But: trouver un arbre de décision petit, et consistant avec tous les exemples d’entraînement • Idée: choisir (récursivement) l’attribut ”le plus significatif" comme racine de (sous) arbre

  17. Choisir un attribut • Idée: un bon attribut peut diviser les exemples en sous ensembles plus consistants, idéalement seulement des “positives” et seulement des “négatives” • Patrons? est-il un meilleur choix?

  18. Utilier la théorie d’information • Contenu d’information (entropie): I(P(v1), … , P(vn)) = Σi=1 -P(vi) log2 P(vi) • Pour un ensemble d’entraînement contenant p exemples positifs et n exemples négatifs: • E.g. I(1/2, 1/2) = -1/2 log1/2 -1/2 log1/2 = 1 (bit) I(2/8, 3/8, 3/8) = -2/8 log2/8 - 3/8 log3/8 - 3/8 log3/8

  19. Gain d’information • Un attribut choisi A divise l’ensemble d’entraînement E en sous ensembles E1, … , Ev selon leur valeur de A, où A av valeurs distinctes. • Gain d’information (IG) ou réduction d’entropie due à l’attribut en question: • Choisir l’attribut dont le IG est le plus grand

  20. Gain d’information Pour un ensemble d’entraînement, p = n = 6, I(6/12, 6/12) = 1 bit Considérer les attributs Patrons et Type (et les autres aussi): Patrons a le plus grand IG parmi tous les attributs. Il est donc choisi comme la racine (par l’algorithme DTL)

  21. Exemple contd. • Arbre de décision appris des 12 exemples: • Beaucoup plus simple que des arbres réels • Une hypothèse plus complexe n’est pas vraiment justifié par le petit nombre de données

  22. Mesure de performance • Comment peut-on savoir si h ≈ f ? • Utiliser des théorèmes de théories d’apprentissage computationnelles/statistiques • Essayer h sur un autre ensemble de test Courbe d’apprentisage = % cas corrects dans l’ensemble de test en fonction de taille d’entraînement

  23. Mesure de performance • La courbe dépend de • Réalisable (peut exprimer la fonction cible) ou non • Non réalisabilité peut être due aux attributs manquants ou à la classe d’hypothèse restreinte (e.g. fonction linéaire avec seuil) • Expresions redondantes (surcharge d’attributs non pertinents)

  24. Sommaire • Apprendre pour les environnements inconnus, concepteurs “paresseux” • Pour apprentissage supervisé. Le but est de trouver une hypothèse simple consistante approximativement aux exemples d’entraînement • Arbre de décision: utiliser le gain d’information • Performance d’apprentissage = précision de prédiction mesurée sur un ensemble de test

More Related