1 / 15

Les Arbres de décision ou régression

Les Arbres de décision ou régression. Contexte. Supposons que nous désirons comprendre ou expliquer le profil des gens qui achète un ordinateur. Pour ce faire, nous considérons les variables suivantes: Âge, revenu, étudiant ou non,cote de crédit

Download Presentation

Les Arbres de décision ou régression

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Les Arbres de décision ou régression

  2. Contexte • Supposons que nous désirons comprendre ou expliquer le profil des gens qui achète un ordinateur. Pour ce faire, nous considérons les variables suivantes: • Âge, revenu, étudiant ou non,cote de crédit • Quel raisonnement ou démarche fait-on naturellement pour établir ce profil?

  3. Les arbres de décision • Les arbres de décision sont utilisés pour la prédiction ou l’explication d’une variable cible (Y)(target variable, variable dépendante) à partir d’un ensemble de variable explicatives (X) (input variables, variables indépendantes) • Le principe des arbres de décision est de diviser l’ensemble des données d’apprentissage successivement en sous-groupes, selon les valeurs prises par les variables explicatives qui à chaque étape discrimine le mieux la variable cible.

  4. Le résultat est un ensemble de règles simples qui permettent de réaliser des prévisions, de segmenter la population ou d’identifier qu’elles sont les variables qui discriminent le plus la variable cible.

  5. Exemple

  6. Exemple d’un arbre de décision Achat:Non=5 Oui=9 Age:31-40 Non=0 Oui=4 Age<=30 Non=3 Oui=2 Age:>40 Non=2 Oui=3

  7. Achat: Non=5 Oui=9 Age:31-40 Non=0 Oui=4 Age<=30 Non=3 Oui=2 Age:>40 Non=2 Oui=3 Étudiant=oui Non=0 Oui=2 Étudiant=non Non=3 Oui=0

  8. Achat: Non=5 Oui=9 Age:31-40 Non=0 Oui=4 Age<=30 Non=3 Oui=2 Age:>40 Non=2 Oui=3 Crédit=bon Non=0 Oui=3 Crédit=exc. Non=2 Oui=0 Étudiant=oui Non=0 Oui=2 Étudiant=non Non=3 Oui=0

  9. Algorithmes et logiciels les plus répandus pour construire les arbres de décision: • CHAID  Chi-Square Automatic Interaction Detection (1975) • CART  Classification And Regression Trees (Breiman et al., 1984) • Knowledge seeker

  10. Algorithme • Pour chaque nœud de l’arbre: • Pour chacune des variables explicatives X, jumelage des modalités à partir du test du chi-carré. • Après le jumelage des modalités pour chaque X, Sélection de la variable X la plus fortement lié avec la variable cible Y, c.-à-d. p-value du test du chi-carré le plus petit. • Pour chaque nœud fils suivant, reprise des étapes a) et b) • Le processus s’arrête lorsque à tous les nœuds de l’arbre, les tests du chi-deux entre les variables X et Y sont tous non significatifs c.-à-d. p-value > 

  11. Conditions d’arrêt de la croissance de l’arbre • Développement de l’arbre complet: • toutes les observations dans le nœud appartiennent à la même classe de la variable cible; • il n’y a plus de variables explicatives X à considérer pour poursuivre la croissance de l’arbre; • trop peu d’observations dans le nœud pour poursuivre.

  12. L’élagage (pruning) • L’arbre complet est le meilleur, en terme de taux d’erreur, pour prédire la variable cible, pour l’ensemble des données d’apprentissage! • Qu’en est-il pour un nouvel ensemble de données? • L’arbre complet n’est probablement pas la meilleure solution! • Évaluer les sous-arbres: • Utiliser un échantillon de validation. • Utiliser la validation croisé.

  13. Avantages des arbres de décision • Règles simples et facilement interprétables. • Traitement des valeurs manquantes. • Aucun modèle et aucun présupposé à satisfaire.

  14. Désavantages • Peu performants lorsqu’il y a beaucoup de classes. • Taux d’erreurs élevés lorsqu’il y a des régions non rectangulaires • Peu faire de l‘overfit’ si on ne contrôle pas le nombre minimum d’observation par nœuds.

  15. Construire un arbre à partir d’excel • Nous pouvons générer un arbre manuellement à partir d’excel: • On utiliser la fonction ‘pivot tables’ pour obtenir nous comptes • On utilise les utilitaire graphiques d’excel. • Exemple.

More Related