1 / 21

Survol des arbres de d é cision dans SAS Enterprise Miner

Survol des arbres de d é cision dans SAS Enterprise Miner. Par Seng Tang, M.Sc. Consultant Analytique, SAS Canada Novembre 2011. Sondage sur les techniques de datamining les plus utilis ées. Source: Kdnuggets. Paru la semaine du 7 Novembre 2011. Objectif et issue de cette présentation .

makala
Download Presentation

Survol des arbres de d é cision dans SAS Enterprise Miner

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Survol des arbres de décision dans SAS Enterprise Miner Par Seng Tang, M.Sc. Consultant Analytique, SAS Canada Novembre 2011

  2. Sondage sur les techniques de datamining les plus utilisées Source: Kdnuggets. Paru la semaine du 7 Novembre 2011

  3. Objectif et issue de cette présentation • Objectif • Donner une compréhension de base de la méthode de modélisation prédictive qu’est l’arbre de décision en utilisant SAS Enterprise Miner • Issue • Vous allez finalement mieux comprendre vos collègues statisticiens / modélisateurs!! • Vous permettre de mieux discuter et échanger des résultats d’un arbre de décision • Stimuler votre intérêt envers la modélisation prédictive

  4. Une définition du Data Mining “The process of discovering new patterns from large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics and database systems” Source: "Data Mining Curriculum". ACM SIGKDD. 2006-04-30.

  5. Le concept de base derrière les arbres de décision • Tente de prédire les catégories d’une variable cible en utilisant d’autres variables dites explicatives • Partition récursive et hiérarchique d’un espace en sous-espaces dans le but de maximiser la séparation des catégories de la variable cible

  6. Exemple simple: Différentiation des hommes et des femmes en utilisant la grandeur et la longueur des cheveux Groupe de départ: 50% Homme / 50% Femme 1ièreséparation: Grandeur <1.60m >= 1.60m 30% Homme / 70% Femme 85% Homme / 15% Femme 2ièmeséparation: Longueur des cheveux < 30 cm >= 30 cm 70% Homme / 30% Femme 5% Homme / 95% Femme L’algorithme des arbres de décision choisi le « meilleur » point de séparation!!

  7. En d’autres mots… Si grandeur < 1.60m et longueur de cheveux < 30cm alors probabilité d’être une femme est de 0.3 sinon, si grandeur< 1.60m et longueur de cheveux > 30cm alorsprobabilité d’être une femme est de 0.95 sinon, si grandeur> 1.60m alorsprobabilité d’être une femme est de 0.15 Le code de « scoring » généré par SAS Enterprise Miner est similaire à cela!

  8. Un exemple plus complet en utilisant SAS Enterprise Miner • Employeur: Manufacturier automobile de luxe • Campagne Marketing pour cibler les clients propices à faire l’achat de la nouvelle sedan d’entrée de gamme • Il a été déterminé que les clients les plus propices ont un salaire annuel de plus de $50 000 • Des informations démographiques de 29 303 clients potentiels ont été amassées à l’aide de divers concours • Vous êtes en charge de construire un arbre de décision pour identifier les clients qui ont les plus grandes chances d’acheter la voiture

  9. Les données utilisées pour l’exemple Source: Le datasetAdultduUCI Machine Learning Repository (http://archive.ics.uci.edu/ml/index.html) Les variables retenues sont reliées aux aspects suivants: • L’âge • Statut d’emploi • Type d’emploi • Nombre d’heures de travail par semaine • Éducation • Statut Marital, Familial • Sexe • Pays d’origine • Salaire (50k ou moins)

  10. Construction de l’arbre de décision dans SAS Enterprise Miner Étape 1: Importer les données dans SAS Enterprise Miner et attribuer un rôle à chaque variable

  11. Construction de l’arbre de décision dans SAS Enterprise MinerÉtape 2: Création d’un échantillon d’entraînement et de validation. Ces échantillons seront utilisés pour construire et évaluer les performances du modèle.

  12. Construction de l’arbre de décision dans SAS Enterprise MinerÉtape 3: Exécution du nœud d’arbre de décision de SAS Enterprise Miner

  13. Construction de l’arbre de décision dans SAS Enterprise Miner Vue d’ensemble de l’arbre de décision obtenu

  14. Construction de l’arbre de décision dans SAS Enterprise Miner Regardons les détails de quelques séparations… À chaque séparation, l’algorithme tente de purifier les sous-ensembles obtenus!

  15. Construction de l’arbre de décision dans SAS Enterprise Miner Regardons les détails de d’autres séparations…

  16. Construction de l’arbre de décision dans SAS Enterprise Miner Plus de séparations…

  17. Construction de l’arbre de décision dans SAS Enterprise MinerÉtape 4: Produire le code SAS qui sera utilisé pour le « scoring »de chaque client

  18. Les « Pour » et « Contre » des arbres de décision • « Pour » : • Relativement facile à utiliser et à comprendre • Les résultats sont interprétables • « Contre » : • Peut être moins efficace que d’autres méthodes tels que les réseaux de neurones et les support vector machines Précision vs Interprétabilité!

  19. Les « take-aways » et Conclusion • Gardez en tête: • Le concept de base et la structure des arbres de décision • Les raisons d’utilisation de cet algorithme par rapport à d’autres méthodes plus puissantes

  20. Sources pour plus d’informations sur les arbres de décisions des publications SAS • Decision Trees for Business Intelligence and Data Mining Using SAS Enterprise Miner (Barry de Ville) • Predictive Modeling with SAS Enterprise Miner, Practical Solutions for Business Application (Kattamuri S. Sarma)

  21. Merci! Question(s)?

More Related