1 / 42

Introduction au datamining

Introduction au datamining. Patrick Naïm janvier 2006. Définition. Définition. Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des conclusions inexactes Exemple célèbre : parapyschologie

lise
Download Presentation

Introduction au datamining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Introduction au datamining Patrick Naïm janvier 2006

  2. Définition

  3. Définition • Historique • Mot utilisé au départ par les statisticiens • Le mot indiquait une utilisation intensive des données conduisant à des conclusions inexactes • Exemple célèbre : parapyschologie • Quelle est la définition du datamining ? • Procédons de façon inductive …

  4. Définitions du datamining • « Le datamining est le procédé qui consiste à découvrir des corrélations nouvelles et utiles, des régularités et des tendances en explorant de grands volumes de données stockées à l’aide de techniques statistiques, mathématiques, ou issues de la reconnaissance de formes. » (Gartner Group) • « Ensemble de techniques permettant d’extraire des modèles d’une base de données historisées par raisonnement statistique (déduction on induction approchées) afin de décrire le comportement actuel et/ou de prédire le comportement futur d’un procédé. » (Georges Gardarin, PRISM) • « Le datamining est l’extraction d’informations de grandes bases de données. Il s’agit du processus de présentation automatique de règles à des opérateurs qualifiés, pour examen. Ici l’humain joue un rôle essentiel car lui seul peut décider de l’intérêt d’une règle pour l’entreprise » (IBM) • « Le datamining est un processus d’analyse fine et intelligente des données détaillées, interactif et itératif, permettant aux managers d’activités utilisant ce processus de prendre des décisions et de mettre en place des actions sur mesure dans l’intérêt de l’activité dont ils ont la charge et de l’entreprise pour laquelle ils travaillent » (Michel Jambu , CNET, France Telecom) • « [Le datamining] est le processus non automatique de recherche dans les données de régularités a priori inconnues, stables, utiles, et interprétables » [1](Fayyad, Piatetsky-Shapiro & Smyth ,KDD) [1] “[Datamining is] the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data”

  5. Exemples d’applications • Détection de fraude sur carte bancaire • Achats croisés de couches et de bière • Classification des objets célestes • Localisation de gènes • Réduction de coûts des campagnes de mailing • Prévision sur les marchés boursiers • Détection de fraudes sur les marchés (COB)

  6. Segmentation • Regrouper les individus en groupes homogènes • Classification des objets célestes • Identifier des comportements d’achat « types »

  7. Association • Identifier les proximités entre caractéristiques observées • Achats croisés de couches et de bière • Détection de fraudes sur les marchés (COB)

  8. Classification • Expliquer ou prévoir une caractéristique (qualitative) à partir d’autres • Détection de fraude sur carte bancaire • Localisation de gènes • Réduction de coûts des campagnes de mailing • Sous-entendus • Relation explicite Y=F(X) • Prévoir X(t), et Y(t+1) • Incertitude Y=F(X)+

  9. Estimation • Expliquer ou prévoir une caractéristique (quantitative) à partir d’autres • Prévision sur les marchés boursiers • Prévision de consommation électrique • Estimation de la consommation d’un client

  10. Représentation des données • Transformation des données pour en avoir une vision plus synthétique • Opérations mathématiques explicites • Moyenne des consommations par mois • Opérations mathématiques implicites • Analyse en composantes principales • Visualisation • 2D, 3D, réalité virtuelle

  11. Organiser et synthétiser Représentation Segmentation Association Modéliser et prévoir Classification Estimation Caractérisation des applications Modélisation descriptive Modélisation prédictive

  12. Les problèmes traités par le datamining

  13. La démarche du datamining • La connaissance est dans les données … • C’est la démarche de la science expérimentale : modélisation empirique • Cette démarche suppose la stabilité des phénomènes : existence de lois • Les problèmes portent le plus souvent sur des données issues d’usages humains : les comportements sont instables • Le besoin existe surtout dans les phases d’instabilité !!

  14. Pourquoi utilise-t-on le datamining ? • En général, pour fonder une décision économique : • Détection de fraude sur carte bancaire • Achats croisés de couches et de bière • Classification des objets célestes • Localisation de gènes • Réduction de coûts des campagnes de mailing • Prévision sur les marchés boursiers • Détection de fraudes sur les marchés (COB) • La qualité de la décision est évaluée a posteriori

  15. Qualité d’une décision

  16. Notre définition du datamining • Dans le cadre d’une mission donnée, analyser les données détaillées pertinentes dont on dispose pour en déduire les actions les plus rationnelles, c’est-à-dire celles dont la rentabilité sera probablement la meilleure.

  17. Motivations

  18. Télécommunications Banque, Finance, Assurances Grande distribution, VPC, eCommerce Industrie Tourisme, Loisirs Santé, Génétique Industrie pharmaceutique Fidélisation clientèle (churn) Cross-selling, up-selling Détection de fraudes Marketing direct Sécurité etc. Secteurs et applications

  19. Pourquoi le datamining aujourd’hui ? • Environnement technique • Plus de données disponibles (puissance des ordinateurs) • Développement de l’internet • Environnement économique • Concurrence croissante (dérèglementation des télécommunications) • Personnalisation : développement du marketing 1-to-1

  20. Cadre théorique

  21. La démarche scientifique • Deux cadres mathématiques principaux • Géométrie • Probabilités • Ces deux cadres théoriques sont communs avec l’analyse de données …

  22. Cadre géométrique • Principe • Les données sont représentées dans un espace muni d’une métrique • Modélisation descriptive • Les données sont regroupées en fonction de leur proximité • Les conclusions sont tirées par l’observateur, sous sa responsabilité • Modélisation prédictive • Les nouvelles situations sont identifiées aux situations passées les plus proches • Outils mathématiques • Espaces vectoriels • Distance euclidienne • Inertie • Distances généralisées (dans d’autres espaces)

  23. Cadre probabiliste • Principe • Les données sont supposées issues d’une distribution jointe non observée • La distribution est estimée à partir des données • Modélisation descriptive • Les données sont résumées par la distribution estimée (dépendances et indépendances) • Modélisation prédictive • Les conséquences de nouvelles situations sont estimées en probabilité (P(Y|…)) • Outils mathématiques • Probabilités • Théorie de l’estimation

  24. Cadre théorique du datamining

  25. Les techniques utilisées

  26. Techniques utilisées en datamining • Plusieurs sources • Analyse de données • Probabilités / statistiques • Théorie de l’information • Intelligence artificielle • Base de données • Visualisation

  27. Techniques utilisées • AD • Analyse en composantes principales • Analyse discriminante • Classification ascendante hiérarchique • Intelligence artificielle • Réseaux neuronaux, réseaux bayésiens • Probabilités, théorie de l’information • Arbres de décision, réseaux bayésiens • Autres • Règles d’association • Filtrage collaboratif

  28. Techniques d’analyse des données • Analyse en Composantes Principales • Utilisée pour le prétraitement des données • Peut être couplée avec des techniques de segmentation et/ou classification • Analyse discriminante • Utilisée pour le prétraitement des données • Utilisée comme technique de classification

  29. Réseaux neuronaux • Modélisation du fonctionnement du système nerveux (années 1950) • Modèle du neurone • Modèle du réseau • Modèle de l’apprentissage • En pratique • Technique de régression non linéaire • Apprentissage = Minimisation d’erreur

  30. Réseaux bayésiens • Gestion de l’incertitude dans les systèmes experts (diagnostic médical) • Couplage • Théorie des graphes • Théorie des probabilités (Bayes) • Utilisation • Classification = Inférence P(Y|X) • Modélisation descriptive = Apprentissage P(M|D)

  31. Arbres de décision • La technique la plus classique du datamining • Basée sur la théorie de l’information • Minimisation itérative de l’entropie d’un ensemble de données • Avantages • Les modèles obtenus sont représentés sous forme de règles : Si Age>30 et Salaire>2000 alors Classe = 1 • Très utile en marketing

  32. Filtrage collaboratif

  33. Pratique du datamining

  34. Etapes du processus de datamining • Collecte des données • Nettoyage des données • Représentation des données • Modélisation • Evaluation • Suivi et mesure de la dérive

  35. 1 - Collecte des données • Avec la suivante, l’étape la plus longue du processus : • Sources et formats hétérogènes • Jointure • Volume • Répétabilité • La valeur ajoutée est dans l’exhaustivité • exemple : réclamations clients

  36. 2 – Nettoyage des données • Supprimer les valeurs aberrantes • Connaissance a priori (Age = 220) • Ecrêtage statistique • Traiter les valeurs manquantes : • Moyenne, moyenne conditionnelle

  37. 3- Représentation des données • Objectif : Obtenir un tableau : • Une ligne par observation, • Une colonne par variable • Difficultés • Variables • Agrégation (exemple : nombreux produits) • Données temporelles • Sélection • Individus • Représentativité

  38. 4- Modélisation • Segmentation des bases • Apprentissage, Test, Validation • Choix de la technique • Fabrication du modèle • En général 20% seulement du temps total

  39. 5 - Evaluation du modèle • Performances • Précision (base d’apprentissage) • Stabilité (base de validation) • Critère économique (sur les deux bases) • Comparaison avec un modèle de référence

  40. 6 - Suivi et mesure de la dérive • Sources d’erreur • Les modèles réalisés ne sont pas parfaits (univers incomplets) • Les relations changent dans le temps • Comment décider d’où vient l’erreur ? • Définition de critères objectifs pour réviser le modèle

  41. Plan des séances suivantes • S2 : Rappels mathématiques • Cadre géométrique • Cadre probabiliste • Mesures de performance • S3 : Segmentation • K-means, CAH, Cartes topologiques • S4 : Association • Market basket analysis, filtrage collaboratif, réseaux bayésiens • S5 : Classification • Arbres de décision, réseaux bayésiens • S6 : Estimation • Réseaux neuronaux

  42. Contact • Cours (ppt et pdf) www.elseware.fr/univevry • Email patrick.naim@elseware.fr

More Related