1 / 30

Data Mining: Concepts et Techniques

Data Mining: Concepts et Techniques. Plan du Cours. Introduction Règles d’association Classification et prédiction Regroupement (Clustering) Extraction de types complexes Applications du Datamining et tendances actuelles (génomique). Chapitre 1. Introduction.

Download Presentation

Data Mining: Concepts et Techniques

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data Mining: Concepts et Techniques

  2. Plan du Cours • Introduction • Règles d’association • Classification et prédiction • Regroupement (Clustering) • Extraction de types complexes • Applications du Datamining et tendances actuelles (génomique)

  3. Chapitre 1. Introduction • Motivation: Pourquoi le Data mining? • Ce qu’est le Data mining? • Data Mining: Sur quels types de données? • Fonctionnalités du Data mining • Intérêt des motifs (patterns) • Classification des systèmes de Data mining • Problèmes rencontrés

  4. Motivation: Le besoin crée l’invention • Problème de l’explosion de données • Les outils automatiques de collecte de données font que les Bases de Données (BD’s) contiennent énormément de données (Ex: La base de données des transactions d’un super marché) • Beaucoup de données mais peu de connaissances ! • Solution: Data warehousing et data mining • Data warehousing et OLAP (On Line Analytical Processing) • Extraction de connaissances intéressantes (règles, régularités, patterns, contraintes) à partir de données

  5. Evolution des Bases de Données • 1960s: • Collecte des données, création des BD’s, IMS et le modèle réseau • 1970s: • Modèle et SGBD’s relationnels, SQL, transactions, OLTP • 1980s: • Modèles de données et SGBD’s avancés (relationnel étendu, OO, déductifs, etc.) et SGBD’s dédiés (spatial, génomique, engineering, etc.) • 1990s—2000s: • Data mining et data warehousing, BD’s multimédia, BD’s sur le WEB

  6. Ce qu’est le Data Mining • Data mining : • Extraction d’informations intéressantes (non triviales, implicites, préalablement inconnues et potentiellement utiles) à partir de grandes bases de données. • Autres appellations: • ECD (Extraction de Connaissances à partir de Données) • KDD (Knowledge Discovery from Databases) • Analyse de données/patterns, business intelligence, fouille de données, etc …

  7. Pourquoi faire ? Applications potentielles • Analyse de données et aide à la décision • Analyse de marché • Marketing ciblé, gestion des relations client, analyse des achats des clients, ventes croisées, segmentation du marché • Analyse de risque • Détection de fraudes • Autres Applications • Text mining : news groups, emails, documents Web. • Optimisation des requêtes

  8. Analyse de marché et management (1) • Les sources de données à analyser ? • Transactions avec carte de crédit, carte de fidélité, sondages • Marketing ciblé • Trouver un « modèle » pour regrouper les clients partageant les mêmes caractéristiques. Pour chaque groupe, adopter une démarche marketing particulière • Analyse croisée • Associations/co-relations entre ventes de produits • Prédiction basée sur ces associations

  9. Applications • L’analyse d’une BD de transactionsd’un supermarché permet d’étudier le comportement des clients : • réorganiser les rayons • Ajuster les promotions • En VPC, regrouper les clients selon certains critères : • Cibler les « mailings » • L’analyse de données médicales : • Support pour la recherche • L’analyse de données financières : • Prédire l’évolution des actions • Organismes de crédit (dresser des profils de clients)

  10. Applications • Détection de fraudes • en santé, services de cartes de crédit, télécommunications, etc. • Approche • Utiliser les données historiques pour construire des modèles de comportements frauduleux puis utiliser les techniques de datamining pour retrouver des instances similaires • Exemples • Assurances auto: détecter les personnes qui collectionnent les accidents et les remboursements • Blanchiment d’argent: détecter les transactions suspectes (US Treasury's Financial Crimes Enforcement Network)

  11. Applications • Astronomie • Le laboratoire JPL a découvert 22 quasars en utilisant les techniques de datamining • Web • IBM a appliqué des algorithmes de data mining pour réorganiser leurs sites WEB afin de faciliter la navigation. • Améliorer le WEB marketing

  12. Datamining: Un processus dans l’ECD Connaissance Evaluation de patterns • Data mining: étape clé dans l’extraction de connaissances Data Mining Données intéressantes Sélection Data Warehouse Nettoyage de données Intégration Bases de données ou fichiers

  13. Etapes du processus d’ECD • Comprendre le domaine d’application • Création d’un ensemble de données (sélection) • Nettoyage et pré-traitement des données (peut prendre 60% de l’effort) • Choix des fonctionnalités du data mining • classification, consolidation, régression, association, clustering. • Choix de(s) l’algorithme(s) d’extraction • Datamining: Recherche des motifs (patterns) intéressants • Evaluation des Patterns et présentation • visualisation, transformation, suppression des patterns redondants, etc. • Utilisation de la connaissance extraite

  14. Architecture typique d’un système de Data mining Interfacegraphique Evaluation des motifs Module Data mining Base de connaissances BD ouDatawarehouse Nettoyage & intégration Filtrage Data Warehouse BD’s

  15. Datamining: sur quels types de données • BD’s relationnelles • Data warehouses • BD’s transactionnelles • BD’s avancées • BD’s objet et objet-relationnelles • BD’s spatiales • Séries temporelles • BD’s Textes et multimedia • BD’s Hétérogènes • WWW

  16. Fonctionnalités du Data Mining • On distingue deux grandes familles de tâches réalisées en datamining • Description : consiste à trouver les caractéristiques générales relatives aux données fouillées • Prédiction : consiste à faire de l’inférence à partir des données actuelles pour prédire des évolutions futures

  17. Quels types de motifs extraire ? (1) • Description de concepts: Caractérisation et discrimination • Caractérisation : Il s’agit de trouver des descriptions concises et précises de certains concepts. Ex: On a une table décrivant les clients d’une entreprise. • Contraster (régions sèches vs humides)

  18. Quels types de motifs extraire ? (2) • Association (corrélation et causalité) • age(X, “20..29”) & revenu(X, “200..300KF”) à achète(X, “PC”) [support = 2%, confiance = 60%] • contient(T, “ordinateur”) à contient(T, “logiciel”) [1%, 75%]

  19. Quels types de motifs extraire ? (3) • Classification et Prédiction • Trouver des modèles (fonctions) qui décrivent et distinguent des concepts pour de futures prédictions • Ex : classifier les pays en se basant sur leurs climats, les voitures selon leurs carburants • Présentation: Arbres de décision, règles de classification, réseaux neuronaux • Prédiction: Prédire des valeurs inconnues • Démarche: • On prend un échantillon (jeu d’essai) dans lequel chaque objet est associé à une classe • Analyser chaque classe (son contenu) pour pouvoir ensuite affecter chaque objet nouveau à une classe particulière

  20. Quels types de motifs extraire ? (4) • Analyse de groupes (clusters) • Appelée aussi classification non supervisée • Le regroupement est basé sur le principe: maximiser la similarité intra-groupe et la minimiser entre groupes distincts • Le nom de chaque groupe est inconnu

  21. Quels types de motifs extraire ? (5) • Analyse d’exceptions • Les objets non conformes à la tendance générale • Une exception peut être considérée comme du bruit mais aussi comme indice de fraude • Analyse de tendances • Tendance et déviation: analyse de régression • Extraction de séquences séquentiels, analyse de périodicités

  22. Est-ce que tous les motifs découverts sont utiles? • Un système de data mining peut générer des milliers de motifs pas tous intéressants. C’est quoi un motif intéressant ? • Mesure d’intérêt : Un motif est intéressant s’il est facilement compréhensible, a un degré de certitude, nouveau, peut servir à valider (ou invalider) une hypothèse utilisateur • Mesure Objective vs. Subjective : • Objective: basée sur des mesures statistiques : support, confiance, etc. • Subjective: basée sur le point de vue de l’utilisateur sur les données, ex: le fait que cela soit inattendu, nouveauté, actionnabilité, etc.

  23. Peut-on trouver tous et queles motifs intéressants? • Trouver tous les patterns intéressants: Complétude • Association vs. classification vs. regroupement • Trouver que les patterns intéressants: Optimisation • Approches • D’abord les trouver tous puis filtrer • Ne générer que les motifs intéressants

  24. Data Mining: Confluence de plusieurs Disciplines Statistique Technologie BD Data Mining Apprentissage Visualisation Théorie de l’information Autres Disciplines

  25. Classification des systèmes (1) • Fonctionnalité générale • Data mining descriptif • Data mining prédictif • Différentes vues, différentes classifications • Types de BD’s à fouiller • Types de connaissances à découvrir • Types de techniques utilisées • Application ciblée

  26. Classification des systèmes (2) • BD fouillée • Relationnelle, transactionnelle, orienté-objet, object-relationnelle, active, spatiale, séries temporelles, texte, multi-media, hétérogènes, WWW, etc. • Connaissance recherchée • Association, classification, clustering, tendance, analyse de déviation, etc. • Multiples fonctions aux différents niveaux • Techniques utilisées • BD, data warehouse (OLAP), apprentissage, statistiques, visualisation, réseaux de neurones, etc. • Applications • télécommunication, banque, analyse de fraude, ADN, finance, Web, …

  27. Problématiques • Méthodologie et interaction • Différents types de connaissances à extraire • Prise en compte des connaissances des experts • Langages de requête et data mining ad-hoc • Expression et visualisation des résultats • Prise en compte des données incomplètes ou avec bruit • Évaluation des motifs: notion d’intérêt • Performance et mise en échelle • Efficacité des algorithmes • Méthodes Parallèles, distribuées et incrémentales • Diversité des types de données • Relationnels, objets complexes, texte, …

  28. Résumé • Data mining: Découverte de motifs intéressants à partir de grandes quantités de données • Une évolution naturelle de la technologie des SGBD, très demandée par diverses applications • Un processus d’ECD inclut les étapes: nettoyage, intégration, sélection, transformation, data mining, évaluation des patterns, présentation de la connaissance • La fouille peut se faire sur différents types d’entrepôts de données • Fonctionnalités: discrimination, association, classification, clustering, analyse de tendances, etc. • Classification de SDM • Problématiques du data mining

  29. Quelques systèmes • Intelligent miner d’IBM (couplé avec le SGBD DB2) • Classification, association, régression, analyse de séquences, regroupement • Entreprise miner de SAS • Multiples outils d’analyse statistique, classification, … • Mine set de Silicon graphics. • Classification, association et divers outils statistiques. Très puissant en terme de visualisation • Clémentine de SPSS • En plus des fonctionnalités classiques, l’utilisateur peut y rajouter ses propres algorithmes • DBMiner de DBMiner technologie. • Il se distingue par le fait qu’il incorpore les fonctionnalités d’OLAP

  30. Bibliographie Titre: Datamining : Concepts and techniques. Auteurs : Jiawei Han & Micheline Kamber Editeur : Morgan Kaufmann 2000

More Related