1 / 50

Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

Data Warehouse and Datamining Entrepôts de Données et Fouille de Données. Université d'Alexandrie, Faculté de Commerce, les 17 et 18 Décembre 2011. Plan. Introduction Entrepôts de données Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données

wei
Download Presentation

Data Warehouse and Datamining Entrepôts de Données et Fouille de Données

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data Warehouse and DataminingEntrepôts de Données et Fouille de Données • Université d'Alexandrie, Faculté de Commerce, les 17 et 18 Décembre 2011

  2. Plan • Introduction • Entrepôts de données • Datamarts • Architecture • Modélisation • Bases de données multidimensionnelles • Fouille de données • Marché du décisionnel

  3. Le contexte • Besoin: prise de décisions stratégiques et tactiques • Pourquoi: besoin de réactivité • Qui: les décideurs (non informaticiens) • Comment: répondre aux demandes d’analyse des données, dégager des informations qualitatives nouvelles Pourquoi et comment le chiffre d’affaire a baissé? Qui sont mes meilleurs clients? A combien s’élèvent mes ventes journalières? Quels algériens consomment beaucoup de poisson?

  4. Les données utilisables par les décideurs • Données opérationnelles (de production) • Bases de données (Oracle, SQL Server) • Fichiers, … • Gestion des RH, gestion des commandes… • Caractéristiques de ces données: • Distribuées: systèmes éparpillés • Hétérogènes: systèmes et structures de données différents • Détaillées: organisation des données selon les processus fonctionnels, données surabondantes pour l’analyse • Peu/pas adaptées à l’analyse : les requêtes lourdes peuvent bloquer le système transactionnel • Volatiles: pas d’historisation systématique

  5. Problématique • Comment répondre aux demandes des décideurs? • En donnant un accès rapide et simple à l’information stratégique • En donnant du sens aux données Mettre en place un système d’information dédié aux applications décisionnelles: un Data Warehouse

  6. Le processus de prise de décision Champs d’application des systèmes décisionnels Définir le problème Analyser les données Rassembler les données Établir des solutions Décider Temps de prise d’une décision

  7. Le processus de prise de décision Prise de décision Prédiction / simulation Data warehouse Base multi -dimensionnelle Bases de production

  8. Domaines d’utilisation des DW • Banque • Risques d’un prêt, prime plus précise • Santé • Épidémiologie • Risque alimentaire • Commerce • Ciblage de clientèle • Déterminer des promotions • Logistique • Adéquation demande/production • Assurance • Risque lié à un contrat d’assurance (voiture) • …

  9. Quelques métiers du décisionnel • Strategic Performance Management • Déterminer et contrôler les indicateurs clé de la performance de l’entreprise • Finance Intelligence • Planifier, analyser et diffuser l’information financière. Mesurer et gérer les risques • Human Capital Management (gestion de la relation avec les employés) • Aligner les stratégies RH, les processus et les technologies. • Customer Relationship Management (gestion de la relation client) • Améliorer la connaissance client, identifier et prévoir la rentabilité client, accroitre l’efficacité du marketing client • Supplier Relationship Management (gestion de la relation fournisseur) • Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la stratégie Achat.

  10. Plan • Introduction • Entrepôts de données • Datamarts • Architecture • Modélisation • Bases de données multidimensionnelles • Fouille de données • Marché du décisionnel

  11. Définition W. H. Inmon (1996): « Le Data Warehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision »

  12. Les 4 caractéristiques d'un data warehouse • Données orientées sujet: • Regroupe les informations des différents métiers • Ne tiens pas compte de l’organisation fonctionnelle des données Ass. Santé Ass. Vie Ass. Auto Client Police

  13. h,f h,f 1,0 homme, femme GBP EUR CHF USD Les 4 caractéristiques des data warehouse • Données intégrées: • Normalisation des données • Définition d’un référentiel unique

  14. Ajout Suppression Accès Chargement Modification Les 4 caractéristiques des data warehouse • Données non volatiles • Traçabilité des informations et des décisions prises • Copie des données de production Bases de production Entrepôts de données

  15. Les 4 caractéristiques des data warehouse • Données datées • Les données persistent dans le temps • Mise en place d’un référentiel temps Image de la base en Mai 2010 Image de la base en Juillet 2011 Répertoire Répertoire Base de production Répertoire Calendrier Entrepôt de données

  16. Plan • Introduction • Entrepôts de données • Datamarts • Architecture • Modélisation • Bases de données multidimensionnelles • Fouille de données • Marché du décisionnel

  17. Datamart du service Marketing Datamart du service Ressources Humaines Datamarts • Sous-ensemble d’un entrepôt de données • Destiné à répondre aux besoins d’un secteur ou d’une fonction particulière de l’entreprise • Point de vue spécifique selon des critères métiers DW de l’entreprise

  18. Intérêt des Datamarts • Nouvel environnement structuré et formaté en fonction des besoins d’un métier ou d’un usage particulier • Moins de données que DW • Plus facile à comprendre, à manipuler • Amélioration des temps de réponse • Utilisateurs plus ciblés: DM plus facile à définir

  19. Plan • Introduction • Entrepôts de données • Datamart • Architecture • Modélisation • Bases de données multidimensionnelles • Fouille de données • Marché du décisionnel

  20. Architecture générale Zone de présentation Zone de stockage Zone de préparation Transformations: Nettoyage Standardisation … RequêtesRapportsVisualisationData Mining … EXTRACTION CHARGEMENT Data warehouse Datamart Sources de données

  21. Plan • Introduction • Entrepôts de données • Datamart • Architecture • Modélisation • Bases de données multidimensionnelles • Fouille de données • Marché du décisionnel

  22. Modélisation des DW • Nouvelle méthode de conception autour des concepts métiers • Ne pas normaliser au maximum • Introduction de nouveaux types de table: • Table de faits • Table de dimensions • Introduction de nouveaux modèles: • Modèle en étoile • Modèle en flocon

  23. Clés étrangères vers les dimensions Faits Table de faits • Table principale du modèle dimensionnel • Contient les données observables (les faits) sur le sujet étudié selon divers axes d’analyse (les dimensions)

  24. Table de faits (suite) • Fait: • Ce que l’on souhaite mesurer • Quantités vendues, montant des ventes… • Contient les clés étrangères des axes d’analyse (dimension) • Date, produit, magasin

  25. Clé de substitution Attributs de la dimension Table de dimension • Axe d’analyse selon lequel vont être étudiées les données observables (faits) • Contient le détail sur les faits

  26. La dimension Temps • Commune à l’ensemble du DW • Reliée à toute table de faits

  27. Les types de modèles Modèle en flocon Modèle en étoile

  28. Modèle en étoile • Une table de fait centrale et des dimensions • Les dimensions n’ont pas de liaison entre elles • Avantages: • Facilité de navigation • Nombre de jointures limité • Inconvénients: • Redondance dans les dimensions • Toutes les dimensions ne concernent pas les mesures

  29. Dimension TempsID tempsannéemoisjour… Dimension ClientID client nomprénomadresse… Dimension MagasinID magasindescriptionvillesurface… Table de faits AchatID clientID temps ID magasin ID région ID produit Quantité achetée Montant des achats Dimension produitID produitnomcodeprixpoidsgroupefamille… Dimension RegionID régionpaysdescriptiondistrict vente…. Modèle en étoile

  30. Modèle en flocon • Une table de fait et des dimensions décomposées en sous hiérarchies • On a un seul niveau hiérarchique dans une table de dimension • La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit qu’elle a la granularité la plus fine • Avantages: • Normalisation des dimensions • Économie d’espace disque • Inconvénients: • Modèle plus complexe (jointure) • Requêtes moins performantes

  31. Dimension produitID produitID groupenomcodeprixpoids… Dimension TempsID tempsanneemoisjour… Dimension ClientID client nomprénomadresse… Dimension groupeID groupeID famillenom… Table de faits AchatID clientID temps ID magasin ID région ID produit Quantité achetée Montant des achats Dimension MagasinID magasindescriptionvillesurface… Dimension RegionID régionID division ventepaysdescription…. Dimension FamilleID famille nom… Dimension Division venteID division ventedescription…. Modèle en flocon

  32. Plan • Introduction • Entrepôts de données • Datamart • Architecture • Modélisation • Bases de données multidimensionnelles • Fouille de données • Marché du décisionnel

  33. Produits Pays oranges Espagne poires Allemagne dattes France Vente de dattes en Allemagne en avril janvier avril février Temps Base de Données Multidimensionnelles

  34. Plan • Introduction • Entrepôts de données • Les Datamarts • Architecture • Modélisation • Bases de données multidimensionnelles • Fouille de données • Marché du décisionnel

  35. Pourquoi Fouiller les Données (1) • De nombreuses données sont collectées et entreposées: • Données du Web, e-commerce • Achats dans les supermarchés • Transactions de cartes bancaires • Les ordinateurs deviennent de moins en moins chers et de plus en plus puissants • La pression de la compétition est de plus en plus forte • Fournir de meilleurs services, s’adapter aux clients

  36. Pourquoi Fouiller les Données (2) • Les données sont collectées et stockées rapidement (GB/heures) • Capteurs • Télescopes • Puces à ADN générant des expressions de gènes • Simulations générant des téraoctets de données • …..

  37. Pourquoi Fouiller les Données (3) • Les techniques traditionnelles ne sont pas adaptées • Volume de données trop grands (trop de tuples, trop d’attributs) Comment explorer des millions d’enregistrements avec des milliers d’attributs ? • Besoins de répondre rapidement aux opportunités • Requêtes traditionnelles (SQL) impossibles Rechercher tous les enregistrements indiquant une fraude

  38. Un Enjeu Stratégique Déterminer les moyens pour fidéliser les clients Identifier les nouveaux marchés Anticiper les changements de comportement Minimiser les risques Identifier les nouveaux produits ou services

  39. Qu'est-ce que le Data Mining? Frawley et Piatesky-Shapiro "l'extraction d'informations originales, auparavant inconnues, potentiellement utiles à partir de données" John Page "la découverte de nouvelles corrélations, tendances et modèles par le tamisage d'un large volume de données" Kamran Parsaye "un processus d'aide à la décision où les utilisateurs cherchent des modèles d'interprétation dans les données" Dimitris Chorafas "torturer l'information disponible jusqu'à ce qu'elle avoue"

  40. Processus d'ECD (KDD)

  41. Techniques de Fouille de Données (1) • Méthodes non-supervisées • Extraire des informations nouvelles et originales (aucun attribut n’est plus important qu’un autre) • Analyse du résultat fourni (retenu ou rejeté) • Isoler l’information utile • Constituer des groupes homogènes d’objets (grouper des patients qui ont le même comportement).

  42. Techniques de Fouille de Données (2) • Exemples • Réseau de Neurones • Recherche des K Plus Proches Voisins • Recherche d'Associations (Règles Associatives) • …

  43. Techniques de Fouille de Données (3) • Méthodes supervisées • Découverte de règles ou formules (patterns) pour ranger les données dans des classes prédéfinies • Processus en deux étapes • Construction d'un modèle sur les données dont la classe est connue (training data set)‏ • Utilisation pour classification des nouveaux arrivants

  44. Techniques de Fouille de Données (2) • Exemples • Discrimination linéaire • Régression • Arbres de décision • Machines à vecteur de support (SVM) • …

  45. Domaines d'Application • Médecine: biomédecine, drogue, Sida, séquence génétique, gestion hôpitaux, ... • Finance, assurance: crédit, prédiction du marché, détection de fraudes, … • Social: données démographiques, votes, résultats des élections, • Marketing et ventes: comportement des utilisateurs, prédiction des ventes, espionnage industriel, … • Militaire: fusion de données .. (secret défense) • Astrophysique: astronomie, … • Informatique: agents, IHM, réseau, DataWarehouse, Internet (moteurs intelligent, text mining, …)

  46. Plan • Introduction • Entrepôts de données • Les Datamarts • Architecture • Modélisation • Bases de données multidimensionnelles • Fouille de données • Marché du décisionnel

  47. Le marché du décisionnel SAP/Business Objects 22,4% Oracle 14,5% SAS Institute 14,2% IBM 12,2% Microsoft 7,9% Microstrategy 3,2%

  48. Quelques solutions commerciales

  49. Quelques solutions open source

  50. Merci………………………..

More Related