810 likes | 1.38k Views
Data Warehouse and Datamining Entrepôts de Données et Fouille de Données. Université d'Alexandrie, Faculté de Commerce, les 17 et 18 Décembre 2011. Plan. Introduction Entrepôts de données Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données
E N D
Data Warehouse and DataminingEntrepôts de Données et Fouille de Données • Université d'Alexandrie, Faculté de Commerce, les 17 et 18 Décembre 2011
Plan • Introduction • Entrepôts de données • Datamarts • Architecture • Modélisation • Bases de données multidimensionnelles • Fouille de données • Marché du décisionnel
Le contexte • Besoin: prise de décisions stratégiques et tactiques • Pourquoi: besoin de réactivité • Qui: les décideurs (non informaticiens) • Comment: répondre aux demandes d’analyse des données, dégager des informations qualitatives nouvelles Pourquoi et comment le chiffre d’affaire a baissé? Qui sont mes meilleurs clients? A combien s’élèvent mes ventes journalières? Quels algériens consomment beaucoup de poisson?
Les données utilisables par les décideurs • Données opérationnelles (de production) • Bases de données (Oracle, SQL Server) • Fichiers, … • Gestion des RH, gestion des commandes… • Caractéristiques de ces données: • Distribuées: systèmes éparpillés • Hétérogènes: systèmes et structures de données différents • Détaillées: organisation des données selon les processus fonctionnels, données surabondantes pour l’analyse • Peu/pas adaptées à l’analyse : les requêtes lourdes peuvent bloquer le système transactionnel • Volatiles: pas d’historisation systématique
Problématique • Comment répondre aux demandes des décideurs? • En donnant un accès rapide et simple à l’information stratégique • En donnant du sens aux données Mettre en place un système d’information dédié aux applications décisionnelles: un Data Warehouse
Le processus de prise de décision Champs d’application des systèmes décisionnels Définir le problème Analyser les données Rassembler les données Établir des solutions Décider Temps de prise d’une décision
Le processus de prise de décision Prise de décision Prédiction / simulation Data warehouse Base multi -dimensionnelle Bases de production
Domaines d’utilisation des DW • Banque • Risques d’un prêt, prime plus précise • Santé • Épidémiologie • Risque alimentaire • Commerce • Ciblage de clientèle • Déterminer des promotions • Logistique • Adéquation demande/production • Assurance • Risque lié à un contrat d’assurance (voiture) • …
Quelques métiers du décisionnel • Strategic Performance Management • Déterminer et contrôler les indicateurs clé de la performance de l’entreprise • Finance Intelligence • Planifier, analyser et diffuser l’information financière. Mesurer et gérer les risques • Human Capital Management (gestion de la relation avec les employés) • Aligner les stratégies RH, les processus et les technologies. • Customer Relationship Management (gestion de la relation client) • Améliorer la connaissance client, identifier et prévoir la rentabilité client, accroitre l’efficacité du marketing client • Supplier Relationship Management (gestion de la relation fournisseur) • Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la stratégie Achat.
Plan • Introduction • Entrepôts de données • Datamarts • Architecture • Modélisation • Bases de données multidimensionnelles • Fouille de données • Marché du décisionnel
Définition W. H. Inmon (1996): « Le Data Warehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision »
Les 4 caractéristiques d'un data warehouse • Données orientées sujet: • Regroupe les informations des différents métiers • Ne tiens pas compte de l’organisation fonctionnelle des données Ass. Santé Ass. Vie Ass. Auto Client Police
h,f h,f 1,0 homme, femme GBP EUR CHF USD Les 4 caractéristiques des data warehouse • Données intégrées: • Normalisation des données • Définition d’un référentiel unique
Ajout Suppression Accès Chargement Modification Les 4 caractéristiques des data warehouse • Données non volatiles • Traçabilité des informations et des décisions prises • Copie des données de production Bases de production Entrepôts de données
Les 4 caractéristiques des data warehouse • Données datées • Les données persistent dans le temps • Mise en place d’un référentiel temps Image de la base en Mai 2010 Image de la base en Juillet 2011 Répertoire Répertoire Base de production Répertoire Calendrier Entrepôt de données
Plan • Introduction • Entrepôts de données • Datamarts • Architecture • Modélisation • Bases de données multidimensionnelles • Fouille de données • Marché du décisionnel
Datamart du service Marketing Datamart du service Ressources Humaines Datamarts • Sous-ensemble d’un entrepôt de données • Destiné à répondre aux besoins d’un secteur ou d’une fonction particulière de l’entreprise • Point de vue spécifique selon des critères métiers DW de l’entreprise
Intérêt des Datamarts • Nouvel environnement structuré et formaté en fonction des besoins d’un métier ou d’un usage particulier • Moins de données que DW • Plus facile à comprendre, à manipuler • Amélioration des temps de réponse • Utilisateurs plus ciblés: DM plus facile à définir
Plan • Introduction • Entrepôts de données • Datamart • Architecture • Modélisation • Bases de données multidimensionnelles • Fouille de données • Marché du décisionnel
Architecture générale Zone de présentation Zone de stockage Zone de préparation Transformations: Nettoyage Standardisation … RequêtesRapportsVisualisationData Mining … EXTRACTION CHARGEMENT Data warehouse Datamart Sources de données
Plan • Introduction • Entrepôts de données • Datamart • Architecture • Modélisation • Bases de données multidimensionnelles • Fouille de données • Marché du décisionnel
Modélisation des DW • Nouvelle méthode de conception autour des concepts métiers • Ne pas normaliser au maximum • Introduction de nouveaux types de table: • Table de faits • Table de dimensions • Introduction de nouveaux modèles: • Modèle en étoile • Modèle en flocon
Clés étrangères vers les dimensions Faits Table de faits • Table principale du modèle dimensionnel • Contient les données observables (les faits) sur le sujet étudié selon divers axes d’analyse (les dimensions)
Table de faits (suite) • Fait: • Ce que l’on souhaite mesurer • Quantités vendues, montant des ventes… • Contient les clés étrangères des axes d’analyse (dimension) • Date, produit, magasin
Clé de substitution Attributs de la dimension Table de dimension • Axe d’analyse selon lequel vont être étudiées les données observables (faits) • Contient le détail sur les faits
La dimension Temps • Commune à l’ensemble du DW • Reliée à toute table de faits
Les types de modèles Modèle en flocon Modèle en étoile
Modèle en étoile • Une table de fait centrale et des dimensions • Les dimensions n’ont pas de liaison entre elles • Avantages: • Facilité de navigation • Nombre de jointures limité • Inconvénients: • Redondance dans les dimensions • Toutes les dimensions ne concernent pas les mesures
Dimension TempsID tempsannéemoisjour… Dimension ClientID client nomprénomadresse… Dimension MagasinID magasindescriptionvillesurface… Table de faits AchatID clientID temps ID magasin ID région ID produit Quantité achetée Montant des achats Dimension produitID produitnomcodeprixpoidsgroupefamille… Dimension RegionID régionpaysdescriptiondistrict vente…. Modèle en étoile
Modèle en flocon • Une table de fait et des dimensions décomposées en sous hiérarchies • On a un seul niveau hiérarchique dans une table de dimension • La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit qu’elle a la granularité la plus fine • Avantages: • Normalisation des dimensions • Économie d’espace disque • Inconvénients: • Modèle plus complexe (jointure) • Requêtes moins performantes
Dimension produitID produitID groupenomcodeprixpoids… Dimension TempsID tempsanneemoisjour… Dimension ClientID client nomprénomadresse… Dimension groupeID groupeID famillenom… Table de faits AchatID clientID temps ID magasin ID région ID produit Quantité achetée Montant des achats Dimension MagasinID magasindescriptionvillesurface… Dimension RegionID régionID division ventepaysdescription…. Dimension FamilleID famille nom… Dimension Division venteID division ventedescription…. Modèle en flocon
Plan • Introduction • Entrepôts de données • Datamart • Architecture • Modélisation • Bases de données multidimensionnelles • Fouille de données • Marché du décisionnel
Produits Pays oranges Espagne poires Allemagne dattes France Vente de dattes en Allemagne en avril janvier avril février Temps Base de Données Multidimensionnelles
Plan • Introduction • Entrepôts de données • Les Datamarts • Architecture • Modélisation • Bases de données multidimensionnelles • Fouille de données • Marché du décisionnel
Pourquoi Fouiller les Données (1) • De nombreuses données sont collectées et entreposées: • Données du Web, e-commerce • Achats dans les supermarchés • Transactions de cartes bancaires • Les ordinateurs deviennent de moins en moins chers et de plus en plus puissants • La pression de la compétition est de plus en plus forte • Fournir de meilleurs services, s’adapter aux clients
Pourquoi Fouiller les Données (2) • Les données sont collectées et stockées rapidement (GB/heures) • Capteurs • Télescopes • Puces à ADN générant des expressions de gènes • Simulations générant des téraoctets de données • …..
Pourquoi Fouiller les Données (3) • Les techniques traditionnelles ne sont pas adaptées • Volume de données trop grands (trop de tuples, trop d’attributs) Comment explorer des millions d’enregistrements avec des milliers d’attributs ? • Besoins de répondre rapidement aux opportunités • Requêtes traditionnelles (SQL) impossibles Rechercher tous les enregistrements indiquant une fraude
Un Enjeu Stratégique Déterminer les moyens pour fidéliser les clients Identifier les nouveaux marchés Anticiper les changements de comportement Minimiser les risques Identifier les nouveaux produits ou services
Qu'est-ce que le Data Mining? Frawley et Piatesky-Shapiro "l'extraction d'informations originales, auparavant inconnues, potentiellement utiles à partir de données" John Page "la découverte de nouvelles corrélations, tendances et modèles par le tamisage d'un large volume de données" Kamran Parsaye "un processus d'aide à la décision où les utilisateurs cherchent des modèles d'interprétation dans les données" Dimitris Chorafas "torturer l'information disponible jusqu'à ce qu'elle avoue"
Techniques de Fouille de Données (1) • Méthodes non-supervisées • Extraire des informations nouvelles et originales (aucun attribut n’est plus important qu’un autre) • Analyse du résultat fourni (retenu ou rejeté) • Isoler l’information utile • Constituer des groupes homogènes d’objets (grouper des patients qui ont le même comportement).
Techniques de Fouille de Données (2) • Exemples • Réseau de Neurones • Recherche des K Plus Proches Voisins • Recherche d'Associations (Règles Associatives) • …
Techniques de Fouille de Données (3) • Méthodes supervisées • Découverte de règles ou formules (patterns) pour ranger les données dans des classes prédéfinies • Processus en deux étapes • Construction d'un modèle sur les données dont la classe est connue (training data set) • Utilisation pour classification des nouveaux arrivants
Techniques de Fouille de Données (2) • Exemples • Discrimination linéaire • Régression • Arbres de décision • Machines à vecteur de support (SVM) • …
Domaines d'Application • Médecine: biomédecine, drogue, Sida, séquence génétique, gestion hôpitaux, ... • Finance, assurance: crédit, prédiction du marché, détection de fraudes, … • Social: données démographiques, votes, résultats des élections, • Marketing et ventes: comportement des utilisateurs, prédiction des ventes, espionnage industriel, … • Militaire: fusion de données .. (secret défense) • Astrophysique: astronomie, … • Informatique: agents, IHM, réseau, DataWarehouse, Internet (moteurs intelligent, text mining, …)
Plan • Introduction • Entrepôts de données • Les Datamarts • Architecture • Modélisation • Bases de données multidimensionnelles • Fouille de données • Marché du décisionnel
Le marché du décisionnel SAP/Business Objects 22,4% Oracle 14,5% SAS Institute 14,2% IBM 12,2% Microsoft 7,9% Microstrategy 3,2%