960 likes | 1.61k Views
Institut Supérieur de Gestion de Tunis. Khalfaoui Achraf : achrafkhalfaoui@yahoo.fr. Les entrepôts de données. Objectifs. L’étudiant devra :. Savoir les notions de base des Data Warehouses. Avoir une idée sur les Data Marts.
E N D
Institut Supérieur de Gestion de Tunis KhalfaouiAchraf : achrafkhalfaoui@yahoo.fr Les entrepôts de données
Objectifs L’étudiant devra : Savoir les notions de base des Data Warehouses Avoir une idée sur les Data Marts Savoir quelques méthodes de navigation à travers les données en utilisant un outil OLAP
Références • Cours de Mr JalelAkaichi : « Systèmes d’information décisionnels(DW, Data Mining) » • Cours de Mr Gouider: « Les entrepôts de données » • Cours de Emmanuelle Grislin && Didier Donsez: «Systèmes d’information décisionnels» • …
1 3 2 4 Plan Introduction Notions généralessur DW Data Marts Les outils OLAP
Introduction (1/2) • Une grande masse de données: • Distribuées, hétérogènes, très détaillées, volatiles, peu adaptées à l’analyse… Pourquoi et comment le chiffre d’affaire a baissé? Qui sont mes meilleurs clients? Quels Tunisiens consomment beaucoup de poisson? A combien s’élèvent mes ventes journalières?
Introduction (2/2) • Comment répondre aux demandes des décideurs? • En donnant un accès rapide et simple à l’information stratégique • En donnant du sens aux données Mettre en place un système d’information dédié aux applications décisionnelles: un data warehouse
Définition d’un DW (1/4) • «Le data Warehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision»(Bill Inmon,1996) • Orientées sujet les données d’un DW sont organisées par thème, par opposition à celles des SI transactionnelles qui sont généralement organisées par processus fonctionnels.
Définition d’un DW (2/4) • Intégrées Les données proviennent de plusieurs sources hétérogènes. Avant d’être intégrer au sein du DW, elles doivent être mise en forme et unifiées afin d’assurer la cohérence.
Définition d’un DW (4/4) • Historisées • Les données persistent dans le temps • Mise en place d’un référentiel temps Image de la base en Mai 2005 Image de la base en Juillet 2006 Base de production Calendrier Entrepôt de données
Extraction (1/3) • Extraction • Elle contient la découverte des données (d’identifier dans les systèmes sources les données à importer dans le DW ) • Extraire des données des systèmes de production • Dialoguer avec différentes sources : • Base de données, • Fichiers, • Web…
Extraction (2/3) Extraction Extraction logique Traite la quantité des donnéesqu’onvaextraire Extraction physique Traitel’aspect technique de l’opération de l’extraction
Extraction (3/3) • Extraction logique • L’extraction totale Extraire toutes les données dans un seul coup • L’extraction incrémentale(partielle) A chaque fois, extraire une partie des données • Extraction physique • L’extraction directe (Charger les données directement au DW) • L’extraction indirecte(passer par staging area)
La transformation • Transformation • Rendre les données cohérentes avec la structure du DW: Transformer, nettoyer, trier, unifier les données • Exemple: unifier le format des dates (MM/JJ/AA JJ/MM/AA) • Etape très importante, garantit la cohérence et la fiabilité des données • Pour transformer des données existants dans une base de données : SQL, PL/SQL, Table functions.
Table function CREATE FUNCTION updateInv(itemNo VARCHAR(20), amount INTEGER) RETURNS TABLE (productNamevarchar(20), quantity INTEGER) UPDATE Inventory as I SET quantity = quantity + amount WHERE I.itemID = itemNo; RETURN SELECT I.itemName, I.quantity FROM Inventory as I WHERE I.itemID = itemNo; END SELECT productName, quantity FROM TABLE(updateInv('ISBN-0-8021-3424-6', 5)) AS T PRODUCTNAME QUANTITY -------------------- ----------------------------- Feng Shui at Home 15
Le chargement (1/2) • Chargement • Insérer les données dans l’entrepôt de données • Pour le chargement des données: • SQL*Loader • External tables • OCI and direct-path APIs • Export/import • Data Pump
Le chargement (2/2) • Exemple de chargement avec SQL* loader • Il charge un fichier plat dans une table existante • Lors de l’utilisation de cette méthode, on ne peut plus accéder aux données du fichier plat qu’après le chargement de ces données. LOAD DATA INFILE sh_sales.dat APPEND INTO TABLE sales FIELDS TERMINATED BY "|" (PROD_ID, CUST_ID, TIME_ID, CHANNEL_ID, PROMO_ID, QUANTITY_SOLD, AMOUNT_SOLD)
1 2 3 Les données détaillées Les données provenant des systèmes de production sont intégrées à ce niveau. Les données agrégées Elles correspondent à des éléments d'analyse représentatifs des besoins des utilisateurs. Les méta-données Il s'agit « de données sur les données ». La structure d’un DW
Stratégies de stockage (1/3) • Structure directe simple On fait des mises à jour du DW avec des laps de temps importants.
Stratégies de stockage (2/3) • Structure de cumul simple On stocke les données de chaque mise à jour, les mises à jour étant fréquentes (par exemple tous les jours).
Stratégies de stockage (3/3) • Par résumé déroulant A chaque mise à jour, on stocke les données détaillées, et on synthétise les anciennes données en fonction de leur âge.
Modélisation d’un DW (1/4) • Faits Un sujet d’analyse. Il est formé de mesures correspondant aux informations de l’activité analysée. • Dimensions Les critères suivant lesquels on souhait évaluer le fait.
Modélisation d’un DW (2/4) • Le modèle en étoile
Modélisation d’un DW (3/4) • Le modèle en flocon
Modélisation d’un DW (4/4) • Le modèle en constellation
TAF Exercice modélisation (1/2) • Soit une entreprise « ACH Automobile Co » qui voulait construire un entrepôt de données. • La mesure utilisée est le prix de la voiture • On veut répondre aux requêtes suivantes: • Trouver le total des ventes par semaine ,mois ,…pour chaque vendeur • Trouver le total des ventes par semaine ,mois ,…pour chaque modèle de voiture • Trouver le total des ventes pour tous les vendeurs pour une ville donnée, région et état
TAF Exercice modélisation (2/2) • Les dimensions: • Temps ( jour, semaine, mois, année ) • Vendeur ( nom, ville, état, région, téléphone ) • Voiture ( numSerie, modèle, couleur, catégorie ) TAF Etablir le schéma conceptuel de l’éventuel DW
Data martsdu service Marketing Data martdu service Ressources Humaines Définition d’un data Mart • Un Data Mart (magasin de données) est une vue partielle du DW mais orientée métier. • C’est un sous-ensemble du DW contenant des informations se rapportant à un secteur d’activité particulier de l’entreprise. DW de l’entreprise
Intérêt des data marts • Nouvel environnement structuré et formaté en fonction des besoins d’un métier ou d’un usage particulier. • Moins de données que DW • Plus facile à comprendre, à manipuler • Amélioration de temps de réponse • Utilisateurs plus ciblés: DM plus facile à définir
Merci pour votre attention! MAIS ????
OLAP • « Il s’agit d’une catégorie de logiciel axés sur l’exploitation et l’analyse rapide des données selon une approche multidimensionnelle à plusieurs niveaux d’agrégation » (Caron,1998)
Les 12 règles d’OLAP • 1) une vue multidimensionnelle des données. • 2) La transparence vis à vis de l’utilisateur. • 3) La BD doit disposer d’un modèle et d’outils permettant d’accéder à de multiples sources. • 4) Le modèle de données, le nombre de dimensions doivent pouvoir changer, sans remettre en cause le fonctionnement de la base. • 5) Architecture Client/Serveur. • 6) Toutes les dimensions doivent être accessibles pour chacune des données.
Les 12 règles d’OLAP • 7°) Gestion des matrices creuses. • 8°) Accessibilité simultanément par plusieurs utilisateurs. • 9°) Toutes les données stockées ou calculées dans le cube doivent être accessibles • 10°) Navigation aisée dans les données pour les utilisateurs, de manière intuitive. • 11°) Outil de présentation des données. • 12°) Nombre illimité de dimensions et de niveaux d’agrégation.
Architecture d’OLAP • Elle consiste en trois services: Base de données *Doit supporter les donnéesagrégésou résumés *Doitposséderune structure mulitdimensionelle(SGBD multidimentionnelourelationnel) Serveur OLAP *Gére la structure multidimentionelledans le SGBD *Gérel’accés aux données de la part des utilisateurs Module client *Permet aux usagers de manipuler et d’explorer les données *Affiche les donnéessousforme de graphiquesstatistiquesou de tableaux
Les avantages d’OLAP • Ouverture à d’autres outils et supports de restitution(Reporting, Data Mining…) • L’usager n’a pas à maîtriser des langages d’interrogation et des interfaces complexes • Exploiter le modèle multidimensionnel pour augmenter la performance des analyses (temps de réponse,…)
Les types d’OLAP • ROLAP(Relational OLAP) • Données stockées dans une base de données relationelles • Un moteur OLAP permet de simuler le comportement d’un SGBD multidimensionnel
Les types d’OLAP • MOLAP (Multi-dimensional OLAP) • Utilise un système multidimensionnel pour gérer les structures multidimensionnels • Un accès direct aux données dans le cube
Les types d’OLAP • HOLAP (Hybrid OLAP) • Tables de faits et tables de dimensions stockées dans une base relationnelle • Données agrégées stockées dans un cube
Les types d’OLAP • ROLAP VS MOLAP VS HOLAP
Quelques méthodes de navigation dans les données • L’outil OLAP propose des méthodes de navigation dans les données: • Drill-up/down • Rotate • Slicing • Scoping • …
Quelques méthodes de navigation dans les données • Drill-up/down