1 / 24

Chapitre Préliminaire Entrepôts de données

Chapitre Préliminaire Entrepôts de données. Christelle Scharff IFI Juin 2004. Plan et objectifs. Informatique de production Transactions Informatique décisionnelle Entrepôts de données Datamarts Construction des entrepôts Opérations OLAP Problèmes. Informatique de production.

Sophia
Download Presentation

Chapitre Préliminaire Entrepôts de données

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Chapitre PréliminaireEntrepôts de données Christelle Scharff IFI Juin 2004

  2. Plan et objectifs • Informatique de production • Transactions • Informatique décisionnelle • Entrepôts de données • Datamarts • Construction des entrepôts • Opérations OLAP • Problèmes

  3. Informatique de production • Interrogations et modifications fréquentes des données par de nombreux utilisateurs • Nécessité de conserver la cohérence des données • Les systèmes transactionnels (OLTP) garantissent la cohérence des données • L’informatique de production est optimisée pour les tâches répétitives et planifiées • Exemples: • Factures, commandes…

  4. Transactions • Programmes informatiques qui inter-agissent avec les bases de données ayant les propriétés suivantes: • A - Atomicité • C - Consistance • I - Isolation • D - Durée

  5. Informatique décisionnelle • Chargement périodique des données • Pas de modifications des données • Interrogations non régulières, planifiées, parfois longues des systèmes d’information décisionnels • Exemples de questions: • Quelles sont les ventes du produit X pendant le trimestre A de l'année B dans la région C ? • Comment se comporte le produit X par rapport au produit Y? • Quel type de client peut acheter le produit X? • Exemple: OLAP (Codd)

  6. Entrepôt de données (1) • Contient de grandes quantités de données • provenant de diverses sources, • sauvées sous un schéma de données unique, et • résidant à un endroit unique • Construit par: • Nettoyage, transformation, intégration, chargement et rafraîchissement périodiques des données

  7. Entrepôt de données (2) • Organisés suivant des thèmes précis (clients, activités, items…) • Organisés suivant une chronologie historique • Résument les données • Plus lisibles et plus simples que les données initiales • Introduction de redondance éventuelle • Cohérence globale des données • Les données / informations des entrepôts ne sont pas modifiees

  8. Datamarts • Versions simplifiées, car plus ciblées, des entrepôts des données

  9. Nettoyage des données • Erreurs de saisie • Intégrité des domaines • Exemple: Les dates • Données manquantes

  10. Transformations des données • Format • Exemple: Type des données • Consolidation • Exemple: Choix des unités et des représentations • Uniformisation d’échelle • Exemple: Homogénéisation des échelles

  11. Requêtes sur les entrepôts de données • Extraire des données: • Les outils OLAP • Le progiciel SAS • Un progiciel est un logiciel de gestion • Outils de création de rapports • Outils dans les SGBD • Un language (Exemple: DMQL)

  12. Représentation conceptuelle des entrepôts de données* • Souvent représentés par une structure à plusieurs dimensions • Une dimension est un attribut ou un ensemble d’attributs • Les cellules sauvent des données agrégées appelées faits • Représentations: Relations, cube de données, hyper-cube de données • Utilisation d’un language (Exemples: SQL ou DMQL) pour peupler les entrepôts

  13. Exemple • Total des ventes à un client dans une tranche horaire d'un jour précis, pour un produit choisi

  14. Représentation logique des entrepôts de données* • Implantation classique: Modèle en étoile: • Au centre la table des faits • Les dimensions comme autant de branches à l'étoile. • Les branches de l'étoile sont des relations de 1 à plusieurs • La table des faits est énorme contrairement aux tables des dimensions • Le modèle est très dissymétrique en comparaison avec les modèles relationnels des bases de production • L’étoile est un modèle simple

  15. Exemple • Un enregistrement dans la table des faits Ventes correspond à un total des ventes à un client dans une tranche horaire d'un jour précis, pour un produit choisi.

  16. Autres modèles • Le modèle en flocon de neige • Les tables des dimensions sont normalisées • Le modèle de la constellation des faits • Une table de faits peut être partagée par plusieurs tables de dimension

  17. Hiérarchies* • Hiérarchies de schémas • Ordre total ou partiel sur les attributs des schémas • Décrivent des relations sémantiques entre les attributs • Exemple: Rue < Ville < État_ou_Province < Pays • Hiérarchies de groupes • Organise les valeurs d’attributs ou de dimensions en groupes • Un ordre total ou partiel peut être défini entre les groupes • Exemples: {0…45}  Jeune, {46…150}  Agé , {Jeune, Agé}  all(age)

  18. Opération: Navigation ou Forage* • Pour obtenir plus de détails sur la signification d'un résultat en affinant une dimension ou en ajoutant une dimension • Exemple: • Supposons qu'un utilisateur final demande les chiffres d'affaires par produit, et s'étonne d'un résultat pour un produit donné. Il aura sûrement l'envie d'en analyser les raisons. Une solution consisterait à ajouter la dimension temps, dans l'unité de temps trimestrielle pour trouver une variation saisonnière, dans l'unité hebdomadaire pour envisager l'effet week-end ou encore la dimension magasin pour mettre en évidence un effet géographique.

  19. Opération: Agrégats* • Pour obtenir moins de détails • Élimination d’une dimension ou regroupement des éléments d’une dimension • Exemple: • Ville < Etat < Province < Pays • Au lieu de regrouper les données par ville, elles sont regroupées par pays

  20. Autres opérations* • Sélection sur une dimension ou plusieurs dimensions (tranche du cube) • Rotation / pivot du cube • D’autres opérations impliquent plus d’une table des faits

  21. Problèmes • Supports physiques • Peupler l’entrepôt • Calcul des valeurs de la table des faits • Structure creuse • La valeur est 0 • Exemple: 300 des 3000 produits sont vendus chaque jour • Problèmes des clés et des indexes • Organisation physique importante du point de vue des performances • Les tables de dimension sont souvent indexées suivant tous leurs champs

  22. Exercice* • Exercice du magasin d’électronique

  23. Références • http://www.grappa.univ-lille3.fr/polys/fouille/ • J. Han, and M. Kamber. Data Mining Concepts and Techniques. Morgan Kaufmann.

More Related