340 likes | 509 Views
OLAP. Équipe: Johanne Lavoie Giovanni Malizia. Présenté le 26 avril 2004. Prof. : Robert Godin Cours : INF7115 Session : Hiver 2004. Plan de présentation. Survol Problématiques Approches OLAP Amélioration de la performance Processus de sélection des vues à matérialiser
E N D
OLAP Équipe: Johanne Lavoie Giovanni Malizia Présenté le 26 avril 2004 Prof. : Robert Godin Cours : INF7115 Session : Hiver 2004
Plan de présentation • Survol • Problématiques • Approches OLAP • Amélioration de la performance • Processus de sélection des vues à matérialiser • Hiérarchies des attributs • Contexte étudié • Cadre du treillis • Algorithmes glouton • Modèle de coût • Produits commerciaux • Conclusion • Références
Survol • Introduit en 1993 par E.F. Codd • Utilisation pour l’aide à la décision • Utilisateurs OLAP autonomes • Différents types : MOLAP, ROLAP, HOLAP, DOLAP • Étroitement lié aux entrepôts de données • Performance inacceptable sur un environnement opérationnel
Défis • Croissance constante des données • Complexité des requêtes • Temps de réponse • Coûts Le dilemme Quelles vues doit-on matérialiser pour optimiser le temps de réponse, minimiser l’espace disque occupé et diminuer les coûts ?
Approche MOLAP • Les données sont nettoyées, agrégées dans des dimensions multiples • Les données sont emmagasinées dans des rangées multidimensionnelles • Pré compilation des rangées d'organisation et de données qui peuvent être consultées directement et plus rapidement • Joints déjà fait • Vue multidimensionnelle directe des données • Facilité d'utilisation Crystal decisions, « Compound OLAP. An OLAP Architecture for the Real World », 2001, p.1-15
Approche ROLAP • Données volatiles • Données agrégées et emmagasinées avec les bases de données relationnelles • Manipulation de requêtes complexes • Interface multidimensionnelle aux données relationnelles • Intégration possible à des BDs relationnelles existantes • Jointures au moment de la requête Requête utilisant SQL Crystal decisions, « Compound OLAP. An OLAP Architecture for the Real World », 2001, p.1-15
Amélioration de la performance • Optimisateurs de requêtes • Techniques d’évaluation de requête • Stratégies d’indexation • Index « bit-map » • Index de jointures • Alternatives pour la matérialisation des vues (cubes) • Toutes les vues • Aucune vue • Quelques vues (une partie du cube)
Processus de sélection des vues à matérialiser Bellatreche, Ladjel, Techniques d’optimisation des requêtes dans les data warehouses, Laboratoire d’Informatique Scientifique et Industrielle, 2003, http://www.lisi.ensma.fr/
Période Jour Jours du mois (1-31) Semaine Mois Semaines du mois (1-5) Année Jours du mois (1-31) Jan. Avr. Déc. Aucun Année Hiérarchies des attributs • Deux types d’opérations couramment utilisées pendant les requêtes : Le pliage (roll up) et le dépliage (drill down) X X Harinarayan, Venky, Rajaraman, Anand, Ullman, Jeffrey, D., « Implementing Data Cubes Efficiently », Proceedings of the 1996 ACM SIGMOD international conference on Management of Data, p.205-216, ISSN:0163-5808
Cadre de treillis Modèle de coût 1 2 3 Vues possibles Algorithme glouton Taille / Temps Espace / Temps Contexte étudié
Cadre de treillis Vues possibles Cadre de treillis
Treillis des 8 vues TPC-D • Huit (8) vues possibles • 1. Pièce, fournisseur, client (6M) • 2. Pièce, client (6M) • 3. Pièce, fournisseur (0,8M) • 4. Fournisseur, client (6M) • 5. Pièce (0,2M) • 6. Fournisseur (0,01M) • 7. Client (0,1M) • 8. None (1) Total: 19.1M Total: 7.1M
Pièce Taille Type Aucun Treillis composé de dimensions hiérarchiques Combinaison de deux dimensions hiérarchiques c = client n = par pays p = pièce s = taille t = type de pièce Client + Pays Aucun Harinarayan, Venky, Rajaraman, Anand, Ullman, Jeffrey, D., « Implementing Data Cubes Efficiently », Proceedings of the 1996 ACM SIGMOD international conference on Management of Data, p.205-216, ISSN:0163-5808
Avantages du treillis composé • Fournit un cadre pour évaluer les dimensions hiérarchiques • Améliore la modélisation des requêtes communes entre les utilisateurs • Indique dans quel ordre matérialiser les vues • Réduction de l’accès aux données sources
Cadre de treillis Modèle de coût 1 2 3 Vues possibles Algorithme glouton Taille / Temps Espace / Temps Contexte étudié
Algorithme glouton Espace / Temps Algorithme glouton
Déroulement de l’algorithme glouton (greedy) • La vue haut niveau est matérialisée • Sélection des vues additionnelles à matérialiser, une à une, jusqu’à l’atteinte du coût total choisie • À chaque étape, choisir la vue non matérialisée, avec les bénéfices les plus avantageux
Numéro Sélection Bénéfice Temps total Espace total 1 c p infinit 72M 6M 2 n s 24M 48M 6M 3 n t 12M 36M 6M 4 c 5,9M 30,1M 6,1M 5 p 5,8M 24,3M 6,3M 6 c s 1M 23,3M 11,3M 7 n p 1M 22,3M 16,3M 8 c t 0,01M 22,3M 22,3M 9 t petit 22,3M 22,3M 10 n petit 22,3M 22,3M 11 s petit 22,3M 22,3M 12 aucune petit 22,3M 22,3M Résultats de l’algorithme glouton c = client n = par pays p = pièce s = taille t = type de pièce Temps Espace Nombre de vues
Cadre de treillis Modèle de coût 1 2 3 Vues possibles Algorithme glouton Taille / Temps Espace / Temps Contexte étudié
Modèle de Coût 1 2 3 Taille / Temps Modèle de Coût
Huit (8) vues possibles • 1. Pièce, fournisseur, client (6M) • 2. Pièce, client (6M) • 3. Pièce, fournisseur (0,8M) • 4. Fournisseur, client (6M) • 5. Pièce (0,2M) • 6. Fournisseur (0,01M) • 7. Client (0,1M) • 8. None (1) Rappel: Treillis des 8 vues TPC-D
Modèle linéaire de coût • T = m * S + c • (T) temps d’exécution • (S) taille d’une vue • (c) coût fixe • (m) ratio du temps de requête/taille de la vue Temps de réponse de la requête par rapport à la taille de la vue 2,38 – 2,07 = (0,31)/10000 = ,000031 Harinarayan, Venky, Rajaraman, Anand, Ullman, Jeffrey, D., « Implementing Data Cubes Efficiently », Proceedings of the 1996 ACM SIGMOD international conference on Management of Data, p.205-216, ISSN:0163-5808
Catégorisation ROLAP MOLAP DOLAP Multi-pass SQL Cartesis Magnitude MicroStrategy Multidimensional server engine Crystal Holos (ROLAP mode) SAS CFO Vision Hyperion Essbase Crystal Holos Longview Khalix Comshare Decision Speedware Media/MR Hyperion Essbase Microsoft Analysis Services Oracle Express Oracle Express (ROLAP mode) Oracle OLAP Option AW Oracle OLAP Option (ROLAP mode) Gentia Pilot Analysis Server Microsoft Analysis Services WhiteLight PowerPlay Enterprise Server Pilot Analysis Server Applix TM1 Client multidimensional engine Oracle Discoverer Comshare FDC Hyperion Intelligence Dimensional Insight BusinessObjects Hyperion Enterprise Cognos PowerPlay Hyperion Pillar Personal Express TM1 Perspectives http://www.olapreport.com/Architectures.htm#Matrix
Tendance de part du marché http://www.olapreport.com/market.htm
Résultats TPC Résultats des essais à 1,000 GB Réf.: www.tpc.org
Conclusion • La distribution de l’espace disque entre les vues et les index • L’algorithme glouton considère seulement la contrainte de l’espace disque et exclut l’utilisation des index par les vues • Le découplage de la maintenance des vues dans l’entrepôt de données par rapport aux mises à jour constantes des données sources
Références Ullman, Jeffrey D., « Efficient Implementation of Data Cubes Via Materialized Views », KDD Proceedings, 1996, p.386-388 Harinarayan, Venky, Rajaraman, Anand, Ullman, Jeffrey, D., « Implementing Data Cubes Efficiently », Proceedings of the 1996 ACM SIGMOD international conference on Management of Data, p.205-216, ISSN:0163-5808 Gupta, Ashish, Mumick, Inderpal Singh, Ross, Kenneth A., « Adapting Materialized Views after Redefinition », ACM SIGMOD Conference, 1995, p.211-222 Goldstein, Jonathan, Larson, Per-Åke, « Optimizing Queries Using Materialized Views: A Practical, Scalable Solution », ACM SIGMOD Conference, 2001, Vol. 2 No. 3, 1999, p.331-342 Gupta, Himanshu, « Selection of Views to Materialized in a Data Warehouse », Proceedings of 23rd VLDB Conference, Athens, Greece 1997, p.1-15 Gupta, Himanshu, Mumick, Inderpal Singh, « Selection of Views to Materialize Under a Maintenance Cost Constraint », Proceeding of the 7th International Conference on Database Theory, 1999, p. 453-470 Bellatreche, Ladjel, Techniques d’optimisation des requêtes dans les data warehouses, Laboratoire d’Informatique Scientifique et Industrielle, 2003, http://www.lisi.ensma.fr/
Tendances de recherche • OLAP Stream Data • Cube Iceberg • Cube-H • Cube Étoile (Star cubing)
Techniques d’indexages http://common.ziffdavisinternet.com/download/0/1387/ExtendedFeatures_SQL.xls