1.1k likes | 1.23k Views
Data Warehouse Day 2. Day 1 Review / Recall. Name the phases of the Business Intelligence process ! How would you describe the current business dynamic ? Why focus on Customers and Customer behavior ? How would you describe a Customer ? What is a profitable Customer ?
E N D
Data Warehouse Day 2 Day 1 Review / Recall Name the phases of the Business Intelligence process ! How would you describe the current business dynamic ? Why focus on Customers and Customer behavior ? How would you describe a Customer ? What is a profitable Customer ? What information do we need to record about them ? What‘s the technical and logical reason for a Data Warehouse solution contrary to an operative system ? BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Warehousing Requirements • Unabhängigkeit zwischen Datenquellen und Analyse-systemen (bzgl. Verfügbarkeit, Belastung, laufender Änderungen) • Dauerhafte Bereitstellung integrierter und abgeleiteter Daten (Persistenz) • Mehrfachverwendbarkeit der bereitgestellten Daten • Möglichkeit der Durchführung prinizipiell beliebiger Auswertungen BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Warehouse Requirements II • Unterstützung individueller Sichten (z.B. bzgl. Zeithorizont, Struktur) • Erweiterbarkeit (z.B. Integration neuer Quelle) • Automatisierung der Abläufe • Eindeutigkeit über Datenstrukturen, Zugriffsberechtigungen und Prozesse • Ausrichtung am Zweck: Analyse der Daten BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Warehouse Characteristics Priorities - Easy of use, flexible access, refresh, query Processor Use - Highly unpredictable (unvorhersehbar) Response Time - Seconds to hours (data mining may take hours) Database - usually relational (RDBMS) Data Content - Organized by subject partitioned Nature of Data - Historical Application Processing - unstructured, heuristic, analytical End Users - management, decision makers, knowledge workers BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Warehouse Characteristics II • User Expectations • differences in response time may be significant between DWH and a client-server front end application • you need to control user’s expectations regarding response • set reasonable and achievable targets for query response, which can be assessed and proved in the first increment of development • then you can define, specify and agree SLA • Talk to the users ! BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Warehouse Characteristics III • Exponential Growth and Use • once implemented, DWH continue to grow in size • each refresh time - more data is added (or archived) • DWH grow very quickly - magnitude of gigabytes a month, terabytes over year • once the success of a DWH implementation is proven, the use increases dramatically • use often grows faster than expected BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Warehouse Properties BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Warehouse Properties II BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Warehouse Properties III • Subject Areas • For a given subject - snapshots of data across the business • different time periods, different emphasis of data view • Typical subject areas • Customer accounts • Product sales • Customer savings (Spareinlagen) • Toll calls (telecommunication) • Airline passenger booking information • Insurance claim data (Ansprueche) BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Warehouse Properties IV • Subject Areas and Warehouse Data Model • you develop a data model to hold the data that you will use measure the business • you include the information that you will use to analyze the business • you measure the business according sales figures • you analyze the sales by Customers, Region, Salesperson, Territory, Store (or any combination) • Subject oriented information provides information departments within a corporation with a common understanding of their business BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Warehouse Properties V BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Warehouse Properties VI • Data status of online transaction processing data: • dispersed (verteilt) in diverse (verschiedene) and independent legacy systems • it’s impossible to measure the business performance, because • of the diversity • inconsistency in the data • differences in database management systems • lack of external information BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Warehouse Properties VII • DWH to integrate the data into one set quality information, which is: • meaningful, accurate and intelligible (verstaendlich) for analysis • Standardization, Integration of Data: • Naming conventions • Coding structures • Physical data attributes • Measurement of variables • Cleaning and integration process is time-consuming and costly ! BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Warehouse Properties VIII BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Warehouse Properties IX • Time key is a vital database attribute • analysis of data is over a time period (days, weeks, month, quarters, years) • database key columns contain an element of time that determinates the business period to which the data relates • structure and meaning of the element varies between implementation and business needs • Refresh Cycles • must be determined in the early stages of the analysis of the business user’s requirements BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Warehouse Properties X • Grain of Data (granularity - Körnigkeit) • grain is level at which the data is held in DWH-tables • operational system: grain of data is transactional (one record for each transaction) • refresh cycle may not have the same grain as the data cycle • it’s more usual to store data in a summarized form by week, month or other business defined time period • you may choose refresh the data warehouse every week, but the grain of the data may be daily totals (monthly - week, etc.) BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Warehouse Properties XI BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Warehouse Properties XII • Changing Data - the following operations are typical of a DWH • initial set of data is loaded (first time load) • frequent snapshots of core data are added, according to the refresh cycle • DWH-Data may need to changed in other ways • business determines how much historical data is needed for analysis (older: archived, purged (gesäubert)) • inappropriate (unangebrachte) or inaccurate data values may be deleted from or migrated out of the DWH BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Enterprise -Wide Data Warehouse • Stores all data from all subject areas within the business for analysis by end users • the scope is the entire business and all operational aspects within the business • normally created through a series of incrementally developed solutions • EDWH provides: • a single source of corporate enterprise-wide data • a single source of synchronized data for each subject area • a single point for distribution of data to dependent data marts BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Marts • Aufgabe • Bereitstellung einer inhaltlich beschränkten Sicht auf das DW (z.B. für Abteilung, oder Funktionen) • Gründe • Eigenständigkeit, Datenschutz, Lastverteilung, Datenvolumen, etc. • Realisierung • Verteilung der DW-Daten • Formen • Abhängige Data Marts, Unabhängige Data Marts BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Marts II • Benefits • provides localization - they server users at a specific level or for a specific purpose • smaller and easier to manage then a EDWH • the need may come from geographical, functional divisions or technical groups within an enterprise • DM reduce the demands on warehouse date and also the data access traffic BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Marts Independent BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Marts Independent II • build and loaded directly from operational system • motivation for this kind of implementation: • Line Of Business (LOB) empowerment • short time frame for implementation • the methods for extracting and loading of operational data as in the DH solution • Integration and Transformation retrospectively (nachtraeglich) into a single DW-solution is possible • Issue: independent data transformation process BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Marts Dependent BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Marts Dependent II • subset of enterprise-wide data • built and loaded from the Enterprise DW • need only extract from the data warehouse and transport the date into themselves, higher grain then DW • they don’t transform any data (faster, cheaper) • other advantages • performance, availability, connection costs • more resistant to change • maintains a single version of data BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Mart Dependent III • Strukturelle Extrakte • Beschränkung auf Teile des Schemas • Bsp.: nur bestimmte Kennzahlen oder Dimensionen • Inhaltliche Extrakte • inhaltliche Beschränkung • Bsp.: nur bestimmte Filialen oder das letzte Jahresergebnis • Aggregierte Extrakte • Verringerung der Granularität • Bsp.: Beschränkung auf Monatsergebnisse BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Mart Considerations • avoid disparate (unvereinbare) data mart solution • build towards the enterprise-wide strategy • consistent use of products, technology and processes are vital • always employ (einsetzen) dependent data mart solutions to avoid the disparity problems BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Data Mart Characteristics Priorities - Easy of use, flexible data access Processor Use - Highly unpredictable (unvorhersehbar) Response Time - Seconds to several minutes Database - Relational, multidimensional Data Content - Organized by subject for LOB Nature of Data - historical (month, weeks rather then years) Application Processing - unstructured, heuristic, analytical End Users - see DW, + statisticians BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Operational Data Store BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Operational Data Store • holds the current data for analysis or application integration • may form a staging area for the Warehouse • may contain integrated, clean, summarized data • limited summary life expectation • may be updated • synchronously with operational system • on a store-and forward basis • exists in a separate environment BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary ODS - Characteristics Priorities - Easy of use, flexible data access Response Time - Seconds to minutes Database - relational Data Content - organized by subject, current value data, integrated Nature of Data - Dynamic Processing - structured, analytical End Users - DBA’s, clerical users BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Meta Data • Begriff: • „ jede Art von Information, die für den Entwurf, die Konstruktion und die Benutzung eines Informationssystems benötigt wird“ • für DW: • notwendig zur Abdeckung der Informations-Schutz-und Sicherheitsbedürfnisse der Anwender und der Software • werden in allen Phasen produziert und genutzt • konsistente Bereitstellung der Metadaten aus • unterschiedlichen Quellen notwendig -> Repository BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Meta Data Nutzung • Passiv: • als Dokumentation der verschiedenen Aspekte eines DW-Systems • Aktiv: • Speicherung semantischer Aspekte (z.B. Transformationsregeln) sowie deren Interpretation zur Laufzeit • Semiaktiv: • Speicherung von Strukturinformationen (Tabellendefinitionen, • Konfigurationsspezifikationen) und Nutzung zur Überprüfung (nicht direkt zur Ausführung) BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Meta Data Objekte • Betriebswirtschaftliche Kennzahlen • Sichten für einzelne Anwendergruppen • Transformation der Daten aus Quellsystemen in das DW • Laderoutinen und Regeln • Aufbau von Anfragen, Filter, Anzeigeschablonen, BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Meta Data Objekte II • Administrationsinformationen: Zugriffsstatistiken,Backup/Recovery, Bildung von Aggregaten, ... • Datenbankparameter und -einstellungen: • Server, Hardware-Umgebung, Tuning-Parameter • Anfrage-Performance: • vorberechnete Aggregate, Caching, Optimierungsstrategien • Granularität der Daten BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Meta Data Objekte III • allgemeine Attribute: • Maßeinheiten etc. • Sicherheitsstrategie: • Anwenderprofile und -gruppen, Einschränkungen der Sichten • Berichts- und Analyseobjekte, Reports BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Meta Data Repository • Ziel 1: • Minimierung des Aufwandes für Aufbau und Betrieb eines DW • Systemintegration: • Integration auf Schema- und Datenebene erfordert Information über Struktur und Semantik der Quell- und Zielsysteme • einheitliche Verwaltung von Metadaten für Integration der DW-Werkzeuge • Automatisierung der Administration • Steuerung der DW-Prozesse über Scheduling-/ Konfigurationsmetadaten • Daten über Ausführung der Prozesse (Protokolle etc.) BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Meta Data Repository II • Ziel 1 (cont.): • Minimierung des Aufwandes für Aufbau und Betrieb eines DW • Flexibler Softwareentwurf • explizite Repräsentation sich häufig ändernder Aspekte (z.B. Transformationsregeln) • verbesserte Wartbarkeit und Erweiterbarkeit • Schutz- und Sicherheitsaspekte • Behandlung von Zugriffs- und Benutzerrechten als Metadaten • globale Zugriffsmechanismen BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Meta Data Repository III • Ziel 2: • Gewährleistung eines optimalen Informationsgewinns für alle Anwendergruppen • Datenqualität • Sicherstellung der geforderten Qualität durch Überprüfungsregeln • Nachvollziehbarkeitsinformationen (Quellsystem, Autor, Zeitpunkt usw.) • Terminologie • einheitliche Terminologie als Voraussetzung für einheitliche • Interpretation • zentrale Verwaltung im Metadaten-Repository BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Meta Data Repository IV • Ziel 2 (cont.): • Gewährleistung eines optimalen Informationsgewinns für alle Anwendergruppen • Datenanalyse • Metadaten über Bedeutung von Daten, Kennzahlensysteme, BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Glossary Meta Data Anforderungen bzgl. Funktionalität • Anwenderzugriff • Mechanismen zur Navigation, Filterung, Selektion von Metadaten • Unterstützung manueller Aktualisierung • Interoperabilität und Werkzeugunterstützung • Programmierschnittstelle für lesenden und schreibenden Zugriff • Import- und Exportschnittstellen • Erweiterbares Metamodell • Change Management • Versions- und Konfigurationsverwaltung • Benachrichtigungsmechanismen BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Architecure Reference Architecture I BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Architecure Reference Architecture II BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Architecure Extraction, Transformation and Load Process (ETL) • ETL-Prozeß • Integrationsprobleme • Data Cleaning • Data Capture Methods • Staging Area • Load Window This area typically takes 70% of the overall effort in building DWH ! BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Architecure ETL - Probleme • Vielzahl von Quellen • Heterogenität • Datenvolumen • Komplexität der Transformation • Schema- und Instanzintegration • Datenbereinigung • Kaum durchgängige Methoden- und System-unterstützung, jedoch Vielzahl von Werkzeugen vorhanden BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Architecure Extraction, Transformation and Load Process (ETL) Extraktion: Selektion eines Ausschnitts der Daten aus den Quellen und Bereitstellung für Transformation Transformation: Anpassung der Daten an vorgegebene Schema- und Qualitätsanforderungen Load: physisches Einbringen der Daten aus dem Arbeitsbereich (staging area) in das Data Warehouse (einschl. eventuell notwendiger Aggregationen) BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Architecure ETL - Definitionsphase BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Architecure ETL - Integrationsprobleme • Schwerpunkt: • Probleme der Datenintegration • Ausgangspunkt: • Daten liegen in den operativen Informationssystemen unterschiedliche Systeme • -> Heterogenität BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Architecure ETL - Anforderungen an Integration • alle relevanten Daten aus den operativen Systeme müssen im Data Warehouse aufgenommen werden können • Überführung unterschiedliche Strukturierungen / Darstellungen semantisch gleicher oder zusammengehöriger Daten aus den Quellsystemen in eine gemeinsame Repräsentation • Identifizierungen gleicher Informationen, die aus mehreren Systemen stammen • Beseitigung ungewünschter Redundanz, die Analyseergebnisse verfälschen kann BA Lörrach, WI 4.Semester 4/21/2002
Data Warehouse Architecure ETL - Integrationskonflikten • Beschreibungskonflikte • Heterogenitätskonflikte • Strukturelle Konflikte • in der Regel kombiniertes Auftreten dieser Konfliktarten • zusätzlich- für Data Warehouses besonders wichtig: • Datenkonflikte BA Lörrach, WI 4.Semester 4/21/2002