90 likes | 239 Views
Simulation der Datenbereitstellung im DWH. Thema Nr. 2 für ANS08-Seminar am 08.02.2007 Gruppe: Thomas Best, Gabriele Branding, Susanne von Emden, Derek Klumpe. Themen. 1. Aufgabenstellung. 2. Vorüberlegungen der Gruppe. 3. Vorgehen: Datenübernahme Transformation Bereinigung
E N D
Simulation der Datenbereitstellung im DWH Thema Nr. 2 für ANS08-Seminar am 08.02.2007 Gruppe: Thomas Best, Gabriele Branding, Susanne von Emden, Derek Klumpe
Themen 1. Aufgabenstellung 2. Vorüberlegungen der Gruppe • 3. Vorgehen: • Datenübernahme • Transformation • Bereinigung • Harmonisierung • Verdichtung 4. Das Data Warehouse (DWH)
[1.] Aufgabenstellung • Simulation der Datenbereitstellung im DWH: • Basis: Excel Tabelle „03_Ausgangsdaten_Versicherungsunternehmen.xls“ • Unternehmen: Im Aufbau befindliches Versicherungsunternehmen mit 4 Produkten, die bundesweit an Berufstätige verkauft werden • Ergänzung der Daten, um Mängel bei Datenübernahme zu simulieren • Aufbau einer Präsentation, die alle Schritte simuliert • Definition von Qualitätsanforderungen (inkl. Automatisierung) • „Sinnvolle“ Strukturierung der Daten im DWH • Erstellung einer kurzen Präsentation zur Darstellung des Vorgehens
[2.] Vorüberlegungen der Gruppe • Granularität:(hoher Detaillierungsgrad = geringe Granularität vs. niedriger Detaillierungsgrad = hohe Granularität) • Rohdaten haben bereits eine hohe Granularität (z.B. keine Einzelkundendaten) • Eine weitere Verdichtung vor der Auswertung erscheint nicht sinnvoll • Partitionierung:(horizontale/zeilenweise vs. vertikale/spaltenweise Zerlegung der Datenbestände) • Vertikale Partitionierung wird auf die Tabelle „Bevölkerung“ angewendet • Horizontale Partitionierung wird nicht benötigt • Denormalisierung:(Rückgängigmachung von Übergängen in höhere Normalformen) • Musste nicht vorgenommen werden • Externe Daten:(Quellen wie Texte, Grafiken, Bilder, …) • Daten der Statistischen Ämter werden in jeweils separaten Tabellen abgelegt
[3.] Vorgehen - Datenübernahme • Initiales Füllen: • Reinladen aller Daten, nach der Transformation u. Bereinigung • Zyklische Aktualisierung: • Bei der Aktualisierung werden lediglich die Datensätze aus den neuen Monaten oder Jahren in den jeweiligen Tabellen hinzugefügt • Zu aktualisierende Tabellen sind • monatlich: Umsatzdaten • jährlich: Daten der Statistischen Ämter • Altdaten bleiben bestehen • Aktualisierung erfolgt zur Zeit noch manuell über externen File-Import
[3.] Vorgehen - Transformation • Bereinigung: • Entsprechende Makrofunktionen kurz beschreiben • Anpassung der Tabellenstrukturen an Datenbankstruktur • z.B. Zellenverbindungen aufheben, keine Überschriften für mehrere Spalten gültig (Stichtag) • Harmonisierung: • Entsprechende Makrofunktionen kurz beschreiben • Primärschlüssel Bundesland in den Statistik-Tabellen • Zusammengesetzter Schlüssel in Tabelle Umsätze (Produkt, BL-ID, Jahr, Monat) • Dimensionen vereinheitlichen (Datumsformate) • Verdichtung/Anreicherung: • Eine Abfrage gilt es zu erstellen:Anzahl Erwerbstätiger pro km² und Umsatz im jeweiligen Bundesland
[4.] Das Data Warehouse (DWH) • Operative Ausgangsdaten • Datentransformation • Datenstruktur und -import Data Warehouse • Abfragen