1 / 7

Simulation der Datenbereitstellung im DWH

Simulation der Datenbereitstellung im DWH. Thema Nr. 2 für ANS08-Seminar am 08.02.2007 Gruppe: Thomas Best, Gabriele Branding, Susanne von Emden, Derek Klumpe. Themen. 1. Aufgabenstellung. 2. Vorüberlegungen der Gruppe. 3. Vorgehen: Datenübernahme Transformation Bereinigung

sarah
Download Presentation

Simulation der Datenbereitstellung im DWH

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Simulation der Datenbereitstellung im DWH Thema Nr. 2 für ANS08-Seminar am 08.02.2007 Gruppe: Thomas Best, Gabriele Branding, Susanne von Emden, Derek Klumpe

  2. Themen 1. Aufgabenstellung 2. Vorüberlegungen der Gruppe • 3. Vorgehen: • Datenübernahme • Transformation • Bereinigung • Harmonisierung • Verdichtung 4. Das Data Warehouse (DWH)

  3. [1.] Aufgabenstellung • Simulation der Datenbereitstellung im DWH: • Basis: Excel Tabelle „03_Ausgangsdaten_Versicherungsunternehmen.xls“ • Unternehmen: Im Aufbau befindliches Versicherungsunternehmen mit 4 Produkten, die bundesweit an Berufstätige verkauft werden • Ergänzung der Daten, um Mängel bei Datenübernahme zu simulieren • Aufbau einer Präsentation, die alle Schritte simuliert • Definition von Qualitätsanforderungen (inkl. Automatisierung) • „Sinnvolle“ Strukturierung der Daten im DWH • Erstellung einer kurzen Präsentation zur Darstellung des Vorgehens

  4. [2.] Vorüberlegungen der Gruppe • Granularität:(hoher Detaillierungsgrad = geringe Granularität vs. niedriger Detaillierungsgrad = hohe Granularität) • Rohdaten haben bereits eine hohe Granularität (z.B. keine Einzelkundendaten) • Eine weitere Verdichtung vor der Auswertung erscheint nicht sinnvoll • Partitionierung:(horizontale/zeilenweise vs. vertikale/spaltenweise Zerlegung der Datenbestände) • Vertikale Partitionierung wird auf die Tabelle „Bevölkerung“ angewendet • Horizontale Partitionierung wird nicht benötigt • Denormalisierung:(Rückgängigmachung von Übergängen in höhere Normalformen) • Musste nicht vorgenommen werden • Externe Daten:(Quellen wie Texte, Grafiken, Bilder, …) • Daten der Statistischen Ämter werden in jeweils separaten Tabellen abgelegt

  5. [3.] Vorgehen - Datenübernahme • Initiales Füllen: • Reinladen aller Daten, nach der Transformation u. Bereinigung • Zyklische Aktualisierung: • Bei der Aktualisierung werden lediglich die Datensätze aus den neuen Monaten oder Jahren in den jeweiligen Tabellen hinzugefügt • Zu aktualisierende Tabellen sind • monatlich: Umsatzdaten • jährlich: Daten der Statistischen Ämter • Altdaten bleiben bestehen • Aktualisierung erfolgt zur Zeit noch manuell über externen File-Import

  6. [3.] Vorgehen - Transformation • Bereinigung: • Entsprechende Makrofunktionen kurz beschreiben • Anpassung der Tabellenstrukturen an Datenbankstruktur • z.B. Zellenverbindungen aufheben, keine Überschriften für mehrere Spalten gültig (Stichtag) • Harmonisierung: • Entsprechende Makrofunktionen kurz beschreiben • Primärschlüssel Bundesland in den Statistik-Tabellen • Zusammengesetzter Schlüssel in Tabelle Umsätze (Produkt, BL-ID, Jahr, Monat) • Dimensionen vereinheitlichen (Datumsformate) • Verdichtung/Anreicherung: • Eine Abfrage gilt es zu erstellen:Anzahl Erwerbstätiger pro km² und Umsatz im jeweiligen Bundesland

  7. [4.] Das Data Warehouse (DWH) • Operative Ausgangsdaten • Datentransformation • Datenstruktur und -import Data Warehouse • Abfragen

More Related