570 likes | 742 Views
Data Warehousing Themenkomplex: Datenmodellierung und -speicherung Meta Daten Marek Opuszko. Gliederung des Vortrags zum Thema Meta Daten :. - Gliederung - Multidim. Datenmodell - Meta Daten - Modelle und Standards. Hilfe. Gliederung Multidim. Datenmodell Meta Daten
E N D
Data Warehousing Themenkomplex: Datenmodellierung und -speicherung Meta Daten Marek Opuszko
Gliederung des Vortrags zum Thema Meta Daten: - Gliederung - Multidim. Datenmodell - Meta Daten - Modelle und Standards Hilfe
Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards 1 Das multidimensionale Datenmodell 1.1 Einführung Akt. Punkt: 1 Das multidimensionale Datenmodell
Multidimensionales Datenmodell ist ausgerichtet an speziellen Bedürfnissen der Datenanalyse Datenanalyse im Entscheidungsprozess (à la OLAP) Betriebswirtschaftliche Kennzahlen stehen im Mittelpunkt – z.B. Umsatz, Gewinn, Verlust … Wichtig ist die Betrachtung der Kennzahlen aus unterschied- lichen Perspektiven -> Dimensionen – z.B. zeitlich, regional, produktbezogen Weiterhin ist eine Hierarchisierung der Auswertedimensionen bedeutsam -> Hierarchien oder Konsolidierungsebenen z.B. Quartal, Monat etc. Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Akt. Punkt: 1 Das multidimensionale Datenmodell
Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Akt. Punkt: 1 Das multidimensionale Datenmodell • Verdeutlichung anhand der „Würfel Metapher“ • Kanten des Würfels entspr. Dimensionen • Jeder Punkt enthält betriebswirtschaftliche Kennzahl • z.B. „verkaufte Menge" für eine bestimmte Kombination von Produkt, Kunde und Zeit
Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards 1 Das multidimensionale Datenmodell 1.2 Elemente des multidimensionalen Datenmodells Akt. Punkt: 1.2 Elemente des multidimensionalen Datenmodells
Kennzahlen (Kenngrößen, Fakten): • - definieren die Art der gespeicherten Daten • meist quantitative, numerische Werte • Bsp.: Umsatzdaten, Kosten, verkaufte Menge etc. • entspr. Variablen • Kennzahl wird durch Anzahl der Dimensionen bestimmt • durch Skalarfunktionen (Bsp.: + - *)oder Aggregationsfunktionen (Bsp.: Sum(), Count() ) werden aus Fakten Kennzahlen Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Akt. Punkt: 1.2 Elemente des multidimensionalen Datenmodells
Dimension • Dimensionen (1): • betriebswirtschaftliche Entscheidungsobjekte • qualitative Daten • beschreiben Benutzersicht auf Daten • entspricht Kante des Würfels Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Akt. Punkt: 1.2 Elemente des multidimensionalen Datenmodells
Dimensionen (2): • Hierarchienbildung möglich • Hierarchien als Baum darstellbar • Feingranulare Unterteilung durch Dimensionselemente -> Knoten des Baums • Kantenlänge des Würfels = Anzahl der Elemente einer Dimension • Anzahl der Dimensionen = Dimensionalität • Unterteilung in einfache und parallele Hierarchien Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Akt. Punkt: 1.2 Elemente des multidimensionalen Datenmodells
Dimensionen (3): Bsp.: einfache Hierarchie Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Klassifikationsschema Klassifikationshierarchie Akt. Punkt: 1.2 Elemente des multidimensionalen Datenmodells In Anlehnung an Bauer,Günzel - 2004
Konsolidierungspfad Dimensionen (4): Bsp.: parallele (multiple) Hierarchie Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Akt. Punkt: 1.2 Elemente des multidimensionalen Datenmodells In Anlehnung an Bauer,Günzel - 2004
Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards
Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards 2 Meta Daten 2.1 Definition / Einführung Akt. Punkt: 2.1 Definition / Einführung
Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards • ” Unter dem Begriff Metadaten versteht man gemeinhin jede Art von Information, die für den Entwurf, die Konstruktion und die Benutzung eines Informationssystems benötigt wird.“ (vgl. Bauer, Günzel (2004)) • Meta Daten (MD) werden im MD - Repository gespeichert • Verwaltung durch den MD - Manager • Im MD - System stehen Informationen über alle Data Warehouse Komponenten • Meta Daten = „Daten über Daten“ Akt. Punkt: 2.1 Definition / Einführung
Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Akt. Punkt: 2.1 Definition / Einführung
Einteilung von MD in drei Kategorien (Nutzen): Passive MD: - MD zur reinen Dokumentation aller Komponenten Der Data Warehouse Architektur Aktive MD: - Beschreibung von Prozessen (z.B. Transformationsregeln) Semiaktive MD: - MD werden nicht direkt zur Ausführung eines Prozesses benutzt (z.B. Schemainformationen) Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Akt. Punkt: 2.1 Definition / Einführung
Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards 2 Meta Daten 2.2 Klassifikation von Meta Daten Akt. Punkt: 2.2 Klassifikation v. Meta Daten
Klassifikation nach Anwendersicht: Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards • Technische Meta Daten • - alle MD für technischen Benutzer eines Data-Warehouses • z.B. Zugangsrechte, Transformationsregeln und Datenbankkataloge • Business-Meta Daten • Ziel der Business-Meta Daten ist, den Benutzer mit Informationen zu versorgen, um Daten zu verstehen, • finden und nutzen zu können • Aussagen über Datenqualität • Präsentation spielt große Rolle Akt. Punkt: 2.2 Klassifikation v. Meta Daten
Klassifikation nach Typ: Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards • Meta Daten über Primärdaten • Datenbestände von Quellsystemen, DW, BasisDB etc. • Strukturdefinitionen der Quellsysteme, DW, BasisDB etc. • Unterscheidung in teilschema- und gesamtschemabezogene Meta Daten • Codetabellen • Prozessmetadaten • Meta Daten über Prozesse des DW • Bsp.: Regeln zur Datenextraktion, Transformation • Protokolldateien und Ausführungspläne der Prozesse • Population, Design, Administration, Analyse Akt. Punkt: 2.2 Klassifikation v. Meta Daten
Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards 2 Meta Daten 2.3 Wozu Meta Daten? Akt. Punkt: 2.3 Wozu Meta Daten ?
Ein simples Beispiel: Was bedeuten diese Ziffernfolgen?12345 789656 2110012 Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Umsatszahlen? Akt. Punkt: 2.3 Wozu Meta Daten ? Kundennummern? Geheimzahlen? Daten + Meta Daten = Information
Zwei Ziele zur Erfassung von MD: • 1. Aufwand für den Aufbau und den laufenden Betrieb des Data-Warehouse-Systems minimieren • Automatisierung der Administrationsprozesse • Systemintegration • Schutz und Sicherheitsaspekte • Flexibler Softwareentwurf • Meist mit Hilfe von technischen MD Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Akt. Punkt: 2.3 Wozu Meta Daten ?
Zwei Ziele zur Erfassung von MD: • 2. optimale Auswertung und Beschaffung Daten • - Datenqualität • - Terminologie • Datenanalyse • hier eher Benutzung von Business MD Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Akt. Punkt: 2.3 Wozu Meta Daten ?
Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards 2 Meta Daten 2.4 Meta Daten Modellierung Akt. Punkt: 2.4 Meta Daten Modellierung
Ebene: 3 2 1 0 • - Speicherung und Verwaltung der MD • findet in einem Repository statt • Struktur und Inhalt des Repositoriums werden vom zu modellierenden Informationssystem bestimmt. • Bei komplexen Informationssystem mind. Vier Ebenen Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Akt. Punkt: 2.4 Meta Daten Modellierung In Anlehnung an Bauer,Günzel - 2004
Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards 2 Meta Daten 2.5 Anforderungen an die Repositories Akt. Punkt: 2.5 Anforderungen an die Repositories
Anforderungen an die Repositories Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Funktionalität: Anwenderzugriff - Navigation - Selektion - Filterung - Manuelle Aktualisierung Interoperabilität und Werkzeugunterstützung - Austauschformat - Programmierschnittstelle (API) - Erweiterbares Metamodell Changemanagement - Versions- und Konfigurationsverwaltung - Notifikationsdienst - Auswirkungsanalyse Akt. Punkt: 2.5 Anforderungen an die Repositories
Repository-Architektur (1) – Ein Beispiel: Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Akt. Punkt: 2.5 Anforderungen an die Repositories In Anlehnung an Bauer,Günzel - 2004
Repository-Architektur (2): • Es existieren mehrere Ansätze zur Gesamtarchitektur: • Zentralisierte MD-Verwaltung • Zugriff einheitlich für alle Anwender • Zentrale Konsistente Datenhaltung • In Realität kaum umsetzbar • 2. Dezentralisierte MD-Verwaltung • Repositories völlig unabhängig • Daten über einheitliche Schnittstellen tauschen • Föderative MD-Verwaltung • Mischung aus obigen • globale, konzeptuelle Sicht auf die Meta Daten • Jedoch bleiben Repositories autonom Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Akt. Punkt: 2.5 Anforderungen an die Repositories
Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards
Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards 3 Modelle und Standards 3.1 Meta Daten Referenzmodelle • - CWM (Common Warehouse Metamodel) • OIM (Open Information Model) Akt. Punkt: 3.1 Meta Daten Refrenzmodelle
CWM – Common Warehouse Metamodel Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards • Von der OMG – Object Management Group – entwickelter Standard • Ziel ist ein einfacher Austausch zwischen Werkzeugen und Repositorien • Erste Version seit September 1999 • Produktübergreifend und herstellerunabhängig • Ist in Ebenenhierarchie aufgebaut • Als UML Klassenmodell verfügbar (204 Klassen und 150 Assoziationen) • Schnittstellen über IDL (später) oder XML • Java Schnittstelle ist vorgesehen Akt. Punkt: 3.1 Meta Daten Refrenzmodelle
CWM – Fünf Schichten Architektur Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Akt. Punkt: 3.1 Meta Daten Refrenzmodelle
Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Akt. Punkt: 3.1 Meta Daten Refrenzmodelle In Anlehnung an Bauer,Günzel - 2001
OIM – Open Information Model Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards • Von der Meta Data Coalition (MDC) entwickelt • MDC ist nun Teil der OMG. Demzufolge wurde OIM aufgegeben • Ziel war Verbesserung der Interoperabilität zwischen Werkzeugen Akt. Punkt: 3.1 Meta Daten Refrenzmodelle
Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards 3 Modelle und Standards 3.2 Repository Standards Akt. Punkt: 3.2 Repository Standards • IRDS - Information Ressource Dictionary System • PCTE - Portable Common Tool Enviroment
IRDS – Information Ressource Dictionary System Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards • Wurde 1990 von der ISO (International Organization for Standardization) definiert • behandelt Anforderungen und Architektureines Repositories • IRD = gemeinsames Repository zur Definition und Speicherung von Informationen über Daten • fünf Punkte sind hier von größererBedeutung: Akt. Punkt: 3.2 Repository Standards
IRDS – Information Ressource Dictionary System(2) Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards • Die Daten die das Unternehmen benötigt • Automatisierte und nicht automatisierte Prozesse, die verfügbar sind um Daten zu präsentieren und zu verwalten • Die verfügbare physikalische Hardwareumgebung, in welcher diese Daten präsentiert werden • Die Organisation von humanen und physischen Ressourcen • Human Ressourcen die für die Erzeugung dieser Information verantwortlich sind Akt. Punkt: 3.2 Repository Standards
PCTE – Portable Common Tool Enviroment Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards • 1990 standardisiert von der ECMA (European Computer Manufactor‘s Association) • Enthält Objekt Basis, bzw. Objekt Container • Funktionen um diese Objekte zu manipulieren • Das Objekt Management System ist aus dem E/R Modell abgeleitet • Alle Entitäten sind typisiert • Schnittstellen-Standard für Software-Entwicklungs-Umgebungen • Objekte müssen in einem Schema Definition Set bekannt gemacht werden Akt. Punkt: 3.2 Repository Standards
PCTE – Portable Common Tool Enviroment(2) - SDS Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards • SDS gruppiert eine Menge zusammengehörender Typdefinitionen Akt. Punkt: 3.2 Repository Standards
Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards 3 Modelle und Standards 3.3 Austausch Standards Akt. Punkt: 3.3 Austausch Standards • CDIF - CASE Data Interchange Format • XMI - XML Metadata Interchange
CDIF – CASE Data Interchange Format Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards • Seit 1987 von EIA ( Electronic Industries Alliance ) entwickelt • Nicht auf XML basierend • Deckt viele wesentliche Modellierungsarten ab, die auch von CASE Tools genutzt werden • Transfer meist über Dateien • Schnittstellen können auch wie bei CORBA über eine IDL (Interface Definition Language) definiert werden • Wird wohl zugunsten eines XML-basierten Standards aufgegeben Akt. Punkt: 3.3 Austausch Standards
CDIF – CORBA Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Akt. Punkt: 3.3 Austausch Standards
XMI – XML Metadata Interchange Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards • Standard der OMG • Austausch von MOF (Meta Object Facility - OMG Standard) basierten Metamodellen • Der Standard besteht aus: • Einer Menge an DTD Erzeugungsregeln um MOF basierte Modelle in XML DTDs umzuwandeln • Einer Menge an XML- Dokument-Erstellungsregeln um MOF basierte Meta Daten zu kodieren und zu dekodieren • Design Prinzipien für XMI basierte DTDs und XML Streams • Konkrete DTDs für UML und MOF Akt. Punkt: 3.3 Austausch Standards
Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards 3 Modelle und Standards 3.4 Kommerzielle MD Management Lösungen • Microsoft Repository • Platinum Repository • Data Warehouse Builder Akt. Punkt: 3.4 Kommerzielle MD Management Lösungen
Microsoft Repository Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards Akt. Punkt: 3.4 Kommerzielle MD Management Lösungen Vgl. http://msdn.microsoft.com/library/default.asp?url=/library/en-us/reposit/htm/reconintroducingmicrosoftrepository.asp
Microsoft Repository (2) Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards • Objekt orientiertes erweiterbares Repository • Besteht aus zwei Hauptkomponenten: • Eine Menge vonAPIs, basierend auf dem Component Object Modell von Microsoft um Information und Modelle zu beschreiben • Eine (relationale)Repository Engine, Bsp.: MS-SQL Server • Integriert in Visual Studio 6.0 • Wurde in Vergangenheit stark erweitert Akt. Punkt: 3.4 Kommerzielle MD Management Lösungen
Platinum Repository Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards • Von Computer Associates entwickelt (seit 1988) • Basierend auf dem E/R Modell • Bietet verschiedenste Schnittstellen zu CASE – Werkzeugen • Weiterhin Werkzeuge zum Import vieler aktueller Datenbanksprachen • Kollaboration mit Microsoft um Microsoft Repository auch auf andere Plattformen zu portieren • Beispiel1 • Beispiel2 Akt. Punkt: 3.4 Kommerzielle MD Management Lösungen
Data Warehouse Builder Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards • Produkt von Oracle • Bietet mit der Meta Base integriertes Data Warehouse Meta Daten Management • Übernimmt Metadatensammlung, Überwachung der Aktualität, der Qualität und Vollständigkeit der Meta Daten • Zur Visualisierung der Meta Daten existiert eine webbasierte Umgebung. • Beispiel Akt. Punkt: 3.4 Kommerzielle MD Management Lösungen
Gliederung Multidim.Datenmodell Meta Daten Modelle undStandards 3 Modelle und Standards 3.5 Forschungsansätze Akt. Punkt: 3.5 Forschungs-ansätze • ConceptBase • H-PCTE