1 / 64

Datenintegration

Datenintegration. Gliederung. Motivation Problemfall Heterogenitäten Datenqualität Integrationsansätze. Internet. Datenintegration in der Biologie. Motivation. Biologische Datenquellen: Verschiedene Plattformen Unterschiedliche Strukturen Heterogene Nutzerschnittstellen

temima
Download Presentation

Datenintegration

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Datenintegration

  2. Gliederung • Motivation • Problemfall Heterogenitäten • Datenqualität • Integrationsansätze

  3. Internet Datenintegration in der Biologie

  4. Motivation • Biologische Datenquellen: • Verschiedene Plattformen • Unterschiedliche Strukturen • Heterogene Nutzerschnittstellen  Lösungsansatz: Datenintegration • Integration: Kombination von Inhalten multipler, oftmals heterogener Quellen  Ziel: Informationsfusion • Informationsfusion: Kombination, Verdichtung und Interpretation von Daten aus heterogenen Quellen, um daraus neue Informationen abzuleiten

  5. Datenintegration in der Biologie • Zwei gebräuchliche Ansätze (später mehr): • Virtuelle oder logische Integration • Integration zur Laufzeit  nicht immer performant • Keine lokale Datenspeicherung  Daten immer aktuell • Materialisierte oder physische Integration • Datenspeicherung durch das Integrationssystem  sehr performant • Aktualität vom Aktualisierungsintervall abhängig  Daten nicht immer aktuell

  6. Heterogenitäten

  7. Herausforderung - Heterogenität • Heterogenität von Informationssystemen • Verschiedene Methoden des Datenzugriffs • Unterschiedliche Modelle • Abweichende Strukturen • Arten der Heterogenität*: • Technische Heterogenität • Syntaktische Heterogenität • Datenmodellheterogenität • Strukturelle/Schematische Heterogenität • Semantische Heterogenität *verschiedene Unterteilungen in der Literatur

  8. Technische Heterogenität • Nicht auf Daten bezogen • Unterschiede im Zugriff auf Daten • Verschiedene Ebenen: Leser & Naumann: Informationsintegration. dpunkt.verlag, 2006.

  9. Syntaktische Heterogenität • Unterschiedliche Darstellung gleicher Sachverhalte • Beispiele: • Datentypen: integer vs. double • Zeichenkodierungen: ASCII vs. Unicode • Separatoren: Komma vs. Semikolon vs. Tabulator • Dezimaltrennzeichen: Komma vs. Punkt

  10. Datenmodellheterogenität (II) relational

  11. Datenmodellheterogenität (III) <Pflanze> <Name/> <Herkunft/> <Zulassungsjahr/> <Verwendung/> <Pedigree> <Elter_1/> <Elter_2/> </Pedigree> … </Pflanze> XML

  12. Strukturelle/Schematische Heterogenität • Abbildung des gleichen Sachverhalts • Aber: Die Abbildung erfolgt unterschiedlich • Die Entwicklung verschiedener Datenquellen erfolgt autonom  unterschiedliche Anforderungen  technische Einschränkungen  persönliche Präferenzen von Entwicklern • Beispiele: • 1:1-Beziehung kann als eine oder zwei Relationen modelliert werden • Modellierung als Attribut oder Relation • Objektrelationales Mapping

  13. Strukturelle/Schematische Heterogenität

  14. Semantische Heterogenität • Definition: Semantik bedeutet die Interpretation von Daten in einem bestimmten Kontext • Beispiel: unterschiedliche Intension eines Attributnamens “Name”  Vorname?  Nachname?  Kontext ist erforderlich • Synonyme: gleiche Intension, aber unterschiedliche Bezeichnung • Homonyme: unterschiedliche Intension, aber gleiche Bezeichnung  Semantische Konflikte sind schwierig zu entdecken

  15. Semantische Heterogenität (II) • Weitere Beispiele: • Unterschiedliche Einheiten: Pflanzenlänge in cm oder m • Verschiedene Kodierungen: 1  klein a  klein 2  mittel vs. b  mittel 3  groß c  groß • Unterschiedliche Bedeutung: • Boniturskala A: 1 – 5 • Boniturskala B: 0 – 9  Lösungsansatz: Ontologien

  16. Ontologie • Von griech. on: Seiendes; logos: Wort • Metaphysica generalis (Aristoteles): Lehre vom Seienden • Traditionelle Ontologie: Verhältnis des Seins zum Seienden • Ontologie in der Informatik: Definition von Klassen (Konzepte, Objekte) und ihren Beziehungen (Attribute, Rollen) • Ist formal definiert • Enthält wohldefiniertes Vokabular einer Domäne/eines Bereiches  Ziel: • Kommunikation zwischen Menschen verbessern • Interoperabilität zwischen Systemen verbessern

  17. Ontologie (II) • Einsatz in der Biologie  Bioontologien • Formale Repräsentationen verschiedener biologischer Wissensbereiche, z.B.: • Gene Ontology • Plant Ontology • Trait Ontology • Objekte stehen zueinander in Beziehung!!!  Abgrenzung zur Taxonomie: hierarchische Gliederung

  18. Gene Ontology • http://www.geneontology.org/ • Besteht aus drei kontrollierten Vokabularien: • Molekulare Funktionen (z.B. oxidoreductase activity) • Biologische Prozesse (z.B. oxidative phosphorylation) • Zelluläre Komponenten (z.B. mitochondrial matrix) • Beispiel: Ein Genprodukt ist in einer zellulären Komponente lokalisiert, ist dort an einem bilogischen Prozess beteiligt und führt dabei eine molekulare Funktion aus. • Beziehungen in der Gene Ontology: • is_a, z.B. nuclear chromosome is_a chromosome • part_of, z.B. nucleus part_of cell

  19. Gene Ontology (II)

  20. Gene Ontology (III)

  21. Plant Ontology • http://www.plantontology.org/ • Bestandteile: • Pflanzenstruktur • Botanische Terme, die Morphologie und anatomische Strukturen beschreiben • Organe, Gewebe, Zelltypen und ihre Beziehungen • Wachstums- und Entwicklungsstadien • Terme für Wachstums- und Entwicklungsstadien und ihre Beziehungen • Embryo, Samenentwicklung, Blüte etc.

  22. Plant Ontology (II)

  23. Plant Ontology (III)

  24. Plant Ontology (VI)

  25. Datenqualität

  26. Probleme mit Daten • Annahme: bisherige Probleme gelöst  Daten im gemeinsamen Schema • Neue Probleme: • Datenfehler: • Unterschiedliche Formate, z.B. Datum • Schreibfehler • Inkonsistenzen, z.B. Postleitzahl und Ort • Duplikate: • Z.B. zwei Gerstensorten sind in mehreren Quellen enthalten • Datenqualität: • Glaubwürdigkeit und Relevanz der Quellen • Vollständigkeit: • Sind alle relevanten Realweltobjekte integriert? • Sind für alle Attribute Ausprägungen vorhanden?  Diese Probleme müssen erkannt und gelöst werden

  27. Probleme mit Daten (II) Quelle: Felix Naumann, Kai-Uwe Sattler

  28. Bereinigung von Daten • Arten von Datenfehlern: Naumann: Datenqualität. Informatik-Spektrum, 2007.

  29. Bereinigung von Daten (II) • Einzelne Datenquelle • Schemaebene: • Unzulässige Werte • Verletzung von Attributabhängigkeiten • Verletzung von Constraints • Datenebene: • Fehlende Werte • Falsche/veraltete Werte • Schreibfehler • Integrierte Datenquelle • Schemaebene: • Strukturelle oder semantische Konflikte • Datenebene: • Daten aus mehreren Quellen widersprechen sich • Unterschiedliche Genauigkeit oder Einheiten

  30. Bereinigung von Daten (III) • Entstehung von Fehlern: • Eingabe von Daten • Alterungsprozess von Daten • Transformation von Daten • Integration von Daten • Fehlermanagement: • Profiling • Erkundung eines Datenbestandes • Z.B. Statistik (min, max, Verteilungen) • Assessment • Definition von Bedingungen, die erfüllt sein müssen  Messung des Erfüllungsgrades • Z.B. Pflanzenhöhe < 2m • Monitoring • Basiert auf Ergebnissen des Assessments  Einleiten und Überwachen von Gegenmaßnahmen

  31. Bereinigung von Daten (IV) • Beseitigung einfacher Fehler • Normalisierung • Umwandlung von Texten in Großbuchstaben  bessere Vergleichbarkeit • Rechtschreibprüfung • Standardformate für Datum, Telefonnummer, Personennamen etc. • Konvertierung • Z.B. Umrechnung von Einheiten • Fehlwerte • Löschen von Zeilen/Spalten • Ersetzen (avg, min, max, Median, Modalwert) • Ausreißer • Winsorizing • Trimming

  32. Erkennen von Duplikaten • Duplikat: mehrfache Abbildung desselben Realweltobjektes • Vorgehen: • Paarweiser Vergleich aller Tupel • Berechnung der Ähnlichkeit sim der Tupel • Duplikat, wenn die Ähnlichkeit über einem bestimmten Schwellwert liegt, z.B sim 90% • Ziele: • Möglichst alle Duplikate erkennen • Performance

  33. Erkennen von Duplikaten (II) • Für numerische Daten  Abweichung • Z.B. 1 und 0,95 • Für alphanumerische Daten: • Äquivalenzmethoden • Vergleichen zwei Strings • Geben TRUE oder FALSE zurück • Similarity-Ranking-Methoden • Vergleichen ebenfalls zwei Strings • Geben zurück, wie groß die Ähnlichkeit ist

  34. Äquivalenzmethoden • Lautähnlichkeit • Vergleich darüber, wie zwei Strings ausgesprochen klingen • Funktioniert ähnlich wie ein Hash-Verfahren • Abhängigkeit von der jeweiligen Sprache • Z.B. Soundex-Algorithmus  englisch • Wortstamm • Vergleich auf Basis von Wortstämmen • Suffixwörterbuch erforderlich • Sprachabhängig • Groß-/Kleinschreibung • Sind zwei Zeichenketten identisch, wenn die Groß-/Kleinschreibung ignoriert wird? • Z.B. Gerste und GERSTE

  35. Äquivalenzmethoden (II) • Synonyme • Haben zwei Strings dieselbe Bedeutung? • Benötigt kontrolliertes Vokabular • Z.B. Gerste und Hordeum • Wildcards • Verwendung von Platzhaltern • Überprüfung, ob zwei Strings in Teilen übereinstimmen • Ein Zeichen, z. B. _ oder ?; beliebig viele Zeichen, z. B. % oder * • Z.B. Golden% findet Golden Green und Golden Promise

  36. Similarity-Ranking-Methoden • Hamming-Ähnlichkeit • Hamming-Abstand: • Positionsweiser Vergleich zweier Strings gleicher Länge (Hordeum und Horedum) • Zählen der Unterschiede (2) • Umrechnung in Ähnlichkeitsmaß: • Edit-basiert • Editierabstand: • Anzahl von Operationen, um String 1 in String 2 zu überführen • Einfügen, Löschen, Ersetzen (Levenshtein-Distanz) • Levenshtein-Distanz von Hordeum und Horedum ist 2 • Umrechnung in Ähnlichkeitsmaß:

  37. Datenqualität • Datenqualität: Eignung von Daten für einen bestimmten Zweck • Messung anhand von Qualitätskriterien (siehe Foliensatz 12!) • Konsistenz: Widerspruchsfreiheit von Daten untereinander • Korrektheit: richtige Abbildung eines Sachverhalts • Vollständigkeit: hinreichende Füllung von Attributen • Genauigkeit: Detaillierung, Nachkommastellen, Homonyme • Zuverlässigkeit: Nachvollziehbarkeit, Vertrauenswürdigkeit • Verständlichkeit: Beschreibungen für kodierte Werte • Verwendbarkeit: Strukturen, die den Import ermöglichen • Bewertung durch • Nutzer (Verständlichkeit, Verwendbarkeit) • Datenquelle (Vollständigkeit, Zuverlässigkeit) • Bearbeitung der Anfrage (Konsistenz, Korrektheit, Genauigkeit)

  38. Qualitätsprobleme in der Bioinformatik • Ursachen • Informationstechnische Ursachen: • Heterogene Software • Weiterverbreitung von Daten • Probleme während der Datengewinnung: • Dokumentation von Rohdaten • Ableitung von Daten • Zeitlich begrenzte Projekte und dezentrale Speicherung • Biologisch bedingte Ursachen: • Entwicklungsstadien • Zytologie • Externe Effekte • Konzeptionelle Ursachen: • Bewertungssysteme • Informationssysteme • Vorhersagemethoden • Kontrollierte Vokabulare / standardisierte Methoden

  39. Qualitätsprobleme in der Bioinformatik • Lösungsvorschläge • Dokumentation • Messverfahren • Mittelwertvermeidung • Datenbanknutzung • Vermeidung von Ad-hoc-Statistik • Kennzeichnung abgeleiteter Daten • Parallele Versionierung • Metadatennutzung

  40. Virtuelle Datenintegration

  41. Virtuelle Integration: MDBS (I) • Multidatenbanksysteme (MDBS): • Aus mehreren separaten Datenbanksystemen zusammengesetzt • Extraktion von Daten aus heterogenen Datenbanken und Präsentation als homogene Sicht • Logische (virtuelle) Integration • Zwei Untergruppen: • Nicht-föderierte Datenbanksysteme • Komponentendatenbanken sind nicht autonom • Keine Unterscheidung zwischen lokalen und globalen Nutzern • Föderierte Datenbanksysteme • Komponentendatenbanken sind autonom • Unterscheidung zwischen lokalen und globalen Nutzern • Daten werden durch die Komponentendatenbanken kontrolliert

  42. Virtuelle Integration: MDBS (II) [SHETH, A. and J.A. LARSON: Federated database systems for managing distributed, heterogenous, and autonomous databases. ACM Computing Surveys, 22(3):183.236, 1990.]

  43. Virtuelle Integration: Mediatoren (I) • Mediatoren: • Softwarekompenenten, die zwischen Nutzerapplikationen und Datenquellen vermitteln • Insbesondere für Daten, die nicht in DBMSen vorliegen • Anwender kommuniziert in einem standardisierten Format mit dem Mediator  homogene Sicht auf verschiedene Datenquellen • Erweiterung von Mediatoren  Wrapper • Wrapper: • Softwaremodule, die Anfragen und Daten von einem Modell in ein anderes konvertieren • Wrapper greift auf die Datenquelle zu, nicht der Mediator  Mediator muss nicht angepasst werden

  44. Virtuelle Integration: Mediatoren (II)

  45. Materielle Datenintegration

  46. Datawarehouse • Einschub: Operativsystem • Dient der Speicherung und Verwaltung operativer Daten • für den laufenden Geschäftsbetrieb eines Unternehmens erforderlich • z.B. aktueller Lagerbestand eines Produktes • Datenstrukturen und Abfragewerkzeuge sind auf Routineaufgaben abgestimmt • Momentaufnahmen, keine historischen Daten • Operationen: Lesen, Schreiben, Ändern, Löschen • OLTP-System (OnLine Transactional Processing)  In der Bioinformatik z.B. Genbankinformationssystem

  47. Datawarehouse (II) • Konzept der analytischen Datenbanken/Datawarehouses • Trennung von Daten: • Operative Daten • Daten für Entscheidungsunterstützung oder Berichtswesen • Wichtige Rolle: Zeitabhängigkeit von Daten • Integration von Daten aus mehreren Quellen • Operationen: Lesen, periodisches Hinzufügen • Definition: Datensammlung mit den folgenden Eigenschaften • Fachorientierung • Integrierte Datenbasis • Nicht-flüchtige Datenbasis • Historische Daten

  48. Datawarehouse (III) • Erklärung: • Fachorientierung: • Modellierung eines spezischen Anwendungsziels • Ziel ist nicht die Erfüllung einer Aufgabe • Integrierte Datenbasis: • Nutzung von Daten aus verschiedenen Quellen • Intern und extern • Nicht-flüchtige Datenbasis: • Daten werden im Warehouse persistent gespeichert • Daten werden nicht mehr verändert oder entfernt • Historische Daten: • Verwendung von Daten, die über einen längeren Zeitraum erhoben wurden, z.B. für Zeitreihenanalysen • Speicherung über einen längeren Zeitraum

  49. Datawarehouse Architektur

  50. Beispielszenario

More Related