640 likes | 784 Views
Datenintegration. Gliederung. Motivation Problemfall Heterogenitäten Datenqualität Integrationsansätze. Internet. Datenintegration in der Biologie. Motivation. Biologische Datenquellen: Verschiedene Plattformen Unterschiedliche Strukturen Heterogene Nutzerschnittstellen
E N D
Gliederung • Motivation • Problemfall Heterogenitäten • Datenqualität • Integrationsansätze
Internet Datenintegration in der Biologie
Motivation • Biologische Datenquellen: • Verschiedene Plattformen • Unterschiedliche Strukturen • Heterogene Nutzerschnittstellen Lösungsansatz: Datenintegration • Integration: Kombination von Inhalten multipler, oftmals heterogener Quellen Ziel: Informationsfusion • Informationsfusion: Kombination, Verdichtung und Interpretation von Daten aus heterogenen Quellen, um daraus neue Informationen abzuleiten
Datenintegration in der Biologie • Zwei gebräuchliche Ansätze (später mehr): • Virtuelle oder logische Integration • Integration zur Laufzeit nicht immer performant • Keine lokale Datenspeicherung Daten immer aktuell • Materialisierte oder physische Integration • Datenspeicherung durch das Integrationssystem sehr performant • Aktualität vom Aktualisierungsintervall abhängig Daten nicht immer aktuell
Herausforderung - Heterogenität • Heterogenität von Informationssystemen • Verschiedene Methoden des Datenzugriffs • Unterschiedliche Modelle • Abweichende Strukturen • Arten der Heterogenität*: • Technische Heterogenität • Syntaktische Heterogenität • Datenmodellheterogenität • Strukturelle/Schematische Heterogenität • Semantische Heterogenität *verschiedene Unterteilungen in der Literatur
Technische Heterogenität • Nicht auf Daten bezogen • Unterschiede im Zugriff auf Daten • Verschiedene Ebenen: Leser & Naumann: Informationsintegration. dpunkt.verlag, 2006.
Syntaktische Heterogenität • Unterschiedliche Darstellung gleicher Sachverhalte • Beispiele: • Datentypen: integer vs. double • Zeichenkodierungen: ASCII vs. Unicode • Separatoren: Komma vs. Semikolon vs. Tabulator • Dezimaltrennzeichen: Komma vs. Punkt
Datenmodellheterogenität (II) relational
Datenmodellheterogenität (III) <Pflanze> <Name/> <Herkunft/> <Zulassungsjahr/> <Verwendung/> <Pedigree> <Elter_1/> <Elter_2/> </Pedigree> … </Pflanze> XML
Strukturelle/Schematische Heterogenität • Abbildung des gleichen Sachverhalts • Aber: Die Abbildung erfolgt unterschiedlich • Die Entwicklung verschiedener Datenquellen erfolgt autonom unterschiedliche Anforderungen technische Einschränkungen persönliche Präferenzen von Entwicklern • Beispiele: • 1:1-Beziehung kann als eine oder zwei Relationen modelliert werden • Modellierung als Attribut oder Relation • Objektrelationales Mapping
Semantische Heterogenität • Definition: Semantik bedeutet die Interpretation von Daten in einem bestimmten Kontext • Beispiel: unterschiedliche Intension eines Attributnamens “Name” Vorname? Nachname? Kontext ist erforderlich • Synonyme: gleiche Intension, aber unterschiedliche Bezeichnung • Homonyme: unterschiedliche Intension, aber gleiche Bezeichnung Semantische Konflikte sind schwierig zu entdecken
Semantische Heterogenität (II) • Weitere Beispiele: • Unterschiedliche Einheiten: Pflanzenlänge in cm oder m • Verschiedene Kodierungen: 1 klein a klein 2 mittel vs. b mittel 3 groß c groß • Unterschiedliche Bedeutung: • Boniturskala A: 1 – 5 • Boniturskala B: 0 – 9 Lösungsansatz: Ontologien
Ontologie • Von griech. on: Seiendes; logos: Wort • Metaphysica generalis (Aristoteles): Lehre vom Seienden • Traditionelle Ontologie: Verhältnis des Seins zum Seienden • Ontologie in der Informatik: Definition von Klassen (Konzepte, Objekte) und ihren Beziehungen (Attribute, Rollen) • Ist formal definiert • Enthält wohldefiniertes Vokabular einer Domäne/eines Bereiches Ziel: • Kommunikation zwischen Menschen verbessern • Interoperabilität zwischen Systemen verbessern
Ontologie (II) • Einsatz in der Biologie Bioontologien • Formale Repräsentationen verschiedener biologischer Wissensbereiche, z.B.: • Gene Ontology • Plant Ontology • Trait Ontology • Objekte stehen zueinander in Beziehung!!! Abgrenzung zur Taxonomie: hierarchische Gliederung
Gene Ontology • http://www.geneontology.org/ • Besteht aus drei kontrollierten Vokabularien: • Molekulare Funktionen (z.B. oxidoreductase activity) • Biologische Prozesse (z.B. oxidative phosphorylation) • Zelluläre Komponenten (z.B. mitochondrial matrix) • Beispiel: Ein Genprodukt ist in einer zellulären Komponente lokalisiert, ist dort an einem bilogischen Prozess beteiligt und führt dabei eine molekulare Funktion aus. • Beziehungen in der Gene Ontology: • is_a, z.B. nuclear chromosome is_a chromosome • part_of, z.B. nucleus part_of cell
Plant Ontology • http://www.plantontology.org/ • Bestandteile: • Pflanzenstruktur • Botanische Terme, die Morphologie und anatomische Strukturen beschreiben • Organe, Gewebe, Zelltypen und ihre Beziehungen • Wachstums- und Entwicklungsstadien • Terme für Wachstums- und Entwicklungsstadien und ihre Beziehungen • Embryo, Samenentwicklung, Blüte etc.
Probleme mit Daten • Annahme: bisherige Probleme gelöst Daten im gemeinsamen Schema • Neue Probleme: • Datenfehler: • Unterschiedliche Formate, z.B. Datum • Schreibfehler • Inkonsistenzen, z.B. Postleitzahl und Ort • Duplikate: • Z.B. zwei Gerstensorten sind in mehreren Quellen enthalten • Datenqualität: • Glaubwürdigkeit und Relevanz der Quellen • Vollständigkeit: • Sind alle relevanten Realweltobjekte integriert? • Sind für alle Attribute Ausprägungen vorhanden? Diese Probleme müssen erkannt und gelöst werden
Probleme mit Daten (II) Quelle: Felix Naumann, Kai-Uwe Sattler
Bereinigung von Daten • Arten von Datenfehlern: Naumann: Datenqualität. Informatik-Spektrum, 2007.
Bereinigung von Daten (II) • Einzelne Datenquelle • Schemaebene: • Unzulässige Werte • Verletzung von Attributabhängigkeiten • Verletzung von Constraints • Datenebene: • Fehlende Werte • Falsche/veraltete Werte • Schreibfehler • Integrierte Datenquelle • Schemaebene: • Strukturelle oder semantische Konflikte • Datenebene: • Daten aus mehreren Quellen widersprechen sich • Unterschiedliche Genauigkeit oder Einheiten
Bereinigung von Daten (III) • Entstehung von Fehlern: • Eingabe von Daten • Alterungsprozess von Daten • Transformation von Daten • Integration von Daten • Fehlermanagement: • Profiling • Erkundung eines Datenbestandes • Z.B. Statistik (min, max, Verteilungen) • Assessment • Definition von Bedingungen, die erfüllt sein müssen Messung des Erfüllungsgrades • Z.B. Pflanzenhöhe < 2m • Monitoring • Basiert auf Ergebnissen des Assessments Einleiten und Überwachen von Gegenmaßnahmen
Bereinigung von Daten (IV) • Beseitigung einfacher Fehler • Normalisierung • Umwandlung von Texten in Großbuchstaben bessere Vergleichbarkeit • Rechtschreibprüfung • Standardformate für Datum, Telefonnummer, Personennamen etc. • Konvertierung • Z.B. Umrechnung von Einheiten • Fehlwerte • Löschen von Zeilen/Spalten • Ersetzen (avg, min, max, Median, Modalwert) • Ausreißer • Winsorizing • Trimming
Erkennen von Duplikaten • Duplikat: mehrfache Abbildung desselben Realweltobjektes • Vorgehen: • Paarweiser Vergleich aller Tupel • Berechnung der Ähnlichkeit sim der Tupel • Duplikat, wenn die Ähnlichkeit über einem bestimmten Schwellwert liegt, z.B sim 90% • Ziele: • Möglichst alle Duplikate erkennen • Performance
Erkennen von Duplikaten (II) • Für numerische Daten Abweichung • Z.B. 1 und 0,95 • Für alphanumerische Daten: • Äquivalenzmethoden • Vergleichen zwei Strings • Geben TRUE oder FALSE zurück • Similarity-Ranking-Methoden • Vergleichen ebenfalls zwei Strings • Geben zurück, wie groß die Ähnlichkeit ist
Äquivalenzmethoden • Lautähnlichkeit • Vergleich darüber, wie zwei Strings ausgesprochen klingen • Funktioniert ähnlich wie ein Hash-Verfahren • Abhängigkeit von der jeweiligen Sprache • Z.B. Soundex-Algorithmus englisch • Wortstamm • Vergleich auf Basis von Wortstämmen • Suffixwörterbuch erforderlich • Sprachabhängig • Groß-/Kleinschreibung • Sind zwei Zeichenketten identisch, wenn die Groß-/Kleinschreibung ignoriert wird? • Z.B. Gerste und GERSTE
Äquivalenzmethoden (II) • Synonyme • Haben zwei Strings dieselbe Bedeutung? • Benötigt kontrolliertes Vokabular • Z.B. Gerste und Hordeum • Wildcards • Verwendung von Platzhaltern • Überprüfung, ob zwei Strings in Teilen übereinstimmen • Ein Zeichen, z. B. _ oder ?; beliebig viele Zeichen, z. B. % oder * • Z.B. Golden% findet Golden Green und Golden Promise
Similarity-Ranking-Methoden • Hamming-Ähnlichkeit • Hamming-Abstand: • Positionsweiser Vergleich zweier Strings gleicher Länge (Hordeum und Horedum) • Zählen der Unterschiede (2) • Umrechnung in Ähnlichkeitsmaß: • Edit-basiert • Editierabstand: • Anzahl von Operationen, um String 1 in String 2 zu überführen • Einfügen, Löschen, Ersetzen (Levenshtein-Distanz) • Levenshtein-Distanz von Hordeum und Horedum ist 2 • Umrechnung in Ähnlichkeitsmaß:
Datenqualität • Datenqualität: Eignung von Daten für einen bestimmten Zweck • Messung anhand von Qualitätskriterien (siehe Foliensatz 12!) • Konsistenz: Widerspruchsfreiheit von Daten untereinander • Korrektheit: richtige Abbildung eines Sachverhalts • Vollständigkeit: hinreichende Füllung von Attributen • Genauigkeit: Detaillierung, Nachkommastellen, Homonyme • Zuverlässigkeit: Nachvollziehbarkeit, Vertrauenswürdigkeit • Verständlichkeit: Beschreibungen für kodierte Werte • Verwendbarkeit: Strukturen, die den Import ermöglichen • Bewertung durch • Nutzer (Verständlichkeit, Verwendbarkeit) • Datenquelle (Vollständigkeit, Zuverlässigkeit) • Bearbeitung der Anfrage (Konsistenz, Korrektheit, Genauigkeit)
Qualitätsprobleme in der Bioinformatik • Ursachen • Informationstechnische Ursachen: • Heterogene Software • Weiterverbreitung von Daten • Probleme während der Datengewinnung: • Dokumentation von Rohdaten • Ableitung von Daten • Zeitlich begrenzte Projekte und dezentrale Speicherung • Biologisch bedingte Ursachen: • Entwicklungsstadien • Zytologie • Externe Effekte • Konzeptionelle Ursachen: • Bewertungssysteme • Informationssysteme • Vorhersagemethoden • Kontrollierte Vokabulare / standardisierte Methoden
Qualitätsprobleme in der Bioinformatik • Lösungsvorschläge • Dokumentation • Messverfahren • Mittelwertvermeidung • Datenbanknutzung • Vermeidung von Ad-hoc-Statistik • Kennzeichnung abgeleiteter Daten • Parallele Versionierung • Metadatennutzung
Virtuelle Integration: MDBS (I) • Multidatenbanksysteme (MDBS): • Aus mehreren separaten Datenbanksystemen zusammengesetzt • Extraktion von Daten aus heterogenen Datenbanken und Präsentation als homogene Sicht • Logische (virtuelle) Integration • Zwei Untergruppen: • Nicht-föderierte Datenbanksysteme • Komponentendatenbanken sind nicht autonom • Keine Unterscheidung zwischen lokalen und globalen Nutzern • Föderierte Datenbanksysteme • Komponentendatenbanken sind autonom • Unterscheidung zwischen lokalen und globalen Nutzern • Daten werden durch die Komponentendatenbanken kontrolliert
Virtuelle Integration: MDBS (II) [SHETH, A. and J.A. LARSON: Federated database systems for managing distributed, heterogenous, and autonomous databases. ACM Computing Surveys, 22(3):183.236, 1990.]
Virtuelle Integration: Mediatoren (I) • Mediatoren: • Softwarekompenenten, die zwischen Nutzerapplikationen und Datenquellen vermitteln • Insbesondere für Daten, die nicht in DBMSen vorliegen • Anwender kommuniziert in einem standardisierten Format mit dem Mediator homogene Sicht auf verschiedene Datenquellen • Erweiterung von Mediatoren Wrapper • Wrapper: • Softwaremodule, die Anfragen und Daten von einem Modell in ein anderes konvertieren • Wrapper greift auf die Datenquelle zu, nicht der Mediator Mediator muss nicht angepasst werden
Datawarehouse • Einschub: Operativsystem • Dient der Speicherung und Verwaltung operativer Daten • für den laufenden Geschäftsbetrieb eines Unternehmens erforderlich • z.B. aktueller Lagerbestand eines Produktes • Datenstrukturen und Abfragewerkzeuge sind auf Routineaufgaben abgestimmt • Momentaufnahmen, keine historischen Daten • Operationen: Lesen, Schreiben, Ändern, Löschen • OLTP-System (OnLine Transactional Processing) In der Bioinformatik z.B. Genbankinformationssystem
Datawarehouse (II) • Konzept der analytischen Datenbanken/Datawarehouses • Trennung von Daten: • Operative Daten • Daten für Entscheidungsunterstützung oder Berichtswesen • Wichtige Rolle: Zeitabhängigkeit von Daten • Integration von Daten aus mehreren Quellen • Operationen: Lesen, periodisches Hinzufügen • Definition: Datensammlung mit den folgenden Eigenschaften • Fachorientierung • Integrierte Datenbasis • Nicht-flüchtige Datenbasis • Historische Daten
Datawarehouse (III) • Erklärung: • Fachorientierung: • Modellierung eines spezischen Anwendungsziels • Ziel ist nicht die Erfüllung einer Aufgabe • Integrierte Datenbasis: • Nutzung von Daten aus verschiedenen Quellen • Intern und extern • Nicht-flüchtige Datenbasis: • Daten werden im Warehouse persistent gespeichert • Daten werden nicht mehr verändert oder entfernt • Historische Daten: • Verwendung von Daten, die über einen längeren Zeitraum erhoben wurden, z.B. für Zeitreihenanalysen • Speicherung über einen längeren Zeitraum