1 / 59

Informationsintegration Anwendungsszenarien

Informationsintegration Anwendungsszenarien. 20.10.2004 Felix Naumann. Überblick. Beispiele der Informationsintegration Data Warehouse Föderierte Datenbanken Potential und Probleme der Informations-integration Redundanz Komplementierung. Real-life Informationsintegration.

Download Presentation

Informationsintegration Anwendungsszenarien

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. InformationsintegrationAnwendungsszenarien 20.10.2004 Felix Naumann

  2. Überblick • Beispiele der Informationsintegration • Data Warehouse • Föderierte Datenbanken • Potential und Probleme der Informations-integration • Redundanz • Komplementierung Felix Naumann, VL Informationsintegration, WS 05/06

  3. Real-life Informationsintegration • Überblick: Zwei wesentliche Modelle • Data Warehouses • Materialisierte Integration • Am Beispiel Buchhändler (Folien von Prof. Leser) • Föderierte Datenbanken • Virtuelle Integration • Am Beispiel einer Life Sciences DB (DiscoveryLink) • Weitere Beispiele Felix Naumann, VL Informationsintegration, WS 05/06

  4. Data Warehouse • Eine oder mehrere (ähnliche) Datenbanken mit Bücherverkaufsinformationen • Daten werden oft aktualisiert • Jede Bestellung einzeln • Katalog Updates täglich • Management benötigt Entscheidungshilfen (decision support) • Komplexe Anfragen Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

  5. BackupDurchsatzLoad-balancing PortfolioUmsatzWerbung Datenbank Bücher im Internet bestellen Zielkonflikt Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

  6. Order Order_id Book_idamount single_price Orders Id Day_id Customer_id Total_amt Day Iddaymonth_id Month IdMonth year_id Year idyear Customer idname Book idBook_group_id Bookgroup idname Die Datenbank dazu Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

  7. Customer idname Order Order_id book_idamount single_price Orders Id Day_id Customer_id Total_amt Day Iddaymonth_id Month IdMonth year_id Year idyear Book idBook_group_id Bookgroup idname Fragen eines Marketingleiters Wie viele Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt nach Produktgruppen? Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

  8. Customer idname Book idBook_group_id Orders Id Day_id Customer_id Total_amt Month IdMonth year_id Year idyear Bookgroup idname Order Order_id Book_idamount single_price Day Iddaymonth_id Technisch SELECT Y.year, PG.name, count(B.id)FROM year Y, month M, day D, order O, orders OS, book B, bookgroup BGWHERE M.year = Y.id and M.id = D.month and O.day_id = D.id and OS.order_id = O.id and B.id = O.book_id and B.book_group_id = BG.id and day < 24 and month = 12GROUP BY Y.year, PG.product_nameORDER BY Y.year Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

  9. 6 Joins • Year: 10 Records • Month: 120 Records • Day: 3650 Records • Orders: 36.000.000 • Order: 72.000.000 • Books: 200.000 • Bookgroups: 100 • Problem! • Schwierig zu optimieren (Join-Reihenfolge) • Je nach Ausführungsplan riesige Zwischenergebnisse • Ähnliche Anfragen – ähnlich riesige Zwischenergebnisse Technisch SELECT Y.year, PG.name, count(B.id)FROM year Y, month M, day D, order O, orders OS, book B, bookgroup BGWHERE M.year = Y.id and M.id = D.month and O.day_id = D.id and OS.order_id = O.id and B.id = O.book_id and B.book_group_id = BG.id and day < 24 and month = 12GROUP BY Y.year, PG.product_nameORDER BY Y.year Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

  10. In Wahrheit ... noch schlimmer • Es gibt noch: • Amazon.de • Amazon.fr • Amazon.it • ... • Verteilte Ausführung • Count über Union mehrerer gleicher Anfragen in unterschiedlichen Datenbanken HILFE! Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

  11. In Wahrheit ... Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

  12. Technisch: Eine VIEW CREATE VIEW christmas AS SELECT Y.year, PG.name, count(B.id)FROM DE.year Y, DE.month M, DE.day D, DE.order O, ... WHERE M.year = Y.id and...GROUP BY Y.year, PG.product_nameORDER BY Y.year UNION SELECT Y.year, PG.name, count(B.id)FROM EN.year Y, EN.month M, EN.day D, DE.order O, ...WHERE M.year = Y.id and... SELECT year, name, count(B.id)FROM christmasGROUP BY year, nameORDER BY year Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

  13. Probleme • Count über Union über verteilte Datenbanken? • Integrationsproblem • Berechnung riesiger Zwischenergebnisse bei jeder Anfrage? • Datenmengenproblem Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

  14. Lösung des Integrationsproblems? Zentrale Datenbank • Aber Probleme: • Zweigstellen schreiben übers Netz • Schlechter Durchsatz • Lange Antwortzeiten im operativen Betrieb Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

  15. Lösung Datenmengenproblem? Denormalisierte Schema • Aber Probleme: • Jeder lesende / schreibende Zugriff erfolgt auf eine Tabelle mit 72 Mill. Records • Lange Antwortzeiten im operativen Betrieb Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

  16. Zielkonflikt Felix Naumann, VL Informationsintegration, WS 05/06

  17. Tatsächliche Lösung Aufbau eines Data Warehouse • Redundante, transformierte Datenhaltung • Asynchrone Aktualisierung Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

  18. Weitere Anwendungsgebiete: Data Warehouses • „Customer Relationship Management“ (CRM) • Identifikation von Premiumkunden • Personalisierung / Automatische Kundenberatung • Gezielte Massen-Mailings (Direktvertrieb) • Controlling / Rechnungswesen • Kostenstellen • Organisationseinheiten • Personalmanagement • Logistik • Flottenmanagement, Tracking • Gesundheitswesen • Studienüberwachung, Patiententracking Quelle: Ulf Leser, VL Data Warehouses Felix Naumann, VL Informationsintegration, WS 05/06

  19. Überblick • Beispiele der Informationsintegration • Data Warehouse • Föderierte Datenbanken • Probleme und Potential der Informationsintegration • Redundanz • Komplementierung Felix Naumann, VL Informationsintegration, WS 05/06

  20. Föderierte Datenbanken • Mehrere autonome Informationsquellen • Mit unterschiedlichsten Inhalten • Gene, Proteine, BLAST, etc. • Und unterschiedlichsten Schnittstellen • HTML-Form, flat file, SQL, etc. • Wissenschaftler (Biologe) benötigt z.B. möglichst viele Informationen über ein bestimmtes Protein • Funktion, Veröffentlichungen, verwandte Proteine usw. • Sehr komplexe Anfragen • Üblicher Ansatz: Browsing, Note-Taking, Copy & Paste • Föderierte Datenbanken (wie DiscoveryLink) helfen. Felix Naumann, VL Informationsintegration, WS 05/06

  21. Frage eines Biologen Finde alle menschlichen EST Sequenzen, die nach BLAST zu mindestens 60% über mindestens 50 Aminosäuren identisch sind mit mouse-channel Genen im Gewebe des zentralen Nervensystems. Quelle für das komplette Beispiel: A Practitioner’s Guide to Data Management and Data Integration in Bioinformatics, Barbara A. Eckman in Bioinformatics by Zoe Lacroix and Terence Critchlow, 2003, Morgan Kaufmann. Felix Naumann, VL Informationsintegration, WS 05/06

  22. Verschiedene Informationsquellen • Beteiligte Informationsquellen • Mouse Genome Database (MGD) @ Jackson Labs • SwissProt @ EBI • BLAST tool @ NCBI • GenBank nucleotide sequence database @ NCBI • Alle Quellen sind frei verfügbar Felix Naumann, VL Informationsintegration, WS 05/06

  23. Herkömmlicher Ansatz: Browsing 1. Suche „channel“ Sequenzen im Gewebe des ZNS durch MGD HTML Formular Felix Naumann, VL Informationsintegration, WS 05/06

  24. Herkömmlicher Ansatz: Browsing • MGD Resultat • 14 Gene aus 17 Experimenten Felix Naumann, VL Informationsintegration, WS 05/06

  25. Herkömmlicher Ansatz: Browsing • Details zu jedem der 14 Gene ansehen • Durchschnittlich fünf SwissProt Links pro Gen Felix Naumann, VL Informationsintegration, WS 05/06

  26. Herkömmlicher Ansatz: Browsing • Betrachten jedes SwissProt Eintrages • Durch Klick BLAST Algorithmus anwerfen Felix Naumann, VL Informationsintegration, WS 05/06

  27. Herkömmlicher Ansatz: Browsing • Betrachten jedes BLAST Resultats um • nicht-menschliche Treffer zu eliminieren, • andere Bedingungen zu prüfen (>60% Identität, etc.) Felix Naumann, VL Informationsintegration, WS 05/06

  28. Herkömmlicher Ansatz: Browsing • Für jeden verbleibenden Eintrag • Komplette EST Sequenz bei GenBank holen Alles sehr mühselig! Felix Naumann, VL Informationsintegration, WS 05/06

  29. Idee der Integration • Bildung eines globalen Schemas (Schemaintegration) • Gespeichert als Datenbankschema in DiscoveryLink • Generierung von Wrappern für jede Datenquelle • Softwarekomponente • Mapping von lokalen Schemata auf globales Schema • Kennt Anfragefähigkeiten der Quellen Felix Naumann, VL Informationsintegration, WS 05/06

  30. DiscoveryLink Architektur Felix Naumann, VL Informationsintegration, WS 05/06

  31. Eigenschaften föderierter IS (und DiscoveryLink) • Daten bleiben vor Ort. • Informationsquellen sind autonom (und wissen oft nicht von ihrer Integration). • Anfragen werden deklarativ an das globale Schema gestellt. • Anfrage wird so verteilt wie möglich ausgeführt. • Je nach Mächtigkeit der Quellen • DiscoveryLink gleicht etwaige mangelnder Fähigkeiten aus. Felix Naumann, VL Informationsintegration, WS 05/06

  32. Föderierter DBMS Ansatz „Finde alle menschlichen EST Sequenzen, die nach BLAST zu mindestens 60% über mindestens 50 Aminosäuren identisch sind mit mouse-channel Genen im Gewebe des zentralen Nervensystems.“ • „Einfache“ SQL-Anfrage um alle vorigen Schritte zu vereinen: SELECT g.accnum,g.sequence FROM genbank g, blast b, swissprot s, mgd m WHERE m.exp = “CNS” AND m.defn LIKE “%channel%” AND m.spid = s.id AND s.seq = b.query AND b.hit = g.accnum AND b.percentid > 60 AND b.alignlen > 50 Felix Naumann, VL Informationsintegration, WS 05/06

  33. Föderierter DBMS Ansatz • Effiziente Ausführung durch Optimierer • Herkömmliche Optimierung • Wrapper helfen mit • Kostenmodell • domänenspezifischen Funktionen • Sichere Ausführung • Wiederholbar • Transaktional Felix Naumann, VL Informationsintegration, WS 05/06

  34. Weitere Anwendungsgebiete: Föderierte Datenbanken • Meta-Suchmaschinen • Unternehmensfusionen • Kundendatenbanken • Personaldatenbanken • Grid • Krankenhausinformationssysteme • Röntgenbilder • Krankheitsverlauf (Akte) • Verwaltung • Krankenkasse... • Verteiltes Arbeiten („groupware“) • Peer Data Management und P2P Felix Naumann, VL Informationsintegration, WS 05/06

  35. Überblick • Beispiele der Informationsintegration • Data Warehouse • Föderierte Datenbanken • Probleme und Potential der Informationsintegration • Redundanz • Komplementierung Felix Naumann, VL Informationsintegration, WS 05/06

  36. Integrationspotential • Wann ist Informationsintegration möglich? • Intensionale Redundanz • Wann ist Informationsintegration schwierig? • Extensionale Redundanz • Wann ist Informationsintegration nützlich? • Extensionale Komplementierung • Intensionale Komplementierung Felix Naumann, VL Informationsintegration, WS 05/06

  37. Intension & Extension • Definition: Intension • Die Intension eines Informationssystems ist die Menge der Schemainformationen und deren Semantik (Bedeutung). • Definition: Extension • Die Extension eines Informationssystems ist die Menge aller zur Intension gehörigen, zugreifbaren Daten. Felix Naumann, VL Informationsintegration, WS 05/06

  38. Intension & Extension • Die Intension einer Datenbank • Schema für eine Menge von Entitäten/Dingen • Semantik • Die Extension einer Datenbank • Zustand • Menge von Entitäten Buch Felix Naumann, VL Informationsintegration, WS 05/06

  39. Redundanz und Komplementierung • Redundanz hilft • zur Verifikation • Nur bei gewisser Redundanz kann Komplementierung genutzt werden • Komplementierung ist gut • Hier liegt der eigentliche „Sinn“ der Informationsintegration. • Informationen mehrerer (sich komplementierender) Quellen werden zu einem größeren Ganzen integriert. Felix Naumann, VL Informationsintegration, WS 05/06

  40. Intensionale Redundanz Intensionale Redundanz liegt vor, wenn das Entfernen von Teilen der Intension die Gesamtintension nicht verändert. Felix Naumann, VL Informationsintegration, WS 05/06

  41. Intensionale Redundanz Intensionale Redundanz trotz unterschiedlicher Label? Ja, denn Semantik zählt! Felix Naumann, VL Informationsintegration, WS 05/06

  42. Intensionale Redundanz Quelle 1 Quelle 2 Intensionale Redundanz auch über mehrere Relationen und Quellen. Felix Naumann, VL Informationsintegration, WS 05/06

  43. Potential Intensionaler Redundanz Quelle 1 Quelle 2 Verifikation Felix Naumann, VL Informationsintegration, WS 05/06

  44. Potential Intensionaler Redundanz Quelle 1 Quelle 2 Integration Felix Naumann, VL Informationsintegration, WS 05/06

  45. Potential Intensionaler Redundanz Quelle 1 + 2 Integration Felix Naumann, VL Informationsintegration, WS 05/06

  46. Intensionale Komplementierung Quelle 1 Quelle 2 • Intensionale Komplementierung liegt vor, wenn von zwei Intensionen • mindestens eine Differenz ist nicht leer ist, • und deren Schnittmenge nicht leer ist. Felix Naumann, VL Informationsintegration, WS 05/06

  47. Potential Intensionaler Komplementierung Quelle 1 Quelle 2 ??? Verdichtung: Mehr Informationen über einzelne Objekte ??? Felix Naumann, VL Informationsintegration, WS 05/06

  48. Potential Intensionaler Komplementierung Quelle 1 Quelle 2 ??? Verdichtung nicht immer leicht. ??? Felix Naumann, VL Informationsintegration, WS 05/06

  49. Extensionale Redundanz Quelle 1 Quelle 2 Extensionale Redundanz liegt vor, wenn die Menge der von zwei Quellen gemeinsam repräsentierten Objekte nicht leer ist. Felix Naumann, VL Informationsintegration, WS 05/06

  50. Extensionale Redundanz Quelle 1 Quelle 2 Extensionale Redundanz nur über Teile der Quellen. Felix Naumann, VL Informationsintegration, WS 05/06

More Related