480 likes | 564 Views
Informationsintegration Das Semantic Web. 16.02.2006 Felix Naumann. Quelle: Mark Butler, HP. Überblick. Motivation und Definition TXT → XML XML → RDF(S) RDF → Ontologien Ausblick / Diskussion Rückblick & Evaluation. Definitionen. Fremdwörterduden “Semantik”
E N D
InformationsintegrationDas Semantic Web 16.02.2006 Felix Naumann
Quelle: Mark Butler, HP Felix Naumann, VL Informationsintegration, WS 05/06
Überblick • Motivation und Definition • TXT → XML • XML → RDF(S) • RDF → Ontologien • Ausblick / Diskussion • Rückblick & Evaluation Felix Naumann, VL Informationsintegration, WS 05/06
Definitionen • Fremdwörterduden “Semantik” • Teilgebiet der Linguistik, das sich mit den Bedeutungen sprachlicher Zeichen und Zeichenfolgen befasst • Bedeutung, Inhalt eines Wortes, Satzes oder Textes • “The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation.” [BLHL01] • Das Semantische Web ist einer Erweiterung des gegenwärtigen Webs, in der Informationen wohl-definierte Bedeutungen erhalten, so dass Computer und Menschen besser kooperieren können. Felix Naumann, VL Informationsintegration, WS 05/06
Warum brauchen wir das Semantic Web? • Überfluss an Daten • Stark verteilt • Suche und Integration nötig • Die Kosten, relevante Informationen zu finden und Wert daraus zu schöpfen sind enorm. • Kostenreduzierung • Workflows und Businessprozesse miteinander verknüpfen • Data- und Service-sharing ermöglichen • auch zwischen heterogenen Gruppen • eScience: Wissenschaftler, Standards-Konsortien, Bioinformatik • eGovernment: u.a. Gesundheitswesen • eBusiness • eSociety: Blogging, Gnutella Quelle: [DK03] Felix Naumann, VL Informationsintegration, WS 05/06
Motivation • Web Seiten tragen Layout-Informationen • Gut für Menschen • Nicht zu interpretieren für Rechner • Informationen leben in zwei Welten • Für Menschen als Konsumenten • Gedichte, Filme, Text,... • Für Computer als Konsumenten • Daten, Programme,... • Das Web betont den Menschen. • Das Semantic Web soll dies ausgleichen. • Ease-of-Use und Wachstum des WWW soll nicht beeinträchtigt werden. • Es muss also nicht alles perfekt verstanden werden. Felix Naumann, VL Informationsintegration, WS 05/06
Motivation: (Automatische) Informationssuche im Web • Methode 1: Browsing • geht nicht (Milliarden von Dokumenten) • Methode 2: Suche • Suche mittels Suchmaschinen besser • Recall nicht immer perfekt (Größe der Suchmaschine). • Precision nicht immer perfekt (Relevanz der Ergebnisse). • Techniken des Information Retrieval • Leider wirklich nur „retrieval“ • Extraktion und Interpretation der Informationen durch Nutzer • Funktioniert nur mit Menschen, nicht automatisiert Felix Naumann, VL Informationsintegration, WS 05/06
Motivation: (Automatische) Informationssuche im Web • Methode 3: Informationsextraktion • Computational Linguistics • Named Entity Recognition (z.B. Gene) • Relationship Extraction (z.B. Firmensitze aus Wirtschaftmeldungen extrahieren) • Methode 4: Wrapper • Bsp: Shopping Agenten • Generierung von Wrappern per Hand • Müssen sich auf HTML Tags verlassen • Methode 5: Annotation • Maschinenlesbare Annotation (z.B. XML) • Methode 6: Semantic Web • Semantische Annotation (RDF & Ontologien) Themen heute Felix Naumann, VL Informationsintegration, WS 05/06
Szenario aus [BLHL01] Alice Gemeinsamer Arztbesuch Neuer Plan OK Wer fährt? Transportbedarf Therapieplan Neuer Vorschlag Streiche unwichtige Termine zu weit! OK Bob Vorschlag leiser! Felix Naumann, VL Informationsintegration, WS 05/06
Beispiel-Anwendungen • Wissensmanagement (knowledge management,KM) • Intranet mit Millionen Dokumenten • Informationsbeschaffung, -wartung und -suche • Mit Ontologien • Intelligente Suche • Anfragen und Sichten statt Suche • Bsp.: Liste alle Projekte aller Mitarbeiter der HU Informatik • Dokumentenaustausch • Web Commerce • Shopping-Agenten suchen bestes und billigstes Angebot. • On-line shops präsentieren Waren sinnvoll • Broker vermitteln zwischen Anbietern und Käufern (e-marketplace) • Meta-Stores • E-Business • Virtuelle Unternehmen • Katalog-Integration und Datenaustausch Felix Naumann, VL Informationsintegration, WS 05/06
Semantic Web Prinzipien [BL] • Alles kann eine URI#xxx haben. • Sage nicht „farbe“, sage "http://www.pantomime.com/2002/std6#farbe" • Vokabulare können im Laufe der Zeit integriert und ersetzt werden. • Dokumente sind selbst-beschreibend. • „Jeder kann Beliebiges über Beliebiges sagen." • Kein einzelnes System weiß alles. • Das Design muss minimalistisch sein. Felix Naumann, VL Informationsintegration, WS 05/06
Semantic Web Layer Cake Nutzen Regeln Bedeutung Beziehungen Syntax und Struktur Basisdaten, Texte und Identifikatoren Quelle: [Hen02] Felix Naumann, VL Informationsintegration, WS 05/06
Überblick • Motivation und Definition • TXT → XML • XML → RDF(S) • RDF → Ontologien • Ausblick / Diskussion • Rückblick & Evaluation Felix Naumann, VL Informationsintegration, WS 05/06
Überblick Semantic Web Quelle: Tim Berners-Lee Felix Naumann, VL Informationsintegration, WS 05/06
TEXT XML • Reiner Text • Keine Struktur (höchstens implizit) • Nicht maschinenlesbar • XML • Kann Text strukturieren • Maschinenlesbare Struktur • Implizite Semantik durch Benennung von Struktureinheiten Felix Naumann, VL Informationsintegration, WS 05/06
Text im Web (UNICODE + URI) • So sieht ein natürlichsprachige Webseite für eine Maschine aus. Quelle: [Hen02] Felix Naumann, VL Informationsintegration, WS 05/06
name education CV work private XML … immerhin • XML erlaubt es, sinnvoll tags zu Texteinheiten hinzuzufügen. < > < > < > < > < > Quelle: [Hen02] Felix Naumann, VL Informationsintegration, WS 05/06
XML maschinenlesbare Bedeutung • Aber: Für eine Maschine sehen die tags so aus... < name > <education> < CV > <work> <private> Quelle: [Hen02] Felix Naumann, VL Informationsintegration, WS 05/06
Schemata: Die richtige Richtung Schemata helfen…. < CV > …indem sie gemeinsame Ausdrücke zwischen Dokumenten in Beziehung setzen. private Quelle: [Hen02] Felix Naumann, VL Informationsintegration, WS 05/06
Aber: Schemata unterscheiden sich • Jemand anderes verwendet dieses Schema: < name > <name> <educ> <education> < CV > < CV > <work> <<>> <private> <> Quelle: [Hen02] Felix Naumann, VL Informationsintegration, WS 05/06
Schemata fehlt die Bedeutung < CV > Immerhin: Semi-automatisches Schema Matching & Mapping private Quelle: [Hen02] Felix Naumann, VL Informationsintegration, WS 05/06
Überblick • Motivation und Definition • TXT → XML • XML → RDF(S) • RDF → Ontologien • Ausblick / Diskussion • Rückblick & Evaluation Felix Naumann, VL Informationsintegration, WS 05/06
Überblick Semantic Web Quelle: Tim Berners-Lee Felix Naumann, VL Informationsintegration, WS 05/06
XML RDF • XML • erlaubt beliebige Strukturen. • Bedeutung „verborgen“/“vermischt“ in Struktur (durch geeignete Tag-Namen) • Fortschritt, aber Strukturen noch ohne „Bedeutung“ • RDF… • …kann „Bedeutung“ ausdrücken, ohne Annahmen zur Struktur. • …besteht aus Tripeln: Subjekt, Prädikat, Objekt • …ist ein Datenmodell für Metadaten. Felix Naumann, VL Informationsintegration, WS 05/06
Metadaten Format: RDF • RDF (Resource Description Framework) • Jenseits von Maschinenlesbarkeit: „Maschinenverstehbarkeit“ • RDF besteht aus zwei Teilen: • RDF Modell (eine Menge von Tripeln) • RDF Syntax (verschiedene XML-Serialisierungs Syntaxen) • RDF Schema • Definition von Vokabularen (einfache Ontologien) für RDF • Formuliert in RDF Quelle: [DK03] Felix Naumann, VL Informationsintegration, WS 05/06
Author-of pers05 ISBN... <rdf:Description rdf:about=“#pers05”> <authorOf>ISBN...</authorOf> </rdf:Description> Publ-by Author-of pers05 ISBN... MIT Publ-by Author-of ISBN... RDF Beispiel • Ausdruck • “Peter Mueller ist Autor der Ressource http://www.w3.org/home/mueller .” • Struktur • Ressource (Subjekt) • http://www.w3.org/home/mueller • Eigenschaft (Prädikat) • http://www.schema.org/#authorOf • Wert (Objekt) • „Peter Mueller” • Gerichteter Graph Quelle: [OH03] Felix Naumann, VL Informationsintegration, WS 05/06
<rdf:Description rdf:about=“#NYT”> <behauptet> <rdf:Description rdf:about=“#pers05”> <AutorVon>ISBN...</AutorVon> </rdf:Description> </behauptet> </rdf:Description> AutorVon pers05 ISBN... Schachtelung mit RDF • Jeder Ausdruck kann wiederum eine Ressource sein: • Schachtelung von Graphen –reification (“Verdinglichung”) behauptet NYT Quelle: [OH03] Felix Naumann, VL Informationsintegration, WS 05/06
Vorteile von RDF vs. XML <?xml version="1.0"?> <Description xmlns="http://www.w3.org/TR/WD-rdf-syntax#" xmlns:s="http://docs.r.us.com/bibliography-info/" about="http://www.w3.org/test/seite" s:Author ="http://www.w3.org/staff/Peter" /> • „Der Autor der Seite ist Peter“ • RDF: triple(author, Seite, Peter) • XML: <document> <autor> <uri>href=“Seite"</uri> <details> <name>Peter</name> </details> </autor> </document> <autor> <uri>Seite</uri> <name>Peter</name> </autor> Anfragen nur über das Dokument, nicht über dessen Bedeutung: Ist ppppp ein y von qqqqq? Oder ist qqqqq ein z von ppppp? Nur falls Schema vorhanden, kann man sinnvolle Fragen stellen. <document href=“Seite"> <autor>Peter</autor> </document> Aber es kann viele verschiedene Schemata für die gleiche Bedeutung geben. <document> <details> <uri>href=“Seite"</uri> <autor> <name>Peter</name> </autor> </details> </document> <v> <x> <y> a="ppppp"</y> <z> <w>qqqqq</w> </z> </x> </v> Felix Naumann, VL Informationsintegration, WS 05/06 Quelle: http://www.w3.org/DesignIssues/RDF-XML.html
Überblick • Motivation und Definition • TXT → XML • XML → RDF(S) • RDF → Ontologien • Ausblick / Diskussion • Rückblick & Evaluation Felix Naumann, VL Informationsintegration, WS 05/06
Semantic Web Quelle: Tim Berners-Lee Felix Naumann, VL Informationsintegration, WS 05/06
XML / RDF Ontologien • XML und RDF • Kein Standard-Vokabular um Semantik auszudrücken • Gleiche Probleme wie bisher, jedoch auf Tag-Ebene • Keine Standard-Struktur (Hierarchie) um Semantik auszudrücken. • Ontologien • stellen Standard-Vokabulare bereit. • stellen Standard-Struktur bereit. Felix Naumann, VL Informationsintegration, WS 05/06
Motivation für Ontologien class-def animal % animals are a class class-def plant % plants are a class subclass-of NOT animal% that is disjoint from animals class-def tree subclass-of plant % trees are a type of plants class-def branch slot-constraint is-part-of % branches are parts of some tree has-valuetree max-cardinality 1 class-def defined carnivore % carnivores are animals subclass-of animal slot-constraint eats % that eat any other animals value-typeanimal class-def defined herbivore % herbivores are animals subclass-of animal, NOT carnivore % that are not carnivores, and slot-constraint eats % they eat plants or parts of plants value-type plant OR (slot-constraint is-part-of has-value plant) Quelle: [OH03] Felix Naumann, VL Informationsintegration, WS 05/06
Was ist eine Ontologie? • „Eine Ontologie ist eine formale, explizite Spezifikation einer gemeinsamen Konzeptionalisierung“ – Tom Gruber • ‚Konzeptionalisierung‘ (Conceptualization): Abstraktes Modell von Phänomenen der wirklichen Welt durch Identifikation der relevanten Konzepte der Phänomene. • ‘Explizit’: Verwendete Konzepte (und deren Typen und Bedingungen darauf) sind explizit definiert. • ‘Formal’: Maschinenlesbar • ‘Gemeinsam’: Reflektiert Wissen über das Konsens in der Gemeinde herrscht. Quelle: [Fen03] Felix Naumann, VL Informationsintegration, WS 05/06
Was ist eine Ontologie? • Ontologien sind soziale Kontrakte: • Akzeptierte, explizite Semantik • Verständliche für Außenstehende • (Meist) erzeugt in einem community process. • Im Gegensatz zu Datenbankschema • Zielrichtung dort: Physischen Datenunabhängigkeit • Im Gegensatz zu XML-Schema • Zielrichtung dort: Dokumentstruktur Quelle: [DK03] Felix Naumann, VL Informationsintegration, WS 05/06
Arten von Ontologien • Domänen-Ontologien • Für eine spezielle Domäne (Elektronik, Medizin, Datenbanken, usw.) • Meta-Ontologien • Verwendbar über Domänen hinweg • Stellen Vokabular zur Verfügung • Beispiel: Dublin Core für Dokumente • Generische Ontologien (common sense) • Vokabular über Dinge, Ereignisse, Zeit, Raum, etc. • Verwendbar über Domänen hinweg • Beispiel: Meter und Inch Konvertierungtabellen Quelle: [Fen03] Felix Naumann, VL Informationsintegration, WS 05/06
Ontologien: Beispiele • WordNet • 100.000 Worte mit natürlichsprachlicher Bedeutung • Organisiert in Synonym-Sets • Kategorisierung • Substantiv, Verb, Adjektiv, Adverb, Funktionswort • Zusätzliche Beziehungen • Synonym, Antonym • Hyponomy (is-a Beziehungen als Hierarchie) • Meronymy (part-of Beziehungen) • Morphologie (für Wortformen) • Vorteile • Domänenunabhängig, groß, frei verfügbar Felix Naumann, VL Informationsintegration, WS 05/06
Ontologien: Beispiele • Cyc • Entstammt aus KI Forschung • Versuch, Allgemeinwissen zu formalisieren • 100.000de Konzepte formalisiert • Millionen Axiome, Regeln, Einschränkungen • Cycorp Felix Naumann, VL Informationsintegration, WS 05/06
Eine high-level Ontologie Quelle: [HHL04] Felix Naumann, VL Informationsintegration, WS 05/06
Gene Ontologie • Ziel: Kontrolliertes Vokabular (controlled vocabulary) über Organismen in Bezug auf Gene und Proteine • 16675 Ausdrücke • [Term] id: GO:0000001 • name: mitochondrion inheritance • namespace: process • def: "The distribution of mitochondria\, including the mitochondrial genome\, into daughter cells after mitosis or meiosis\, mediated by interactions between mitochondria and the cytoskeleton." [PMID:11389764, PMID:10873824, SGD:mcc] • is_a: GO:0048308 (-> organelle inheritance) • is_a: GO:0048311 (-> mitochondrian distribution) • [Term] id: GO:0000002 • name: mitochondrial genome maintenance • namespace: process • def: "The maintenance of the structure and integrity of the mitochondrial genome." [GO:ai] • is_a: GO:0007005 • [Term] id: GO:0000003 ... • http://www.geneontology.org/ Felix Naumann, VL Informationsintegration, WS 05/06
Gene Ontology • Probleme in GO (aus [SKK04]) • z.B. A partOf B • „A is always part of B“ • „A is sometimes part of B“ • „A can be part of B“ • „Vocabulary A is included within vocabulary B“ • Ähnliches für A isA B Felix Naumann, VL Informationsintegration, WS 05/06
Überblick • Motivation und Definition • TXT → XML • XML → RDF(S) • RDF → Ontologien • Ausblick / Diskussion • Rückblick & Evaluation Felix Naumann, VL Informationsintegration, WS 05/06
Semantic Web Quelle: Tim Berners-Lee Felix Naumann, VL Informationsintegration, WS 05/06
Killer-Application des Semantic Web? • Das Semantic Web selbst! • Ähnlich wie das Web selbst Killer-App des Internet war. • Wichtige Anwendungen z.B. • Online Kataloge für B2B und B2C • Reiseplanung und Reisekoordination mit Terminplaner Felix Naumann, VL Informationsintegration, WS 05/06
Die Zukunft des Semantic Web • Semantic Web in der physischen Welt • URI zeigen auf physische Objekte • RDF beschreibt physische Objekte • Physische Objekte beschreiben ihre Fähigkeiten und Funktionen. • Home-automation • Lautstärkeregelung • Mikrowelle sucht nach optimalen Kochparametern auf Iglo Webseite Aber: Es gibt auch Kritik und viele Skeptiker! Felix Naumann, VL Informationsintegration, WS 05/06
Überblick • Motivation und Definition • TXT → XML • XML → RDF(S) • RDF → Ontologien • Ausblick / Diskussion • Rückblick & Evaluation Felix Naumann, VL Informationsintegration, WS 05/06
Integrierte Informationssysteme Anfrage Design time Run time Integriertes Informations- system Architekturen Datenfusion / ETL Anfragesprache Anfrageplanung Schemamanagement Optimierung Wrapper Anfrageausführung Oracle, DB2… Anwen- dung Datei- system Web Service HTML Form Integriertes Info.-system Felix Naumann, VL Informationsintegration, WS 05/06
Glossar aus [BLHL01] • Resource: Web jargon for any entity. Includes Web pages, parts of a Web page, devices, people and more. • URL: Uniform Resource Locator. • URI: Universal Resource Identifier. URLs are the most familiar type of URI. A URI defines or specifies an entity, not necessarily by naming its location on the Web. • RDF: Resource Description Framework. A scheme for defining information on the Web. RDF provides the technology for expressing the meaning of terms and concepts in a form that computers can readily process. RDF can use XML for its syntax and URIs to specify entities, concepts, properties and relations. • Ontologies: Collections of statements written in a language such as RDF that define the relations between concepts and specify logical rules for reasoning about them. Computers will "understand" the meaning of semantic data on a Web page by following links to specified ontologies. • Agent: A piece of software that runs without direct human control or constant supervision to accomplish goals provided by a user. Agents typically collect, filter and process information found on the Web, sometimes with the help of other agents. • Service discovery: The process of locating an agent or automated Web-based service that will perform a required function. Semantics will enable agents to describe to one another precisely what function they carry out and what input data are needed. Felix Naumann, VL Informationsintegration, WS 05/06
Literatur • [BLHL01] T. Berners-Lee, J. Hendler, O. Lassila, The Semantic Web, Scientific American, May 2001 • [DK03] Stefan Decker und Vipul Kashyap. The Semantic Web: Semantics for Data on the Web, Tutorial at VLDB 2003 Berlin. • [Fen03] Dieter Fensel. Lecture Introduction:Semantic Web & Ontology, 2003 • [OH03] Slides: Semantic Web. Jacco van Ossenbruggen, Lynda Hardman. CWI Amsterdam 2003. • [BL] Tim Berners Lee. The Semantic Web (slides). http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/Overview.html • Web sites • www.ontoknowledge.org • www.ontoweb.org • www.daml.org • www.w3.org/2001/sw/ • www.semanticweb.org Felix Naumann, VL Informationsintegration, WS 05/06