1 / 29

Anvendelser af Web-sprog; Ontologier

Anvendelser af Web-sprog; Ontologier. Costanza Navarretta Center for Sprogteknologi Københavns Universitet costanza@cst.dk. Indhold. pensum og kursusevaluering fra sidst: RDF, RDFS, RDF/Dublin Core Metadata øvelse om RDF/XML øvelse om RDF/XML/Dublin Core

thom
Download Presentation

Anvendelser af Web-sprog; Ontologier

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Anvendelser af Web-sprog; Ontologier Costanza Navarretta Center for Sprogteknologi Københavns Universitet costanza@cst.dk

  2. Indhold • pensum og kursusevaluering • fra sidst: • RDF, RDFS, RDF/Dublin Core Metadata • øvelse om RDF/XML • øvelse om RDF/XML/Dublin Core • Anvendelser af XML, RDF, Dublin Core • VID-projektet • Ontologier på internettet • OWL • komponenter • egenskaber Costanza Navarretta: XML anvendelser, ontologier.

  3. Øvelse om RDF fra sidst • Lav et RDF-dokument hvor der angives de 3 mest relevante ord i nytårstalen fra 2005, hvor relevans karakteriseres som de mest signifikante ord for dokumentet i forhold til Nytårstalen fra 2001 (en nytårstale er et resurse der peger på dokumentet på internettet.) • Fejl: unqualified (ingen Namespace) Costanza Navarretta: XML anvendelser, ontologier.

  4. Vejledende løsning • <?xml version="1.0" encoding="ISO-8859-1"?> • <RDF:RDF xmlns:RDF="http://www.w3.org/1999/02/22-rdf-syntax-ns#" • xmlns:costa="http://cst.dk/costanza/course/informasoeg/rdf#"> • <RDF:Description RDF:about="http://cst.dk/costanza/course/informasoeg/eksempler/Dronningsnytaarstale_2005.txt"> • <costa:karakteristiske_termer> • <RDF:Seq> • <RDF:li> flodbølge</RDF:li> • <RDF:li> naturkatastrofe </RDF:li> • <RDF:li>kommunalreformen</RDF:li> • </RDF:Seq> • </costa:karakteristiske_termer> • </RDF:Description> • </RDF:RDF> Costanza Navarretta: XML anvendelser, ontologier.

  5. RDF/Dublin Core • Indsæt passende Dublin Core Metadata i XML/RDF-format i en af Dronningens nytårstaler fra 2005 og valider resultaterne med: • http://www.w3.org/RDF/Validator/ Costanza Navarretta: XML anvendelser, ontologier.

  6. Anvendelser af XML – generalt • http://xml.coverpages.org/xmlApplications.html : • WML (WAP Wireless Markup Language ) • CML (Chemical Markup Language) • MusiXML: http://www.music-notation.info/en/musixml/MusiXML.html • DocBookXML • Bank Internet Payment System (BIPS) – DTD • Electronic Text Corpus of Sumerian Literature (ETCSL) Costanza Navarretta: XML anvendelser, ontologier.

  7. Anvendelser: sproglige • Eksempler: • Opmærkning af korpora (gamle og nye tekster) • Format for leksika, grammatikker • generering af sprog • Format for talesprog • Repræsentation af sproglige ontologier… Costanza Navarretta: XML anvendelser, ontologier.

  8. Korpusopmærkning • retorisk og stilistisk opmærkning • opmærkning af versstruktur  • opmærkning af den fysiske manuskriptstruktur • opmærkning af sproglige oplysninger: morfologisk, syntaktisk, semantisk, diskursstruktur • opmærkning af titel, forfatter(e), genre • mm Costanza Navarretta: XML anvendelser, ontologier.

  9. Parole korpus • <text id=B144373><body> <div1 type=main> <p> <W lemma="den" msd="PD-CSU--U">Den</W> <W lemma="31." msd="AO---U=--">31.</W> <W lemma="oktober" msd="NCCSU==I">oktober</W> <W lemma="blive" msd="VADA=----A-">blev</W> <W lemma="han" msd="PP3CSN-NU">han</W> <W lemma="operere" msd="VAPA=S[CN]I[ARU]U">opereret</W> <W lemma="," msd="XP">,</W> • …</p>... </div1> • </body> • </text> Costanza Navarretta: XML anvendelser, ontologier.

  10. STO-ordbog • <?xml version="1.0" encoding="ISO-8859-1" ?> • - <STO_Syntax xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="STO_Syntax.xsd"> • - <Morph_Syn_Units> • - <Mu_Synu> • <Mu_Id>"3D-BILLEDE"</Mu_Id> • <Spelling>3d-billede</Spelling> • - <Synu Id="SYNU_3D-BILLEDE_1"> • <Synu_Description Description_Id="Dn0" /> • </Synu> • </Mu_Synu> …. • </STO_Syntaks> Costanza Navarretta: XML anvendelser, ontologier.

  11. XSL (XML Stylesheet Language) mm. • XML-sprog: • transformere XML-dokumenter til andre formater: txt, html, andre xml-sprog, pdf mm (lidt som CCS). Nogle af transformationer er for at vise data til mennesker. • Eks. kortet.xslkortex.xml • Et smart XMLschema Validator på nettet: • http://tools.decisionsoft.com/schemaValidate/ Costanza Navarretta: XML anvendelser, ontologier.

  12. Søgning i VID-projektet • Kombination af lingvistisk viden og XML-opmærkning til at forbedre viden i et domænespecifikt korpus om patent- behandling. Viden som anvendes • terminologisk • morfologisk • semantisk (synonymi, hyponymi, relationer mellem komponenterne i sammensatte ord, similaritetsrelationer, afledninger mm.) Costanza Navarretta: XML anvendelser, ontologier.

  13. VID-Prototype • Ankiro A/S: søgemaskine og terminologi-kodningsværktøj • CST: uddragelse af termer, semantiske relationer, morfologi, emneord, opmærkning af tekster Costanza Navarretta: XML anvendelser, ontologier.

  14. Ontologi på nettet: sprog • Sprog til at repræsentere ontologier i videnbaserede systemer (CyCL, Loom mm.) inkluderer: • - beskrivelse af ontologier (descriptive logic) • - inferensmekanismer • Standard Web-baserede sprog: • - OWL • - ISO-standard Topic Maps Costanza Navarretta: XML anvendelser, ontologier.

  15. Web-baserede sprog • WWW Consortium (W3C) om ontologier: • Semantic Web • OntoWeb Costanza Navarretta: XML anvendelser, ontologier.

  16. DAML+OIL • DARPA Agent Markup Language + OIL: • viderudvikling af RDFS: komplekse relationer mellem klasser og egenskaber, restriktioner om disse (fx to klasser eller egenskaber er identiske) • egenskabsværdier er begrænset til de datatyper som er defineret i XML-Skemaet eller til brugerdefinerede typer. • sprogets semantik er veldefineret modelteoretisk og aksiomatisk: det er muligt at anvende inferensmekanismer på de data  som  sproget beskriver. Costanza Navarretta: XML anvendelser, ontologier.

  17. OWL (Ontology Web Language) • bygger på DAML-OIL (elementer og attributter fra RDF, RDFS og XML Schema). • OWL-specifikationen: http://www.w3.org/TR/owl-ref/. Costanza Navarretta: XML anvendelser, ontologier.

  18. OWL-ontologi: hvorfor? • For at modellere viden om et domæne ved at beskrive dets centrale begreber og de relationer der holder mellem disse begreber på en formel måde således at programmer kan uddrage oplysninger fra modellen. Costanza Navarretta: XML anvendelser, ontologier.

  19. Nye træk i forhold til RDFS • adskillelse af klasser: man kan erklære at to klasser er adskilte, fx fugle og fisk • kombination af klasser via boolske operationer: fx dyre-klassen er foreningsmængde af fugle-klassen, fiske-klassen, pattedyreklassen osv. • lokale begrænsninger for egenskaber: fugle flyver, men dette er en egenskab som er lokal for fugle-klassen. undtagelsen: pingvin-klasse Costanza Navarretta: XML anvendelser, ontologier.

  20. Nye træk fortsat: • restriktioner vedr. antal: • fx fugle har 2 vinger, 2 ben, 1 næb • karakteristika af egenskaber: • fx symmetri: hvis Anna er søster til Maria, så er Maria søster til Anna Costanza Navarretta: XML anvendelser, ontologier.

  21. OWL: tre sprogniveauer • OWL-Lite: grundlæggende (tesauri og simple hierarkier) • OWL-DL: baseret på Description Logics • OWL-Full: større udtryksevne, men der er elementer der ikke kan behandles af deduktionsprogrammer Costanza Navarretta: XML anvendelser, ontologier.

  22. OWL komponenter • individer (individuals, instances): instanser af klasser, fx København, Århus, Odense er instanser af klassen BY • egenskaber (properties): binære relationer som binder to individer fx medstuderende (Tina, Helene). Egenskaber kan være transitive (forfader_til) eller symmetriske (medstuderende) • klasser (classes): er mængder som indeholder individer. De kan være organiseret i klasse-hierarkier (taksonomier). Costanza Navarretta: XML anvendelser, ontologier.

  23. Norge Lande Sverige Danmark har-by er-i har-by Århus København Byer Costanza Navarretta: XML anvendelser, ontologier.

  24. domain/range egenskab binder individer fra en klasse (domain ’definitionsmængden’) til individer fra en anden klasse (range ’værdimængden’) harBy erByi erByi harBy Land By Costanza Navarretta: XML anvendelser, ontologier.

  25. Egenskaber • objektegenskaber (forbinder et individ med et andet individ) • datatypeegenskaber (forbinder et individ til et egenskab prædefineret i XML Skema, fx xsd:string, xsd:dato, xsd:integer) • karakteristika af egenskabet • inverst: erLandaf/harLand; erLærertil/harLærer • transitiv: erForfadertil/harForfader • symmetrisk: erSøskendetil/harSøskende Costanza Navarretta: XML anvendelser, ontologier.

  26. XML og OWL- ontologi • <?xml version="1.0"?> • <rdf:RDF • xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" • xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" • xmlns="http://www.bpiresearch.com/BPMO/2004/03/03/cdl/Countries#" • xmlns:owl="http://www.w3.org/2002/07/owl#" • xml:base="http://www.bpiresearch.com/BPMO/2004/03/03/cdl/Countries"> • <owl:Ontology rdf:about=""> • <owl:versionInfo>Version 0.1</owl:versionInfo> • <rdfs:comment>Countries Ontology Created by Jenz &amp; Partner GmbH Version 0.1, 28-FEB-2004</rdfs:comment> • </owl:Ontology>…. Costanza Navarretta: XML anvendelser, ontologier.

  27. Editor: Protégé-3.1 • Frit-anvendeligt/følger standarder, Protégé-3.1 – Stanford University -http://protege.stanford.edu • http://protege.cim3.net/cgi-bin/wiki.pl?ProtegeOntologiesLibrary Costanza Navarretta: XML anvendelser, ontologier.

  28. Fælles øvelse: fra OWL til Protégé • Hent wine.owl ontologi fra http://protege.cim3.net/file/pub/ontologies/wine/wine.owl (eller fra kursushjemmesiden) og gem den i jeres katalog • Identificer RDF, RDFS og OWL elementerne i wine.owl • Importer ontologien i Protégé • Start Protégé, • Vælg fra file-menu, new- create fra existing source- OWL Files • og hent så jeres fil “wine owl • Gem filen som Protege-projekt Costanza Navarretta: XML anvendelser, ontologier.

  29. Fra Protégé til RDF/RDFS • Fra menu ”file” vælg ”export to format RDF-Skema”. • I får et skermbillede hvor I skal vælge kataloget (jeres) og gemme et rdfs-fil (fx wine.rdfs) og et rdf-fil (fx wine.rdf) • HUSK at angive det korrekte efternavn for filerne, dvs. ”.rdfs” og ”.rdf” Costanza Navarretta: XML anvendelser, ontologier.

More Related