1 / 32

Det semantiske web og XML

Det semantiske web og XML. Costanza Navarretta Center for Sprogteknologi, Københavns Universitet costanza@cst.dk. Indhold. hvad er det semantiske web? den oprindelige vision hvordan kan visionen realiseres? hvad har man gjort? fremtiden introduktion til XML

cili
Download Presentation

Det semantiske web og XML

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Det semantiske web og XML Costanza Navarretta Center for Sprogteknologi, Københavns Universitet costanza@cst.dk

  2. Indhold • hvad er det semantiske web? • den oprindelige vision • hvordan kan visionen realiseres? • hvad har man gjort? • fremtiden • introduktion til XML • elementer, attributter, opmærkning, velformede dokumenter C. Navarretta: Noter om Semantic Web og XML

  3. Hvad er det semantiske web? • Initiativ fra W3C, et konsortium af offentlige og private organisationer fra hele verden stiftet i 1994    ( MIT-CERN-DARPA-EU). • W3Cs overordnede formål er at forbedre udveksling og anvendelsesmuligheder af resurser på nettet. • Det semantiske webs hjemmeside C. Navarretta: Noter om Semantic Web og XML

  4. Visionen: det semantiske web • Fremtidsorienteret vision om et web hvor dataresurserne kan anvendes på en "intelligent" måde af både mennesker og maskiner, også i form af agenter. Den viden som er “gemt” i data skal udnyttes. C. Navarretta: Noter om Semantic Web og XML

  5. Vision, behov og nutid • Det semantiske web bygger på en vision, men visionen kommer ud fra et reelt behov: at kunne udnytte den viden som er implicit i de store mængder data som findes på internettet. • Det semantiske web er en igangværende udvidelse af det web, som findes i dag. C. Navarretta: Noter om Semantic Web og XML

  6. Hvordan kan visionen realiseres? • Semantikken (betydningen) i resurserne på internettet skal gøres eksplicit. • Resultatet vil være et netværk af  semantisk opmærket viden (det semantiske web). • For at kunne bruges af programmer, skal viden være opmærket på standardiserede måder og organiseret i fx domæne-specifikke ontologier, som kunstige agenter kan anvende på tværs af sprog og systemer. C. Navarretta: Noter om Semantic Web og XML

  7. 3WC-initiativer • Definition af et XML-baseret standardsprog for at beskrive semantikken af resurserne (XML er standardsyntaksen for resurser på internettet). • Definition af et XML-baseret standardsprog for at formalisere ontologier. • Fastsættelse af protokoller til udveksling af semantiske resurser. C. Navarretta: Noter om Semantic Web og XML

  8. Resultater: specifikationer • RDF/XML Syntax Specification (Revised) • RDF Vocabulary Description Language 1.0: RDF Schema • RDF Primer • Resource Description Framework (RDF): Concepts and Abstract Syntax • RDF Semantics • RDF Test Cases • Web Ontology Language (OWL) Use Cases and Requirements • OWL Web Ontology Language Reference • OWL Web Ontology Language Semantics and Abstract Syntax • OWL Web Ontology Language Overview • OWL Web Ontology Language Test Cases • OWL Web Ontology Language Guide C. Navarretta: Noter om Semantic Web og XML

  9. WC3 Ontologisprog OWL Ontologibeskrivelse W3C DAML+OIL Ontologibeskrivelse ikke W3C RDFS Objekt-orienteret RDF RDF Beskrivelse af resurser XML Schema Datakontrol XML Syntaks C. Navarretta: Noter om Semantic Web og XML

  10. Opmærkningssprog og XML • Opmærkningssprog er notationer for at opmærke data med tags <tag>. • De mest kendt opmærkningssprog på webbet er HTML. • Andre opmærkningssprog er SGML, som mest bruges i tekstsamlinger og XML, som er et generelt opmærkningssprog. C. Navarretta: Noter om Semantic Web og XML

  11. XML (eXtensible Markup Language) • XML er et metasprog til opmærkning af dokumenter: • • består af en mængde syntaktiske regler for at strukturere dokumenter så at computere kan læse data, generere dem og sikre at de er utvetydige; • • understøtter UNICODE. UNICODE angiver et entydigt tal for hvert tegn, uafhængigt af programtype, sprog og system. • • er et opmærkningssprog (markup). C. Navarretta: Noter om Semantic Web og XML

  12. XML • XML er blevet defineret som en undermængde af SGML. • Opmærkning angives med tags (<tag-name>). • Selv om XML er et opmærkningssprog som kan minde om HTML, er der mange forskelle mellem de to sprog. C. Navarretta: Noter om Semantic Web og XML

  13. Forskelle mellem HTML og XML • I HTML har alle tags og attributter en forudbestemt betydning, fx angiver "<p>" et afsnit (paragraf), attributtet href bruges til at angive en link. Mængden af lovlige tag-navne i HTML er begrænset. • HTML's semantik er forbundet med sprogets syntaks som kun er egnet til at strukturere dokumenter som hypertekst. • I XML anvendes tags'ene til at afgrænse og strukturere data af forskellige typer. • Strukturen bestemmes af dem der skaber et XML-dokument og betydningen af tag-navnene er ikke forudbestemt, men afhænger af den aktuelle brug/definition. Derfor er XML et metasprog. • Fx kunne "<p>” stå for bogstavet ”p”, for pris, person, problem o.s.v. C. Navarretta: Noter om Semantic Web og XML

  14. XML egenskaber • XML-dokumenter skal være velformede, d.v.s. skal følge den syntaks som er beskrevet i XML-specifikationer. • • XML kræver ikke nogen form for licens, er system-uafhængigt og understøttes af mange platforme. • • Information i XML er struktureret således at den kan kombineres og genanvendes til forskellige formål. • • XML er et metasprog, som bruges til at definere et ubegrænset antal sprog (MusicXML, VoiceXML....). • • XML er modulært. C. Navarretta: Noter om Semantic Web og XML

  15. XML -fortsat • XML 1.0 specifikationer angiver hvad tags og attributterne er i XML. Der findes også et voksende antal specifikationer, der supplerer XML. Nogle eksempler er: • XLink angiver hvordan der kan tilføjes hyperlinks til en XML-fil. • XPointer angiver hvordan man kan danne links til dele af en XML-dokument. • XSL angiver Style Sheets for XML-dokumenter C. Navarretta: Noter om Semantic Web og XML

  16. Hvordan editeres XML? • XML-dokumenter er tekster og kan derfor skrives i almindelige teksteditorer (word, wordpad, emacs, notepad, jedit etc.) • Der findes specielle XML-editorer der viser XML-syntaks og struktur (fx. jedit fra http://jedit.org) • XML-dokumenter kan  indlæses i de fleste browsere. • Der findes parsere til validering af XML-dokumenter C. Navarretta: Noter om Semantic Web og XML

  17. Hierarkisk og logisk struktur struktur • XML-dokumenter har en hierarkisk struktur (tree structure). De skal have en unik rod, og kan have et ubestemt antal blade. Træets rod og blade hedder elementer. Den logisk struktur kan tegnes.  • <book><title> How to think like a Computer Scientist • <subtitle> Learning with Python</subtitle> • </title><author>A. Downey, J. Elkner & Chris Meyer</author> • <preface>.....</preface> • <table_of_contents> <.....></table_of_contents> •       <chapter_1>                    <paragraph_1> text….</paragraph_1>….                • </chapter_1>  • </book> C. Navarretta: Noter om Semantic Web og XML

  18. Elementer: • er de basale enheder i et XML-dokument. • kan have et  indhold eller være tomme. • Elementer med indhold: kan indeholde andre elementer og/eller tekst. Elementerne angives med et opening-tag og  afsluttes med et closing-tag. •       opening-tag :                                   closing-tag: • "<" elementnavn ">"      indhold       "</" elementnavn ">" • For eks. • <titel>  Frøken Smillas fornemmelse for sne  </titel> C. Navarretta: Noter om Semantic Web og XML

  19. Elementer og attributter • Tomme elementer (empty elements ) • "<" elementnavn ">" "</" elementnavn ">" som forkortes: "<" elementnavn "/>"  • <billede/> • Elementer (tomme og med indhold) kan have attributter. • attributnavn = " værdinavn" • <titel  sprog= "dansk">Frøken Smillas fornemmelse for sne </titel> • <billede forsidebillede="forside.jpg" bredde="3cm"/> C. Navarretta: Noter om Semantic Web og XML

  20. XML-navne • et elementnavn skal være et XML-navn: • tilladte tegn: bogstaver, tal, underscore ”_”, apostrof, punktum • tilladte begyndelsestegn : bogstaver, _ • fx • •XML-navne: • bo, BO, bo3, _bo, bo’s, bo_3’s.NaVn, φεαν,طظ  • •ikke XML-navne: .bo, 3bo, bo;3, b o._3 C. Navarretta: Noter om Semantic Web og XML

  21. Velformede XML-dokumenter • Et XML-dokument er velformet  hvis det: • har en hierarkisk træstruktur, d.v.s. har nøjagtigt et rod-element og alle elementer er korrekt indlejret • er skrevet i overensstemmelse med XML-syntaktiske regler, bl.a. begyndelse- og sluttags er velformede, attribut- og elementnavne er XML-navne, attribut-værdierne er skrevet mellem to apostrofer ’ eller mellem anførselstegn ” mm. C. Navarretta: Noter om Semantic Web og XML

  22. Velformede dokumenter -fortsat • Der findes parsere der kontrollerer om et XML-dokument er velformet (browsere kontrollerer også om XML-dokumenter er velformede) • Eksempel på et ikke-velformet dokument (2 fejl): • <bog>Python programmer</bog> • <bog sprog=engelsk>Learning XML</bog> C. Navarretta: Noter om Semantic Web og XML

  23. Tegnsættet • XML-dokumenter er tekster: indhold og opmærkning skrives med tegn. • Små og store bogstaver opfattes som forskellige tegn. • Det mest udbredte standardiserede tegnsæt der inkluderer tegn fra de fleste verdenssprog er Unicode. Til tider bruges der kun en delmængde af Unicode. Standarden for de nordiske sprog er fx ISO-8859-1 (Latin-1), mens ASCII-formatet er begrænset til det nordamerikanske tegnesæt. • Tegnsæt defineres i XML-erklæring, der starter et XML-dokument: • <?xml version="1.0" encoding="ISO-8859-1"?> C. Navarretta: Noter om Semantic Web og XML

  24. Opmærkning • tags • processing instructions • CDATA • entity references • character references • kommentarer • DTD erklæringer C. Navarretta: Noter om Semantic Web og XML

  25. Opmærkning -fortsat • tags: <tal> 3354</tal> • processing instructions: kommando til eksterne programmer: <?xml-stylesheet href="http:://cst.dk/~cna/book.xsl" type="text/xsl"?> • CDATA fri tekst der ikke skal opmærkes: <opmærkning> <![CDATA[kan også indeholde tags <således>, samt &, ', " men disse fortolkes ikke  som XML-opmærkning] ]> </opmærkning> C. Navarretta: Noter om Semantic Web og XML

  26. Entity references • anvendes til at bruge som almindelige tegn de tegn som er reserverede i XML, eller til at erstatte større mængder af tekst med en enkelt reference (en slags makroer). • indledes af tegnet & og afsluttes med et semikolon. • Der er  5 reserverede tegn i XML (< >  & ' ").   • <: &lt; • >: &gt; • &: &amp; • ': &apos; • ": &quot; C. Navarretta: Noter om Semantic Web og XML

  27. Et eksempel • <book>    <title> XML &amp; SGML<\title>    <parts>         &part1; •         &part2;        &part3;        .....    </parts>    .....3 &lt; 10 • </book> C. Navarretta: Noter om Semantic Web og XML

  28. Character referents og kommentarer • Character references tillader at angive tegn som man ikke har på sin tastatur ved at skrive deres position i tegnsæt:&#decimaltal  eller &#xhexadecimaltal • kommentar: indledes med tegnene "<!--" og afsluttes med tegnene "-->" <!-- dette er en kommentar--> en kommentar kan indeholde alle tegn, bortset fra to  efterfølgende bindestreger "--" og "-->" <! -- dette er ikke et XML--kommentar--> C. Navarretta: Noter om Semantic Web og XML

  29. Et eksempel • <?xml version="1.0"?> • <!-- created 18/09/2006 --> • <document >     < title author="Costanza">Example</title>      < contents> • This is a very simple &amp; short XML document • </contents> • </document > C. Navarretta: Noter om Semantic Web og XML

  30. DTD: (Document Type Definition) • bruges til at definere vokabularet for XML-dokumenter (der er andre form for skemaer). • kan være interne elle eksterne • dokumenter der følger et DTD siges at være gyldige i følge DTD’en   C. Navarretta: Noter om Semantic Web og XML

  31. Et eksempel • <?xml encoding="ISO-8859_1"?> • <!ELEMENT fornavn (#PCDATA)> • <!ELEMENT mellemnavn (#PCDATA)> • <!ELEMENT efternavn (#PCDATA)> • <!ELEMENT navn (fornavn, mellemnavn*, efternavn)> • <!ELEMENT afdeling_navn (#PCDATA)> • <!ELEMENT afdeling (afdeling_navn)> • <!ATTLIST afdeling afdeling_nr CDATA #REQUIRED> • <!ELEMENT ansat (navn)> • <!ATTLIST ansat ansæt_id ID #REQUIRED> • <!ELEMENT firma (afdeling+,ansat+)> C. Navarretta: Noter om Semantic Web og XML

  32. Øvelser • øvelser findes på adresse: • http://cst.dk/costanza/course/informasoeg/oev8.doc C. Navarretta: Noter om Semantic Web og XML

More Related