420 likes | 568 Views
RDF datový model. (nejen) pro sémantický web Alena Lukasová. syntaktický web sémantický web. Co to znamená? Přechod od strukturálně propojených datových zdrojů na bázi klíčových slov k jejich propojení na bázi významových asociací . Jak se realizuje?
E N D
RDF datový model (nejen) pro sémantický web Alena Lukasová
syntaktický web sémantický web Co to znamená? Přechod od strukturálně propojených datových zdrojů na bázi klíčových slov k jejich propojení na bázi významových asociací. Jak se realizuje? Potřeba sémanticky strukturovat data na webu obrací pozornost ke konceptuální úrovni návrhů webových znalostních bází a aplikací. Sémantická struktura dat je reprezentována konceptuálním datovým modelem RDF.
Propojení zdrojů podle významů • Prostředek: model RDF (Resource Description Framework) jako základní rámec reprezentace informací na webu. • Realizace: RDF realizuje propojení webových zdrojů na bázi významů dokumentů prostřednictvím speciálních informací (metadat) o těchto datových zdrojích. Metadata = strukturovaná data o datech
Obecný význam RDF modelu • Původní záměr: model základních metadat (název, autor, datum vytvoření apod.) o webových zdrojích s využitím jazyka XML (eXtensible Markup Language), • Nyní: obecná metoda konceptuálního modelování znalostí obsažených v dokumentech webu, bez ohledu na formát jejich syntaxe. RDF je obecný rámec pro výměnu dat, a to nejen těch, která jsou dostupná na webu.
Proč konceptuální model RDF • RDF jako datový model je pro sémantický web základním reprezentačním prostředkem, podobně HTML a syntaktický web. • RDF představuje bázi pro kódování, výměnu a používání strukturovaných metadat. • Metadata neboli strukturovaná data o datech, na nichž je RDF model postaven, zlepšují významně možnost přístupu k informacím.
Dokumenty W3C o RDF modelu • RDF model, který se týká metadat o datových zdrojích, je popsán v dokumentech konsorcia W3C, z nichž první (RDF) se týká syntaxe, druhý (RDFS) se týká adres slovníků (schémat), další pak sémantické stránky modelu. • http://www.w3.org/1999/02/22-rdf-syntax-ns# • http://www.w3.org/XML/Schema • http://www.w3.org/TR/2004/REC-rdf-mt-20040210/
Dva nové principy v konceptuálním modelování RDF Jde o • způsob popisu konceptů, jejich vlastností a vzájemných vztahů v termínech vlastností (atributů) a jejich hodnot a • identifikaci prvků modelu, kterými jsou zde webové zdroje, pomocí uniformních identifikátorů zdrojůURI(Uniform Resource Identifier).
RDF a asociativní sítě Model vychází z myšlenky známé již z asociativních (sémantických) sítí, spočívající v jednoduchých tvrzeních, týkajících se vztahů mezi objekty (zde zdroji), formou vektorů (trojic) „subjekt - predikát – objekt“.
Dvojí syntax RDF jazyka RDF má • abstraktní syntax vycházející z reprezentace jednoduchých tvrzení prostřednictvím RDF trojictextovou formoui grafickou formou, a tomu odpovídající formální, na teorii modelů založenou, sémantiku, • syntax v RDF XML.
má_vlastnost objekt subjekt predikát objekt subjekt Abstraktní syntax modelu RDF Základním jednotkou modelu RDF je graficky reprezentovatelné tvrzení o zdrojích jako vektor (trojice), tj. tvrzení, že "subjekt" "má vlastnost" určenou "objektem".
RDF-trojice a graf RDF-trojice má tři komponenty: • Zdroj subjekt- pojmenovaný uzel, graficky reprezentovaný elipsou, • spojený s jiným zdrojem objektem - pojmenovaným uzlem, graficky reprezentovaným rovněž elipsou, • pomocí hrany - predikátu, který odkazuje též na zdroj. RDF-trojice je uspořádaný graf reprezentující tvrzení subjektmá vlastnostpredikát s hodnotou objekt. RDF-graf je množina RDF-trojic.
Atributový centralismus RDF Vlastnost (atribut) je prostředek vyjádření vlastností a vztahů mezi objekty (zdroji) v rámci modelu RDF. Jádro modelu sestává z konceptů (množin objektů), reprezentovaných jedinečnými identifikátory, a binárních vztahů (tvrzení) vztahujících se k těmto konceptům. Vlastnost je určena: • jménem • významem • možnými hodnotami, kterých nabývá • typy zdrojů, které má popisovat • vztahy k jiným vlastnostem
Identifikace zdrojů Základem koncepce modelu RDF je • způsob popisu zdrojů v termínech vlastností a jejich hodnot a • idea identifikace věcí pomocí uniformních identifikátorů zdrojů URI (Uniform Resource Identifier). Model RDF pracuje uniformně pouze s URI odkazy, které stojí jak na místě subjektu a objektu, tak i na místě predikátu.
Zdroj Zdroj je entita, kterou lze popsat RDF výrazem. Zdrojem může být • Webovská stránka nebo její část • Soubor webových stránek • Element XML ve zdrojovém dokumentu • Objekt,dostupný přímo pomocí webu – kniha, obrázek,…
Jmenné prostory • RDF model poskytuje slovníky jak ve formě čitelné člověkem, tak i strojově zpracovatelné formě. • Model jednoznačně identifikuje vlastnosti s použitím jmenných prostorů jejich slovníků. • Pro stručnější způsob zápisu se používají pro jmenné prostory jejich kvalifikovaná jména (QNames) tvořící prefixy popisovaných prvků trojic. Např. jmenný prostor Dublin Core (dc:), jehož jmenný prostor dc: má URIhttp://purl.org/dc/elements/1.1/
RDFS • Model RDF neposkytuje mechanismus pro deklarování konceptů - tříd, vlastností ani vztahů. • To je úkolem RDF Schema (RDFS). • RDF model tedy má dvě komponenty, z nichž první -RDF se týká syntaxe, druhý -RDFS se týká adres slovníků (schémat), určujících sémantickou stránku modelu.
a) http://www.example.org/index.html http://www.example.org/terms/creation-date August 16, 2006 b) V RDF/XML jazyce: 1. <?xml version=“1.0“?> 2. <rdf:RDF xmlns:rdf=“http://www.w3.org/1999/02/22-rdf-syntax-ns#“3. xmlns:exterms=“ http://www.example.org/terms/“>. 4. <rdf:Description rdf:about=“ http://www.example.org/index.html“>5. <exterms:creation-date>August 16 2006> 6. </rdf:Description> 7. </rdf:RDF> Tvrzení o datu vytvoření webovské stránky, reprezentované a) grafickými prostředky RDF, b) RDF XML kódem • Příklad
urn:ISBN:.. dc:title eg:chapter Handbook on Ont. dc:creator eg:age vcard:email vcard:FN xsd:decimal 21 Brian McBride nospam@hp.com Anonymní zdrojezde „publikace … má nějakou kapitolu…“ • Příklad
totéž v RDF XML • <rdf:description rdf:about=”urn:ISBN:…”> • <dc:Title>Handbook on Ontologies/<dc:Title> • <eg:chapter> • <rdf:Description> • <dc:Creator> • <rdf:Description> • <vcard:FN>Brian McBride/<vcard:FN> • <vcard:email>nospam@hp.com/<vcard:email> • <eg:age rdf:datatype=”&xsd:decimal:”>21</eg:age> • </rdf:Description> • </dc:Creator> • </rdf:Description> • </eg:chapter> • </rdf:description> • Prázdný uzel je reprezentován elementem rdf:Description bez atributu rdf:about.
rdf:bag dokument autor autor X autor Y autor Z RDF kontejnér bag • Příklad kontejnéru bag – dokument má více autorů
rdf:seq dokument část 1. Úvod 2. Základní pojmy 3. Metody RDF kontejnér sekvence Příklad kontejnéru sekvence – zde sekvence odstavců
rdf:alt firma zástupce představitel X představitel Y ..... představitel Z ..... RDF kontejnér alternativa • Příklad kontejnéru alternativa – několik možných zástupců firmy
Mechanismus typování v RDFS RDFS datový model na rozdíl od databázových systémů nemá žádný „vestavěný“ soubor datových typů, pouze poskytuje způsob explicitního určení, jakého typu má literál být. Prostředky, kterými definuje termíny zdrojů, resp. konceptů (tříd) v RDFS jsou • Typování - individuum náleží určité třídě rdfs:Class • Podtřídy - instance jedné třídy je zároveň instancí jiné třídy rdfs:subClassOf
Typový systém tříd a vlastností • RDF Schéma (RDFS) poskytuje pro RDF model typový systém, který dává možnost, aby zdroj byl definován jako instance jedné nebo více tříd (konceptů). Tím umožňuje jejich hierarchické uspořádání. • Jména tříd začínají velkým písmenem, jména vlastností malým. Zdroje jsou v RDFS popisovány pomocí slovníků, které mají vždy prefix rdfs: Třídy (koncepty) jsou popsány s použitím rdfs:Class a rdfs:Ressource, vlastnosti pomocí rdf:type a rdfs:subClassOf.
Příklad - převzato z W3C dokumentu RDF Primer a) Třída motorových vozidel a její podtřídy nákladních, osobních a dalších motorových vozidel popsaná trojicemi, kde prefix ex: zastupuje URI odkaz ( zde URL): http://www.example.org/schemas/vehicles. ex:MotorVehicle rdf:type rdfs:Class . ex:PassengerVehicle rdf:type rdfs:Class . ex:Van rdf:type rdfs:Class . ex:Truck rdf:type rdfs:Class . ex: PassengerVehicle rdf:subClassOf rdfs:MotorVehicle . ex: Van rdf:subClassOf rdfs:MotorVehicle . ex: Truck rdf:subClassOf rdfs:MotorVehicle .
Příklad - převzato z W3C dokumentu RDF Primer b) Zápis v jazyce RDF/XML: <?xml version=“1.0“?> <!DOCTYPE rdf:RDF [<?ENTITY xsd http://www.w3.org/2001/01/XMLSchema#>]> <rdf:RDF xmlns:rdf=“http://www.w3.org/1999/02/22-rdf-syntax-ns#“ xmlns:rdfs=“http://www.w3.org/2000/01/rdf-schema#“ xml:base=“http://www.example.org/schemas/vehicles#> <rdfs:Class rdf:ID=“MotorVehicle“/> <rdfs:Class rdf:ID=“Truck“> <rdfs:subClassOf rdf:ressource=“#Motorvehicle“/> <rdfs:Class> ….
http://www.w3.org/2000/01/rdf-schema#subClassOf* * http://www.example.org/schemas/Vehicles#Van http://www.example.org/schemas/Vehicles#Truck * * http://www.example.org/schemas/Vehicles#MiniVan Příklad - převzato z W3C dokumentu RDF Primer c) RDF grafem http://www.example.org/schemas/vehicles#MotorVehicle
RDF model rozlišuje tři typy konceptu • fundamentální koncepty • koncepty definující schéma (pro definování nových slovníků) • koncepty utilit (užitečné pro některé aplikační domény)
Fundamentální koncepty rdf:Resource rdf:Property Jde o zdroje, které se používají v trojici jako predikáty. rdf:Statement Statement je zdrojem, který reprezentuje trojici.Zhmotnění (reification) trojice deklaruje rdf:subject, rdf:predicate a rdf:object s hodnotami danými příslušnými zdroji.
Koncepty definující schéma • Třídy (koncepty) specifikující zdroje jsou popsány s použitím rdf:type, rdfs:Class a rdfs:subClassOf. • Vlastnosti jsou popsány pomocí rdf:type a rdfs:subPropertyOf. • Jména tříd začínají velkým písmenem, jména vlastností malým. • Vlastnost type indikuje instanci třídy/vlastnosti.
Slovníky • Prostředky RDFS jsou poskytovány ve formě slovníků. Slovníky (schémata), zapsané v RDFS jazyce, mají vždy prefix rdfs: a jsou řádnými RDF grafy. • Třída v RDFS odpovídá generickému pojmu typ nebo kategorie.
Vlastnosti v RDF modelu Vlastnosti tvoří speciální třídu rdf:Property. Vlastnosti jsou omezovány doménou (domain) a oborem hodnot (range). Výraz P rdfs:range C reprezentuje RDF tvrzení, jehož subjektem je P, objektem C a vlastnost je rdfs:range. P je vlastnost, C je třída (koncept). Při použití vlastnosti P musí objekt být prvkem C.
Popis vlastností V RDFS jsou vlastnosti popisovány jako instance třídy rdf:Property a RDFS vlastnostmi rdfs:domain, rdfs:rangerdfs:subPropertyOf. Např. ex:weightInKg rdf:type rdf:Property . ex:Person rdf:type rdfs:Class . ex:author rdf:type rdfs:Property . ex:author rdfs:range ex:Person . ex:Book rdf:type rdfs:Class . ex:author rdf:type rdfs:Property . ex:author rdfs:domain ex:Book .
Sémantika jazyka RDF je (obdobně jako v případě jazyka logiky prvního řádu) definována jako denotační sémantika, založená na přístupu teorie modelů. Předpokládá se, že jazyk je určen k tomu, aby formalizoval tvrzení o modelované doméně (světě). Modelovaný svět určuje tedy zamýšlenou interpretaci formálního jazyka RDF a poskytuje základní fakta o tomto světě. Interpretační pravidla pak poskytují předpis, jak stanovit pravdivostní hodnotu dalších odvozených tvrzení.
Definice interpretace jazyka Jednoduchá interpretace I slovníku V jazyka RDF (RDFS) je dána: • Neprázdnou množinou IR zdrojů, zvanou doménou, resp. universem diskursu interpretace I. • Množinou IP vlastností interpretace I. • Zobrazením IEXT z IP do podmnožiny kartézského součinu IRIR, tj. množinou dvojic x, y, x,y IR. • Zobrazení IS z množiny URI odkazů slovníku V do sjednocení IR IP. • Zobrazení IL z množiny typovaných literálů z V do IR. • Zvláštní podmnožinou LV množiny IR, nazývanou množinou literálních hodnot, která obsahuje všechny prosté literály z V.
Denotáty v RDF V rámci RDF je třeba uvažovat dva typy denotace: • denotáty jmen jsou objekty universa diskursu (zdroje) a • denotáty trojic jsou pravdivostní hodnoty.
Interpretace bázového grafu • Je-li E prostý literál "aaa" z V, potom je I(E) = aaa. • Je-li E prostý literál "aaa"@ttt z V, potom je I(E) = aaa, ttt (@ttt je jazykový ukazatel). • Je-li E typovaný literál z V, potom je I(E) = IL(E). • Je-li E URI odkaz z V, potom I(E) = IS(E). • Je-li E bázová trojice s p o, potom I(E) = true, jestliže s a p je z V, I(p) je z IP a dvojice I(s), I(o) náleží extenzi IEXT(I(p)). Jinak je I(E) = false. • Je-li E bázový graf RDF, potom I(E) = false, jestliže pro některou trojici E´ platí I(E´) = false. Jinak je I(E) = true.
Prázdné uzly jako existenční proměnné Pro množinu prázdných uzlů blank(E) je třeba rozšířit interpretační pravidla následující definicí. Definice Nechť I je interpretace a A je zobrazení z množiny blank(E) prázdných uzlů z E do universa diskursu IR, které přiřazuje každému prázdnému uzlu prvek z IR. Potom platí: • Je-li E prázdný uzel a A(E) je definováno, potom v rozšířené interpretaci [I+A](E) = A(E). • Je-li E RDF graf, potom je I(E) = true, jestliže platí pro nějaké zobrazení A´ z blank(E) do IR [I+A´](E) = true. V opačném případě je I(E) = false.
Logické důsledky RDF grafů Definice Graf E je logickým důsledkem množiny S grafů, právě když pro všechny modely množiny S platí, že graf E je v nich splněn. Podobně jako v logice prvního řádu též platí • každý jednotlivý graf množiny S je jejím logickým důsledkem, • logickým důsledkem grafu s prázdnými uzly je jeho instance a Věta (o kompaktnosti) Je-li konečný graf E logickým důsledkem grafu S, potom je E logickým důsledkem nějakého subgrafu S' grafu S.
Děkuji za pozornost Alena Lukasová