360 likes | 471 Views
Ontologické inženýrství (Část II). Vojtěch Svátek, Miroslav Vacura Fakulta informatiky a statistiky VŠE v Praze. Témata tutoriálu (část I). Úvod Vymezení pojmu ontologického inženýrství „Nová“ historie OI, souvislost se sémantickým webem Filosofické aspekty OI
E N D
Ontologické inženýrství(Část II) Vojtěch Svátek, Miroslav Vacura Fakulta informatiky a statistiky VŠE v Praze
Témata tutoriálu (část I) • Úvod • Vymezení pojmu ontologického inženýrství • „Nová“ historie OI, souvislost se sémantickým webem • Filosofické aspekty OI • Návaznost na filosofickou ontologii • Základní vs. doménové ontologie • Tvorba obsahu doménových ontologií • Životní cyklus a metodiky • Využití základních ontologií • Obsahové návrhové vzory • Práce s textovými podkladovými zdroji
Témata tutoriálu (část II) • Logické pozadí ontologického inženýrství • OWL-DL: struktura jazyka • Odvozování v deskripční logice • Logické „paradoxy“ OWL-DL • Strukturně-logické vzory a konvence • Aplikace OI • Stručný přehled • Demo: anotování multimédií pomocí ontologie • Interaktivní procvičení tvorby ontologie • Návrh ontologie „pořádání konference“ vycházející ze zkušeností s Datakonem
Ontologie a logika • Web Ontology Language (OWL)tři odlišné standardizované podoby: • OWL Full • OWL DLkoresponduje s deskripční logikou SHOIQ, která je teoretickým podkladem pro algoritmizované odvozování v oblasti ontologií • OWL Lite • Připravována nová verze OWL 1.1
Základní odvozovací úlohy v DL • Kontrola konzistence znalostní báze zjišťuje, zda definice každého konceptu připouští náležení alespoň jednoho individua. • Kontrola individuí zjišťuje, zda dané individuum spadá pod daný koncept. • Realizace nalezne nespecifičtější koncept, pod který individuum spadá. • Vyhledání nalezne všechna individua spadající pod zadaný koncept. • Kontrola subsumpce zjišťuje, zdali je jeden zadaný koncept podkonceptem druhého.
Ontologie a logika • Většina odvozovacích systémů je v současnosti založena na tablových (tableau) algoritmech. • Pro OWL ontologie je k dispozici řada funkčních odvozovacích softwarových nástrojů • Pellet • Racer • FaCT++
Vztah třídy a nadtřídy • Každá instance třídy je současně instancí nadtřídy • Zdá se být triviální, ale stále opakovaně nedodržováno! • Často záměna se vztahem celek-část nebo třída-instance • Někdy dobře zamýšleno, ale špatně realizováno na úrovni jmenných konvencí…
Jmenné konvence • Jméno třídy má být samovysvětlující bez kontextu nadtříd/y • Relace je vhodnější označovat slovesy (event. předložkami) než jmény • Jasné odlišení vzájemně inverzních relací • Typografické konvence • Rozlišení tříd, relací, instancí z hlediska použití velkých/malých znaků, oddělovačů apod.
Logické „paradoxy“ jazyka OWL • Plynou zejména z povrchové podobnosti ontologií s databázemi; logická sémantika deskripční logiky se ale často liší! • Předpoklad otevřeného světa • Definiční obor a obor hodnot relace jsou logické axiomy, ne integritní omezení • Datotypové vlastnosti (atributy) jsou relace, mohou nabývat více hodnot • Podtřídy nejsou implicitně disjunktní, a jejich sjednocení nepokrývá nadtřídu • atd.
Příklad „paradoxu“ • Domain(má_náplň) = Pizza • Šlehačkový_dort má_náplň.Šlehačka • tudíž Šlehačkový_dort Pizza
Logické návrhové vzory N-ární relace v sémantickém webu (W3C Best Practice) (RDF,OWL) V jazycích Sémantického webu jsou všechny vlastnosti (properties) binární relace. 1) Jak popsat instance relací, který potřebujeme přiřadit jistotu, sílu atd.? 2) Jak reprezentovat relace mezi více než dvěma individui? 3) Jak popsat řazený seznam individuí?
Příklady Kristýna má s velkou pravděpodobností chřipku. Máme binární relaci mezi Krystýnou a chřipkou, a k tomu kvantitativní hodnotu vyjadřující pravděpodobnost, připsanou této relaci.
Příklady 2) Štefan má vysokou teplotu, ale klesá. Individuum Štefan má dvě charakteristiky pro vlastnost mít teplotu, jeho teplota je jednak vysoká (hodnota), ale také klesá (trend).
Příklady 3) Honza koupil knihu „Multimedia Semantics Handbook“ z books.example.com za $15 jako dárek k narozeninám. Máme zde relaci, které se účastní Honza, kniha „Multimedia Semantics Handbook“ a web books.example.com. Dalšími součástmi jsou pak důvod (dar k narozenám), cena ($15).
Příklady 4) Let UA číslo 3177 navštívil následující letiště: LAX, DFW, and JFK. Máme zde relaci mezi individuálním letem a třemi městy LAX, DFW, JFK. Důležité je pořadí měst.
Problém V jazycích Sémantického webu jsou všechny vlastnosti (properties) binární relace:
Problém My potřebujeme (příklad 1) přidat další hodnotu nebo individuum k této relaci:
Řešení – Vzor 1 Relaci můžeme reprezentovat jako třídu a ne jako vlastnost. Jednotlivé instance takové třídy pak reprezentují instance relace.
Řešení Příklad 1:
Řešení Příklad 2
Řešení Příklad 3:
Řešení – Vzor 2 Příklad 4:
Příklady aplikací založených na ontologiích • Integrace dat • Automaticky generované webové portály (např. Vodafone Live) • Sémantické vyhledávání dokumentů • Analýza přirozeného jazyka • Analýza struktury volného textu (např. využití WordNetu) • Extrakce informací z webových stránek (tzv. extrakční ontologie) • Analýza multimediálních dokumentů
Anotování multimedií • Existující standard: MPEG-7 • Rozsáhlý, nepřehledný • Jednu informaci lze zaznamenat více různými způsoby • Nutnost profilů • Nespecifikovaná sémantika MPEG-7 XML datových struktur • První pokusy o řešení: 1-to-1 překlady MPEG-7 standardu do OWL/RDFS
Anotování multimedií • COMM – ontologie pro anotování multimediálních dat • MPEG-7 compliance – podporuje deskripční nástroje definované standardem MPEG-7 • Modularity – sestává z modulů pro anotace různých typů dat (video, audio) • Extensibility – možnost rozšíření o další moduly, deskripční nástroje • Vzniká v rámci projektu EU K-Space • Viz http://multimedia.semanticweb.org/COMM/
Anotování multimedií • COMM – ontologie pro anotování multimediálních dat • Navržena na základní ontologii DOLCE • Používá řadu návrhových vzorů • Descriptions & Situations (D&S) • Ontology of Information Objects (OIO)
COMM Descriptions & Situations (D&S) (návrhový vzor)
COMM Ontology of Information Objects (OIO) • (návrhový vzor)
Anotování multimedií • COMM – použití v praxi • COMM Java API • M-OntoMat Annotizer 2.0
Praktické procvičení Tvorba ontologie na základě zkušeností s konferencí Datakon