250 likes | 351 Views
Szemantikus Web. Nyitrai Erika ELTE IK Algoritmusok és Alkalmazásaik Tsz. tanársegéd. Keresések. Internetes keresők Kulcsszavakra keresünk Szinonimák nem használhatók Nem tudunk több nyelven, nyelvjárásban keresni Nem tudjuk bináris adatok – pl. képek – tartalma alapján végezni a keresést
E N D
Szemantikus Web Nyitrai Erika ELTE IK Algoritmusok és Alkalmazásaik Tsz. tanársegéd
Keresések • Internetes keresők • Kulcsszavakra keresünk • Szinonimák nem használhatók • Nem tudunk több nyelven, nyelvjárásban keresni • Nem tudjuk bináris adatok – pl. képek – tartalma alapján végezni a keresést • Baj: a számítógépek alapvetően buták • Cél: a gépeket gondolkodni képes alkalmazásokkal felszerelni
Mire van szükség • Két különböző irány • Metaadatok • Kategóriák, jellemzők adása egy-egy nem feltétlenül weben elérhető objektumhozkép, weblap, videó, bögre, stb. • Háttértudás • A kategóriák közötti összefüggések reprezentációjára van szükség • Segítségével végrehajthatók azok a gondolatmenetek, amelyekkel a mindennapokban következtetéseket vonunk le • Pl.: akik a barátaim, azok az ismerőseim is; egy nő akinek van fia, anya; stb.
Metaadatok • A metaadatok nem új dolgok, számos helyen sok éve használatban vannak • Példák • HTML meta tagek különböző információk eltárolására weblapok fejlécében • Fotók, videó állományok fejléce, amely tartalmaz adatokat a kép készülésének körülményeiről és egyéb jellemzőiről • milyen beállításokat használtunk • mennyi volt a rendszeridő • A keresőrobotok értékelik ezeket az információkat, felhasználják a további keresésekkor
Metaadatok – jó lenne, ha... • … a metaadatok egységes formában lennének hozzárendelve minden dologhoz • … azok az alkalmazások, amelyek sok információt szolgáltatnak – tipikusan on-line adatbázisok - információkat szolgáltatnának magukról • … egy-egy tartalomhoz automatikusan hozzárendelhetőek lennének metaadatok • … ismert lenne a metaadatok egymáshoz való viszonya
Egy lehetséges módszer: RDF • Resource Description Framework • Kiindulópontok: URI-k • Minden egyes objektumot, amiről állításokat szeretnénk megfogalmazni ellátunk egy egyedi URI-val • Pl.: a bögrém URI-ja lehet ez: http://aaa.bbb.hu/#bogre • Az azonosítóval rendelkező objektumokról állításokat fogalmazunk meg • Pl.: a http://aaa.bbb.hu/#bogre színe piros
RDF állítások • Az állítások háromféle elemtípusból épülnek fel • Erőforrás (resource) • Pl.: a már emlegetett bögre • Tulajdonság (property) • Pl.: színe, születési ideje, stb. • Literál (literal) • Pl.: piros, 23, stb.
RDF állítások • Logikai értelemben minden állítás három részből áll • Alany (subject) • Bármi aminek van URI-ja, tehát erőforrás • Állítmány (predicate) • Egy tulajdonság • Tárgy (object) • Lehet erőforrás, vagy literál is • Példák: • Éva apja Gábor. • Kati életkora 18.
RDF állítások lehetséges reprezentációi • Ági születési éve 2005. • Rendezett hármasként • {[http://valahol.hu/szemelyek#Agi], szul_ev, 2005} • Gráfszerűen (irányítottként) • XML leírással (szabványos RDF-ként)
RDF séma a háttértudás leírására • A meglévő elemeinkről tudunk jellemzéseket leírni osztályok kialakításával • Ez nem tulajdonságok meghatározásával zajlik, hanem osztályok elemeinek felsorolásával • Elemek osztályozása • Pl.: a kutya az emlősök osztályába tartozik • Tulajdonságok egymáshoz való viszonyának megadása • Pl.: a testvér egyben rokon is • Tulajdonságok értékkészletének megadása • Pl.: a születési év csak egész szám lehet
RDF adatok lekérdezése • Többféle csoportba sorolhatók • XML alapú lekérdező nyelvek • Adatbázis alapú lekérdező nyelvek • Gráf illesztéssel dolgozó lekérdező nyelvek
XML alapú lekérdezőnyelvek • Bár az RDF adatok reprezentálhatók XML alakban, a hagyományos XML lekérdezők használata nem célravezető • Illesztési probléma léphet fel • Az adatforrás XML alakban egy faszerkezetként fogható fel • Az RDF struktúra irányított gráf
Adatbázis alapú lekérdezők • Szükségünk van a teljes tudásbázis szerkezetének ismeretére • Ha mindent tudunk a tárolt adatokról, akkor hasznos eszköz • Hiányos háttérismeretek esetében nehézségeket okozhat • Nyílt világot kell kezelni egy zárt világokhoz alkalmas eszközzel
Gráfszerű lekérdezések • A teljes információhalmaz egy komplex gráfként fogható fel • A kérdést egy üres csúcsokat is tartalmazó részgráfként fogalmazzuk meg • Eredményként a tudásbázis egy vagy több megfelelő részgráfját, RDF hármasokat kapunk vissza
Lekérdező nyelvek • RDQL • SQL szerű nyelv • Problémája, hogy sem a kérdések sem a válaszok nem RDF formátumúak • RDFLan • Logikai kifejezésként dolgozik a kérdésekkel • SPARQL • Gráfminták illesztésével keres megoldásokat • A kérdések is az eredmények is megjeleníthetők RDF alakban kérdések sorozata is feltehető
Lekérdezések végrehajtása • A tárolt ismereteken kívül lehetséges következtetett ismeretekkel is dolgozni • A felhasználó számára nem kell elkülönülnie a tárolt és a következtetett ismereteknek • A háttértudás leírása RDFS segítségével nem mindig lehetséges
RDFS hiányosságai • Nem lehet az osztályokkal további műveleteket végrehajtani • Metszet, unió • Pl.: mindenki anya, aki nő és szülő • Nem lehet alternatív értékkészletet megadni • Pl.: méretek megadásakor • Lábméret 18-46-ig • Melegítőfelsők mérete S-XXXXXL-ig • További eszközökre van szükség
Ontológiák • Az RDFS korlátozott lehetőségeit próbálja kitágítani • Alkalmat biztosít arra, hogy különböző tudásbázisok elemeit összekapcsoljuk • Osztályok példányait, azok jellemzőit írja le • Megadhatók halmazműveletek és bonyolultabb megszorítások is • Webes ontológiák készítéséhez létezik szabvány, az OWL • Feldolgozásához az elsőrendű logika eszközei használhatók
Logikák használata - példa • Terminológiai állítások = háttértudás • Az apa olyan ember, aki férfi és szülő • A szülő ember és van gyereke • Adatok = metainformációk • Ember(Géza) Férfi(Géza) Gyereke(Géza,Miklós) • Következtetés • Ember(Géza) és Gyereke(Géza,Miklós) Szülő(Géza) • Ember(Géza) és Férfi(Géza) és Szülő(Géza) Apa(Géza) • Ugyanezt a következtetést más kiinduló adatokból is le kellene tudni vonni!
Alkalmazások – Dublin Core • 1995-ben kezdődött el a kialakítása Dublinban • Nagyon kevés alapelemből épül fel • Használata elektronikus dokumentumok egységes kezelését teszi lehetővé • Bármilyen dokumentumról készíthetünk leírást a segítségével • Pl.: Magyar Elektronikus Könyvtár on-line Dublin Core leírást segítő oldala • változatos formátumok • http://mek.oszk.hu/dc
Wordnet • Szótár, de szavak közti kapcsolatokat is megfogalmaz • Többféle jelentést kaphatunk • Minden szóhoz rendel URI-t, így elősegíti alkalmazások fejlesztését • Ezeken az URI-kon a szavak egy leírását találjuk RDF alakban
Automatikus adatkinyerés weblapokból • A W3C oldalán elérhető egy alkalmazás, amely képes weblapokról RDF leírást készíteni • Az alkalmazás a szöveget elemzi a szerkezete alapján • META tagek, cím, címsorok, listák, stb. • Az elemzés után a kapott leírást csatolhatjuk a dokumentumhoz
Összefoglalva • A szemantikus web elképzelés a gépeket az emberéhez hasonló gondolkozási képességekkel szeretné felruházni • Az adatok, ismeretek leírásához humán részvételre van szükség • Léteznek automatizmusok, amelyek képesek „bután” kinyerni az információkat különböző forrásokból • Az információkból a háttértudást felhasználva matematikai eszközökkel következtethetünk
Köszönöm a figyelmet! • erika221@elte.hu