230 likes | 401 Views
Ontológia, používateľský pohľad. Karol Furdík InterSoft,a.s. Karol.Furdik@intersoft.sk. Znalostné modely v IS. Výhody: Oddelenie štruktúry od obsahu, informácie v kontexte, prenositeľnosť, zdieľanie informácií, nezávislosť na spôsobe uloženia údajov, odvodzovanie nových faktov, ...
E N D
Ontológia, používateľský pohľad Karol Furdík InterSoft,a.s. Karol.Furdik@intersoft.sk
Znalostné modely v IS Výhody: • Oddelenie štruktúry od obsahu, informácie v kontexte, prenositeľnosť, zdieľanie informácií, nezávislosť na spôsobe uloženia údajov, odvodzovanie nových faktov, ... Nevýhody: • Zložitosť a náročnosť tvorby znalostných modelov (ZM), konceptualizácie, malá transparentnosť a zrozumiteľnosť pre používateľov. Cieľ: • Pokúsiť sa nájsť spôsoby zjednodušenia tvorby znalostného modelu a konceptualizácie pri čo najväčšom zachovaní výhod. Modelový príklad: • Webovský informačný a publikačný systém.
Znalostný model Zjednodušenia ontologického modelu : • Stromová hierarchická štruktúra • Dva typy konceptov: a) triedy, b) inštancie • Dva typy relácií: • SUBCLASS_OF medzi triedami, • INSTANCE_OF medzi triedou a inštanciou • Koncepty sú ohodnotené menom a zoznamom atribútov • Atribút je údajová štruktúra pozostávajúca z mena, typu a hodnoty, kde: • meno atribútu je ľubovoľný neprázdny reťazec znakov, • typ atribútu je meno triedy existujúcej v doménovom modeli, • hodnota atribútu je meno inštancie existujúcej v doménovom modeli. Zároveň musí platiť, že inštancia sa nachádza v podstrome, ktorého koreňom je trieda určujúca typ atribútu. • Uzol spojený reláciou s rodičovským uzlom dedí všetky atribúty od tohto rodičovského uzla. Dôsledkom je, že poduzol má vždy minimálne tie isté atribúty, ako jeho rodičovský uzol.
Editor doménového modelu Vytvorené v rámci projektu KnowWeb
Používateľské rozhranie (1) Projekt Webocracy, 2003-2005, IST-1999-20364 (Web in Supporting Participation in Democratic Processes). Oblasť eGovernment. Nevyhnutné ďalšie zjednodušenia: • Iba jeden typ konceptov: Trieda • Rozdelenie na dva podstromy: • Vonkajšia vetva ontológie: používateľské rozhranie, štruktúra web stránky, • Vnútorná vetva: znalostná báza systému.
Používateľské rozhranie (2) Vonkajšia vrstva ontológie
Používateľské rozhranie (3) Objekty web stránky Hierarchická štruktúra stránky - vonkajšia vrstva ontológie
Publikačné činnosti • Tvroba a modifikácia štruktúry web stránky, • Publikovanie textov, súborov a dynamických objektov, • Tvorba asociácií, vzájomné prepájanie dokumentov a objektov stránky podľa ich obsahovej blízkosti. • Konceptualizácia • manuálna: náročná, predpokladá dobrú organizáciu doménového modelu. • semi-automatická: jazyková analýza navrhne alternatívy, konečné rozhodnutie vykoná používateľ • automatická: úplné využitie jazykovej analýzy
Požiadavky na systém • Akceptácia reálnych textov. Tolerancia k chybám, preklepom, formátom, atď. • Vhodnosť pre analýzu slovenských textov. Robustná morfologická a slovotvorná analýza, vykonávaná podľa paralelného modelu s využitím synergického efektu. • Flexibilita, adaptabilita, automatizácia. Schopnosť akceptovať neznáme slová a jaz. javy. • Presnosť, adekvátnosť. Zníženie neurčitosti jazyka, eliminácia chýb, vnútorná konzistencia. • Prispôsobiteľnosť. Oddelenie sémant. interpretácie od vnútornej reprezentácie jaz. javov v texte. • Zjednodušenie používateľskej obsluhy. Ponúknutie možností, minimalizácia „ručných“ administrátorských zásahov. Základné princípy: • učiaci sa systém, ktorý modifikuje a optimalizuje svoje vnútorné stavy (údajové a rozhodovacie štruktúry) v procese kontrolovaného učenia, s využitím trénovacej množiny ukážkových príkladov a konzultácií s učiteľom (expertom, administrátorom), • semi-automatické a paralelné riešenie viacznačností pri jazykovej analýze, • modulárnosť a otvorenosť architektúry IR systému.
Morfológia Úlohou modulu je zoskupovať rozpoznané jazykové jednotky do tried (paradigiem) podľa podobnosti ich formálnej reprezentácie Pre triedy podobnosti (kategórie) platí, že: • sú vyjadrením paradigmatických vzťahov jazykových jednotiek, • abstrahujú spoločné formálne vlastnosti jednotiek, ktoré ich tvoria, • zároveň samy majú charakter abstraktných jazykových jednotiek. Abstraktná jazyková jednotka je zároveň triedou (kategóriou), aj atribútom (príznakom, vlastnosťou) pre tie jazykové jednotky, ktoré do nej patria.
Model tvarovej podobnosti (1) Operátory prepisu: 1. operátor doplnenia zľava OL; napríklad reťazec ník je operátorom doplnenia zľava pre jazykové jednotky podvod a podvodník: OL(podvod, podvodník)=ník. 2. operátor doplnenia sprava OP; napríklad reťazec ne je operátorom doplnenia sprava pre jazykové jednotky šťastie a nešťastie: OP(šťastie, nešťastie)=ne. 3. operátor zmeny OZ; napríklad dvojica reťazcov {imista, ímia} je operátorom zmeny pre jazykové jednotky alchimista a alchímia: OZ(alchimista, alchímia)= {imista, ímia}. Operátory sa aplikujú na rozpoznané jednotky, pričom sa ohodnotia pravdepodobnosťou; operátory, ktorých pravdep. hodnota prekročí istý prah, vytvoria tzv. priestor typických reťazcov - štruktúru abstraktných morfologických jednotiek.
Model tvarovej podobnosti (1) • Nech vstupom sú napr. nasledujúce elementárne jazykové jednotky: • {kniha, knihe, knihou, mačka, mačke, mačkou} • Potom aplikáciou metódy podreťazcov dostávame nasledujúce abstraktné morfologické triedy: • {a, e}; {a, ou}; {e, ou}; {knih*}; {mačk*} • Ďalej platí: • {kniha}patrí do tried {a, e}, {a, ou}, a {knih*}, • {knihe}patrí do tried {a, e}, {e, ou}, a {knih*}, • {mačka}patrí do tried {a, e}, {a, ou}, a {mačk*}, • {mačkou}patrí do tried {e, ou}, {a, ou}, a {mačk*}, atď. • Ďalej: • do triedy {knih*} patria jednotky: {kniha}, {knihe}, {knihou}, • do triedy {mačk*} patria jednotky: {mačka}, {mačke}, {mačkou}
Derivatológia Úlohou modulu je identifikovať vzťah povrchovej a vnútornej (sémantickej) stránky lexém. Príklady niektorých slovotvorných transformácií: • Zmena substantíva na adjektívum: legislatívalegislatívny • Stupňovanie prídavných mien: kvalitnýkvalitnejšínajkvalitnejší • Adjektívny zápor: kvalitnýnekvalitný, nekvalitnejší, najnekvalitnejší • Zmena substantíva na sloveso: útokútočiť Príklad slovotvorného hniezda - skupiny sémanticky príbuzných lexém: • opatrovaťopatrovanie • opatrovateľopatrovateľka • opatrovaný opatrujúci • opatriťzaopatriť nezaopatriť,...
Syntaktická analýza Úlohou modulu je hľadať lineárne (syntagmatické) vzťahy v postupnosti jazykových jednotiek. Navrhovaný formalizmus - rozšírené prechodové siete (ATN - Augmented Transition Networks) Príklad fragmentu ATN siete pre nominálnu frázu:
Valencia, vetné vzorce • Teória slovesnej valencie: východiskom je centrálne postavenie slovesa vo vete, pričom toto sloveso viaže na seba zoznam poviných a nepovinných participantov, vetných členov. • Príklad valenčného rámca pre sloveso rozprávať: /NFn/ - VF – NFa/VV – (NFd) – (o NFl) • Príklad vetného vzorca (v tvare ATN siete) pre vetu: • Rád rozpráva príbehy zo života.
Sémantická analýza Úlohou modulu je hľadať sémantické (obsahové, významové) vzťahy v štruktúrach jazykových jednotiek z predchádzajúcich úrovní. • Sémanticky relevantné informácie z iných modulov: • Morfológia, model tvarovej podobnosti: Transformácie, ktoré nemajú morfologický alebo derivatologický charakter, napr. životživočích. Nie je určená kvalita sémantického vzťahu medzi lexémami, konštatuje sa iba fakt vzájomnej (symetrickej) súvislosti. • Derivatológia: Vzťahy vyplývajúce buď z diagnostickej parafrázy, alebo z príslušnosti k onomaziologickej kategórii: • čítať čítanie „to, že (niekto) číta“ • Syntaktická analýza: sémantické roly vetných participantov, vyplývajúce z valenčného rámca slovesa. • napr. čítať: /NFn/ - VF – NFa, t.j. napr.čítať knihu / čítať časopis.
Aplikácie (1) • Projekt KnowWeb ESPRIT No. 29065 (http://knowweb.fei.tuke.sk): • Modelovanie znalostí v organizácii pomocou ontologických štruktúr a inteligentné vyhľadávanie informácií s využitím doménového modelu. • Projekt Webocracy IST-1999-20364 (http://www.webocracy.sk): • Aplikačná oblasť: elektronická verejná správa (eGovernment). • WWW portál na zlepšenie komunikácie občanov s úradmi verejnej správy. • Pilotné aplikácie: • MČ Košice – Dargovských hrdinov (http://www.kosice-dh.sk) • MČ Košice – sídlisko Ťahanovce (http://www.tahanovce.sk/mutah) • úrad mesta Wolverhampton, UK (http://www.wolforum.org) • V novembri 2003 vyhlásený za projekt mesiaca (http://europa.eu.int/information_society/programmes/egov_rd/). • V októbri 2004 na konferencii ITAPA vyhral 1. cenu v kategórii Nové služby (http://www.itapa.sk/index.php?ID=1714&mnu=195).
Aplikácie (2) • ePodateľňa(demo na http://www.intersoft.sk/epodat/): • WWW systém na automatickú adresáciu podaní od občanov. • Zadávateľ: Košický samosprávny kraj. • Webovský publikačný systém: • WWW portál s možnosťou komplexnej správy a administrácie štruktúry a obsahu stránky. Využíva znalostný model na báze ontológie. Integruje viaceré dynamické objekty stránky a poskytuje inteligentné vyhľadávanie informácií vo vzájomnom kontexte. • Aplikačné oblasti: elektronická verejnná správa (eGovernment), školstvo, tretí sektor, komerčný sektor. • Aplikácie (testovacie verzie): • Karpatská nadácia (http://oblik.intersoft.sk/cf/), • Obecný úrad Ľubotice (http://oblik.intersoft.sk /lubotice/), • Súkromné gymnázium Prešov (http://oblik.intersoft.sk/sgpo/), • InterSoft, a.s. (http://oblik.intersoft.sk/isweb/).
Budúce úlohy • Minimalizácia administratívnych zásahov: • objektivizácia doménových modelov pre jednotlivé aplikačné oblasti • automatizácia procesov jazykovej analýzy, následnej tvorby a modifikácie konceptuálneho popisu a úprav doménového modelu • Skvalitnenie procesu jazykovej analýzy: • doplnenie údajových štruktúr (slovníkov) z dostupných zdrojov lingvistických údajov, • prepojenie údajových aj riadiacich štruktúr analýzy s lingvistickým korpusom - zrejme najbohatším zdrojom lingvisticky ohodnotených textov.