170 likes | 367 Views
Štruktúry reprezentácie znalostí v kontexte teórie lexikálnej motivácie. Karol Furdík karol.furdik @tuke.sk. Centrum pre informačné technológie Fakulta elektrotechniky a informatiky Technická univerzita v Košiciach, Letná 9, 042 00 Košice http://www.tuke.sk/fei-cit/. Obsah prezentácie.
E N D
Štruktúry reprezentácie znalostí v kontexte teórie lexikálnej motivácie Karol Furdík karol.furdik@tuke.sk Centrum pre informačné technológie Fakulta elektrotechniky a informatiky Technická univerzita v Košiciach, Letná 9, 042 00 Košice http://www.tuke.sk/fei-cit/
Obsah prezentácie Zdroje, motivácia, cieľ Lexikálna motivácia • Definícia, príklady, typy lexikálnej motivácie • Popis konštituentov tvoriacich význam lexikálnych jednotiek Reprezentácia znalostí • Modely RZ: konceptuálne grafy, sémantické siete, rámce a skripty, ontológie, WordNet, algoritmy na dolovanie znalostí z textov • Príklad prepojenia lexikálnej motivácie a reprezentácie znalostí Závery
Zdroje, motivácia, cieľ J. Furdík: Teória motivácie v lexikálnej zásobe. Ed. M. Ološtiak. Vydavateľstvo LG, Košice, 2008. J. Csontó - T. Sabol: Umelá inteligencia. FEI TU v Košiciach, 1991 Motivácia: skúmať paralely, vzájomné vzťahy a možnosti dopĺňania sa rôznych metód reprezentácie znalostí (a spôsobov modelovania sémantických vzťahov v rámci týchto metód) s teóriou lexikálnej motivácie (t.j. jednotlivých typov lexikálnej motivácie). Cieľ: nájsť spôsoby, ako: - extrahovať, odvodiť význam LJ (na základe formy, slovníkov, pravidiel, ...), - význam LJ reprezentovať (napr. v slovníku; úroveň langue) - využiť reprezentovaný význam a pravidlá pre aplikácie (NLP, parole)
Lexikálna motivácia a) možnosť odpovedať na otázku „Prečo sa X volá tak?“ b) vlastnosť ako sieť vzťahov medzi lexikálnymi jednotkami. Príklad 1: skalisko=veľká skala a) ...lebo slovotvorná prípona -isko resp. diagnostická parafráza: „skala, ktorá je veľká“ b) skalisko= {skala, veľký} resp. skalisko= {skala (synonym (kameň, bralo), mať_vlastnosť (veľký)} c) pravidlo: IF X-isko THEN veľký X Príklad 2: MAPka=? - vozidlo (akéhokoľvek typu) slúžiace na hromadnú osobnú dopravu prevádzkované spoločnosťou, ktorá sa v minulosti volala Mestský autobusový podnik (MAP).
Typy lexikálnej motivácie • Nadstavbové (pragmatické) typy: • expresívna • stratifikačná • terminologická • sociolektická • teritoriálna • temporálna • individualizačná • Kontaktové typy: • akceptačná • abreviačná • Základné typy motivácie: • Elementárna - paradigmatická: • Synonymia • Antonymia • Konverzívnosť • Hyperonymia, hyponymia • ... • Špecifikovaná: • fónická (imitatívna) • sémantická (transpozičná) • morfologická • slovotvorná • syntaktická • frazeologická • onymická
Od lexikálnej motivácie k reprezentácii znalostí Význam LJ: súbor konštituentov a vzťahov medzi nimi. Pr. skalisko= {skala (synonym (kameň, bralo), mať_vlastnosť (veľký)} Vzťahy, relácie: • mať_vlastnosť () • synonym () Pravidlá *: • IF X-isko THEN veľký X * resp. príslušnosť k typu lexikálnej motivácie a podtypom Konštituenty - lexikálne jednotky: • skala • veľký • kameň • bralo Skúmaná lexikálna jednotka: • skalisko
Modely reprezentácie znalostí Schémy, ktoré vyjadrujú sémantické vzťahy medzi abstraktnými objektami (odvodenými od objektov reálneho sveta) a sú formalizovateľné do podoby spracovateľnej počítačom (avšak zároveň zrozumiteľné človeku). Niektoré modely reprezentácie znalostí: • Konceptuálne grafy, existenciálne grafy, sémantické siete • Ontológie • Taxonómie (napr. WordNet, Concept Maps, ...) Algoritmy na získavanie znalostí: • Dolovanie dát (Data Mining); dolovanie dát z textov (Text Mining), úlohy klasifikácie a zhlukovania (clustering)
Konceptuálne grafy Konceptuálny graf - diagram reprezentujúci „skutočný“ význam vety (literal meaning of a sentence). Graf pozostáva z uzlov (pojmov, konceptov) a relácií medzi nimi. Inšpirované syntaxou, pôvodne boli navrhnuté ako formálna reprezentácia syntaktických vzťahov v jazyku (EN) Veta: „John is going to Boston by bus.“ Lineárna forma zápisu grafu: [Go] - (Agnt) [Person: John] (Dest) [City: Boston] (Inst) [Bus] Sowa, J. F.: Conceptual Graphs Summary. In: Conceptual Structures, Current Research and Practice. Ellis Horwood Ltd., UK, 1992.
Sémantické siete Pôvodne navrhnuté ako psychologický model ľudskej asociatívnej pamäti (R. H. Richens, 1956) Pozostávajú z uzlov (všeobecných a konkrétnych pojmov) a hrán (ohodnotených relácií) Schopnosť inferencie, odvodzovania nových faktov: otázka sa definuje ako fragment siete s neznámym uzlom, následne sa porovnáva s pôvodnou sieťou.
Rámce a skripty Rámce - údajové štruktúry typu <atribút, hodnota>, kde nové informácie je možné reprezentovať pomocou pojmov z predchádzajúcich skúseností. Kombinácia deklaratívnych a procedurálnych reprezentácií (skripty)
Ontológie Ontológia - formalizmus na modelovanie kategórií a jednotlivín v určitej doméne. Časti: koncepty (triedy, kategórie), inštancie, atribúty, relácie, funkcie Dedenie, inferencia V súčasnosti populárny spôsob reprezentácie - sémantický web Jazyky: RDF, OWL, WSML Veľa technických informácií, sémantika sa stráca, časté použitie ako objektová databáza
WordNet Lexikálna databáza, model slovnej zásoby. Synset - skupina sémantických ekvivalentov, synoným Sémantické relácie: - hyperonymá / hyponymá (S, V, druh / trieda) - koordinované (spoločné hyperonymum) (S, V) - holonymá / meronymá (S, časť / celok) - anotnymá (S, ) - troponymá (V, vzáj. podmienené aktivity) - podobné k (Adj) - odvodené od (S, Adj) - ... Koncept podobný teórii lexikálnej motivácie, avšak nie taký ucelený. Chýba procedurálna časť.
Dolovanie znalostí z textov Text Mining, spôsob získavania relevantných kvalitatívnych údajov z textov na základe heuristickej (štatistickej) analýzy. Základné typy úloh: • Klasifikácia: rozdelenie textov do vopred určených kategórií; • Zhlukovanie: vytvorenie štruktúry kategórií na základe podobností textov. Metódy strojového učenia, využíva sa predspracovanie textov (členenie slov - parsing, úprava na základný tvar - lematizácia, odstránenie neplnovýznamových slov - stopwords, ...) Pr. Lineárny klasifikátor, metóda Support Vector Machine
Príklad (1) Reklamný slogan: „Kia RIO. Nebudete škodovať.“ Úloha: rozhodnúť, či daná reklama neobsahuje (hanlivý) odkaz na konkurenciu. Riešenie 1: Teória lexikálnej motivácie Dá sa zistiť, že škodovať patrí do paradigmy -ovať (slovotvorná motivácia), kde patria aj stanovať, valcovať, ... T.j. odhalí sa, popri iných, aj možný význam X-ovať = používať X. Diagnostická parafráza: „používať škodu “.Pravidlo: IF X-ovať THEN používať X TLM však (sama osebe) nedokáže zistiť ďalšie skutočnosti, t.j. súvislosti „Škoda = značka / výrobca auta“, „Kia = značka / výrobca auta“.
Príklad (2) Riešenie 2: Sémantická sieť, resp. ontológia Dá sa zistiť, že Kia RIO je značka auta od výrobcu KIA, a tiež že Škoda je názov výrobcu áut. Iba z ontológie však nemožno zistiť súvis medzi Škoda a škodovať. Riešenie 3: Dolovanie z textov Dá sa zistiť, že Škoda súvisí so škodovať (a to kvantitatívne, s istou pravdepodobnosťou). Nedá sa však určiť, akým spôsobom tieto lexikálne jednotky súvisia. Nedá sa tiež určiť súvis „Škoda = značka / výrobca auta“, „Kia = značka / výrobca auta“ (dolovanie z textov nepracuje so sémantickými informáciami). Celkové riešenie: kombinácia TLM a ontológie (resp. inej reprezentácie znalostí), príp. s podporou dolovania z textov.
Závery Príslušnosť k typu lexikálnej motivácie je funkčná (t.j. má funkciu) z hľadiska štruktúry lexikálnej zásoby, resp. determinuje vyjadrenie významu v modeloch reprezentácie znalostí. Typy lexikálnej motivácie sú generatívne, t.j. sú schopné produkovať paradigmatické štruktúry (pomocou pravidiel). Integrácia TLM a RZ: treba „ústretové kroky“ z oboch strán: TLM: nevyhnutnosť precizovať a explicitne vyjadriť pravidlá pre jednotlivé typy a podtypy lexikálnej motivácie; RZ: očistiť schémy od nesystémových technických elementov; funkčným spôsobom reprezentovať pravidlá zodpovedajúce typom lexikálnej motivácie.
Ďakujem Vámza pozornosť. Karol Furdík karol.furdik@tuke.sk PoZnaŤ - Podpora procesov tvorby nových znalostí Web: www.tuke.sk/fei-cit/poznat/