480 likes | 652 Views
Formálny model pre dolovanie synsetov a jeho využitie (pohľad informatika). J án GENČI Technická univerzita v Košiciach genci @tuke.sk. Štruktúra prezentácie. Štandardne: Model Aplikácia modelu Výsledky Reálne – cesta, ktorou sme prešli: WordNet + on-line slovníky
E N D
Formálny model pre dolovanie synsetov a jeho využitie (pohľad informatika) Ján GENČI Technická univerzita v Košiciach genci@tuke.sk
Štruktúra prezentácie • Štandardne: • Model • Aplikácia modelu • Výsledky • Reálne – cesta, ktorou sme prešli: • WordNet + on-line slovníky • Využitie on-line slovníkov • Model • Výhliadky do budúcnosti DATAKON'07
WordNet, EuroWordNet • Známe projekty • WordNet definuje významy anglických slov (synsety) a vzťahy medzi slovami • EuroWordNet (EWN) podobný multilinguálny projekt • EWN nezahŕňa slovenčinu DATAKON'07
Pôvodná motivácia • Klasifikačné úlohy vyžadujú redukciu dimenzionality a inteligentné vyhľadávanie • Morfologická databáza, dezambuguácia • Prostriedok podobný WordNet-u • Pôvodný cieľ – aspoň trochu sa priblížiť WordNet-u DATAKON'07
Cesta dosiahnutia cieľa • Využitie on-line slovníkov na mapovanie slovenských významov do synsetov Wordnet-u • Dva prístupy: • Prienik prekladov jednotlivých prvkov angl. synsetov • Prienik prekladov súvisiacich slov DATAKON'07
WordNet DB lokálna DB Architektúra Synset Builder Vstupné slovo Inet online slovníky DATAKON'07
Implementácia • 4 slovenské a 2 české on-line slovníky (slovenské vyzerajú byť z jedného zdroja) • Výsledky závisia od: • Počet členov synsetu (1 - problém) • Súvisiacich slov • Kvality(?) slovníka DATAKON'07
Implementácia - výsledky • Rôzna úroveň výsledkov (viď ďalej) • Zmiešané slovné druhy • Aplikácia je pomalá z dôvodu opakovaného dotazovania on-line slovníkov – ukladáme výsledky do lokálnej databázy pre opätovné použitie DATAKON'07
Výsledky - príklady DATAKON'07
Slovo computer DATAKON'07
Slovo table DATAKON'07
Slovo mother DATAKON'07
Slovo tree DATAKON'07
Multilinguálny pohľad DATAKON'07
Výsledky – zhodnotenie • Výsledky sú rôzne • U niektorých slov veľmi dobré • U iných takmer žiadne • Dôvody (?): Jednak zvolený prístup (algoritmus) Kvalita slovníkov – viď slovenský kontra český slovník Uniformita (SK) slovníkov DATAKON'07
Výsledky – zhodnotenie II • Štatistické zhodnotenie výsledkov – netrúfame si urobiť, je to úloha pre lingvistov DATAKON'07
„Iba“ slovníkový prístup • Pokus o rekonštrukciu synsetov na báze prekladového slovníka • Slovníky obsahujú/špecifikujú významy • Významy môžu vyjadrovať aj pomocou synsetov (ale častejšie aj iným spôsobom) • On-line slovníky zvyčajne nešpecifikujú informáciu o významoch!!! • Preklad „tam a späť“ a prienik výsledkov DATAKON'07
computer DATAKON'07
tree DATAKON'07
jednotka (sk) DATAKON'07
Zhodnotenie výsledkov • Je zrejmé z doterajších pokusov, že výsledky sú nedostatočné • Súvisí to (aj) s kvalitou slovníkov • Rozmýšľame o „zapojení“ väčšieho množstva slovníkov pre formovanie jediného výsledku DATAKON'07
„Formálny“ model DATAKON'07
Zopár „známych“ pojmov • Synonymá - (rovnoznačné slová) • Homomymá - (rovnozvučné slová) • Mnohoznačnosť (polysémia) • Kvalitne slovníky rozlišujú homonymiu a polysémiu. On-line slovníky, zvyčajne, nie! DATAKON'07
Synonymá a homonymá • Synonymá a homonymá sú spravidla prezentované ako absolútne nezávislé • Pri preklade slova (hlavne pomocou on-line slovníkov) to však nemusí byť pravda (V ďalšom zjednodušíme prístup a prestaneme rozlišovať homonymiu a polysémiu – korektné(?)) DATAKON'07
Významový model • Majme slovo W • Slovo W má zvyčajne niekoľko významov (homonymických a/alebo polysémických) • Tieto významy je možné vyjadriť súborom synoným – sysnetom • Niekedy však synset obsahuje len jeden prvok DATAKON'07
Významový model (2) DATAKON'07
Významový model– príklad DATAKON'07
Preklad DATAKON'07
Implementácia modelu v slovníkoch • Klasické slovníky (pre slovo W) • Špecifikujú preklad významu buď synsetom, a/alebo pomocou „prípadov použitia“ • Jednotlivé významy sú očíslované • Hľadanie relevantného významu môže byť komplikovanejšie • On-line slovník • úplný „guláš“ DATAKON'07
Obmedzenia prezentovaného modelu • Prezentovaný model je „ostrý“ • V reálnom živote: • Synsety nešpecifikujú ten istý význam, sú len významovo blízke → subjektívnosť špecifikácie synsetov zostavovateľom hesla • Slovníky uvádzajú redukované synsety, resp. význam špecifikujú prípadmi použitia • Subjektívnosť uvádzania samotných významov DATAKON'07
Význam modelu • Umožnil nám lepšie pochopiť, čo sme robili doteraz • Začíname si lepšie uvedomovať limity doterajších riešení DATAKON'07
Slovníky synoným On-line slovníky WordNet ??? Automatické vyhodnotenie Manuálne spracovanie (oprava) – lingvisti!!! Výhliadky do budúcnosti DATAKON'07
Ďakujem za pozornosť! DATAKON'07