1 / 48

Formálny model pre dolovanie synsetov a jeho využitie (pohľad informatika)

Formálny model pre dolovanie synsetov a jeho využitie (pohľad informatika). J án GENČI Technická univerzita v Košiciach genci @tuke.sk. Štruktúra prezentácie. Štandardne: Model Aplikácia modelu Výsledky Reálne – cesta, ktorou sme prešli: WordNet + on-line slovníky

felton
Download Presentation

Formálny model pre dolovanie synsetov a jeho využitie (pohľad informatika)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Formálny model pre dolovanie synsetov a jeho využitie (pohľad informatika) Ján GENČI Technická univerzita v Košiciach genci@tuke.sk

  2. Štruktúra prezentácie • Štandardne: • Model • Aplikácia modelu • Výsledky • Reálne – cesta, ktorou sme prešli: • WordNet + on-line slovníky • Využitie on-line slovníkov • Model • Výhliadky do budúcnosti DATAKON'07

  3. WordNet, EuroWordNet • Známe projekty • WordNet definuje významy anglických slov (synsety) a vzťahy medzi slovami • EuroWordNet (EWN) podobný multilinguálny projekt • EWN nezahŕňa slovenčinu DATAKON'07

  4. Pôvodná motivácia • Klasifikačné úlohy vyžadujú redukciu dimenzionality a inteligentné vyhľadávanie  • Morfologická databáza, dezambuguácia • Prostriedok podobný WordNet-u • Pôvodný cieľ – aspoň trochu sa priblížiť WordNet-u DATAKON'07

  5. Cesta dosiahnutia cieľa • Využitie on-line slovníkov na mapovanie slovenských významov do synsetov Wordnet-u • Dva prístupy: • Prienik prekladov jednotlivých prvkov angl. synsetov • Prienik prekladov súvisiacich slov DATAKON'07

  6. WordNet DB lokálna DB Architektúra Synset Builder Vstupné slovo Inet online slovníky DATAKON'07

  7. Implementácia • 4 slovenské a 2 české on-line slovníky (slovenské vyzerajú byť z jedného zdroja) • Výsledky závisia od: • Počet členov synsetu (1 - problém) • Súvisiacich slov • Kvality(?) slovníka DATAKON'07

  8. Implementácia - výsledky • Rôzna úroveň výsledkov (viď ďalej) • Zmiešané slovné druhy • Aplikácia je pomalá z dôvodu opakovaného dotazovania on-line slovníkov – ukladáme výsledky do lokálnej databázy pre opätovné použitie DATAKON'07

  9. Výsledky - príklady DATAKON'07

  10. Slovo computer DATAKON'07

  11. DATAKON'07

  12. Slovo table DATAKON'07

  13. DATAKON'07

  14. DATAKON'07

  15. Slovo mother DATAKON'07

  16. DATAKON'07

  17. DATAKON'07

  18. Slovo tree DATAKON'07

  19. DATAKON'07

  20. DATAKON'07

  21. Multilinguálny pohľad DATAKON'07

  22. DATAKON'07

  23. Výsledky – zhodnotenie • Výsledky sú rôzne • U niektorých slov veľmi dobré • U iných takmer žiadne • Dôvody (?): Jednak zvolený prístup (algoritmus) Kvalita slovníkov – viď slovenský kontra český slovník Uniformita (SK) slovníkov DATAKON'07

  24. Výsledky – zhodnotenie II • Štatistické zhodnotenie výsledkov – netrúfame si urobiť, je to úloha pre lingvistov DATAKON'07

  25. „Iba“ slovníkový prístup • Pokus o rekonštrukciu synsetov na báze prekladového slovníka • Slovníky obsahujú/špecifikujú významy • Významy môžu vyjadrovať aj pomocou synsetov (ale častejšie aj iným spôsobom) • On-line slovníky zvyčajne nešpecifikujú informáciu o významoch!!! • Preklad „tam a späť“ a prienik výsledkov DATAKON'07

  26. DATAKON'07

  27. DATAKON'07

  28. DATAKON'07

  29. DATAKON'07

  30. computer DATAKON'07

  31. DATAKON'07

  32. tree DATAKON'07

  33. DATAKON'07

  34. jednotka (sk) DATAKON'07

  35. DATAKON'07

  36. Zhodnotenie výsledkov • Je zrejmé z doterajších pokusov, že výsledky sú nedostatočné • Súvisí to (aj) s kvalitou slovníkov • Rozmýšľame o „zapojení“ väčšieho množstva slovníkov pre formovanie jediného výsledku DATAKON'07

  37. „Formálny“ model DATAKON'07

  38. Zopár „známych“ pojmov • Synonymá - (rovnoznačné slová) • Homomymá - (rovnozvučné slová) • Mnohoznačnosť (polysémia) • Kvalitne slovníky rozlišujú homonymiu a polysémiu. On-line slovníky, zvyčajne, nie! DATAKON'07

  39. Synonymá a homonymá • Synonymá a homonymá sú spravidla prezentované ako absolútne nezávislé • Pri preklade slova (hlavne pomocou on-line slovníkov) to však nemusí byť pravda (V ďalšom zjednodušíme prístup a prestaneme rozlišovať homonymiu a polysémiu – korektné(?)) DATAKON'07

  40. Významový model • Majme slovo W • Slovo W má zvyčajne niekoľko významov (homonymických a/alebo polysémických) • Tieto významy je možné vyjadriť súborom synoným – sysnetom • Niekedy však synset obsahuje len jeden prvok DATAKON'07

  41. Významový model (2) DATAKON'07

  42. Významový model– príklad DATAKON'07

  43. Preklad DATAKON'07

  44. Implementácia modelu v slovníkoch • Klasické slovníky (pre slovo W) • Špecifikujú preklad významu buď synsetom, a/alebo pomocou „prípadov použitia“ • Jednotlivé významy sú očíslované • Hľadanie relevantného významu môže byť komplikovanejšie • On-line slovník • úplný „guláš“ DATAKON'07

  45. Obmedzenia prezentovaného modelu • Prezentovaný model je „ostrý“ • V reálnom živote: • Synsety nešpecifikujú ten istý význam, sú len významovo blízke → subjektívnosť špecifikácie synsetov zostavovateľom hesla • Slovníky uvádzajú redukované synsety, resp. význam špecifikujú prípadmi použitia • Subjektívnosť uvádzania samotných významov DATAKON'07

  46. Význam modelu • Umožnil nám lepšie pochopiť, čo sme robili doteraz • Začíname si lepšie uvedomovať limity doterajších riešení DATAKON'07

  47. Slovníky synoným On-line slovníky WordNet ??? Automatické vyhodnotenie Manuálne spracovanie (oprava) – lingvisti!!! Výhliadky do budúcnosti DATAKON'07

  48. Ďakujem za pozornosť! DATAKON'07

More Related