60 likes | 267 Views
Hľadanie základného tvaru slovenského slova na základe spoločného konca slov. Stanislav Krajči , Róbert Novotný UPJŠ Košice WIKT , 29. 11. 2006. Východiská. hľadanie (algoritmických) pravidiel? nepredvídateľné výnimky, priveľa agendy s ich ošetrovaním zoznam všetkých tvarov!
E N D
Hľadanie základného tvaru slovenského slova na základe spoločného konca slov Stanislav Krajči, Róbert Novotný UPJŠ Košice WIKT, 29. 11. 2006
Východiská • hľadanie (algoritmických) pravidiel? • nepredvídateľné výnimky, priveľa agendy s ich ošetrovaním • zoznam všetkých tvarov! • SSJ okolo 150.000 slov, SCS okolo60.000 slov • okolo 120.000 podstatných mien, okolo 50.000 slovies, ... spolu do 3 miliónov tvarov • náročné, ale jednorazové uloženie do databázy
Verzie Tvaroslovníka • maximalistická (konečný ideálny stav :-)) • všetky tvary všetkých slovenských slov • obsahový súvis slov (napr. synonymá) • minimalistická (pre projekt NAZOU) • základný tvar slova (zatiaľ pre podstatné mená)
Hľadanie základného tvaru • vstup – slovo (v nejakom tvare) • postup • hľadanie zodpovedajúcich predlôh (v príslušnom tvare) • vytvorenie možných základných tvarov • overenie prítomnosti v zozname slov (SSJ + SCS) • výstup – zoznam základných tvarov
Možný základný tvar • zámerne jednoduchý algoritmus • slovo – X = „ponúk“ • nájdená predloha – Y = „rúk“ • spoločný koniec – K = „úk“ • začiatok predlohy – Y’ = „r“, Y = Y’ + K • začiatok slova – X’ = „pon“, X = X’ + K • základný tvar predlohy – Y = „ruka“ • jeho koniec – K´ = „uka“, Y = Y’ + K’ • základný tvar slova – X = X’ + K’ = „ponuka“
Plány • možnosť ignorovať diakritiku • rozšírenie funkčnosti na slová mimo slovníka (napr. vlastné mená) • rozšírenie na ostatné ohybné slovné druhy (prídavné mená, slovesá) • migrácia do databázovej verzie • dostatočný počet predlôh • ... vetný rozbor • ... obsahová podobnosť slov (synonymá)