130 likes | 282 Views
Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku. Michal Laclavík , Marek Ciglan Ústav In f ormatiky SAV. Obsah. Kto sa zaoberá slovenčinou? Lematizácia a stemming Motiv ácia Lematizácia Stemming Dostupné nástroje pre Slovenčinu
E N D
Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku Michal Laclavík, Marek Ciglan Ústav Informatiky SAV Bratislava, 28-29 november 2006
Obsah • Kto sa zaoberá slovenčinou? • Lematizácia a stemming • Motivácia • Lematizácia • Stemming • Dostupné nástroje pre Slovenčinu • Slovenčina v nástrojoch projektu NAZOU Bratislava, 28-29 november 2006
Kto sa zaoberá slovenčinou? • Slovenský jazykovedný ústav Ľ. Štúra SAV(JULS) • V minulosti -Laboratórium počítačovej lingvistiky na Pedagogickej Fakulte UK - pokračovanie na JULS • korpus slovenského jazyka • špecifický súbor jazykových dát, ktorý sa buduje v elektronickej podobe a spracováva na vedecko-výskumné a učebné ciele • Lingvisti - významy a funkcie slov • V rámci korpusu práca aj na morfológii a lematizácii (R. Garabík ) Bratislava, 28-29 november 2006
Kto sa zaoberá slovenčinou? • Lingvistická dielňa na FEI TU, Košice • Morfológia • tvorba databázy slov slovenského jazyka • UPJŠKošice • indexovací a fulltextový engine ktorý využíva aj dáta zo slovenského slovníka • zapracovanie ďalších zdrojov - slovník cudzích slov • seminár SLOVKO - International Seminar -Computer Treatment of Slavic and East European Languages • ( SLOVKO 2007 - October 25 – 27 2007 ) Bratislava, 28-29 november 2006
Kto sa zaoberá slovenčinou? • Iné • Forma s.r.o. • spell check pre produkty Microsoftu • produkty na fulltextové vyhľadávanie v slovenčine • http://www.zbierka.sk/ • sk-spell • open source spell check (napr. v OpenOffice) • anglicko-slovenský slovník • synonymický slovník Bratislava, 28-29 november 2006
Lematizácia a stemming • Motivácia: • Meniaci sa tvar slova – nevýhodou pri počítačovom spracovaní • Potreba pracovať s rôznymi tvarmi slova ako s jediným tokenom • Lematizácia a stemming - pri indexácii a vyhľadávaní • Redukcia slovníka • Zvyšuje recall (vyhľadávanie identifikuje aj dokumenty s rôznymi tvarmi slov zadaných užívateľom na vstupe) Bratislava, 28-29 november 2006
Lematizácia a stemming • Lematizácia: • základný tvar slova • Napr. lama pre angl. „GO“ zahŕňa aj „go, goes, went, gone, going “ • Realizácia na základe slovníka • WordNet – výkladový slovník angl. jazyka, umožňuje aj lematizáciu • Problém: keď vstupné slovo nie je v slovníku Bratislava, 28-29 november 2006
Lematizácia a stemming • Stemming: • „koreň slova“ • Redukcia morfologických variant slova na spoločný koreň • Stem (koreň) nemusí byť platným prvkom jazyka • slovo: destabilized; stem: stabil • Stemming – realizovaný algoritmicky • Stemmer dodá výstup na každý vstup • Porterov stemovací algoritmus pre anglický jazyk Bratislava, 28-29 november 2006
Lematizácia a stemming • Dostupné nástroje pre Slovenčinu: • Využitie dát z ispll-u • Lematizátor vyvíjaný na JULS SAV (R. Garabík ); dostupná betaverzia • Stemmer: • Základ stemmer-u vhodného pre slovanské jazyky (Leo Galambos) • poľský jazyk– Stempel, Lametyzator • ? Slovenský stemmer Bratislava, 28-29 november 2006
Slovenčina v nástrojoch projektu NAZOU • potreba ekvivalentu Porterovho algoritmu pre slovenčinu – stemmer • Indexovacie nástroje, Ontea, Erid • Potreba využitia synonymického slovníka • nástroj ktorý identifikuje zdroj v slovenskom jazyku(sľubné výsledky – tím z FIIT) Bratislava, 28-29 november 2006
Kódovanie dokumentov v slovenčine • Technický problém: • Rôzne kódovania (win-1250, ISO-8859-2 alebo UTF) • špeciálne HTML značky začínajúce „&#“. • Texty písané bez diakritiky (bežná komunikácia emailom) Bratislava, 28-29 november 2006
Ďakujem za pozornosť Bratislava, 28-29 november 2006