1 / 12

Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku

Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku. Michal Laclavík , Marek Ciglan Ústav In f ormatiky SAV. Obsah. Kto sa zaoberá slovenčinou? Lematizácia a stemming Motiv ácia Lematizácia Stemming Dostupné nástroje pre Slovenčinu

mariel
Download Presentation

Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku Michal Laclavík, Marek Ciglan Ústav Informatiky SAV Bratislava, 28-29 november 2006

  2. Obsah • Kto sa zaoberá slovenčinou? • Lematizácia a stemming • Motivácia • Lematizácia • Stemming • Dostupné nástroje pre Slovenčinu • Slovenčina v nástrojoch projektu NAZOU Bratislava, 28-29 november 2006

  3. Kto sa zaoberá slovenčinou? • Slovenský jazykovedný ústav Ľ. Štúra SAV(JULS) • V minulosti -Laboratórium počítačovej lingvistiky na Pedagogickej Fakulte UK - pokračovanie na JULS • korpus slovenského jazyka • špecifický súbor jazykových dát, ktorý sa buduje v elektronickej podobe a spracováva na vedecko-výskumné a učebné ciele • Lingvisti - významy a funkcie slov • V rámci korpusu práca aj na morfológii a lematizácii (R. Garabík ) Bratislava, 28-29 november 2006

  4. Kto sa zaoberá slovenčinou? • Lingvistická dielňa na FEI TU, Košice • Morfológia • tvorba databázy slov slovenského jazyka • UPJŠKošice • indexovací a fulltextový engine ktorý využíva aj dáta zo slovenského slovníka • zapracovanie ďalších zdrojov - slovník cudzích slov • seminár SLOVKO - International Seminar -Computer Treatment of Slavic and East European Languages • ( SLOVKO 2007 - October 25 – 27 2007 ) Bratislava, 28-29 november 2006

  5. Kto sa zaoberá slovenčinou? • Iné • Forma s.r.o. • spell check pre produkty Microsoftu • produkty na fulltextové vyhľadávanie v slovenčine • http://www.zbierka.sk/ • sk-spell • open source spell check (napr. v OpenOffice) • anglicko-slovenský slovník • synonymický slovník Bratislava, 28-29 november 2006

  6. Lematizácia a stemming • Motivácia: • Meniaci sa tvar slova – nevýhodou pri počítačovom spracovaní • Potreba pracovať s rôznymi tvarmi slova ako s jediným tokenom • Lematizácia a stemming - pri indexácii a vyhľadávaní • Redukcia slovníka • Zvyšuje recall (vyhľadávanie identifikuje aj dokumenty s rôznymi tvarmi slov zadaných užívateľom na vstupe) Bratislava, 28-29 november 2006

  7. Lematizácia a stemming • Lematizácia: • základný tvar slova • Napr. lama pre angl. „GO“ zahŕňa aj „go, goes, went, gone, going “ • Realizácia na základe slovníka • WordNet – výkladový slovník angl. jazyka, umožňuje aj lematizáciu • Problém: keď vstupné slovo nie je v slovníku Bratislava, 28-29 november 2006

  8. Lematizácia a stemming • Stemming: • „koreň slova“ • Redukcia morfologických variant slova na spoločný koreň • Stem (koreň) nemusí byť platným prvkom jazyka • slovo: destabilized; stem: stabil • Stemming – realizovaný algoritmicky • Stemmer dodá výstup na každý vstup • Porterov stemovací algoritmus pre anglický jazyk Bratislava, 28-29 november 2006

  9. Lematizácia a stemming • Dostupné nástroje pre Slovenčinu: • Využitie dát z ispll-u • Lematizátor vyvíjaný na JULS SAV (R. Garabík ); dostupná betaverzia • Stemmer: • Základ stemmer-u vhodného pre slovanské jazyky (Leo Galambos) • poľský jazyk– Stempel, Lametyzator • ? Slovenský stemmer Bratislava, 28-29 november 2006

  10. Slovenčina v nástrojoch projektu NAZOU • potreba ekvivalentu Porterovho algoritmu pre slovenčinu – stemmer • Indexovacie nástroje, Ontea, Erid • Potreba využitia synonymického slovníka • nástroj ktorý identifikuje zdroj v slovenskom jazyku(sľubné výsledky – tím z FIIT) Bratislava, 28-29 november 2006

  11. Kódovanie dokumentov v slovenčine • Technický problém: • Rôzne kódovania (win-1250, ISO-8859-2 alebo UTF) • špeciálne HTML značky začínajúce „&#“. • Texty písané bez diakritiky (bežná komunikácia emailom) Bratislava, 28-29 november 2006

  12. Ďakujem za pozornosť Bratislava, 28-29 november 2006

More Related