240 likes | 409 Views
Projekty. Odovzdať Software do 1 7 .1 Emailom s popisom ako spustit Zavesiť na web na vyskúšanie Môžem poskytnúť konto na unix kde sa to dá nainštalovať Osobne na UISAV Laclavik 312 alebo Seleng 308 Text 3 strany Čo: Idea Ako: postup, literatura
E N D
Projekty • Odovzdať • Software do 17.1 • Emailom s popisom ako spustit • Zavesiť na web na vyskúšanie • Môžem poskytnúť konto na unix kde sa to dá nainštalovať • Osobne na UISAV Laclavik 312 alebo Seleng 308 • Text 3 strany • Čo: Idea • Ako: postup, literatura • Overenie: porovnanie výsledkov recall, precission • Záver 11.10.2007
Skúška • Prvý termín • 24.1 • Predtermín • Ak bude záujem • Musí byť na poslednej prednáške vypracovaný projekt 11.10.2007
Textové operácie Vyhľadávanie informácií Michal Laclavík 11.10.2007
Architektúra 11.10.2007
Hlavné témy • Konverzia na text • Tokenizácia • Stemming • Detekcia objektov • URL • čísla 11.10.2007
I/0 • Vstup: dokument, text • Výstup: • reťazce – termy • Objekty, linky .... 11.10.2007
Lexikálne analyzátory • Proces rozdelenia textu na základné značky • Lexery • aj v predspracovaní programu pre kompiláciu • Aj v IR • Lexikálna značka • mrož, WORD • 17.3, FLOAT • ; , SEMICOLON • 16.05.1993, DATE • http://google.com/, LINK 11.10.2007
Lexikálne analyzátory (2) • Úprava kódovania • Lowercase • Spracovanie diakritiky • Lexer • http://flex.sourceforge.net/ 11.10.2007
Identifikácia jazyka • štatistických prístupoch • Počet slov so slovníka • využívajúc techniku n-gramov • monte carlo prístup • kombináciu n-gram a markovovských modelov • NALIT z NAZOU projektu 11.10.2007
Stop slová • Slovenčina • a, o, alebo, ale, sú, táto • Angličtina • A, the, and, of • N – najčastejšie sa vyskytujúcich slov 11.10.2007
Základný tvar slov • Zahrnutie rôznych morfologických tvarov slov • fishing, fished, fish, fisher = fish • Lematizácia – základný tvar slova • Stemming – koreň slova 11.10.2007
Lematizácia • Väčšinou na slovníkovom princípe za pomoci morfologického slovníka • Nevýhody • Nedá sa získať tvar pre slová ktoré nie sú v slovníku • „mier“ môže byť morfologickým variantom významovo rozličných slov: „mier“, „miera“ „mieriť“. • WordNet – výkladový slovník, obsahuje aj morfologické vatrianty – angličtina • a-spell, http://www.sk-spell.sk.cx/ 11.10.2007
Stemming • Proces redukcie na koreň slova alebo základný tvar, rovnaký pre všetky morfologické tvary • Problémy, metriky • Pre-stemmovanie • pod-stemmovanie • Angličtina – Porterov algoritmus • Google od 2003 11.10.2007
Stemming algoritmy • Brute force • orezávajúce sufixy • if the word ends in 'ed', remove the 'ed' • if the word ends in 'ing', remove the 'ing' • if the word ends in 'ly', remove the 'ly‚ • POS tagging – slovné druhy a aplikácia pravidiel • stochastické algoritmy vytvárajúce pravdepodobnostný model na základe známych relácií medzi koreňmi a morfologickými tvarmi slov. • Zložitosť záleží od jazyka • Angličtina jednoduchšie ale má slová ako run, ran • E.g. slovenčina zložité 11.10.2007
Lematizácia v Slovenčine • Ešte rok dozadu google nepodporoval lematizáciu slovenčiny ani na slovníkovom princípe • koreň slova „rada“ koreň je „rad“ pričom tento koreň zahŕňa pri uvažovaní bez diakritiky nasledovné slová: rada – podstatné meno, orgán; rád – podstatné meno, vyznamenanie; rád – sloveso; rad - podstatné meno, zoradenie; rada – podstatné meno, ponaučenie. 11.10.2007
Problém diakritiky • Rôzne kódovania • win-1250, ISO-8859-2 alebo UTF-8 • HTML značky začínajúce „&#“. • Emaily – často bez diakritiky • Forma s.r.o. • Tvorí jazykové knižnice pre Microsoft • Spellcheck atd. • www.zbierka.sk 11.10.2007
Stemming slovenčina • Korpus.juls.savba.sk • Slovenský národný korpus (SNK) je elektronická databáza slovenského jazyka zahŕňajúca široké spektrum jazykových štýlov, žánrov a vecných oblastí, obsahujúca prídavné jazykovedné informácie a výkonný vyhľadávací systém. • Ručne naplnené dáta o niektorých slovných druhoch a tvaroch 11.10.2007
JULS lematizer • Slovníkový princíp • Koncovky slov • Levensteinové operácie • Beta verzia lematizátora • Cieľ iný ak v IR 11.10.2007
Tvaroslovník • UPJŠ • Najdlhší koniec slov • Slovník slovenského jazyka – oskenovaný • Keď sa vypne overovanie v slovníku môže slúžiť aj ako stemmer • Projekt (1) 11.10.2007
Prečo treba algoritmické stemmer • „Štefan Luby“ a „Štefanovi Lubymu“ • Rôzne výsledky • Slová ktoré nie sú v slovníku • Názvy miest a obcí, priezviská a mená • Stempel - poľština • Kombinácia slovníka, kvôli štatistike • Leo Galamboš algoritmus • Projekt (8) 11.10.2007
Levensteinové operácie • Vloženie • Vymazanie • Nahradenie • Ucho, uši • Pes, psík • Použitie v Lematizácii ale aj podobnosť slov, spellcheck • Podobnosť podľa kosínusovej vzdialenosti • Prípadne úprava odporučenie query pri preklepoch • SimMetrics 11.10.2007
Part of Speach Tagging • POS sa využíva pri spracovaní textu • Identifikácia objektov • Lematizácia • Identifikácia termov zložených s viac slov • Ďalšie aplikácie • V slovenčine neexistuje • Angličtina QTag library 11.10.2007
Spracovanie odkazov • < href=http://nieco/stranka/>Text odkazu</a> • Text odkazu sa prida k dokumentu linky 11.10.2007
Spracovanie URL • Tokenizácia cez _ alebo NazovDokumentu • Tiez / • Osobitne domena 11.10.2007