70 likes | 229 Views
Spracovanie textových dát za účelom vyhľadávania alebo extrakcie informácií. Bc. Ľubomír Eľko. (Projekt z predmetu Vyhľadávanie informácií). Zadanie.
E N D
Spracovanie textových dát za účelom vyhľadávania alebo extrakcie informácií Bc. Ľubomír Eľko (Projekt z predmetuVyhľadávanie informácií)
Zadanie Rozšírte resp. prerobte softvérový tímový projekt, na ktorom ste pracovali počas prvých dvoch semestrov na inžinierskom stupni štúdia v rámci predmetu Tímový projekt. Konkrétne zadanie č. I. Vytvorte vlastný analyzér pre nástroj Lucene s podporou slovenského jazyka (odstraňovanie diakritiky & slovenské stopové slová). Úspešnosť otestujte na určených dátach. Konkrétne zadanie č. II. Implementujte indexovanie rôznych typov dokumentov pomocou nástroja ApacheTika.
Motivácia • Vylepšenie tímového projektu: • podpora slovenských textov • rozšírenie možností použitia softvéru pre súčasných zákazníkov • získanie nových zákazníkov zo Slovenska • indexovania ďalších typov súborov • atraktívnejší softvér • konkurencieschopnejší softvér • preniknutie na nové trhy • nový zákazníci
Existujúce riešenia • ApacheLucene • http://lucene.apache.org/ • ApacheTika • http://tika.apache.org/index.html • BDDBot • http://www.twmacinta.com/bddbot/ • Compass SearchEngine • http://www.compass-project.org/ • ZilverlineSearchEngine • http://www.zilverline.org/zilverlineweb/space/home • Tímový projekt • http://labss2.fiit.stuba.sk/TeamProject/2009/team12is-si/zaver.html
Postup riešenia • Zadanie č. I. - Slovak Analyzer • odstránenie diakritiky • ISOLatin1AccentFilter • stopové slová • CzechAnalyzer • integrácia do tímového projektu • Zadanie č. II. - Apache Tika • indexovanie rôznych typov dokumentov • AutoDetectParser • neintegrovanie do tímového projektu, stand-alone aplikácia
Predvedenie • Zadanie č. I. - Slovak Analyzer • vyhľadávanie slov s a bez diakritiky • napr.: ivan, eĽko, univerzita, J2EE, kMEťko, škoLA, FIIT • vyhľadávanie stopových slov • napr.: akoby, pretože, boli, my, medzi • porovnanie aké výsledky boli predtým, aké sú teraz • Zadanie č. II. - Apache Tika • inštalácia, výber dokumentov na zindexovanie, indexovanie • vyhľadávanie • pridanie nových dokumentov, aktualizácia starých, indexovanie • vyhľadávanie • testovanie, porovnávanie • s tímovým projektom • Google Desktop • Príloha - ApacheTika - How To?
Vyhodnotenie • Bc. Ľubomír Eľko