90 likes | 221 Views
Priindexovanie textov liniek k dokumentom. Ondrej Urban. Problém, motivácia. Text linky obsahuje informácie o dokumente Text linky patrí dokumentu, n a ktorý ukazuje Na rovnaký dokument ukazujú viaceré linky Relevancia podobná ako nadpis dokumentu. Existujúce riešenia. Google
E N D
Priindexovanie textov liniek k dokumentom Ondrej Urban
Problém, motivácia • Text linky obsahuje informácie o dokumente • Text linky patrí dokumentu, na ktorý ukazuje • Na rovnaký dokument ukazujú viaceré linky • Relevancia podobná ako nadpis dokumentu
Existujúce riešenia • Google • Samostatný index anchor textov • Hľadanie možné len v anchor textoch • Linky určujú relevanciu dokumentu • Nutch • Pri 1.prechode vytvorí crawlDb a linkDb • Inveruje linky do dokumentov a indexuje
Popis riešenia • Pracuje na 1 prechod dokumentami • Priebežne pridáva anchor texty do dokumentov a indexuje ich • Na záver priindexuje zvyšné linky k dokumentom • Vyhľadávanie vo viacerých poliach dokumentu • Používateľ zadá, v ktorých poliach chce hľadať
Implementácia • Projekt irLessons, • Jazyk Java, knižnica Lucene • Príkazový riadok, argumenty programu • Zaputie/vypnutie indexácie liniek • Nastavenie „boost“ poľa anchor textov • Sťahuje dokumenty z predvolenej url adresy • http://irlesons.sourceforge.net/data/1.html
Testovanie • Testovacie dáta boli použité vzorové z projektu • Otestované dopyty: • FIIT STU • UISAV • Informatiky • Výsledky pri zapnutom/vypnutom indexovaní anchor textov • Výsledky pre „boost“ anchor textov rovný 1.0 a 2.0
Záver • Indexovanie liniek zvyšuje relevanciu dokumentu • Nájde aj text, ktorý sa nenachádza priamo v dokumente • Možné vylepšenia: • Grafické rozhranie • Výber cesty k dokumentom a indexu • Konfiguračný súbor s nastaveniami