80 likes | 251 Views
Extrakcia športových udalostí z webu. Bc. Adrián Feješ FIIT STU Vyhľadávanie informácií. Opis problému a motivácia. Málo športových aktivít Množstvo informácií o športových udalostiach na webe Nájsť dokumenty obsahujúce informácie Dokumenty obsahujú množstvo nerelevantných informácií
E N D
Extrakcia športových udalostí z webu Bc. Adrián FeješFIIT STU Vyhľadávanie informácií
Opis problému a motivácia • Málo športových aktivít • Množstvo informácií o športových udalostiach na webe • Nájsť dokumenty obsahujúce informácie • Dokumenty obsahujú množstvo nerelevantných informácií • Extrahovanie relevantných informácií (čo, kedy, kde, koľko ...)
Existujúce riešenia • Získanie web stránok (Google Search API, Web crawler, Lucene datastore) • Indexovania a anotácia (Gate plugin-y) • Konverzia na text, tokenizácia, regulárne výrazy • Gazetteer • GATE (General Architecture for Text Engineering)
Opis riešenia • Názov, dátum, čas, miesto, cena, opis • Google Custom Search API (vyhľadávacie stroje) • Konverzia (X)HTML na text • Uchovanie základnej štruktúry vo forme mapy (obsah html elementu -> html tag) • Vytváranie segmentov na základe mapy
Opis riešenia • Tokenizácia, Regulárne výrazy -> vytvorenie kandidátov • Definovanie a hľadanie kľúčových slov v blízkosti kandidátov • Zoradenie segmentov na základe priority • Spracovanie segmentov (najprv s najvyššou prioritou -> obsahuje najviac relevantných údajov)
Práca s aplikáciou • Používateľ zadá kľúčové slovo udalosti • Zobrazia sa údaje, ktoré aplikácia vyhodnotila ako najrelevantnejšie • Otvorenie web stránky a vyhodnotenie relevantnosti • Možnosť alternatívnych riešení podľa segmentov
Vylepšenia • Uchovanie základnej štruktúry stránky (uľahčenie a zefektívnenie ďalšieho spracovania) • Segmentácia a ich priorita • Gazetteer a jednoduchá lematizácia • Možnosť alternatívnych riešení podľa segmentov