200 likes | 308 Views
Fast and Effective Query Refinement. B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997. Kernpunten onderzoeksartikel. Vergelijken van 2 methoden om nieuwe querytermen te suggereren: lokale analyse globale analyse Presenteren van 2 maten om de suggesties te beoordelen:
E N D
Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997
Kernpunten onderzoeksartikel • Vergelijken van 2 methoden om nieuwe querytermen te suggereren: • lokale analyse • globale analyse • Presenteren van 2 maten om de suggesties te beoordelen: • concept recall • verbetering precisie
Onderzoek naar query modificatie: Eerder: • Automatische uitbreiding query • op basis van thesaurus (globaal) • op basis van analyse resultaatset (lokaal) • Relevance feedback Dit onderzoek: • Half-automatisch: term suggesties • Meer gericht op precisie dan op recall
Lokale analyse (DM algoritme) • Bepaal de set documenten die aan de query voldoen • Neem de top 100 documenten • Bepaal het vocabulair en ken de termen een gewicht toe (som van de tf.idf waarden) • Presenteer de top 100 van deze termen als suggestie
De globale benadering (RMAP) • Voor elke term in de documentset wordt (alsof het een query is) via het DM algoritme een set van 100 term suggesties gemaakt. • Bij een echte query van meerdere woorden worden de sets opgehaald en samen- gevoegd (gewichten opgeteld indien woord vaker voorkomt) • De top 100 van de termen wordt gepresenteerd
Discussie: • Zie je voor- en nadelen in de methoden? • Bij welke methode verwacht je de hoogste precisie?
Experimenteren • TREC/TIPSTER testcollectie • De korte topicaanduiding van een vraag gebruikt, om eenvoudige query te benaderen (websearch) • De door mensen toegevoegde "concepts" gebruikt om de gesuggereerde termen te evalueren (concept recall)
De waarde van de concepten nader bekeken • Controle: verbeteren de concepten de precisie eigenlijk? • Elk concept om de beurt toegevoegd aan de oorspronkelijke query • Steeds naar top 100 van documenten gekeken. Wat is het verschil in precisie? • Meer dan de helft blijkt in feite de precisie te verminderen.
Wat is baseline en wat is maximaal mogelijk? • Ter vergelijking zijn er twee controle algoritmes gemaakt: • Random: voor elke query 100 random termen gecheckt: gemiddeld geen effect. • Oracle: uit de werkelijk relevante documenten de 100 termen gezocht die meest positieve invloed op precisie hebben: de meeste hebben maar een klein positief effect.
Over "foute" suggesties • De oorspronkelijke query (topic) is kort en heel globaal, de beschrijving daarna specificeert in een bepaalde richting. • Veel gesuggereerde termen zijn wel gerelateerd aan het topic maar specificeren in een andere richting, dus verminderen precisie voor de beschreven vraag • Voor de gebruiker zijn die termen dus ook nuttig, om ZIJN vraag te specificeren
NB: hierbij zijn alleen de termen met positief effect meegeteld!
Conclusies en vervolg • RMAP is veel sneller dan DM en in resultaten redelijk vergelijkbaar, dus aantrekkelijk als processing time punt is • Verdere studie nodig over aantallen te gebruiken documenten (DM), aantal te bewaren suggesties (RMAP) • Onderzoek naar andere wegingen van termen, o.a. meewegen proximity