1 / 20

Fast and Effective Query Refinement

Fast and Effective Query Refinement. B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997. Kernpunten onderzoeksartikel. Vergelijken van 2 methoden om nieuwe querytermen te suggereren: lokale analyse globale analyse Presenteren van 2 maten om de suggesties te beoordelen:

ash
Download Presentation

Fast and Effective Query Refinement

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997

  2. Kernpunten onderzoeksartikel • Vergelijken van 2 methoden om nieuwe querytermen te suggereren: • lokale analyse • globale analyse • Presenteren van 2 maten om de suggesties te beoordelen: • concept recall • verbetering precisie

  3. Onderzoek naar query modificatie: Eerder: • Automatische uitbreiding query • op basis van thesaurus (globaal) • op basis van analyse resultaatset (lokaal) • Relevance feedback Dit onderzoek: • Half-automatisch: term suggesties • Meer gericht op precisie dan op recall

  4. Lokale analyse (DM algoritme) • Bepaal de set documenten die aan de query voldoen • Neem de top 100 documenten • Bepaal het vocabulair en ken de termen een gewicht toe (som van de tf.idf waarden) • Presenteer de top 100 van deze termen als suggestie

  5. De globale benadering (RMAP) • Voor elke term in de documentset wordt (alsof het een query is) via het DM algoritme een set van 100 term suggesties gemaakt. • Bij een echte query van meerdere woorden worden de sets opgehaald en samen- gevoegd (gewichten opgeteld indien woord vaker voorkomt) • De top 100 van de termen wordt gepresenteerd

  6. Discussie: • Zie je voor- en nadelen in de methoden? • Bij welke methode verwacht je de hoogste precisie?

  7. Experimenteren • TREC/TIPSTER testcollectie • De korte topicaanduiding van een vraag gebruikt, om eenvoudige query te benaderen (websearch) • De door mensen toegevoegde "concepts" gebruikt om de gesuggereerde termen te evalueren (concept recall)

  8. De waarde van de concepten nader bekeken • Controle: verbeteren de concepten de precisie eigenlijk? • Elk concept om de beurt toegevoegd aan de oorspronkelijke query • Steeds naar top 100 van documenten gekeken. Wat is het verschil in precisie? • Meer dan de helft blijkt in feite de precisie te verminderen.

  9. Wat is baseline en wat is maximaal mogelijk? • Ter vergelijking zijn er twee controle algoritmes gemaakt: • Random: voor elke query 100 random termen gecheckt: gemiddeld geen effect. • Oracle: uit de werkelijk relevante documenten de 100 termen gezocht die meest positieve invloed op precisie hebben: de meeste hebben maar een klein positief effect.

  10. Over "foute" suggesties • De oorspronkelijke query (topic) is kort en heel globaal, de beschrijving daarna specificeert in een bepaalde richting. • Veel gesuggereerde termen zijn wel gerelateerd aan het topic maar specificeren in een andere richting, dus verminderen precisie voor de beschreven vraag • Voor de gebruiker zijn die termen dus ook nuttig, om ZIJN vraag te specificeren

  11. NB: hierbij zijn alleen de termen met positief effect meegeteld!

  12. Conclusies en vervolg • RMAP is veel sneller dan DM en in resultaten redelijk vergelijkbaar, dus aantrekkelijk als processing time punt is • Verdere studie nodig over aantallen te gebruiken documenten (DM), aantal te bewaren suggesties (RMAP) • Onderzoek naar andere wegingen van termen, o.a. meewegen proximity

More Related