90 likes | 219 Views
12 . 5 .201 4. Bibliometric-enhanced IR Workshop. Spájanie vyhľadávania s bibliometriou http://ceur-ws.org/Vol-1143 / Využitie citácií, kocitácií Kocitácia = ak sú 2 dokumenty citované nejakým iným dokumentom ISEARCH dataset Články z oblasti fyziky 143 571 full textov v PDF
E N D
Bibliometric-enhancedIR Workshop • Spájanie vyhľadávania s bibliometriou • http://ceur-ws.org/Vol-1143/ • Využitie citácií, kocitácií • Kocitácia = ak sú 2 dokumenty citované nejakým iným dokumentom • ISEARCH dataset • Články z oblasti fyziky • 143 571 full textov v PDF • 3,7 milióna extrahovaných citácií • 65 tém (úloh vyhľadávania = čo hľadal, úloha, ideálna odpoveď, ...) a ohodnotenie ich relevancie • Riedke kocitácie
DesigningSearchUsabilityTutorial • Tony Russell-Rose • http://isquared.wordpress.com/2014/04/01/designing-search-usability-tutorial-at-ecir-2014/#more-1939 • Tvorba dopytu, zobrazovanie výsledkov • Fazetové vyhľadávanie • Pri dobrom návrhu by sme nikdy nemali dostať 0 výsledkov • Sú ale 3 situácie, kedy sa tomu nedá vyhnúť
Catena, Macdonald, Ounis: On Inverted Index Compression for Search Engine Efficiency • Best paperaward • Rôzne kodeky a ich vplyv na rýchlosť odozvy • Vint, Simple16, FOR, PForDelta, NewPFD, OptPFD, FastPFOR • Kompresia rôznych polí • ID dokumentov, frekvencie termov, frekvencie polí, pozície • Najlepší FOR (Frame of Reference) • Dobrá kombinácia kompresie • Okolo 30% zrýchlenie voči baselinupri zväčšní indexu o 10%
RealtimeSearch at Twitter • GiladMishne • Viacero indexov • Aktuálne tweety (cca. 1 týždeň) ~ 4 mldr. tweetov • Archív – RAM a SSD • Tweet nemá len 140 znakov • Pridanie 1 integeru do tweetu • 4B • 400 mldr. Tweetov, 10 replík • 4TB pamäte
RealtimeSearch at Twitter • M&M testovanie • cr@p3
...ďalší • Seznam.cz • Yandex • Yahoo! Labs (Peter Mika)