130 likes | 235 Views
Evaluation of Personalized News Recommending via Similarity Search. Dušan Zeleník, Michal Kompan PeWe 5.5.2010. Reprezentácia podobností dokumentov v strome sú blízke dokumenty pri sebe strom usporiadava informačný priestor Tvorba odporúčaní článkov
E N D
Evaluation of Personalized News Recommending via Similarity Search Dušan Zeleník, Michal Kompan PeWe 5.5.2010
Reprezentácia podobností dokumentov • v strome sú blízke dokumenty pri sebe • strom usporiadava informačný priestor • Tvorba odporúčaní článkov • odporúčané články pokrývajú záujmy čitateľa • človek hodnotí odporúčania ako zaujímavé TRecom - Čo overujem
Predpoklad • prvých 10 najpodobnejších článkov pre jeden • špecifický článok sa zhoduje • pre našu metódu • pre spoľahlivú referenčnú metódu • Každý článok porovnať s N článkami • pre každý článok vybrať okolie v strome • 100% presnosť referenčnej metódy (N porovnaní) Overenie reprezentácie
Overenie reprezentácie • Zistenia • články sú podľa podobností pri sebe v strome • zhluky sú spoľahlivejšie so zväčšovaním • problém s tranzitívnou reláciou článku a k • nemu najpodobnejšieho článku
Predpoklad • odporúčané články pokrývajú záujmy používateľa • Simulovanie správania • interval z histórie používateľa (4dni) • rozdelenie na interval ktorý metóda pozná • a interval ktorý nepozná • odporúčania sa porovnajú testovacím intervalom • porovnávam kombináciu sekcia, kategória • 1000 aktívnych ľudí, 430 kombinácií Overenie odporúčaní
Overenie odporúčaní • Zistenia • čím väčší trénovací interval tým lepšie pokrytie • viac prečítaných článkov • čím väčší testovací interval tým lepšia presnosť • čísla sa zhoršia pri menej aktívnych čitateľoch
Predpoklad • čitatelia hodnotia články podľa záujmu • články sú hodnotené pozitívne • Výsledky • zatiaľ5ľudí (skôr neaktívni) a 66% úspešnosť • 44 vyhodnotení z toho 15 negatívnych • Skôr odhalenie chýb a podobne • blogy(logger_url), natankuj.sme.sk Overenie záujmu
Reprezentácia podobností dokumentov • efektivita, presnosť • Tvorba odporúčaní článkov • odporúčané články pokrývajú záujmy čitateľa na úrovni kategórie+sekcie a konkrétneho článku Titler - Čo overujem
Predpoklad • zoznam vypočítaných podobných článkov sa zhoduje s manuálne označenou podobnosťou • Každý článok porovnať so 100 článkami (manuálne označená vzorka) • pre každý článok vypočítať podobnosť Overenie reprezentácie
Overenie reprezentácie • Zistenia • kosínusová podobnosť zrýchlenie 2,46x (TF-IDF) • Jaccard index zrýchlenie 2x (kosínusová) • manuálne označené články na SME.SK sú neúplne
Predpoklad • odporúčané články pokrývajú záujmy používateľa • na úrovni konkrétnych článkov • na úrovni sekcie a kategórie • Simulovanie správania • okno 3 dní Overenie odporúčaní
Overenie odporúčaní • Zistenia • čím väčší trénovací interval tým lepšie pokrytie • čím väčší testovací interval tým lepšia presnosť • pre konkrétne články precision 1% recall 0,9%