400 likes | 652 Views
Personalizované odporúčanie zaujímavých textov. Michal Kompan kompan05@studen.fiit.stuba.sk vedúca: prof. Mária Bieliková. Nárast počtu slov, obrázkov, reklám, tabuliek, odkazov na webových stránkach (2x oproti r2003) Zahltenie používateľov informáciami
E N D
Personalizované odporúčanie zaujímavých textov Michal Kompan kompan05@studen.fiit.stuba.sk vedúca: prof. Mária Bieliková
Nárast počtu slov, obrázkov, reklám, tabuliek, odkazov na webových stránkach (2x oproti r2003) • Zahltenie používateľov informáciami • Kvalita portálov meraná množstvom pridaných informácií
Používatelia vs. Portály • Používatelia: • Používateľ strávi na spravodajskom portáli cca 16 minút denne (2 návštevy) • Množstvo pridávaných článkov – navigácia • Portály: • Čo najvyššia návštevnosť • Personalizované odporúčanie
Personalizované odporúčanie • Odporúčanie založené na obsahu • Podobnosť obsahu • Kolaboratívne odporúčanie • Odporúčanie nenavštíveného obsahu hodnoteného pozitívne skupinou • Zmiešané metódy
Doména spravodajských portálov • Dynamicky sa meniace informácie • Stovky pridávaných článkov denne • Rýchla degradácia hodnoty informácie • Texty (150-300 slov), fotografie, videá
Existujúce systémy • OTS (Chen, 2001) • Pure (Yoneta, 2007) • NewsMe (Brusilovsky, 2007) • NewsBrief (EC)
SME.SK • Najväčší spravodajský portál SK • Denne pridaných cca 250+ článkov • Priemerný počet návštev 353 252 (cookie) • Projekt SMEFiiT
Metóda zisťovania podobnosti • Odporúčanie založené na obsahu – nutnosť zistiť podobné články • Extrakcia dát • Predspracovanie článkov • Reprezentácia článkov • Zistenie podobnosti
Reprezentácia článkov 1 • Vektorová reprezentácia
Reprezentácia článkov 2 • Názov článku • Váha na základe TF (počet výskytu slov) • TF slov z názvu v obsahu • Nekorešpondujúce nadpisy • Váha slov z nadpisu ako TF v obsahu
Reprezentácia článkov 3 • Kategórie • Hierarchia • Váhy vypočítané na základe „hĺbky stromu“
Reprezentácia článkov 4 • Mená,Názvy • Osoby, lokácie, organizácie... • Kľúčové slová • N najrelevantnejších kľúčových slov • Index čitateľnosti • CLI
Výpočet podobnosti • Definícia podobnosti – využitie váh • Kosínusová podobnosť • Jaccard index
Metóda personalizovaného odporúčania 1 • Vstup • Zoznam podobných článkov • Aktivita používateľa (článok, čas, identifikátor) • Výstup • Zoznam N odporúčaných článkov pre používateľa (identifikátor)
Realizácia metódy - predspracovanie • Jazykovo závislé • Lexikálna analýza • Stop slová • Cca 300 slov, TF-IDF • Lematizácia • Lematizátor JULS
Realizácia metódy - reprezentácia • Mená a názvy • Začiatočné veľké písmeno pred ktorým nie je ukončená veta (precision = 0.934, recall = 0.863) • Kľúčové slová • TF-IDF + slovník JULS - podstatné mená
Realizácia metódy - podobnosť • Jaccard Index , Kosínusová podobnosť • Nový článok sa porovná s oknom 10 000 článkov • Nájdeme max. 10 najpodobnejších článkov • Spätne týmto 10 článkom upravíme zoznamy podobných
Realizácia metódy – model používateľa • Identifikátor používateľa – cookie • Zoznam navštívených článkov za časové obdobie • Implicitná spätná väzba • Na strane servera
Overenie riešenia 1 • Testovacie dáta • Overenie podobnosti • Manuálne ohodnotená podobnosť (vzorka 100 článkov) – 5 stupňov • Dátová vzorka REUTERS • Podobné články označené autormi • Overenie odporúčania • 5.3 - 8.3 (cca 500 000 kliknutí) • 47 000 článkov
Overenie riešenia 2 • Podobnosť • Zrýchlenie 2.46x (kosínusová pod.), 2x (jaccard index)
Overenie riešenia 3 • Štandardná odchýlka 1,207 • Reprezentácia • 4x lepšie výsledky ako len názov • 1,4x lepšie výsledky ako len kľúčové slová • Kategória vylepšila výsledky 1,15x
Overenie riešenia 4 • Odporúčanie • Syntetické testy (3 dni)
Overenie riešenia 6 • Pridanie článku – cca. 0,9s (10 000 článkov) • Predspracovanie – cca 10 min (10 000 článkov)
Titler • Úsporná reprezentácia obsahu • Metóda personalizovaného odporúčania v reálnom čase • Využite váh umožňuje „predefinovať“ podobnosť • Prezentácia výsledkov
Váhy • „Slepý algoritmus“ • Fitnes – presnosť, pokrytie – F1 • Jeden výpočet cca 15s • 6 váh – optimálne riešenie „raz“ dostaneme • Nutnosť obmedziť hodnotu váh (0,01-10) – cca 17h