120 likes | 223 Views
Keyword Extraction Based on Implicit Feedback. Jakub K říž Vedúci práce: Ing. Tomáš Kramár. Implicitná spätná väzba. Všetko, čo používateľ robí počas prezerania stránky Č o vieme zachytiť v prehliadači Čas strávený na stránke Poloha stránky v prehliadači Poloha a pohyb a klikanie myši
E N D
Keyword Extraction Based on Implicit Feedback Jakub Kříž Vedúci práce: Ing. Tomáš Kramár
Implicitná spätná väzba • Všetko, čo používateľ robí počas prezerania stránky • Čo vieme zachytiť v prehliadači • Čas strávený na stránke • Poloha stránky v prehliadači • Poloha a pohyb a klikanie myši • Vstup z klávesnice
Využitie implicitnej spätnej väzby • Zistiť, či dokument používateľa zaujal • Zistiť, ktoré časti dokumentu používateľa naozaj zaujali • Na základe týchto dát, presnejšia extrakcia metadát z dokumentu, konkrétne kľúčových slov, pre zlepšenie modelu používateľa
Zbieranie spätnej väzby • Stránku rozdelíme na elementy podľa jej HTML štruktúry • Najčastejšie odstavce • Snažíme sa zistiť záujem o jednotlivé elementy ako aj o celú stránku • Záujem o element stránky detekujeme pomocou tzv. indikátorov záujmu
Indikátory záujmu • Lokálne: • Kopírovanie textu • Výber textu • Klikanie na text • „Sledovanie textu“ • Vzdialenosť elementu od pohybujúceho sa kurzora • Vzdialenosť elementu od statického kurzora • Čas strávený na obrazovke • Globálne: • Uloženie si, bookmarkovanie alebo vytlačenie stránky • Čas strávený scrollovaním • Písanie do formulára
Indikátory záujmu • Kopírovanie a výber textu sú najpresnejšie • Je možné ich použiť priamo na extrakciu textu • Obmedzené dĺžkou označenia a frekvenciou • Niektoré závisia od konkrétneho používateľa • Napr. vzdialenosť elementu od pohybujúceho sa kurzora - pri aktívnejšom používateľovi má vyššiu váhu
Spracovanie indikátorov • Hodnotenie každého elementu je na začiatku nulové • Pri detekcii indikátora pripočítame skóre elementu, pre ktorý bol zachytený • Výsledné skóre elementu bude: • Výsledné skóre stránky bude súčet skóre elementov
Detekcia neaktivity používateľa • V prípade, že sa istú dobu nevyskytne žiadny vstup z klávesnice alebo myši • Doba závisí od konkrétneho používateľa • Prestaneme detekovať indikátory a pripočítavať skóre
Využitie spätnej väzby • Extrahovanie slov priamo z textu • Pri zachytení dvoch najsilnejších indikátorov – kopírovanie a výber textu • Kombinácia zaužívanej metódy tf-idf s nadobudnutou spätnou väzbou • Extrakcia slov pomocou tf-idf z ohodnotených elementov pre lepšie ohodnotenie kľúčových slov
Implementácia • JavaScript súbor, ktorý môže byť pridaný do ľubovoľnej stránky • Realizácia na PeWe proxy
Experiment • Predbežné testovanie priamej extrakcie kľúčových slov • Používatelia hodnotili kľúčové slová extrahované z textu • Kopírovanie a výber textu vyzerajú ako vhodné indikátory pre tento účel
Zhrnutie • Za pomoci implicitných indikátorov záujmu hodnotenie častí textu dokumentu • Extrakcia kľúčových slov • Metódou tf-idf na základe hodnotenia častí textu • Priamo z textu pri zachytení najpresnejších indikátorov • Otázky?