1 / 12

Keyword Extraction Based on Implicit Feedback

Keyword Extraction Based on Implicit Feedback. Jakub K říž Vedúci práce: Ing. Tomáš Kramár. Implicitná spätná väzba. Všetko, čo používateľ robí počas prezerania stránky Č o vieme zachytiť v prehliadači Čas strávený na stránke Poloha stránky v prehliadači Poloha a pohyb a klikanie myši

oprah-cline
Download Presentation

Keyword Extraction Based on Implicit Feedback

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Keyword Extraction Based on Implicit Feedback Jakub Kříž Vedúci práce: Ing. Tomáš Kramár

  2. Implicitná spätná väzba • Všetko, čo používateľ robí počas prezerania stránky • Čo vieme zachytiť v prehliadači • Čas strávený na stránke • Poloha stránky v prehliadači • Poloha a pohyb a klikanie myši • Vstup z klávesnice

  3. Využitie implicitnej spätnej väzby • Zistiť, či dokument používateľa zaujal • Zistiť, ktoré časti dokumentu používateľa naozaj zaujali • Na základe týchto dát, presnejšia extrakcia metadát z dokumentu, konkrétne kľúčových slov, pre zlepšenie modelu používateľa

  4. Zbieranie spätnej väzby • Stránku rozdelíme na elementy podľa jej HTML štruktúry • Najčastejšie odstavce • Snažíme sa zistiť záujem o jednotlivé elementy ako aj o celú stránku • Záujem o element stránky detekujeme pomocou tzv. indikátorov záujmu

  5. Indikátory záujmu • Lokálne: • Kopírovanie textu • Výber textu • Klikanie na text • „Sledovanie textu“ • Vzdialenosť elementu od pohybujúceho sa kurzora • Vzdialenosť elementu od statického kurzora • Čas strávený na obrazovke • Globálne: • Uloženie si, bookmarkovanie alebo vytlačenie stránky • Čas strávený scrollovaním • Písanie do formulára

  6. Indikátory záujmu • Kopírovanie a výber textu sú najpresnejšie • Je možné ich použiť priamo na extrakciu textu • Obmedzené dĺžkou označenia a frekvenciou • Niektoré závisia od konkrétneho používateľa • Napr. vzdialenosť elementu od pohybujúceho sa kurzora - pri aktívnejšom používateľovi má vyššiu váhu

  7. Spracovanie indikátorov • Hodnotenie každého elementu je na začiatku nulové • Pri detekcii indikátora pripočítame skóre elementu, pre ktorý bol zachytený • Výsledné skóre elementu bude: • Výsledné skóre stránky bude súčet skóre elementov

  8. Detekcia neaktivity používateľa • V prípade, že sa istú dobu nevyskytne žiadny vstup z klávesnice alebo myši • Doba závisí od konkrétneho používateľa • Prestaneme detekovať indikátory a pripočítavať skóre

  9. Využitie spätnej väzby • Extrahovanie slov priamo z textu • Pri zachytení dvoch najsilnejších indikátorov – kopírovanie a výber textu • Kombinácia zaužívanej metódy tf-idf s nadobudnutou spätnou väzbou • Extrakcia slov pomocou tf-idf z ohodnotených elementov pre lepšie ohodnotenie kľúčových slov

  10. Implementácia • JavaScript súbor, ktorý môže byť pridaný do ľubovoľnej stránky • Realizácia na PeWe proxy

  11. Experiment • Predbežné testovanie priamej extrakcie kľúčových slov • Používatelia hodnotili kľúčové slová extrahované z textu • Kopírovanie a výber textu vyzerajú ako vhodné indikátory pre tento účel

  12. Zhrnutie • Za pomoci implicitných indikátorov záujmu hodnotenie častí textu dokumentu • Extrakcia kľúčových slov • Metódou tf-idf na základe hodnotenia častí textu • Priamo z textu pri zachytení najpresnejších indikátorov • Otázky?

More Related