1 / 11

Content-based news recommendaion

Content-based news recommendaion. Michal Kompan , DPII, kompan05@student.fiit.stuba.sk. Problém. Články – názov, obsah, dátum pridania, kategória Hľadanie podobných článkov Odporúčanie používateľom. Podobnosť - predspracovanie. Predspracovanie:

skule
Download Presentation

Content-based news recommendaion

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Content-based news recommendaion Michal Kompan, DPII, kompan05@student.fiit.stuba.sk

  2. Problém • Články – názov, obsah, dátum pridania, kategória • Hľadanie podobných článkov • Odporúčanie používateľom

  3. Podobnosť - predspracovanie • Predspracovanie: • lemy,odstrániť stop slová, zachovanie „uppercase“ • zachovať len slová z nadpisu + „uppercase“ • Zachovať slová z nadpisu + „uppercase“ + X kľúčových

  4. Podobnosť - reprezentácia • Článok reprezentovaný ako vektor

  5. Podobnosť – reprezentácia 2 • Kľúčové slová – IDF nad 150 000 článkami • Z nich vybraté podstatné mená (slovnik.juls.savba.sk) • Pre článok si nájdem prvých X(5/10) slov • Využitie indexu čitateľnosti?? – dva podobné články budú mať (asi) podobnú zložitosť čítania

  6. Podobnosť – reprezentácia 3 • Každá časť vektora má vlastnú váhu • „Strom kategórií“ • Podobnosť nad „pevným“ počtom článkov (10k) • Môže byť odlišné pre rôzne kategórie A B E C D F

  7. Podobnosť • Momentálne kosínusová • Ku každému článku si uchovám zoznam podobných (10,20,??) aj s hodnotami A# B 0,7 - C 0,7 - D 0,6 - E 0,5 Príde nový X 0,65 A# B 0,7 - C 0,7 - X 0,65 - D 0,6

  8. Overenie podobnosti • Na SME – podobné články • REUTERS • Články v jednej kategórii sú podobné • Podobnosť na základe autorov • Porovnať výsledok s recommenderom • Podobnosť označená „človekom“ • Je „dôležité“ poradie pre odporúčanie? http://www.sme.sk/c/1490716/vyssie-odborne-vzdelanie-aj-na-strednej-skole.html 0.73*http://www.sme.sk/c/2079601/co-robit-po-prijati-ci-neprijati-na-strednu-skolu.html 0.70*http://www.sme.sk/c/4036301/co-prinasa-do-skol-reforma.html 0.68*http://korzar.sme.sk/c/4462687/stredna-policajna-skola-oslavuje-patnastiny.html 0.68*http://bratislava.sme.sk/c/3676489/rodicia-objavuju-skoly-v-utlme.html 0.67*http://www.sme.sk/c/4822005/mikolaj-znalost-slovenciny-v-skolach-je-zla.html

  9. Odporúčanie • Nezobraziť už prečítané • Najskôr odporučiť novšie/podobnejšie • Zmeniť váhu niektorej zložky (kategória) • Diskusie • Rôznorodosť (počet odlišných prečítaných – koľko podobných ku jednému odporučiť)

  10. Záver • Do cca 1.min od zverejnenia článku vieme „odporučiť“ podobné • Kompromis medzi reprezentáciou a presnosťou • Overenie – vplyv jednotlivých zložiek

  11. Sung Ho Ha,Sung Hyun Joo, Hyun Woo Bae. 2007. Searching for similar informational articles in the Internet channel. International Conference on Knowledge Mining (ICKM 2007), Bangkok. • Martinez, J. L.; GARCIA-SERRANO, A.; MARTINEZ, P.; VILLENA, J., 2003. Automatic Keyword Extraction for News finder. LNCS, 2004, vol. 3094. • Bouras, C. and Tsogkas, V. 2009. Personalization Mechanism for Delivering News Articles on the User's Desktop. In Proceedings of the 2009 Fourth international Conference on internet and Web Applications and Services - Volume 00. ICIW. IEEE Computer Society, Washington, DC, pp. 157-162.

More Related