110 likes | 259 Views
Content-based news recommendaion. Michal Kompan , DPII, kompan05@student.fiit.stuba.sk. Problém. Články – názov, obsah, dátum pridania, kategória Hľadanie podobných článkov Odporúčanie používateľom. Podobnosť - predspracovanie. Predspracovanie:
E N D
Content-based news recommendaion Michal Kompan, DPII, kompan05@student.fiit.stuba.sk
Problém • Články – názov, obsah, dátum pridania, kategória • Hľadanie podobných článkov • Odporúčanie používateľom
Podobnosť - predspracovanie • Predspracovanie: • lemy,odstrániť stop slová, zachovanie „uppercase“ • zachovať len slová z nadpisu + „uppercase“ • Zachovať slová z nadpisu + „uppercase“ + X kľúčových
Podobnosť - reprezentácia • Článok reprezentovaný ako vektor
Podobnosť – reprezentácia 2 • Kľúčové slová – IDF nad 150 000 článkami • Z nich vybraté podstatné mená (slovnik.juls.savba.sk) • Pre článok si nájdem prvých X(5/10) slov • Využitie indexu čitateľnosti?? – dva podobné články budú mať (asi) podobnú zložitosť čítania
Podobnosť – reprezentácia 3 • Každá časť vektora má vlastnú váhu • „Strom kategórií“ • Podobnosť nad „pevným“ počtom článkov (10k) • Môže byť odlišné pre rôzne kategórie A B E C D F
Podobnosť • Momentálne kosínusová • Ku každému článku si uchovám zoznam podobných (10,20,??) aj s hodnotami A# B 0,7 - C 0,7 - D 0,6 - E 0,5 Príde nový X 0,65 A# B 0,7 - C 0,7 - X 0,65 - D 0,6
Overenie podobnosti • Na SME – podobné články • REUTERS • Články v jednej kategórii sú podobné • Podobnosť na základe autorov • Porovnať výsledok s recommenderom • Podobnosť označená „človekom“ • Je „dôležité“ poradie pre odporúčanie? http://www.sme.sk/c/1490716/vyssie-odborne-vzdelanie-aj-na-strednej-skole.html 0.73*http://www.sme.sk/c/2079601/co-robit-po-prijati-ci-neprijati-na-strednu-skolu.html 0.70*http://www.sme.sk/c/4036301/co-prinasa-do-skol-reforma.html 0.68*http://korzar.sme.sk/c/4462687/stredna-policajna-skola-oslavuje-patnastiny.html 0.68*http://bratislava.sme.sk/c/3676489/rodicia-objavuju-skoly-v-utlme.html 0.67*http://www.sme.sk/c/4822005/mikolaj-znalost-slovenciny-v-skolach-je-zla.html
Odporúčanie • Nezobraziť už prečítané • Najskôr odporučiť novšie/podobnejšie • Zmeniť váhu niektorej zložky (kategória) • Diskusie • Rôznorodosť (počet odlišných prečítaných – koľko podobných ku jednému odporučiť)
Záver • Do cca 1.min od zverejnenia článku vieme „odporučiť“ podobné • Kompromis medzi reprezentáciou a presnosťou • Overenie – vplyv jednotlivých zložiek
Sung Ho Ha,Sung Hyun Joo, Hyun Woo Bae. 2007. Searching for similar informational articles in the Internet channel. International Conference on Knowledge Mining (ICKM 2007), Bangkok. • Martinez, J. L.; GARCIA-SERRANO, A.; MARTINEZ, P.; VILLENA, J., 2003. Automatic Keyword Extraction for News finder. LNCS, 2004, vol. 3094. • Bouras, C. and Tsogkas, V. 2009. Personalization Mechanism for Delivering News Articles on the User's Desktop. In Proceedings of the 2009 Fourth international Conference on internet and Web Applications and Services - Volume 00. ICIW. IEEE Computer Society, Washington, DC, pp. 157-162.