100 likes | 264 Views
Dolovanie v dátach z mikroblogov. Bc. Marcel Kanta. Vedúci: Ing. Marián Šimko. Motivácia. Zahltenie informáciami Odporúčať používateľom relevantné výsledky Personalizované S ohľadom na kontext – lokálne trendy Model používateľa Presnejší Dobrý zdroj dát – mikroblogy (Twitter).
E N D
Dolovanie v dátach z mikroblogov Bc. Marcel Kanta Vedúci: Ing. Marián Šimko
Motivácia • Zahltenie informáciami • Odporúčať používateľom relevantné výsledky • Personalizované • S ohľadom na kontext – lokálne trendy • Model používateľa • Presnejší • Dobrý zdroj dát – mikroblogy (Twitter)
Modelovanie používateľa mikroblogu • 3 prístupy (Abel et al., 2011) • Vektor termov (entity-based) • # Tagy (hash-tag based) • Kategórie (topic-based) • Modelovanie trendov (Gao et al., 2011) • Zvýšenie úspešnosti odporúčania noviniek o 15,3%(MRR)
Lokalita v mikroblogu • 66% používateľov má validnú lokalitu(Hecht et al., 2011) • Predpoklad: lokálne trendy skvalitnia model použ. • Náš cieľ: zohľadnenie lokality trendov • Model používateľa mikroblogu v doméne odporúčaní noviniek s ohľadom na trendy a ich lokalitu
L1 Vizualizácia problému Výstup: novinky L2 Používateľ • Vstup: príspevky Novinky Model používateľa Trendy
Návrh • Model používateľa • Model trendu • Agregovaný model (Na základeGao et al. 2011) • Lokalita – kvartérny strom: • Odporúčanie – • Kosínusova podobnosť
Návrh II • Implementačné rozhodnutie – Hadoop, Hive • Tvorba lokálnych trendov je časovo náročna, dá sa tvoriť paralelizovane • Map-Reduce je škálovateľná • Hive poskytuje syntax SQL • Logický model Fyzický: pár <kľúč, hodnota> • Tvorba modelu spočíva v postupnej transformácii dát
Aktuálny stav • Dataset – UMAP(Abel et al., 2011) • 2k používateľov • 2M príspevkov • Získané lokality: 59% • Vytváranie kvartérneho stromu • Zaraďovanie príspevkov do „časopriestoru“ • Vstupy do Hadoop • TF časopriestoru pomocou Hive
Práca v DP3 • Pokúsiť sa získať väčšiu bázu dát • Obohacovanie príspevkov o kategórie z Wikipedie • Implementácia návrhu v technológii Map-Reduce • Postupná transformácia dát • Overenie • Precision & Recall: p@n, MRR • Porovnanie s Gao et al. 2011
Zdroje • Abel, F., Gao, Q., Houben, G.J., and Tao, K: Analyzing User Modeling on Twitter for Personalized News Recommendations. User Modeling, Adaption and Personalization, (2011), 1–12 [citované november 2011] • Gao, Q., Abel, F., and Houben, G: Interweaving Trend and User Modeling for Personalized News Recommendation. Web Intelligence and Intelligent Agent Technology WIIAT 2011, (2011) [citované november 2011] • Hecht, B., Hong, L., Suh, B., and Chi, E.H.: Tweets from Justin Bieber ’ s Heart : The Dynamics of the “ Location ” Field in User Profiles. Electrical Engineering, (2011), 237-246 [citované december 2011] • http://www.webresourcesdepot.com/wp-content/uploads/image/world-map-svg.gif • http://rst.gsfc.nasa.gov/Intro/type-C-172.png • http://www.articlesweb.org/blog/wp-content/gallery/local-news-reflects-you/local-news-reflects-you-2.jpg • http://www.unmatchedstyle.com/wp-content/uploads/2010/11/user.jpg • http://blog.locomu.com/wp-content/uploads/2011/12/new-twitter-logo.png • http://www.wewillraakyou.com/wp-content/uploads/2010/09/twitterstreams-505x319.jpg • http://www.imgbase.info/images/safe-wallpapers/miscellaneous/1_other_wallpapers/14374_1_other_wallpapers_the_world.jpg • http://www.gettyicons.com/free-icons/124/web-2.0/png/256/twitter_256.png • http://aux.iconpedia.net/uploads/2106003206.png