170 likes | 400 Views
Modelovanie používateľa mikroblogu. Bc. Marcel Kanta. Vedúci: Ing. Marián Šimko, PhD. Motivácia. Zahltenie informáciami Odporúčať používateľom obsah Zohladnenie lokality trendov Model používateľa Presnejší Dobrý zdroj dát – mikroblogy (Twitter)
E N D
Modelovanie používateľa mikroblogu Bc. Marcel Kanta Vedúci: Ing. Marián Šimko, PhD.
Motivácia • Zahltenie informáciami • Odporúčať používateľom obsah • Zohladnenie lokality trendov • Model používateľa • Presnejší • Dobrý zdroj dát – mikroblogy (Twitter) • Model používateľa mikroblogu v doméne odporúčaní noviniek s ohľadom na trendy a ich lokalitu
L1 Vizualizácia problému Výstup: linky L2 Používateľ • Vstup: príspevky Novinky Model používateľa Trendy
Technický postup • Získanie dát do hadoopu • Lokalita používateľa • 2k • Metadata o linkoch • 550k • Predspracovanie dát • Spracovanie dát
Získanie dát • Lokalita používateľa • Vstup: .csv, Výstup: .kml • <Placemark> • <description>[userId]</description> • <Point> • <coordinates>-3.435973,55.378051,0</coordinates> • </Point> • <address>United Kingdom United Kingdom, United Kingdom United Kingdom</address> • <styleUrl>#0</styleUrl> • </Placemark>
Získanie dát • Stiahnutie metadát zo semanticproxy.com • Paralelne!!!
Získanie dát: PeWe • Technology/Internet (70.5%) • Technology_Internet (SocialTag)importance: 2 • New York City (City)relevance: 15.1%resolutions: New York City,New York,United StatesInstance Info • 2011 Outstanding Paper Award(EntertainmentAwardEvent)relevance: 16.4%Instance Info • Institute Of Informatics (Facility)relevance: 50.4%Instance Info • Slovak University Of Technology (Facility)relevance: 31.3%Instance Info • Informal Research (IndustryTerm)relevance: 31.3%Instance Info • Adaptive Social Web-Based Systems (IndustryTerm)relevance: 31%Instance Info • Web-Based Systems (IndustryTerm)relevance: 30.6%Instance Info • Semantic And Social Web (IndustryTerm)relevance: 30.6%Instance Info • Web Content Annotation (IndustryTerm)relevance: 14.3%Instance Info • Web-Based Learning (IndustryTerm)relevance: 8.6%Instance Info • Video Stream (NaturalFeature)relevance: 6.5%Instance Info • PeWe (Organization)nationality: N/Aorganizationtype: N/Arelevance: 68.6%Instance Info • Faculty Of Informatics And Information Technologies(Organization)nationality: N/Aorganizationtype: N/Arelevance: 63.7%Instance Info • Slovak University Of Technology (Organization)nationality: Slovakorganizationtype: N/Arelevance: 31.3%Instance Info • Institute Of Informatics And Software Engineering(Organization)nationality: N/Aorganizationtype: N/Arelevance: 31.3%Instance Info • ACM Czech Chapter (Organization)nationality: N/Aorganizationtype: N/Arelevance: 20.6%Instance Info • IIT.SRC Slovakia ACM Chapter (Organization)nationality: Slovakianorganizationtype: N/Arelevance: 9.5%Instance Info • Martin Labaj (Person)commonname: Martin Labajnationality: N/Apersontype: N/Arelevance: 55.3%Instance Info • Michal Tomlein (Person)commonname: Michal Tomleinnationality: N/Apersontype: N/Arelevance: 10.5%Instance Info • Peter Kr (Person)commonname: Peter Krnationality: N/Apersontype: N/Arelevance: 10.5%Instance Info • Michal Holub (Person)commonname: Michal Holubnationality: N/Apersontype: N/Arelevance: 7.1%Instance Info • Michal Kompan (Person)commonname: Michal Kompannationality: N/Apersontype: N/Arelevance: 5.4%Instance Info • ACM SPY (Position)relevance: 48.5%Instance Info
Predspracovanie • Lokalita používateľa • Generovanie kvartérneho stromu • Vytvorenie vstupu do hadoopu (.csv.zip) • Čas Región TweetId UserId Relevancia Topic
Spracovanie • Obohatenie • Trénovacia, testovacia vzorka • Tvorba modelov • TF-IDF používateľa • TF-IDF regiónov • Filtrovanie • Validácia • Získanie množiny odporúčaných linkov • Odporúčanie • Precision P@n, MRR
Spracovanie – obohatenie • create table enriched(cas string, region int,tweetid string, userid int, relevance double, word string) stored as sequencefile; • insert overwrite table enriched • select a.cas, a.region, a.tweetid, a.userid, sum(a.relevance), a.word from • (select * from train • union all • select t.cas, t.region, t.tweetid,t.userid,u.relevance,u.word from • (select * from train where word like 'http://%') t • join urlWordUnique u on t.word=u.url • ) a group by a.cas,a.region,a.tweetid,a.userid,a.word;
Spracovanie – tréning/test • Trénovacia vzorka • select * from inWord where cas='00_2011' or cas='45_2010' or cas='46_2010' or cas='47_2010' or cas=b' or cas=b' or cas='50_2010‚or cas='51_2010' or cas='52_2010'; • Testovacia vzorka • select * from inWord where cas='01_2011';
Spracovanie – efektivita • set mapred.reduce.tasks=500; • insert overwrite table RecommendationLocal • SELECT ... FROM ... JOIN ... ON ... • GROUP BY ... • HAVING ... • ORDER BY ... desc; • Total MapReduce CPU Time Spent: • 4 days 0 hours 20 minutes 11 seconds 920 msec • Time taken: 5679.552 seconds
Spracovanie – efektivita • Riešenie: Filtrovanie • where relevance>0.3 • where tfidf>0.01
Spracovanie – validácia • Validácia • Získanie množiny odporúčaných linkov • select distinct userId,word from test where word like 'http://%'; • Odporúčanie • Kosínusova podobnosť modelov a linkov • Zoradenie • Vybrať top n pre každý región • Precision P@n, MRR
Aktuálny stav • Dáta získané • Modely spravené • Spracovanie spravené • Overovanie spravené • Porovnanie s implementáciou Gao et al. 2011 • efektívne
Aktuálny stav • Dáta získané • Modely spravené • Spracovanie spravené • Overovanie spravené • Dolaďovanie • Hive • Vybrať top n pre každý región
Zdroje • Abel, F., Gao, Q., Houben, G.J., and Tao, K: Analyzing User Modeling on Twitter for Personalized News Recommendations. User Modeling, Adaption and Personalization, (2011), 1–12 [citované november 2011] • Gao, Q., Abel, F., and Houben, G: Interweaving Trend and User Modeling for Personalized News Recommendation. Web Intelligence and Intelligent Agent Technology WIIAT 2011, (2011) [citované november 2011] • Hecht, B., Hong, L., Suh, B., and Chi, E.H.: Tweets from Justin Bieber ’ s Heart : The Dynamics of the “ Location ” Field in User Profiles. Electrical Engineering, (2011), 237-246 [citované december 2011] • http://www.webresourcesdepot.com/wp-content/uploads/image/world-map-svg.gif • http://rst.gsfc.nasa.gov/Intro/type-C-172.png • http://www.articlesweb.org/blog/wp-content/gallery/local-news-reflects-you/local-news-reflects-you-2.jpg • http://www.unmatchedstyle.com/wp-content/uploads/2010/11/user.jpg • http://blog.locomu.com/wp-content/uploads/2011/12/new-twitter-logo.png • http://www.wewillraakyou.com/wp-content/uploads/2010/09/twitterstreams-505x319.jpg • http://www.imgbase.info/images/safe-wallpapers/miscellaneous/1_other_wallpapers/14374_1_other_wallpapers_the_world.jpg • http://www.gettyicons.com/free-icons/124/web-2.0/png/256/twitter_256.png • http://aux.iconpedia.net/uploads/2106003206.png • http://www.wpclipart.com/computer/humour/debugging.png.html