1 / 17

Modelovanie používateľa mikroblogu

Modelovanie používateľa mikroblogu. Bc. Marcel Kanta. Vedúci: Ing. Marián Šimko, PhD. Motivácia. Zahltenie informáciami Odporúčať používateľom obsah Zohladnenie lokality trendov Model používateľa Presnejší Dobrý zdroj dát – mikroblogy (Twitter)

alvin-grant
Download Presentation

Modelovanie používateľa mikroblogu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Modelovanie používateľa mikroblogu Bc. Marcel Kanta Vedúci: Ing. Marián Šimko, PhD.

  2. Motivácia • Zahltenie informáciami • Odporúčať používateľom obsah • Zohladnenie lokality trendov • Model používateľa • Presnejší • Dobrý zdroj dát – mikroblogy (Twitter) • Model používateľa mikroblogu v doméne odporúčaní noviniek s ohľadom na trendy a ich lokalitu

  3. L1 Vizualizácia problému Výstup: linky L2 Používateľ • Vstup: príspevky Novinky Model používateľa Trendy

  4. Technický postup • Získanie dát do hadoopu • Lokalita používateľa • 2k • Metadata o linkoch • 550k • Predspracovanie dát • Spracovanie dát

  5. Získanie dát • Lokalita používateľa • Vstup: .csv, Výstup: .kml • <Placemark> • <description>[userId]</description> • <Point> • <coordinates>-3.435973,55.378051,0</coordinates> • </Point> • <address>United Kingdom United Kingdom, United Kingdom United Kingdom</address> • <styleUrl>#0</styleUrl> • </Placemark>

  6. Získanie dát • Stiahnutie metadát zo semanticproxy.com • Paralelne!!!

  7. Získanie dát: PeWe • Technology/Internet (70.5%) • Technology_Internet (SocialTag)importance: 2 • New York City (City)relevance: 15.1%resolutions: New York City,New York,United StatesInstance Info • 2011 Outstanding Paper Award(EntertainmentAwardEvent)relevance: 16.4%Instance Info • Institute Of Informatics (Facility)relevance: 50.4%Instance Info • Slovak University Of Technology (Facility)relevance: 31.3%Instance Info • Informal Research (IndustryTerm)relevance: 31.3%Instance Info • Adaptive Social Web-Based Systems (IndustryTerm)relevance: 31%Instance Info • Web-Based Systems (IndustryTerm)relevance: 30.6%Instance Info • Semantic And Social Web (IndustryTerm)relevance: 30.6%Instance Info • Web Content Annotation (IndustryTerm)relevance: 14.3%Instance Info • Web-Based Learning (IndustryTerm)relevance: 8.6%Instance Info • Video Stream (NaturalFeature)relevance: 6.5%Instance Info • PeWe (Organization)nationality: N/Aorganizationtype: N/Arelevance: 68.6%Instance Info • Faculty Of Informatics And Information Technologies(Organization)nationality: N/Aorganizationtype: N/Arelevance: 63.7%Instance Info • Slovak University Of Technology (Organization)nationality: Slovakorganizationtype: N/Arelevance: 31.3%Instance Info • Institute Of Informatics And Software Engineering(Organization)nationality: N/Aorganizationtype: N/Arelevance: 31.3%Instance Info • ACM Czech Chapter (Organization)nationality: N/Aorganizationtype: N/Arelevance: 20.6%Instance Info • IIT.SRC Slovakia ACM Chapter (Organization)nationality: Slovakianorganizationtype: N/Arelevance: 9.5%Instance Info • Martin Labaj (Person)commonname: Martin Labajnationality: N/Apersontype: N/Arelevance: 55.3%Instance Info • Michal Tomlein (Person)commonname: Michal Tomleinnationality: N/Apersontype: N/Arelevance: 10.5%Instance Info • Peter Kr (Person)commonname: Peter Krnationality: N/Apersontype: N/Arelevance: 10.5%Instance Info • Michal Holub (Person)commonname: Michal Holubnationality: N/Apersontype: N/Arelevance: 7.1%Instance Info • Michal Kompan (Person)commonname: Michal Kompannationality: N/Apersontype: N/Arelevance: 5.4%Instance Info • ACM SPY (Position)relevance: 48.5%Instance Info

  8. Predspracovanie • Lokalita používateľa • Generovanie kvartérneho stromu • Vytvorenie vstupu do hadoopu (.csv.zip) • Čas Región TweetId UserId Relevancia Topic

  9. Spracovanie • Obohatenie • Trénovacia, testovacia vzorka • Tvorba modelov • TF-IDF používateľa • TF-IDF regiónov • Filtrovanie • Validácia • Získanie množiny odporúčaných linkov • Odporúčanie • Precision P@n, MRR

  10. Spracovanie – obohatenie • create table enriched(cas string, region int,tweetid string, userid int, relevance double, word string) stored as sequencefile; • insert overwrite table enriched • select a.cas, a.region, a.tweetid, a.userid, sum(a.relevance), a.word from • (select * from train • union all • select t.cas, t.region, t.tweetid,t.userid,u.relevance,u.word from • (select * from train where word like 'http://%') t • join urlWordUnique u on t.word=u.url • ) a group by a.cas,a.region,a.tweetid,a.userid,a.word;

  11. Spracovanie – tréning/test • Trénovacia vzorka • select * from inWord where cas='00_2011' or cas='45_2010' or cas='46_2010' or cas='47_2010' or cas=b' or cas=b' or cas='50_2010‚or cas='51_2010' or cas='52_2010'; • Testovacia vzorka • select * from inWord where cas='01_2011';

  12. Spracovanie – efektivita • set mapred.reduce.tasks=500; • insert overwrite table RecommendationLocal • SELECT ... FROM ... JOIN ... ON ... • GROUP BY ... • HAVING ... • ORDER BY ... desc; • Total MapReduce CPU Time Spent: • 4 days 0 hours 20 minutes 11 seconds 920 msec • Time taken: 5679.552 seconds

  13. Spracovanie – efektivita • Riešenie: Filtrovanie • where relevance>0.3 • where tfidf>0.01

  14. Spracovanie – validácia • Validácia • Získanie množiny odporúčaných linkov • select distinct userId,word from test where word like 'http://%'; • Odporúčanie • Kosínusova podobnosť modelov a linkov • Zoradenie • Vybrať top n pre každý región • Precision P@n, MRR

  15. Aktuálny stav • Dáta získané • Modely spravené • Spracovanie spravené • Overovanie spravené • Porovnanie s implementáciou Gao et al. 2011 • efektívne

  16. Aktuálny stav • Dáta získané • Modely spravené • Spracovanie spravené • Overovanie spravené • Dolaďovanie • Hive • Vybrať top n pre každý región

  17. Zdroje • Abel, F., Gao, Q., Houben, G.J., and Tao, K: Analyzing User Modeling on Twitter for Personalized News Recommendations. User Modeling, Adaption and Personalization, (2011), 1–12 [citované november 2011] • Gao, Q., Abel, F., and Houben, G: Interweaving Trend and User Modeling for Personalized News Recommendation. Web Intelligence and Intelligent Agent Technology WIIAT 2011, (2011) [citované november 2011] • Hecht, B., Hong, L., Suh, B., and Chi, E.H.: Tweets from Justin Bieber ’ s Heart : The Dynamics of the “ Location ” Field in User Profiles. Electrical Engineering, (2011), 237-246 [citované december 2011] • http://www.webresourcesdepot.com/wp-content/uploads/image/world-map-svg.gif • http://rst.gsfc.nasa.gov/Intro/type-C-172.png • http://www.articlesweb.org/blog/wp-content/gallery/local-news-reflects-you/local-news-reflects-you-2.jpg • http://www.unmatchedstyle.com/wp-content/uploads/2010/11/user.jpg • http://blog.locomu.com/wp-content/uploads/2011/12/new-twitter-logo.png • http://www.wewillraakyou.com/wp-content/uploads/2010/09/twitterstreams-505x319.jpg • http://www.imgbase.info/images/safe-wallpapers/miscellaneous/1_other_wallpapers/14374_1_other_wallpapers_the_world.jpg • http://www.gettyicons.com/free-icons/124/web-2.0/png/256/twitter_256.png • http://aux.iconpedia.net/uploads/2106003206.png • http://www.wpclipart.com/computer/humour/debugging.png.html

More Related