160 likes | 268 Views
Vyu žitie mikroblogov na hodnotenie zdrojov na webe. Tomáš Majer Vedúci: Marián Šimko. Obsah. Mikroblogy Hodnotiace algoritmy Moje riešenie Záver. Mikroblog. Forma blogu odlišujúca sa dĺžkou príspevku Nemoderované p ou žívateľské dáta Aktuálnosť Príspevky môžu obsahovať odkazy
E N D
Využitie mikroblogov na hodnotenie zdrojov na webe Tomáš Majer Vedúci: Marián Šimko
Obsah • Mikroblogy • Hodnotiace algoritmy • Moje riešenie • Záver
Mikroblog • Forma blogu odlišujúca sa dĺžkou príspevku • Nemoderované používateľské dáta • Aktuálnosť • Príspevky môžu obsahovať odkazy • Najznámejší Twitter
Motivácia • Používateľské dáta je možné prepojiť s webovými stránkami a tak získať väzbu medzi používateľmi a stránkami • Nezávisle verejné hodnotenie stránok • Veľké množstvo dát – predstavuje potenciálny zdroj informácií
Špecifiká mikrobloguTwitter • Dĺžka príspevkov 140znakov • Hashtags –označenie # (triedenie, vyhľadávanie) • Priamesprávy – označenie @user • Nasledovníci – jednosmerná väzba medzi používateľmi • Znovu pípnutie – retweet • Geografické určenie pípnutia • 22% obsahuje URL
Základná schéma grafu Internet Twitter T1 P1 A1 T2 T3 A2 P2 T4 A3 T5
Ohodnocovaciegrafové algoritmy • Všeobecné grafové algoritmy • PageRank • HITS • SALSA • Špecifické algoritmy pre Twitter • TwitterRank • TunkRank • TrustRank
TunkRank • “PageRank” pre Twitter • Každý používateľ ovplyvňuje ďalších používateľov, ktorí ho nasledujú a čítajú jeho pípnutia • Medzi nasledovníkmi je rovnaká pravdepodobnosť, že si prečítajú pípnutie používateľa ktorého nasledujú. • Hodnotí len používateľov • Viac nasledovníkov s vysokým hodnotením znamená vyššíTunkRank Gayo-Avello, Nepotistic Relationships in Twitter and their Impact on Rank Prestige Algorithms, http://arxiv.org/pdf/1004.0816
TwitterRank • Topic sensitive • Problém so škálovaním • Špecifický pre Twitter • Hodnotí pípnutia, podobnosť v téme ovplyvňuje hodnotenie TwitterRank: Weng, Lim, Jiang, He. Twitterrank: finding topic-sensitive influential twitterers, http://www.wsdm-conference.org/2010/proceedings/docs/p261.pdf
Prvá verzia • Dávala do pomeru počty nasledovníkov a počty pípnutí ukazujúcich na danú stránku
Môj algoritmus • Vychádza z ohodnoteniapoužívateľov, kdepoužívamodifikovaný TunkRank. • Váhu používateľov prenáša na ich pípnutia • Využíva špecifiká ako znovu pípnutie, ktoré zvyšujú hodnotenie pípnutia • Výpočet nie je závislý od kontextu • Výpočet je škálovateľný
TweetRank Ohodnotenie používateľa / počet jeho pípnutí. Na ohodnotenie využíva upravený TunkRank.
TweetRank Ohodnotenie používateľa / počet jeho pípnutí. Na ohodnotenie využíva upravený TunkRank. Ak ide o znovu pípnutie tak sa zvýši ohodnotenie pípnutia
Zhodnotenie • Analýza mikroblogu a jeho použitia pri hodnotení stránok • Implementácia a testovanie prvej a návrh druhej verzie algoritmu • Navrhnutá jedinečná metóda ohodnocovania stránok podľa mikroblogus využitím pri vyhľadávaní
Plán na letný semester • Doimplementovať nový algoritmus • Overiť ho na získanom datasete • Využitie pri vyhľadávaní, modifikácia PageRanku stránky • Overenie so skupinou používateľov nad danou doménou voči klasickému PageRank-u. • Napísať článok na IIT.SRC