250 likes | 405 Views
Využitie mikroblogov na hodnotenie zdrojov na webe. Tomáš Majer Vedúci: Marián Šimko. Obsah. Mikroblogy Hodnotiace algoritmy Návrh vlastnej metódy Experimenty a dosiahnuté výsledky Zhodnotenie. Mikroblog. Forma blogu odlišujúca sa dĺžkou príspevku Nemoderované používateľské dáta
E N D
Využitie mikroblogov na hodnotenie zdrojov na webe Tomáš Majer Vedúci: Marián Šimko
Obsah • Mikroblogy • Hodnotiace algoritmy • Návrh vlastnej metódy • Experimenty a dosiahnuté výsledky • Zhodnotenie
Mikroblog • Forma blogu odlišujúca sa dĺžkou príspevku • Nemoderované používateľské dáta • Aktuálnosť • Príspevky môžu obsahovať odkazy • Najznámejší Twitter
Motivácia • Používateľské dáta je možné prepojiť s webovými stránkami,a tak získať väzbu medzi používateľmi a stránkami • Možné využiť pre hodnotenie stránok a získať relatívne ohodnotenie stránok • Nezávisléverejné hodnotenie stránok • Veľké množstvo dát – predstavuje potenciálny zdroj informácií
Špecifiká mikrobloguTwitter • Dĺžka príspevkov 140 znakov • Hashtags – označenie # (triedenie, vyhľadávanie) • Priame správy – označenie @user • Nasledovníci – jednosmerná väzba medzi používateľmi • Znovu pípnutie – retweet • Geografické určenie pípnutia • 22% obsahuje odkaz (URL)
Základná schéma prispievania Internet Twitter T1 P1 U1 T2 T3 U2 P2 T4 U3 T5
Ohodnocovaciegrafové algoritmy • Všeobecné grafové algoritmy • PageRank • HITS • SALSA • Špecifické algoritmy pre Twitter • TwitterRank • TunkRank • TrustRank
TunkRank • “PageRank” pre Twitter • Každý používateľ ovplyvňuje ďalších používateľov, ktorí ho nasledujú a čítajú jeho pípnutia • Medzi nasledovníkmi je rovnaká pravdepodobnosť, že si prečítajú pípnutie používateľa, ktorého nasledujú. • Hodnotí len používateľov • Viac nasledovníkov s vysokým hodnotením znamená vyšší TunkRank Gayo-Avello, D.: NepotisticRelationships in Twitter and theirImpact on RankPrestigeAlgorithms, Arxivpreprint, arXiv:1004.0816, (2010), http://arxiv.org/pdf/1004.0816
TwitterRank • Závislý od obsahu, témy • Problém so škálovaním • Špecifický pre Twitter • Hodnotí pípnutia, podobnosť v téme ovplyvňuje hodnotenie Weng, J., Lim, E.P., Jiang, J., He, Q.: TwitterRank: FindingTopic-sensitiveInfluentialTwitterers, In: Proceedingsofthethird ACM internationalconference on Web search and datamining, ACM, (2010), pp. 261-270, http://www.wsdm-conference.org/2010/proceedings/docs/p261.pdf
TweetRank Ohodnotenie používateľa / počet jeho pípnutí. Na ohodnotenie využíva upravený TunkRank.
TweetRank Ohodnotenie používateľa / počet jeho pípnutí. Na ohodnotenie využíva upravený TunkRank. Ak ide o znovu pípnutie, tak sa zvýši ohodnotenie pípnutia
Použitá dátová vzorka • Vytvorená spojením dvoch dátových vzoriek • Prvá obsahovala meta informácie o používateľoch a ich pípnutiach • Druhá pozostávala z väzieb medzi používateľmi • 1 997 446 pípnutí od 367 824 používateľov • 1 468 365 182 väzieb medzi 40 103 281 používateľmi
Experimenty • Porovnanie s YouTube hodnotením • Vlastná aplikácia pre hodnotenie • Využitie pri vyhľadávaní
Porovnanie s hodnotením na portáli YouTube • Predpoklad:predpodkladali sme podobnosť ohodnotenia videí ľuďmi na portáli YouTube s TweetRank-om • Medzi hodnoteniami sa nenašla korelácia • YouTube • Zmena hodnotiaceho mechanizmu • Dlhodobé hodnotenie používateľov • Aktuálnosť
Vlastná aplikácia pre hodnotenie • Predpoklad: Hodnotenie používateľov bude v korelácií s TweetRank-om • Navrhnutá a implementovaná vlastná aplikácia pre ohodnocovanie videí • Zozbieraných • 680 hodnotení • 70 používateľov
Porovnanie výsledkov 2/2 • Korelačný koeficient: = 0,387 • Kendallov koeficient: τ = -0,12519
Využitie TweetRank-u pre zoradenie výsledkov vyhľadávania • Predpoklad: Usporiadanie výsledkov vyhľadávania podľa TweetRank-u bude preferovať aktuálne informácie • Experiment s vyhľadávaním nad 20 000 stránkami • Naindexované pomocou vyhľadávacieho nástroja SOLR • Overenie nad testovacími hľadanými výrazmi • Radenie pomocou interného skóre priradeného vyhľadávačom a porovnanie s radením podľa TweetRank-u
Výsledky vyhľadávania • Obe zoradenia dávali iné výsledky • Vyhľadávanie slova „apple“ • Kendallov koeficient: τ = 0,07312
Zhodnotenie • Analyzovali sme mikroblog Twitter • Navrhli sme unikátnu metódu pre ohodnocovanie zdrojov na webe pomocou mikroblogu • Vychádza z autority používateľov na mikroblogu a využíva aj špecifické vlastnosti mikrobloguako je znovu-pípnutie
Zhodnotenie • Experimentom sme ukázali koreláciu medzi ohodnotením videí používateľmi a navrhnutej metódy • Vhodná metóda pre zistenie používateľských názorov a aj pri usporiadaní výsledkov vyhľadávania • Rozširuje súčasné metódy založené na textovej analýze