1 / 25

Využitie mikroblogov na hodnotenie zdrojov na webe

Využitie mikroblogov na hodnotenie zdrojov na webe. Tomáš Majer Vedúci: Marián Šimko. Obsah. Mikroblogy Hodnotiace algoritmy Návrh vlastnej metódy Experimenty a dosiahnuté výsledky Zhodnotenie. Mikroblog. Forma blogu odlišujúca sa dĺžkou príspevku Nemoderované používateľské dáta

alvaro
Download Presentation

Využitie mikroblogov na hodnotenie zdrojov na webe

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Využitie mikroblogov na hodnotenie zdrojov na webe Tomáš Majer Vedúci: Marián Šimko

  2. Obsah • Mikroblogy • Hodnotiace algoritmy • Návrh vlastnej metódy • Experimenty a dosiahnuté výsledky • Zhodnotenie

  3. Mikroblog • Forma blogu odlišujúca sa dĺžkou príspevku • Nemoderované používateľské dáta • Aktuálnosť • Príspevky môžu obsahovať odkazy • Najznámejší Twitter

  4. Motivácia • Používateľské dáta je možné prepojiť s webovými stránkami,a tak získať väzbu medzi používateľmi a stránkami • Možné využiť pre hodnotenie stránok a získať relatívne ohodnotenie stránok • Nezávisléverejné hodnotenie stránok • Veľké množstvo dát – predstavuje potenciálny zdroj informácií

  5. Špecifiká mikrobloguTwitter • Dĺžka príspevkov 140 znakov • Hashtags – označenie # (triedenie, vyhľadávanie) • Priame správy – označenie @user • Nasledovníci – jednosmerná väzba medzi používateľmi • Znovu pípnutie – retweet • Geografické určenie pípnutia • 22% obsahuje odkaz (URL)

  6. Rozloženie pípnutí

  7. Základná schéma prispievania Internet Twitter T1 P1 U1 T2 T3 U2 P2 T4 U3 T5

  8. Ohodnocovaciegrafové algoritmy • Všeobecné grafové algoritmy • PageRank • HITS • SALSA • Špecifické algoritmy pre Twitter • TwitterRank • TunkRank • TrustRank

  9. TunkRank • “PageRank” pre Twitter • Každý používateľ ovplyvňuje ďalších používateľov, ktorí ho nasledujú a čítajú jeho pípnutia • Medzi nasledovníkmi je rovnaká pravdepodobnosť, že si prečítajú pípnutie používateľa, ktorého nasledujú. • Hodnotí len používateľov • Viac nasledovníkov s vysokým hodnotením znamená vyšší TunkRank Gayo-Avello, D.: NepotisticRelationships in Twitter and theirImpact on RankPrestigeAlgorithms, Arxivpreprint, arXiv:1004.0816, (2010), http://arxiv.org/pdf/1004.0816

  10. TwitterRank • Závislý od obsahu, témy • Problém so škálovaním • Špecifický pre Twitter • Hodnotí pípnutia, podobnosť v téme ovplyvňuje hodnotenie Weng, J., Lim, E.P., Jiang, J., He, Q.: TwitterRank: FindingTopic-sensitiveInfluentialTwitterers, In: Proceedingsofthethird ACM internationalconference on Web search and datamining, ACM, (2010), pp. 261-270, http://www.wsdm-conference.org/2010/proceedings/docs/p261.pdf

  11. Návrh algoritmu TweetRank

  12. TweetRank

  13. TweetRank Ohodnotenie používateľa / počet jeho pípnutí. Na ohodnotenie využíva upravený TunkRank.

  14. TweetRank Ohodnotenie používateľa / počet jeho pípnutí. Na ohodnotenie využíva upravený TunkRank. Ak ide o znovu pípnutie, tak sa zvýši ohodnotenie pípnutia

  15. Použitá dátová vzorka • Vytvorená spojením dvoch dátových vzoriek • Prvá obsahovala meta informácie o používateľoch a ich pípnutiach • Druhá pozostávala z väzieb medzi používateľmi • 1 997 446 pípnutí od 367 824 používateľov • 1 468 365 182 väzieb medzi 40 103 281 používateľmi

  16. Rozloženie pípnutí a vypočítaných hodnôt

  17. Experimenty • Porovnanie s YouTube hodnotením • Vlastná aplikácia pre hodnotenie • Využitie pri vyhľadávaní

  18. Porovnanie s hodnotením na portáli YouTube • Predpoklad:predpodkladali sme podobnosť ohodnotenia videí ľuďmi na portáli YouTube s TweetRank-om • Medzi hodnoteniami sa nenašla korelácia • YouTube • Zmena hodnotiaceho mechanizmu • Dlhodobé hodnotenie používateľov • Aktuálnosť

  19. Vlastná aplikácia pre hodnotenie • Predpoklad: Hodnotenie používateľov bude v korelácií s TweetRank-om • Navrhnutá a implementovaná vlastná aplikácia pre ohodnocovanie videí • Zozbieraných • 680 hodnotení • 70 používateľov

  20. Porovnanie výsledkov 1/2

  21. Porovnanie výsledkov 2/2 • Korelačný koeficient:  = 0,387 • Kendallov koeficient: τ = -0,12519

  22. Využitie TweetRank-u pre zoradenie výsledkov vyhľadávania • Predpoklad: Usporiadanie výsledkov vyhľadávania podľa TweetRank-u bude preferovať aktuálne informácie • Experiment s vyhľadávaním nad 20 000 stránkami • Naindexované pomocou vyhľadávacieho nástroja SOLR • Overenie nad testovacími hľadanými výrazmi • Radenie pomocou interného skóre priradeného vyhľadávačom a porovnanie s radením podľa TweetRank-u

  23. Výsledky vyhľadávania • Obe zoradenia dávali iné výsledky • Vyhľadávanie slova „apple“ • Kendallov koeficient: τ = 0,07312

  24. Zhodnotenie • Analyzovali sme mikroblog Twitter • Navrhli sme unikátnu metódu pre ohodnocovanie zdrojov na webe pomocou mikroblogu • Vychádza z autority používateľov na mikroblogu a využíva aj špecifické vlastnosti mikrobloguako je znovu-pípnutie

  25. Zhodnotenie • Experimentom sme ukázali koreláciu medzi ohodnotením videí používateľmi a navrhnutej metódy • Vhodná metóda pre zistenie používateľských názorov a aj pri usporiadaní výsledkov vyhľadávania • Rozširuje súčasné metódy založené na textovej analýze

More Related