150 likes | 284 Views
HITS Hypertext induced topic search. Павле Бајић 2011/3398 bp113398m@student.etf.rs. Садржај. Увод Проблем Идеја Алгоритам Примена Недостаци Закључак Библиографија. Увод. Hypertext induced topic search Link analysis алгоритам Развијен 1998 . (у исто време PageRank)
E N D
HITSHypertext induced topic search Павле Бајић 2011/3398 bp113398m@student.etf.rs
Садржај • Увод • Проблем • Идеја • Алгоритам • Примена • Недостаци • Закључак • Библиографија
Увод • Hypertext induced topic search • Link analysis алгоритам • Развијен 1998. (у исто време PageRank) • Jon M. Kleinberg, Dept. of Computer Science, Cornell University • Рангирање страница на основу унетог критеријума претраге
Увод • Друштвене мреже (social networks) • Дисциплина која проучава друштвене ентитете - Учесници и односи међу њима • Усмерени граф • Библиометрија • Квантитавна анализа научне и технолошке литературе • Радови А и Б цитирају К => А и Б су у неком односу • Рад К цитира А и Б => А и Б су у неком односу
Проблем - куповина аутомобила • Који производ је најбољи? • Како одабрати онај који највише одговара? • Коме веровати при куповини?
Идеја • Hubs – странице којима можемо даверујемо да указују на ‘праве’ странице • Authorities – страницe које садрже оно што нам треба • Свакој страници доделити две вредности • Hub value (h)– на колико других страница указује страница p(out-links) • Authorityvalue(a)– колико других страница указују на страницу p(in-links)
Идеја • Претрага σ (text search)враћа резултате Q • Скуп Sσ од t≈ 200страница који се анализира треба да задовољи следеће премисе: • Sσје мали скуп • Sσје садржи релевантне странице • Sσ садржи већину најауторитарнијих страница
Алгоритам • Претрага σ и дохватање резултата (Qσ) • Пронаћи корени скуп Rσ⊆ Qσ (типично 200 стр.) • Експандовање Rσдо базног скупа Sσ • Пронаћи d ≤ 50 страница које су улазне или излазне ∀p∈Rσ • Рачунање вредности сваке странице
Алгоритам • Међусобна рекурзија ∀p∈ Sσa(p) = 1, h(p) = 1 a ( p ) = Σ h ( q) ← authority q → p (in-links) нормализација h ( p ) = Σ a ( q ) ← hub p → q(out-links) нормализација
S := set of pages for each page p in S do p.auth = 1 // p.auth is the authority score of the page p p.hub = 1 // p.hub is the hub score of the page p function HubsAndAuthorities(S) for step from 1 to k do norm = 0 // update all authority values first for each page p in S do p.auth = 0 // p.incomingNeighbors is the set of pages that link to pfor each page q in p.incomingNeighborsdo p.auth += q.hub norm += square(p.auth) // calculate the sum of the squared auth values to normalize norm = sqrt(norm) // normalize the auth values for each page p in S do p.auth = p.auth / norm norm = 0 // then update all hub values for each page p in S do p.hub = 0 //p.outgoingNeighbors is the set of pages that p links to for each page r in p.outgoingNeighborsdo p.hub += r.auth norm += square(p.hub) // calculate the sum of the squared hub values to normalize norm = sqrt(norm) // normalize the hub values for each page p in S do p.hub = p.hub / norm Алгоритам - псеудокод
Примена • Ask.com – купио Teoma претраживач • Clever – IBM претраживач, у развоју
Недостаци • Зависи од критеријума претраге • Извршава се тек пошто се дохвате странице • Лако се спамује • Додавање out-link-ова у било коју страницуповећава како h вредност, тако и a вредност • Лутање у садржају • Странице проширеног скупа можда и нису у вези са оргиналном темом • Неефикасан??? • Операције проширења скупа ирачунања вредности a и h коштају
Закључак • Како побољшати? • Избацити странице qiкоје су на истом доменукао страница p • Избацити страницу wиз експандованог скупаако се разликује по садржају од корених • Дати тежину страници на основу сличностиhref (anchor text) и саме претраге, а не 1
Библиографија • J. Kleinberg, “Authoritative Sources in a hyperlinked environment”, Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, January 1998 • http://www.cs.uic.edu/~liub/teach/cs583-fall-07/cs583.html • Bing Liu, “Web data mining”, Springer 2007 • http://www.math.cornell.edu/~mec/Winter2009/RalucaRemus/Lecture4/lecture4.html • http://en.wikipedia.org/wiki/HITS_algorithm • http://en.wikipedia.org/wiki/Bibliometrics