320 likes | 802 Views
PageRank&Hits. Jing Ai Zhongyuan Wang. 2007-04-18. Search Results. Outline. 背景介绍 PageRank Hits PageRank vs Hits PageRank&Hits 在研究中的应用. Outline. 背景介绍 PageRank Hits PageRank vs Hits PageRank&Hits 在研究中的应用. 背景介绍. Web 上 超链接结构 是个非常丰富和重要的资源,如果能够充分利用的话,可以极大的提高检索结果的质量。
E N D
PageRank&Hits Jing Ai Zhongyuan Wang 2007-04-18
Outline • 背景介绍 • PageRank • Hits • PageRank vs Hits • PageRank&Hits在研究中的应用
Outline • 背景介绍 • PageRank • Hits • PageRank vs Hits • PageRank&Hits在研究中的应用
背景介绍 • Web上超链接结构是个非常丰富和重要的资源,如果能够充分利用的话,可以极大的提高检索结果的质量。 • Sergey Brin和Lawrence Page在1998年提出了PageRank算法,同年J. Kleinberg提出了HITS算法 • Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, 'The PageRank Citation Ranking: Bringing Order to the Web', 1998, http://www-db.stanford.edu/~backrub/pageranksub.ps • 为了更高效地计算 PageRank,以下是改良以后的一篇论文。Taher H. Haveliwala, ‘Efficient Computation of PageRank’, Stanford Technical Report, 1999, http://dbpubs.stanford.edu:8090/pub/1999-31 • PageRank(TM) 是美国 Google 公司的登记注册商标。
Google查询过程 • Google 查询的全过程通常不超过半秒时间,但在这短短的时间内需要完成多个步骤,然后才能将搜索结果交付给搜索信息的用户。 PageRank? HITS?
Outline • 背景介绍 • PageRank • Hits • PageRank vs Hits • PageRank&Hits在研究中的应用
这个算法不以站点排序,页面网页级别由一个个独立的页面决定 PageRank算法 • PageRank算法1其中:PR(A):页面A的网页级别, PR(Ti):页面Ti的网页级别,页面Ti链向页面A, C(Ti):页面Ti链出的链接数量,d:阻尼系数,取值在0-1之间 • PageRank算法2 其中N是互联网上所有网页的数量 PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
PageRank 的核心思想 • PageRank 是基于「从许多优质的网页链接过来的网页,必定还是优质网页」的回归关系,来判定所有网页的重要性。 因此,如果从类似于 Yahoo! 那样的 PageRank 非常高的站点被链接的话,仅此网页的 PageRank 也会一下子上升;相反地,无论有多少反向链接数,如果全都是从那些没有多大意义的页面链接过来的话,PageRank 也不会轻易上升。 • 反向链接数(单纯的意义上的受欢迎度指标) • 反向链接是否来自推荐度高的页面 (有根据的受欢迎指标) • 反向链接源页面的链接数 (被选中的几率指标)
Computing PageRank - initialize vector over web pages loop: - new ranks sum of normalized backlink ranks - compute normalizing factor - add escape term - control parameter while - stop when converged
行列阵的形式 aij=1 if (从页面 i 向页面 j 「 有 」 链接的情况) aij=0 if (从页面 i 向页面 j 「没有」链接的情况) • 当黑点呈横向排列时,表示这个页面有很多正向链接(即向外导出的链接); • 反之,当黑店呈纵向排列时,表示这个页面有很多反向链接。 PageRank 的行列阵是把 这个邻接行列倒置后 (行和列互换), 为了将各列(column)矢量的 总和变成 1 (全概率),
PageRank实例 链接源I D 链接目标 ID 1 2,3 ,4,5, 7 2 1 3 1,2 4 2,3,5 5 1,3,4,6 6 1,5 7 5
PageRank实例 A = [ 0, 1, 1, 1, 1, 0, 1; 1, 0, 0, 0, 0, 0, 0; 1, 1, 0, 0, 0, 0, 0; 0, 1, 1, 0, 1, 0, 0; 1, 0, 1, 1, 0, 1, 0; 1, 0, 0, 0, 1, 0, 0; 0, 0, 0, 0, 1, 0, 0; ] 1, 2, 3, 4, 5, 6, 7 1, 2, 3, 4, 5, 6, 7
PageRank实例 • M: 将 A 倒置后将各个数值除以各自的非零要素 M = [ 0, 1, 1/2, 0, 1/4, 1/2, 0; 1/5, 0, 1/2, 1/3, 0, 0, 0; 1/5, 0, 0, 1/3, 1/4, 0, 0; 1/5, 0, 0, 0, 1/4, 0, 0; 1/5, 0, 0, 1/3, 0, 1/2, 1; 0, 0, 0, 0, 1/4, 0, 0; 1/5, 0, 0, 0, 0, 0, 0; ]
PageRank实例 • 流入量 =(ID=2发出的Rank) +(ID=3发出的Rank) +(ID=5发出的Rank) +(ID=6发出的Rank) = 0.166+0.141/2+0.179/4+0.045/2 = 0.30375
Outline • 背景介绍 • PageRank • Hits • PageRank vs Hits • PageRank&Hits在研究中的应用
为什么要提出HITS算法? • PageRank算法中对于向外链接的权值贡献是平均的,也就是不考虑不同链接的重要性。而WEB的链接具有以下特征: 1.有些链接具有注释性,也有些链接是起导航或广告作用。有注释性的链接才用于权威判断。2.基于商业或竞争因素考虑,很少有WEB网页指向其竞争领域的权威网页。3.权威网页很少具有显式的描述,比如Google主页不会明确给出WEB搜索引擎之类的描述信息。 • 可见平均的分布权值不符合链接的实际情况
HITS算法相关知识 • 权威网页:一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页。这种网页称为权威(Authoritive)网页。 • Hub网页:提供指向权威网页的链接集合的WEB网页,它本身可能并不重要,或者说没有几个网页指向它,但是它提供了指向就某个主题而言最为重要的站点的链接集合,比如一个课程主页上的推荐参考文献列表。 • 在HITS算法中,对每个网页都要计算两个值:权威值(authority)与中心值(hub)
HITS算法介绍 • HITS(Hyperlink-Induced Topic Search)是一种链接分析算法 • 算法如下 : • 将查询q提交给传统的基于关键字匹配的搜索引擎.搜索引擎返回很多网页,从中取前n个网页作为根集合S(root set). • 把根集合中的页面所指向的页面都包括进来,再把指向根集合中的页面的页面也包括进来,这样就扩充成了基础集合(base set)T.
HITS算法介绍 • 对V1中的任一个顶点v,用h(v)表示网页v的Hub值,对V2中的顶点u,用a(u)表示网页的Authority值,开始时h(v)=a(u)=1 顶点集V1 Hub网页 顶点集V2 权威网页 边集E 超链接
HITS算法介绍 • 在V中的每个页面p都有一对非负的权重值〈ap,hp〉,其中ap表示权威值,hp表示中心值 • 设指向页面p的页面为q,ap的值则更新为所有hq的和: • 如果把页面p所指向的页面称为q,则hp的值更新为所有aq之和: • 这两步将被重复多次,最后按照得到的权威值和中心值对页面进行排序.
HITS算法的评价 • 若一个网页由很多好的Hub指向,则其权威值会相应增加(即权威值增加为所有指向它的网页的现有Hub值之和) • 若一个网页指向许多好的权威页,则Hub值也会相应增加(即Hub值增加为该网页链接的所有网页的权威值之和) • HITS算法输出一组具有较大Hub值的网页和具有较大权威值的网页。
Outline • 背景介绍 • PageRank • Hits • PageRank vs Hits • PageRank&Hits在研究中的应用
PageRank与Hit比较 • Query相关与否 • 权重传播模型 • 处理的数据量以及时间
Outline • 背景介绍 • PageRank • Hits • PageRank vs Hits • PageRank&Hits在研究中的应用
Find An Expert Prof. Weiyi Meng Yanyan Ling Co-author Prof. Shan Wang Wei Liu Jing Ai Co-author Work together visited Co-author Person Profile Affiliation: Renmin Univ Homepage:… Publication Title:… conference:… coauthors: wei liu, weiyi meng Supervised by Supervised by Co-author Supervised by Local information Prof. Xiaofeng Meng