1 / 29

PageRank&Hits

PageRank&Hits. Jing Ai Zhongyuan Wang. 2007-04-18. Search Results. Outline. 背景介绍 PageRank Hits PageRank vs Hits PageRank&Hits 在研究中的应用. Outline. 背景介绍 PageRank Hits PageRank vs Hits PageRank&Hits 在研究中的应用. 背景介绍. Web 上 超链接结构 是个非常丰富和重要的资源,如果能够充分利用的话,可以极大的提高检索结果的质量。

Download Presentation

PageRank&Hits

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. PageRank&Hits Jing Ai Zhongyuan Wang 2007-04-18

  2. Search Results

  3. Outline • 背景介绍 • PageRank • Hits • PageRank vs Hits • PageRank&Hits在研究中的应用

  4. Outline • 背景介绍 • PageRank • Hits • PageRank vs Hits • PageRank&Hits在研究中的应用

  5. 背景介绍 • Web上超链接结构是个非常丰富和重要的资源,如果能够充分利用的话,可以极大的提高检索结果的质量。 • Sergey Brin和Lawrence Page在1998年提出了PageRank算法,同年J. Kleinberg提出了HITS算法 • Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, 'The PageRank Citation Ranking: Bringing Order to the Web', 1998, http://www-db.stanford.edu/~backrub/pageranksub.ps • 为了更高效地计算 PageRank,以下是改良以后的一篇论文。Taher H. Haveliwala, ‘Efficient Computation of PageRank’, Stanford Technical Report, 1999, http://dbpubs.stanford.edu:8090/pub/1999-31 • PageRank(TM) 是美国 Google 公司的登记注册商标。

  6. Google查询过程 • Google 查询的全过程通常不超过半秒时间,但在这短短的时间内需要完成多个步骤,然后才能将搜索结果交付给搜索信息的用户。 PageRank? HITS?

  7. Outline • 背景介绍 • PageRank • Hits • PageRank vs Hits • PageRank&Hits在研究中的应用

  8. 这个算法不以站点排序,页面网页级别由一个个独立的页面决定 PageRank算法 • PageRank算法1其中:PR(A):页面A的网页级别, PR(Ti):页面Ti的网页级别,页面Ti链向页面A, C(Ti):页面Ti链出的链接数量,d:阻尼系数,取值在0-1之间 • PageRank算法2 其中N是互联网上所有网页的数量 PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

  9. PageRank 的核心思想 • PageRank 是基于「从许多优质的网页链接过来的网页,必定还是优质网页」的回归关系,来判定所有网页的重要性。 因此,如果从类似于 Yahoo! 那样的 PageRank 非常高的站点被链接的话,仅此网页的 PageRank 也会一下子上升;相反地,无论有多少反向链接数,如果全都是从那些没有多大意义的页面链接过来的话,PageRank 也不会轻易上升。 • 反向链接数(单纯的意义上的受欢迎度指标) • 反向链接是否来自推荐度高的页面 (有根据的受欢迎指标) • 反向链接源页面的链接数 (被选中的几率指标)

  10. Computing PageRank - initialize vector over web pages loop: - new ranks sum of normalized backlink ranks - compute normalizing factor - add escape term - control parameter while - stop when converged

  11. 行列阵的形式 aij=1 if (从页面 i 向页面 j 「 有 」 链接的情况) aij=0 if (从页面 i 向页面 j 「没有」链接的情况) • 当黑点呈横向排列时,表示这个页面有很多正向链接(即向外导出的链接); • 反之,当黑店呈纵向排列时,表示这个页面有很多反向链接。 PageRank 的行列阵是把 这个邻接行列倒置后 (行和列互换), 为了将各列(column)矢量的 总和变成 1 (全概率),

  12. PageRank实例 链接源I D 链接目标 ID 1 2,3 ,4,5, 7 2 1 3 1,2 4 2,3,5 5 1,3,4,6 6 1,5 7 5

  13. PageRank实例 A = [ 0, 1, 1, 1, 1, 0, 1; 1, 0, 0, 0, 0, 0, 0; 1, 1, 0, 0, 0, 0, 0; 0, 1, 1, 0, 1, 0, 0; 1, 0, 1, 1, 0, 1, 0; 1, 0, 0, 0, 1, 0, 0; 0, 0, 0, 0, 1, 0, 0; ] 1, 2, 3, 4, 5, 6, 7 1, 2, 3, 4, 5, 6, 7

  14. PageRank实例 • M: 将 A 倒置后将各个数值除以各自的非零要素 M = [ 0, 1, 1/2, 0, 1/4, 1/2, 0; 1/5, 0, 1/2, 1/3, 0, 0, 0; 1/5, 0, 0, 1/3, 1/4, 0, 0; 1/5, 0, 0, 0, 1/4, 0, 0; 1/5, 0, 0, 1/3, 0, 1/2, 1; 0, 0, 0, 0, 1/4, 0, 0; 1/5, 0, 0, 0, 0, 0, 0; ]

  15. PageRank实例 • 流入量 =(ID=2发出的Rank) +(ID=3发出的Rank) +(ID=5发出的Rank) +(ID=6发出的Rank) = 0.166+0.141/2+0.179/4+0.045/2 = 0.30375

  16. Outline • 背景介绍 • PageRank • Hits • PageRank vs Hits • PageRank&Hits在研究中的应用

  17. 为什么要提出HITS算法? • PageRank算法中对于向外链接的权值贡献是平均的,也就是不考虑不同链接的重要性。而WEB的链接具有以下特征: 1.有些链接具有注释性,也有些链接是起导航或广告作用。有注释性的链接才用于权威判断。2.基于商业或竞争因素考虑,很少有WEB网页指向其竞争领域的权威网页。3.权威网页很少具有显式的描述,比如Google主页不会明确给出WEB搜索引擎之类的描述信息。 • 可见平均的分布权值不符合链接的实际情况

  18. HITS算法相关知识 • 权威网页:一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页。这种网页称为权威(Authoritive)网页。 • Hub网页:提供指向权威网页的链接集合的WEB网页,它本身可能并不重要,或者说没有几个网页指向它,但是它提供了指向就某个主题而言最为重要的站点的链接集合,比如一个课程主页上的推荐参考文献列表。 • 在HITS算法中,对每个网页都要计算两个值:权威值(authority)与中心值(hub)

  19. HITS算法介绍 • HITS(Hyperlink-Induced Topic Search)是一种链接分析算法 • 算法如下 : • 将查询q提交给传统的基于关键字匹配的搜索引擎.搜索引擎返回很多网页,从中取前n个网页作为根集合S(root set). • 把根集合中的页面所指向的页面都包括进来,再把指向根集合中的页面的页面也包括进来,这样就扩充成了基础集合(base set)T.

  20. HITS算法介绍 • 对V1中的任一个顶点v,用h(v)表示网页v的Hub值,对V2中的顶点u,用a(u)表示网页的Authority值,开始时h(v)=a(u)=1 顶点集V1 Hub网页 顶点集V2 权威网页 边集E 超链接

  21. HITS算法介绍 • 在V中的每个页面p都有一对非负的权重值〈ap,hp〉,其中ap表示权威值,hp表示中心值 • 设指向页面p的页面为q,ap的值则更新为所有hq的和: • 如果把页面p所指向的页面称为q,则hp的值更新为所有aq之和: • 这两步将被重复多次,最后按照得到的权威值和中心值对页面进行排序.

  22. HITS算法的评价 • 若一个网页由很多好的Hub指向,则其权威值会相应增加(即权威值增加为所有指向它的网页的现有Hub值之和) • 若一个网页指向许多好的权威页,则Hub值也会相应增加(即Hub值增加为该网页链接的所有网页的权威值之和) • HITS算法输出一组具有较大Hub值的网页和具有较大权威值的网页。

  23. Outline • 背景介绍 • PageRank • Hits • PageRank vs Hits • PageRank&Hits在研究中的应用

  24. PageRank与Hit比较 • Query相关与否 • 权重传播模型 • 处理的数据量以及时间

  25. Outline • 背景介绍 • PageRank • Hits • PageRank vs Hits • PageRank&Hits在研究中的应用

  26. Find An Expert Prof. Weiyi Meng Yanyan Ling Co-author Prof. Shan Wang Wei Liu Jing Ai Co-author Work together visited Co-author Person Profile Affiliation: Renmin Univ Homepage:… Publication Title:… conference:… coauthors: wei liu, weiyi meng Supervised by Supervised by Co-author Supervised by Local information Prof. Xiaofeng Meng

More Related