首页 >搜索营销

HITS排名算法研究详解

发布时间:2015-11-23     发布者:本地    

来自康奈尔大学的KleinBerg设计了一种HITS分析链接的方式来计算网页的权威值,该算法的思想是与所查询的主题相关的程度决定着网页的重要性,HITS 中给出了权威性网页的定义。


互联网上存在一个广义的主题包含有很多明显的权威性文档,从链接的角度来看权威网页是可以通过很多超链接来访问的,也可以解释为被大量的网页作者所承认和赞同的,然而,在实际中只通过这种检索链接数目策略来描述互联网环境中网页的权威性仍会存在有很多问题。


在多数情况下,相同领域内的权威网页间一般不存在相互链接(相互之间并不“认可”)的关系。比方说,Netscape 和Microsoft虽然共同被认为是浏览器领域中的权威网站,但是因为竞争的关系它们之间存在相互链接的可能性几乎为零,然而,它们经常同时被一些不出名的网站所共同链入。


KleinBerg认为中心性网页的概念就来源于这种情况,多个主题相关的权威网页作为它们的链出。通过权威网页和中心网页这两种不同类型的网页,它们之间的相互依赖联系可以形成一个二者的链接结构:质量好的权威网页应该被许多质量好的中心性网页所链接,而一个质量好的中心网页应该被一个质量好的权威网页所链接。


HITS算法认为,利用传统的基于查询词匹配的检索系统进行查询时,假设查询词为q,系统返回的结果中前n 个作为它的根集,用R表示。R需要满足三个假设:R集合中具有很少的元素(网页);查询词与R集合中的绝大多数元素是相关的;R集合中的元素大多是权威的。


把与R集合中的元素有链接关系的网页也加入到R中,把R扩展为一个更大的集合A。将A中的中心网页视为顶点集合P1,将权威网页视为顶点集合P2,将P1中的元素与P2中的元素的超链接关系视为边集E,构成一个二分有向图结构SG=(P1,P2,E)。


用h(v)来表示P1中的任一个顶点p(网页)的中心值;用a(u)来表示P2中的顶点u(网页)的权威值。设1为h(v)和a(u)的初始值,令第一个操作为a=ATh ,第二个操作为h=Aa,重复执行上述两个操作,并且每次执行的时候都要规范化a和h,使其值在规定的范围内,如此反复直到a和h的值分别收敛与A AT和AAT的主特征向量。Hits算法计算出的网页权威值和中心值都较大。


上一篇:搜索引擎主题漂移现象详解 下一篇:百度排名算法之词频位置加权统计法

相关新闻