做SEO
我们是认真的!

常用SEO链接算法:HITS链接分析算法

  HITS(HITS(Hyperlink – Induced Topic Search) ) 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。HITS算法是链接分析中非常基础且重要的算法,目前已被Teoma搜索引擎(www.teoma.com)作为链接分析算法在实际中使用。

  1. Hub页面与Authority页面

  Hub页面(枢纽页面)和Authority页面(权威页面)是HITS算法最基本的两个定义。

  所谓“Authority”页面,是指与某个领域或者某个话题相关的高质量网页,比如搜索引擎领域,Google和百度首页即该领域的高质量网页,比如视频领域,优酷和土豆首页即该领域的高质量网页。

  所谓“Hub”页面,指的是包含了很多指向高质量“Authority”页面链接的网页,比如hao123首页可以认为是一个典型的高质量“Hub”网页。

  图1给出了一个“Hub”页面实例,这个网页是斯坦福大学计算语言学研究组维护的页面,这个网页收集了与统计自然语言处理相关的高质量资源,包括一些著名的开源软件包及语料库等,并通过链接的方式指向这些资源页面。这个页面可以认为是“自然语言处理”这个领域的“Hub”页面,相应的,被这个页面指向的资源页面,大部分是高质量的“Authority”页面。

  HITS算法的目的即是通过一定的技术手段,在海量网页中找到与用户查询主题相关的高质量“Authority”页面和“Hub”页面,尤其是“Authority”页面,因为这些页面代表了能够满足用户查询的高质量内容,搜索引擎以此作为搜索结果返回给用户。

 

  2. 算法基本思想:相互增强关系

  基本假设1:一个好的“Authority”页面会被很多好的“Hub”页面指向;

  基本假设2:一个好的“Hub”页面会指向很多好的“Authority”页面;

 

  3. HITS算法

  具体算法:可利用上面提到的两个基本假设,以及相互增强关系等原则进行多轮迭代计算,每轮迭代计算更新每个页面的两个权值,直到权值稳定不再发生明显的变化为止。

  步骤:

  3.1 根集合

  1)将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(root set),记为root,则root满足:

  1).root中的网页数量较少

  2).root中的网页是与查询q相关的网页

  3).root中的网页包含较多的权威(Authority)网页

  这个集合是个有向图结构:

  3.2 扩展集合base       

  在根集root的基础上,HITS算法对网页集合进行扩充(参考图2)集合base,扩充原则是:凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base,无论是有链接指向根集内页面也好,或者是根集页面有链接指向的页面也好,都被扩充进入扩展网页集合base。HITS算法在这个扩充网页集合内寻找好的“Hub”页面与好的“Authority”页面。

  3.3 计算扩展集base中所有页面的Hub值(枢纽度)和Authority值(权威度)      

  1) 、 分别表示网页结点 i 的Authority值(权威度)和Hub值(中心度)。     

  2) 对于“扩展集base”来说,我们并不知道哪些页面是好的“Hub”或者好的“Authority”页面,每个网页都有潜在的可能,所以对于每个页面都设立两个权值,分别来记载这个页面是好的Hub或者Authority页面的可能性。在初始情况下,在没有更多可利用信息前,每个页面的这两个权值都是相同的,可以都设置为1,即:

  3)每次迭代计算Hub权值和Authority权值:

  网页 a (i)在此轮迭代中的Authority权值即为所有指向网页 a (i)页面的Hub权值之和:

  a (i) = Σ h (i) ;

  网页 a (i)的Hub分值即为所指向的页面的Authority权值之和:

  h (i) = Σ a (i) 。

  对a (i)、h (i)进行规范化处理:

  将所有网页的中心度都除以最高中心度以将其标准化:

  a (i) = a (i)/|a(i)| ;

  将所有网页的权威度都除以最高权威度以将其标准化:

  h (i) = h (i)/ |h(i)| :

  5)如此不断的重复第

  4):上一轮迭代计算中的权值和本轮迭代之后权值的差异,如果发现总体来说权值没有明显变化,说明系统已进入稳定状态,则可以结束计算,即a ( u),h(v)收敛 。

 

算法描述:

  如图3所示,给出了迭代计算过程中,某个页面的Hub权值和Authority权值的更新方式。假设以A(i)代表网页i的Authority权值,以H(i)代表网页i的Hub权值。在图6-14的例子中,“扩充网页集合”有3个网页有链接指向页面1,同时页面1有3个链接指向其它页面。那么,网页1在此轮迭代中的Authority权值即为所有指向网页1页面的Hub权值之和;类似的,网页1的Hub分值即为所指向的页面的Authority权值之和。

  图3 Hub与Authority权值计算

  3.4  输出排序结果

  将页面根据Authority权值得分由高到低排序,取权值最高的若干页面作为响应用户查询的搜索结果输出。

 

  4. HITS算法存在的问题    

 

  5. HITS算法与PageRank算法比较

未经允许不得转载:广州seo小雨 » 常用SEO链接算法:HITS链接分析算法