电话:010-64681504 010-64684094
传真:010-64673024
邮箱:888@edo2008.com
手 机: 013693193565
前面介绍了李彦宏超链接分析专利,HITS算法专利,下面为大家介绍一下TrustRank算法,TrustRank算法是近年来比较受关注的基于链接关系的排名算法。TrustRank可以翻译为“信任指数”。
TrustRank算法
TrustRank算法最初来自于2004年斯坦福大学和雅虎的一项联合研究,用来检测垃圾网站,并且于2006年申请专利。TrustRank算法发明人还发表了一份专门的PDF文件,说明TrustRank算法的应用。感兴趣的读者可以在下面这个网址下载PDF文件:
http://www.vldb.org/conf/2004/RS15P3.PDF
TrustRank算法并不是由Google提出的,不过由于Google所占市场份额最大,而且TrustRank在Google排名中也是一个非常重要的因素,所以有些人误以为TrustRank是Google提出的。更让人糊涂的是,Google曾经把TrustRank申请为商标,但是TrustRank商标中的TrustRank指的是Google检测含有恶意代码网站的方法,而不是指排名算法中的信任指数。
基于这个假设,如果能挑选出可以百分百信任的网站,这些网站的TrustRank评为最高,这些trustrank最高的网站所连接的网站信任指数稍微降低,但也会很高。与此类似,第二层别信任的网站链接出去的第三层网站,信任度继续下降。由于种种原因,好的网站也不可避免的会接到一些垃圾网站,不过离第一层网站点击距离越近,所传递的信任指数就越高,第一级网站点击距离越远,信任指数将依次下降。这样trustrank算法,就能给所有网站计算出相应的信任指数,离第一层网站越远,成为垃圾网真的可能性就越大。
计算TrustRank值首先要选择一批种子网站,然后人工查看网站,设定一个初始TrustRank值。挑选种子网站有两种方式,一种是选择导出链接最多的网站,因为TrustRank算法就是计算指数随着导出链接的衰减,导出链接多的网站,在某种意义上可以理解为“逆向PR值”比较高。
另一种挑选种子网站的方法是选PR值高的网站,因为PR值越高,在搜索结果页面出现的概率就越大,这些网站才正是TrustRank算法最关注的、需要调整排名的网站,那些PR值很低的页面,在没有TrustRank算法时排名也很靠后,计算TrustRank意义就不大了。
根据测算,挑选出两百个左右网站作为种子,就可以比较精确地计算出所有网站的
TrustRank值。
计算TrustRank随链接关系减少的公式有两种方式。一种是随链接次数衰减,也就是说如果第一层页面TrustRank指数是100,第二层页面衰减为90,第三层衰减为80。第二种计算方法是按导出链接数目分配TrustRank值,也就是说,如果一个页面的TrustRank值是100,页面上有5个导出链接,每个链接将传递20%的TrustRank值。衰减和分配这两种计算方法通常综合使用,整体效果都是随着链接层次的增加,TrustRank值逐步降低.
得出网站和页面的TrustRank值后,可以通过两种方式影响排名。一种是把传统排名算法挑选出的多个页面,根据TrustRank值比较,重新做排名调整。另一种是设定一个最低的TrustRank值门槛,只有超过这个门槛的页面,才被认为有足够的质量进入排名,低于门槛的页面将被认为是垃圾页面,从搜索结果中过滤出去。
虽然TrustRank算法最初是作为检测垃圾的方法,但在现在的搜索引擎排名算法中,TrustRank概念使用更为广泛,常常影响大部分网站的整体排名,TrustRank算法最初针对的是页面级别,现在在搜索引擎算法中,TrustRank值也通常表现在域名级别,整个域名的信任指数越高,整体排名能力就越强。
Google PR
PR是PageRank的缩写,Google PR理论是所有基于链接的搜索引擎理论中最有名的。SEO人员可能不清楚本节介绍的其他链接理论,但不可能不知道PR。
PR是Google创始人之一拉里佩奇发明的,用于表示页面重要性的概念。用最简单的话说就是,反向链接越多的页面就是越重要的页面,因此PR值也就越高。
Google PR有点类似于科技文献中互相引用的概念,被其他文献引用较多的文献,很可能是比较重要的文献。
1.PR的概念和计算
我们可以把互联网理解为由结点及链接组成的有向图,页面就是一个个结点,页面之间的有向链接传递着页面的重要性。一个链接传递的PR值决定于导入链接所在页面的PR值,发出链接的页面本身PR值越高,所能传递出去的PR也越高。传递的PR数值也取决于页面上的导出链接数目。对于给定PR值的页面来说,假设能传递到下级页面100份PR,页面上有10个导出链接,每个链接能传递10份PR,页面上有20个导出链接的话,每个链接只能传递5份PR。所以一个页面的PR值取决于导入链接总数,发出链接页面的PR值,以及发出链接页面上的导出链接数目。感兴趣的话可以到百度查一下PR值得计算公式。
2.关于PR的两个比喻模型
关于PR有两个著名的比喻。一个比喻是投票。链接就像民主投票一样,A页面链接到B页面,就意味着A页面对B页面投了一票,使得B页面的重要性提高,同时,A页面本身的PR值决定了A所能投出去的投票力,PR值越高的页面,投出的票也更重要。在这个意义上,传统基于关键词匹配的算法是看页面自己说页面内容是什么,基于链接的PR则是看别人怎么评价一个页面。
第二个比喻是随机冲浪比喻。假设一个访问者从一个页面开始,不停地随机点击链接,访问下一个页面,有时候这个用户感到无聊了,不再点击链接,就随机跳到了另外一个网址,再次开始不停地向下点击。所谓PR值,也就是一个页面在这种随机冲浪访问中被访问到的概率,一个页面导入链接越多,被访问到的概率也越高,因此PR值也越高。
阻尼系数也与随机冲浪模型有关。PR值公式中的(1-d)=0.15实际上就是用户感到无聊,停止点击,随机跳到新URL的概率。
3.工具条PR
真正的用于排名计算的Google PR值我们是无法知道的,我们所能看到的只是Google工具条PR值。需要清楚的是,工具条PR值并不是真实PR值的精确反映。真实PR值是一个准确的、大于0.15、没有上限的数字,工具条上显示的PR值已经简化为0-10这11个数字,是一个整数,也就是说PR值最小的近似为0,最大的近似为10。实际上每一个工具条PR值代表的是很大一个范围,工具条PR5代表的页面真实PR值可能相差很多倍。
真正的PR值是不间断计算更新中的,工具条PR值只是某一个时间点上真实PR值的快照输出。工具条PR几个月才更新一次,一般在月末最后一天或则当月第一天更新。
工具条PR与反向链接数目呈对数关系,而不是线性关系。也就是说如果从PR1到PR2需要的外部链接是100个,从PR2到PR3则需要大致1000个,PR5到PR6需要的外部链接则更多。所以PR值越高的网站想提升一级所要付出的时间和努力比PR值比较低的网站提升一级要多得多。
4.关于PR的几个误解
PR的英文全称是PageRank。这个名称来源于发明人佩奇(Page)的名字,巧合的是Page在英文中也是页面的意思。所以准确地说PageRank这个名字应该翻译为佩奇级别,而不是页面级别。不过约定俗成,再加上巧妙的一语双关,大家都把PR称为页面级别。
PR值只与链接有关。经常有站长询问,他的网站做了挺长时间,内容也全是原创的,怎么PR还是零呢?其实PR与站长是否认真、做站多长时间、内容是否原创都没有直接关系。有反向链接就有PR,没有反向链接就没有PR。一个高质量的原创网站,一般来说自然会吸引到比较多的外部链接,所以会间接提高PR值,但这并不是必然的。
工具条PR值更新与页面排名变化在时间上没有对应关系。在工具条PR值更新过程中,经常有站长说PR值提高了,难怪网站排名也提高了。可以肯定地说这只是时间上的巧合而己。前面说过,真实的用于排名计算的PR是连续计算更新的,随时计入排名算法。我们看到的工具条PR几个月才更新一次,当我们看到有PR更新时,真实的PR早在几个月之前就更新和计入排名里了,所以,通过工具条PR变化,研究PR值与排名变化之间的关系是没有意义的。
5.PR的意义
Google工程师说过很多次,Google PR现在已经是一个被过度宣传的概念,其实PR只是Google排名算法的200多个因素之一,而且重要性已经下降很多,SEO人员完全不必太执着于PR值的提高。
当然,PR还是Google排名算法中的重要因素之一。除了直接影响排名,PR的重要
性还体现在下面几点。
(1)网站收录深度和总页面数。搜索引擎蜘蛛爬行时间及数据库的空间都是有限的。Google希望尽量优先收录重要性高的页面,所以PR值越高的网站就能被收录更多页面,蜘蛛爬行内页的深度也更高。对大中型网站来说,首页PR值是带动网站收录的重要因素之一。
(2)更新频率。PR值越高的网站,搜索引擎蜘蛛访问得就越频繁,网站上出现新页面或旧页面上内容更新时,都能更快速地被收录。由于网站新页面通常都会在现有页面上出现链接,因此更新频率高也就意味着被发现的速度快。
(3)重复内容判定。当Google在不同网站上发现完全相同的内容时。会选出一个作为原创,其他作为转载或抄袭。用户搜索相关关键词时。被判断为原创的那个版本会排在前面。而判断哪个版本为原创时,PR值也是重要因素之一。这也就是为什么那些权重高、PR值高的大网站,转载小网站内容却经常被当做原创的原因。
(4)排名初始子集的选择。前面介绍排名过程时提到,搜索引擎挑选出所有与关键词匹配的文件后,不可能对所有文件进行相关性计算,因为返回的文件可能有几百万、几千万,搜索引擎需要从中挑选出一个初始子集,再做相关性计算。初始子集的选择显然与关键词相关度无关,而只能从页面的重要程度着手,PR值就是与关键词无关的重要度指标。
现在的PR算法与当初拉里佩奇专利中的描述相比肯定有了改进和变化。一个可以观察到的现象是,PR算法应该已经排除了一部分Google认为可疑或者无效的链接,比如付费链接、博客和论坛中的垃圾链接等。所以有时候我们会看到一个页面有PR6甚至PR7的导入链接,经过几次工具条PR更新后,却还维持在PR3甚至PR2。按说一个PR6或7的链接,应该把被链接的页面带到PR5或PR4.所以很可能Google己经把一部分它认为可疑的链接排除在PR计算之外。
PR专利发明人是拉里佩奇,专利所有人是斯坦福大学,Google公司拥有永久性排他使用权。虽然PR是Google拥有专利使用权的算法,但其他所有主流搜索引擎也都有类似算法,只不过不称为PR而己。