电话:010-64681504 010-64684094
传真:010-64673024
邮箱:888@edo2008.com
手 机: 013693193565
在Google诞生以前,传统搜索引擎主要依靠页面内容中的关键词匹配搜索词进行排名。这种排名方式的短处现在看来显而易见,那就是很容易被刻意操纵。黑帽SEO在页面上堆积关键词,或加入与主题无关的热门关键词,都能提高排名,使搜索引擎排名结果质量大为下降。现在的搜索引擎都使用链接分析技术减少垃圾,提高用户体验。本节就简要探讨链接在搜索引擎排名中的应用原理。
在排名中计入链接因素,不仅有助于减少垃圾,提高结果相关性,也使传统关键词匹配无法排名的文件能够被处理。比如图片、视频文件无法进行关键词匹配,但是却可能有外部链接,通过链接信息,搜索引擎就可以了解图片和视频的内容从而排名。
不同文字的页面排名也成为可能。比如在百度或google.cn搜索“SEO",都可以看到英文和其他文字的SEO网站。甚至搜索“搜索引擎优化”,也可以看到非中文页面,原因就在于有的链接可能使用“搜索引擎优化”为锚文字指向英文页面。
链接因素现在已经超过页面内容的重要性。不过理解链接关系比较抽象。页面上的因素对排名的影响能看得到,容易直观理解。举个简单的例子,搜索一个特定关键词,SEO人员只要观察前几页结果,就能看到:关键词在标题标签中出现有什么影响,出现在最前面又有什么影响,有技术资源的还可以大规模地统计,计算出关键词出现在标题标签中不同位置与排名之间的关系。虽然这种关系不一定是因果关系,但至少是统计上的联系,使SEO人员大致了解如何优化。
链接对排名的影响就无法直观了解,也很难进行统计,因为没有人能获得搜索引擎的链接数据库。我们能做的最多只是定性观察和分析。
下面介绍的一些关于链接的专利,多少透露了链接在搜索引擎排名中的使用方法和地位。
李彦宏超链分析专利
百度创始人李彦宏在回国创建百度之前就是美国顶级的搜索引擎工程师之一。据说李彦宏在寻找风险投资时,投资人询问其他三个搜索引擎业界的技术高人一个问题:要了解搜索引擎技术应该问谁。这三个被问到的高人中有两个回答:搜索引擎的事就问李彦宏。由此投资人断定李彦宏是最了解搜索引擎的人之一。
这其实就是现实生活中类似于链接关系的应用。要判断哪个页面最具权威性,不能光看页面自己怎么说,还要看其他页面怎么评价。
李彦宏1997年就提交了一份名为“超链文件检索系统和方法”的专利申请,这比Google创始人发明PR要早得多,不得不说这是非常具有前瞻性的研究工作。在这份专利中,李彦宏提出了与传统信息检索系统不同的基于链接的排名方法。
这个系统除了索引页面之外,还建立一个链接词库,记录链接锚文字的一些相关信息,如锚文字中包含哪些关键词,发出链接的页面索引,包含特定锚文字的链接总数,包含特定关键词的链接都指向哪些页面。词库不仅包含关键词原型,也包含同一个词干的其他衍生关键词。
根据这些链接数据,尤其是锚文字,计算出基于链接的文件相关性。在用户搜索时,将得到的基于链接的相关性与基于关键词匹配的传统相关性综合使用,得到更准确的排名。
在今天看来,这种基于链接的相关性计算是搜索引擎的常态,每个SEO人员都知道.但是在十三四年前,这无疑是非常创新的概念。当然现在的搜索引擎算法对链接的考虑,已经不仅仅是锚文字,实际上要复杂得多。
这份专利所有人是李彦宏当时所在的公司,发明人是李彦宏本人。感兴趣的读者可以在下面这个地址查看美国专利局发布的“超链文件检索系统和方法”专利详情:
http://patft.uspto.gov/netaegi/nph-Parser?patentnumber=5,920,859
HITS算法
HITS是英文Hyperlink-Induced Topic Search的缩写,意译为“超链诱导主题搜索”。HITS算法由Jon Kleinberg于1997年提出,并中请了专利:
http:/Ipatft.uspto.gov/netacgi/nph-Parser?patentnumber= 6,112,202
按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两个值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值指的是所有导入链接所在页面的枢纽值之和。
上面的定义比较拗口,我们可以简单地说,HITS算法会提炼出两种比较重要的页面,也就是枢纽页面和权威页面。枢纽页面本身可能没有多少导入链接,但是有很多导出链接指向权威页面。权威页面本身可能导出链接不多,但是有很多来自枢纽页面的导入链接。
典型的枢纽页面就是如雅虎目录、开放目录或好123这样的网站目录。这种高质量的网站目录作用就在于指向其他权威网站,所以称为枢纽。而权威网页有很多导入链接,其中包含很多来自枢纽页面的链接。权威页面通常是提供真正相关内容的页面。
HITS算法是针对特定查询词的,所以称为主题搜索。
HITS算法的最大缺点是,它在查询阶段进行计算,而不是在抓取或预处理阶段。所以HITS算法是以牺牲查询排名响应时间为代价的。原始HTIS算法在搜索引擎中并不常用。不过HITS算法的思想很可能融入到搜索引擎的索引阶段,也就是根据链接关系找出具有枢纽特征或权威特征的页面。
成为权威页面是第一优先,不过难度比较大,唯一的方法就是获得高质量链接。当你的网站不能成为权威页面时,就让它成为枢纽页面。所以导出链接也是当前搜索引擎排名因素之一。绝不链接到其他网站的做法,并不是好的SEO方法。