电话:010-64681504 010-64684094
传真:010-64673024
邮箱:888@edo2008.com
手 机: 013693193565
在一些SEO材料中,“预处理”也被简称为“索引”,因为索引是预处理最主要的步骤。
搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理。搜索引擎数据库中的页面数都在数万亿级别以上,用户输入搜索词后,靠排名程序实时对这么多页面分析相关性。计算最太大。不可能在一两秒内返回排名结果。因此抓取来的页面必须经过预处理,为最后的查询排名做好准备。
和爬行抓取一样,预处理也是在后台提前完成的,用户搜索时感觉不到这个过程。
1.提取文字
现在的搜索引擎还是以文字内容为基础。蜘蛛抓取到的页面中的HTML代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的HTML格式标签、JavaScript程序等无法用于排名的内容。搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的网页面文字内容。
比如下面这段HTML代码:
<div id="post-1100" class="post-1100 post hentry category-seo">
div class"posttitle">
href="http://www.edo2008.com/seoblog/2012/04/01/fools-day/"
re1="bookmark" title="permanent Link to 今天愚人节哈">今天愚人节哈</a></h2>
除去HTML代码后,剩下的用于排名的文字只是这一行:
今天愚人节哈
除了可见文字,搜索引擎也会提取出一些特殊的包含文字信息的代码,如Meta标签中的文字、图片替代文字、Flash文件的替代文字、链接锚文字等。
2.中文分词
分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的。搜索引攀必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。比如“减肥方法”将被分词为“减肥”和“方法”两个词。
中文分词方法基本上有两种,一种是基于词典匹配,另一种是基于统计。
基于词典匹配的方法是指,将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中己有的词条则匹配成功,或者说切分出一个单词。
按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同,又可以分为最大匹配和最小匹配。将扫描方向和长度优先混合,又可以产生正向最大匹配、逆向最大匹配等不同方法。
词典匹配方法计算简单,其准确度在很大程度上取决于词典的完整性和更新情况。
基于统计的分词方法指的是分析大量文字样本。计算出字与字相邻出现的统计概率。几个字相邻出现越多,就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应更快速。也有利于消除歧义。
基于词典匹配和基于统计的分词方法各有优劣,实际使用中的分词系统都是混合使用两种方法的,快速高效。又能识别生词、新词,消除歧义。
中文分词的准确性往往影响搜索引擎排名的相关性。比如在百度搜索“搜索引攀优化”。百度把“搜索引擎优化”这六个字当成一个词。
而在Google搜索同样的词,快照显示Google将其分切为“搜索”、“引擎”和“优化”三个词,显然百度切分得更为合理,搜索引擎优化是一个完整的概念。Google分词时倾向于更为细碎。
再举一个更明显的例子,在Google搜索“意动时代”四个字,快照显示Google将其切分为“意”,“动”及“时代”三个词。“意动时代”这个中文SEO领域最知名的品牌,显然并没有进入Google的词典中。
在百度搜索“意动时代”时会发现,百度将“意动时代”当做一个词。甚至在百度搜索“意动时代建站”,可以发现百度把“意动建站”都当成一个词。
这种分词上的不同很可能是一些关键词排名在不同搜索引擎有不同表现的原因之一。比如百度更喜欢将搜索词完整匹配地出现在页面上,也就是说搜索“意动时代”时,这四个字连续完整出现更容易在百度获得好的排名。Google就与此不同,不太要求完整匹配。
一些页面出现“意动”和“时代”两个词。但不必完整匹配地出现,“意动”出现在前面,“时代”出现在页面的其他地方,这样的页面在Google搜索“意动时代”时,也可以获得不错的排名。
搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏。而不是取决于页面本身如何,所以SEO人员对分词所能做的很少,唯一能做的是在页面上用某种形式提示搜索引擎,某几个字应该被当做一个词处理,尤其是可能产生歧义的时候,比如在页面标题、hl标签及黑体中出现关键词。如果页面是关于“和服”的内容,那么可以把“和服”这两个字特意标为黑体。如果页面是关于“化妆和服装”.可以把“服装”两个字标为黑体。这样,搜索引擎对页面进行分析时就知道标为黑体的应该是一个词。
上一篇:链接原理
下一篇:搜索引擎工作原理简介