预处理

预处理:     3去停止词
    无论是英文还是中文，页面内容中都会有一些出现频率很高，却对内容没有任何影响的词，如“的”、“地”、“得”之类的助词.“啊”、“哈”、“呀”之类的感叹词，“从而”、“以”、“却”之类的副词或介词。这些词被称为停止词，因为它们对页面的主要意思没什么影响。英文中的常见停止词有the, a. an, to, of等。

    搜索引攀在索引页面之前会去掉这些停止词。使索引数据主题更为突出，减少无谓的计算量。

    4.消除噪声
    绝大部分页面上还有一部分内容对页面主题也没有什么贡献，比如版权声明文字、导航条、广告等.以常见的博客导航为例，几乎每个博客页面上都会出现文章分类、历史存档等导航内容，但是这些页面本身与“分类”、“历史”这些词都没有任何关系‘用户搜索”“历史”、“分类”这些关键词时仅仅因为页面上有这些词出现而返回博客帖子是毫无意义的，完全不相关，所以这些区块都属于噪声，对页面主题只能起到分散作用。

    搜索引擎需要识别并消除这些噪声，排名时不使用嗓声内容。消噪的基本方法是根据HTML，标签对页面分块，区分出页头、导肮、正文、页脚、广告等区域，在网站上大量重复出现的区块往往属于嗓声，对页面进行消嗓后，剩下的才是页面主体内容。

    5.去重
    搜索引擎还需要对页面进行去重处理。

    同一篇文章经常会重复出现在不同网站及同一个网站的不同网址上，搜索引擎并不喜欢这种重复性的内容。用户搜索时，如果在前两页看到的都是来自不同网站的同一篇文章，用户体验就太差了，虽然都是内容相关的，搜索引擎希望只返回相同文章中的一篇，所以在进行索引前还需要识别和删除重复内容，这个过程就称为“去重”。

    去重的基本方法是对页面特征关键词计算指纹。也就是说从页面主体内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词)。然后计算这些关键词的数字指纹。这里的关键词选取是在分词、去停止词、消嗓之后.实验表明，通常选取10个特征关键词就可以达到比较高的计算准确性，再选取更多词对去重准确性提高的贡献也就不大。

    典型的指纹计算方法如MD5算法(信息摘要算法第五版)，这类指纹算法的特点是，输入(特征关键词)有任何微小的变化，都会导致计算出的指纹有很大差距。

    了解了搜索引擎的去重算法，SEO人员就应该知道简单地增加“的、得、地”或者调换段落顺序这种所谓伪原创，并不能逃过搜索引擎的去重算法，因为这样的操作无法改变文章的特征关键词。而且搜索引擎的去重算法很可能不止于页面级别，而是进行到段落级别，混合不同文章、交叉调换段落顺序也不能使转载和抄袭变成原创。

    6.正向索引
    正向索引也可以简称为索引。

    经过文字提取、分词、消噪、去重后。搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。接下来搜索引擎索引程序就可以提取关键词，按照分词程序划分好的词，把页面转换为一个关键词组成的集合，同时记录每一个关键词在页面上的出现频率、出现次数、格式(如出现在标题标签、黑体、H标签，锚文字等)、位置(如页面第一段文字等)。这样，每一个页面都可以记录为一串关键词集合，其中每个关键词的词频、格式、位置等权重信息也都记录在案。

    每个文件都对应一个文件ID，文件内容被表示为一串关键同的集合，实际上在搜索引擎索引库中。关键词也己经转换为关键词ID。这样的数据结构就称为正向索引。

    7.倒排索引
    正向索引还不能直接用于排名。假设用户搜索关键词2，如果只存在正向索引，排名程序需要扫描所有索引库中的文件，找出包含关键词2的文件，再进行相关性计算。这样的计算里无法满足实时返回排名结果的要求。

    所以搜索引擎会将正向索引数据库重新构造为倒排索引。把文件对应到关键词的映射转换为关键词到文件的映射。

    在倒排索引中关键词是关键，每个关键词都对应着一系列文件，这些文件中都出现了这个关键词。这样当用户搜索某个关键词时，排序程序在倒排索引中定位到这个关键词，就可以马上找出所有包含这个关键词的文件。

    8.链接关系计算
    链接关系计算也是预处理中很重要的一部分。现在所有的主流搜索引擎排名因素中都包含网页之间的链接流动信息。搜索引擎在抓取页面内容后，必须事前计算出：页面上有脚些链接指向哪些其他页面，每个页面有哪些导入链接，链接使用了什么锚文字，这些复杂的链接指向关系形成了网站和页面的链接权重。

    Google PR值就是这种链接关系的最主要体现之一。其他搜索引擎也都进行类似计算，虽然它们并不称为PR.

    由于页面和链接数量巨大，网上的链接关系又时时处在更新中。因此链接关系及PR的计算要耗费很长时间。关于PR和链接分析，后面还有专门的章节介绍.

    9.特殊文件处理
    除了HTML文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如PDF, Word，WPS，XLS，PPT， TXT文件等，我们在搜索结果中也经常会着到这些文件类型。但目前的搜索引擎还不能处理图片、视频、Flash这类非文字内容，也不能执行脚本和程序。

    虽然搜索引擎在识别图片及从Flash中提取文字内容方面有些进步，不过距离直接靠读取图片、视频、Flash内容返回结果的目标还很远。对图片、视频内容的排名还往往是依据与之相关的文字内容，详细情况可以参考后面的整合搜索部分。

上一篇:TrustRank算法

下一篇:链接原理