蜘蛛爬网

蜘蛛爬网

下面我们来学习搜索引擎的基本工作原理。搜索引擎的基本部件是一种叫作“蜘蛛”的软件，它从各个站点提取文字内容，然后将这些内容传回到强大的中心“引擎”进行分析。蜘蛛的这种行为称为“爬网”。关于蜘蛛的工作原理有很多比喻，其中最恰当的一种比喻是蚂蚁。可以将搜索引擎的蜘蛛看作是到处探路的蚂蚁，它离开蚁穴只是为一个目的就寻找食物。对于蜘蛛而言，这里的“食物”就是HTML文本，因为可能有很多文本等待发现，所以蜘蛛必须沿着简单、没有障碍的路径前进。没着这些路径，仅具有简单思维能力的蚂蚁就可以将食物带回蚁穴，并将其存放在蚁丘（搜索引擎数据库）。在整个Internet上有成千上万只小家伙在同时进行探索和搜集工作。如果路径不存在或者被阻塞，蚂蚁将放弃这条路径并将前往别处。如果没有食物，那么蚂蚁将会空手而归。

基本上，可以将搜索引擎看作是存放了从亿万网站上收集到的大量文本信息的数据库。

那么怎样开动这个“引擎”呢？答案就是搜索。当某个WEB冲浪者将“grape bubble gum”输入到搜索引擎之后，所以与这个词语可能有关的内容都将被搜索出来。搜索引擎从它的数据库中筛选包含类似词语的网站。它使用一种神秘的公式对搜索结果进行排序，不到一秒钟，就返回了一个包含相关网站列表的结果页面，其中有很多包含了短语。

在蜘蛛搜索引擎对其主要搜索结果进行排序的时候，需要考虑很多事情。但是，要想进行排名，最基本的要求就是提供HTML文本内容给搜索引擎，并使用HTML链接人为清晰的搜索路径。

搜索引擎的其他名称

我们喜欢在聚会上讨论搜索引擎，当说“搜索引擎”这个术语时，我们指的实际上是像谷歌、雅虎和MSN这样的搜索网站。但是搜索行业可能对术语非常挑剔。从技术上讲，搜索引擎就是用来从索引数据库中检索信息的软件，而搜索网站则是组合并显示这些信息的网站。但坦率地讲，我们并不想追求术语的精确性。所有人都将雅虎称为搜索引擎，所以我们也只能放弃这种纯粹的定义。

下一篇:社区服务网站制定SEO计划实例