网站优化第八周:robots.txt

网站优化第八周:robots.txt

robots.txt文件是搜索引擎在访问网站的时候要查看的第一个文件。robots.txt文件决定了哪些蜘蛛的访问是受欢迎的，哪些不能进入，只能寻找下一个管制较松的网站。robots.txt可以按照目录的方式或者页面的方式允许或者页面的方式允许或者拒绝蜘蛛对网站的访问。

网站优化（SEO）从业人员对robots.txt文件有着一种特殊的情感，因为能够与搜索引擎蜘蛛直接打交道的机会是非常少的。然而，实际上robots.txt文件的功能非常有限。robots.txt文件的作用只是用来排除索引。就像夜总会保镖能够拒绝某人进入，但是不能强迫某人进入一样，robots.txt不能诱使蜘蛛在您的网站上花费更多的时间或者访问更多的页面。另外，遵守robots.txt文件是一种志愿行为，并不带有强迫性。几大搜索引擎一般都会试图遵守您的指令，但是其他某些声誉不是很好的搜索引擎并不会这样做。因此，您不能依靠robots.txt文件来防止某些敏感的、私有的或者不恰当的材料被蜘蛛索引。

是否需要robots.txt文件

您可能并不需要robots.txt文件。如果没有robots.txt文件，所有的蜘蛛将能够访问网站上所有没有被口令保护的页面。要想判断自己的网站是否需要robots.txt文件，考虑下几个问题：

（1）自己的网站上是否存在一些页面或者目录不希望被搜索引擎列出来，比如企业网或者内部的电话簿？

（2）是否不希望某些搜索引擎显示自己的网站？

（3）是否知道某些动态页面或者程序功能会给蜘蛛带来问题，比如让蜘蛛循环抓取？

（4）网站上是否有包含重复内容的页面？

（5）网站上是否存在一些只包含程序脚本但是没有可读的页面的目录？

如果这些问题的答案是否定的，那么您就不需要robots.txt文件。今天的任务也就结束了。如果这些问题中有任何一个的答案是肯定的，那么您今天就要准备好一个robots.txt文件。

创建robots.txt文件

robots.txt是一种非常简单的文件。可以打开www.edo2008.com/robots.txt文件看看我们的文件是什么样的，或者打开任何一个网站，查看其根目录下robots.txt文件的内容。

robots.txt的内容一般类似下面这样：

User-agent:googlebot

Disallow:/private-files/

Disallow:/more-private-files/

User-agent:*

Disallow:/review/

Disallow:/cgi-scripts/

在这个示例中，GOOGLE的蜘蛛被排除，它不能索引两个分别称为private-file和more-private-file目录中的文件，所有的蜘蛛都被排除，不能索引称为cgi-scripts的目录。

有很多网站可以让您体验robots.txt的构建和保存。

如果您对自己编写的robots.txt的正确性存在疑惑，就不要早早地将其提交到网站上去。绝不要不能意间打扰搜索引擎。

也可以看看您的前5名竞争对手的robots.txt文件的内容。

robots元标签

robots元标签的作用跟robots.txt的作用类似，但是它被放置在单个文件中而不是根目录下面。robots元标签的影响仅限于它所在的文件。您可能不会用到这种类型的标签，但是大致了解一下，有备无患。您可能选择使用robots元标签而不是robots.txt文件，原因在于您的网站上只有一两个文件需要被排除在外，或者您只想进行临时性的简单排除。还有一种可能就是，您没有访问网站目录的权限。

要想使用robots元标签将蜘蛛排除在某个页面之外，只需要将下面的代码包含在页面的HTML头部中：

这段代码将阻止搜索引擎蜘蛛索引这个页面的内容，或者跟随这个页面中的链接。

上一篇:网站优化第八周:PPC快速检查

下一篇:网站优化第八周:探索馆网站的弹出式窗口