电话:010-64681504 010-64684094
传真:010-64673024
邮箱:888@edo2008.com
手 机: 013693193565
按IP地址段屏蔽和隐藏页面
可以通过服务器端IP限制设置整个IP或IP段屏蔽特定蜘蛛。大部分搜索引擎从有限数量的IP段爬行,所以辩认蜘蛛〕、限制访问是可能的。具有讽刺意味的是,这个技术在误 以为搜索引擎蜘蛛是试图窃取内容的垃圾制作者的站长中很受欢迎,被用来屏蔽IP段的访问以节省带宽。屏蔽蜘蛛时要小心,确保不要限制能带来好处的蜘蛛访问。
根据用户代理屏蔽和隐藏页面
在服务器端可以检测用户代理,根据身份声明限制页面或网站访问。例如,如果一个网站检测到一个流氓蜘蛛,在允许访问之前你可以再次检查它的身份。搜索引擎都用类似协议确认其用户代理:做反向DNS查询,然后再做一个相应的正向DNS->IP查询。
仅仅是反向DNS查询可能并不够,因为造假者可以设置反向DNS指向xyz.googlebot.com或任何其他地址。
使用iframes
有时候,你不希望搜索引擎看到页面上的一部分内容。明智地使用iframe可能很方便。
概念很简单,使用iframe,可以将另一个URL上的内容嵌入到你选择的任何页面,然后通过robots.txt文件阻止蜘蛛访问iframe,这就确保了搜索引擎不会看到页面的这部分内容。网站可能有多种原因这样做,包括避免内容问题、降低返回给搜索引擎的页面大小或减少页面上可爬行的链接数目。
在图片中隐藏文字
主流搜索引擎还几乎不能读取图片中的文字。一般并不建议在图片中隐藏文字中,因为对替代设备并不实用,而且有时候无法访问。
在JAVA应用程序中隐藏文字
和图片中的文字一样,Java应用程序中的内容很难被搜索引擎解析,不过把它当做文字的工具是个挺奇怪的选择。
强制表格提交
搜索引擎不会提交HTML表格来尝试访问搜索或提交后才能获得的信息。因此,如果你将内容放在强制表格提交后面,完全没有外部链接,你的内容将不会出现在搜索引擎里。
表格后面的内容获得一些你无法控制的链接时可能会有问题,如博客、记者或研究人员链接到你存档中的页面,而你并不知道。因此,虽然表格提交将使搜索引擎无法访问,但是要确保真正敏感的内容必须要有额外的保护。
使用登录/密码保护
任何形式的密码保护都能有效防止任何搜索引擎访问内容,任何形式的用户确认要求也如此,例如CAPTCHAs。主流搜索引擎不会尝试猜测密码或绕过这些系统。
从搜索引擎索引中删除URL
在被索引之后,你可以通过网站认证和使用搜索引擎提供的工具删除URL。例如雅虎允许通过Site explorer系统删除URL。谷歌通过网管工具提供相似服务。微软必应也可能很快提供支持。
上一篇:URL转向和重写方法
下一篇:canonical标签