使网站可以被搜索引擎访问

使网站可以被搜索引擎访问

　　可索引的内容
　　为了在搜索引擎中获得好的排名，网站内容——也就是网站访问者能看到的材料必须是HTML文字形式。虽然爬行技术已经有了进步，但是大部分图片、Flash、Java应用和其他非文字性内容不能被搜索引擎蜘蛛所看到。

　　虽然最简单的确保用户能看到的词和词组搜索引擎也能看到的方法是把内容放在页面HTML文字中，对那些需要更好格式及视觉展示风格的网站来说还有一些更高级的方法。例如GIF、JPEG和PNG格式的图片可以加上ALT属性，为搜索引擎提供视觉内容的文字描述。类似的，使用CSS样式可以将图片代替文字显示给用户，这个技术被称为“CSS图片替换”。

　　可爬行的链接结构
　　搜索引擎通过页面上的链接帮它们发现其他网页和网站。所以网站开发人员应该花时间建立一个蜘蛛容易爬行的链接结构。很多网站在这里犯了致使错误，将导航隐藏起来或者不清晰，使爬行非常困难，因此影响页面被搜索引擎收录进索引库的能力。

　　谷歌蜘蛛已经到达页面A并且看到连向页面B和E的链接。然而，虽然页面C和D可能是网站上重要页面，但蜘蛛没有办法访问，因为没有指向这些页面的可看待的链接。

　　对谷歌来说，这些页面和不存在一样——如果蜘蛛不能访问这些页面，好的内容、好的关键词优化、聪明的营销点子都完全起不到作用。

　　下面是页面不能被访问的一些常见原因。

　　隐藏的需要提交的表格中的链接
　　搜索引擎蜘蛛不会试图提交表格，因此，提交表格后才能盾到的任何内容或链接搜索引擎都看不到。甚至对非常简单的表格如用户登录、搜索框和某些下拉表单都是如此。

　　不能解析的JavaScript脚本中的链接
　　如果将链接放在JavaScript脚本中，你会发现搜索引擎或不爬行或者给予其中的链接非常低的。

　　Flash、Java和其他插件中的链接
　　嵌在Java和插件中的链接搜索引擎看不到。理论上说，搜索引擎在检测Flash中的链接方面有一些进步，但不要把希望放在这上面。

　　PowerPoint和PDF文件中的链接
　　PowerPoint和PDF文件和Flash、Java及插件没有什么区别。搜索引擎有时会显示PowerPoint和PDF文件中的链接，但是会计算多少权重无法知道。

　　指向被meta Robots标签、rel="NoFollow"和robots.txt屏蔽的页面的链接
　　robots.txt文件是禁止蜘蛛抓取网站上面的很简单方法。链接使用NoFollow属性或者在链接所在页面放上meta Robots标签将指示搜索引擎不要通过链接传递链接权重。

　　页面上有几百上千个链接
　　谷歌曾经建议页面最多放100个链接，超过这个数值，蜘蛛可能就停止抓行更多的链接了。这个限制值在某种程度上来说是灵活的，重要页面可能允许150甚至200个链接都能被跟踪。不过，一般来说，最好将页面上的链接限制在100个以下，不然可能造成多出来的链接不能被爬行。

　　frame和iframe里的链接
　　从技术上说，frame和iframe里的链接都可以被爬行，但是两者都给搜索引擎带来结构及跟踪上的问题。除非你是针对搜索引擎和跟踪frame中的链接有很好理解的高级用户，不然不出出于爬行目的在这些地方放上链接。

上一篇:开发一个SEO友好的网站

下一篇:各国的主流搜索引擎