robots.txt所被人忽略的细节

来源:ZergTant 发布于:3/14/2008 9:32:00 AM

robots.txt的作用大家都知道,就是控制SE收录内容,告诉蜘蛛哪些文件和目录可以收录,哪些不可以收录。例如对一些重复的内容进行人工屏蔽,达到减少重复内容,提高排名的权重的效果。但是robots.txt还有一个重要的细节是经常被人忽略的。

对于中文站来说什么最麻烦?那就是编码 robots也一样,本以为直接使用utf-8就搞定了,没想到带来了问题

先看下我的robots.txt 因为评论是iframe嵌套,所以要屏蔽所有的comment.aspx页面,我的写法如下

User-agent: *
Disallow: /comment.aspx

但是这两天site:的时候发现google吧/comment.aspx全部收录了,太郁闷了。赶快找到一个在线检查的工具,发现格式错误,我就很奇怪,为什么呢?

仔细察看他的报告,说文件最开始有几个乱码字符,这是什么东西?我没写啊弄了1个小时也没看出所以然来,突然想到我的robots.txt是utf-8的,utf-8会为了区分编码在文件的前面加一些特定的标识符,来说明这个文件是utf-8编码的,于是赶快用记事本另存为ansi,验证通过一切ok。可以静静等待google的去掉内容了。

我又看了一些seo相关的可以算是比较权威的网站,robots.txt都是使用的utf-8编码,这样的话写了等于没写嘿嘿,正所谓细节决定成败。

最后附我检测robots.txt文件的地址:

http://tool.motoricerca.info/robots-checker.phtml

收藏本页到: