robots.txt所被人忽略的细节
robots.txt的作用大家都知道,就是控制SE收录内容,告诉蜘蛛哪些文件和目录可以收录,哪些不可以收录。例如对一些重复的内容进行人工屏蔽,达到减少重复内容,提高排名的权重的效果。但是robots.txt还有一个重要的细节是经常被人忽略的。
对于中文站来说什么最麻烦?那就是编码 robots也一样,本以为直接使用utf-8就搞定了,没想到带来了问题
先看下我的robots.txt 因为评论是iframe嵌套,所以要屏蔽所有的comment.aspx页面,我的写法如下
User-agent: * Disallow: /comment.aspx
但是这两天site:的时候发现google吧/comment.aspx全部收录了,太郁闷了。赶快找到一个在线检查的工具,发现格式错误,我就很奇怪,为什么呢?
仔细察看他的报告,说文件最开始有几个乱码字符,这是什么东西?我没写啊弄了1个小时也没看出所以然来,突然想到我的robots.txt是utf-8的,utf-8会为了区分编码在文件的前面加一些特定的标识符,来说明这个文件是utf-8编码的,于是赶快用记事本另存为ansi,验证通过一切ok。可以静静等待google的去掉内容了。
我又看了一些seo相关的可以算是比较权威的网站,robots.txt都是使用的utf-8编码,这样的话写了等于没写嘿嘿,正所谓细节决定成败。
最后附我检测robots.txt文件的地址:
北京SEO 版权所有。转载时必须以链接形式注明作者和原始出处及本声明。

