在一个站点的根目录下,而且文件名必须全部小写。要访问robots.txt文件就是在域名后面加“/robots.txt”,比如说访问www.zzrl120.com樘论罪朋网站中的robots协议,就应该在地址栏输入www.zzrl120.com/robots.txt 就可以访问了。 robots协议是搜索引擎在爬取网站的时候要查看的第一个文件,文件会告诉蜘蛛程序在服务器上什么文件是可以被查看的,对应的不允许查看的内容,蜘蛛程序是不会查看。
robots协议中的代码说明:
1、User-agent:*允许所有搜索引擎抓取(注意每个":"后面的描述都是在加上空格之后的,User-agent:空格*)Allow:/允许抓取
2、Disallow:/admin/后台管理文件
3、Disallow:/require/程序文件
4、Disallow:/attachment/附件
5、Disallow:/images/图片
6、Disallow:/data/数据库文件
7、Disallow:/template/模板文件
8、Disallow:/css/样式表文件
9、Disallow:/lang/编码文件
10、Disallow:/script/脚本文件
robots实例:
1、禁止所有搜索引擎访问网站的任何部分 : User-agent: * Disallow: /
2、允许所有的robot访问: User-agent: * Disallow: 或者 User-agent: * Allow: /
3、仅禁止Bai蟠校盯昂duspider访问您的网站:User-agent: BaiduspiderDisallow: /仅允许Baiduspider访问您的网站:User-agent: BaiduspiderDisallow:User-agent: *Disallow: /
4、禁止衡痕贤伎spider访问特定目录:(需要注意的是对每一个目录必须分开声明,而不能写成 "Disallow: /cgi-bin/ /tmp/")User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/
5、允许访问特定目录中的部分url:User-agent: *Allow: /cgi-bin/seeAllow: /tmp/hiAllow: /~joe/lookDisallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/
6、使用"*"限制访问url:User-agent: *Disallow: /cgi-bin/*.htm
7、使用"$"限制访问url:User-agent: *Allow: .htm$Disallow: /
8、禁止访问网站中所有的动态页面:User-agent: *Disallow: /*?*
9、禁止幞洼踉残Baiduspider抓取网站上所有图片:(若是某一张图片,就是指到对应的图片路径和名称即可)User-agent: BaiduspiderDisallow: .jpg$Disallow: .jpeg$Disallow: .gif$Disallow: .png$Disallow: .bmp$
10、仅允许Bai蟠校盯昂duspider抓取网页和.gif格式图片:User-agent: BaiduspiderAl造婷用痃low: .gif$Disallow: .jpg$Disallow: .jpeg$Disallow: .png$Disallow: .bmp$仅禁止Baiduspider抓取.jpg格式图片:User-agent: BaiduspiderDisallow: