robots.txt文件代码说明实例

时间：2024-10-11 23:26:12

在一个站点的根目录下，而且文件名必须全部小写。要访问robots.txt文件就是在域名后面加“/robots.txt”，比如说访问www.zzrl120.com樘论罪朋网站中的robots协议，就应该在地址栏输入www.zzrl120.com/robots.txt 就可以访问了。 robots协议是搜索引擎在爬取网站的时候要查看的第一个文件，文件会告诉蜘蛛程序在服务器上什么文件是可以被查看的，对应的不允许查看的内容，蜘蛛程序是不会查看。

robots协议中的代码说明：

1、User-agent:*允许所有搜索引擎抓取(注意每个":"后面的描述都是在加上空格之后的，User-agent:空格*)Allow:/允许抓取

2、Disallow:/admin/后台管理文件

3、Disallow:/require/程序文件

4、Disallow:/attachment/附件

5、Disallow:/images/图片

6、Disallow:/data/数据库文件

7、Disallow:/template/模板文件

8、Disallow:/css/样式表文件

9、Disallow:/lang/编码文件

10、Disallow:/script/脚本文件

robots实例：

1、禁止所有搜索引擎访问网站的任何部分： User-agent: * Disallow: /

2、允许所有的robot访问： User-agent: * Disallow: 或者 User-agent: * Allow: /

3、仅禁止Bai蟠校盯昂duspider访问您的网站：User-agent: BaiduspiderDisallow: /仅允许Baiduspider访问您的网站：User-agent: BaiduspiderDisallow:User-agent: *Disallow: /

4、禁止衡痕贤伎spider访问特定目录：（需要注意的是对每一个目录必须分开声明，而不能写成 "Disallow: /cgi-bin/ /tmp/"）User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

5、允许访问特定目录中的部分url：User-agent: *Allow: /cgi-bin/seeAllow: /tmp/hiAllow: /~joe/lookDisallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

6、使用"*"限制访问url：User-agent: *Disallow: /cgi-bin/*.htm

7、使用"$"限制访问url：User-agent: *Allow: .htm$Disallow: /

8、禁止访问网站中所有的动态页面：User-agent: *Disallow: /*?*

9、禁止幞洼踉残Baiduspider抓取网站上所有图片：（若是某一张图片，就是指到对应的图片路径和名称即可）User-agent: BaiduspiderDisallow: .jpg$Disallow: .jpeg$Disallow: .gif$Disallow: .png$Disallow: .bmp$

10、仅允许Bai蟠校盯昂duspider抓取网页和.gif格式图片：User-agent: BaiduspiderAl造婷用痃low: .gif$Disallow: .jpg$Disallow: .jpeg$Disallow: .png$Disallow: .bmp$仅禁止Baiduspider抓取.jpg格式图片：User-agent: BaiduspiderDisallow: