如何写蜘蛛只让允许抓取sitemap文件

 时间:2024-10-19 14:10:10

1、首先,确保你拥有网站的实际控制权,可以操作到根目录的文件。比如你的网站是demo.com,那么需要能够操作到demo.com/something这个维度。

2、在根路径下创建robots.txt文件,当然也可以在别的路径下,但是确保访问到demo.com/robots.txt是对应的文件。

3、robots的协议有非常多种,这里只介绍最基础的语法。整个文件可以是这样的:“User-agent:”代表对应的蜘蛛,一般可以是baidu/google等,每个蜘蛛会有对应的说明,可以直接查看。“Allow”或者“Disallow”代表行为,后头需要跟具体的path,一般为最左匹配。

4、举个例子,希望百度抓取你的网站全部内容,而别的网站不允许抓取任何内容,需要这样写:User-agent: baiduAllow: /User-agent: *Disallow: /

5、如果希望一个搜索引擎只收录你的站点地图,假设文件放在/sitemap/目录下,那么应该这样来操作:User-agent: *Allow: /sitemap/Disallow: /

6、当然,现在robots协议之外,还有更多资源提交的方法,比如各大搜索引擎均有对应的站长平台,可以在上面提交自己的sitemap文件,更加定制化的提示蜘蛛抓取方案,具体操作不再赘述。

  • 王者荣耀神威什么时候出
  • 我的世界工业2怎么合成金属成型机怎么使用
  • 百度敏感操作保护设置怎么开启?
  • 如何点亮QQ里的摄像头图标?
  • QQ宠物怎样找Q宠连连看
  • 热门搜索
    中国板报网手抄报 养成教育手抄报内容 以过年为主题的手抄报 校园安全手抄报图片 手抄报英语 关于运动会的手抄报 语文手抄报花边 廉洁手抄报图片 小学生安全手抄报大全 科学幻想画手抄报