搜索引擎抓取策略

 时间:2024-10-12 04:40:18

1.大站点优先

大站点属性:PR值高;外链多;内容质量高;抓取速率快(有着稳定的服务器/良好的网站结构/鬲尚嫱侉优秀的用户体验/内容质量高/),抓取频率高,有些甚至7x24小时不间断

利用策略 :将新站点地址放在这些大站点或者类大站点上

2.重要页面优先抓取

重要页面排序依据:页面获取的已抓取页面的连接的多少和连接权重的高低

3.抓取策略

spider选择性的使用深度和广度优先原则(搜索引擎自身资源有限)对站点进行URL抓取,对URL进行以上1、2点比较后放入队列内排序

4.更新策略

a.用户体验

网页被搜索到的次数越多,被再次抓取的频率就会越高。

b.历史更新频率

搜索引擎对页面再次抓取并分析页面是否更新,记录更新频率,更新频率越高的,被再次抓取就越高

c.网页类型

同一站点下,首页、目录页、专题页和文章页的更新频率不同,首页、目录页要快。

s

权重高的页面抓取频率高

对网页进行a/b/c/d四项进行权衡,对网页更新频率进行确定。

  • 使用软媒魔方修改网卡MAC地址
  • 如何看美剧电影学英语效果好?
  • 怎样查看网页源代码
  • 怎样修改织梦网站的favicon图标
  • windows系统中使用IIS搭建PHP环境
  • 热门搜索
    读书的手抄报 社会主义核心价值观手抄报 汉字手抄报 网络安全手抄报 节水手抄报简单又漂亮 反对邪教手抄报 党在我心中手抄报 安全伴我行手抄报 防溺水手抄报简单好画 清明节的手抄报内容