网站是如何防爬虫常用的突破方法

时间：2024-11-03 10:25:11

1、cookie 防：Cookie是一把双刃剑。网站会通过cookie监测你地浏览过程，一旦发现有爬虫情形会马上终止你地浏览，例如你非常快地填好表单，或是短时间内访问很多网页。攻：合理地处理cookie，又能够解决好多爬虫问题，建议在抓取网站过程中，检查一下那些网页生成地cookie，之后想想哪一个是爬虫需要解决地。

2、Headers防：许多网页都会对Headers的User-Agent完成监测，也有一部分网站会对Referer完成监测。破：直接在爬虫中加上Headers，将浏览器的User-Agent导入到爬虫的Headers中；或者将Referer值更。

3、验证码验证防：当浏览过快或是有出错时，还要输入验证码才可以继续浏览的网站。攻：简洁明了的数字验证码能够利用OCR分辨，只是如今很多验证码都变得复杂了了，因此要是的确不简单可以接入平台自动打码。

4、用户行为防：少部分网页是利用检测用户行为，比如同一IP短时间内频繁访问同一页面，或是同一账户短时间内频繁进行相同操作。攻：要是抓取数量不多，也不着急，可以降低抓取频率，也就是每一次请求后随机间隔几秒再进行下一次请求。