1、判断URL指向网站的域名,
2、如果指向的是外部网站,
3、那么可以将其丢弃
4、URL去重,可以将所有爬取过的URL存入数据库中,
5、然后查询新提取的URL在数据库中是否存在,
6、如果存在的话,当然就无需再去爬取了。
7、希望我的经验对你有所帮助
时间:2024-10-13 17:04:18
1、判断URL指向网站的域名,
2、如果指向的是外部网站,
3、那么可以将其丢弃
4、URL去重,可以将所有爬取过的URL存入数据库中,
5、然后查询新提取的URL在数据库中是否存在,
6、如果存在的话,当然就无需再去爬取了。
7、希望我的经验对你有所帮助