如何使用采集器采集到你真正想要的数据

 时间:2024-10-13 06:47:47

1、打开软件之后,新建分组或者在已有分组上右击新建任务,选择任务右击编辑任务,然后制作采集网址规则、制作采集内容规则,以及设置文件保存位置,最后选择采网址、采内容选择框,开始任务就可以采集到数据了。注意编辑任务右上方的网页编码方式。

如何使用采集器采集到你真正想要的数据

2、制作采集网址规则。首先需要添加网址,对于单条网址,只需将单挑网址添加即可,重点是需要采集多条网址,这时候就需要你去分析采集多条网址的规律并制定出采集规则。(*)代表变量,可以设置等差数列、等比数列等规则,当然你可以先测试部分数据来检测你制作的规则是否正确。

如何使用采集器采集到你真正想要的数据
如何使用采集器采集到你真正想要的数据

3、重点也是通用的是——想在当前网址(一级网址)基础上继续采集网螃捂荀惦址,这时候需要在多级网址获取文本框中添加第二次采集网址的规则,也就是采逗垅型巢集二级网址的规则,如果想要采集三级网址、四级网址等等,只需要在前一级网址基础上添加采集规则即可。采集多级网址规则包含多种方式:第一种是让采集软件自动去识别多级网址;第二种是你通过分析下一级网址规律,手动制作填写链接地址规则;第三种是通过选取上一级网址的网页内容中的下一级网址,然后让软件分析从而让软件帮你制作获取规则,这种方式是必须保证在上一级网址网页内容完全加载完毕。

如何使用采集器采集到你真正想要的数据
如何使用采集器采集到你真正想要的数据

4、分页地址如何制作。采集目标网址中的分页获取,去分析网页源代码中上下页附近的网址链接。

如何使用采集器采集到你真正想要的数据

5、关键步骤——制作采集内容规则。添加需要采集的标签,当然标签名可以任意命名,但是后面通过数据库入库的时候,必须按阖嚏逵藩照这里的标签名来组合变量。提取数据方式有多种,前后截取需要你掌握Html知识,正则提取需要有一定的正则表达式基础,前两种方式比较常用且效果也非常好。后面的正文提取方式有很大局限性,对采集网站有限制。对话框下侧的数据处理方式有很多,类似于数据二次处理,即首先通过你制作的规则采集到数据,然后再根据你的数据处理方式进一步处理数据,常用的有对内容进行Html标签过滤、内容替换等等。

如何使用采集器采集到你真正想要的数据
如何使用采集器采集到你真正想要的数据

6、内容页包含分页情况处理,需要在采集内容规则这一步骤,在左下方制定分页获取规则,同样的是选择分页网址提取区域制作。另外需要在标签编辑中选择“该标签在分页中匹配”。如果采集内容想要在自己网站实现内容分页功能,需要在采集内容规则这一步,在左下方编辑标签循环处理,设置分页内容连接代码内容。

如何使用采集器采集到你真正想要的数据
  • Excel:利用VBA插入网络图片
  • 如何使用TOAD增加存储过程
  • visio跨职能流程图怎么创建
  • 如何设置SVN显示中文
  • Eclipse中如何比对文件
  • 热门搜索
    关于消防安全的手抄报 消防手抄报 端午节手抄报 二年级手抄报 交通手抄报 关于春节的手抄报 童心向党手抄报 祖国手抄报 手抄报图案 清明的手抄报