1、 一、首先到火车头采集器官网进行软件下载,然后安装。安装成功后如图:
2、 二、选择分组,然后点击新建下面的任务。完成后如图:
3、 三、填写任务名,以便分清自己采集的是哪类文章,然后点击添加所需采集网站的链接,选择批量多页,复制所需采集网站的列表页,完成后点击添加,然后选择完成。如图:
4、 四、点击采集内容规则,双击标题进行修改。根据采集网站的列表页标题命名进行命名,改好之后点击确定。如图:
5、 五、标题修改后,双击内容进行采集规则的修改。寻找距离文章页开头最近并且独一无二的代码放置开始字符处,同理,找到文章结尾最近的独一无二代码放置结束字符处。改好之后点击确定。如图:
6、 六、点击发布内容设置,设置保存采集文章的位置。该模块分为两种,一种是直接发布到网站上,还有一种是保存到本地。我们是采集文章因此只需保存到本地即可。如图:
7、 七、建立任务完成后,将采集网址,采集内容以及发布打钩,然后开始执行任务。采集文章成功。如图: