1、下载火车头软件,输入帐号,密码点击登录。点击“新建任务”。弹出“新建任务规则”对话框。如下图所示:
2、以采集医疗文章为例,找有页数的网站采集。右键复制地址链接。如下图所示:
3、把提取的链接放到火车头“新建任务规则”里面。批量网址,我页数设置成地址参数。并点击测试如下图所示:
4、设置区域“开头字符串”“结尾字符串”。查看源文件,找到div标签单个。如下图所示:
5、接下来,“内容采集规则”点击一篇文章进去,要同样的方法找到文章的“标题”“内容”的“开头字符串”“结尾字符串”
6、”数据处理“可以“替换”文字”HTML标签过滤“等等。还可以拿条连接测试结果。如下图所示:
7、第三步“内容发布规则”-”保存为本地文件“-”本地文件启用“-”保存格式“-”txt“等等。运行文章就可以采集了。如下图所示: