1、软件程序的获取:搜索“火车头采集器”,并进入对应官方来获取程序的最新版本下载地址。
2、安装并运行“火车头采集器”程序,在弹出的登陆界面中直接点击“登陆”按钮就可以以免费版身份登陆。
3、在程序主界面中,点击“新建”下拉箭头,从中选择“任务”项。
4、在弹出的窗口中,输入“任务名”,同时点击“起始网址”栏目右侧的“添加”按钮。
5、接下来就极为重要的一步,就是对要进行采集的网站进行分板,对所采取的网站中各片文章的URL进行综合分析并找出规律,最后按如图进行填写。
6、然后切换至“第二步:采集内容规则”选项卡中,我们需要对网页内容进行分板。在此以“搜狗浏览器”为例,右击要进行分析的网页,从弹出的菜单中选择“审查元素”项。
7、在“开发式模式”界面中,点击“选择页面中的一个元素去透视”按钮,接着点击“标题”内间恒溪痞容,此时就可以在“开发者”窗口中显示标题所对应的标签,此例为“h2"。
8、接下来在”采集内容规则“界面中,点击“添加”岳蘖氽颐按钮来添加“标题”项,或者直接双击“标题”项进行修改。在弹出的界面中,勾碚枞凇悄选”前后截取“,将设置前后辍分别为"<h2>“、”</h2>".
9、利用同样的方法添加其它采集内容的规则。切换至“第三步:发布内容设置”选项卡,勾选“启用 方式二”
10、最后从任务列表中,勾选要采集的内容,点击“开始”按钮就可以按规则采集网站中的网页内容啦。