1、首先将采集好的京东家电三级分类(具体到产品品类)原始数据从采集软件里面逐个导出到EXCEL表格里面。如图
2、然后打开每个表格进行整理,整理内容包含:规范品牌,规范型号,剔除配件及不相关产品。比如品牌统一格式:英文/中文,页面属性没有标记品牌的打开页面的详情页去查找品牌信息,型号整理方式与品牌整理一样,使品牌型号无空白,无错误情况。这样的数据分析起来才会更准确。
3、整理好品牌、型号后通过url再导入到大数据系统,这样数据就变成了我们自己的了。然后每天爬取网站新增的炽扃仄呦URL,继续上面操作。同时大数据系统里面的数据每天进行采集更新销量、评价量、价格以及活动情况等信息。这样不管客户什么时候要数据,我们直接从系统导出都是已整理好的,避免了重复整理工作。如果大家有需要这方面数据的需求欢迎联系讨论