数据挖掘流程

 时间:2024-11-06 04:05:37

1、数据取样。明确哪些数据源可用,哪些数据与当前挖掘目标相关?如何保证取样数据的质量?是否在足够范围内有代表性?数据样本取多少合适?如何分类(训练集、验证集、测试集)等等。

2、数据探索。数据探索包括:异常值分析、缺失值分析、相关分析、周期性分析、样本交叉验证等。

3、数据预处理和清洗。数据预处理主要包含如下内容:数据筛选,数据变量转换,缺失值处理,坏数据处理,数据标准化,主成分分析,属性选择等。

4、数据挖掘模式发现。样本抽取完成并经预处理后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则或者时序分析),选用哪种算法进行模型构建?

5、数据挖掘模型构建。预测模型的构建通常包括模型建立、模型训练、模型验证和模型预测4个步骤,但根据不同的数据挖掘分类应用会有细微的变化。

6、数据挖掘模型评价。评价的目的之一就是从这些模型中自动找出一个最好的模型来,另外就是要针对业务对模型进行解释和应用。预测模型评价和聚类模型的评价方法是不同的。

7、数据挖掘方法。利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。

  • eclipse不支持tomcat8版本怎么办
  • 怎样解决eclipse提示打不开java虚拟机
  • javascript(js)怎么为元素动态添加子元素?
  • js中的push函数怎样使用?
  • 如何将VS2022的解决方案资源管理器移动到左边
  • 热门搜索
    一年级手抄报图片 爱鸟护鸟手抄报 手抄报感恩内容大全 错别字手抄报 爱我中华手抄报资料 我爱读书的手抄报 元旦手抄报内容大全 创卫手抄报设计图 三年级感恩手抄报 消防知识手抄报图片