当前位置:   article > 正文

二、物联网大数据之数据挖掘--数据挖掘的流程_物联网大数据的数据挖掘算法

物联网大数据的数据挖掘算法

1.数据挖掘一般流程

在这里插入图片描述

1.1 业务需求分析

业务需求分析是机器学习算法工程的第一步,是整个项目的基础,也是整个流程当中最重要的环节,主要体现在以下几个方面:

  • 业务是否适合用机器学习算法来解决。
  • 业务目标是否明确,是否单一,是否有其他关联目标。
  • 业务目标的主次关系,因果关系,流程关系。
  • 业务承担对象。
1.2 获取数据

获取数据:获取业务相关数据,用于机器学习项目建模,训练,调参,优化等。

  • 本地存储数据
  • html页面数据
  • 爬虫数据
  • 数据库数据
  • 集群数据
  • 各类数据格式数据
1.3 数据预处理

数据预处理主要是针对数据本身,业务需求,以及算法需求对原始数据进行的一系
列操作。比如:

  • 异常值
  • 缺失值
  • 标准化
  • 方差缩放
  • 特征二值化
1.4 特征工程

特征工程是指从原始数据转换为特征向量的过程。特征工程是机器学习中最重要的 起始步骤,会直接影响机器学习的效果,并通常需要大量的时间。典型的特征工程 包括数据清理、特征提取、特征选择等过程。

1.5 模型选择和训练

在此阶段,主要是选择和应用各种建模技术,同时对它们的参数进行校准以达到最 优值。通常对于同一个数据挖掘问题,会有多种数据建模技术。一些技术对数据格 式有特殊的要求。因此,常常需要返回到数据准备阶段。实际操作如下:

  • 选择建模技术(Model):确定数据挖掘算法和参数,可能会利用多个算法;
  • 评估方案设计(Cost Function):设计某种测试模型的质量和有效性的机制;
  • 模型训练(Trainng):在准备好的数据集上进行数据挖掘算法训练,得到一个或多个模型;
  • 模型调参和优化:根据评估方案,确定算法与预期效果的差距,并进行相应的优化。
1.6 模型评估

模型评估是机器学习工程当中比较核心的环节之一,在模型训练完成之后,模型的 质量如何,是否还需要继续迭代,是否已经满足业务需要,都依靠模型评估结果。 因此需要选择一个能反映预测能力的评估指标(evaluation metric)。

常用评估标准
在这里插入图片描述

1.7 模型部署

具体地包括:

  • 实施计划:对在业务运作中部署模型作出计划;
  • 监控和维护计划:如何监控模型在实际业务中的使用情况,如何维护该模型;
  • 作出最终报告:项目总结,项目经验和项目结果;
  • 项目回顾:回顾项目的实施过程,总结经验教训,对数据挖掘的运行效果做一个预测。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/557276
推荐阅读
相关标签
  

闽ICP备14008679号