当前位置:   article > 正文

大数据技术期末复习重点,不挂科看这里~,大数据开发面试项目_大数据分析 期末

大数据分析 期末

4.1.分箱法

定义:通过观察某一数据周围的值来光滑有序数据的值,按照取值的不同划分可分为按箱平均值平滑、按箱中值平滑、以及按箱边界值平滑

4.2.回归

定义:利用某一拟合函数(如回归函数)来光滑数据

4.3.聚类

通过聚类分析检测出离群点。将类似的值组织成群或簇,落在簇之外的点就是离群点

5.数据集成要考虑的问题有哪些?

数据集成要考虑的问题有四个,分别是模式集成和对象匹配问题、冗余问题、元组重复问题、数据值冲突的检测与处理问题

6.数据变换主要涉及哪些内容?

数据变换主要涉及的内容包括有光滑。聚集、数据泛化、规范化、属性构造

三.数据挖掘

======

1.数据挖掘的概念

数据挖掘(DM)是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的具有潜在价值的信息的过程。知识发现(KDD)包含数据挖掘(DM)

2.数据挖掘常用算法

数据挖掘常用方法有分类、聚类、关联规则、时间序列预测等

  • 分类:分类是在给定数据基础上构建分类函数或分类模型,目的是将未知类别规类为给定类别种的某一类

  • 聚类:聚类是将抽象对象的集合分为相似对象组成的多个类的过程,聚类过程生成的簇称为一组对象的集合,

  • 关联规则:关联规则是信任度与支持度分别满足用户给定阈值的规则

  • 时间序列预测:时间序列是将统计指标的数值按时间顺序排列所形成的数列。时间序列预测是将时间数列所反映的事件发展过程进行引申外推,预测发展趋势的一种方法。

3.分类

分类过程为学习和分类。第一步是建立模型,第二部根据模型进行分类。

3.1K最近邻算法

K最近邻算法的思想是:如果一个样本在特征空间的k个最相似样本中的大多数属于某一类别,则该样本属于该类别

3.2决策树

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/690340
推荐阅读
相关标签
  

闽ICP备14008679号