大数据技术期末复习重点，不挂科看这里~，大数据开发面试项目_大数据分析期末

作者：我家小花儿 | 2024-06-08 16:10:16

踩

大数据分析期末

4.1.分箱法

定义：通过观察某一数据周围的值来光滑有序数据的值，按照取值的不同划分可分为按箱平均值平滑、按箱中值平滑、以及按箱边界值平滑

4.2.回归

定义：利用某一拟合函数（如回归函数）来光滑数据

4.3.聚类

通过聚类分析检测出离群点。将类似的值组织成群或簇，落在簇之外的点就是离群点

数据集成要考虑的问题有四个，分别是模式集成和对象匹配问题、冗余问题、元组重复问题、数据值冲突的检测与处理问题

数据变换主要涉及的内容包括有光滑。聚集、数据泛化、规范化、属性构造

三.数据挖掘

======

数据挖掘（DM）是从大量的、有噪声的、不完全的、模糊和随机的数据中，提取出隐含在其中的具有潜在价值的信息的过程。知识发现（KDD）包含数据挖掘（DM）

数据挖掘常用方法有分类、聚类、关联规则、时间序列预测等

分类过程为学习和分类。第一步是建立模型，第二部根据模型进行分类。

3.1K最近邻算法

K最近邻算法的思想是：如果一个样本在特征空间的k个最相似样本中的大多数属于某一类别，则该样本属于该类别

3.2决策树

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/690340

大数据技术期末复习重点，不挂科看这里~，大数据开发面试项目_大数据分析 期末