赞
踩
4.1.分箱法
定义:通过观察某一数据周围的值来光滑有序数据的值,按照取值的不同划分可分为按箱平均值平滑、按箱中值平滑、以及按箱边界值平滑
4.2.回归
定义:利用某一拟合函数(如回归函数)来光滑数据
4.3.聚类
通过聚类分析检测出离群点。将类似的值组织成群或簇,落在簇之外的点就是离群点
数据集成要考虑的问题有四个,分别是模式集成和对象匹配问题、冗余问题、元组重复问题、数据值冲突的检测与处理问题
数据变换主要涉及的内容包括有光滑。聚集、数据泛化、规范化、属性构造
三.数据挖掘
======
数据挖掘(DM)是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的具有潜在价值的信息的过程。知识发现(KDD)包含数据挖掘(DM)
数据挖掘常用方法有分类、聚类、关联规则、时间序列预测等
分类:分类是在给定数据基础上构建分类函数或分类模型,目的是将未知类别规类为给定类别种的某一类
聚类:聚类是将抽象对象的集合分为相似对象组成的多个类的过程,聚类过程生成的簇称为一组对象的集合,
关联规则:关联规则是信任度与支持度分别满足用户给定阈值的规则
时间序列预测:时间序列是将统计指标的数值按时间顺序排列所形成的数列。时间序列预测是将时间数列所反映的事件发展过程进行引申外推,预测发展趋势的一种方法。
分类过程为学习和分类。第一步是建立模型,第二部根据模型进行分类。
3.1K最近邻算法
K最近邻算法的思想是:如果一个样本在特征空间的k个最相似样本中的大多数属于某一类别,则该样本属于该类别
3.2决策树
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。