赞
踩
数据挖掘概述
数据挖掘概念与发展
有用的知识,形成知识就是数据挖掘。从这些数据中提取有价值的信息和知识以帮助做出明智的决策成为巨大的挑战。
数据挖掘,又称为数据库知识发现。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用信息和知识的过程。
第一,数据源必须是大量的、真实的,真实的数据往往含有噪声或缺失;第二,发现的是用户感兴趣的知识;第三,发现的知识要可接受,可理解,可应用,能支持特定的问题发现,能够支持决策,可以为企业带来利益,或者为科学研究寻找突破口。
数据挖掘的任务
数据挖掘的任务可以分为预测任务和描述型任务。
预测型任务就是根据其他属性的值预测特定属性的值,如回归、分类、离群点检测等。
描述型任务就是寻找、概括数据中潜在联系的模式,如聚类分析、关联分析、演化分析、序列模式挖掘。
数据挖掘过程与方法
数据挖掘只是数据挖掘过程的一部分,完整的挖掘过程还应包括以下步骤:定义业务目标、甄别数据源、收集数剧、选择数据、数据质量检查、数据转换和结果解释。
在数据挖掘阶段,概括而言,数据挖掘分析员可以使用的数据挖掘方法主要有如下几个:
预估模型,包括分类和预估量种类型。
聚类技术。
连接技术。
时间序列分析。
基于规则的分类器
基于规则的分类器是使用一组if…then…规则来对记录进行分析的技术。提取分类规则的方法有两大类:直接方法和间接方法。
顺序覆盖算法经常被用来直接从数据中提取规则。
聚类
概念
聚类分析的基本方法
聚类分析的研究主要基于距离和基于相似度的方法。
划分聚类的方法
给定一个数据集,构建数据集的有限个划分,每个划分都是一个簇,且每一个划分应当满足如下两个条件:
每个划分至少包括一个样本。
每个样本只能属于一个簇。
下面给出K-Means的算法思想:
k:聚类中心个数,D:数据样本。
1确定k个数据点作为初始聚类中心
2 repeat
3 for对接数据样本D中的每个数据x
4计算x到每个聚类中心的距离
5 将x分配到最近的那个聚类中心所属的类
6 End for
7 计算当前每个类的均值,并作为新的聚类中心
8 满足终止条件结束,否则执行循环部分。
层次聚类的方法
最小距离
最大距离
平均距离
基于聚密度的方法
基于密度概念的聚类方法主要思想是:
只要“领域”中的密度超过了某个阀值,就继续增长给定的簇。
这样的方法可以用来过滤噪声或离散点,发现任意形状的簇。
基于密度的聚类代表算法有DBSCAN、OPTICS、DENCLUE算法。下面介绍DBSCAN算法。
DBSCNA使用簇的基于密度的定义,因此它是相对抗噪声的,并且能够处理任意形状和大小的簇。这样,DBSCNA可以发现使用K-Means不能发现的许多簇。然而,当簇的密度变化太大时,DBSCNA就会有麻烦。对于高维数据,它也有问题,因为对于这样的数据,密度定义更为困难。
关联规则
关联规则挖掘的经典应用是购物篮的数据分析,通过数据找出顾客在商场所选购的商品之间的关联。
基本概念
关联规则的形式
设I={i1,i2,…,im}是一个项目集合,T是一个(数据库)事务集合,其中每个事务ti是一个子项目集合,并满足ti包含I。那么,一个关联规则可以表示成如下形式蕴含关系:X-->Y,其中X包含Y,Y包含I且X且Y=空集 X或Y是一个项目集合,称为项集,并称X为前件,Y为后件。
关联规则挖掘算法
Apriori算法是常用的关系规则挖掘算法,其挖掘的过程主要包括两个阶段:第一阶段先从数据集中找出所有的频繁项集,它们的支持度大于等于最小支持阀值(min_sup)。第二阶段由这些频繁项集产生关联规则,计算它们的置信度,然后保留那些置信度大于等于最小置信度阀值(min_conf)的关联规则。
剪枝的规则:如果一个项集是非频繁项集,那么它的超级也是非频繁项集,如果一个项集是频繁项集,那么它的子集也频繁项集。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。