赞
踩
目录
自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析;我们拥有丰富的数据,但却缺乏有用的信息。
定义:数据挖掘就是从数据中发现知识,具体而言,就是从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。
(1)了解应用领域——了解相关的知识和应用的目标;
(2)创建目标数据集;
(3)选择数据,数据清理和预处理(这个可能要占全过程60%的工作量) ,数据压缩和变换;
(4)选择数据挖掘的技术、功能和合适的算法,进行数据挖掘;
(5)寻找感兴趣的模式
(6)模式评估
(7)知识表示
(8)运用发现的知识
数据定义:数据是对事物描述的符号。在计算机科学中,数据是数字、文字、图像、声音等可以输入到计算机被识别的符号;企业运营离不开数据;用户生成数据。
数据挖掘处理的数据类型:结构化数据和非结构化数据
1. 结构化数据:通常二维表格的形式存储在关系数据库中;
2. 非结构化数据:文本数据、视频数据、音频数据、图像数据。
常用的分析方法包括分类、聚类、关联分析、数值预测、序列分析、社会网络分析等。
分类:通过对具有类别的对象的数据集进行学习,概括其主要特征,构建分类模型,根据该模型预测对象的类别的一种数据挖掘和机器学习技术。
聚类:依据物以类聚的原理,将没有类别的对象根据对象的特征自动聚集成不同簇的过程,使得属于同一个簇的对象之间非常相似,属于不同簇的对象之间不相似。典型应用:客户群分类。
注意:分类和聚类都属于对数据进行归类,不同点在于:分类针对有标签的数据分析,聚类针对没有标签的数据。
关联分析:发现数据之间的关联规则,经常用在购物篮分析中。
数值预测:用于预测连续变量的取值,常用的预测方法是回归分析。
异常挖掘:也称为孤立点分析,挖掘一些与数据一般特点不一致的孤立点。例如,信用卡客户欺诈检测。
序列分析:对序列数据库进行分析,从中挖掘出有意义模式的技术。
社会网络分析:对社会网络的结构和属性进行分析,以发现其中的局部或全局特点,发现其中有影响力的个人或组织,发现网络的动态变化规律等。
(1)市场分析和管理:目标市场, 客户关系管理 (CRM), 市场占有量分析, 交叉销售, 市场分割
(2)风险分析和管理:风险预测, 客户保持, 保险业的改良, 质量控制, 竞争分析
(3)欺骗检测和异常模式的监测 (孤立点)
(1)文本挖掘 (新闻组,电子邮件, 文档) 和WEB挖掘
(2)流数据挖掘
(3)DNA 和生物数据分析
数据对象:数据集由数据对象构成;一个数据对象代表一个实体,数据对象又称为样本、事例、实例, 数据点、对象、元组等,它由属性来描述。
属性:也称为维度、特征、 变量,一个数据字段表示一个数据对象的某个特征。
“与名称相关”,标称属性又被看做是分类的,它的数学运算没有意义。注意学号也是一种标称属性。
一种特殊的标称属性或布尔属性,只有两种类别或状态,比如0或1。
值有一个有意义的顺序(排序) ,但连续值之间的大小未知。比如:衣服大小号Size = {small, medium, large}
常用度量指标有均值、中位数、众数、中列数,其中最常用、最有效的数值度量为均值。
属性x的每个观测值的权重不一样时计算加权平均值
去掉高低极端值后的平均值
具有一个、两个、三个众数的数据集合分别称为单峰、双峰和三峰
最大和最小值的平均值,用来评估数值数据的中心趋势
也叫全距,数据中最大与最小间的差距,是衡量数据变异程度最简单的描述,全距对最大与最小数据的值的敏感性很强。
也称分位点,将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(二分位数)、四分位数、百分位数等;
第p个百分位数:至少有p%的数据项小于或等于这个值,且至少有(100 - p)%的数据项大于或等于这个值。计算方法为:先递增排序,位置i = (p/100)n,如果i不是整数则向上取整,否则计算第i项与第i+1项的平均值。
四分位数:25%分位数Q1、50%分位数Q2、75%分位数Q3
四分位数极差(IQR):也称四分位点内距,第1个和第3个四分位数之间的距离,该距离是散布的一种简单度量,能够克服极端值的影响。
分布的五数概括:包括最小值, Q1, 中位数, Q3, 最大值
可疑的离群点:数值落在第3个四分位数之上或第一个四分位数之下至少1.5×IQR值。
箱线图(盒图):用来体现五数概括,特征:
如下图所示,部门1商品单价的中位数为80美元,Q1为60美元,Q3为100美元,1.5IQR为60,需要注意的是,该部门的两个边缘值175和202都超过了第三个四分位数的1.5IQR
方差是各数据值与平均值之间的差异,如果数据集为样本,样本方差为
;若为总体,总体方差为
标准差的性质:当选择均值作为中心度量时,可以选择标准差度量数据的发散程度;仅当不存在发散时,也就是当所有的观测值都具有相同值时,标准差为0,否则标准差大于0。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。