当前位置:   article > 正文

数据挖掘与python实践 |(一)引言和认识数据_数据挖掘与python实践" 李爱华 课件

数据挖掘与python实践" 李爱华 课件

目录

数据挖掘的产生、定义、流程

数据挖掘原因

数据挖掘定义

数据挖掘流程

数据挖掘的方法

数据挖掘的应用

数据对象与属性类型

数据的基本统计描述

数据的中心趋势度量

描述性统计的离散趋势度量

数据挖掘的产生、定义、流程

数据挖掘原因

  • 数据爆炸问题

自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析;我们拥有丰富的数据,但却缺乏有用的信息。

  • 解决办法:数据仓库技术和数据挖掘技术
  1.  数据仓库(Data Warehouse)和在线分析处理(OLAP);
  2.  数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)

数据挖掘定义

定义:数据挖掘就是从数据中发现知识,具体而言,就是从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。

数据挖掘流程

(1)了解应用领域——了解相关的知识和应用的目标;

(2)创建目标数据集;

(3)选择数据,数据清理和预处理(这个可能要占全过程60%的工作量) ,数据压缩和变换;

(4)选择数据挖掘的技术、功能和合适的算法,进行数据挖掘;

(5)寻找感兴趣的模式

(6)模式评估

(7)知识表示

(8)运用发现的知识

  • 挖掘的数据类型

数据定义:数据是对事物描述的符号。在计算机科学中,数据是数字、文字、图像、声音等可以输入到计算机被识别的符号;企业运营离不开数据;用户生成数据。

数据挖掘处理的数据类型:结构化数据和非结构化数据

1. 结构化数据:通常二维表格的形式存储在关系数据库中;

2. 非结构化数据:文本数据、视频数据、音频数据、图像数据。

数据挖掘的方法

常用的分析方法包括分类、聚类、关联分析、数值预测、序列分析、社会网络分析等。

分类:通过对具有类别的对象的数据集进行学习,概括其主要特征,构建分类模型,根据该模型预测对象的类别的一种数据挖掘和机器学习技术。

聚类:依据物以类聚的原理,将没有类别的对象根据对象的特征自动聚集成不同簇的过程,使得属于同一个簇的对象之间非常相似,属于不同簇的对象之间不相似。典型应用:客户群分类。

注意:分类和聚类都属于对数据进行归类,不同点在于:分类针对有标签的数据分析,聚类针对没有标签的数据。

关联分析:发现数据之间的关联规则,经常用在购物篮分析中。

数值预测:用于预测连续变量的取值,常用的预测方法是回归分析。

异常挖掘:也称为孤立点分析,挖掘一些与数据一般特点不一致的孤立点。例如,信用卡客户欺诈检测。

序列分析:对序列数据库进行分析,从中挖掘出有意义模式的技术。

社会网络分析:对社会网络的结构和属性进行分析,以发现其中的局部或全局特点,发现其中有影响力的个人或组织,发现网络的动态变化规律等。

数据挖掘的应用

  • 数据分析和决策支持

(1)市场分析和管理:目标市场, 客户关系管理 (CRM), 市场占有量分析, 交叉销售, 市场分割

(2)风险分析和管理:风险预测, 客户保持, 保险业的改良, 质量控制, 竞争分析

(3)欺骗检测和异常模式的监测 (孤立点)

  • 其它应用

(1)文本挖掘 (新闻组,电子邮件, 文档) 和WEB挖掘

(2)流数据挖掘

(3)DNA 和生物数据分析

数据对象与属性类型

数据对象:数据集由数据对象构成;一个数据对象代表一个实体,数据对象又称为样本、事例、实例, 数据点、对象、元组等,它由属性来描述。

属性:也称为维度、特征、 变量,一个数据字段表示一个数据对象的某个特征。

  • 标称属性

“与名称相关”,标称属性又被看做是分类的,它的数学运算没有意义。注意学号也是一种标称属性。

  • 二元属性

一种特殊的标称属性或布尔属性,只有两种类别或状态,比如0或1。

  1. 对称二元属性:两种值同样重要,如性别;
  2. 非对称二元属性:两种值非同等重要,如医疗检查中的阴性和阳性,通常测试为阳性更为稀有而认为更重要。
  • 序数属性

值有一个有意义的顺序(排序) ,但连续值之间的大小未知。比如:衣服大小号Size = {small, medium, large}

  • 数字属性
  1. 区间标度数值属性:相等的单位尺度,值可以排序,但没有真正的零点(比值没有意义),比如年代、温度。
  2. 比率标度数值属性:有真正零点的数值属性,如重量、身高、货币量等。

数据的基本统计描述

数据的中心趋势度量

常用度量指标有均值、中位数、众数、中列数,其中最常用、最有效的数值度量为均值。

  • 加权平均值

属性x的每个观测值的权重不一样时计算加权平均值

             

  • 截尾均值

去掉高低极端值后的平均值

  • 众数

具有一个、两个、三个众数的数据集合分别称为单峰、双峰和三峰

  • 中列数

最大和最小值的平均值,用来评估数值数据的中心趋势

描述性统计的离散趋势度量

  • 极差

也叫全距,数据中最大与最小间的差距,是衡量数据变异程度最简单的描述,全距对最大与最小数据的值的敏感性很强。

  • 分位数

也称分位点,将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(二分位数)、四分位数、百分位数等;

第p个百分位数:至少有p%的数据项小于或等于这个值,且至少有(100 - p)%的数据项大于或等于这个值。计算方法为:先递增排序,位置i = (p/100)n,如果i不是整数则向上取整,否则计算第i项与第i+1项的平均值。

四分位数:25%分位数Q1、50%分位数Q2、75%分位数Q3

四分位数极差(IQR):也称四分位点内距,第1个和第3个四分位数之间的距离,该距离是散布的一种简单度量,能够克服极端值的影响。

分布的五数概括:包括最小值, Q1, 中位数, Q3, 最大值

可疑的离群点:数值落在第3个四分位数之上或第一个四分位数之下至少1.5×IQR值。

箱线图(盒图):用来体现五数概括,特征:

  1. 盒子两端是第1/3四分位数, 即盒子高度为四分位数极差IQR;
  2. 盒子中间的粗线表示中位数;
  3. 由盒子向下向上伸出的垂直部分称为触须,表示数据的散布范围,通常最远点是1.5IQR,离群点需单独标出。

如下图所示,部门1商品单价的中位数为80美元,Q1为60美元,Q3为100美元,1.5IQR为60,需要注意的是,该部门的两个边缘值175和202都超过了第三个四分位数的1.5IQR

                                      

  • 方差和标准差

方差是各数据值与平均值之间的差异,如果数据集为样本,样本方差为

;若为总体,总体方差为

标准差的性质:当选择均值作为中心度量时,可以选择标准差度量数据的发散程度;仅当不存在发散时,也就是当所有的观测值都具有相同值时,标准差为0,否则标准差大于0。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/168376
推荐阅读
相关标签
  

闽ICP备14008679号