赞
踩
数据分析的六大步骤:
明确目的和思路(先决条件、提供项目方向)、数据收集(数据库建立)、数据处理(清洗、转化、提取、计算)、数据分析(数据统计、数据挖掘)、数据展现(图标、表格、文字)、报告撰写(结构清晰,明确结论、提出建议)
4V:Volume(大量化)、Variety(多样化)、Velocity(快速化)、Value(商业价值高、价值密度低)
一个属性是一个域,表示一个数据对象的一个特征。
属性的类型是由属性可取的值决定的,有标称、二进制型、顺序值或者数值类型。
标称属性:表示分类,没有次序信息。也可以认为是枚举型。
二进制型:
次序属性:具有次序或级别意义(ABC)
【次序属性的中心性可以用众数和中值来衡量,但是不能计算平均数】
数值型:
次序属性:具有次序或级别意义(ABC)
【次序属性的中心性可以用众数和中值来衡量,但是不能计算平均数】
数值型:
标准分数:
离散系数:
用于对不同组别数据离散程度的比较,越大越离散
邻近性:数据对象的相似性和相异性,数据属性的相关性
数据对象的相异性通常用某种距离度量,数据属性的相关性可用相关系数来描述
重点:余弦相似性,Jaccard,TF-IDF
【但感觉考的可能不大】
例题见:PPT46-47
【知道干啥就行了,咋算估计不考】
脏数据主要有哪几种?产生的主要原因是什么?
不完整(incomplete):缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据
噪音(noisy):包含错误或孤立点
不一致(inconsistent):编码或名字存在差异
原因:滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码,并行错误等等【考的随便写几个就行】
数据预处理的主要任务有哪些?每个任务要解决的问题主要有哪些?
缺失值的处理方法有哪些?
噪声数据的检测和处理方法有哪些?
判别方法:
处理方法:
数据不一致怎么处理?
数据集成:将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。
数据集成的方法:虚拟方式(联邦数据库,中间件集成),实际存储方式(数据复制)
数据集成的主要问题:
用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。
分类:维度归约、数量归约、数据压缩、数据立方体聚集、离散化与概念分层形成
【重点】维度归约有哪两类技术?有什么区别?
特征选择: 从原始特征中选择出和任务相关的特征【有决策树选择,基于统计选择等】
特征提取: 将原始特征通过线性或者非线性组合的方式转化为新的特征表示【PCA】
通常采用一个模型来评估数据,该方法只需要存放参数,而不是实际数据。能大大简少数据量,但只对数值型数据有效。
离散化技术:通过将属性(连续取值)域值范围分为若干区间,来帮助消减一个连续(取值)属性的取值个数。是一种数量归约的方法。
概念分层:定义了一组由低层概念集到高层概念集的映射。它允许在各种抽象级别上处理数据,从而在多个抽象层上发现知识。用较高层次的概念替换低层次(如年龄的数值)的概念,以此来减少取值个数。虽然一些细节在数据泛化过程中消失了,但这样所获得的泛化数据或许会更易于理解、更有意义。在消减后的数据集上进行数据挖掘显然效率更高。
数据泛化就是将数据库中的跟任务相关的大型数据集从相对较低的概念层抽象到较高的概念层的过程。
很多时候依托于数据立方体/概念分层
【人话讲就是用更高层次的数据替代低层次的,比如老年到具体年龄】
规范化:将数据按比例进行缩放,使之落入一个特定的区域,以消除数值型属性因大小不一而造成挖掘结果的偏差。数据规范化的目的就是消除量纲的影响。
【重点】数据仓库的定义,四个特征
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策和信息的全局共享。
注:
数据仓库作用
数据仓库通过数据集成,为用户提供全局范围的统一数据视图,将数据整合到一起为用户提供分析决策支持,这些数据在传统的操作型数据库中很难或不能得到
数据怎么组织
【重点】数据集市和数据仓库的区别和联系
数据集市是完整的数据仓库的一个逻辑子集,而数据仓库正是由所有的数据集市有机组合而成。
数据集市一般由某个业务部门投资建设,满足其分析决策需要,可以理解为“部门级数据仓库”
数据集市有两种:
【重点】数据仓库系统的体系结构(经典模型)【画图说关系?每个部分的作用要知道】
数据仓库的开发和设计过程
按照生命周期发法可将数据仓库开发的全部过程分成三个阶段。
(1) 数据仓库规划分析阶段。
(2) 数据仓库设计实施阶段。
(3) 数据仓库的使用维护阶段。
周而复始,不断完善
模型设计(概念——逻辑;星型模型;粒度选择)
概念模型设计 ——ER 模型
在建模之前定义数据模型的边界
建立企业内不同群体的实体-联系模型
最后进行集成企业的总体概念模型
逻辑模型设计
进行概念模型(E—R 图)到逻辑模型(星型模型)的转换
粒度层次划分
关系模式定义
定义记录系统
【ER 模型和星型的转换是重点!】
(了解)物理模型
若逻辑模型是关系模型,可采用关系型数据库
若逻辑模型是星形或雪花模型,可采用关系型或者多维数据库
星系模型:一个复杂的商业智能应用往往会在数据仓库中存放多个事实表,这时就会出现多个事实表共享某一个或多个维表的情况,这就是事实星座,也称为星系模型(galaxy schema)。
粒度:指数据仓库中数据单元的详细程度和级别
粒度设计的步骤
ETL 的内容
ETL 是数据从业务系统抽取转化到数据仓库的过程
包括 4 个子过程:数据抽取、数据转换、数据清洗、数据装载
作用:解决数据分散问题、解决数据不清洁问题、方便企业各部门构筑数据集市
什么是OLAP,和数据仓库的关系是什么
使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
数据立方体
OLAP操作
上卷 (drill-up,roll up): 概括数据
• 通过沿一个维的概念分层向上攀升或者通过维归约,对数据立方进行聚集
下钻 (Drill down ,roll down): 上卷的逆操作
• 从高层概括到底层概括,从不太详细到更加详细的数据
• 给数据添加更多细节,添加新的维到立方体来实现
切片和切块:在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市、各产品的销售情况。
转轴或旋转:转换立方体的视角, 可视化, 从 3D 到 2D 平面序列
钻过(drill across):涉及多个事实表的查询
钻透(drill through):钻透立方体的底层,到后端关系表
OLAP作用
OLAP的主要工作就是对数据立方体进行计算,把运算结果存起来,方便用户查询(不物化,部分物化,全部物化)
物化存储方式
ROLAP(也成为虚拟OLAP):
用户的多维分析请求通过ROLAP服务器动态翻译成SQL请求,然后交给RDBMS服务器来处理SQL,最后查询结果经多维处理(将以关系表存放的结果转换为多维视图)后返回给用户。
同时用作ROLAP存储器的RDBMS也针对OLAP作相应的优化,比如并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL的OLAP扩展(cube, rollup)等等。
优点:
缺点:
MOLAP:用多维数组进行存储,高度预处理,主要是通过已预处理的数据完成分析操作
优点:
缺点:
HOLAP
从广义数据分析的角度看,数据分析可以分为描述性分析和探索性分析,验证性分析
什么叫数据泛化,哪两种方法及规则
数据泛化:数据库中的数据和对象通常包含原始概念层的细节信息,数据泛化就是将数据库中的跟任务相关的大型数据集从相对较低的概念层抽象到较高的概念层的过程。
主要方法:
完全立方体多路数组聚集计算方法
具体见PPT19-25
注意:各平面要按他们大小的升序排列进行排序和计算。将最小的平面放在内存中,对最大的平面每次只是取并计算一块。
冰山立方体(BUC)
对于稀疏的数据立方体,我们往往通过指定一个最小支持度阈值(也称冰山条件),来进行部分物化,这种部分物化的方体称之为冰山方体。
BUC: Bottom-Up Computation(自顶向下)
首先计算整个数据立方体的度量值, 然后沿着每个维度进行划分,同时检查冰山条件,对不满足条件的分枝进行剪枝操作,对满足的在下一个维度进行递归搜索
优点:减少不必要的计算消耗
缺点:性能容易受到维的次序以及不平衡数据的影响,应当以维基数的递减顺序进行划分
注:基数越高,分区越多,为BUC剪枝提供更大的机会
面向属性的泛化方法
概念泛化和OLAP
相似:
区别:
关联规则挖掘用来发现大量数据中项集之间有趣的关联联系。如果两项或多项属性之间存在关联,那么其中一项的属性就可以依据其他属性值进行预测。
支持度和置信度
支持度 s 是指事务集 D 中包含 A∪B 的百分比(项集 A∪B 在事务数据库 DB 中出现的次数占总事务的百分比叫做项集的支持度)
置信度 c 是指 D 中在出现 A 的前提下同时包含 A,B 的事务的百分比(包含 A 和B 的事务数/包含 A 的事务数)
同时满足最小支持度阈值和最小置信度阈值的规则称作强规则
关联规则的挖掘一般可以分为两步:
Lk为频繁k项集
Ck为候选k项集,Ck是由L(k-1)进行连接运算得到的
剪枝是依靠向下封闭的性质,所以,当连接获得Ck后,可以逐一获取Ck中项的子集,看其是否在L(k-1)中,若不在,则剪枝
优点:
缺点:
FP树的构造:PPT75-77
构造FP-Tree时是按照1-项集频度的降序进行的
FP树的挖掘:PPT83
优点:FP-growth 比Apriori快一个数量级
原因:不生成候选集,使用紧缩的数据结构,避免重复数据库扫描等等
序列模式:若序列α的支持度计数不小于最小支持度阈值min_sup,则称之为频繁序列,频繁序列也称为序列模式。
频繁k-序列:长度为k的频繁序列称为频繁k-序列。
最大序列:如果一个序列s不包含在序列数据库S中的任何其他序列中,则称序列s为最大序列
PPT31-51(比较难搞,过程比较长)
排序
找频繁项集
映射转换【加快下面的计算】
产生频繁序列
求Lk,连接并剪枝产生C(k+1),【根据前缀连】
根据支持度产生L(k+1)
最大化:从最长K序列开始删除子序列,直到不可删减
在GSP算法中,k-序列是指序列中包含k个项,这与前面的定义有所不同
直接扫描获得L1
连接获得Ck【注意连接方式不同PPT59,根据前后缀连】
剪枝【一样注意k-序列的定义不同】
就是熵的计算。。。。
主要看例子PPT14
四个指标
【重点在于,是实际存在但未检出的危害大,还是检出但错误危害大】
实际上,精确率和召回率是成反比的,精确度越高,召回率越低,还会会受到分类阈值影响
ROC曲线:
TPR: TP/(TP+FN)
FPR: FP/(FP+TN)
AUC(Area under Curve):Roc曲线下的面积,介于0和1之间。AUC作为数值可以直观的评价分类器的好坏,值越大越好。
PR曲线:
什么是好的聚类方法?
类内相似性高,类间相似度低
聚类结果的质量依赖于方法所使用的相似性度量和它的实现
全局最优: 遍历所有的分裂
下面两种都是启发式方法
给定 k,k-means 包括四个步骤:
优点:
缺点:
PAM算法:
PPT65-68
注意:代价函数是在距离上现在-原来;所以如果是负数就可以接受,正数则不迭代
特点:
单连接,完全连接,具体见PPT
组平均……感觉不考了
特点:算法比较简单,但经常会遇到合并点选择的困难。如果在某一步没有很好的选择合并的决定,可能会导致低质量的聚类结果。
伸缩性不太好,算法复杂度为O(n^2)
几个基本概念
核心对象
直接密度可达
密度可达
密度相连
噪声:指不包含在任何簇中的对象
边界对象:不是核心对象,但在簇中,即至少从一个核心对象直接可达
DBSCAN通过检查数据集中每个对象的ε-邻域来寻找聚类。
例子:PPT114
特点:
离群点定义
在样本空间中,与其他样本点的一般行为或特征不一致的点,我们称为离群点
离群点挖掘
几个问题:
k-近邻邻域——采用给定邻域半径,依据点的邻域中包含的对象多少来判定离群点
如果一个点的邻域内包含的对象少于整个数据集的一定比例则标识它为离群点,也就是将没有足够邻居的对象看成是基于距离的离群点。
离群因子定义为:
是不包含x的k-最近邻的集合,绝对值符号表示集合大小
离群因子越大越有可能是离群点
例子:PPT42
局部领域密度:
就是所有距离加起来除以个数,然后取倒数
相对密度:
点内所有的密度加起来取平均,然后除以自己的密度
离群因子就是相对密度
主要有两类:基于协同过滤的推荐和基于内容的推荐
根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或是发现用户的相关性
它仅仅通过了解用户与物品之间的关系进行推荐,而根本不会考虑到物品本身的属性
也分为两类,基于用户和基于商品
将一个用户对所有物品的偏好作为一个向量 ,计算用户之间的相似度
找到 K 邻居
根据邻居的相似度权重以及他们对物品的偏好,预测当前用户没有偏好的未涉及物品,计算得到一个排序的物品列表作为推荐
建立物品倒排表
建立物品相似度矩阵
定义物品相似度
物品j预测兴趣度=用户喜欢的物品i的兴趣度×物品i和物品j的相似度,根据此生成推荐列表
数据分析的六大步骤:
明确目的和思路(先决条件、提供项目方向)、数据收集(数据库建立)、数据处理(清洗、转化、提取、计算)、数据分析(数据统计、数据挖掘)、数据展现(图标、表格、文字)、报告撰写(结构清晰,明确结论、提出建议)
4V:Volume(大量化)、Variety(多样化)、Velocity(快速化)、Value(商业价值高、价值密度低)
一个属性是一个域,表示一个数据对象的一个特征。
属性的类型是由属性可取的值决定的,有标称、二进制型、顺序值或者数值类型。
标称属性:表示分类,没有次序信息。也可以认为是枚举型。
二进制型:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。