当前位置:   article > 正文

山东大学软件学院2022-2023数据仓库与数据挖掘复习资料_山东大学数据仓库数据挖掘

山东大学数据仓库数据挖掘

数据仓库与数据挖掘

1.1 数据分析

数据分析的六大步骤:

明确目的和思路(先决条件、提供项目方向)、数据收集(数据库建立)、数据处理(清洗、转化、提取、计算)、数据分析(数据统计、数据挖掘)、数据展现(图标、表格、文字)、报告撰写(结构清晰,明确结论、提出建议)

1.2 大数据

4V:Volume(大量化)、Variety(多样化)、Velocity(快速化)、Value(商业价值高、价值密度低)

2.1 认识数据

什么是属性

一个属性是一个域,表示一个数据对象的一个特征。

属性的类型是由属性可取的值决定的,有标称、二进制型、顺序值或者数值类型。

标称属性:表示分类,没有次序信息。也可以认为是枚举型。

二进制型:

  • 对称二元:相等价值,比如男女
  • 非对称二元:重要性不一样,比如HIV阴阳

次序属性:具有次序或级别意义(ABC)

【次序属性的中心性可以用众数和中值来衡量,但是不能计算平均数】

数值型:

  • 间隔尺度:如温度(摄氏度)【可以计算值的差值,以及中值,均数和众数】
  • 比例尺度:有零点,成比例 【可以计算值的差值,以及中值,均数和众数】

数据的计量尺度

次序属性:具有次序或级别意义(ABC)

【次序属性的中心性可以用众数和中值来衡量,但是不能计算平均数】

数值型:

数据的计量尺度

基本统计描述

 

标准分数:

 

 

离散系数:

 

用于对不同组别数据离散程度的比较,越大越离散

数据显示

 

2.2 数据的邻近性

邻近性:数据对象的相似性和相异性,数据属性的相关性

数据对象的相异性通常用某种距离度量,数据属性的相关性可用相关系数来描述

衡量相似性

重点:余弦相似性,Jaccard,TF-IDF

混合属性处理

【但感觉考的可能不大】

 

例题见:PPT46-47

衡量相关性

 

【知道干啥就行了,咋算估计不考】

数据预处理

脏数据主要有哪几种?产生的主要原因是什么?

不完整(incomplete):缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据

噪音(noisy):包含错误或孤立点

不一致(inconsistent):编码或名字存在差异

原因:滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码,并行错误等等【考的随便写几个就行】

数据预处理的主要任务有哪些?每个任务要解决的问题主要有哪些?

数据清理

缺失值的处理方法有哪些?

噪声数据的检测和处理方法有哪些?

判别方法:

处理方法:

数据不一致怎么处理?

 

数据集成

数据集成:将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。

数据集成的方法:虚拟方式(联邦数据库,中间件集成),实际存储方式(数据复制)

数据集成的主要问题:

数据规约

维度规约

用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。

分类:维度归约、数量归约、数据压缩、数据立方体聚集、离散化与概念分层形成

【重点】维度归约有哪两类技术?有什么区别?

特征选择: 从原始特征中选择出和任务相关的特征【有决策树选择,基于统计选择等】

特征提取: 将原始特征通过线性或者非线性组合的方式转化为新的特征表示【PCA】

数量规约【了解】

通常采用一个模型来评估数据,该方法只需要存放参数,而不是实际数据。能大大简少数据量,但只对数值型数据有效。

数据离散化和概念分层

离散化技术:通过将属性(连续取值)域值范围分为若干区间,来帮助消减一个连续(取值)属性的取值个数。是一种数量归约的方法。

概念分层:定义了一组由低层概念集到高层概念集的映射。它允许在各种抽象级别上处理数据,从而在多个抽象层上发现知识。用较高层次的概念替换低层次(如年龄的数值)的概念,以此来减少取值个数。虽然一些细节在数据泛化过程中消失了,但这样所获得的泛化数据或许会更易于理解、更有意义。在消减后的数据集上进行数据挖掘显然效率更高。

数据变换

数据泛化

数据泛化就是将数据库中的跟任务相关的大型数据集从相对较低的概念层抽象到较高的概念层的过程。

很多时候依托于数据立方体/概念分层

【人话讲就是用更高层次的数据替代低层次的,比如老年到具体年龄】

数据规范化

规范化:将数据按比例进行缩放,使之落入一个特定的区域,以消除数值型属性因大小不一而造成挖掘结果的偏差。数据规范化的目的就是消除量纲的影响。

第四章

【重点】数据仓库的定义,四个特征

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策和信息的全局共享。

注:

数据仓库作用

数据仓库通过数据集成,为用户提供全局范围的统一数据视图,将数据整合到一起为用户提供分析决策支持,这些数据在传统的操作型数据库中很难或不能得到

数据怎么组织

【重点】数据集市和数据仓库的区别和联系

数据集市是完整的数据仓库的一个逻辑子集,而数据仓库正是由所有的数据集市有机组合而成。

数据集市一般由某个业务部门投资建设,满足其分析决策需要,可以理解为“部门级数据仓库”

数据集市有两种:

【重点】数据仓库系统的体系结构(经典模型)【画图说关系?每个部分的作用要知道】

 

数据仓库的开发和设计过程
按照生命周期发法可将数据仓库开发的全部过程分成三个阶段。
(1) 数据仓库规划分析阶段。
(2) 数据仓库设计实施阶段。
(3) 数据仓库的使用维护阶段。

周而复始,不断完善

模型设计(概念——逻辑;星型模型;粒度选择)

概念模型设计 ——ER 模型

在建模之前定义数据模型的边界

建立企业内不同群体的实体-联系模型

最后进行集成企业的总体概念模型

逻辑模型设计

进行概念模型(E—R 图)到逻辑模型(星型模型)的转换

粒度层次划分

关系模式定义

定义记录系统

【ER 模型和星型的转换是重点!】

(了解)物理模型

若逻辑模型是关系模型,可采用关系型数据库

若逻辑模型是星形或雪花模型,可采用关系型或者多维数据库

星系模型:一个复杂的商业智能应用往往会在数据仓库中存放多个事实表,这时就会出现多个事实表共享某一个或多个维表的情况,这就是事实星座,也称为星系模型(galaxy schema)。

粒度:指数据仓库中数据单元的详细程度和级别

粒度设计的步骤

ETL 的内容

ETL 是数据从业务系统抽取转化到数据仓库的过程

包括 4 个子过程:数据抽取、数据转换、数据清洗、数据装载

作用:解决数据分散问题、解决数据不清洁问题、方便企业各部门构筑数据集市

OLAP

什么是OLAP,和数据仓库的关系是什么

使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

 

数据立方体

OLAP操作

上卷 (drill-up,roll up): 概括数据

• 通过沿一个维的概念分层向上攀升或者通过维归约,对数据立方进行聚集

下钻 (Drill down ,roll down): 上卷的逆操作

• 从高层概括到底层概括,从不太详细到更加详细的数据

• 给数据添加更多细节,添加新的维到立方体来实现

切片和切块:在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市、各产品的销售情况。

转轴或旋转:转换立方体的视角, 可视化, 从 3D 到 2D 平面序列

钻过(drill across):涉及多个事实表的查询

钻透(drill through):钻透立方体的底层,到后端关系表

OLAP作用

OLAP的主要工作就是对数据立方体进行计算,把运算结果存起来,方便用户查询(不物化,部分物化,全部物化)

物化存储方式

ROLAP(也成为虚拟OLAP):

用户的多维分析请求通过ROLAP服务器动态翻译成SQL请求,然后交给RDBMS服务器来处理SQL,最后查询结果经多维处理(将以关系表存放的结果转换为多维视图)后返回给用户。

同时用作ROLAP存储器的RDBMS也针对OLAP作相应的优化,比如并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL的OLAP扩展(cube, rollup)等等。

优点:

缺点:

MOLAP:用多维数组进行存储,高度预处理,主要是通过已预处理的数据完成分析操作

优点:

缺点:

HOLAP

 

数据立方体计算与数据泛化

从广义数据分析的角度看,数据分析可以分为描述性分析和探索性分析,验证性分析

什么叫数据泛化,哪两种方法及规则

数据泛化:数据库中的数据和对象通常包含原始概念层的细节信息,数据泛化就是将数据库中的跟任务相关的大型数据集从相对较低的概念层抽象到较高的概念层的过程。

主要方法:

完全立方体多路数组聚集计算方法

具体见PPT19-25

注意:各平面要按他们大小的升序排列进行排序和计算。将最小的平面放在内存中,对最大的平面每次只是取并计算一块

冰山立方体(BUC)

对于稀疏的数据立方体,我们往往通过指定一个最小支持度阈值(也称冰山条件),来进行部分物化,这种部分物化的方体称之为冰山方体。

BUC: Bottom-Up Computation(自顶向下)

首先计算整个数据立方体的度量值, 然后沿着每个维度进行划分,同时检查冰山条件,对不满足条件的分枝进行剪枝操作,对满足的在下一个维度进行递归搜索

 

优点:减少不必要的计算消耗

缺点:性能容易受到维的次序以及不平衡数据的影响,应当以维基数的递减顺序进行划分

注:基数越高,分区越多,为BUC剪枝提供更大的机会

面向属性的泛化方法

概念泛化和OLAP

相似:

区别:

关联挖掘

关联规则挖掘用来发现大量数据中项集之间有趣的关联联系。如果两项或多项属性之间存在关联,那么其中一项的属性就可以依据其他属性值进行预测。

支持度和置信度

支持度 s 是指事务集 D 中包含 A∪B 的百分比(项集 A∪B 在事务数据库 DB 中出现的次数占总事务的百分比叫做项集的支持度)

 

置信度 c 是指 D 中在出现 A 的前提下同时包含 A,B 的事务的百分比(包含 A 和B 的事务数/包含 A 的事务数)

同时满足最小支持度阈值和最小置信度阈值的规则称作强规则

关联规则的挖掘一般可以分为两步:

Apriori算法

频繁项集挖掘

Lk为频繁k项集

Ck为候选k项集,Ck是由L(k-1)进行连接运算得到的

剪枝是依靠向下封闭的性质,所以,当连接获得Ck后,可以逐一获取Ck中项的子集,看其是否在L(k-1)中,若不在,则剪枝

关联规则挖掘

 

优点:

缺点:

FP树【重点】

FP树的构造:PPT75-77

构造FP-Tree时是按照1-项集频度的降序进行的

FP树的挖掘:PPT83

优点:FP-growth 比Apriori快一个数量级

原因:不生成候选集,使用紧缩的数据结构,避免重复数据库扫描等等

序列挖掘

序列模式:若序列α的支持度计数不小于最小支持度阈值min_sup,则称之为频繁序列,频繁序列也称为序列模式。

频繁k-序列:长度为k的频繁序列称为频繁k-序列。

最大序列:如果一个序列s不包含在序列数据库S中的任何其他序列中,则称序列s为最大序列

AprioriAll

PPT31-51(比较难搞,过程比较长)

排序

找频繁项集

映射转换【加快下面的计算】

产生频繁序列

求Lk,连接并剪枝产生C(k+1),【根据前缀连】

根据支持度产生L(k+1)

最大化:从最长K序列开始删除子序列,直到不可删减

GSP【重点】

在GSP算法中,k-序列是指序列中包含k个项,这与前面的定义有所不同

直接扫描获得L1

连接获得Ck【注意连接方式不同PPT59,根据前后缀连】

剪枝【一样注意k-序列的定义不同】

分类器

决策树

ID3

就是熵的计算。。。。

C4.5

贝叶斯

 

主要看例子PPT14

分类评估

四个指标

 

【重点在于,是实际存在但未检出的危害大,还是检出但错误危害大】

实际上,精确率和召回率是成反比的,精确度越高,召回率越低,还会会受到分类阈值影响

ROC曲线:

 

TPR: TP/(TP+FN)

FPR: FP/(FP+TN)

AUC(Area under Curve):Roc曲线下的面积,介于0和1之间。AUC作为数值可以直观的评价分类器的好坏,值越大越好。

PR曲线:

 

聚类分析

什么是好的聚类方法?

类内相似性高,类间相似度低

聚类结果的质量依赖于方法所使用的相似性度量和它的实现

分裂方法

全局最优: 遍历所有的分裂

下面两种都是启发式方法

k-means

给定 k,k-means 包括四个步骤:

优点:

缺点:

k-medoids

PAM算法:

PPT65-68

注意:代价函数是在距离上现在-原来;所以如果是负数就可以接受,正数则不迭代

特点:

分层方法

Diana(层次分裂)

Agnes(层次凝聚)

单连接,完全连接,具体见PPT

组平均……感觉不考了

特点:算法比较简单,但经常会遇到合并点选择的困难。如果在某一步没有很好的选择合并的决定,可能会导致低质量的聚类结果。

伸缩性不太好,算法复杂度为O(n^2)

基于密度的方法

几个基本概念

核心对象

直接密度可达

密度可达

密度相连

噪声:指不包含在任何簇中的对象

边界对象:不是核心对象,但在簇中,即至少从一个核心对象直接可达

 

DBSACN

DBSCAN通过检查数据集中每个对象的ε-邻域来寻找聚类。

例子:PPT114

特点:

离群点分析

离群点定义

在样本空间中,与其他样本点的一般行为或特征不一致的点,我们称为离群点

离群点挖掘

几个问题:

基于距离

k-近邻邻域——采用给定邻域半径,依据点的邻域中包含的对象多少来判定离群点

如果一个点的邻域内包含的对象少于整个数据集的一定比例则标识它为离群点,也就是将没有足够邻居的对象看成是基于距离的离群点。

离群因子定义为:

 

 

是不包含x的k-最近邻的集合,绝对值符号表示集合大小

离群因子越大越有可能是离群点

例子:PPT42

基于密度

局部领域密度:

 

就是所有距离加起来除以个数,然后取倒数

相对密度:

 

点内所有的密度加起来取平均,然后除以自己的密度

离群因子就是相对密度

推荐算法

主要有两类:基于协同过滤的推荐和基于内容的推荐

基于协同过滤的推荐

根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或是发现用户的相关性

它仅仅通过了解用户与物品之间的关系进行推荐,而根本不会考虑到物品本身的属性

也分为两类,基于用户和基于商品

基于用户

将一个用户对所有物品的偏好作为一个向量 ,计算用户之间的相似度

找到 K 邻居

根据邻居的相似度权重以及他们对物品的偏好,预测当前用户没有偏好的未涉及物品,计算得到一个排序的物品列表作为推荐

基于物品

建立物品倒排表

 

建立物品相似度矩阵

定义物品相似度

 

物品j预测兴趣度=用户喜欢的物品i的兴趣度×物品i和物品j的相似度,根据此生成推荐列表

  • 定类尺度(标称,二进制)
  • 定序尺度(次序属性)
  • 定距尺度(数值:间隔)
  • 定比尺度(数据:比例)
  • 数据仓库与数据挖掘

    1.1 数据分析

    数据分析的六大步骤:

    明确目的和思路(先决条件、提供项目方向)、数据收集(数据库建立)、数据处理(清洗、转化、提取、计算)、数据分析(数据统计、数据挖掘)、数据展现(图标、表格、文字)、报告撰写(结构清晰,明确结论、提出建议)

    1.2 大数据

    4V:Volume(大量化)、Variety(多样化)、Velocity(快速化)、Value(商业价值高、价值密度低)

    2.1 认识数据

    什么是属性

    一个属性是一个域,表示一个数据对象的一个特征。

    属性的类型是由属性可取的值决定的,有标称、二进制型、顺序值或者数值类型。

    标称属性:表示分类,没有次序信息。也可以认为是枚举型。

    二进制型:

  • 对称二元:相等价值,比如男女
  • 非对称二元:重要性不一样,比如HIV阴阳
  • 间隔尺度:如温度(摄氏度)【可以计算值的差值,以及中值,均数和众数】
  • 比例尺度:有零点,成比例 【可以计算值的差值,以及中值,均数和众数】
  • 定类尺度(标称,二进制)
  • 定序尺度(次序属性)
  • 定距尺度(数值:间隔)
  • 定比尺度(数据:比例)
  • 相似性:越相似数值越大,通常取值为 [0,1]
  • 相异性:越低越相似,通常用某种距离
  • 相关系数是用来表示变量间相关关系强度的指标,r取值[-1,1]
  • 相关系数不是等距量表值,更不是等比量表。不能说r=0.5是r=0.25的两倍。
  • 存在相关关系,不一定存在因果关系。
  • 数据清理:填充缺失值,识别/去除离群点,光滑噪音,并纠正数据中的不一致
  • 数据集成:多个数据库,数据立方体,或文件的集成
  • 数据变换:规范化和聚集
  • 数据归约:得到数据的归约表示,它小得多,但产生相同或类似的分析结果:维度规约、数值规约、数据压缩
  • 直接忽略(删除):可能改变数据分布,对数据分析结果产生影响
  • 自动填充 :
    • 一个全局常量、使用属性均值、与目标元组同一类的所有样本的属性均值
    • 基于推理的方法,如贝叶斯公式或决策树等模型对数据值进行预测,也可以使用热卡填充(用的比较多)
  • 简单统计分析:对属性值进行一个描述性的统计(规定范围),从而查看哪些值是不合理的(范围以外的值)。
  • 3δ原则:【若数据符合正态分布】
  • 使用距离检测多元离群点:当数据不服从正态分布时,可以通过远离平均距离多少倍的标准差来判定,多少倍的取值需要根据经验和实际情况来决定。
  • 基于模型检测:首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显著属于任何簇的对象;在使用回归模型时,异常是相对远离预测值的对象
  • 基于密度:当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。适合非均匀分布的数据。
    • 优点:给出了对象是离群点的定量度量,并且即使数据具有不同的区域也能够很好的处理。
    • 缺点:时间复杂度 O(m^2);参数选择困难,虽然算法通过观察不同的 k 值,取得最大离群点得分来处理该问题,但是,仍然需要选择这些值的上下界。计算机和人工检查相结合:人工检查可疑值。
  • 回归:发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即利用拟合函数对数据进行平滑及除去噪声。
  • 聚类:将物理的或抽象对象的集合分组为由不同簇,找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
    • 孤立点往往需要人工审查避免丢失需要的数据
  • 分箱:把待处理的数据按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。
    • 分箱方法:可以按照最大最小值区间(等宽度),也可以按个数(等深 / 等频)等等
    • 平滑方法:中位数,均值,边界值等等
  • 人工更正
  • 利用知识工程工具:如,如果知道属性间的函数依赖关系,可以据此查找违反函数依赖的值。
  • 数据字典:根据数据字典中提供的信息,消除不一致。
  • 联邦数据库(Federated Distributed Database System):一种虚拟集成方式,是把多个数据库系统联合在一起,构成“联邦数据库系统”,数据库之间通过接口查询,互相通信,数据分布在不同地方的计算机或数据库服务器上,通过网络连接,数据还是保存在原来的数据源中,只在需要查询时才被访问
  • 中间件集成:通过统一的全局数据模型来访问异构的数据源
  •  数据集成的基础介绍-联邦数据库和中间件技术进行集成
  • 数据复制:一种实际存储方式,将各个数据源的数据复制到同一处,即数据仓库,把来自各个独立数据源的数据加载并存储到一个物理数据库
  • 模式集成
  • 实体识别:多个数据源的真实世界的实体的识别
  • 数据冗余:
    • 属性冗余:某个属性可以由别的属性推出;
    • 重复记录检测/数据去重(元组冗余)
  • 冲突检测
  • 最大最小规范化(归一化)
  • z-score规范化(标准化)
  • 小数定标规范化
  • 面向主题的:在较高层次上,它是将企业信息系统中的数据综合、归类并进行分析利用的抽象;在逻辑意义上,它对应企业中某一宏观分析领域所涉及的分析对象
  • 集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的
  • 相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新
  • 反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
  • 数据仓库是一个过程而不是一个项目;数据仓库是一个环境,而不是一件产品
  • 数据仓库的集成不能是完全静态的,否则决策者将一直使用过时的数据,应该定期加载、刷新
  • 粒度:早期细节级—当前细节级—轻度综合级—高度综合级
  • ,粒度越小; 粒度越高,所能回答查询的能力越低】
  • 数据分割:按时间,或按地理位置等其他维度
  • 依赖的数据集市: 数据来自中央数据仓库, 可满足部门的数据分析的需要, 而且与中央数据仓库数据一致
  • 独立的数据集市: 数据直接来自业务系统
  • 底层:数据仓库服务器,几乎总是一个关系型数据库系统。DW 服务器从操作型数据库或外部数据源提取数据,并进行清洗、转换、集成等,装入到数据仓库中/分发到数据集市上。
  • 中间层:OLAP 服务器,提供对多维数据的存储和操作,给用户提供多角度观察数据的能力
    • ROLAP将多维数据上的操作映射为标准的关系操作
    • MOLAP 直接在多维模型上实现多维数据操作
  • 顶层:前端工具,包括查询和报表、分析、数据挖掘工具等。
  • 粒度的不同选择会导致逻辑模型的差异
  • 粒度的不同选择会导致数据存储容量的差异
  • 粗略估算数据量,确定合适的粒度级的起点。即粗略估算数据仓库中将来的数据行数和所需的数据存储空间
  • 确定粒度的级别。在数据仓库中确定粒度的级别时,需要考虑如下因素:分析需求类型、数据最低粒度和存储数据量。
  • OLAP是以多维视图的形式展示给用户的,因此,多维结构是OLAP的核心
  • 给定若干个维构造出方体的格称为数据立方体。在数据仓库研究界, 把数据立方体称为方体。
    • 顶点方体: 最顶层的方体; 它是0维方体, 代表最高的概括层, 即求所有数据的总和;
    • 基本方体: 最低层的方体; 存放最低层汇总数据。
    • 其余每个点通称为方体, 代表一个普通的数据立方。每一个方体都表示在不同的概括层次上的汇总
    • 立方体总个数为2^n

     

  • 采用星型,雪花型模型组织数据
  • 不做Cube计算,直接用关系型数据库,但这也导致对多维数据处理涉及大量连接运算,导致查询速度较慢
  • 对维表,数据,甚至平台变化都有良好的适应性
  • 存储容量几乎没有限制
  • 不支持多行计算和维之间的计算
  • 很多时候ROLAP服务器需要将多维存储语句转化为SQL语句,临时拼凑出“立方体”,相应时间较长
  • 有利于多维计算
  • 存取快(得益于多维数组)
  • 数据稀疏问题
  • 受OS平台文件大小限制,难以达到TB级别
  • 增加新维度,或者数据频繁变化时,需要大量重新计算,甚至重构
  • 描述性分析:以简洁概要的方式描述数据,并提供数据的一般性质【如数据泛化
  • 预测性数据分析:通过分析数据建立一个或一组模型,并试图预测新数据集的行为【如分类,回归分析等】
  • 数据立方体(OLAP 使用的方法)
  • 概念描述(面向属性的归纳方法)
  • 属性删除的适用规则:
    • 在此属性上没有泛化操作符(比如该属性没有定义相关的概念分层)
    • 该属性的较高层概念用其他属性表示,如street,其高层次概念用属性(city,province,country)等描述,可删除
  • 属性泛化的使用规则:
  • 具有大量不同值,且该属性上存在泛化操作符,则使用该泛化操作符对该属性进行数据泛化操作
  • 都是数据泛化,对数据的汇总在不同的的抽象级别上呈现
  • 复杂的数据类型和聚集
    • OLAP中维和度量的数据类型都非常有限(非数值型的维和数值型的数据),表现为一种简单的数据分析模型
    • 概念描述可以处理复杂数据类型的属性及其聚集
  • 用户控制与自动处理
    • OLAP是一个由用户控制的过程
    • 概念描述则表现为一个更加自动化的过程
  • 项集的支持度是相对支持度
  • 出现的频度是绝对支持度
  • 找出所有频繁项集
  • 挖掘强关联规则
  • 如果|L| = k, 那么有2^k – 2候选规则
  • 候选规则天生满足最小支持度,关键是需要判断是否满足最小置信度
  • 置信度不具有反单调性,(除非由相同项集生成)
  • 类似于频繁项集挖掘的剪枝规则
  • 适合稀疏数据集
  • 适合OLTP的关联挖掘
  • 为了计算L1,不得不多次扫描数据库,造成很大的IO负载
  • 可能产生庞大的候选集,且候选项集支持度计算量大,数据规模严重影响算法效率
  • 对构造后的FP-Tree进行挖掘时,需要按照1-项集频度的升序进行
  • 条件模式基:由FP-Tree中与该1-项集一起出现的前缀路径组成,以要挖掘的节点作为叶子节点所对应的FP子树
    • 当节点为根节点的直接孩子时,条件模式基为空

     

  • AprioriAll的连接要求两个序列除了最后一项外,其余前缀序列完全相同,连接结果为<前缀+ab>和<前缀+ba>
  • GSP的连接要求s1除去首项,s2除去末项外相同,连接方式为,s2末项为单个元素时,直接添加到s1尾部,否则,把s2末项添加到s1尾部元素的最后一项
  • 决策树是一种自顶向下增长树的贪婪算法,在每个节点选取能最好分类样本的属性,继续这个过程直到这棵树能完美地分类训练集,或所有的属性均已被用过。
  • 在其生成过程中,分割方法即属性选择度量是关键。通过属性选择度量,选择出最好的将样本分类的属性。
    • 基于信息论的方法(较有代表性的是ID3、C4.5算法等)
    • 最小GINI指标方法(常用的有CART、SLIQ及SPRINT算法等)
  • 真正(True Positive,TP) : 判定ti在Cj中,实际在其中。
  • 假正( False Positive,FP ): 判定ti在Cj中,实际不在其中。
  • 真负( True Negative,TN ): 判定ti不在Cj中,实际不在其中。
  • 假负( False Negative,FN): 判定ti不在Cj中,实际在其中。
  • 准确率(acc):(tp+tn) )/(tp+fn+fp+tn)
  • 精度:P=tp / (tp+fp)【预测为正中正确的比例】
  • 召回率:R=tp/(tp+fn)【实际为正中被预测出来的比例】
  • F = 2RP/(R+P)
  • PR曲线的横坐标是精确率P,纵坐标是召回率R。
  • 如果一个学习器的PR曲线A完全包住另一个学习器B的PR曲线,则可断言A的性能优于B。
  • A和B发生交叉,可以根据曲线下方的面积大小来进行比较
  • 更常用的是平衡点F1。平衡点(BEP)是P=R时的取值(斜率为1),F1值越大,则认为该学习器的性能较好,F1 = 2 * P * R /( P + R )
  • 每个聚类由聚类中心表示
  • 以集群内各对象的平均值为集群的中心点
  • 使用平均误差准则函数
  • 将数据集分裂成 k 个非空子集(任意的)
  • 计算当前聚类的质心 (质心为聚类的中心)
  • 将每个数据分配至和质心距离最短的聚类 (重新分配)
  • 返回步骤2, 直至所有的数据均不重新分配
  • 解决聚类问题的经典算法,简单,快速
  • 对处理大数据集,该算法是相对可伸缩和高效率的
  • 簇如果是密集的,效果较好
  • 在簇的平均值被定义的情况下才能使用,可能不适用于某些应用。
  • 必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。
  • 不适合于发现大小差别很大的簇。而且,它对于“躁声”和孤立点数据是敏感的
  • 每个聚类由其中的某个对象表示
  • 以集群内最接近中心位置的对象为集群的中心点,每一轮都只针对扣除作为集群中对象外的所有剩余对象,重新寻找最近似的集群中心。
  • 相对健壮,不易被噪声和离群点影响
  • 执行代价比k-means高
  • 选择最大直径的簇进行分裂
  • 一开始把最大平均相异度的点分裂出去,形成新簇
  • 把老簇中,离新簇最近的距离小于离老簇中最近距离的点,分裂给新簇
  • 单个点作为聚类和近邻矩阵
  • 逐渐凝聚并更新临近矩阵,更新方式与连接方式有关
  • 如果一个点p的ε-邻域包含多于MinPts个对象,则创建一个p作为核心对象的新簇。
  • 然后,DBSCAN反复地寻找从这些核心对象直接密度可达的对象,这个过程可能涉及一些密度可达簇的合并。
  • 当没有新的点可以被添加到任何簇时,该过程结束。
  • 复杂度:采用空间索引, 复杂度为O(nlog n), 否则为O(n2)
  • 对用户定义的参数是敏感的, 参数难以确定(特别是对于高维数据), 设置的细微不同可能导致差别很大的聚类
  • 离群点挖掘=离群点定义+离群点挖掘方法
  • 离群点挖掘方法只负责找出离群点,挖掘的结果需要专家解释
  • 意义:少量数据中可能蕴含重要价值
  • 定义离群点需要指明如何使用多个属性的值确定一个对象是否离群
  • 全局or局部观点
  • 点的离群程度
  • 使用全局阈值,不能处理不同密度区域的数据集
  • 对K的取值敏感
  • 时间复杂度为O(n^2)
  • 当数据集含有多种分布或数据集由不同密度子集混合而成时,数据是否离群不仅仅取决于它与周围数据的距离大小,而且与邻域内的密度状况有关
  • 使用每个对象到第k个最近邻的距离大小来度量密度
  • 局部离群点:一个对象相对于它的局部邻域,特别是关于局部密度,它是远离的
  • 基本思想:基于用户对物品的偏好找到相邻邻居用户,然后将邻居用户喜欢的推荐给当前用户
  • 计算方法:
  • PPT20
  • 推荐时按照感兴趣程度,感兴趣程度用下面公式计算:
  • 缺点:
    • 形成有意义的邻居集合很难
    • 用户之间的距离可能变得很快。这种离线算法难以瞬间更新推荐结果
  • 基本思想:与基于用户的CF类似,计算邻居时采用物品本身,而不是从用户的角度,即基于用户对物品的偏好找到相似的物品,然后根据用户的历史偏好,推荐相似的物品给他
  • 计算方法:所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度,得到物品的相似物品后,根据用户历史的偏好预测当前用户还没有表示偏好的物品,计算得到一个排序的物品列表作为推荐
  • 优点:运行效果稳定,可以预先计算距离
  • 缺点:不同领域的最热门商品之间经常具有较高的相似度

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/一键难忘520/article/detail/931925
推荐阅读
相关标签
  

闽ICP备14008679号