赞
踩
基本概念
了解一些基本概念。
购物篮事务:如下数据的例子通常被称为购物篮事务。其中一行对应一个事务,包含一个唯一的标识和给定客户购买的商品集合;
二元表示:项用二元变量表示,如果项在事务中出现,则值为1,否则为0;
I:购物篮事务中所有项的集合;
T:所有事务的集合,每个事务ti包含的项集都是I的子集;
项集:包含0个或者多个项的集合。如果一个项集包含k个项,则称它为k-项集;
支持度计数:包含特定项集的事务个数;
关联规则:形如X->Y的蕴涵表达式,其中X和Y是不相交的项集。关联规则的强度可以用支持度(support)和置信度(confidence)度量。
支持度:支持度确定规则可以用于给定数据集的频繁程度
s(X→Y)=δ(X∪Y)/N
置信度:置信度确定Y在包含X的事务中出现的频繁程度
c(X→Y)=δ(X∪Y)/δ(X)
为什么使用支持度和置信度?
支持度是一种重要的度量,支持度很低的规则可能只是偶然出现。从商务角度来看,低支持度的规则多半是无意义的,对顾客很少购买的商品进行促销可能并无益处。因此,支持度通常用来删去那些无意义的规则。另一方面,置信度度量通过规则进行推理具有可靠性。对于给定的规则X->Y,置信度越高,Y包含在X的事务中出现的可能性就越大。当然,由关联规则作出的推论不必然蕴涵因果关系,只是表示规则前件和后件中的项明显的同时出现。因果关系需要关于数据中原因和结果属性的知识,并且通常涉及长期出现的联系。
关联规则发现:给定事务的集合T,关联规则发现是指找出支持度大于等于minsup并且置信度大于等于minconf的所有规则,其中minsup和minconf是对应的支持度和置信度阈值。
频繁项集:满足最小支持度阈值的所有项集
规则:从上一步发现的频繁项集中提取所有高置信度的规则
apriori算法:
先验原理:如果一个项集是频繁的,则它所有子集一定也是频繁的。相反,如果项集是非频繁的,则它的所有超集也一定是非频繁的。
apriori频繁项集产生的部分有两个特点:第一,是一个逐层算法,从频繁1-项集到最长的频繁项集,它每次遍历项集格中的一层;第二,使用产生-测试策略来发现频繁项集。每次迭代后,新的候选项集都是由前一次迭代发现的频繁项集产生,然后对每个候选的支持度进行计数,并与最小的支持度阈值进行比较。
apriori计算复杂度的影响因素:支持度阈值,项数,
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。