当前位置:   article > 正文

关联分析算法 python库_关联分析-从算法到实战

mlxtend.frequent_patterns.apriori(df, min_support=0.5, use_colnames=false, m

基本概念

了解一些基本概念。

购物篮事务:如下数据的例子通常被称为购物篮事务。其中一行对应一个事务,包含一个唯一的标识和给定客户购买的商品集合;

二元表示:项用二元变量表示,如果项在事务中出现,则值为1,否则为0;

I:购物篮事务中所有项的集合;

T:所有事务的集合,每个事务ti包含的项集都是I的子集;

项集:包含0个或者多个项的集合。如果一个项集包含k个项,则称它为k-项集;

支持度计数:包含特定项集的事务个数;

关联规则:形如X->Y的蕴涵表达式,其中X和Y是不相交的项集。关联规则的强度可以用支持度(support)和置信度(confidence)度量。

支持度:支持度确定规则可以用于给定数据集的频繁程度

s(X→Y)=δ(X∪Y)/N

置信度:置信度确定Y在包含X的事务中出现的频繁程度

c(X→Y)=δ(X∪Y)/δ(X)

为什么使用支持度和置信度?

支持度是一种重要的度量,支持度很低的规则可能只是偶然出现。从商务角度来看,低支持度的规则多半是无意义的,对顾客很少购买的商品进行促销可能并无益处。因此,支持度通常用来删去那些无意义的规则。另一方面,置信度度量通过规则进行推理具有可靠性。对于给定的规则X->Y,置信度越高,Y包含在X的事务中出现的可能性就越大。当然,由关联规则作出的推论不必然蕴涵因果关系,只是表示规则前件和后件中的项明显的同时出现。因果关系需要关于数据中原因和结果属性的知识,并且通常涉及长期出现的联系。

关联规则发现:给定事务的集合T,关联规则发现是指找出支持度大于等于minsup并且置信度大于等于minconf的所有规则,其中minsup和minconf是对应的支持度和置信度阈值。

频繁项集:满足最小支持度阈值的所有项集

规则:从上一步发现的频繁项集中提取所有高置信度的规则

apriori算法:

先验原理:如果一个项集是频繁的,则它所有子集一定也是频繁的。相反,如果项集是非频繁的,则它的所有超集也一定是非频繁的。

apriori频繁项集产生的部分有两个特点:第一,是一个逐层算法,从频繁1-项集到最长的频繁项集,它每次遍历项集格中的一层;第二,使用产生-测试策略来发现频繁项集。每次迭代后,新的候选项集都是由前一次迭代发现的频繁项集产生,然后对每个候选的支持度进行计数,并与最小的支持度阈值进行比较。

apriori计算复杂度的影响因素:支持度阈值,项数,

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/261882
推荐阅读
相关标签
  

闽ICP备14008679号