当前位置:   article > 正文

关联分析中的支持度、置信度和提升度 计算_支持度计算公式

支持度计算公式

项集(Itemset)

包含0个或多个项的集合,如果包含k个项,则称为k-项集。
  • 1

事务的宽度

事务中出现的项的个数
  • 1

支持度、置信度和提升度 定义

一般我们使用三个指标来度量一个关联规则,这三个指标分别是:支持度、置信度和提升度。

Support(支持度)

Support(支持度):表示同时包含A和B的事务占所有事务的比例。如果用P(A)表示使用A事务的比例,那么Support=P(A&B)

Confidence(置信度)

Confidence(置信度):表示使用包含A的事务中同时包含B事务的比例,即同时包含A和B的事务占包含A事务的比例。公式表达:Confidence=P(A&B)/P(A)

Lift(提升度)

Lift(提升度):表示“包含A的事务中同时包含B事务的比例”与“包含B事务的比例”的比值。公式表达:Lift=(P(A&B)/P(A))/P(B)=P(A&B)/P(A)/P(B)。

提升度反映了关联规则中的A与B的相关性。
提升度>1且越高表明正相关性越高。
提升度<1且越低表明负相关性越高,提升度=1表明没有相关性。

例一

购物篮分析
在这里插入图片描述

例1,将购买啤酒的事务集表示为A,请问:购买啤酒的顾客的概率P(A)=? (请写出计算过程)

正确答案:

P(A)=|A|/|S|=4/4=1
  • 1
  • 2
  • 3

例2,将购买尿布的事务集表示为B,请问:购买尿布的顾客的概率P(B)=? (请写出计算过程)

正确答案:

P(B)=|B|/|S|=3/4
  • 1
  • 2
  • 3

例3,顾客既购买啤酒又购买尿布的概率P(AB)=?(请写出计算过程)

正确答案:

P(AB)=|AB|/|S|=3/4
  • 1
  • 2
  • 3

例,从“啤酒->尿布”的置信度是多少?

Confidence(置信度):表示使用包含A的事务中同时包含B事务的比例,即同时包含A和B的事务占包含A事务的比例。

正确答案:

|AB|/|A|=3/4
  • 1
  • 2
  • 3

例,从“啤酒->尿布”的支持度是多少?

Support(支持度):表示同时包含A和B的事务占所有事务的比例

正确答案:

|AB|/|S|=3/4
  • 1
  • 2
  • 3

例,从“啤酒->尿布”的提升度是多少?

Lift(提升度):表示“包含A的事务中同时包含B事务的比例”与“包含B事务的比例”的比值。

我的答案:

|AB|/|A|/|AB|/|S|=3/4/3/4=1
  • 1
  • 2
  • 3

例二

已知有1000名顾客买年货,分为甲乙两组,每组各500人,其中甲组有500人买了茶叶,同时又有450人买了咖啡;乙组有450人买了咖啡,如表(1)所示:
在这里插入图片描述

求解

1)”茶叶→咖啡“的支持度

2)"茶叶→咖啡"的置信度

3)”茶叶→咖啡“的提升度

分析:

支持度(Support)

    支持度表示项集{X,Y}在总项集里出现的概率。公式为:

              Support(X→Y) = P(X,Y) / P(I) = P(X∪Y) / P(I) = num(XUY) / num(I)

 其中,I表示总事务集。num()表示求事务集里特定项集出现的次数。  

            比如,num(I)表示总事务集的个数

                        num(X∪Y)表示含有{X,Y}的事务集的个数(个数也叫次数)。  
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

设X= {买茶叶},Y={买咖啡},则规则”茶叶→咖啡“表示”即买了茶叶,又买了咖啡“,于是,”茶叶→咖啡“的支持度为

   Support(X→Y) = 450 / 500 = 90%
  • 1
2.置信度 (Confidence)
置信度表示在先决条件X发生的情况下,由关联规则”X→Y“推出Y的概率。即在含有X的项集中,含有Y的可能性,公式为:
Confidence(X→Y) = P(Y|X)  = P(X,Y) / P(X) = P(XUY) / P(X) 
"茶叶→咖啡"的置信度为
  • 1
  • 2
  • 3
  • 4

"茶叶→咖啡"的置信度为

  Confidence(X→Y) = 450 / 500 = 90%
  • 1
3.提升度(Lift)

    提升度表示含有X的条件下,同时含有Y的概率,与不含X的条件下却含Y的概率之比。

               Lift(X→Y) = P(Y|X) / P(Y)
  • 1
  • 2
  • 3
  • 4
  • 5

”茶叶→咖啡“的提升度为

   Lift(X→Y) = Confidence(X→Y) / P(Y) = 90% /  ((450+450) / 1000) = 90% / 90% = 1
  • 1

由于提升度Lift(X→Y) =1,表示X与Y相互独立,即是否有X,对于Y的出现无影响。也就是说,是否购买咖啡,与有没有购买茶叶无关联。即规则”茶叶→咖啡“不成立,或者说关联性很小,几乎没有,虽然它的支持度和置信度都高达90%,但它不是一条有效的关联规则。

满足最小支持度和最小置信度的规则,叫做“强关联规则”。然而,强关联规则里,也分有效的强关联规则和无效的强关联规则。

如果Lift(X→Y)>1,则规则“X→Y”是有效的强关联规则。

如果Lift(X→Y) <=1,则规则“X→Y”是无效的强关联规则。

特别地,如果Lift(X→Y) =1,则表示X与Y相互独立。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/908932
推荐阅读
相关标签
  

闽ICP备14008679号