赞
踩
包含0个或多个项的集合,如果包含k个项,则称为k-项集。
事务中出现的项的个数
一般我们使用三个指标来度量一个关联规则,这三个指标分别是:支持度、置信度和提升度。
Support(支持度)
Support(支持度):表示同时包含A和B的事务占所有事务的比例。如果用P(A)表示使用A事务的比例,那么Support=P(A&B)
Confidence(置信度)
Confidence(置信度):表示使用包含A的事务中同时包含B事务的比例,即同时包含A和B的事务占包含A事务的比例。公式表达:Confidence=P(A&B)/P(A)
Lift(提升度)
Lift(提升度):表示“包含A的事务中同时包含B事务的比例”与“包含B事务的比例”的比值。公式表达:Lift=(P(A&B)/P(A))/P(B)=P(A&B)/P(A)/P(B)。
提升度反映了关联规则中的A与B的相关性。
提升度>1且越高表明正相关性越高。
提升度<1且越低表明负相关性越高,提升度=1表明没有相关性。
购物篮分析
例1,将购买啤酒的事务集表示为A,请问:购买啤酒的顾客的概率P(A)=? (请写出计算过程)
正确答案:
P(A)=|A|/|S|=4/4=1
例2,将购买尿布的事务集表示为B,请问:购买尿布的顾客的概率P(B)=? (请写出计算过程)
正确答案:
P(B)=|B|/|S|=3/4
例3,顾客既购买啤酒又购买尿布的概率P(AB)=?(请写出计算过程)
正确答案:
P(AB)=|AB|/|S|=3/4
例,从“啤酒->尿布”的置信度是多少?
Confidence(置信度):表示使用包含A的事务中同时包含B事务的比例,即同时包含A和B的事务占包含A事务的比例。
正确答案:
|AB|/|A|=3/4
例,从“啤酒->尿布”的支持度是多少?
Support(支持度):表示同时包含A和B的事务占所有事务的比例
正确答案:
|AB|/|S|=3/4
例,从“啤酒->尿布”的提升度是多少?
Lift(提升度):表示“包含A的事务中同时包含B事务的比例”与“包含B事务的比例”的比值。
我的答案:
|AB|/|A|/|AB|/|S|=3/4/3/4=1
已知有1000名顾客买年货,分为甲乙两组,每组各500人,其中甲组有500人买了茶叶,同时又有450人买了咖啡;乙组有450人买了咖啡,如表(1)所示:
求解
1)”茶叶→咖啡“的支持度
2)"茶叶→咖啡"的置信度
3)”茶叶→咖啡“的提升度
分析:
支持度(Support)
支持度表示项集{X,Y}在总项集里出现的概率。公式为:
Support(X→Y) = P(X,Y) / P(I) = P(X∪Y) / P(I) = num(XUY) / num(I)
其中,I表示总事务集。num()表示求事务集里特定项集出现的次数。
比如,num(I)表示总事务集的个数
num(X∪Y)表示含有{X,Y}的事务集的个数(个数也叫次数)。
设X= {买茶叶},Y={买咖啡},则规则”茶叶→咖啡“表示”即买了茶叶,又买了咖啡“,于是,”茶叶→咖啡“的支持度为
Support(X→Y) = 450 / 500 = 90%
2.置信度 (Confidence)
置信度表示在先决条件X发生的情况下,由关联规则”X→Y“推出Y的概率。即在含有X的项集中,含有Y的可能性,公式为:
Confidence(X→Y) = P(Y|X) = P(X,Y) / P(X) = P(XUY) / P(X)
"茶叶→咖啡"的置信度为
"茶叶→咖啡"的置信度为
Confidence(X→Y) = 450 / 500 = 90%
3.提升度(Lift)
提升度表示含有X的条件下,同时含有Y的概率,与不含X的条件下却含Y的概率之比。
Lift(X→Y) = P(Y|X) / P(Y)
”茶叶→咖啡“的提升度为
Lift(X→Y) = Confidence(X→Y) / P(Y) = 90% / ((450+450) / 1000) = 90% / 90% = 1
由于提升度Lift(X→Y) =1,表示X与Y相互独立,即是否有X,对于Y的出现无影响。也就是说,是否购买咖啡,与有没有购买茶叶无关联。即规则”茶叶→咖啡“不成立,或者说关联性很小,几乎没有,虽然它的支持度和置信度都高达90%,但它不是一条有效的关联规则。
满足最小支持度和最小置信度的规则,叫做“强关联规则”。然而,强关联规则里,也分有效的强关联规则和无效的强关联规则。
如果Lift(X→Y)>1,则规则“X→Y”是有效的强关联规则。
如果Lift(X→Y) <=1,则规则“X→Y”是无效的强关联规则。
特别地,如果Lift(X→Y) =1,则表示X与Y相互独立。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。