赞
踩
关联规则--支持度与置信度
2018-11-25
支持度,简单的字面理解就是支持的程度,一般以百分比表示。生活中常见的使用场合有投票、竞选、民意调查等,比如某校高一三班进行班委竞选,该班级共有学生50名,在班长一职的竞选中,张三得到40票。那么就可以说在该班班长竞选中,张三的支持度是:40/50*100%=80%。
该名词还常出现在数据挖掘的关联分析中,常跟 置信度(或可信性)一起出现。
如:某超市中有1000个顾客购物,其中200个顾客购买了面包(物品集A),那么面包(物品集A)的支持度为:
P(A)=20%(200/1000)。
关联规则从一个侧面揭示了事务之间的某种联系。
支持度和置信度总是伴随着关联规则存在的,它们是对关联规则的必要的补充。
对某条关联规则而言,如 A -> B (support=30%, confidence= 60%)
其中的support=30%是说,在所有的事务中同时出现A和B的概率。
而,confidence=60%是说,所有事务中,在出现A的情况下出现B的概率,即条件概率。
那么我们要怎样设置支持度和置信度呢?
支持度揭示了A和B同时出现的频率,如果A和B一起出现的频率非常小,那么就说明了A和B之间的联系
并不大;但若一起出现的频率非常频繁,那么A和B总是相关联的知识也许已经成为常识而存在了。这就
涉及到如何正确设置支持度的问题。
当然,对数据库中的隐藏的关联规则的挖掘有一个重要的性质就是知识总是出现在不同的层面上,
因此这也是一个需要着重考虑的问题。
置信度揭示了A出现时,B是否一定会出现,如果出现则其大概有多大的可能出现。如果置信度为100%,
则说明了A出现时,B一定出现。那么,对这种情况而言,假设A和B是市场上的两种商品,就没有理由不进行捆绑销售了。
如果置信度太低,那么就会产生这样的疑问,A和B关系并不大,也许与A关联的并不是B.
当然了,就做题而言,往往给出支持度和置信度的要求。在一个具体的数据挖掘任务中,也是用户自行设置这两个值。
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。
http://www.pinlue.com/style/images/nopic.gif
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。