赞
踩
维克多迈尔在《大数据时代》中,提出了大数据时代跟传统的信息时代相比,最本质的三个思维变革:1. 要全体数据,而不仅是样本;2. 要混杂,而不要效率偏低的精确;3. 要相关关系,而不是因果关系。这第三条说的就是数据挖掘中,最基础,最简单,也是最为重要的应用——数据相关关系的挖掘。相关关系,其实是数据中蕴含的最直接的知识,而对这种相关关系的挖掘,如今也早已应用到推荐系统,个性化检索,机器学习,以及很多更加高级的领域。所以说,相关关系的挖掘,第一,它极为重要,它几乎是数据挖掘和传统数据分析侧重点的分水岭,在如今这个数据时代,它是最重要也是最基本的数据技能;第二,它不难,一般的相关关系挖掘,不需要太过精深的理论;第三,它很普及,已经渗入了生活的方方面面。而这个问题入门级的算法,就是本文要说的Apriori算法,也叫“先验算法”。
当然,Apriori算法虽然本身不难,也容易理解,但是还是有必要学习一下它的产生思路。一来能有个更深入的认识,二来,也算是对数据相关关系基本特征有个理解。所以,我将用较大的一个篇幅,说明Apriori的相关背景。这一点,我觉得比学习算法本身,更有意义。
这首先得从生活中最普通的购物篮说起,我们去买东西,经常把一下商品放在一起购买,比如,我去买红酒,可能会连带着酒杯一起,我去买被子,可能会连带着枕头一起。因为,这些东西其实背后是存在着某种关联的。当然,我们不妨像维克多迈尔说的那样,先不用去管这样东西背后到底是为什么关联起来的,这是科学家和哲学家想的事情,作为商店的老板,你需要想的,只是知道什么东西之间存在关联就可以了。这样,就能通过对商店里商品的摆放,提高你的营业额。一个著名的例子是沃尔玛超市的“啤酒”和“尿布”。
购物篮的例子,可以用来说明两个问题:
上面两点,就是Apriori算法产生的原因。
下面为了说明方便,会给出一些概念,当然,这些概念我不想给出很精确的定义,因为你在任何一个搜索引擎都能查到。我只是给出最容易理解的解释。
好了,到此,将5,6,7,8四个概念统一起来,我们可以得到一个结论:实体间关联规则的强弱可以通过它们的相对支持度和置信度决定,而这两个指标又可以通过绝对支持度:
这样,关联规则的挖掘是一个两步的过程:
显然,当我们确定了要分析的实体之后,第二步的开销就很小了。关键是第一步:挖掘频繁项集。而Apriori算法解决的就是这个问题。
Apriori翻译成中文是“先验”,所以,不难想到,先验性质就是整个Apriori的核心。
定理1:先验性质:频繁项集的所有非空子集也一定是频繁的。
说明:这个概念很容易理解了,比如一个项集
反过来,我们可以换个角度来思考这个问题,如果一个项集
进一步思考可以得到这样一个结论:如果项集
定理2:反单调性:一个项集,如果有至少一个非空子集是非频繁的,那么这个项集一定是非频繁的。
正是利用了上面的定理1,定理2,Apriori被设计出来,它通过逐层搜索的模式,由频繁
可见,Apriori最核心的部件就是怎样通过频繁
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。