赞
踩
关联性(Association)
相关性(Correlation)
因果关系(Causality)
Apriori 算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。在这个算法中 Agrawal 给出了一个关于频繁模式的著名性质-Apriori 性质。
产生频繁项集
产生关联规则
分割与分布数据
格式化数据块
<Tid, list>
对,其中Tid
是事务标识符,list
是事务中的项目列表。执行Map任务
运行Combiner函数
执行Reduce任务
再次扫描D
合并Reduce函数输出
文本文件切分
<key1, value1>
,其中key1 代表该行的偏移量,value1 代表一行文本(频繁项集中的一项)Map函数处理
<key1, value1>
。<key2, value2>
,其中key2
是频繁项集中的一项,value2
是该项对应的所有规则(包括支持度和可信度)。。Reduce函数规约
<rule, conf>
对存储到HDFS(Hadoop分布式文件系统)。Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。