赞
踩
摘要: 本算法主要应用于关联分析问题(啤酒与尿布)。它使用基于支持度的剪枝技术,系统的控制候选集指数增长。
关联规则是形如X->Y的蕴涵表达式,其中X和Y是不相交的项集,即X∩Y=∅。
支持度(s):s(x->y)=count(X∪Y)/N 置信度(c): c(x->y)=count(X∪Y)/count(X)
count(.)表示支持度计数。
1: K=1
2: FK={i|i∈I∧σ({i})≥N*minsup} {发现所有的频繁1-项集}
3: repeat
4: k=k+1
5: Ck=apriori-gen(Fk-1) {产生候选项集}
6: for 每个事务 t∈T do
7: Ct=subset(Ck,t) {识别属于t的所有候选}
8: for 每个候选项集c∈Ct do
9: σ(c)= σ(c)+1 {支持度技术增值}
10: end for
11: end for
12: Fk={<!-- -->{c|c∈Ck∧σ(c)≥N*minsup} {提取频繁K-项集}
13:until Fk=∅
14:Result=∪Fk
该伪代码中,Ck为候选K-项集的集合,而Fk为频繁K-项集的集合:
步骤5的函数主要有如下两个操作:
1: For 每一个频繁K-项集fk,k>=2 do
2: H1={i|i∈f¬k} {规则的1-项后件}
3: call ap-genrules(fk, H1)
4: end for
过程ap-genrules(fk,Hm)
1: k=|fk| {频繁项集的大小}
2:m=|Hm| {规则后件的大小}
3:if k>m + 1 then
4: Hm+1=apriori-gen(Hm)
5: for 每个 hm+1∈Hm+1 do
6: conf = σ(fk)/ σ(fk-hm+1)
7: if conf >= minconf then
8: output:规则(fk-hm+1)->hm+1
9: else
10: 从Hm+1删除hm+1
11: end if
12: end for
13: call ap-genrules(fk, Hm+1)
14: end if
3. 频繁项集的紧凑表示
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。