当前位置:   article > 正文

数据挖掘算法——关联分析算法(apriori和FPgrowth)_数据挖掘(关联规则(fp-growth、apriori)、分类(决策树、k-近邻、朴素贝叶斯)、聚

数据挖掘(关联规则(fp-growth、apriori)、分类(决策树、k-近邻、朴素贝叶斯)、聚

1.什么是关联分析?

从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。
  • 1

2.关联分析中的关系

频繁项集(frequent item sets)是经常出现在一块的物品的集合。用{}表示
关联规则(association rules)暗示两种物品之间可能存在很强的关系。用{x} ➞ {y}表示
  • 1
  • 2

3.如何评判这些关系

支持度(support):数据集中包含该项集的记录所占的比例。如:{x,y}项集p(x,y)
可信度或置信度(confidence)是针对一条诸如{x} ➞ {y}的关联规则来定义的。p(y|x)=p(x,y)/p(x)
提升度(Lift)提升度表示含有X的条件下,同时含有Y的概率,与Y总体发生的概率之比。Lift(X→Y) = P(y|x) / P(y)=p(x,y)/p(x)*p(y)
  • 1
  • 2
  • 3

4.如何寻找数据集(所有物品)之间的关系

 构建数据集(所有物品)的项集,求出项集中的关联关系。
 如0,1,2,,3物品 有15次组合,包含N种物品的数据集共有2的N次方-1种项集组合。这样的话计算起来用时太多。
  • 1
  • 2

项集

5.Apriori算法

如果某个项集是频繁的,那么它的所有子集也是频繁的。,但是如果反过来看就有用了,也就是说如果一个项集是非频繁集,那么它的所有超集也是非频繁的。 用Apriori这种方法来减少项集的数。
Apriori算法的一般过程
收集数据:使用任意方法。
准备数据:任何数据类型都可以,因为我们只保存集合。
分析数据:使用任意方法。
训练算法:使用Apriori算法来找到频繁项集。
测试算法:不需要测试过程。
使用算法:用于发现频繁项集以及物品之间的关联规则。
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

6.FP-growth 算法

基于数据构建FP树
从FP树种挖掘频繁项集
  • 1
  • 2

案例:

import pandas as pd
pd.options.display.max_columns = 70  # 为了查看所有的属性
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules
#电影关联性分析
movies = pd.read_csv('movies.csv')
# print(movies.head())
# print(movies.shape)
movies_ohe = movies.drop('genres',axis=1).join(movies['genres'].str.get_dummies('|'))
# print(movies_ohe.head())
# print(movies_ohe.shape)
#设置电影的索引
# print(movies_ohe.set_index(['movieId','title'],inplace=True))
# print(movies_ohe.head())
movies_ohe=movies_ohe.drop(['movieId','title'],axis=1)
#进行关联分析
frequent_itemsets_movies = apriori(movies_ohe,use_colnames=True, min_support=0.025)
print(frequent_itemsets_movies)
rules_movies =association_rules(frequent_itemsets_movies, metric='lift', min_threshold=1.25)
print(rules_movies)
print(rules_movies[(rules_movies.lift>4)].sort_values(by=['lift'], ascending=False))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/446199
推荐阅读
相关标签
  

闽ICP备14008679号