煮酒与君饮

这个屌丝很懒，什么也没留下！

热门标签

大数据关联规则算法

作者：煮酒与君饮 | 2024-06-22 20:54:42

踩

大数据关联规则算法

关联性（Association）
- 定义：指一个变量能够提供有关另一个变量的信息。
- 特点：关联性是一个广泛的概念，它可以包括直接的、间接的、强的或弱的联系。
相关性（Correlation）
- 定义：指两个变量同时上升或下降的趋势。
- 特点：相关性通常用相关系数来量化，如皮尔逊相关系数，它可以测量变量之间的线性关系强度和方向。
- 误区：相关性意味着关联性，而不是因果关系；
因果关系（Causality）
- 定义：指一个变量（原因）直接影响另一个变量（结果）。
- 特点：因果关系需要通过实验或统计方法来验证，例如随机对照试验（RCT）或使用因果推断模型。
- 误区：因果关系意味着关联，而不是相关性

Apriori 算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。在这个算法中 Agrawal 给出了一个关于频繁模式的著名性质-Apriori 性质。

产生频繁项集
- 第一阶段：
  - 所有单独的项作为候选项集 ( C1 )。
  - 剔除支持度小于最小支持度阈值的项，形成频繁1-项集 ( L1 )。
- 第二阶段：
  - ( L1 ) 通过自连接形成候选项集 ( C2 )。
  - 扫描数据库，剔除支持度小于阈值的项，形成频繁2-项集 ( L2 )。
- 后续阶段：
  - 重复自连接和剔除过程，形成更高阶的候选项集 ( C3, C4, \ldots ) 直到无法找到新的频繁项集。
产生关联规则
- 利用频繁项集 ( L ) 产生关联规则。
- 满足可信度大于min_conf 的频繁项集产生强关联规则。
- 由于规则基于频繁项集产生，自动满足最小支持度 ( min_sup )。

在这里插入图片描述

文本文件切分
- 将文本文件的每一行作为单独的切分处理。
- 形成键值对<key1, value1>，其中key1 代表该行的偏移量，value1 代表一行文本（频繁项集中的一项）
Map函数处理
- Map函数扫描每对<key1, value1>。
- 对每个频繁项集调用规则生成函数，产生所有可能的规则。
- 规则包括支持度和置信度，输出为<key2, value2>，其中key2是频繁项集中的一项，value2是该项对应的所有规则（包括支持度和可信度）。。
Reduce函数规约
- Reduce函数接收Map函数的所有输出。
- 对每个频繁项集的规则进行规约，筛选出满足最小置信度阈值的强关联规则。
- 将最终的关联规则<rule, conf>对存储到HDFS（Hadoop分布式文件系统）。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/煮酒与君饮/article/detail/747600