当前位置:   article > 正文

【数据挖掘】笔记一-兴趣度度量&Apriori算法_数据挖掘兴趣度

数据挖掘兴趣度

兴趣度度量

  • 概念

    • 挖掘出的模式(规律的表示形式)的简洁性、确定性和实用性即为兴趣度度量。
  • 简洁性度量

    • 含义
      模式的便于人理解的度量
  • 确定性度量

    • 含义
      模式的有用性
    • 方法
      对于关联规则,确定性度量使用置信度。
      设A和B为项目集合,A与B关联的规则A→B的置信度定义为
      置 信 度 ( A → B ) = 同 时 包 含 A 、 B 的 元 组 包 含 A 的 元 组 数 置信度(A→B)=\frac{同时包含A、B的元组}{包含A的元组数} (AB)=AAB
    • 例子
      下图置信度(A→B)=3/3
      -ABCD
      10000
      21100
      31111
      41110
  • 实用性度量

    • 含义
      模式的有用性
    • 方法
      对于关联规则,实用性度量使用支持度。
      设A和B为项目集合,A与B关联的规则A→B的支持度定义为
      支 持 度 ( A → B ) = 同 时 包 含 A 、 B 的 元 组 元 组 总 数 支持度(A→B)=\frac{同时包含A、B的元组}{元组总数} (AB)=AB
    • 例子
      下图支持度(A→B)=3/4
      -ABCD
      10000
      21100
      31111
      41110

关联规则算法-Apriori算法

  • 频繁集

    • 某个集合若存在不是频繁集的子集,那么该集合也不是频繁集;
    • 若某个集合为频繁集,那么其所有非空子集均为频繁集。
  • 连接步

    • 为找Lk,通过Lk-1与自己连接产生候选k-项集的集合。该候选项集的集合记为Ck。设l1和l2是Lk-1中的项集。记号为li[j]表示li的第j项。为方便计,假定事务或项集中的项按字典次序排序。执行连接Lk-1∞Lk-1,其中Lk-1的元素是可连接的。连接L1项集和L2项集产生的结果是项集l1[1]l2[2]………l1[k-1]l2[k-1].
  • 剪枝步

    • Ck是Lk的超集;即是,它的成员可以是也可以不是频集,但所有的频集k-项集都包含在Ck中。扫描数据库,确定Ck中每个候选的计数,从而确定Lk。然而,Ck可能很大,这样所涉及的计算量就很大。为压缩Ck,可以利用以下办法使用Apriori性质:任何非频集的(k-1)-项集都不可能是频繁k-项集的子集。因此,如果一个候选k-项集的(k-1)-子集不在Lk-1中,则该候选也不可能是频繁的,从而可以有Ck中删除。这种子集测试可以使用所有频繁项集的散列树快速完成。
  • 频繁集求法

    TID项目
    $T10I1,I2,I5
    $T20I2,I4
    $T30I2,I3
    $T40I1,I2,I4
    $T50I1,I3
    $T60I2,I3
    $T70I1,I3
    $T80I1,I2,I3,I5
    $T90I1,I2,I3
    1. 先求1-频繁集,统计每个项目出现的次数
      假定最小支持事务支持数为2,由下表可以得出1-频繁集为{I1,I2,I3,I4,I5}
    项目次数
    I16(频繁)
    I27(频繁)
    I36(频繁)
    I42(频繁)
    I52 (频繁)
    1. 由1-频繁集求出2-频繁集
      在1-频繁集中任取2个组成集合,统计在原事务集合中出现的次数;例如{I1,I2},则须统计事务中同时出现项目I1, I2的数目
    项目次数
    I1,I24(频繁)
    I1,I34(频繁)
    I1,I41(去掉)
    I1,I52(频繁)
    I2,I34(频繁)
    I2,I42(频繁)
    I2,I52(频繁)
    I3,I40(去掉)
    I3,I51(去掉)
    I4,I50(去掉)
    1. 继续求3-频繁集
    项目是否需要剪枝
    I1,I2,I3
    I1,I2,I5
    I1,I3,I5是(子集{I3,I5}不是频繁集)
    I2,I3,I4是(子集{I3,I4}不是频繁集)
    I2,I3,I5是(子集{I3,I5}不是频繁集)
    I2,I4,I5是(子集{I4,I5}不是频繁集)
    项目次数
    I1,I2,I32(频繁)
    I1,I2,I52(频繁)
    1. 继续求4-频繁集
    项目是否需要剪枝
    I1,I2,I3,I5是(子集{I3,I5}不是频繁集)
    1. 算法结束
      频繁集为 { I 1 , I 2 , I 3 } , { I 1 , I 2 , I 5 } \{I1,I2,I3\},\{I1,I2,I5\} {I1,I2,I3}{I1,I2,I5}
  • 由频繁集产生关联规则

    • 关联规则
      对于一个集合,其存在的关联规则数量很多,我们需要寻找出置信度合适的关联规则;
      对于集合{A,B,C},其存在的关联规则有: A ⇒ B ∧ C A\Rightarrow B \wedge C ABC 等等
    • 频繁集的所有子集
      假定频繁集为{I1,I2,I5},其非空真子集为
      { I 1 , I 2 } , { I 2 , I 5 } , { I 1 , I 5 } , { I 1 } , { I 2 } , { I 5 } \{I1,I2\}, \{I2, I5\},\{I1, I5\},\{I1\},\{I2\},\{I5\} {I1,I2}{I2,I5}{I1,I5}{I1}{I2}{I5}
    • 关联规则
      { I 1 , I 2 } ⇒ { I 5 } { I 2 , I 5 } ⇒ { I 1 } { I 1 , I 5 } ⇒ { I 2 } { I 1 } ⇒ { I 2 , I 5 } { I 2 } ⇒ { I 1 , I 5 } { I 5 } ⇒ { I 1 , I 2 } \{I1,I2\}\Rightarrow\{I5\} \\ \{I2,I5\}\Rightarrow\{I1\} \\ \{I1,I5\}\Rightarrow\{I2\} \\ \{I1\}\Rightarrow\{I2,I5\} \\ \{I2\}\Rightarrow\{I1,I5\} \\ \{I5\}\Rightarrow\{I1,I2\} \\ {I1,I2}{I5}{I2,I5}{I1}{I1,I5}{I2}{I1}{I2,I5}{I2}{I1,I5}{I5}{I1,I2}
    • 计算对应的置信度
      置 信 度 ( { I 1 ∧ I 2 } ⇒ { I 5 } ) = 2 / 4 置 信 度 ( { I 2 ∧ I 5 } ⇒ { I 1 } ) = 2 / 2 置 信 度 ( { I 1 ∧ I 5 } ⇒ { I 2 } ) = 2 / 2 置 信 度 ( { I 1 } ⇒ { I 2 ∧ I 5 } ) = 2 / 6 置 信 度 ( { I 2 } ⇒ { I 1 ∧ I 5 } ) = 2 / 7 置 信 度 ( { I 5 } ⇒ { I 1 ∧ I 2 } ) = 2 / 2 置信度(\{I1 \wedge I2\}\Rightarrow\{I5\} )=2/4\\ 置信度(\{I2 \wedge I5\}\Rightarrow\{I1\} )=2/2\\ 置信度(\{I1 \wedge I5\}\Rightarrow\{I2\} )=2/2\\ 置信度(\{I1\}\Rightarrow\{I2 \wedge I5\} )=2/6\\ 置信度(\{I2\}\Rightarrow\{I1 \wedge I5\} )=2/7\\ 置信度(\{I5\}\Rightarrow\{I1\wedge I2\} )=2/2\\ ({I1I2}{I5})=2/4({I2I5}{I1})=2/2({I1I5}{I2})=2/2({I1}{I2I5})=2/6({I2}{I1I5})=2/7({I5}{I1I2})=2/2
    • 如果最小置信度阀值为70%,则只有第2、3和最后一个规则可以输出。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/908986
推荐阅读
相关标签
  

闽ICP备14008679号