赞
踩
目录
2.1 Frequent Pattern Mining频繁模式挖掘
What Is Frequent Pattern Analysis?什么是频繁模式分析?
Basic Concepts: Frequent Patterns基本概念:频繁模式
Basic Concepts: Association Rules基本概念:关联规则
Closed Patterns and Max-Patterns封闭模式和最大模式
Scalable Frequent Itemset Mining Methods可扩展的频繁项集挖掘方法
Which Patterns Are Interesting?-pattern Evaluation Methods哪些模式有趣?-模式评价方法
Classinication—A Two-Step Process分类-两步过程
Bayes Classification Methods贝叶斯分类方法
Rule-Based Classification基于规则的分类
Model Evaluation and Selection模型评价与选择
记录点:利用T/F、P/N计算准确度、错误率、精度、召回的4个公式
频繁模式的挖掘
K项集,当k=1的时候为一项集
X集合里面某个x出现的频率
(relative) support指的是x出现的比例
简写为s,支持度,X和Y同时出现
,置信度,X出现的情况下XY同时出现,是条件概率
频繁的一项集
看草稿3来理解这俩的区别,跳转草稿
小卖铺说这里是重点
closed itemset第一个条件是frequent,第二个条件是不存在更大集合,和它有相同支持度(如果该集合包含所有元素,那么肯定不存在“更大”,所以就算支持度是1它也是closed itemset)
max-pattern尽可能包含最多的集合
由这张图看出,closed itemset可能不止一个,closed itemset包含了max-pattern,我猜的
closed itemset set是all patterns简洁的表现形式
理解红字很简单,想想就知道了,ABC三个东西出现都算频繁了,单个东西出现肯定更频繁
Apriori主打的就是一个反证法,降低没必要的生成成本
记住自连接的符号
为了保证不漏掉,abcde要按顺序列出来
最后是abcd,因为从中任取三个都有
看懂左图很简单,C1到L1、C2到L2都是选出大于2的,C1是1项集,C2是2项集
和上一张图对比就是要多理解一个C3,也不难理解,C3中每一个集合里任意两个元素的搭配在L2中都有出现就行
最后得到数据库频繁三角集(?可能听错了
上图就是规范答题
接下来的伪代码需要记住,考试可能会考
详见草稿4,跳转草稿
这个算法的计算开销比较大
Candidates是候选集
虽然有剪枝,但是生成的大量数据候选集要测试
不是apriori的改进,单纯只是另外一种办法
有点像深度搜索过程
Abc取出来单独成库,在这个库里d是频繁的,那abcd就是频繁的,就像这样不断地迭代增长
有点抽象,往下看
自己理解比看PPT好,详见草稿5,跳转草稿,伪代码也放草稿里了
这两张不用管,就是讲解过程而已
看不懂直接看下面的例子,非常好懂
新公式,提升度,这个看文字描述、不用看上面的打篮球例子
用来描述上面这张图,可以把表示成分子1/9,分母(7/9)*(3/9)
无监督到2.3 2.4再细讲
小卖铺说这是重点
所以不是所有属性都需要拿来作为判定条件的(用够了就可以停止分区),重点关注与最后想要的yes no答案关联更大的
这是构造的原理,构造的流程
“信息增益”法来找根节点
红字的意思就是上面那个决策树中第一个分水岭——年龄范围,的意思
D表示某个data set,不同的类别用Ci来表示,在一个D中某个object属于C的概率就是p
看不懂公式,还是直接看下面的例子吧
选Gain更大的为根节点,有点东西写在草稿6,跳转草稿
I(9,5)统计的是14个中yes有9个
用“信息增益”法来找根节点有一个致命问题,那就是会有不确定性,举个例子,如果每个人都有一个属于自己的id号,那么用id号划分“信息增益”相关度肯定很大,但是想想肯定不可以拿id号的不同直接划分,会把集合划分得非常散
这个时候就要用到“增益比”
贝叶斯公式解决的问题和全概率是相反的,解决的是当X出现的时候,造成X出现的原因是什么
条件概率就是后验概率
贝叶斯原理:计算所有的后验概率,选最大的后验概率,作出X属于哪个类别的判断
其实我没搞懂它和找根节点有什么关系
只找分子
还是之前的数据
认真看,字多但是不难懂
X=(A条件,B条件……|大条件)就是分别的条件占大条件的数的相乘
得到这个结果再乘以大条件的概率
连乘有0结果就0了,所以只能说是朴素贝叶斯
拉普拉斯修正法:每个类别的案例+1,总数也加对应数量的1(总数不止加一个1)
感觉不是什么新知识,就是把决策树换成上面那个example的样式,方便计算机理解
这里的终止条件和前面的停止分区的条件差不多,还多了一个,如果剩下的规则质量低也可以停
我看老师讲的大概意思是,不停地找规则,每个新规则就能覆盖一部分例子,直到找的规则加起来能覆盖所有的例子
同时,这些规则也不能包括不符合的数字
此gain不是之前的gain, pos’是指增加一个属性之后pos的个数
high accuracy体现在用了前后对数相减
生成出来的规则还要进行剪枝,原因是生成的规则对目前的数据表现良好,但对没有使用到的数据就不一定好了(不懂在说什么,背公式就对了),评判哪条规则需要出去就是剪枝
判断是否要剪掉,如果去掉某条规则之后,更高了,就要去掉这条规则
第一个表格的意思是,(竖排)真实的情况是/否为C1,(横排)预测的情况是/否为C1,统计每条结果,总数写在表格里
这里的是/否看成阳性/阴性,会更好理解,举例举核酸
这四个公式对应左上图就好理解了
Holdout method就是把数据拆成一部分作为训练集,另一部分作为测试集,random sampling指的是这个拆数据的比例根据要求每次都调整变化
Cross validation就是假如k是10,从就把数据均分为10份,从第一份开始,训练其它9个,用该第1个作测试,以此类推,每份数据都能又作为训练又作为测试
这个方法针对数据比较少的数据集
有回放的随机均匀采样
(看这个课件感觉0.368是固定数)公式直接套
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。