赞
踩
统计学是针对于计算机以及互联网上的各种数字,文字等等各种数据的预测和分析。
它有三大要素:模型+策略+算法
1.模型:
存在决策函数的集合和条件概率的集合。
2.策略:
有损失函数:一次预测的好坏,风险函数:平均意义下模型预测的好坏,还有0-1损失函数和平方损失函数,以及绝对损失函数。
3.算法
统计学的监督学习方法主要表现在:从给定的,有限的,用于学习的训练数据集合出发,假设数据是独立同分布产生的,并且假设要学习的模型属于某个函数的集合,称为假设空间,应用某个评价准则,从假设空间中选取一个最优的模型,使它对已知训练数据以及未知测试数据再给定的评价准则下有最优的预测,最优模型的选取由算法实现。
而其具体步骤是:
本次学习的重点,也就是监督学习,它的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
而关于输入和输出变量的区别,将任务分成不一样的名称:1.当输入和输出均为连续变量的时候,称为回归问题,输出变量有限个离散变量的预测问题是分类问题,输入和输出均为变量序列的问题是标注问题。
正则化和交叉验证:
正则化是结构粉线最小化策略的实现,也就是在经验风险上面加一个正则化项或罚项。作用就是选择经验风险与模型复杂度同时较小的模型。交叉验证的话就是:随机德将数据集切分成三部分,分别是训练集,验证集和测试集,训练集用来训练模型,验证集用来模型的选择,而测试集用来最终对学习方法的评估。
而其中,交叉验证也有好几个方法:
1.简单交叉验证:随机将数据分成两部分,一部分作为训练集,一部分作为测试集(可以是7比3),然后训练集再各种条件之下训练模型,从而得到不同的模型,最后在测试集中评价各个模型的测试误差,选出测试误差最小的模型。
2.S折交叉验证:这个是应用最多的,首先随机将已给数据切分成s个互不相交的大小相同的子集,然后利用s-1个子集的数据训练模型,利用余下的子集测试模型,将这一过程对可能的s种选择重复进行,最后选出s次评测中平均测试误差最小的模型。
3.留一交叉验证:也是S折交叉验证的特殊情形,让S=N。
泛化能力:
也就是通过测试误差来评价学习方法的泛化能力,并且通过比较两种学习方法的泛化误差上界的大小来比较他们的优劣。
泛化误差上界有以下特征:
生成模型和判别模型
生成模型由生成办法搞定,而判别模型就是由判别办法搞定。
有一些典型的生成模型:朴素贝叶斯法和隐马尔可夫模型,而判别方法的话,就是直接学习决策函数f(x)或者条件概率分布p(x|y)作为预测的模型,也就是关心输入的x,应该预测输出什么y,比较经典的有:k近邻法,感知机,决策树,逻辑斯蒂回归模型等等。
两种方法各有优缺点:
生成方法可以还原出联合概率分布,而判别方法则是直接学习条件概率或决策函数,学习准确率高。
分类问题
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aYrzW7lM-1595318474545)(https://img-bl加粗样式og.csdnimg.cn/20200721151519424.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxMTE1Mzc5,size_16,color_FFFFFF,t_70)]
当输出变量变成y个的时候,预测问题就变成了分类问题。
主要是包括学习和分类两个过程:学习过程就是利用学习的分类器对新的输入实例进行分类,学习系统就是用训练数据学习一个分类器,而分类系统就是通过学到的分类器对新的输入实例进行分类。
标注问题
输入是一个观测序列,输出的是一个标记序列或观测序列。也是存在两个过程:分别是学习过程和标注过程:学习过程就是建立一个模型,而在标注过程几十按照学习得到的条件概率分布模型,对输入的序列找到对应的输出标记序列。常见的有隐马尔可夫模型和条件随机场。
回归问题
是用来预测输入变量和输出变量之间的关系,并且是那种发生变化时的关系,也就是选择一条函数曲线使其很好地拟合已知数据且很好预测未知数据。也分为学习和预测两个过程。
回归学习是可以用平方损失函数来实现的,这个情况之下,就使用最小二乘法来求解了
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。