赞
踩
现在思考关于根据实数
上图中最左侧的图显示了函数
相反地,如果我们添加额外的特征
在没有正式定义这种现象代表什么的前提下,我们称左侧图是欠拟合的案例,即创建的模型明显没有捕获到数据;称右侧图中的现象为 过拟合 的例子(这节课之后我们会介绍规定的这些符号的一些理论知识,并且会更小心的定义,对于一个假设来说这究竟意味着是好的还是坏的)。
综上的案例与讨论,我们意识到特征的选择对确保一个学习算法表现良好非常重要(当我们讨论到模型选择时,我们也会了解一些自动选择良好特征的算法)。
在这一小节中,我们要讨论关于局部加权线性回归(LWR)算法,这种算法在训练数据足够的前提下,能削弱特征选择的影响。这一过程比较简短,更多关于LWR算法的特性需要你们在作业中发现。
在原始的线性回归算法中,为了对一系列输入值
2.输出
相反的是,局部加权线性回归算法执行下列步骤:
2.输出
这里的
对于权值来说一个恰当的选择是:
要知道权值的大小取决于我们尝试预测的特定点
局部加权线性回归是我们了解到的第一个非参数算法的例子。我们之前知道的(未加权)线性回归属于参数学习算法,因为在拟合数据的过程中,存在需要不断调整、且数量有限的参数(
当我们面对回归问题时,为什么会认为线性回归和最小二乘成本函数J可能是合理的选择呢?在这一小节,我们会给出一系列的概率解释,根据最小二乘回归推导出一个非常自然的算法。
假设目标变量和输入变量之间的关系由如下等式表示:
等式中的
疑问:为什么符合高斯分布呢?吴恩达的解释有两个:1.便于数学处理 2.中心极限定理等众多理论可以证明,高斯分布是一个合理的假设。
可以将上述假设写成
这意味着:
符号
我们不能以
在给出X(设计矩阵,包括所有的
因为每个误差项之间都是独立的(误差项对应的y值同样如此),所以等式同样可以写成:
现在,给出这样的概率模型,如何选择一种合理的方式选择最佳参数
除了最大化
因此,最大化
总结:在对数据进行概率解释的情况下,最小二乘回归对应了最大似然估计
在我们之前的讨论中,最终参数
现在我们将讨论分类问题。这就是一个回归问题,除了我们想要预测的
现在,我们来关注二分类问题,这里预测值只取0和1两个值(大多数我们在这里说的问题都会概括成多类案例。)举例来说,如果我们尝试创建一个邮件垃圾分类模型,那么输入变量可能是一封邮件的一些特征,而输出变量有两种情况:1表明是垃圾邮件,0表明不是。0也被称作负向类,1被称作正向类,有时会被记为符号“-”和“+”。已知输入变量
在忽略输出值为离散值的前提下,这个问题近似于分类问题,可以用以前的线性回归算法来尝试预测
为了改变这种情况,我们修改一下预测函数
此处有
上面的函数被称作逻辑函数或是S形曲线。
下面用图显示出函数
我们可以注意到,当
现在令函数
在继续讲课之前,这里有一个关于逻辑函数导数的有用的性质,我们写作
所以,给定逻辑回归模型,如何选择参数
让我们假设:
也可以更简洁的写成:
假设m个训练样本独立生成,我们可以写出关于参数的似然性:
同样,非常容易最大化它的对数似然性:
我们如何最大化似然性呢?与之前的线性回归案例的求导相同,我们可以使用梯度上升方法。通过使用向量符号,得到更新的公式:
让我们以一组训练样本(x,y)开始,然后将导数代入随机梯度上升规则中:
上述推导公式中,我们用了公式
如果我们把更新规则与最小二乘更新规则对比,我们会发现两者形式上是相同的;但两者其实并不是同一个算法,因为
现在我们要歪个楼讲一个历史遗留的感兴趣的算法,然后继续回到之前的学习理论话题。思考如果改变逻辑回归算法让其输出的值除了0就是1。为了达到这个目的,将
如果我们仍旧让
那么这就是感知学习模型
。
在1960年,“感知学习模型”在大脑个人神经元领域中并不被看好。在之后讲述学习理论是我们会讲到如何利用这一模型进行分析。还是要清楚,即便感知模型与其他算法再如何相似,它都是一个与逻辑回归、最小二乘线性回归不同类型的算法;尤其是,很难给这个算法赋予有意义的概率解释,也很难得到感知模型的最大似然估计算法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。