赞
踩
渣硕学习机器学习也有一段日子了,平时也是把最大似然、交叉熵、最小二乘法当做最常见的方法用了,久而久之,已经不太关注其来源。最近师兄们在忙着找工作,然后其中一个X姓师兄就在组会上提出说面试中问到为什么logistic回归的损失函数使用到的交叉熵而不是最小二乘,突然一下子懵逼了,平时使用的最多的方法,包括在神经网络中也是使用的是交叉熵的方法,也习惯了其所以然,却没有考虑过其之所以然的问题,这就很尴尬了。师兄说了一些原因,归咎起来,有几点:1,交叉熵方法更多的是用于分类,而最小二乘更多的是用于回归;1,方便计算。确实有这些方面的原因,后来回来之后,自己仔细思索了一下,回想起研一开始看过的为数不多的几集Andrew NG的斯坦福课程视频,突然有了些灵感,也觉得有些心得分享一下(PS:大神请让道,数学符号可能有些许不规范,在此为本渣硕的数学功底又捏了一把汗)。
极大似然是机器学习里面最基础的概念了,就轻微的再复述一下:
假设X的概率分布满足一个分布
因为这一部分涉及一些公式推导,而这些推导也只是一些简单的数学变换,所以这一部分直接引用的是牛顿方法&指数族分布&GLM的文章,在这里向原作者表示感谢。指数族分布的公式为:
伯努利分布
伯努利分布式对于0、1问题建模的,
高斯分布
下面对高斯分布进行推导,推导公式如下(为了方便计算,我们将方差 σ设置为1):
高斯分布的公式以及推导如下:
指数族分布主要是为了导出广义线性模型,仔细观察伯努利分布和高斯分布的指数分布族形式中的η变量。可以发现,在伯努利的指数分布族形式中,η与伯努利分布的参数φ是一个logistic函数(下面会介绍logistic回归的推导)。此外,在高斯分布的指数分布族表示形式中,η与正态分布的参数μ相等,下面会根据它推导出普通最小二乘法(Ordinary Least Squares)。通过这两个例子,我们大致可以得到一个结论,η以不同的映射函数与其它概率分布函数中的参数发生联系,从而得到不同的模型,广义线性模型正是将指数分布族中的所有成员(每个成员正好有一个这样的联系)都作为线性模型的扩展,通过各种非线性的连接函数将线性函数映射到其他空间,从而大大扩大了线性模型可解决的问题。
下面我们看 GLM 的形式化定义,GLM 有三个假设:
(1)
(2) 给定一个 x,我们需要的目标函数为
(3)
依据这三个假设,我们可以推导出logistic模型与普通最小二乘模型。首先根据伯努利分布推导Logistic模型,推导过程如下:
上面的铺陈完毕,然后来看一看标题中提到的三者的关系。
首先看二项分布的概率:
通过一些过程的思考,感觉慢慢的了解了机器学习中很多的细节,文中相关概率符号可能有些错误,再次致歉,另外第一次在markdown编辑器中使用LaTeX函数,感觉还是很好用的,棒棒的
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。