当前位置:   article > 正文

【深度学习数学基础】构造损失函数的三类思路:最小二乘法、最大似然估计、交叉熵_最小二乘法和交叉熵

最小二乘法和交叉熵

原文链接
其中关于伯努利分布和类别分布的概率模型也值得一看,同时思考一个问题,伯努利概型最后的结果是不是和交叉熵一样呢?数学之美体现得淋漓尽致。

最小二乘法

最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
最小二乘法

最大似然估计

在统计学中,把需要调查或者研究的某一现象或者事物的全部数据称为统计总体,或简称 总体(population)。比如,我们要研究中国人的身高分布,那么全国14亿人的身高数据就是总体(population),这14亿身高数据所属的数据分布称为 总体分布 (population distribution),其中每一个人的身高数据,即单个数据称为个体(individual)。然而在实际中,我们不可能得到14亿的全部数据,也就是 总体数据通常是无法得知的 。这时,可以选择抽样(sampling),即从总体当中随机抽取出部分个体,然后得到这部分抽样个体的数据,一次抽样的结果称为一份样本(sample)。比如,从14亿的人群中随机抽取出1万的个体,然后去测量这1万人的身高数据,这样就得到了一份包含1万个数据的样本,样本的容量(sample size),或者说样本的大小,是1万。
注意样本(sample)和个体(individual)的区别,样本(sample)是一次抽样的结果,包含多个个体(individual)数据,一份样本中包含的个体数据的数量称为本容量(sample size)。通常我们会假设总体分布服从某种已知的概率分布,但是分布的某些参数是不确定的,比如全国身高数据服从正态分布,但是期望和方差不知道,这时我们期望能通过样本推断(估计)出总体正态分布的期望和方差参数。

推断统计学(或称统计推断,英语:statistical inference),指统计学中,研究如何根据样本(sample)数据去推断总体(population)特征(或者参数)的方法,比如根据样本的平均值去估计总体的均值参数。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。更概括地说,是在一段有限的时间内,通过对一个随机过程的观察来进行推断的。在统计学中,利用样本推断(估计)总体分布参数方法有很多,比如矩估计、最大似然估计、贝叶斯估计等等,本章我们讨论其中应用最为广泛的最大似然估计算法

2.1 最大似然估计

最大似然估计算法(Maximum Likelihood Estimation,MLE),又叫极大似然估计,是统计学中应用最广泛的一种未知参数估计方法。它可以在已知随机变量属于哪种概率分布的前提下,利用随机变量的一些观测值估计出分布的一些参数值。所谓观测值,就是随机变量的采样值,也就是这个随机变量试验的真实结果值,因为是我们能"看到"的值,所以称为观测值。

假设有一个离散随机变量 X X X ,其概率质量函数是 P ( X ; θ ) P(X;\theta) P(X;θ),其中 θ \theta θ 是这个概率分布的参数,其值是未知的。函数 P ( X ; θ ) P(X;\theta) P(X;θ)本身是已知的,也就是我们知道 X X X 所属何种概率分布,比如是高斯分布等等。

现在假设我们有一些变量 X X X的观测值,这些观测值集合用符号 D = { x ( 1 ) , x ( 2 ) , … , x ( N ) } \mathcal{D}=\{x^{(1)},x^{(2)},\ldots,x^{(N)}\} D={x(1),x(2),,x(N)}表示。这些观测值都是从同一个概率分布 P ( X ; θ ) P(X;\theta) P(X;θ)得到的,并且这些样本是独立获取的,即每条样本值不依赖其它样本值,我们可以称这些样本是 独立同分布 的。

独立同分布

在概率论与统计学中,独立同分布(英语:Independent and identically distributed,或称独立同分配,缩写为iid、 i.i.d.、IID)是指一组随机变量中每个变量的概率分布都相同,且这些随机变量互相独立。

关于样本集的理解

一个随机变量的观测样本集 D = { x ( 1 ) , x ( 2 ) , … , x ( N ) } \mathcal{D}=\{x^{(1)},x^{(2)},\ldots,x^{(N)}\} D={x(1),x(2),,x(N)}可以看做是对同一个随机变量独立的采样(试验)N 次得到的。也可以看做是有 N 个一模一样(相同的概率分布)的随机变量X,每个独立取样一次得到总共 N 条观测样本。很多文献资料都会解释成第二种 ,这点需要注意,对于新手很容易混乱。
事实上,这两种理解方法是等价,不管哪种理解方法,这个样本集都是满足 独立同分布 的。
我们知道其中任意一条样本 x i x_i xi 的发生概率是 P ( x i ; θ ) P(x_i;\theta) P(xi;θ)
那么所有样本发生的联合概率是 P ( D ; θ ) = P ( x ( 1 ) , … , x ( N ) ; θ ) P(\mathcal{D};\theta)=P(x^{(1)},\ldots,x^{(N)};\theta) P(D;θ)=P(x(1),,x(N);θ)
又由于所有样本是满足独立同分布的(i.i.d)的,根据联合概率分布的分解法则有
P ( D ; θ ) = P ( x ( 1 ) , … , x ( N ) ; θ ) = ∏ i = 1 N P ( x i ; θ ) P(\mathcal{D};\theta) = P(x^{(1)},\ldots,x^{(N)};\theta) =\prod_{i=1}^{N} P(x_i;\theta) P(D;θ)=P(x(1),,x(N);θ)=i=1NP(xi;θ)
假设 θ \theta θ的可能取值空间为 Θ \Theta Θ,记作 θ ∈ Θ \theta \in \Theta θΘ 。不论 θ \theta θ取何值,都有一定的可能(概率)产生出这个样本集 D \mathcal{D} D,但显然 θ \theta θ的值会影响着这个样本的产生概率 P ( D ; θ ) P(\mathcal{D};\theta) P(D;θ) 。换句话说就是,不同的 θ \theta θ 值会得到不同的样本联合概率 : P ( D ; θ ) P(\mathcal{D};\theta) P(D;θ)

现在我们思考 θ \theta θ真实值是什么。事实上,我们根本无从得知参数 θ \theta θ 的真实值。但我们可以换个思路,我们可以从 θ \theta θ的取值空间 Θ \Theta Θ挑一个最好的 出来。
那么什么是最好的,这个最好的标准是什么?

最大可能性

常识告诉我们,概率越大的事情越容易发生,概率越小的事情越不容易发生。观测样本集的发生概率 P ( D ; θ ) P(\mathcal{D};\theta) P(D;θ) 越大,我们就越容易见到我们现在看到的样本。既然现在这个样本集 D \mathcal{D} D 已经真实的发生了(我们观测到了),是不是可以认为这个样本集的 P ( D ; θ ) P(\mathcal{D};\theta) P(D;θ) 概率是最大的,使得 P ( D ; θ ) P(\mathcal{D};\theta) P(D;θ)最大的 θ \theta θ是最优的选择呢?

在概率统计中,把观测样本的联合概率称为 似然(likelihood),一般用符号 L ( θ ; D ) = P ( D ; θ ) L(\theta;\mathcal{D})=P(\mathcal{D};\theta) L(θ;D)=P(D;θ) 表示,有时也称为似然函数(likelihood function)。

最大似然估计非标准定义

观测样本集的似然(联合概率)取得最大值时参数的值作为参数估计值的方法称为最大似然估计。观测样本集的似然函数就是样本集的联合概率
L ( θ ; D ) = P ( D ; θ ) = ∏ i = 1 N P ( x i ; θ ) L(\theta;\mathcal{D}) = P(\mathcal{D};\theta) = \prod_{i=1}^{N} P(x_i;\theta) L(θ;D)=P(D;θ)=i=1NP(xi;θ)
最优的 θ \theta θ值是令观测样本发生概率最大的值,也就是令似然函数取得最大。参数 ‘ θ `\theta θ的最大似然估计值可以写为

θ ^ M L = arg ⁡ max ⁡ θ L ( θ ; D ) = arg ⁡ max ⁡ θ ∏ i = 1 N P ( x i ; θ ) \hat{\theta}_{ML} = \mathop{\arg \max}_{\theta} L(\theta;\mathcal{D}) = \mathop{\arg \max}_{\theta} \prod_{i=1}^{N} P(x_i;\theta) θ^ML=argmaxθL(θ;D)=argmaxθi=1NP(xi;θ)

仔细观察后发现,似然函数是每条样本概率 P ( x i ; θ ) P(x_i;\theta) P(xi;θ)的连乘,而概率值都是在 [ 0 , 1 ] [0,1] [0,1] 之间的,一系列小于 1 1 1 的数字连乘会趋近于 0 0 0。而计算机在处理浮点数时存在精度问题,太小的值是无法表示的。所以一般我们会为似然函数加上一个对数操作来解决计算机的精度问题,我们把加了对数的似然函数称为 对数似然函数(log-likelihood function) ℓ \ell 表示。
ℓ ( θ ; D ) = log ⁡ L ( θ ; D ) \ell(\theta;\mathcal{D}) = \log L(\theta;\mathcal{D}) (θ;D)=logL(θ;D)
通过极大化对数似然函数 ℓ ( θ ; D ) \ell(\theta;\mathcal{D}) (θ;D)得到 θ ^ \hat{\theta} θ^和极大化似然函数 L ( θ ; D ) L(\theta;\mathcal{D}) L(θ;D)是等价的,这里不再证明,有兴趣的读者可以参考其他资料。

θ ^ M L = arg ⁡ max ⁡ θ ℓ ( θ ; D ) = arg ⁡ max ⁡ θ log ⁡ ∏ i = 1 N P ( x i ; θ ) = arg ⁡ max ⁡ θ ∑ i = 1 N log ⁡ P ( x i ; θ )

θ^ML=argmaxθ(θ;D)=argmaxθlogi=1NP(xi;θ)=argmaxθi=1NlogP(xi;θ)
θ^ML=argmaxθ(θ;D)=argmaxθlogi=1NP(xi;θ)=argmaxθi=1NlogP(xi;θ)

虽然这里我们是以离散随机变量为例,但最大似然估计同样可以应用于连续值随机变量的参数估计。连续值随机变量用的是概率密度函数函数表示其每个状态的概率大小情况,概率密度函数表示是每一个点的"密度",而不是概率值,但每个点的密度是和它的概率呈正比的。假设连续值随机变量 :math:X 的概率密度函数是 f ( x ; θ ) f(x;\theta) f(x;θ),则有
P ( X = x ; θ ) ∝ f ( X = x ; θ ) P(X=x;\theta) \propto f(X=x;\theta) P(X=x;θ)f(X=x;θ)

最大似然估计是通过极大化对数似然函数求解,对于连续值随机变量用概率密度函数 f ( X = x ; θ ) f(X=x;\theta) f(X=x;θ)替换 P ( X = x ; θ ) P(X=x;\theta) P(X=x;θ) ,对极大化求解没有任何影响。因此在使用最大似然估计概率模型的分布时,如果是离散随机变量就用概率质量函数,如果是连续值随机变量就是概率密度函数

那么如何进行极大化求解呢?通常有如下三种方法:

  1. 解析法(Analytic),又叫直接求解法。我们知道一个函数在取得极值时其一阶导数是为 0 0 0的,因此可以通过令对数似然函数的一阶导数为 0 0 0 得到一个方程等式,然后解这个方程得到 θ ^ M L \hat{\theta}_{ML} θ^ML
    这种方法得到的解称为解析解。
    ∂ ℓ ∂ θ = 0 \frac{\partial \ell}{\partial \theta} = 0 θ=0
    函数的一阶导数为 0 0 0的点称为“驻点”(stationary point),可能为(局部)极大或者极小值点,也可能为鞍点(saddle point),可以通过极值点的二阶导数判断是极大值点还是极小值点。并不是所有情况都能得到解析解的,很多时候是无法直接求得的,在后面的章节中我们会详细讨论。

  2. 网格搜索法(Grid Search)。如果我们知道 θ ^ \hat{\theta} θ^的值在空间 Θ \Theta Θ 中,可以对这个空间进行搜索来得到使得似然函数最大的参数值。换句话说,就是尝试这个空间中的每个值,找到令似然函数取得最大的参数值。网格搜索方法是一种很好的方法,它表明可以通过重复逼近和迭代来找到似然函数的最大值。但是,它在大多数情况下不切实际,并且当参数数量变多时变得更加困难。

  3. 数值法(Numerical)。这是现在最常用的算法。本质上就是先为 θ \theta θ 赋予一个初始值,然后利用爬山法找到最优解。梯度下降(上升)法(Gradient descent),牛顿法(Newton-Raphson),BHHH,DFP等等都属于这类。关于这类算法,读者可以先参考其他资料,我暂时没有精力写。

交叉熵内容见下一篇

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/649373
推荐阅读
相关标签
  

闽ICP备14008679号