赞
踩
目录
极大似然估计和最大后验估计都是参数的估计方法,一定要记住,它的目标是对模型的参数
为什么一定要强调是模型参数的估计方法?
因为实际上(有监督的)机器学习的方法在训练和测试上完成的是两件事,这两件事是先后关系,也是有区分的。
第一件事(训练阶段):参数估计。这是一个是统计过程,根据训练数据求得模型的参数。这一阶段模型的参数
θ 是未知的,而训练的样本(X,Y) 是已知的,其中X 表示输入的训练样本、Y 表示类别(或者说概率,因此知道概率就可以进行类别划分),目标是求解θ ,因此称为参数估计。第二件事(测试、推理阶段):预测,也称为概率预测。根据已经求得的模型参数
θ 来进行样本的预测。最常见的逻辑回归就是根据输入样本,来求得样本类别。在这个阶段模型的参数θ 和输入的样本X 是已知的,而样本的类别Y 是未知的,是一个求概率的过程。
了解在不同阶段中
为了更通俗易懂的说明极大似然估计和最大后验估计,我们我们首先定义两个参数:
频率学派认为, 一个事件发生的概率,也就是前面我们声明的参数
如何理解这句话呢?
就是说事件概率是一个确定的值,当进行大量实验时,该事件出现的频率就会趋于一个稳定的值,这个值就是事件的概率。频率学派的代表算法就是极大似然估计MLE。
这里举两个极大似然方法最经典的例子:
例子1:抛硬币。在抛硬币的事件中,正面向上的概率P就是参数
例子2:简单的抓球游戏。假如一个盒子里面有红黑共10个球,每次有放回的取出,取了10次,结果为7次黑球,3次红球,问黑球的个数。这个黑球的个数就是参数
贝叶斯学派则认为参数
贝叶斯派的代表算法就是最大后验概率估计MAP,这种方法在先验假设比较靠谱的情况下效果显著,随着数据量的增加,先验假设对于模型参数的主导作用会逐渐削弱,相反真实的数据样例会大大占据有利地位。极端情况下,比如把先验假设去掉,或者假设先验满足均匀分布的话,那她和极大似然估计就如出一辙了。
可能有些人就会迷糊,逻辑回归就是假设服从伯努利分布,为什么采用的是概率学派的极大似然估计来求解呢?
逻辑回归是分类的结果Y服从伯努利分布,即认为类别1出现的概率为P,相应地,类别0出现的概率就为1-P,即认为这个P的值是客观存在的,因此可以根据实验结果利用极大似然估计来求解。而贝叶斯学派认为的是概率P本身也是随机变量,服从一定的分布,而非前面的Y。
在讲具体的极大似然估计前,首先来区分一下概率和似然。
似然(likelihood)这个词其实和概率(probability)是差不多的意思,Colins字典这么解释:The likelihood of something happening is how likely it is to happen. 你把likelihood换成probability,这解释也读得通。但是在统计里面,似然函数和概率函数却是两个不同的概念(其实也很相近就是了)。
在极大似然估计相关博文中,出现频率最高的就是这个公式:
公式的输入分别为参数
根据
最大似然估计的目的就是:利用已知的数据分布
根据我们3.1所述,很明显就要让似然函数最大。
这里需要解释一下为什么在2.1中我们说极大似然估计法的前提是认为参数
θ 是一个客观存在的固定值,而在3.1又说θ 是一个变量?这两种说法实际上是不冲突的。因此极大似然的过程是求解
θ 的过程,虽然我们认为θ 是固定的,但是我们还不知道它具体的取值。可以理解为,我们需要一次次输入x 来计算θ ,只有使结果概率最大的θ 才是最终我们需要的。在这种情况下,我们每一次计算用的都是相同的x ,即x 是已知并且保持不变,每一次计算的θ 都不同,是变量。
这里给出极大似然估计法在离散型和连续情况下的定义。因为我们需要每一个样本对应的似然函数都最大,因此需要将它们相乘取最大。
求解的步骤如下:
现在有一个黑箱子里面有标有1或2的球共100个,现在从中有放回的抽取10个球,结果为{1,2,2,2,1,2,1,1,2,2},估计标有1的球在黑箱子里面有多少个。
问题的本质在于估计标号为1的球的个数,设其个数为
之后对P取对数:
为了使对数值最大,求导求驻点:
算出 p = 0.4,即
仍然以我们2.1举的抛硬币的例,抛一枚硬币10次,有10次正面朝上,0次反面朝上。问正面朝上的概率p。在频率学派来看,利用极大似然估计可以得到 p= 1.0。但是很显然,一般情况下硬币都是均匀的。可以看到,当缺乏数据时极大似然估计可能会产生严重的偏差。
最大后验估计就可以在一定程度上解决这样的问题。
最大后验估计依然是根据已知样本
可以看到,最大后验估计认为
由于的先验分布
因此最终最大化,是参数
如何理解为
θ 的后验分布?在博文后验概率、全概率公式以及贝叶斯公式中,其中讲到由果求因就是后验概率。在这里我们细想一个例子: 抓球实验,因为箱子的黑球和红球的数量(
θ )不同,因此我们才会在那么多次有放回的抽取的中得到不同的结果X 。也就是θ 是产生我们这样一系列观测结果X 的因,从这个角度来看确实是后验概率。
最大后验概率估计的公式表示如下:
从上面公式可以看出,
通过MAP最终的式子不难看出,MAP就是多个作为因子的先验概率
到目前为止,极大似然和最大后验估计的原理都已经讲的非常明确了。
上述情况只涉及到简单的对参数进行估计,而在实际中我们除了完成参数估计,还希望可以对未知样本进行预测。
现在我们来看一个机器学习的典型模型——逻辑回归,公式如下。在这里
由于逻辑回归是一个二分类模型,因此对应的判别为类别0的概率就为:
进一步进行统一:
之后通过极大似然的方法进行参数估计:
这一切看起来都太丝滑了,似乎没有任何问题。但是很多博客中都将称为给定样本
我们从两个方面来说明一下:
第一个方面:在概率模型的讲述中,很多都将称为是后验概率,难道这么称呼有错吗?当然没有,只不过他们都是从样本预测的角度来说明的,我们上面的公式也一样。在预测阶段,输入样本
有些人可能会认为我们已知样本了特征,然后根据这些特征来求得样本的类别,是由因索果。
这样理解是搞错了特征,类别的因果关系。因为样本是客观存在的,它不会因为我们的观测方式(特征提取的方法)而改变,各类算法提取出的特征只是样本本质的体现。
因此实际上,样本的类别,是本质,是因,正因为有了这样的因,我们通过不同的观测(特征提取算法)才会得到不同的特征,即特征只是样本的在不同维度下体现,是果。
第二个方面:我引用博客的一段话:
个人认为用“因”“果”描述先验后验,不太合适。英文将先验概率P(x)描述为evidence,evidence有显性的意思在里面,如果用“显示的”“隐藏的”来描述,看是不是能顺畅点。
似然:P(显|隐)
后验:P(隐|显)
这也就是我们前言所讲的,真的铺垫了很久。在逻辑回归参数估计阶段,我们输入样本
监督学习的分类:判别模型与生成模型,概率模型与非概率模型、参数模型与非参数模型
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。