当前位置:   article > 正文

beta分布_[PRML]伯努利分布、beta分布、Dirichlet分布

beta分布和伯努利分布

ec7487d05dab684e96c7d980bf9f926c.png

概率分布相关内容: 

1 概率密度

2 期望与协方差

3 一元高斯分布[1]

4 多元高斯分布[2]

5 高斯混合简介

6 gamma函数、digamma函数、beta函数

本文主要包含以下内容: 

  • 1 简介

  • 2 二元变量

    • 2.1 伯努利分布

    • 2.2 beta分布

  • 3 多元变量

    • 3.1 Dirichlet分布

1 简介

假设存在数据集,则其分布只要满足每个样本的概率大于0即可,所以有很多候选分布。那如何选择合适的分布呢?可以通过模型选择来选取。

我们首先考虑离散随机变量的二项分布和多项分布,以及连续随机变量的高斯分布。这些都是参数(parametric)分布的具体例子,之所以称之为参数分布,是因为它们由少量的自适应参数控制,例如高斯分布的均值和方差。

为了将这些模型应用到密度估计问题中,我们需要一个程序来确定给定的观测数据集的合适的参数值。在频域处理中,我们通过优化一些准则如似然函数,来为参数选择特定的值。相比之下,在贝叶斯处理中,我们在参数上引入先验分布,然后根据观测数据使用贝叶斯定理计算相应的后验分布。

我们将看到共轭先验(conjugate priors)所起的重要作用,它使后验分布与前验具有相同的函数形式,从而使贝叶斯分析大大简化。例如,多项式分布参数的共轭先验称为Dirichlet分布,而高斯分布的均值的共轭先验是另一个高斯分布。所有这些分布都是指数分布族的例子,它们具有许多重要的性质,我们将对此进行详细讨论。

参数化方法的一个限制是,它为分布假设了一种特定的函数形式,这种形式可能不适用于特定的应用程序。另一种方法是采用非参数(nonparametric)密度估计,在这种方法中,分布的形式通常取决于数据集的大小。这些模型仍然包含参数,但这些参数控制了模型的复杂性,而不是分布的形式。

2 二元变量

2.1 伯努利分布

首先考虑单个二进制随机变量。例如,可以描述抛硬币的结果,代表正面,代表反面。可以想象这是一枚损坏的硬币所以正面着地的概率不一定和反面着地的概率相同。的概率用参数表示,则:

由上可以得到。上的概率分布可以写成这样的形式:

这就是伯努利(Bernoulli)分布。很容易验证这个分布是标准化的,它的均值和方差为:

证明:

218c89b0372af4e4d8569a408d1cb6f2.png

现在假设有一个数据集,则可以构造似然函数。它是关于的函数,假设观测是独立地从获取得到的,则:

在频率设置中,我们可以通过最大化似然函数来估计一个值,或等效地通过最大化似然对数来估计一个值。在伯努利分布的情况下,对数似然函数为:

注意,对数似然函数取决于个观测,只有通过他们和。这个和为这个分布下的数据提供了充分的统计(sufficient statistic),我们应当研究统计的详细作用。使相对的导数为零,则最大似然估计为:

即样本均值(sample mean)。如果用表示这个数据集中(正面)的观测次数,那么我们可以把(式7)写成这种形式:

所以在这个最大似然框架中,头落地的概率是由数据集中头的观测值所占的比例决定的。

现在假设抛硬币3次碰巧看到3次正面朝上,则。在这种情况下,最大可能的结果将预测所有未来的观察结果应该是正面。常识告诉我们,这是不合理的。事实上,这是与最大可能性相关的过拟合的一个极端例子。后面将看到如何通过引入的先验分布来得出更合理的结论。

我们也可以找出分布观测的数字,数据集大小 。这就是二项分布(binomial),从式5我们看到它与成正比。为了获得归一化系数,我们注意到抛了次硬币,把所有可能获得个正面的方式相加,则二项分布可以写成:

其中:

是从个相同的对象中选择个对象的方法数。下图显示了和时的二项分布。

7a52569e2873855196021b209cda3249.png

对于独立事件,和的均值是均值的和,和的方差是方差的和。因为,则每个观测的均值和方差由式3式4给出,则:

这些结果也可以用微积分直接证明。

证明1:对于独立事件,和的均值是均值的和,和的方差是方差的和。

假设事件是独立的,则其联合分布可以因式分解为,所以:

对于方差也是类似的:

上面0的证明。

证明2:微积分证明式11和式12。

式2可以写成如下形式:

此时。

其是归一化的:

均值为:

方差为:

定理:

二项分布是归一化的:

均值:

方差:

2.2 beta分布

我们在式8中看到,伯努利分布以及二项分布中参数的最大似然设置是由数据集中的观察值的分数给出的。对于小数据集,这可能会产生严重的过拟合结果。为了对这个问题进行贝叶斯处理,需要在参数上引入一个先验分布

这里考虑一种先验分布的形式,它有一个简单的解释和一些有用的分析性质。我们注意到似然函数是因子的乘积形式。如果选择的先验与和的乘方成正比,则后验分布与似然函数和先验的乘积成正比。这个特性称为共轭性(conjugacy)。因此我们选择一个先验,称为beta分布,即:

是gamma函数,式13的系数确保了beta分布是归一化的,所以:

分布的均值和方差为:

参数和通常被称为超参数(hyperparameters),因为它们控制参数的分布。下图显示了各超参数值的beta分布。

ed72beab37c73aab9736813ede0922f5.png

证明式15和式16:

根据式13、14可得:

均值:

方差:

的后验分布现在通过将beta先验(式13)乘以二项式似然函数(式9)并进行归一化得到。只保留依赖的因子,则这个后验分布的形式为:

其中,对应于硬币例子中反面的次数。式17与先验分布对具有相同的函数依赖性,反映了先验相对于似然函数的共轭性质。实际上,它只是另一个beta分布,因此可以通过与式13比较得到其归一化系数:

我们看到观察数据的观测数为,的观测数为,将的值增加了,的值增加了,从先验分布转向后验分布。这允许我们对前验中的超参数提供一个简单的解释,即的有效观测数(effective number of observations)。注意,不必是整数。

此外,如果我们随后观察到额外的数据,后验分布可以作为先验。为此,我们可以想象每观察一次,每次观察后通过乘以新观测的似然函数更新当前的后验分布,然后进行归一化,得到新的修正后验分布。在每个阶段,后验是一个beta分布,其(前验和真实的)观测总数由参数给出。一个额外的的观测对应的值加1,而的观测增加1。下图说明了这个过程中的一个步骤。

4b9198083a6d904f45f2714f7fedf422.png

我们看到,当我们采用贝叶斯观点时,这种顺序(sequential)的学习方法就会自然而然地出现。它与先验和似然函数的选择无关,只依赖于对数据的假设。顺序法每次使用一个观测值,或小批量使用,然后在使用下一个观测值之前将其丢弃。例如,可以在实时学习场景中使用它们,当稳定的数据流到达时,必须在看到所有数据之前进行预测。因为顺序法不需要将整个数据集存储或加载到内存中,所以它们对于大型数据集也很有用。最大似然法也可以转换为顺序框架。

给定观察到的数据集,如果目标是尽可能预测下一次试验的结果,那么必须评估的预测分布。根据概率的和积规则,它的形式为:

结果式18带入后验分布,结合结果式15带入beta分布的均值,得到:

它有一个简单的解释,即对应于的观察的总分数(真实的观察和虚构先验的观察)。注意,在一个无限大的数据集的极限下,结果(式20)降至最大似然结果(式8)。正如看到的,这是一个非常通用的属性,即贝叶斯和最大似然的结果在无限大的数据集的极限下一致。对于有限的数据集,的后验均值总是位于前验均值和的最大似然估计(式7给出的事件频率)之间。

图2.2中可以看出,随着观测次数的增加,后验分布的峰值变得更加明显。这也可以从beta分布的方差结果(式16)中看出,当或时方差趋于零。当我们观察到越来越多的数据时,后验分布所代表的不确定性会逐渐减小,这是否是贝叶斯学习的一个普遍属性?

为了解决这个问题,我们可以采用贝叶斯学习的频率论观点,这样的性质确实成立。考虑一个参数的一般贝叶斯推理问题,我们观察了一个数据集,由联合分布描述。结果为:

即的后验均值,生成的数据的分布的平均值,等于的前验均值。类似地,我们可以证明:

式24左边的项是的前验方差。在右边,第一项是的平均后验方差,第二项是的后验平均值的方差。因为这个方差是一个正的量,所以这个结果表明,平均而言,的后验方差小于前验方差。后验均值的方差越大,方差的减少越大。这个结果只适用于平均情况,并且对于一个特定的观察数据集,后验方差可能大于前验方差。

3 多元变量

二元变量可以用来描述可以取两个可能值之一的量。然而,我们经常遇到离散变量,它可以有种可能的互斥状态。虽然有各种替代的方法来表示这些变量,但我们很快就会看到一个特别方便的表示是即用策略来维的向量,中的一个元素等于1,其余的元素都等于。

例如,如果我们有一个变量可以取种状态并且该变量的一个特定观察结果恰好对应于的状态,那么就可以表示为:

这样的变量满足。如果的概率用参数表示,则的分布表示为:

其中,参数满足约束和,因为它们表示概率。分布式26可以被认为是伯努利分布的推广,得到了两个以上的结果。这个分布是标准化的:

现在考虑个独立观测的数据集。对应似然函数为:

看到似然函数是通过的数量来依赖于个数据点的:

表示的数量。这些被称为这个分布的充分统计信息(sufficient statistics)。

为了找到的最大似然解,需要对最大化,同时考虑的约束和为1。这可以通过引入拉格朗日乘子来最大化:

式31对的导数为零,得到:

式32带入约束得到。因此最大似然解的形式为:

即,个观测中的占比。

考虑数量的联合分布,以参数和观测总数为条件,则根据式29得:

其被称为多项式(multinomial)分布。归一化系数将个对象划分为组大小为的对象,即:

注意变量满足约束:

3.1 Dirichlet分布

我们现在为多项式分布(式34)的参数引入一个先验分布族。通过检查多项式分布的形式,我们看到共轭先验是:

其中。是分布的参数,表示。注,因为和约束,空间的分布被限于维数为的单形(simplex ),如下图所示()。

9fdf32f4d56626fabc3409b8feeb2749.png

该分布的归一化形式为:

这被称为Dirichlet分布。这里是伽马函数。其中,

对于参数的不同设置,在单形上的Dirichlet分布如下图所示。

016d5231eb01824917c22eca3561448f.png

将先验(式38)乘以似然函数(式34),得到了参数的后验分布:

看到后验分布再次采用Dirichlet分布的形式,证实Dirichlet确实是多项式的共轭先验。这使我们能够通过与式38比较来确定归一化系数,即:

其中表示。对于具有beta先验的二项分布的情况,我们可以将Dirichlet先验的参数解释为的有效观测数。

注意,双态量可以表示为二进制变量,模型使用二项分布(式9)或作为变量,模型使用的多项分布(式34)。

参考资料

[1]

一元高斯分布: https://blog.csdn.net/mengjizhiyou/article/details/103919140

[2]

多元高斯分布: https://blog.csdn.net/mengjizhiyou/article/details/103933591

d5a8f6ab9003ac41be3b7aec4232ec63.png

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/195583
推荐阅读
相关标签
  

闽ICP备14008679号