赞
踩
目录
本章学习各种特殊的概率分布。讨论的概率分布的一个作用:在有限观测下,对 p(x) 进行建模-----密度估计(假设每次取样都是独立同分布的)。
我们用离散随机变量的二项分布和多项式分布,连续随机变量的高斯分布的参数估计。
引入两种观点:
还有个重要的概念:共轭先验:后验概率和先验概率分布的函数形式相同。
也会介绍非参数密度估计的方法。
1.一个二元随机变量
其中
(2.2)
这就是伯努利分布。
2.伯努利分布是归一化的。均值和方差为:
3,如果观测值是
(2.5)
4.频率派:最大化似然函数来估计参数=》最大化对数似然(伯努利分布):
(2.6)
这个只用N次观测结果得到的似然函数,也叫充分统计量。令其导数为零,我们有最大似然的估计值时的
(2.7)
这也叫做样本均值。如果把 x=1 的观测次数记录为m,则(2.7)可以写成:
(2.8)
但这个只用观测可能不靠谱,仍硬币三次刚好都是正面 N=m=3,则会判断未来观测都是正面。
所以一般引入
5.换一个角度,在给定数据集规模 N 的条件下, x=1 的观测出现数量 m 的概率分布叫做:二项分布。
6.根据公式(2.5)可以看到,这个概率正比于
并且需要归一化常熟:N 次抛掷中,m 个正面向上的次数的组合 为归一化常熟,因此二项分布(似然函数)可以写成:
(2.9)
其中:
(2.10)
是从总数为 N 的完全相同的物体中选择 m 个物体的方式的总数。图 2.1 给出了 N=10、
7.二项分布的均值和方差可以使用练习 1.10 的结果得到:加和的均值是均值的加和,加和的方差是方差的加和:
由于 ,并且对于每次观察,均值和方差都分别由公式(2.3)和(2.4)给出,因此我们有:期望=值 x 概率
(2.11)
(2.12)
1.直接用最大似然,如果是小数据集会过拟合,因此引入 一个关于
2.似然是一个
其中,
满足归一化:
(2.14)
Beta 分布的均值和方差:参数a和b经常被称为超参数(hyperparameter),因为它们控制了参数µ的概率分布,图2.2给出 了不同的超参数值对应的Beta分布的图像。
(2.15)
(2.16)
证明:
3. 的后验概率分布: Beta先验(2.13)和二项似然函数(2.9)相乘,归一化,可得到:
(2.17)
其中 ,即对应 x=0 的样本数量。关于µ的函数形式和 先验分布 的形式相同。先验关于似然函数的共轭性质。对比(2.13)就可以得到归一化系数:
(2.18)
从先验到后验,a的值增加了m,b的值增加了 。超参数a和b叫有效观测数。再进行新的观测,这里的后验又变成下次观测的先验。
4.先验为Beta分布,a=2,b=2,似然是2.9,其中N=m=1,后验概率是Beta分布,变成a=3,b=2.这样顺序学习,每次有新数据,用更新过的先验来处理就可以,不需要之前的数据。
5.如果我们目标是尽可能好地进行预测下一次数据,那么在给定观测数据D的情况下,x的预测分布就是:
(2.19)
根据(2.18)和(2.13)的形式对应。和(2.15)对比,我们可以得到:
(2.20)
当m,l趋近于无限大,(2.20)变成最大似然的结果(2.8).贝叶斯后验和最大似然结果在数据趋近于无穷的情况会统一(不仅仅在beta分布下成立,在其他分布也有这样性质)。数据没那么多,μ的后验均值在先验均值和公式(2.7)给出的最大似然之间。(折中)
在图中,当观测数量增多,后验分布更尖了。2.16的公式给出的方差也可以看出,a或b趋近于无穷的时候,方差就趋于零。观测点增加,后验的不确定性下降
6.我们用频率学角度证明这点。考虑一个贝叶斯推断,参数为 并且观测了一个数据集 D ,由联合分布
(2.21)
其中:
(2.22)
(2.23)
的后验均值(在产生数据集的分布上的平均)等于 的先验均值。同样的我们可以得到:(2.23)
(2.24)
公式(2.24)中左边是θ的先验方差。右边的第一项是θ的后验方差的均值。第二项是θ的后验均值的方差。因为方差是一个正的量(第二项大于零),所以一般来说,θ的后验方差小于先验方差。后验均值的方差越大,这个差值的就越大。注意,这个结果只在通常情况下成立,对于特定的观测数据集,后验方差有可能大于先验方差。
1.二元变量:2个状态中取某一种的量。推广到 k 个互斥状态,用 one-hot 表示。比如 K=6,
(2.25)
这样向量满足
(2.26)
其中
公式(2.26)分布可以看作伯努利分布在多于两种输出时的泛化。很容易证明这个分布是标准化的:
并且:
(2.28)
2.考虑一个有 个独立观测值 的数据集 。其对应的似然函数的形式为:
令:
它表示观测到
求最大似然解,我们需要在
(2.31)
对公式(2.31)关于 求导并使之等于0得到:
(2.32)
把公式(2.32)代入限制条件
(2.33)
就是观测 出现占总观测的比例。
3.考虑 在参数 和观测总数N条件下联合分布。通过公式(2.29)得到:
(2.34)
这就是多项式分布。标准化系数是把N个物体分成大小为
(2.35)
满足下面的约束:
(2.36)
1.多项式分布(2.34) 的参数
(2.37)
其中
归一化得到:(归纳法,习题2.9有思路)狄利克雷分布:
(2.38)
而且:
(2.39)
图2.5给出了在不同的参数αk的情况下,单纯形上的狄利克雷分布的图像,分布对应:
2.用似然(2.34)乘先验(2.38)就得到后验分布,形式为:
(2.40)
因为形式与先验相同,对比写出归一化系数:
(2.41)
其中
1.单变量(⼀元变量)x:
(2.42)
2.D维向量x:
(2.43)
是一个D维均值向量,
3.不同理解角度:
熵取得最大值的是高斯分布。
一组随机变量之和,概率分布随着项(随机变量个数)增加趋近于高斯分布。(拉普拉斯中心极限定理)比如均匀分布还有之前的二项分布。
4.高斯分布的几何形式,高斯对于x的依赖是通过下面二次型的形式:
(2.44)
这里 就是 和 之间的马氏距离。当
矩阵 可以取为对称矩阵,而不失去一般性,以为任何非对称项都会从指数中消失。
现在考虑协方差矩阵的特征向量方程(Av=λv):
(2.45)
其中
(2.46)
其中 是单位矩阵的第 个元素,满足:
(2.47)
也就是相同为1,不同为0.
协方差矩阵 可以表示成特征向量的展开的形式:
(2.48)
同样的协方差的逆矩阵 可以表示为:
(2.49)
5.把公式(2.49)代入公式(2.44),二次型就变成了:
(2.50)
其中:
(2.51)
我们可以把 解释为由正交向量 关于原来的 坐标系平移和旋转之后得到的新坐标系。记
(2.52)
其中 是由行向量 组成的。根据公式(2.46)可得 是正交矩阵,即它满足
6.如果公式(2.50)是常数时,那么二次型和高斯密度在曲面上为常熟。如果所有特征值
7.协方差矩阵的所有特征值都严格大于零,这是为了正确归一化,这就是正定矩阵(2.57解释)。
如果所有特征值都是非负的,就是半正定矩阵。
8.现在考虑
(2.53)
其中
(2.54)
由此可得
(2.55)
因此在
(2.56)
它具有归一化:
(2.57)
期望:
(2.58)
用 替换:
(2.59)
二阶矩是:
也用 来替换。交叉项 和 因为对称性抵消, 为常数可以拿出,本身又是单位向量被归一化。对于 项,我们可以得到:
(2.60)
其中
推出:
所以:
(2.62)
所以:
(2.63)
9.高斯分布的问题,参数太多,平方增长,无法求逆:
坐标变换
轮廓线说明:
常熟概率密度轮廓线:
10.另一局限性是单峰的,不能近似多峰问题,可以近似的概率有限。
11.引入潜在变量,来解决 >HMM ,卡尔曼滤波器,马尔科夫随机场之类的。
1.多元高斯性质:如果两个变量的联合高斯分布,那么一个变量为条件的高斯分布也是高斯分布。边缘高斯分布也是高斯分布
2.假设
(2.65)
(2.66)
(2.67)
协方差矩阵是对称的,即
有时候使用协方差的逆矩阵会比较方便:
(2.68)
这被称为精度矩阵。精度矩阵的划分形式:
(2.69)
3.首先,找到条件分布
4,简单说就是先算二次型,再算系数。确定均值和方差。
5.如果我们使⽤公式(2.65)、公 式(2.66)和公式(2.69)的划分⽅式,我们有一个二次型:
(2.70)
把它看成
6.一个通用的高斯分布
(2.71)
const为常数,表示与
7.条件高斯分布的指数项的二次型由公式(2.70)给出,我们把这个分布的均值和协方差分别记作
(2.72)
可以看出
(2.73)
现在考虑公式(2.70)中所有 的常数项:
(2.74)
其中,我们使用了
(2.75)
然后将精度矩阵替换回协方差矩阵,使用下面的关于分块矩阵的逆矩阵的恒等式:
(2.76)
其中我们已经定义了:
(2.77)
(2.78)
使用公式(2.76),我们有:
(2.79)
(2.80)
从这些结果中,我们可以得到条件概率分布
(2.81)
(2.82)
对比(2.73)和(2.83),看到条件概率分布
1.如果联合分布
利用二次型也可以来确定均值和方差。
联合概率的二次型可以确定条件分布,边缘分布的二次型的原因。系数也是相同。
目标是积掉,只提出(2.70)里面的项,然后配方:
(2.84)
其中,我们定义了:
(2.85)
代入(2.83),然后先只看有项,得到未归一化的高斯形式与均值无关:
(2.86)
就积分积掉了,再看剩余的第二项,与(2.70)中 相关的集合,写出:
(2.87)
其中,”常数“表示与无关的量。
与(2.71)比较写出均值和协方差:
(2.88)
(2.89)
再将精度矩阵换回协方差矩阵:
(2.92)
(2.93)
2.关于分块高斯的边缘分布和条件分布的结果可以总结如下:
对于联合高斯分布
条件分布:
(2.96)
(2.97)
边缘分布:
(2.98)
3.图2.9展示涉及到两个变量的多元高斯分布的条件概率分布和边缘概率分布:
1.假设 给定 高斯边缘分布和均值 是关于x的线性函数且方差与 x 无关的高斯条件分布
2.把边缘和条件分布记为:
(2.99)
(2.100)
其中,
3.首先求 x,y 的联合分布:
(2.101)
求其对数:
常数是与x,y无关的项。这是z的分量的二次函数-》
4.为了计算高斯分布的精度,看二阶项:
R就是精度矩阵:
(2.104)
通过取精度矩阵的逆矩阵,得到协方差矩阵:
(2.105)
用(2.102)的一阶项计算 z 的均值,先找到一阶项:
(2.106)
跟(2.71)对比求出均值表达式:
(2.107)
(2.71)
用(2.106)带入计算结果:
(2.108)
计算边缘分布 y 的表达式。直接利用(2.92)和(2.93)就可得到结果:
(2.109)
(2.110)
5.当 ,均值就是两个之和(是均值为
6.最后,求
(2.111)
(2.112)
7.总结:
对于 x 的边缘高斯分布 和 y关于x的条件高斯分布:
(2.113)
(2.114)
那么 y 的边缘分布和 x关于y的条件高斯分布为:
(2.115)
(2.116)
其中:
(2.117)
1.准备:给定一个数据集
(2.118)
整理一下,最大似然只依赖于数据集的两个量,叫充分统计量:
(2.119)
对
(2.120)
导数为0,得到均值的最大似然估计:
(2.121)
我们还可以计算得到方差:
(2.122)
2.如果我们估计真实概率分布,可以得到有偏的结果。协方差期望小于真实值:
(2.123)
(2.124)
所以需要补正:
(2.125)
1.顺序的方法允许每次处理一个数据点,整合进模型,处理完就丢掉。
2.考虑最大似然估计:
(2.121)
把第 N 个观察量的估计记作
就可以看得到结果了。随着N增加,修正量的影响也在变小。
3.推广到通用层面: Robbins-Monro算法:
考虑一对有联合分布
(2.127)
称之为回归函数。我们假定的目标时找到
如果有大量数据
4.首先假定z的条件方差是有限的:
(2.128)
假设:当
那么根的顺序估计就是:
(2.129)
其中
(2.130)
(2.131)
(2.132)
5.(2.129)以概率1收敛于根。(2.130)保证修正越来越小,(2.131)保证不会收敛到不根的值(阻止太快收束),(2.132)保证累计噪声是有限的(抑制noise发散),会收敛。
6.我们来应用,解决一般的顺序最大似然。根据定义,最大似然解
(2.133)
交换求导与求和顺序,且令极限
(2.134)
最大似然的解就是回归函数的根。
7.用Robbins-Monro算法:
(2.135)
将参数
(2.136)
因此
8.把式(2.136)代入式(2.135)得到具有参数
1.我们通过最大似然,可以求均值和方差,现在通过贝叶斯方法引入他们的先验。
2.首先,看一个一元高斯分布,方差是已知的。我们希望通过N次观测,推断出均值
(2.137)
似然是一个
(2.138)
且后验分布由:
(2.139)
给出。通过简单的配出指数中二次项的操作,可以得到的后验分布为:
(2.140)
其中:
(2.141)
(2.142)
其中
(2.143)
3.观察有几个结论:
4.上节顺序估计讲了最大似然问题可以转化为顺序更新问题:N个数据点的均值:N-1个数据点的均值和一个数据点
这里我们看后验分布可以写成:
(2.144)
方括号里的是观测N-1个数据点后的后验分布(忽略归一化系数)可以被看作一个先验分布。
5,假设均值是已知的,推断方差。同样选择先验是共轭的。定义精度
关于
(2.145)
因此,对应的共轭先验正比于
(2.146)
其中
归一化:
6.Gamma分布的均值和方差为:
(2.147)
(2.148)
7.然后假设先验为
(2.149)
整理一下,看成
(2.150)
(2.151)
其中
8.观察有几个结论:
9.回忆一下,我们在Dirichlet先验中做过类似的有效观测数的解释。这些分布是指数族的例子,我们将会看到,把共轭先验解释为有效的虚拟数据点是指数族分布的一种通用方法。
10.我们可以不使用精度进行计算,而是考虑方差本身。这种情况下共轭先验被称为 逆Gamma分布。但是我们不会详细地讨论这个分布,因为我们发现使用精度来计算更加方便。
11.现在,假设均值和精度都是未知的。为了找到共轭先验,考虑似然函数对
(2.152)
现在,我们在想找到一个对于
(2.153)
其中,
(2.154)
其中,我们的新常数为
注意,这不是两个独立的高斯和gamma分布的乘积。因为
12.对于
(2.155)
其中
(2.156)
同样的,用协方差矩阵本身(而不是精度)定义的先验分布也可行的,这会推导出逆Wishart分布,但是我们不会详细讨论这一点。如果均值和精度同时未知,那么,和一元变量类似的推理得到共轭先验:
(2.157)
这被称为正态-Wishart分布或高斯-Wishart分布。
1.我们已经证明高斯分布的精度的共轭先验是gamma分布。如果把一元高斯和Gamma先验结合一起并积分掉精度,得到的边缘分布形式:
(2.158)
其中我们使用了变量替换
2.为了方便,我们定义了新变量
(2.159)
这就是学生t分布。参数有时被称为t分布的精度,虽然它并不总是等于方差的逆。参数
3.(2.158)学生t分布是由无穷多个相同均值不同精度高斯分布相加而成的。(Gamma分布积分后的部分是归一化系数),高斯混合。结果是一个通常有着比高斯分布更长的“尾巴”的概率分布,正如图2.15展示的。
4.这给出了t分布的一个叫做鲁棒性(robustness)的重要性质,这表示对于数据集里存在几个离群点(outlier),t分布不会像高斯分布那样敏感。图2.16展示了t分布的鲁棒性,并对比了高斯分布和t分布的最大似然解
5.t分布的最大似然可以用EM算法求解。如果数据有误标记或者本身就是长尾概率的时候,就会派上用场(比一般的高斯分布好)。
6.如果我们回到式(2.158)并代入参数
(2.160)
7.可以把它推广到多元高斯
(2.161)
使用与一元变量相同的方法,求解这个积分,得:
(2.162)
其中是向量得维数,
(2.163)
定义得马氏距离(Mahalanobis distance)的平方。
这个形式的多元t分布满足下面这些性质:
(2.164)
(2.165)
(2.166)
对应地,可以得到一元变量的结果。
1.实际生活中有周期变量。比如风向或者日历,按照年、天、小时等周期循环。用极坐标建模
2.我们可能选取一个方向作为原点,然后应用传统的概率分布(例如高斯分布)来处理。但是,这种方法得出的结果会强烈依赖于原点得选择。例如,假设我们有两个观测,分别位于
(不好的原因:均值方差大小依赖原点的选择)
2.让我们考虑估计周期观测集合
1.实际数据直接高斯建模有局限性。如图2.21忠实泉的问题:
横轴持续喷发分钟,纵轴下次喷发间隔时间。单一高斯不好,多个高斯线性叠加更好。多个基本概率分布线性组合的方式叫混合分布。图2.22三合一:
足够多的高斯组合可以拟合几乎任意连续概率密度函数,比方说k个:
(2.188)
这被叫做混合高斯。如图2.23,混合模型还有其他线性组合在9.3.3有伯努利分布的混合:
2.这里
(2.189)
且,
(2.190)
因此,我们看到混合系数满足成为概率的要求。
3.根据加法和乘法规则,得到边缘密度为:
(2.191)
其中,把
4.后验概率
(2.192)
将在第9章比较详细地讨论混合分布的概率意义。(分量k对于“解释”观测值 x 的“责任”)
5.控制混合高斯分布的参数
(2.193)
其中
1.到目前学到的各种概率分布(除了高斯混合)都是指数族分布下的特殊例子,有共同性质。比如:
给定参数
(2.194)
形式的概率分布的集合。其中
(2.195)
其中,对于离散变量积分就变成求和。
2.首先,给出一些本章之前讨论的一些分布,然后证明这些分布确实是 指数族分布。首先考虑伯努利分布:
(2.196)
把右侧表示成对数的指数形式,得到:(合并x项)
(2.197)
与公式(2.194)对照,得到:
(2.198)
然后就可以解出
(2.199)
这就是logistic sigmoid 函数。因此可以把伯努利分布写成式(2.194)的标准形式:(上下同乘exp(x))
(2.200)
其中使用了可以从式(2.199)中很容易证明的
(2.201)
(2.202)
(2.202)
3.接下来,考虑单观测值
(2.204)
其中
(2.205)
其中
(2.206)
(2.207)
(2.208)
4.注意,因为参数
(2.209)
所以给定任意
(2.210)
使用式(2.209)的约束,这种表达方式下多项式分布变成:
(2.211)
现在,确定:
(2.212)
首先两边对
(2.213)
这被称为softmax函数,或标准化指数(normalized exponential)。
5.在这种表达方式下,多项式分布具有:
(2.214)
这是具有参数向量
(2.215)
(2.216)
(2.217)
6.最后,考察高斯分布。对于一元高斯有:
(2.218 , 2.219)
经过一些简单的重排列之后,可以转化为式(2.194)给出的标准指数族分布的形式,其中:
(2.220)
(2.221)
(2.222)
(2.223)
1.现在对于最大似然,首先标准形式是:
(2.194)
我们对(2.195)两边取梯度,有:
(2.195)
(2.224)
整理有:
(2.225)
其中使用了式(2.195).于是得到:
(2.226)
注意,
2.现在考虑一组独立同分布的数据
(2.227)
令
(2.228)
最大似然解仅仅关于
3.如果考虑极限
1.我们已经在伯努利分布(共轭先验是beta分布)和高斯分布(均值的共轭先验是高斯,精度的共轭先验是Wishart分布 2.3.6gamma分布最后),碰到过几次共轭先验的概念。通常来说,对于给定的分布
(2.229)
其中
(2.230)
这同样与先验(2.229)具有相同的函数形式,确认是共轭的。此外,参数
1.在一些概率推断应用中,我们可能会有能用先验分布方便的表达出来的先验知识。例如,如果先验令变量的一些值的概率为0,那么不论后续观测到什么数据,后验分布都会令这些值的概率为0。但是,在许多情形下,我们几乎不知道分布应该具有的形式。这时,我们可能需找一种被称为无信息先验(noninformative prior)的先验分布。这种先验分布的目的是尽可能的后验分布产生小的影响,这有时也被称为“让数据自己说话”。
2.如果一个有参数
似然:
(2.137)
关系:
(2.139)
(1.27)
如果函数
(2.231)
这时
3.这里考虑两个无信息先验的简单例子(Berger, 1985)。首先,概率密度形式为:
(2.232)
其中
(2.233)
其中
(2.234)
而且这对于任意的
(2.235)
这隐含了
4.位置参数的一个例子是高斯分布的均值
(2.141)
(2.142)
5.第二个例子,考虑密度形式:
(2.236)
其中
(2.237)
其中
(2.238)
因为这对于任意的
(2.239)
得到
缩放参数的一个例子是高斯分布的标准差
(2.240)
其中
(2.146)
(2.147)
(2.148)
1.一般的参数化的模型有个局限性:对于生成数据来说,可能选了一个很差的模型去拟合。比方说一个多峰数据的生成过程就很难被单峰的高斯模型来捕捉到。所以看看简单频度学家的非参数估计。
2.之前我们也有用过:图1.11说明边缘分布和条件分布
3.图2.6 中心极限定理。均值随数据量增加的变化。
4.探索一元连续变量下的直方图密度估计的性质。标准的直方图简单地把划分成宽度为
(2.241)
从中显然可得
5.这展示了三种不同的箱子宽度
6.优势:
7.缺点:
8.重要点:
有了这些认识,让我们讨论密度估计的两个广泛使用的非参数化方法:核估计以及近邻估计。与简单的直方图方法相比,这两种方法能更好的处理维度放大的情况。
1.假设观测是D维空间未知概率分布p(x),希望估计。看包含x的小区域R,概率密度是:
(2.242)
2.假设收集了R内部的K个数据点,服从二项分布:x落在区域R中被观测到,数量为K个的概率:
(2.243)
3.使用(2.11,2.12)(在给定数据集规模N的条件下,x=1的观测出现数量m的概率分布的期望和方差):
(2.11)
(2.12)
得到落在区域内部的数据点的平均比例(mean fraction)为
4.对于大的
(2.244)
但是,如果同时假定区域R足够小,使得在这个区域内的概率密度p(x)大致为常数,那么就有:
(2.245)
其中
(2.246)
注意,式(2.246)的成立依赖于两个相互矛盾的假设,即区域
5.因为p(x)概率函数和N是数据点。我们有两种思路:
可以证明在极限
6.首先是核方法,我们把区域
(2.247)
这表示一个以原点为中心的单位立方体。函数k(u)就是核函数的一个例子。从式(2.247),如果数据点
(2.248)
7.把这个表达式代入式(2.246),可以得到点处的概率密度估计:
(2.249)
使用函数
8.但问题跟直方图一样,非连续性。(不是1就是0).这个是由密度估计中立方体的边界带来的。如果我们选择一个平滑的核函数,那么就可以得到一个更加光滑的模型。一个常用的选择是高斯核函数,它给出:
(2.250)
其中表示高斯分布的标准差。这个密度模型是通过使每个数据点服从高斯,然后把它们的贡献加起来得到的,之后除以
9.看到,和我们期望的一样,参数
10.其实可以选择任何(2.249)的核函数,只要满足条件:
(2.251)
(2.252)
这确保了最终求得的概率分布在处处都是非负的,且积分等于1。式(2.249)给出的这类密度模型被称为核密度估计,或Parzen估计。它的一个很大的优点是:因为“训练”阶段只需要存储训练集即可,所以它不需要进行“训练”阶段的计算(只需要写个方程)。然而,这也是一个巨大的缺点,因为密度估计的计算代价随着数据集的规模线性增长(每个点都参与了计算)。
1.密度估计的核方法的一个问题是控制核宽度的参数
2.因此,回到局部密度估计的一般结果(2.246),与之前固定
3.我们看到现在
4.最后,将k近邻估计推广到分类问题。为此,对每个独立的类别应用K近邻估计,然后使用贝叶斯定理。
假设有类别
(2.253)
同样的,无条件概率密度为:
(2.254)
其中类别的先验是由:
(2.255)
给出。现在使用贝叶斯定理将式(2.253)、(2.254)和(2.255)结合起来,得到类别的后验概率:
(2.256)
5.如果希望误分类的概率最小,那么可以把测试点
6.在图2.28中,展示了第一章中介绍的石油流数据集在不同的
7.最近邻(K = 1)分类器的一个有趣的性质是在极限
8.正如到目前为止讨论的那样,K近邻方法和核密度估计方法都需要存储整个训练数据,这导致计算大数据集会非常昂贵。通过一种基于树的探索结果,可以一次额外的计算来,不遍历整个数据集高效地找到(近似)近邻。尽管这样,这些非参数化方法然有很大的局限性。
9.另一方面,我们已经看到,简单的参数化模型非常受限,只能表示某一种形式的概率分布。因此我们需要寻找一种非常灵活概率密度模型,且它的复杂度可以被控制为与训练数据的规模无关。在后续章节中将会看到如何找到这种概率密度模型。
参考文献:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。