当前位置:   article > 正文

两个例题带你搞懂极大似然估计-猛男技术控_极大似然估计例题

极大似然估计例题

极大似然估计

比如箱子里有100个球共两种颜色,其中一种颜色有95个,现在摸出一个球是黑色,那么是黑球95个还是白球95个呢?

具体哪个多当然是不能肯定的,但我们可以知道,大概率是黑球多。

极大似然说人话就是最大概率看起来是这个样子


极大似然估计的目的是利用已知样本,反推最有可能导致出现这样结果的参数值是多少。

极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。

数学解释:

设总体的概率密度函数 (或分布律) 为 f ( y , w 1 , w 2 , … , w k ) , y 1 , y 2 , … , y m f\left(y, w_{1}, w_{2}, \ldots, w_{k}\right), y_{1}, y_{2}, \ldots, y_{m} f(y,w1,w2,,wk),y1,y2,,ym 为从该总体中抽出的样本。

因为 y 1 , y 2 , … , y m y_{1}, y_{2}, \ldots, y_{m} y1,y2,,ym 相互独立且同分布,于是,它们的联合概率密度函数 (或联合概率) 为
L ( y 1 , y 2 , … , y m ; w 1 , w 2 , … , w k ) = ∏ i = 1 m f ( y i , w 1 , w 2 , … , w k ) L\left(y_{1}, y_{2}, \ldots, y_{m} ; w_{1}, w_{2}, \ldots, w_{k}\right)=\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right) L(y1,y2,,ym;w1,w2,,wk)=i=1mf(yi,w1,w2,,wk)
其中, w 1 , w 2 , … , w k w_{1}, w_{2}, \ldots, w_{k} w1,w2,,wk 被看作固定但是末知的参数。

D c D_{c} Dc表示训练集 D D D 中第 c c c 类样本组成的集合,假设这些样本是独立同分布的,则参数 θ c \boldsymbol{\theta}_{c} θc对于数据集 D c D_{c} Dc的似然(条件概率)是
P ( D c ∣ θ c ) = ∏ x ∈ D c P ( x ∣ θ c ) (7.9) P\left(D_{c} \mid \boldsymbol{\theta}_{c}\right)=\prod_{\boldsymbol{x} \in D_{c}} P\left(\boldsymbol{x} \mid \boldsymbol{\theta}_{c}\right) \tag{7.9} P(Dcθc)=xDcP(xθc)(7.9)
当我们已经观测到一组样本观测值时,要去估计末知参数,一种直观的想法就是,哪一组参数值使得现在的样本观测值出现的概率最大, 哪一组参数可能就是真正的参数,我们就用它作为参数的估计值, 这就是所谓的极大似然估计。

θ c \boldsymbol{\theta}_{c} θc 进行极大似然估计,就是去寻找能最大化似然 P ( D c ∣ θ c ) P\left(D_{c} \mid \boldsymbol{\theta}_{c}\right) P(Dcθc) 的参数值 θ ^ c \hat{\boldsymbol{\theta}}_{c} θ^c


例 1: 假定一个盒子里有白球、黑球共三个,但不知白球和黑球分别有几个。如果有放回的从盒子里抽取三个球, 发现第一个、第三个球是黑色的, 第二个球是白色的。
问:如何估计盒中黑球所占比例 β \beta β ?

参数空间: Θ = { 0 , 1 3 , 2 3 , 1 } \Theta=\left\{0, \frac{1}{3}, \frac{2}{3}, 1\right\} Θ={0,31,32,1} β \beta β可能的取值)

样本: 从盒子中有放回的取球,第 i i i 次取出的结果记为
X i = { 1 ,  Black  0 ,  White  ( i = 1 , 2 , 3 ) X_{i}=\left\{

1, Black 0, White 
\quad(i=1,2,3)\right. Xi={1, Black 0, White (i=1,2,3)
概率函数: x x x只能取0或1,能概率只能是黑球的概率 β \beta β和白球的概率 1 − β 1-\beta 1β
f ( x ) = β x ( 1 − β ) 1 − x f(x)=\beta^{x}(1-\beta)^{1-x} f(x)=βx(1β)1x
联合概率函数: ( X 1 , X 2 , X 3 ) \left(X_{1}, X_{2}, X_{3}\right) (X1,X2,X3) 的联合概率函数为
L ( x 1 , x 2 , x 3 ; β ) = β x 1 + x 2 + x 3 ( 1 − β ) 3 − ( x 1 + x 2 + x 3 ) L\left(x_{1}, x_{2}, x_{3} ; \beta\right)=\beta^{x_{1}+x_{2}+x_{3}}(1-\beta)^{3-\left(x_{1}+x_{2}+x_{3}\right)} L(x1,x2,x3;β)=βx1+x2+x3(1β)3(x1+x2+x3)
似然函数: ( X 1 , X 2 , X 3 ) \left(X_{1}, X_{2}, X 3\right) (X1,X2,X3) 对应的结果为“第一个、第三个球是黑色 的, 第二个球是白色的”, 即 x 1 = x 3 = 1 , x 2 = 0 x_{1}=x_{3}=1, x_{2}=0 x1=x3=1,x2=0
L ( β ) = β 2 ( 1 − β ) L(\beta)=\beta^{2}(1-\beta) L(β)=β2(1β)

参数求解:在参数空间中寻找使观测值出现的概率最大的那个参数
在这里插入图片描述

极大似然估计:
β ^ = 2 3 \hat{\beta}=\frac{2}{3} β^=32


但是很多时候我们的参数空间可能很多甚至无限,这时就不能用上面这种方法了。

于是可爱的数学家就推导出了直接通过似然函数求解的方法。

当似然函数 L ( θ ) L(\theta) L(θ)可微时, 可通过使方程组偏导为0,从而求得极大值点。
∂ L ( θ ) ∂ θ 1 = 0 , ∂ L ( θ ) ∂ θ 2 = 0 , ⋯   , ∂ L ( θ ) ∂ θ m = 0 \frac{\partial L(\theta)}{\partial \theta_{1}}=0, \frac{\partial L(\theta)}{\partial \theta_{2}}=0, \cdots, \frac{\partial L(\theta)}{\partial \theta_{m}}=0 θ1L(θ)=0,θ2L(θ)=0,,θmL(θ)=0

  • L ( θ ) L(\theta) L(θ)不存在偏导数时, 需要直接研究 L ( θ ) L(\theta) L(θ) , 寻找最大值点。

为了方便计算,可以通过对数似然函数 ln ⁡ L ( θ ) \ln L(\theta) lnL(θ) 求解 θ ^ \hat{\theta} θ^ 也是 ln ⁡ L ( θ ) \ln L(\theta) lnL(θ) 的最大值点
L L ( θ c ) = ln ⁡ P ( D c ∣ θ c ) = ∑ x ∈ D c ln ⁡ P ( x ∣ θ c ) ,

LL(θc)=lnP(Dcθc)=xDclnP(xθc),
LL(θc)=lnP(Dcθc)=xDclnP(xθc),

  • ln ⁡ L ( θ ) \ln L(\theta) lnL(θ) 可微时, 可通过下列方程组, 判断根是不是最大值点。

∂ ln ⁡ L ( θ ) ∂ θ 1 = 0 , ∂ ln ⁡ L ( θ ) ∂ θ 2 = 0 , ⋯   , ∂ ln ⁡ L ( θ ) ∂ θ m = 0 \frac{\partial \ln L(\theta)}{\partial \theta_{1}}=0, \frac{\partial \ln L(\theta)}{\partial \theta_{2}}=0, \cdots, \frac{\partial \ln L(\theta)}{\partial \theta_{m}}=0 θ1lnL(θ)=0,θ2lnL(θ)=0,,θmlnL(θ)=0

  • ln ⁡ L ( θ ) \ln L(\theta) lnL(θ) 不存在偏导数时, 需要研究 ln ⁡ L ( θ ) \ln L(\theta) lnL(θ) , 寻找最大值点。

一元正态分布参数估计

例 2:在学概率论正态分布时老师一般会直接说 μ \mu μ为正态分布样本的均值, δ \delta δ 为样本方差,而我们也不懂为啥是,这里用极大似然估计来证明一下。

img

样本 X X X服从正态分布:
f ( x , μ , δ ) = 1 2 π δ exp ⁡ { − ( x − μ ) 2 2 δ } f(x, \mu, \delta)=\frac{1}{\sqrt{2 \pi \delta}} \exp \left\{-\frac{(x-\mu)^{2}}{2 \delta}\right\} f(x,μ,δ)=2πδ 1exp{2δ(xμ)2}
其中, δ = σ 2 ∈ ( 0 , ∞ ) , μ ∈ ( − ∞ , ∞ ) \delta=\sigma^{2} \in(0, \infty), \mu \in(-\infty, \infty) δ=σ2(0,),μ(,) 这时就有无穷多取值了,就不能列举了。

似然函数
L ( x 1 , ⋯   , x N ; μ , δ ) = ( 1 2 π δ ) N exp ⁡ { − ∑ i = 1 N ( x i − μ ) 2 2 δ } L\left(x_{1}, \cdots, x_{N} ; \mu, \delta\right)=\left(\frac{1}{\sqrt{2 \pi \delta}}\right)^{N} \exp \left\{-\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{2 \delta}\right\} L(x1,,xN;μ,δ)=(2πδ 1)Nexp{2δi=1N(xiμ)2}
对数似然函数
ln ⁡ L ( μ , δ ) = − N 2 ln ⁡ ( 2 π ) − N 2 ln ⁡ δ − 1 2 δ ∑ i = 1 N ( x i − μ ) 2 \ln L(\mu, \delta)=-\frac{N}{2} \ln (2 \pi)-\frac{N}{2} \ln \delta-\frac{1}{2 \delta} \sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2} lnL(μ,δ)=2Nln(2π)2Nlnδ2δ1i=1N(xiμ)2
对数似然函数求偏导,得到方程组:
{ ∂ ln ⁡ L ∂ μ = 1 δ ∑ i = 1 N ( x i − μ ) = 0 ∂ ln ⁡ L ∂ δ = − n 2 δ + 1 2 δ 2 ∑ i = 1 N ( x i − μ ) 2 = 0 ( i = 1 , 2 , ⋯   , N )

{lnLμ=1δi=1N(xiμ)=0lnLδ=n2δ+12δ2i=1N(xiμ)2=0
\quad(i=1,2, \cdots, N) {μlnL=δ1i=1N(xiμ)=0δlnL=2δn+2δ21i=1N(xiμ)2=0(i=1,2,,N)
极大似然估计:
μ ^ = 1 N ∑ i = 1 N x i = x ˉ , δ ^ = 1 N ∑ i = 1 N ( x i − x ˉ ) 2 \hat{\mu}=\frac{1}{N} \sum_{i=1}^{N} x_{i}=\bar{x}, \quad \hat{\delta}=\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}-\bar{x}\right)^{2} μ^=N1i=1Nxi=xˉ,δ^=N1i=1N(xixˉ)2
μ \mu μ为正态分布样本的均值, δ \delta δ 为样本的方差,与我们概率论上学的一样。


多元正态分布参数估计

当然一般情况下 x x x是多维的,我们需要用多元正态分布,这里拔高一下尝试对多元正态分布的参数进行似然估计

在连续属性情形下,假设概率密度函数 p ( x ∣ c ) ∼ N ( μ c , σ c 2 ) p(\boldsymbol{x} \mid c) \sim \mathcal{N}\left(\boldsymbol{\mu}_{c},\boldsymbol{\sigma}_{c}^{2}\right) p(xc)N(μcσc2)

假设概率密度函数 p ( x ∣ c ) ∼ N ( μ c , σ c 2 ) p(\boldsymbol{x} | c) \sim \mathcal{N}\left(\boldsymbol{\mu}_{c},\boldsymbol{\sigma}_{c}^{2}\right) p(xc)N(μcσc2),其等价于假设
P ( x ∣ θ c ) = P ( x ∣ μ c , σ c 2 ) = 1 ( 2 π ) d ∣ Σ c ∣ exp ⁡ ( − 1 2 ( x − μ c ) T Σ c − 1 ( x − μ c ) ) P\left(\boldsymbol{x} | \boldsymbol{\theta}_{c}\right)=P\left(\boldsymbol{x} | \boldsymbol{\mu}_{c}, \boldsymbol{\sigma}_{c}^{2}\right)=\frac{1}{\sqrt{(2 \pi)^{d}|\boldsymbol{\Sigma}_c|}} \exp \left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_c)^{\mathrm{T}} \boldsymbol{\Sigma}_c^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_c)\right) P(xθc)=P(xμc,σc2)=(2π)dΣc 1exp(21(xμc)TΣc1(xμc))
这是多元正态分布,其中, d d d表示 x \boldsymbol{x} x的维数,一元正态分布中 σ 2 \boldsymbol{\sigma}^{2} σ2为方差,多元中 Σ c = σ c 2 \boldsymbol{\Sigma}_c=\boldsymbol{\sigma}_{c}^{2} Σc=σc2对称正定协方差矩阵 ∣ Σ c ∣ |\boldsymbol{\Sigma}_c| Σc表示 Σ c \boldsymbol{\Sigma}_c Σc的行列式。将其代入参数求解公式可得:
( μ ^ c , Σ ^ c ) = arg ⁡ min ⁡ ( μ c , Σ c ) − ∑ x ∈ D c log ⁡ [ 1 ( 2 π ) d ∣ Σ c ∣ exp ⁡ ( − 1 2 ( x − μ c ) T Σ c − 1 ( x − μ c ) ) ] = arg ⁡ min ⁡ ( μ c , Σ c ) ∑ i = 1 N ln ⁡ [ 1 ( 2 π ) d ⋅ 1 ∣ Σ c ∣ ⋅ exp ⁡ ( − 1 2 ( x i − μ c ) T Σ c − 1 ( x i − μ c ) ) ] = arg ⁡ min ⁡ ( μ c , Σ c ) ∑ i = 1 N { ln ⁡ 1 ( 2 π ) d + ln ⁡ 1 ∣ Σ c ∣ + ln ⁡ [ exp ⁡ ( − 1 2 ( x i − μ c ) T Σ c − 1 ( x i − μ c ) ) ] } = arg ⁡ min ⁡ ( μ c , Σ c ) ∑ i = 1 N [ d 2 log ⁡ ( 2 π ) + 1 2 log ⁡ ∣ Σ c ∣ + 1 2 ( x − μ c ) T Σ c − 1 ( x i − μ c ) ] = arg ⁡ min ⁡ ( μ c , Σ c ) − N d 2 ln ⁡ ( 2 π ) − N 2 ln ⁡ ∣ Σ c ∣ − 1 2 ∑ i = 1 N ( x i − μ c ) T Σ c − 1 ( x i − μ c )

(μ^c,Σ^c)=argmin(μc,Σc)xDclog[1(2π)d|Σc|exp(12(xμc)TΣc1(xμc))]=argmin(μc,Σc)i=1Nln[1(2π)d1|Σc|exp(12(xiμc)TΣc1(xiμc))]=argmin(μc,Σc)i=1N{ln1(2π)d+ln1|Σc|+ln[exp(12(xiμc)TΣc1(xiμc))]}=argmin(μc,Σc)i=1N[d2log(2π)+12log|Σc|+12(xμc)TΣc1(xiμc)]=argmin(μc,Σc)Nd2ln(2π)N2ln|Σc|12i=1N(xiμc)TΣc1(xiμc)
(μ^c,Σ^c)=(μc,Σc)argminxDclog[(2π)dΣc 1exp(21(xμc)TΣc1(xμc))]=(μc,Σc)argmini=1Nln[(2π)d 1Σc 1exp(21(xiμc)TΣc1(xiμc))]=(μc,Σc)argmini=1N{ln(2π)d 1+lnΣc 1+ln[exp(21(xiμc)TΣc1(xiμc))]}=(μc,Σc)argmini=1N[2dlog(2π)+21logΣc+21(xμc)TΣc1(xiμc)]=(μc,Σc)argmin2Ndln(2π)2NlnΣc21i=1N(xiμc)TΣc1(xiμc)
由于参数 θ c \boldsymbol{\theta}_{c} θc 的极大似然估计 θ ^ c \hat{\boldsymbol{\theta}}_{c} θ^c

θ ^ c = arg ⁡ max ⁡ θ c L L ( θ c ) \hat{\boldsymbol{\theta}}_{c}=\underset{\boldsymbol{\theta}_{c}}{\arg \max } L L\left(\boldsymbol{\theta}_{c}\right) θ^c=θcargmaxLL(θc)
所以接来下只需要求出使得对数似然函数 L L ( θ c ) LL\left(\boldsymbol{\theta}_{c}\right) LL(θc) 取到最大值的 μ ^ c 和 Σ ^ c \hat{\boldsymbol{\mu}}_{c} 和 \hat{\boldsymbol{\Sigma}}_{c} μ^cΣ^c ,也就求出了 θ ^ c \hat{\boldsymbol{\theta}}_{c} θ^c

要求最值肯定要求偏导

L L ( θ c ) L L\left(\boldsymbol{\theta}_{c}\right) LL(θc) 关于 μ c \boldsymbol{\mu}_{c} μc求偏导
∂ L L ( θ c ) ∂ μ c = ∂ ∂ μ c [ − N d 2 ln ⁡ ( 2 π ) − N 2 ln ⁡ ∣ Σ c ∣ − 1 2 ∑ i = 1 N ( x i − μ c ) T Σ c − 1 ( x i − μ c ) ] = ∂ ∂ μ c [ − 1 2 ∑ i = 1 N ( x i − μ c ) T Σ c − 1 ( x i − μ c ) ] = − 1 2 ∑ i = 1 N ∂ ∂ μ c [ ( x i − μ c ) T Σ c − 1 ( x i − μ c ) ] = − 1 2 ∑ i = 1 N ∂ ∂ u − [ ( x i T − μ c T ) Σ c − 1 ( x i − μ c ) ] = − 1 2 ∑ i = 1 N ∂ ∂ μ c [ ( x i T − μ c T ) ( Σ c − 1 x i − Σ c − 1 μ c ) ] = − 1 2 ∑ i = 1 N ∂ ∂ μ c [ x i T Σ c − 1 x i − x i T Σ c − 1 μ c − μ c T Σ c − 1 x i + μ c T Σ c − 1 μ c ]

LL(θc)μc=μc[Nd2ln(2π)N2ln|Σc|12i=1N(xiμc)TΣc1(xiμc)]=μc[12i=1N(xiμc)TΣc1(xiμc)]=12i=1Nμc[(xiμc)TΣc1(xiμc)]=12i=1Nu[(xiTμcT)Σc1(xiμc)]=12i=1Nμc[(xiTμcT)(Σc1xiΣc1μc)]=12i=1Nμc[xiTΣc1xixiTΣc1μcμcTΣc1xi+μcTΣc1μc]
μcLL(θc)=μc[2Ndln(2π)2NlnΣc21i=1N(xiμc)TΣc1(xiμc)]=μc[21i=1N(xiμc)TΣc1(xiμc)]=21i=1Nμc[(xiμc)TΣc1(xiμc)]=21i=1Nu[(xiTμcT)Σc1(xiμc)]=21i=1Nμc[(xiTμcT)(Σc1xiΣc1μc)]=21i=1Nμc[xiTΣc1xixiTΣc1μcμcTΣc1xi+μcTΣc1μc]
由于 x i T Σ c − 1 μ c \boldsymbol{x}_{i}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c} xiTΣc1μc 的计算结果为标量,标量的转置还是标量,由于所 Σ c \Sigma_{c} Σc是对称矩阵,转置等于其自身,所以
x i T Σ c − 1 μ c = ( x i T Σ c − 1 μ c ) T = μ c T ( Σ c − 1 ) T x i = μ c T ( Σ c T ) − 1 x i = μ c T Σ c − 1 x i \boldsymbol{x}_{i}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}=\left(\boldsymbol{x}_{i}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}\right)^{T}=\boldsymbol{\mu}_{c}^{T}\left(\boldsymbol{\Sigma}_{c}^{-1}\right)^{T} \boldsymbol{x}_{i}=\boldsymbol{\mu}_{c}^{T}\left(\boldsymbol{\Sigma}_{c}^{T}\right)^{-1} \boldsymbol{x}_{i}=\boldsymbol{\mu}_{c}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{x}_{i} xiTΣc1μc=(xiTΣc1μc)T=μcT(Σc1)Txi=μcT(ΣcT)1xi=μcTΣc1xi
于是上式可以进一步化为

∂ L L ( θ c ) ∂ μ c = − 1 2 ∑ i = 1 N ∂ ∂ μ c [ x i T Σ c − 1 x i − 2 x i T Σ c − 1 μ c + μ c T Σ c − 1 μ c \frac{\partial L L\left(\boldsymbol{\theta}_{c}\right)}{\partial \boldsymbol{\mu}_{c}}=-\frac{1}{2} \sum_{i=1}^{N} \frac{\partial}{\partial \boldsymbol{\mu}_{c}}\left[\boldsymbol{x}_{i}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{x}_{i}-2 \boldsymbol{x}_{i}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}+\boldsymbol{\mu}_{c}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}\right. μcLL(θc)=21i=1Nμc[xiTΣc1xi2xiTΣc1μc+μcTΣc1μc

由矩阵微分公式 ∂ a T x ∂ x = a , ∂ x T B x ∂ x = ( B + B T ) x \frac{\partial a^{T} x}{\partial x}=a,\frac{\partial x^{T} B x}{\partial x}=\left(B+B^{T}\right) x xaTx=axxTBx=(B+BT)x 可得
∂ L L ( θ c ) ∂ μ c = − 1 2 ∑ i = 1 N [ 0 − ( 2 x i T Σ c − 1 ) T + ( Σ c − 1 + ( Σ c − 1 ) T ) μ c ] = − 1 2 ∑ i = 1 N [ − ( 2 ( Σ c − 1 ) T x i ) + ( Σ c − 1 + ( Σ c − 1 ) T ) μ c ] = − 1 2 ∑ i = 1 N [ − ( 2 Σ c − 1 x i ) + 2 Σ c − 1 μ c ] = ∑ i = 1 N Σ c − 1 x i − N Σ c − 1 μ c

LL(θc)μc=12i=1N[0(2xiTΣc1)T+(Σc1+(Σc1)T)μc]=12i=1N[(2(Σc1)Txi)+(Σc1+(Σc1)T)μc]=12i=1N[(2Σc1xi)+2Σc1μc]=i=1NΣc1xiNΣc1μc
μcLL(θc)=21i=1N[0(2xiTΣc1)T+(Σc1+(Σc1)T)μc]=21i=1N[(2(Σc1)Txi)+(Σc1+(Σc1)T)μc]=21i=1N[(2Σc1xi)+2Σc1μc]=i=1NΣc1xiNΣc1μc
令偏导数等于0可得

∂ L L ( θ c ) ∂ μ c = ∑ i = 1 N Σ c − 1 x i − N Σ c − 1 μ c = 0 N Σ c − 1 μ c = ∑ i = 1 N Σ c − 1 x i N Σ c − 1 μ c = Σ c − 1 ∑ i = 1 N x i N μ c = ∑ i = 1 N x i μ c = 1 N ∑ i = 1 N x i

LL(θc)μc=i=1NΣc1xiNΣc1μc=0NΣc1μc=i=1NΣc1xiNΣc1μc=Σc1i=1NxiNμc=i=1Nxiμc=1Ni=1Nxi
μcLL(θc)=i=1NΣc1xiNΣc1μc=0NΣc1μc=i=1NΣc1xiNΣc1μc=Σc1i=1NxiNμc=i=1Nxiμc=N1i=1Nxi
于是
μ ^ c = 1 N ∑ i = 1 N x i (7.12) \hat{\boldsymbol{\mu}}_{c}=\frac{1}{N} \sum_{i=1}^{N} \boldsymbol{x}_{i} \tag{7.12} μ^c=N1i=1Nxi(7.12)


L L ( θ c ) L L\left(\boldsymbol{\theta}_{c}\right) LL(θc) 关于 Σ c \boldsymbol{\Sigma}_{c} Σc求偏导

∂ L L ( θ c ) ∂ Σ c = ∂ ∂ Σ c [ − N d 2 ln ⁡ ( 2 π ) − N 2 ln ⁡ ∣ Σ c ∣ − 1 2 ∑ i = 1 N ( x i − μ c ) T Σ c − 1 ( x i − μ c ) ] = ∂ ∂ Σ c [ − N 2 ln ⁡ ∣ Σ c ∣ − 1 2 ∑ i = 1 N ( x i − μ c ) T Σ c − 1 ( x i − μ c ) ] = − N 2 ⋅ ∂ ∂ Σ c [ ln ⁡ ∣ Σ c ∣ ] − 1 2 ∑ i = 1 N ∂ ∂ Σ c [ ( x i − μ c ) T Σ c − 1 ( x i − μ c ) ]

LL(θc)Σc=Σc[Nd2ln(2π)N2ln|Σc|12i=1N(xiμc)TΣc1(xiμc)]=Σc[N2ln|Σc|12i=1N(xiμc)TΣc1(xiμc)]=N2Σc[ln|Σc|]12i=1NΣc[(xiμc)TΣc1(xiμc)]
ΣcLL(θc)===Σc[2Ndln(2π)2NlnΣc21i=1N(xiμc)TΣc1(xiμc)]Σc[2NlnΣc21i=1N(xiμc)TΣc1(xiμc)]2NΣc[lnΣc]21i=1NΣc[(xiμc)TΣc1(xiμc)]
由矩阵微分公式 ∂ ∣ X ∣ ∂ X = ∣ X ∣ ⋅ ( X − 1 ) T , ∂ a T X − 1 b ∂ X = − X − T a b T X − T \frac{\partial|\mathbf{X}|}{\partial \mathbf{X}}=|\mathbf{X}| \cdot\left(\mathbf{X}^{-1}\right)^{T},\frac{\partial a^{T} \mathbf{X}^{-1} b}{\partial \mathbf{X}}=-\mathbf{X}^{-T} a b^{T} \mathbf{X}^{-T} XX=X(X1)TXaTX1b=XTabTXT 可得

∂ L L ( θ c ) ∂ Σ c = − N 2 ⋅ 1 ∣ Σ c ∣ ⋅ ∣ Σ c ∣ ⋅ ( Σ c − 1 ) T − 1 2 ∑ i = 1 N [ − Σ c − T ( x i − μ c ) ( x i − μ c ) T Σ c − T ] = − N 2 ⋅ ( Σ c − 1 ) T − 1 2 ∑ i = 1 N [ − Σ c − T ( x i − μ c ) ( x i − μ c ) T Σ c − T ] = − N 2 Σ c − 1 + 1 2 ∑ i = 1 N [ Σ c − 1 ( x i − μ c ) ( x i − μ c ) T Σ c − 1 ]

LL(θc)Σc=N21|Σc||Σc|(Σc1)T12i=1N[ΣcT(xiμc)(xiμc)TΣcT]=N2(Σc1)T12i=1N[ΣcT(xiμc)(xiμc)TΣcT]=N2Σc1+12i=1N[Σc1(xiμc)(xiμc)TΣc1]
ΣcLL(θc)=2NΣc1Σc(Σc1)T21i=1N[ΣcT(xiμc)(xiμc)TΣcT]=2N(Σc1)T21i=1N[ΣcT(xiμc)(xiμc)TΣcT]=2NΣc1+21i=1N[Σc1(xiμc)(xiμc)TΣc1]
令偏导数等于0可得

∂ L L ( θ c ) ∂ Σ c = − N 2 Σ c − 1 + 1 2 ∑ i = 1 N [ Σ c − 1 ( x i − μ c ) ( x i − μ c ) T Σ c − 1 ] = 0 \frac{\partial L L\left(\boldsymbol{\theta}_{c}\right)}{\partial \boldsymbol{\Sigma}_{c}}=-\frac{N}{2} \boldsymbol{\Sigma}_{c}^{-1}+\frac{1}{2} \sum_{i=1}^{N}\left[\boldsymbol{\Sigma}_{c}^{-1}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{T} \boldsymbol{\Sigma}_{c}^{-1}\right]=0 ΣcLL(θc)=2NΣc1+21i=1N[Σc1(xiμc)(xiμc)TΣc1]=0

− N 2 Σ c − 1 = − 1 2 ∑ i = 1 N [ Σ c − 1 ( x i − μ c ) ( x i − μ c ) T Σ c − 1 ] N Σ c − 1 = ∑ i = 1 N [ Σ c − 1 ( x i − μ c ) ( x i − μ c ) T Σ c − 1 ] N Σ c − 1 = Σ c − 1 [ ∑ i = 1 N ( x i − μ c ) ( x i − μ c ) T ] Σ c − 1 N = Σ c − 1 [ ∑ i = 1 N ( x i − μ c ) ( x i − μ c ) T ] Σ c = 1 N ∑ i = 1 N ( x i − μ c ) ( x i − μ c ) T

N2Σc1=12i=1N[Σc1(xiμc)(xiμc)TΣc1]NΣc1=i=1N[Σc1(xiμc)(xiμc)TΣc1]NΣc1=Σc1[i=1N(xiμc)(xiμc)T]Σc1N=Σc1[i=1N(xiμc)(xiμc)T]Σc=1Ni=1N(xiμc)(xiμc)T
2NΣc1=21i=1N[Σc1(xiμc)(xiμc)TΣc1]NΣc1=i=1N[Σc1(xiμc)(xiμc)TΣc1]NΣc1=Σc1[i=1N(xiμc)(xiμc)T]Σc1N=Σc1[i=1N(xiμc)(xiμc)T]Σc=N1i=1N(xiμc)(xiμc)T

于是
Σ ^ c = 1 N ∑ i = 1 N ( x i − μ c ) ( x i − μ c ) T (7.13) \hat{\boldsymbol{\Sigma}}_{c}=\frac{1}{N} \sum_{i=1}^{N}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{T} \tag{7.13} Σ^c=N1i=1N(xiμc)(xiμc)T(7.13)


声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号