赞
踩
比如箱子里有100个球共两种颜色,其中一种颜色有95个,现在摸出一个球是黑色,那么是黑球95个还是白球95个呢?
具体哪个多当然是不能肯定的,但我们可以知道,大概率是黑球多。
极大似然说人话就是最大概率看起来是这个样子。
极大似然估计的目的是利用已知样本,反推最有可能导致出现这样结果的参数值是多少。
极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
数学解释:
设总体的概率密度函数 (或分布律) 为 f ( y , w 1 , w 2 , … , w k ) , y 1 , y 2 , … , y m f\left(y, w_{1}, w_{2}, \ldots, w_{k}\right), y_{1}, y_{2}, \ldots, y_{m} f(y,w1,w2,…,wk),y1,y2,…,ym 为从该总体中抽出的样本。
因为
y
1
,
y
2
,
…
,
y
m
y_{1}, y_{2}, \ldots, y_{m}
y1,y2,…,ym 相互独立且同分布,于是,它们的联合概率密度函数 (或联合概率) 为
L
(
y
1
,
y
2
,
…
,
y
m
;
w
1
,
w
2
,
…
,
w
k
)
=
∏
i
=
1
m
f
(
y
i
,
w
1
,
w
2
,
…
,
w
k
)
L\left(y_{1}, y_{2}, \ldots, y_{m} ; w_{1}, w_{2}, \ldots, w_{k}\right)=\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)
L(y1,y2,…,ym;w1,w2,…,wk)=i=1∏mf(yi,w1,w2,…,wk)
其中,
w
1
,
w
2
,
…
,
w
k
w_{1}, w_{2}, \ldots, w_{k}
w1,w2,…,wk 被看作固定但是末知的参数。
令
D
c
D_{c}
Dc表示训练集
D
D
D 中第
c
c
c 类样本组成的集合,假设这些样本是独立同分布的,则参数
θ
c
\boldsymbol{\theta}_{c}
θc对于数据集
D
c
D_{c}
Dc的似然(条件概率)是
P
(
D
c
∣
θ
c
)
=
∏
x
∈
D
c
P
(
x
∣
θ
c
)
(7.9)
P\left(D_{c} \mid \boldsymbol{\theta}_{c}\right)=\prod_{\boldsymbol{x} \in D_{c}} P\left(\boldsymbol{x} \mid \boldsymbol{\theta}_{c}\right) \tag{7.9}
P(Dc∣θc)=x∈Dc∏P(x∣θc)(7.9)
当我们已经观测到一组样本观测值时,要去估计末知参数,一种直观的想法就是,哪一组参数值使得现在的样本观测值出现的概率最大, 哪一组参数可能就是真正的参数,我们就用它作为参数的估计值, 这就是所谓的极大似然估计。
对 θ c \boldsymbol{\theta}_{c} θc 进行极大似然估计,就是去寻找能最大化似然 P ( D c ∣ θ c ) P\left(D_{c} \mid \boldsymbol{\theta}_{c}\right) P(Dc∣θc) 的参数值 θ ^ c \hat{\boldsymbol{\theta}}_{c} θ^c
例 1: 假定一个盒子里有白球、黑球共三个,但不知白球和黑球分别有几个。如果有放回的从盒子里抽取三个球, 发现第一个、第三个球是黑色的, 第二个球是白色的。
问:如何估计盒中黑球所占比例 β \beta β ?
参数空间: Θ = { 0 , 1 3 , 2 3 , 1 } \Theta=\left\{0, \frac{1}{3}, \frac{2}{3}, 1\right\} Θ={0,31,32,1} ( β \beta β可能的取值)
样本: 从盒子中有放回的取球,第
i
i
i 次取出的结果记为
X
i
=
{
1
,
Black
0
,
White
(
i
=
1
,
2
,
3
)
X_{i}=\left\{
概率函数:
x
x
x只能取0或1,能概率只能是黑球的概率
β
\beta
β和白球的概率
1
−
β
1-\beta
1−β
f
(
x
)
=
β
x
(
1
−
β
)
1
−
x
f(x)=\beta^{x}(1-\beta)^{1-x}
f(x)=βx(1−β)1−x
联合概率函数:
(
X
1
,
X
2
,
X
3
)
\left(X_{1}, X_{2}, X_{3}\right)
(X1,X2,X3) 的联合概率函数为
L
(
x
1
,
x
2
,
x
3
;
β
)
=
β
x
1
+
x
2
+
x
3
(
1
−
β
)
3
−
(
x
1
+
x
2
+
x
3
)
L\left(x_{1}, x_{2}, x_{3} ; \beta\right)=\beta^{x_{1}+x_{2}+x_{3}}(1-\beta)^{3-\left(x_{1}+x_{2}+x_{3}\right)}
L(x1,x2,x3;β)=βx1+x2+x3(1−β)3−(x1+x2+x3)
似然函数:
(
X
1
,
X
2
,
X
3
)
\left(X_{1}, X_{2}, X 3\right)
(X1,X2,X3) 对应的结果为“第一个、第三个球是黑色 的, 第二个球是白色的”, 即
x
1
=
x
3
=
1
,
x
2
=
0
x_{1}=x_{3}=1, x_{2}=0
x1=x3=1,x2=0
L
(
β
)
=
β
2
(
1
−
β
)
L(\beta)=\beta^{2}(1-\beta)
L(β)=β2(1−β)
参数求解:在参数空间中寻找使观测值出现的概率最大的那个参数
极大似然估计:
β
^
=
2
3
\hat{\beta}=\frac{2}{3}
β^=32
但是很多时候我们的参数空间可能很多甚至无限,这时就不能用上面这种方法了。
于是可爱的数学家就推导出了直接通过似然函数求解的方法。
当似然函数
L
(
θ
)
L(\theta)
L(θ)可微时, 可通过使方程组偏导为0,从而求得极大值点。
∂
L
(
θ
)
∂
θ
1
=
0
,
∂
L
(
θ
)
∂
θ
2
=
0
,
⋯
,
∂
L
(
θ
)
∂
θ
m
=
0
\frac{\partial L(\theta)}{\partial \theta_{1}}=0, \frac{\partial L(\theta)}{\partial \theta_{2}}=0, \cdots, \frac{\partial L(\theta)}{\partial \theta_{m}}=0
∂θ1∂L(θ)=0,∂θ2∂L(θ)=0,⋯,∂θm∂L(θ)=0
为了方便计算,可以通过对数似然函数
ln
L
(
θ
)
\ln L(\theta)
lnL(θ) 求解
θ
^
\hat{\theta}
θ^ 也是
ln
L
(
θ
)
\ln L(\theta)
lnL(θ) 的最大值点
L
L
(
θ
c
)
=
ln
P
(
D
c
∣
θ
c
)
=
∑
x
∈
D
c
ln
P
(
x
∣
θ
c
)
,
∂ ln L ( θ ) ∂ θ 1 = 0 , ∂ ln L ( θ ) ∂ θ 2 = 0 , ⋯ , ∂ ln L ( θ ) ∂ θ m = 0 \frac{\partial \ln L(\theta)}{\partial \theta_{1}}=0, \frac{\partial \ln L(\theta)}{\partial \theta_{2}}=0, \cdots, \frac{\partial \ln L(\theta)}{\partial \theta_{m}}=0 ∂θ1∂lnL(θ)=0,∂θ2∂lnL(θ)=0,⋯,∂θm∂lnL(θ)=0
例 2:在学概率论正态分布时老师一般会直接说 μ \mu μ为正态分布样本的均值, δ \delta δ 为样本方差,而我们也不懂为啥是,这里用极大似然估计来证明一下。
样本
X
X
X服从正态分布:
f
(
x
,
μ
,
δ
)
=
1
2
π
δ
exp
{
−
(
x
−
μ
)
2
2
δ
}
f(x, \mu, \delta)=\frac{1}{\sqrt{2 \pi \delta}} \exp \left\{-\frac{(x-\mu)^{2}}{2 \delta}\right\}
f(x,μ,δ)=2πδ
1exp{−2δ(x−μ)2}
其中,
δ
=
σ
2
∈
(
0
,
∞
)
,
μ
∈
(
−
∞
,
∞
)
\delta=\sigma^{2} \in(0, \infty), \mu \in(-\infty, \infty)
δ=σ2∈(0,∞),μ∈(−∞,∞) 这时就有无穷多取值了,就不能列举了。
似然函数
L
(
x
1
,
⋯
,
x
N
;
μ
,
δ
)
=
(
1
2
π
δ
)
N
exp
{
−
∑
i
=
1
N
(
x
i
−
μ
)
2
2
δ
}
L\left(x_{1}, \cdots, x_{N} ; \mu, \delta\right)=\left(\frac{1}{\sqrt{2 \pi \delta}}\right)^{N} \exp \left\{-\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{2 \delta}\right\}
L(x1,⋯,xN;μ,δ)=(2πδ
1)Nexp{−2δ∑i=1N(xi−μ)2}
对数似然函数
ln
L
(
μ
,
δ
)
=
−
N
2
ln
(
2
π
)
−
N
2
ln
δ
−
1
2
δ
∑
i
=
1
N
(
x
i
−
μ
)
2
\ln L(\mu, \delta)=-\frac{N}{2} \ln (2 \pi)-\frac{N}{2} \ln \delta-\frac{1}{2 \delta} \sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}
lnL(μ,δ)=−2Nln(2π)−2Nlnδ−2δ1i=1∑N(xi−μ)2
对数似然函数求偏导,得到方程组:
{
∂
ln
L
∂
μ
=
1
δ
∑
i
=
1
N
(
x
i
−
μ
)
=
0
∂
ln
L
∂
δ
=
−
n
2
δ
+
1
2
δ
2
∑
i
=
1
N
(
x
i
−
μ
)
2
=
0
(
i
=
1
,
2
,
⋯
,
N
)
极大似然估计:
μ
^
=
1
N
∑
i
=
1
N
x
i
=
x
ˉ
,
δ
^
=
1
N
∑
i
=
1
N
(
x
i
−
x
ˉ
)
2
\hat{\mu}=\frac{1}{N} \sum_{i=1}^{N} x_{i}=\bar{x}, \quad \hat{\delta}=\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}-\bar{x}\right)^{2}
μ^=N1i=1∑Nxi=xˉ,δ^=N1i=1∑N(xi−xˉ)2
μ
\mu
μ为正态分布样本的均值,
δ
\delta
δ 为样本的方差,与我们概率论上学的一样。
当然一般情况下 x x x是多维的,我们需要用多元正态分布,这里拔高一下尝试对多元正态分布的参数进行似然估计
在连续属性情形下,假设概率密度函数 p ( x ∣ c ) ∼ N ( μ c , σ c 2 ) p(\boldsymbol{x} \mid c) \sim \mathcal{N}\left(\boldsymbol{\mu}_{c},\boldsymbol{\sigma}_{c}^{2}\right) p(x∣c)∼N(μc,σc2)
假设概率密度函数
p
(
x
∣
c
)
∼
N
(
μ
c
,
σ
c
2
)
p(\boldsymbol{x} | c) \sim \mathcal{N}\left(\boldsymbol{\mu}_{c},\boldsymbol{\sigma}_{c}^{2}\right)
p(x∣c)∼N(μc,σc2),其等价于假设
P
(
x
∣
θ
c
)
=
P
(
x
∣
μ
c
,
σ
c
2
)
=
1
(
2
π
)
d
∣
Σ
c
∣
exp
(
−
1
2
(
x
−
μ
c
)
T
Σ
c
−
1
(
x
−
μ
c
)
)
P\left(\boldsymbol{x} | \boldsymbol{\theta}_{c}\right)=P\left(\boldsymbol{x} | \boldsymbol{\mu}_{c}, \boldsymbol{\sigma}_{c}^{2}\right)=\frac{1}{\sqrt{(2 \pi)^{d}|\boldsymbol{\Sigma}_c|}} \exp \left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_c)^{\mathrm{T}} \boldsymbol{\Sigma}_c^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_c)\right)
P(x∣θc)=P(x∣μc,σc2)=(2π)d∣Σc∣
1exp(−21(x−μc)TΣc−1(x−μc))
这是多元正态分布,其中,
d
d
d表示
x
\boldsymbol{x}
x的维数,一元正态分布中
σ
2
\boldsymbol{\sigma}^{2}
σ2为方差,多元中
Σ
c
=
σ
c
2
\boldsymbol{\Sigma}_c=\boldsymbol{\sigma}_{c}^{2}
Σc=σc2为对称正定协方差矩阵,
∣
Σ
c
∣
|\boldsymbol{\Sigma}_c|
∣Σc∣表示
Σ
c
\boldsymbol{\Sigma}_c
Σc的行列式。将其代入参数求解公式可得:
(
μ
^
c
,
Σ
^
c
)
=
arg
min
(
μ
c
,
Σ
c
)
−
∑
x
∈
D
c
log
[
1
(
2
π
)
d
∣
Σ
c
∣
exp
(
−
1
2
(
x
−
μ
c
)
T
Σ
c
−
1
(
x
−
μ
c
)
)
]
=
arg
min
(
μ
c
,
Σ
c
)
∑
i
=
1
N
ln
[
1
(
2
π
)
d
⋅
1
∣
Σ
c
∣
⋅
exp
(
−
1
2
(
x
i
−
μ
c
)
T
Σ
c
−
1
(
x
i
−
μ
c
)
)
]
=
arg
min
(
μ
c
,
Σ
c
)
∑
i
=
1
N
{
ln
1
(
2
π
)
d
+
ln
1
∣
Σ
c
∣
+
ln
[
exp
(
−
1
2
(
x
i
−
μ
c
)
T
Σ
c
−
1
(
x
i
−
μ
c
)
)
]
}
=
arg
min
(
μ
c
,
Σ
c
)
∑
i
=
1
N
[
d
2
log
(
2
π
)
+
1
2
log
∣
Σ
c
∣
+
1
2
(
x
−
μ
c
)
T
Σ
c
−
1
(
x
i
−
μ
c
)
]
=
arg
min
(
μ
c
,
Σ
c
)
−
N
d
2
ln
(
2
π
)
−
N
2
ln
∣
Σ
c
∣
−
1
2
∑
i
=
1
N
(
x
i
−
μ
c
)
T
Σ
c
−
1
(
x
i
−
μ
c
)
由于参数
θ
c
\boldsymbol{\theta}_{c}
θc 的极大似然估计
θ
^
c
\hat{\boldsymbol{\theta}}_{c}
θ^c为
θ
^
c
=
arg
max
θ
c
L
L
(
θ
c
)
\hat{\boldsymbol{\theta}}_{c}=\underset{\boldsymbol{\theta}_{c}}{\arg \max } L L\left(\boldsymbol{\theta}_{c}\right)
θ^c=θcargmaxLL(θc)
所以接来下只需要求出使得对数似然函数
L
L
(
θ
c
)
LL\left(\boldsymbol{\theta}_{c}\right)
LL(θc) 取到最大值的
μ
^
c
和
Σ
^
c
\hat{\boldsymbol{\mu}}_{c} 和 \hat{\boldsymbol{\Sigma}}_{c}
μ^c和Σ^c ,也就求出了
θ
^
c
\hat{\boldsymbol{\theta}}_{c}
θ^c
要求最值肯定要求偏导
对
L
L
(
θ
c
)
L L\left(\boldsymbol{\theta}_{c}\right)
LL(θc) 关于
μ
c
\boldsymbol{\mu}_{c}
μc求偏导
∂
L
L
(
θ
c
)
∂
μ
c
=
∂
∂
μ
c
[
−
N
d
2
ln
(
2
π
)
−
N
2
ln
∣
Σ
c
∣
−
1
2
∑
i
=
1
N
(
x
i
−
μ
c
)
T
Σ
c
−
1
(
x
i
−
μ
c
)
]
=
∂
∂
μ
c
[
−
1
2
∑
i
=
1
N
(
x
i
−
μ
c
)
T
Σ
c
−
1
(
x
i
−
μ
c
)
]
=
−
1
2
∑
i
=
1
N
∂
∂
μ
c
[
(
x
i
−
μ
c
)
T
Σ
c
−
1
(
x
i
−
μ
c
)
]
=
−
1
2
∑
i
=
1
N
∂
∂
u
−
[
(
x
i
T
−
μ
c
T
)
Σ
c
−
1
(
x
i
−
μ
c
)
]
=
−
1
2
∑
i
=
1
N
∂
∂
μ
c
[
(
x
i
T
−
μ
c
T
)
(
Σ
c
−
1
x
i
−
Σ
c
−
1
μ
c
)
]
=
−
1
2
∑
i
=
1
N
∂
∂
μ
c
[
x
i
T
Σ
c
−
1
x
i
−
x
i
T
Σ
c
−
1
μ
c
−
μ
c
T
Σ
c
−
1
x
i
+
μ
c
T
Σ
c
−
1
μ
c
]
由于
x
i
T
Σ
c
−
1
μ
c
\boldsymbol{x}_{i}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}
xiTΣc−1μc 的计算结果为标量,标量的转置还是标量,由于所
Σ
c
\Sigma_{c}
Σc是对称矩阵,转置等于其自身,所以
x
i
T
Σ
c
−
1
μ
c
=
(
x
i
T
Σ
c
−
1
μ
c
)
T
=
μ
c
T
(
Σ
c
−
1
)
T
x
i
=
μ
c
T
(
Σ
c
T
)
−
1
x
i
=
μ
c
T
Σ
c
−
1
x
i
\boldsymbol{x}_{i}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}=\left(\boldsymbol{x}_{i}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}\right)^{T}=\boldsymbol{\mu}_{c}^{T}\left(\boldsymbol{\Sigma}_{c}^{-1}\right)^{T} \boldsymbol{x}_{i}=\boldsymbol{\mu}_{c}^{T}\left(\boldsymbol{\Sigma}_{c}^{T}\right)^{-1} \boldsymbol{x}_{i}=\boldsymbol{\mu}_{c}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{x}_{i}
xiTΣc−1μc=(xiTΣc−1μc)T=μcT(Σc−1)Txi=μcT(ΣcT)−1xi=μcTΣc−1xi
于是上式可以进一步化为
∂ L L ( θ c ) ∂ μ c = − 1 2 ∑ i = 1 N ∂ ∂ μ c [ x i T Σ c − 1 x i − 2 x i T Σ c − 1 μ c + μ c T Σ c − 1 μ c \frac{\partial L L\left(\boldsymbol{\theta}_{c}\right)}{\partial \boldsymbol{\mu}_{c}}=-\frac{1}{2} \sum_{i=1}^{N} \frac{\partial}{\partial \boldsymbol{\mu}_{c}}\left[\boldsymbol{x}_{i}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{x}_{i}-2 \boldsymbol{x}_{i}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}+\boldsymbol{\mu}_{c}^{T} \boldsymbol{\Sigma}_{c}^{-1} \boldsymbol{\mu}_{c}\right. ∂μc∂LL(θc)=−21i=1∑N∂μc∂[xiTΣc−1xi−2xiTΣc−1μc+μcTΣc−1μc
由矩阵微分公式
∂
a
T
x
∂
x
=
a
,
∂
x
T
B
x
∂
x
=
(
B
+
B
T
)
x
\frac{\partial a^{T} x}{\partial x}=a,\frac{\partial x^{T} B x}{\partial x}=\left(B+B^{T}\right) x
∂x∂aTx=a,∂x∂xTBx=(B+BT)x 可得
∂
L
L
(
θ
c
)
∂
μ
c
=
−
1
2
∑
i
=
1
N
[
0
−
(
2
x
i
T
Σ
c
−
1
)
T
+
(
Σ
c
−
1
+
(
Σ
c
−
1
)
T
)
μ
c
]
=
−
1
2
∑
i
=
1
N
[
−
(
2
(
Σ
c
−
1
)
T
x
i
)
+
(
Σ
c
−
1
+
(
Σ
c
−
1
)
T
)
μ
c
]
=
−
1
2
∑
i
=
1
N
[
−
(
2
Σ
c
−
1
x
i
)
+
2
Σ
c
−
1
μ
c
]
=
∑
i
=
1
N
Σ
c
−
1
x
i
−
N
Σ
c
−
1
μ
c
令偏导数等于0可得
∂
L
L
(
θ
c
)
∂
μ
c
=
∑
i
=
1
N
Σ
c
−
1
x
i
−
N
Σ
c
−
1
μ
c
=
0
N
Σ
c
−
1
μ
c
=
∑
i
=
1
N
Σ
c
−
1
x
i
N
Σ
c
−
1
μ
c
=
Σ
c
−
1
∑
i
=
1
N
x
i
N
μ
c
=
∑
i
=
1
N
x
i
μ
c
=
1
N
∑
i
=
1
N
x
i
于是
μ
^
c
=
1
N
∑
i
=
1
N
x
i
(7.12)
\hat{\boldsymbol{\mu}}_{c}=\frac{1}{N} \sum_{i=1}^{N} \boldsymbol{x}_{i} \tag{7.12}
μ^c=N1i=1∑Nxi(7.12)
对 L L ( θ c ) L L\left(\boldsymbol{\theta}_{c}\right) LL(θc) 关于 Σ c \boldsymbol{\Sigma}_{c} Σc求偏导
∂
L
L
(
θ
c
)
∂
Σ
c
=
∂
∂
Σ
c
[
−
N
d
2
ln
(
2
π
)
−
N
2
ln
∣
Σ
c
∣
−
1
2
∑
i
=
1
N
(
x
i
−
μ
c
)
T
Σ
c
−
1
(
x
i
−
μ
c
)
]
=
∂
∂
Σ
c
[
−
N
2
ln
∣
Σ
c
∣
−
1
2
∑
i
=
1
N
(
x
i
−
μ
c
)
T
Σ
c
−
1
(
x
i
−
μ
c
)
]
=
−
N
2
⋅
∂
∂
Σ
c
[
ln
∣
Σ
c
∣
]
−
1
2
∑
i
=
1
N
∂
∂
Σ
c
[
(
x
i
−
μ
c
)
T
Σ
c
−
1
(
x
i
−
μ
c
)
]
由矩阵微分公式
∂
∣
X
∣
∂
X
=
∣
X
∣
⋅
(
X
−
1
)
T
,
∂
a
T
X
−
1
b
∂
X
=
−
X
−
T
a
b
T
X
−
T
\frac{\partial|\mathbf{X}|}{\partial \mathbf{X}}=|\mathbf{X}| \cdot\left(\mathbf{X}^{-1}\right)^{T},\frac{\partial a^{T} \mathbf{X}^{-1} b}{\partial \mathbf{X}}=-\mathbf{X}^{-T} a b^{T} \mathbf{X}^{-T}
∂X∂∣X∣=∣X∣⋅(X−1)T,∂X∂aTX−1b=−X−TabTX−T 可得
∂
L
L
(
θ
c
)
∂
Σ
c
=
−
N
2
⋅
1
∣
Σ
c
∣
⋅
∣
Σ
c
∣
⋅
(
Σ
c
−
1
)
T
−
1
2
∑
i
=
1
N
[
−
Σ
c
−
T
(
x
i
−
μ
c
)
(
x
i
−
μ
c
)
T
Σ
c
−
T
]
=
−
N
2
⋅
(
Σ
c
−
1
)
T
−
1
2
∑
i
=
1
N
[
−
Σ
c
−
T
(
x
i
−
μ
c
)
(
x
i
−
μ
c
)
T
Σ
c
−
T
]
=
−
N
2
Σ
c
−
1
+
1
2
∑
i
=
1
N
[
Σ
c
−
1
(
x
i
−
μ
c
)
(
x
i
−
μ
c
)
T
Σ
c
−
1
]
令偏导数等于0可得
∂ L L ( θ c ) ∂ Σ c = − N 2 Σ c − 1 + 1 2 ∑ i = 1 N [ Σ c − 1 ( x i − μ c ) ( x i − μ c ) T Σ c − 1 ] = 0 \frac{\partial L L\left(\boldsymbol{\theta}_{c}\right)}{\partial \boldsymbol{\Sigma}_{c}}=-\frac{N}{2} \boldsymbol{\Sigma}_{c}^{-1}+\frac{1}{2} \sum_{i=1}^{N}\left[\boldsymbol{\Sigma}_{c}^{-1}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{T} \boldsymbol{\Sigma}_{c}^{-1}\right]=0 ∂Σc∂LL(θc)=−2NΣc−1+21i=1∑N[Σc−1(xi−μc)(xi−μc)TΣc−1]=0
−
N
2
Σ
c
−
1
=
−
1
2
∑
i
=
1
N
[
Σ
c
−
1
(
x
i
−
μ
c
)
(
x
i
−
μ
c
)
T
Σ
c
−
1
]
N
Σ
c
−
1
=
∑
i
=
1
N
[
Σ
c
−
1
(
x
i
−
μ
c
)
(
x
i
−
μ
c
)
T
Σ
c
−
1
]
N
Σ
c
−
1
=
Σ
c
−
1
[
∑
i
=
1
N
(
x
i
−
μ
c
)
(
x
i
−
μ
c
)
T
]
Σ
c
−
1
N
=
Σ
c
−
1
[
∑
i
=
1
N
(
x
i
−
μ
c
)
(
x
i
−
μ
c
)
T
]
Σ
c
=
1
N
∑
i
=
1
N
(
x
i
−
μ
c
)
(
x
i
−
μ
c
)
T
于是
Σ
^
c
=
1
N
∑
i
=
1
N
(
x
i
−
μ
c
)
(
x
i
−
μ
c
)
T
(7.13)
\hat{\boldsymbol{\Sigma}}_{c}=\frac{1}{N} \sum_{i=1}^{N}\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)\left(\boldsymbol{x}_{i}-\boldsymbol{\mu}_{c}\right)^{T} \tag{7.13}
Σ^c=N1i=1∑N(xi−μc)(xi−μc)T(7.13)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。