赞
踩
定义内容:假设有输入空间 X \mathcal{X} X( X ∈ R n \mathcal{X} \in R^n X∈Rn)和特征空间 H \mathcal{H} H(希尔伯特空间),若存在一个从 X \mathcal{X} X到 H \mathcal{H} H的映射 ϕ ( x ) : X → H \phi(x): \mathcal{X} \rightarrow \mathcal{H} ϕ(x):X→H,使得对所有样本 x , z ∈ X x, z \in \mathcal{X} x,z∈X,有函数 K ( x , z ) K(x, z) K(x,z)满足条件 K ( x , z ) = ϕ ( x ) ⋅ ϕ ( z ) K(x, z)=\phi(x) \cdot \phi(z) K(x,z)=ϕ(x)⋅ϕ(z)(内积),则称 K ( x , z ) K(x, z) K(x,z)为核函数, ϕ ( x ) \phi(x) ϕ(x)为映射函数。
核技巧思路:在学习和预测中只定义核函数 K ( x , z ) K(x, z) K(x,z),而不显式地定义映射函数 ϕ ( ⋅ ) \phi(\cdot) ϕ(⋅),因为通常直接计算 K ( x , z ) K(x, z) K(x,z)比较容易,而由 ϕ ( x ) \phi(x) ϕ(x)和 ϕ ( z ) \phi(z) ϕ(z)来计算 K ( x , z ) K(x, z) K(x,z)比较困难( ϕ ( ⋅ ) \phi(\cdot) ϕ(⋅)是输入空间 X \mathcal{X} X到特征空间 H \mathcal{H} H的映射,特征空间一般是高维甚至无穷维的)。此外,对于给定的核函数 K ( x , z ) K(x, z) K(x,z),特征空间 H \mathcal{H} H和映射函数 ϕ ( ⋅ ) \phi(\cdot) ϕ(⋅)的取法不唯一,即便是在同一特征空间内也能取不同的映射。
例:假设输入空间 X ∈ R 2 \mathcal{X} \in R^2 X∈R2,核函数为 K ( x , z ) = ( x ⋅ z ) 2 K(x, z)=(x \cdot z)^2 K(x,z)=(x⋅z)2,试找出其相关的特征空间 H \mathcal{H} H和映射 ϕ ( ⋅ ) : R 2 → H \phi(\cdot): R^2 \rightarrow \mathcal{H} ϕ(⋅):R2→H。
法1:取特征空间
H
=
R
3
\mathcal{H}=R^3
H=R3,记
x
=
(
x
(
1
)
,
x
(
2
)
)
T
x=\left(x^{(1)}, x^{(2)}\right)^{\mathrm{T}}
x=(x(1),x(2))T,
z
=
(
z
(
1
)
,
z
(
2
)
)
T
z=\left(z^{(1)}, z^{(2)}\right)^{\mathrm{T}}
z=(z(1),z(2))T,核函数为
(
x
⋅
z
)
2
=
(
x
(
1
)
z
(
1
)
+
x
(
2
)
z
(
2
)
)
2
=
(
x
(
1
)
z
(
1
)
)
2
+
2
x
(
1
)
z
(
1
)
x
(
2
)
z
(
2
)
+
(
x
(
2
)
z
(
2
)
)
2
(x \cdot z)^2=\left(x^{(1)} z^{(1)}+x^{(2)} z^{(2)}\right)^2=\left(x^{(1)} z^{(1)}\right)^2+2 x^{(1)} z^{(1)} x^{(2)} z^{(2)}+\left(x^{(2)} z^{(2)}\right)^2
(x⋅z)2=(x(1)z(1)+x(2)z(2))2=(x(1)z(1))2+2x(1)z(1)x(2)z(2)+(x(2)z(2))2
所以可以取映射 ϕ ( x ) = ( ( x ( 1 ) ) 2 , 2 x ( 1 ) x ( 2 ) , ( x ( 2 ) ) 2 ) T \phi(x)=\left(\left(x^{(1)}\right)^2, \sqrt{2} x^{(1)} x^{(2)},\left(x^{(2)}\right)^2\right)^{\mathrm{T}} ϕ(x)=((x(1))2,2 x(1)x(2),(x(2))2)T,易验证 ϕ ( x ) ⋅ ϕ ( z ) = ( x ⋅ z ) 2 = K ( x , z ) \phi(x) \cdot \phi(z)=(x \cdot z)^2=K(x, z) ϕ(x)⋅ϕ(z)=(x⋅z)2=K(x,z)。
法2:取 H = R 3 \mathcal{H}=R^3 H=R3以及 ϕ ( x ) = 1 2 ( ( x ( 1 ) ) 2 − ( x ( 2 ) ) 2 , 2 x ( 1 ) x ( 2 ) , ( x ( 1 ) ) 2 + ( x ( 2 ) ) 2 ) T \phi(x)=\frac{1}{\sqrt{2}}\left(\left(x^{(1)}\right)^2-\left(x^{(2)}\right)^2, 2 x^{(1)} x^{(2)},\left(x^{(1)}\right)^2+\left(x^{(2)}\right)^2\right)^{\mathrm{T}} ϕ(x)=2 1((x(1))2−(x(2))2,2x(1)x(2),(x(1))2+(x(2))2)T同样满足条件。
法3:取 H = R 4 \mathcal{H}=R^4 H=R4以及 ϕ ( x ) = ( ( x ( 1 ) ) 2 , x ( 1 ) x ( 2 ) , x ( 1 ) x ( 2 ) , ( x ( 2 ) ) 2 ) T \phi(x)=\left(\left(x^{(1)}\right)^2, x^{(1)} x^{(2)}, x^{(1)} x^{(2)},\left(x^{(2)}\right)^2\right)^T ϕ(x)=((x(1))2,x(1)x(2),x(1)x(2),(x(2))2)T满足条件。
通俗理解:核方法将数据映射到更高维的空间,希望在这个更高维的空间中,数据可以变得更容易分离或更好的结构化。
EM 算法是一种迭代算法,用于含有隐变量(Hidden Variable)的概率参数模型的最大似然估计或极大后验概率估计。其核心思想非常简单,分为两步:Expection-Step(期望步长)和 Maximization-Step(最大化步长)。
由于算法会保证在每次迭代之后似然函数都会增加,所以函数最终会收敛。
数学推导过程:
L ( θ ) = ∑ i = 1 n log p ( x i ; θ ) = ∑ i = 1 n log ∑ z p ( x i , z ; θ ) L(θ)=n∑i=1logp(xi;θ)=n∑i=1log∑zp(xi,z;θ) L(θ)=i=1∑nlogp(xi;θ)=i=1∑nlogz∑p(xi,z;θ)
对于每一个样本
i
i
i,我们用
Q
i
(
z
)
Q_i(z)
Qi(z)表示样本
i
i
i隐含变量
z
z
z的某种分布,且
Q
i
(
z
)
Q_i(z)
Qi(z)满足(
∑
z
Z
Q
i
(
z
)
=
1
,
Q
i
(
z
)
≥
0
\sum_z^Z Q_i(z)=1, \quad Q_i(z) \geq 0
∑zZQi(z)=1,Qi(z)≥0)。则上式可写为:
∑
i
n
log
p
(
x
i
;
θ
)
=
∑
i
n
log
∑
z
p
(
x
i
,
z
;
θ
)
=
∑
i
n
log
∑
z
Z
Q
i
(
z
)
p
(
x
i
,
z
;
θ
)
Q
i
(
z
)
≥
∑
i
n
∑
z
Z
Q
i
(
z
)
log
p
(
x
i
,
z
;
θ
)
Q
i
(
z
)
n∑ilogp(xi;θ)=n∑ilog∑zp(xi,z;θ)=n∑ilogZ∑zQi(z)p(xi,z;θ)Qi(z)≥n∑iZ∑zQi(z)logp(xi,z;θ)Qi(z)
i∑nlogp(xi;θ)=i∑nlogz∑p(xi,z;θ)=i∑nlogz∑ZQi(z)Qi(z)p(xi,z;θ)≥i∑nz∑ZQi(z)logQi(z)p(xi,z;θ)
上面式子中,第一步是求和每个样本的所有可能的类别 z 的联合概率密度函数,但是这一步直接求导非常困难,所以将其分子分母同乘以函数
Q
i
(
z
)
Q_i(z)
Qi(z) ,转换到第二步。从第二步到第三步是利用 Jensen 不等式。
通过上述推导,得到关于 L ( θ ) L(\theta) L(θ)的不等式关系,通过不断提高不等式的右侧,就可以使得 L ( θ ) L(\theta) L(θ)不断提高,达到最大化对数似然函数的目的。
输入:包含n个样本的数据集合,聚类形成的簇的个数k。
算法步骤:
数学过程:
首先确定损失函数为: J = ∑ i = 1 C ∑ j = 1 N r i j ⋅ ν ( x j , μ i ) J=\sum_{i=1}^C \sum_{j=1}^N r_{i j} \cdot \nu\left(x_j, \mu_i\right) J=∑i=1C∑j=1Nrij⋅ν(xj,μi),其中 ν ( x j , μ i ) = ∥ x j − μ i ∥ 2 \nu\left(x_j, \mu_i\right)=\left\|x_j-\mu_i\right\|^2 ν(xj,μi)=∥xj−μi∥2表示样本到各聚类中心的距离, r n k = { 1 if x n ∈ k 0 else r_{n k}= {1 if xn∈k0 else rnk={10 if xn∈k else 用于筛选样本到最近聚类中心的距离。
为了使得损失函数达到极小值,对损失函数求偏导数且等于 0,即 ∂ J ∂ μ k = 2 ∑ i = 1 N r i k ( x i − μ k ) = 0 \frac{\partial J}{\partial \mu_k}=2 \sum_{i=1}^N r_{i k}\left(x_i-\mu_k\right)=0 ∂μk∂J=2∑i=1Nrik(xi−μk)=0,更新所有聚类中心 μ k = ∑ i = 1 N r i k x i ∑ i = 1 N r i k \mu_k=\frac{\sum_{i=1}^N r_{i k} x_i}{\sum_{i=1}^N r_{i k}} μk=∑i=1Nrik∑i=1Nrikxi。
再对所有样本计算到各聚类中心的距离以更新参数 r n k r_{n k} rnk。
重复上述过程即可得到所有类别的中心(K-means 聚类的迭代算法实际上是 EM 算法)。
现有输入空间 X \mathcal{X} X为 { x 1 , x 2 , x 3 , ⋯ , x M } \left\{x^1, x^2, x^3, \cdots, x^M\right\} {x1,x2,x3,⋯,xM}( x i ∈ R n x^i \in R^n xi∈Rn, i = 1 , 2 , ⋯ , M i=1,2,\cdots,M i=1,2,⋯,M),假设依据Mercer定理存在一个从 X \mathcal{X} X到特征空间 H \mathcal{H} H的映射 ϕ ( x ) : X → H \phi(x): \mathcal{X} \rightarrow \mathcal{H} ϕ(x):X→H,使得核函数 K ( x i , x j ) = ϕ ( x i ) ⋅ ϕ ( x j ) K(x^i, x^j)=\phi(x^i) \cdot \phi(x^j) K(xi,xj)=ϕ(xi)⋅ϕ(xj)。KKMC就是讨论特征空间 H \mathcal{H} H里数据集 { ϕ ( x 1 ) , ϕ ( x 2 ) , ϕ ( x 3 ) , ⋯ , ϕ ( x M ) } \left\{\phi(x^1), \phi(x^2), \phi(x^3), \cdots, \phi(x^M)\right\} {ϕ(x1),ϕ(x2),ϕ(x3),⋯,ϕ(xM)}的聚类情况。
与上述理论类似地有损失:
J
=
∑
i
=
1
M
∑
k
=
1
K
r
i
k
⋅
∥
ϕ
(
x
i
)
−
μ
k
∥
2
r
i
k
=
{
1
if
x
i
∈
k
c
l
a
s
s
0
else
J=\sum_{i=1}^M \sum_{k=1}^K r_{i k} \cdot \left\|\phi(x^i)-\mu_k\right\|^2\\ r_{i k}= {1 if xi∈kclass0 else
J=i=1∑Mk=1∑Krik⋅∥∥ϕ(xi)−μk∥∥2rik={10 if xi∈kclass else
初始化:
a
i
k
≥
0
,
(
i
=
1
,
2
,
⋯
,
M
)
,
(
k
=
1
,
2
,
⋯
,
K
)
a_{i k} \geq 0, (i=1,2, \cdots, M),(k=1,2, \cdots, K)
aik≥0,(i=1,2,⋯,M),(k=1,2,⋯,K),其中对于所有类别
k
k
k都有
∑
i
=
1
M
a
i
k
=
1
\sum_{i=1}^M a_{i k}=1
∑i=1Maik=1,计算初始聚类中心:
μ
k
=
∑
i
=
1
M
a
i
k
ϕ
(
x
i
)
,
k
=
1
,
2
,
⋯
,
K
\mu_k=\sum_{i=1}^M a_{i k} \phi\left(x^i\right), k=1,2, \cdots, K
μk=i=1∑Maikϕ(xi),k=1,2,⋯,K
Expection-Step:
计算
r
i
k
r_{i k}
rik:
γ
ˉ
i
k
=
{
1
k
=
=
argmin
j
∥
ϕ
(
x
i
)
−
μ
j
∥
2
0
otherwise
\bar{\gamma}_{i k}=\left\{1k==argminj‖ϕ(xi)−μj‖20 otherwise \right.
γˉik={10k==argminj∥ϕ(xi)−μj∥2 otherwise
其中对映射
ϕ
(
⋅
)
\phi(\cdot)
ϕ(⋅)的计算可以转化为对核函数
K
(
x
i
,
x
j
)
K(x^i, x^j)
K(xi,xj)的计算,具体过程如下:
∥
ϕ
(
x
i
)
−
μ
j
∥
2
=
∥
ϕ
(
x
i
)
−
∑
n
=
1
M
a
n
j
ϕ
(
x
n
)
∥
2
=
K
(
x
i
,
x
i
)
−
2
∑
n
=
1
M
a
n
j
K
(
x
i
,
x
n
)
+
∑
m
,
n
=
1
M
a
m
j
a
n
j
K
(
x
m
,
x
n
)
,
(
j
=
1
,
2
,
⋯
,
K
)
‖ϕ(xi)−μj‖2=‖ϕ(xi)−M∑n=1anjϕ(xn)‖2=K(xi,xi)−2M∑n=1anjK(xi,xn)+M∑m,n=1amjanjK(xm,xn),(j=1,2,⋯,K)
∥ϕ(xi)−μj∥2=∥∥∥∥∥ϕ(xi)−n=1∑Manjϕ(xn)∥∥∥∥∥2=K(xi,xi)−2n=1∑ManjK(xi,xn)+m,n=1∑MamjanjK(xm,xn),(j=1,2,⋯,K)
Maximization-Step:
固定
r
i
k
r_{i k}
rik,计算
a
i
k
a_{i k}
aik:
∂
J
∂
μ
k
=
−
2
∑
i
=
1
M
r
i
k
(
ϕ
(
x
i
)
−
μ
k
)
=
0
,
μ
k
=
∑
i
=
1
M
r
i
k
ϕ
(
x
i
)
∑
i
=
1
M
r
i
k
,
a
i
k
=
r
i
k
∑
i
=
1
M
r
i
k
,
(
k
=
1
,
2
,
⋯
,
K
)
∂J∂μk=−2M∑i=1rik(ϕ(xi)−μk)=0,μk=∑Mi=1rikϕ(xi)∑Mi=1rik,aik=rik∑Mi=1rik,(k=1,2,⋯,K)
∂μk∂J=−2i=1∑Mrik(ϕ(xi)−μk)=0,μk=∑i=1Mrik∑i=1Mrikϕ(xi),aik=∑i=1Mrikrik,(k=1,2,⋯,K)
迭代E-Step和M-Step直至收敛。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。