赞
踩
x x x:从需要被聚类的目标集合中采样的样本
K K K: 聚类中心的个数
R p R^p Rp:聚类的映射空间
R = { r 1 , r 2 … , r K } R=\{r_1,r_2…,r_K\} R={r1,r2…,rK}, r i r_i ri为聚类中心
∀ y ∈ R p \forall y ∈ R^p ∀y∈Rp, c f ( y ; R ) cf (y; R) cf(y;R) 根据度量方式 f 给出 y 最接近的代表表示(gives the closest representative of y according to f).
最终将问题表述如下:
g度量重构损失,f度量聚类损失,上图中两者都为二范数距离
现在,我们引入上述问题的参数化版本,它构成了连续泛化,也就是说,这里考虑的所有函数对于引入的参数都是连续的。
我们首先注意到聚类目标函数可以等价为(即只计算最近的聚类中心的距离):
假设存在函数 G k , f ( h θ ( x ) , α ; R ) G_{k,f} (h_θ(x), α; R) Gk,f(hθ(x),α;R)满足以下条件:
如此就可以对于一个给定的 α使用以下的梯度下降法进行参数更新了:
G
k
,
f
G_{k,f}
Gk,f 可以有多种选择。 本研究中使用的一个简单选择是基于参数化的 softmax 函数。 事实上,softmax 函数可以用作可微分函数argmax 或 argmin 的替代是众所周知的,并且已应用于不同的上下文中,例如最近提出的用于近似分类样本的 Gumbel-softmax 分布[17, 24]。 我们采用的参数化softmax函数采用以下形式(
α
∈
[
0
,
+
∞
)
α ∈ [0, +∞)
α∈[0,+∞)):
实验中使用的数据集是标准的聚类基准集合。我们考虑了图像和文本数据集,以证明我们的方法的普遍适用性。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。