赞
踩
Linlin Zong ∗, Xianchao Zhang, Xinyue Liu, Hong Yu Key Laboratory for Ubiquitous Network and Service Software of Liaoning Province, Dalian School of Software, Dalian University of Technology, Dalian, 116620, China
在以往的多视角聚类算法中,一般有如下两个假设:(1)所有实例在所有视角中都出现且它们以同样的方式被索引;(2)所有聚类在所有视角都存在且都是相同实例的子集。
但本文结合真实情景,主要解决两种情况:(1)某些实例可能在某个视角是缺失的;(2)某些聚类在某个视角可能是缺失的。
首先在单视角中采用NMF(非负矩阵分解)算法。
U.,k是U的第K列向量,Vj,.是V的第j行向量。每个数据向量xj通过U列的线性组合(被V加权),因此U的每列可以看作是基础向量。如果r代表聚类个数,V的每行便可以看作是实例的指示矩阵。Vj,.的第k个元素便是第j个实例属于第K个聚类的置信度。相当于V的每一行是一个实例,每一列就是一个聚类,第i行第j个元素便是第i个实例在第j个聚类中的置信度。
在第v个视角中,NMF想要最小化的目标函数是:
其中
有目标xi,如果
,这样便可以得到
即只有当
所以总的目标函数是:
文中举例:
引入了一个W参数:
即用W来指示视角v里面是否还有这个聚类。
目标函数是:
这个式子和上面一样,是总的误差。
D表示的是某个目标集在v视角和h视角中都有,所有要使它们之间的差异尽可能小。结合(6),(7)两式就得到总的目标函数:
文中举例到:
如上图,第一聚类和第二聚类在第一视角中都存在,第三聚类和第一聚类在第二视角中都存在。所以第一视角中的目标1和成比例,第二视角的目标1和成比例,通过优化来减小不同视角相同目标之间的差异,我们想使趋近于0.
用的就是更新一个数,固定其他数。
这篇文章思路还是比较简单,主要亮点就是用类似于分派函数的指示矩阵来判定。如用实例-视角指示矩阵来判定实例是否在视角中,用聚类-视角指示矩阵来判定聚类是否存在视角中,符合真实世界中某些实例或聚类在某个视角可能不存在的情况。
但个人感觉关于数据的残缺其实还是没有做出一个好的补充或解决方案。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。