当前位置:   article > 正文

多视角聚类(一)Multi-view clustering on data with partial instances and clusters

multi-view clustering

多视角聚类(一)Multi-view clustering on data with partial instances and clusters

 

Linlin Zong ∗, Xianchao Zhang, Xinyue Liu, Hong Yu Key Laboratory for Ubiquitous Network and Service Software of Liaoning Province, Dalian School of Software, Dalian University of Technology, Dalian, 116620, China

一.文章所主要解决问题

在以往的多视角聚类算法中,一般有如下两个假设:(1)所有实例在所有视角中都出现且它们以同样的方式被索引;(2)所有聚类在所有视角都存在且都是相同实例的子集。

但本文结合真实情景,主要解决两种情况:(1)某些实例可能在某个视角是缺失的;(2)某些聚类在某个视角可能是缺失的。

二.主要思想

1.The MVPIC algorithm

首先在单视角中采用NMF(非负矩阵分解)算法。

U.,k是U的第K列向量,Vj,.是V的第j行向量。每个数据向量xj通过U列的线性组合(被V加权),因此U的每列可以看作是基础向量。如果r代表聚类个数,V的每行便可以看作是实例的指示矩阵。Vj,.的第k个元素便是第j个实例属于第K个聚类的置信度。相当于V的每一行是一个实例,每一列就是一个聚类,第i行第j个元素便是第i个实例在第j个聚类中的置信度。

在第v个视角中,NMF想要最小化的目标函数是:

其中V^v是近似指标矩阵,它的第j行表示在第v个视角的第j个实例;U^v是基矩阵,它的第i列表示第v个视角的第i个聚类的基向量。

2.下面先讨论某些实例在某个视角缺失而聚类在每个视角都是完整的情况:

有目标xi,如果xjv是它在第v个视角的代表,那么xjv就应该近似于Vi.(即V的i行)。

Vi.是未知的,但可以通过第i个实例在每个视角的近似指标矩阵聚合得到。引入一个v视角的权重参数αv0。

,这样便可以得到Vi.。下面引入一个实例-视角指示矩阵Cv:

即只有当xjv是目标xi的代表时C才为1,否则便为0。这样若V视角下xj不存在,则C为0。即C来指示实例是否在v视角里。

所以总的目标函数是:

文中举例:

3.下面讨论实例和聚类都不完整的情况:

引入了一个W参数:

即用W来指示视角v里面是否还有这个聚类。

目标函数是:

这个式子和上面一样,是总的误差。

D表示的是某个目标集在v视角和h视角中都有,所有要使它们之间的差异尽可能小。结合(6),(7)两式就得到总的目标函数:

文中举例到:

如上图,第一聚类和第二聚类在第一视角中都存在,第三聚类和第一聚类在第二视角中都存在。所以第一视角中的目标1和成比例,第二视角的目标1和成比例,通过优化来减小不同视角相同目标之间的差异,我们想使趋近于0.

4.优化

用的就是更新一个数,固定其他数。

三.结语

这篇文章思路还是比较简单,主要亮点就是用类似于分派函数的指示矩阵来判定。如用实例-视角指示矩阵来判定实例是否在视角中,用聚类-视角指示矩阵来判定聚类是否存在视角中,符合真实世界中某些实例或聚类在某个视角可能不存在的情况。

但个人感觉关于数据的残缺其实还是没有做出一个好的补充或解决方案。

 

 

 

 

 

 

 

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/159591
推荐阅读
相关标签
  

闽ICP备14008679号