赞
踩
Robust multi-view clustering with incomplete information
作者:Yang, Mouxing and Li, Yunfan and Hu, Peng and Bai, Jinfeng and Lv, Jian Cheng and Peng, Xi
链接:Robust Multi-view Clustering with Incomplete Information | IEEE Journals & Magazine | IEEE Xplore
代码:
多视图聚类(Multi-view Clustering,MvC),目的是从多视图数据中学习到通用的特征表达,然后在这些特征表达上进行聚类——MvC依赖于两个假设(1)视图一致性,如图1(a)和(2)实例完全性——在数据收集和数据传输的过程中,常常会出现数据丢失导致上述两个假设不成立——因此出现了所谓的部分视图未对齐问题(Partially View-unaligned Problem,PVP)和部分样本缺失问题(Partially Sample-missing Problem ,PSP)
别的算法通过现有的视图恢复缺失的视图,来解决PSP问题——与PSP问题不同的是,PVP问题很少收到关注——一个解决PVP问题的方法是使用匈牙利算法(Hungarian algorithm )来对数据进行重新对齐,最后在对齐的数据上进行多视图聚类——有研究将匈牙利算法重新定义为一个神经模块,从而可以同时执行实例级数据对齐和表示学习——但现有方法往往只能单独处理PVP,或者PSP问题,不能同时处理
如图1(d)所示,对于每一个样本,框架目标是将其在类别层级确定交叉视图的对应项,即,在类别层级建立跨视图对应关系。显然,这过程可以很自然的解决PVP问题,并且在进一步探索相关性的过程中同时解决PSP问题。本文将这两个解决方法分别记为类别级对齐(Category-level Alignment ,CA)和类别级归责(Category level Imputation,CI),两者之间的不同之处在于,CA的目标是识别一个对等物,而CI的目标是识别多个对等物。建立相关性之后,CA可以通过将样本和其对应的样本对齐来解决PVP问题(如图1(e)所示);相似的,CI可以通过的个对应样本恢复缺失的样本解决PSP问题
于是,基于上述观察,本文提出了一个同时解决PVP和PSP问题的方法,即robuSt mUlti-view clusteRing with incomplEte information (SURE),目标是学习类别级的相似性和建立跨视图的相关性,通过一个噪音鲁棒的对比学习算法。SURE将对齐的视图当做正样本对,然后在同一个样本的不同视图中随机构建负样本对。但是,这种负样本的构建方法中,会错误的将同一类下的样本视为负样本,即假阴性样本对(false-negative pairs,FNPs)。为了解决假阴性的问题提出了噪音鲁棒的对比损失
(1)提出同时解决PSP和PVP问题的算法
(2)提出了噪音鲁棒的对比损失
多视图聚类
对比学习
含噪标签的学习
作为扩展论文,相比起上文的不同:(1)动机不同(2)损失函数不同(3)模型架构不同
定义1:不完全信息Incomplete Information
对于一个多视图数据集,由和构成,其中,是视图的数目,代表实例的数量,代表没有/有PVP和PSP的数据。
定义2:部分视图未对齐问题Partially View-unaligned Problem (PVP)
当有的时候,数据集是部分对齐的。其中是指示函数,当样本属于同一个实例的时候,函数值为1
定义3:部分视图缺失问题Partially Sample-missing Problem (PSP)
当有的时候, 数据集是部分缺失的,其中是缺失视图的数量
定义4:类别级别识别Category-level Identification
对于样本,目标是使其与类别相同的另一个视图识别,即:
其中,是指示函数,当同属于一个类别的时候,值为1,为每一个类别下的样本数目。
为了减小甚至消除噪音标签的影响,设计了一个噪音鲁棒模块,配上了噪音鲁棒对比损失。为了维持学到的特征的有效性,进一步引入多功能损失,于是全局损失为:
为了减轻假阴性样本对的影响,提出了如下噪音鲁棒的对比损失:
其中代表对比对的数量,对于正/负样本对有。分别由正/负样本进行梯度贡献。
对于一个正样本对,SURE的目标是在潜在空间中,最小化其之间的距离,通过以下公式:
其中分别代表两个针对具体视图进行特征提取的神经网络。
简单地对的优化,会导致模型最后得到琐碎解,于是添加下面的对比项来避免模型崩塌,即:
其中是一个阈值,使得负样本的距离比较的大。将的损失函数结合起来,得到了一个孪生网络的简单损失函数,即:
如图3(a,b)所示,上述的简单损失无法处理含噪音的标签,因为无法区分真/假阴性样本对,最终导致性能下降。为此,添加了FNPs的鲁棒性,提出了如下的噪音鲁棒的对比项,即,
在不同的数据集中,阈值的取值也会有所不同。为了避免繁琐的参数选择,我们提出在初始状态时对每个数据集自适应计算m,即:
其中,分别代表正/负样本的数量。在网络初始化之后只计算一次,并且在训练过程中固定住。
接下来解释为什么提出的 噪音鲁棒对比项 可以防止网络拟合FNPs,甚至逆转错误的优化方向。
画出关于 的损失表面。相比起简单的损失项,可见优化 噪音鲁棒项,不是单调的增加负对的距离
理论1:本文提出的噪音鲁棒项不是单调的
理论2:优化逆转。噪音鲁棒项的梯度方向,比起简单的损失,在的区间中是相反的。
理论3:慢优化。噪音鲁棒项的梯度方向,比起简单的损失,在的区间中梯度下降速度更慢。
根据理论2和3,对于任何的FNPs在的区间里,SURE可以通过逆转梯度来正确的减小距离;在的区间中,SURE可以减小多余的距离增量,避免网络对FNPs的过拟合
值得注意的是,虽然的噪声鲁棒项可以赋予SURE对FNPs的鲁棒性,但它也可能阻碍网络拟合TNPs。为了解决FNPs的鲁棒性和TNPs的优化之间的矛盾,我们采用了两阶段优化方案。在热身阶段,网络使用简单的损失来进行热身学习,直到负样本的距离比要大,导致是对FNPs进行拟合而不是对抗。结果,大量的TNPs会有一个距离,当大多数FNPs落入区间的时候。噪音鲁棒损失主要影响FNPs而不是TNPs。热身阶段结束后,在第二阶段,使用噪声鲁棒的对比损失。在这个阶段中,大部分FNPs会落到或者的范围,它们的距离会下降或是缓慢上升。含噪音的标签的影响会被减小甚至消除。
由于对比学习可能会过分强调视图之间的一致性,我们进一步提出了一个通用的学习模块,以鼓励共同表征也保持充足的信息。
定义5:多视图表示的充分性。对于第个样本,记为其具体视图的特征表达,记为其的通用特征表达。当的时候,是充分的,是通过映射的重构结果
因此,为了保持已学表征的充分性,我们提出了下列通用损失:
其中,是第个视图的解码器,代表concatention操作。
当建立视图之间的相关性之后,在推理阶段,设计两个策略来应对PVP和PSP问题。
定义6:类别层次对齐(Category-level Alignment ,CA)。对于视图的每一个样本,CA将其与其在视图对应的视图对齐,即
定义7:类别层次归责(Category-level Imputation ,CI)。CI通过其对应的伙伴的权值求和,输入缺失视图,
其中,是权重参数,求和为1,是k个可观察对等体的交叉视图和类别内对等体的索引集合,即:
两个损失的效果对比
不同的非对齐策略
缺失率的消融
相比起会议论文,结构不一样,分析过程相似
(1)it is unknown how to simultaneously conquer them using a unifified framework.
(2)The augmented samples of the same instance are defifined as positive, while the others are considered as negative.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。