赞
踩
每天给你送来NLP技术干货!
来自:SUFE AI Lab
“对比学习是一种自监督学习方法,近年来在图像、文本、语音等领域都取得了惊人的效果,得到了广泛的关注和研究,针对对比学习框架的机理探索也在不断进行中。本文对几篇经典对比学习模型和原理探究论文进行总结分享,希望对读者有所启发。
目前,对比学习框架大多基于数据增强技术,通过不同样本的增强样本间的关系来获得样本的表示。从某种程度上来说,这像是在模拟没有先验知识时人类自发地总结特征的过程,例如从不同的角度分别观察一只猫和一只狗,即使没有关于它们的标签知识,也能逐渐观察出二者的不同。
从机器学习的角度,如何设计对比学习的框架与学习目标是模型效果的关键,接下来我们将介绍三个对比学习模型SimCLR、BYOL以及Barlow Twins,分析它们的特点。
1. 模型框架:
其中:
(1)数据增强:旋转、切割、翻转、变色、模糊等
(2)f(.) ——ResNet-50架构作为ConvNet编码器,输出是2048维向量h。
(3)g(.) ——如图所示,
实验发现,效果上,非线性映射 > 线性映射 > 不映射(即直接用hi hj
(4)损失函数 NT-Xent(归一化的、带温度调整的交叉熵损失),其中sim为余弦相似度。(即infoNCE loss)
2. 主要结果:76.5% top-1 on ImageNet ILSVRC-2012;
ImageNet上仅用 1% 标签微调,得到 85.8% top-5 accuracy
3. 实验细节和发现:
(1)大批量:实验对比了batch size N 从 256 到 8192的效果,发现大的batch size 效果更好,这是因为同批数据越大意味着越多的负样本对,有利于收敛;
(2)数据增强方式:实验发现单独使用一种增强方式并没有很好的效果,多种增强中使用裁剪+颜色失真的组合能够取得最好的效果。实际上多种增强可以视为对原图片的不同特征维度进行了改变,使得原图的特征表示向各个方向进行(短距离的)移动,使得机器更加“认真”地学习表征。例如仅使用裁剪,增强前后的样本虽然边缘形状发生了变化,但在颜色分布上差距不大,导致算法只需要学习颜色分布直方图就可正确分类,特征提取不够充分。
(3)全局批正则(Global Batch Normalization):在训练期间聚合所有设备的BN均值和方差。
1. 模型框架:魔法般的教师-学生框架
(1)与SimCLR相比不需要输入负样本对,因此受batch size和增强选取的影响较小。
(2)使用两种神经网络进行学习:在线网络和目标网络。在线网络比目标网络多了一个预测器θ(也是一个MLP),目标网络的参数ξ不进行梯度更新训练,而是由θ进行移动平均。
(3)loss为回归形式
2. 主要结果: 在标准ResNet-50上达到74.3% top-1,在更大的ResNet上达到79.6%的top-1精度
3. 实验细节和发现:
(1)动机:首先随机初始化一个网络 (它的准确率是 1.4%, 相当于瞎猜), 直接用它当做 target network,然后训练 online network 让它贴近 target network, 当训练结束的时候, online network 的准确率竟然达到了 18.8%。
(2)消融实验中分别研究了是否采用target network、online network中是否包含predictor以及Loss选取的影响,发现在Loss不包含负样本约束的情况下,target network和predictor缺一不可;而在target network和predictor组合使用时,BYOL的Loss比普通对比Loss的效果要好。
1. 模型框架:
本文的灵感来自神经科学家H. Barlow 1961年的文章,他假设感觉处理的目标是将高度冗余的感觉输入重新编码为因子编码(各分量间彼此独立)
模型依然采用“双塔”架构,与其他方法的不同主要在于损失函数
其中是权衡两项之间重要性的常数,是两个样本的网络输出Embeddings计算得到的互相关矩阵
2. 主要结果: 在标准ResNet-50上达到73.2% top-1,半监督任务上1%标签下获得79.2% top-5 精度
3. 实验细节和发现:
(1)Barlow Twins同样不需要负样本对,因此对batch size不敏感,增强方式对其影响较大。
(2)作者总结了本文方法与其他方法的不同之处,例如infoNCE中的对比项可以解释为Embedding分布熵的非参数估计,这种估计在低维情况下更为有效,而本文的是高斯参数化下Embedding分布的代理(proxy)熵估计量,能够从高维表示中获益;BYOL、SIMSIAM模型主要通过引入不对称结构来避免坍缩,而本文直接通过学习目标的设计实现了这一点。
无监督模型的机理探索也是研究人员们十分关心的话题。有人认为,对比学习的两大目标是①不同的原样本有不同的表征②同一原样本增强产生的样本应当有相同的表征。如果Encoder随机初始化之后,就已经会把不同的样本输入投射到特征空间的不同地方,并且投射得足够分散,那它就已经完成了contrastive learning框架中第一个目标。如果上述猜测成立,那么只要在接下来的训练过程中达成contrastive learning框架第二个目标,并且小心翼翼地维护第一个目标不被破坏。在这一点上infoNCE是用样本和Loss直接约束,而BYOL 采用的方法是随机初始化+mean teacher学习。
对于BYOL,有人认为批正则(BN)对于防止模型坍缩至关重要,作者后续的文章中进行了去除图片表示层(Encoder)、投影层(Projector)和预测层(Predictor)中BN的实验,结果表明:去掉所有的BN确实会让模型失效,但仅在Encoder中加入BN就足以使得BYOL取得较好的性能。最后论文作者通过不带BN的适当的初始化实验证明了BN在BYOL中的主要作用是补偿不正确的初始化,而不是隐式地提供负样本。
论文《Understanding the Behaviour of Contrastive Loss》对广泛使用的infoNCE Loss进行了深入分析。
首先,Contrastive Loss
要求正样本对之间的相似度尽可能大,负样本对之间的相似度尽可能小,然而很多损失可以实现这个要求,例如实验发现,所有数据集上Contrastive Loss要远远好于Simple Loss,通过计算损失对不同负样本对的相似度的惩罚梯度可以看出Simple Loss对所有的负样本相似度给予了相同权重的惩罚,而Contrastive Loss则更会自动的给距离更近相似度更高的负样本更多的惩罚,因此它是一个困难样本自发现的损失函数。
更进一步地,作者定义了对第j个负样本的一个相对惩罚强度,形成了一个玻尔兹曼概率分布,而温度系数 决定了此分布的熵。如果我们将由大到小排序,形成一个顺序统计量,那么熵的大小将决定了分布的陡峭程度,如下图所示
即温度系数决定了对比损失对困难负样本的关注程度,温度系数越大,则对各个负样本对的关注比较平均,当温度系数趋于无穷时,Contrastive Loss退化为Simple Loss;而温度系数越小,则越关注与该样本相似度非常大的困难负样本,给予困难负样本更大的梯度使之与正样本分离。
由此作者提出了使用对比损失训练的均匀性-容忍性困境(Uniformity-Tolerance Dilemma),一方面更小的温度系数能加速困难样本的学习,但另一方面,对比学习中没有真正的标签信息,同一batch中往往会出现真实标签相同的样本被当做困难的负样本对进行训练,此时反而会破坏已经学到的语义信息,一个启示是可以尝试动态的温度系数进行训练。
论文《Understanding self-supervised learning with dual deep networks》提出了一种新的分析框架,通过对SimCLR+InfoNCE梯度下降的分析,作者找到了一个在多层ReLU神经网络中,每一层权重随梯度更新的关键矩阵,文中称作协方差算子(covariance operator)。
假设InfoNCE向下传播的梯度是近似常数,虽然协方差算子是随着当前权重的变化而变化的,但在整个训练过程中一直保持半正定。这个结论比较强的地方在于,它不依赖于输入数据的具体分布,也适用于任意的数据增强过程。
作者的另外一大创新点是,引入了数据的生成模型来具体揭示网络的训练过程。主要想法是数据由两组主要的隐变量 z 和 z' 生成,其中 z 和数据的“类标签”相关,在数据增强之后不会发生改变;而z' 则囊括了生成过程中与类标签正交的部分,比如说图像旋转和缩放程度等,在数据增强之后会发生变化。
在不同的生成模型下,协方差算子的行为并不一样,作者主要分析了几种有代表性的情况。首先是最简单的单一神经元的一层网络,和具一维平移不变性的两类物体识别问题,在这种情况下协方差算子有解析解。但有趣的是,只有在神经元是ReLU的情况下,才会利用初始涨落学会并且巩固学到的有效特征。这就显示出了神经网络中非线性变换的重要性。
在此之上,作者进一步分析了一些更复杂的情况,比如说两层ReLU的权重同时训练时,上下两层的协方差算子会产生互动,上层的训练成果会改变下层协方差算子,从而加速了下层的权重学习,这就是多层训练的好处。之后,还分析了一个更加广义的生成模型,即层次式隐变量树模型(Hierarchical Latent Tree Model, HLTM)与多层受限感受野的ReLU网络的互动,发现有相似的结论,并且还能看出来ReLU中间层的神经元,能学到对应的树模型同层隐变量的值,即便这些中间层在SSL训练时,并没有收到任何相关监督信号,这一定程度上揭示了神经网络训练的内部过程。
上述对比学习的经典模型与分析工作既有对人类认知方式的启发式探索,又有从数学理论角度出发的解释性论证。对比学习模型具有多种多样的设计,对该领域的研究也是一个循序渐进的过程。正所谓“实践是检验真理的唯一标准”,对比学习理论和模型未来将在实践中得到越来越广泛的应用与拓展。
◇ Reference:
https://zhuanlan.zhihu.com/p/357071960?ivk_sa=1024320u
https://www.zhihu.com/question/402452508
https://zhuanlan.zhihu.com/p/261412153
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。