赞
踩
Bert预训练模型,通过MLM任务的自监督学习,充分挖掘出了模型从海量无标注文本中学习通用知识的能力。而在图像中的预训练通常是有监督的,也就是使用ImageNet来进行预训练,但是在下游中Fine-tune的效果,和bert下游任务中的性能提升是没法比的。
既然在自然语言处理中,自监督无标注数据学习成功了,那么是不是就意味着在图像领域自监督是不是也有可能,从图像领域的有监督向自监督训练的曙光也就是对比学习。
在有监督学习中,标注的数据总是有线的,我们不可能把所有数据都进行标注,这会消耗我们大量的成本,也就是偶像的数据标注。在NLP领域中吸取的经验就是:自监督使用的数据量越多,那么模型能够将会越复杂,这也就意味着相对而言模型学习到的知识是比较丰富的,这样的预训练模型对于夏有任务的效果也将会更好。
基于此,我们的想法就是使用尽可能多的无标注数据来进行自监督学习,从中学习到更加丰富的先验知识,然后在下游任务中来进行微调fine-tune,将预训练学习到的知识迁移到下游任务中,提升下游任务的效果。
基于负例对比学习:以SIMCLR为例
疑问:为什么在表示空间映射时,需要经过两次线性变换,一次线性变换不行吗?
我们在构建好正负例之后,期望的是模型能否将正例之间的距离拉的尽可能的近,对于负例之间的距离推的尽可能的远。这里需要一个度量函数来进行距离的判断,一般使用相似度函数来作为度量函数。一般需要对l2正则后,向量之间的点积或者向量之间cosine相似性,计算公式如下所示:
疑问:为什么一定要做l2正则后再计算相似性?
疑问:为什么在表示空间映射时,需要经过两次线性变换,一次线性变换不行吗?
为什么要进行两次进行线性变换?在最初的特征映射过程中,只有基于Resnet的Encorder编码层,而加入projector之后,模型的效果提升显著。
simCLR最大的贡献在于:1、使用复合图像增强,表明了复合图像增强的重要性;2、在encorder的基础上加入了project实现了两次非线性变换,进一步提取了深层语义信息。通过将以上两点的结合使得对比学习的效果超过了有监督模型效果。
核心思路:
对同一item构建两个表示,使得batch内同一个item距离更近,负样本距离更远。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。