赞
踩
大三狗第一次精读论文。随手记录,不喜勿喷。
一个良好的数据增强方式对表征的提取是至关重要的。
不同的数据增强方式会影响正负例的设置,从而会影响我们获取到的表征,也就是我们从原图中获取到的信息。
增加一个非线性的转换器来让对比损失在一个新的latent space中计算。
这种方式可以让表征更多地保留原图的重要信息。
需要一个更大的batch size。
为了提供更加丰富的负例的数量。
作者通过选择多种数据增强方式,并实验绘制了热力图选择了三种重要的数据增强方式。
最为重要的数据增强方式是随机裁剪、随机颜色扰乱、高斯模糊。其中颜色扰乱至关重要。
为什么颜色扰乱如此重要呢?可能是因为神经网络原本并没有提取到图片重要的信息,而是根据色彩风格来进行识别(被神经网络钻空子了)。
数据增强方式如此就确定为:随机裁剪必选,颜色扰乱、高斯模糊两者二选一这样两个增强方式。从而获得Xi和Xj。
然后再通过一个编码器f()将Xi和Xj映射到一个latent space当中,得到想要的表征h(i)。
但损失函数不在这个latent space当中进行计算。
再用一个非线性的转化函数g()将把h映射到一个新的latent space中,得到表征z(i),在这个空间计算损失函数。
为什么在新的latent space当中计算损失函数呢?
作者给出假设:损失函数可能会导致提取出来的表征损失一部分信息。
作者做了一个小实验:他让h(i)和z(i)分别进行预测表征对应的图片的数据增强方式。
结果发现g(h(i))并不能很好地认识表征到底进行了哪种图片数据增强方式,可见z(i)其实损失了一部分数据增强的信息,因此用h(i)作为原图片的表征更加合适。
作者实验发现他的框架得到的表征质量非常高,能够比较好的涵盖原图片的global feature,而不去关注一些噪音。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。