A Decade’s Battle on Dataset Bias: Are We There Yet_a decade鈥檚 battle on dataset bias: are we there ye

作者：花生_TL007 | 2024-04-06 10:31:42

踩

a decade鈥檚 battle on dataset bias: are we there yet?

一、研究背景
1.由于数据集的重要性，数据偏差也引起了人们的注意。
2.如今的数据集规模更大、更丰富、偏差更小，促使神经网络发现概念、抽象、模式、偏差的能力也随之增强。
3.在大规模数据集上（ImageNet）学习到的神经网络表示是可转移的，因此将预训练表征迁移到下游任务中成为一种常见做法。
4.不同于域自适应任务，数据集分类任务更难以区分。
5.数据集人口、地理偏差存在负面社会影响。

二、研究动机
1.哪怕是用人类难以区分来源的图片或是用自监督训练得到的模型，可以取得极好的数据集分类准确率。
2.扩增样本数量和进行数据增强可以提升数据集分类准确率，这意味着网络通过寻找数据集特有模式（偏差）来进行数据集分类；用无偏数据构建伪造的数据集分类任务时，由于网络只能通过记忆能力进行分类，数据增强和扩充反而会起到负作用。
3.推测：通过数据集分类习得的表征携带者可转移到图像分类任务中的语义信息，因此数据集分类可以促进网络的性能提升。

三、实验结果
1.更大的模型并没有带来更多的收益，更多的数据会提升模型性能，所以模型并没有试图记忆数据（模型规模扩大会使记忆能力增强，更多的数据会使记忆难度提升）；推测通过数据集分类学习到可泛化、可迁移的语义特征。
2.用损坏的图像仍能进行准确的数据集分类，因此数据集分类的能力并不源自人眼不可见的低级特征。
3.捕获数据集偏差的能力可能是深度神经网络固有的，而不是由特定组件引起的。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/371390