赞
踩
arxiv [Submitted on 13 Mar 2024]
链接:[2403.08632] A Decade’s Battle on Dataset Bias: Are We There Yet? (arxiv.org)
作者重新审视了Torralba和Efros在十年前提出的“数据集分类”实验,在新时代有了大规模、多样化、希望更少偏见的数据集以及更强大的神经网络架构。令人惊讶的是,作者观察到现代神经网络在分类图像来自哪个数据集方面可以达到出色的准确性:例如,作者报告了由YFCC, CC和DataComp数据集组成的三方分类问题的持有验证数据的准确率为84.7%。进一步的实验表明,这样的数据集分类器可以学习到可泛化和可转移的语义特征,这不能简单地用记忆来解释。作者希望他们的发现能够激励社区重新思考涉及数据集偏差和模型能力的问题。
2011年,Torralba和Efros在深度学习革命开始之前呼吁在社区中与数据集偏见作斗争。在接下来的十年里,构建多样化、大规模、全面且希望较少偏见的数据集的进展一直是推动深度学习革命的引擎。与此同时,算法的进步,特别是神经网络架构,在从数据中发现概念、抽象和模式(包括偏差)方面已经达到了前所未有的水平。在这项工作中,经过长达十年的斗争,我们重新“无偏见地看待数据集偏差”。作者的研究是由建立较少偏差的数据集与开发更有能力的模型之间的紧张关系驱动的——后者在Torralba和Efros论文发表时并不那么突出。虽然减少数据偏差的努力可能会带来进步,但先进模型的发展可能会更好地利用数据集偏差,从而抵消前景。作者的研究是基于一个虚构的任务,称之为数据集分类,这是也就是“Name That dataset”实验(图1)。具体来说,我们从几个数据集中随机抽取大量(例如,多达一百万)的图像,并在它们的联合上训练神经网络来分类图像是从哪个数据集中提取的。作者实验的数据集大概是最多样化的,最大的,在野外未经整理的数据集,从互联网上收集。例如,我们研究的一个典型组合被称为“YCD”,它由来自YFCC、CC和DataComp的图像组成,并提出了一个3-way数据集分类问题。
图1:你能分清下面的图片来自不同的数据集吗?
令作者(以及许多最初的读者,包括我)惊讶的是,现代神经网络可以在这样的数据集分类任务上取得出色的准确性。在前面提到的对人类具有挑战性的YCD集(图1)中进行训练,模型可以在持有的验证数据上实现>84%的分类准确率,而随便蒙一个猜测的准确率为33.3%。这种观察结果在大量不同的数据集组合和不同代的架构上具有高度鲁棒性,在大多数情况下实现了非常高的准确性(例如,超过80%)。有趣的是,对于这样一个数据集分类任务,作者有一系列类似于在语义分类任务(例如,对象分类)中观察到的观察结果。例如,作者观察到,在更多的样本上训练数据集分类器,或者使用更强的数据增强,可以提高持有验证数据的准确性,即使训练任务变得更加困难。这类似于语义分类任务中的泛化行为。这种行为表明,神经网络试图发现数据集特定的模式——一种偏差形式——来解决数据集分类任务。进一步的实验表明,通过分类数据集学习到的表示带有一些可转移到图像分类任务的语义信息。
作为比较,如果不同数据集的样本无偏地来自同一分布,则模型应该不会发现任何特定于数据集的偏差。为了验证这一点,作者研究了一个伪数据集分类任务,其中不同的“数据集”从单个数据集中统一采样。作者观察到这个分类任务很快变得难以处理,因为分类器处理这个任务的唯一方法是记住每个单独的实例及其子集身份。因此,增加样本数量,或使用更强的数据增强,使记忆在实验中更加困难或棘手。没有观察到可转移性。这些行为与真实的数据集分类任务明显相反。
更令人惊讶的是,作者观察到,即使是自监督学习模型也能够捕获不同数据集之间的某些偏差。具体来说,在不同数据集的联合上预训练一个自监督模型,而不使用任何数据集标识作为标签。然后,冻结预训练的表征,作者为数据集分类任务训练一个线性分类器。虽然这个线性层是唯一可以通过数据集标识标签进行调整的层,但该模型仍然可以实现令人惊讶的高准确率(例如78%)的数据集分类。这种迁移学习行为类似于典型的自监督学习方法(例如图像分类)的行为。
总之,作者报告现代神经网络惊人地能够从不同的数据集中发现隐藏的偏见。这一观察结果甚至适用于现代数据集,这些数据集非常庞大、多样、未经整理,可能也不那么有偏见。神经网络可以通过发现可推广的模式(即,从训练数据推广到验证数据,或下游任务)来解决这个任务,表现出类似于在语义分类任务中观察到的行为。与十年前Torralba和Efros的论文中的“Name That Dataset”游戏相比,考虑到今天强大的神经网络,这个游戏甚至变得容易得多。从这个意义上说,涉及数据集偏差的问题并没有得到缓解。作者希望能够激发社区中关于数据集偏差与不断改进的模型之间关系的新讨论。
Pre-dataset 【数据集前】时代。“数据集”的概念并不是在计算机视觉研究的历史上直接出现的。在计算机出现之前(例如,参见Helmholtz在19世纪60年代的书),科学家们已经认识到“测试样本”的必要性,当时通常被称为“刺激”,以检查他们关于人类视觉系统的计算模型。刺激通常由合成的图案组成,如线条、条纹和斑点。使用合成模式的实践在计算机视觉的早期工作中得到了遵循。在引入数码照片设备后,研究人员立即能够在一张或极少数真实世界的图像上验证和证明他们的算法。例如,Cameraman图像自1978年以来一直作为图像处理研究的标准测试图像。使用数据(不被普遍称为“数据集”)来评估计算机视觉算法的概念是由社区逐渐形成的。
Datasets for Task Definition【任务定义的数据集】。随着机器学习方法引入计算机视觉社区,“数据集”的概念变得更加清晰。除了用于验证目的的数据外,机器学习的应用还引入了训练数据的概念,算法可以从中优化其模型参数。因此,将训练数据和验证数据放在一起,本质上定义了感兴趣的任务。例如,MNIST数据集定义了一个10位数的分类任务;Caltech-101数据集定义了101个对象类别的图像分类任务;PASCAL VOC数据集套件定义了20个对象类别的分类、检测和分割任务。为了激励更有能力的算法,定义了更具挑战性的任务,尽管不一定是日常生活中更感兴趣的任务。这类最值得注意的例子是ImageNet数据集,这可能会让今天的读者感到惊讶。ImageNet拥有超过100万张图像,其中定义了1000个类(其中许多是细粒度的动物物种),即使对于普通人来说,这也不是微不足道的。在ImageNet被提出的时候,解决这个任务的算法似乎很繁琐。,主办方提供了预先计算好的SIFT特征,以方便人们研究这一问题,当时的典型方法可能训练1000个SVM分类器,这本身就是一个非平凡问题。如果ImageNet仍然是一个独立的任务,我们将无法见证深度学习的革命。
但一种模式的转变正在等待着我们。
Datasets for Representation Learning【表征学习的数据集】。就在2012年深度学习革命之后,社区很快发现,在像ImageNet这样的大规模数据集上学习的神经网络表示是可转移的。这一发现带来了计算机视觉的范式转变:在ImageNet上预训练表征并将其转移到下游任务中成为一种常见的做法。因此,ImageNet数据集不再是一个独立的任务;它成为了我们想要表现的普遍视觉世界的一个针孔。因此,过去繁琐的方面成为了这个数据集的优势:它比当时大多数(如果不是全部)其他数据集拥有更多的图像和更多样化的类别,并且经验证明,这些属性对于学习良好的表示非常重要。受到ImageNet巨大成功的鼓舞,社区开始追求更通用、更理想的通用视觉表示。为了构建更大、更多样化、更少偏见的数据集,人们付出了巨大的努力。例子包括YFCC100M、CC12M和DataComp-1B——作者在本文中研究的主要数据集。有趣的是,这些数据集的构建并不总是定义一个感兴趣的任务来解决;实际上,许多这些大规模数据集甚至没有提供训练/验证集的分割。这些数据集是基于预训练的目标而构建的
On Dataset Bias【关于数据集偏差】。鉴于数据集的重要性日益增加,数据集引入的偏见已经引起了社区的注意。Torralba和Efros提出了数据集分类问题,并使用SVM分类器在手工制作特征的背景下检查了数据集偏差。Tommasi等人使用神经网络研究了数据集分类问题,特别关注具有预训练ConvNet特征的线性分类器。他们研究的数据集规模更小,与今天的网络规模数据相比也更简单。在领域自适应方法中,对不同数据集进行分类的概念得到了进一步发展。这些方法学习分类器来对抗性地区分来自不同领域的特征,其中每个领域都可以被认为是一个数据集。已知用这些方法研究的问题具有显著的域间隙。相反,我们研究的数据集可能很难区分,至少对人类来说是这样。研究数据集偏差的另一个方向是复制数据集的收集过程并检查复制的数据。ImageNetV2复制了ImageNet验证集的协议。它观察到,这种复制的数据仍然明显表现出偏差,这反映在精度下降上。进一步分析了偏差。已经创建了许多基准来测试模型在各种形式偏差下的泛化,例如常见的腐败和危险条件。在减轻数据集偏差方面也有很多工作要做。在多个数据集上进行训练可以潜在地减轻数据集偏差。使模型适应测试时具有不同偏差的数据的方法最近也得到了普及。数据集中的偏见也有重大的社会影响。一些知名的数据集在人口统计学和地理学方面存在偏差。它们还包含有害的社会刻板印象。解决这些偏见对于公平和道德考虑至关重要。像revision和Know Your Data这样的工具提供了对数据集中潜在偏差的自动分析。消除偏见的方法,如对抗学习和领域独立训练,也显示出减少数据集偏见影响的希望。
数据集分类任务的定义类似于图像分类任务,但每个数据集形成自己的类。它创建了一个N向分类问题,其中N是数据集的数量。分类精度是在一个验证集上评估的,该验证集由从这些数据集中采样的保留图像组成。
作者有意选择能够使数据集分类任务具有挑战性的数据集。作者选择他们的数据集基于以下考虑:
基于这些标准,作者选择表1中列出的数据集。
dataset | description |
---|---|
YFCC | 100M Flickr images |
CC | 12M Internet image-text pairs |
DataComp | 1B image-text pairs from Common Crawl |
WIT | 11.5M Wikipedia images-text pairs LAION |
LAION | 2B image-text pairs from Common Crawl |
ImageNet | 14M images from search engines |
尽管这些数据集应该更加多样化,但它们的收集过程仍然存在差异,这可能会导致它们的个人偏见。例如,它们的来源是不同的:Flickr是一个用户上传和分享照片的网站,Wikipedia是一个专注于知识和信息的网站,Common Crawl是一个抓取网络数据的组织,而更广泛的互联网涉及的内容范围比这些特定的网站更广泛。此外,在数据收集过程中还涉及不同级别的管理:例如,通过对CLIP模型进行逆向工程并再现其Zero-shot精度来收集LAION。尽管作者意识到这些潜在的偏见,但神经网络捕捉它们的出色能力超出了作者的预期。特别是,作者注意到他们通过将其单独应用于每个验证图像来评估网络的数据集分类准确性,这确保了网络没有机会利用几个图像的底层统计信息。
作者观察到神经网络在这个数据集分类任务中取得了惊人的高准确率。这一观察结果在不同的环境下都是可靠的。默认情况下,我们从每个数据集中随机抽取1M和10K图像作为训练集和验证集。作者训练了一个ConvNeXt-T模型,遵循监督训练的常用实践,在实验中观察到以下现象:
High accuracy is observed across dataset combinations【在数据集组合中观察到较高的准确性】。在表2(上)中,作者列举了从表1列出的6个数据集中选择3个的所有20种$ C_6^3 $可能组合。综上所述,在所有情况下,网络实现了>62%的数据集分类准确率;在所有20种组合中,有16种的准确率甚至达到了80%以上。在YFCC、CC和ImageNet的组合中,准确率最高,达到92.7%。注意,瞎猜一个的猜测给出了33.3%的准确度。在表2(下)中,作者研究了涉及3,4,5和所有6个数据集的组合。正如预期的那样,使用更多的数据集导致任务更加困难,这反映在准确性的下降上。然而,当包括所有6个数据集时,网络仍然达到69.2%的准确率。
High accuracy is observed across model architectures. 【在模型体系结构中观察到很高的准确性】。在表3中,作者报告了使用不同代代表性模型架构的YCD组合的结果:AlexNet、VGG、ResNet、ViT和ConvNeXt。作者观察到所有的架构都可以很好地解决这个任务:5个网络中有4个达到了>80%的优秀准确率,甚至现在经典的AlexNet也达到了77.8%的优异成绩。这个结果表明,神经网络非常擅长捕捉数据集偏差,而不管它们的具体架构是什么。AlexNet论文发表后,网络架构设计取得了重大进展,包括归一化层、残差连接、自注意力。网络架构中的“归纳偏置”也可能不同。然而,对于数据集分类来说,它们似乎都不是必不可少的(例如,VGG没有这些组件):捕获数据集偏差的能力可能是深度神经网络固有的,而不是由特定组件启用的。
model | accuracy |
---|---|
AlexNet | 77.8 |
VGG-16 | 83.5 |
ResNet-50 | 83.8 |
ViT-S | 82.4 |
ConvNeXt-T | 84.7 |
High accuracy is observed across different model sizes【在不同的模型尺寸上都观察到较高的精度】。缺省情况下,作者使用ConvNeXt-Tiny(27个参数)。术语“Tiny”是指ViT尺寸的现代定义,与ResNet-50 (25M)相当。在图2中,作者报告了不同宽度和深度的不同尺寸模型的结果。令作者进一步惊讶的是,即使是非常小的模型也可以在数据集分类任务中达到很高的精度。只有7K个参数(ResNet-50的3/10000)的ConvNeXt对YCD的分类准确率达到72.4%。这表明神经网络的结构在学习潜在的数据集偏差方面非常有效。数据集分类可以在没有大量参数的情况下完成,这通常被认为是深度学习在传统视觉识别任务中取得成功的原因。作者还观察到,大模型变得越来越好,尽管回报变得越来越小。这与传统视觉识别任务的观察结果一致。此外,作者还没有观察到他们研究的模型大小和数据集规模的过拟合行为。这意味着可能存在一般化的模式来帮助模型确定数据集的身份,并且模型并不试图记住训练数据。接下来将介绍更多关于泛化和记忆的研究。
Dataset classification accuracy benefits from more training data【训练数据越多,分类精度越高】。作者改变了YCD分类的训练图像数量,结果如图3所示。有趣的是,使用更多数据训练的模型可以获得更高的验证精度。这一趋势在现代的ConvNeXt和经典的AlexNet中都得到了一致的观察。虽然这种行为在语义分类任务中似乎是自然的,但作者注意到,在数据集分类中不一定如此:事实上,如果模型在记忆训练数据方面遇到困难,它们在验证数据上的泛化性能可能会下降。观察到的行为——即更多的训练数据提高了验证的准确性——这表明模型正在学习某些语义模式,这些模式可以推广到未见过的数据,而不是记忆和过度拟合训练数据。
Dataset classification accuracy benefits from data augmentation【数据增强有利于数据集分类的准确性】。数据增强预计与增加数据集大小(这是其命名背后的基本原理)具有相似的效果。我们的默认训练设置使用随机裁剪,RandAug, MixUp和CutMix作为数据增强。表4显示了使用减少或不使用数据增强的结果。增加数据增强功能会增加记忆训练图像的难度。然而,使用更强的数据增强持续提高数据集分类精度。无论每个数据集的训练图像数量如何,这种行为在很大程度上保持一致。同样,这种行为反映了在语义分类任务中观察到的情况,这表明数据集分类不是通过记忆来实现的,而是通过学习模式来实现的,这些模式可以从训练集推广到未知的验证集。
总结。综上所述,我们已经观察到神经网络能够以良好的准确率解决数据集分类任务。这个观察结果适用于各种情况,包括不同的数据集组合、不同的模型架构、不同的模型大小、数据集大小和数据增强策略。
作者分析了涉及数据集分类任务的不同修改版本中的模型行为。这揭示了神经网络用于数据集分类的更有趣的特性。
有一种可能性是,高准确度仅仅是由于低水平的特征,这些特征对人类来说不太明显,但很容易被神经网络识别。潜在的signatures可能涉及JPEG压缩工件(例如,不同的数据集可能具有不同的压缩质量因子)和颜色量化工件(例如,根据单个数据集修剪或量化颜色)。作者设计了一套实验来帮助我们排除这种可能性。
特别地,作者将某种类型的图像损坏应用于训练集和验证集,并在其上训练和评估他们的模型。换句话说,作者对损坏的数据执行数据集分类任务。作者考虑了四种类型的图像损坏:
图4显示了每种损坏的一些示例图像。我们注意到,作者一次应用一种类型的损坏,导致一个不同的数据集分类数据。
表5显示了每个图像损坏的数据集分类结果。正如预期的那样,损坏降低了分类准确性,因为训练集和验证集都受到了影响。尽管存在退化,但仍然可以实现较强的分类精度,特别是在腐败程度较弱的情况下。引入这些不同类型的损坏应该会有效地破坏低级签名,比如JPEG或颜色量化工件。结果表明,这些模型试图解决数据集分类任务,而不是使用低级偏差。
在第3.2节中,作者已经展示了为数据集分类学习的模型的行为与为语义分类任务学习的模型的行为相似(图3和表4),从某种意义上说,它们表现出泛化行为。这种行为与记忆行为形成鲜明对比,作者将在下一个比较中讨论。我们考虑一个伪数据集分类任务。在这个场景中,我们手动创建多个伪数据集,所有这些伪数据集都是采样的,而不是从相同的源数据集替换。我们期望这个过程能给我们提供多个真正无偏的伪数据集。
表6报告了为这个伪数据集分类任务训练的模型的训练精度,使用每组不同数量的训练图像,不使用数据增强与使用数据增强。当任务相对简单时,模型达到100%的训练准确率;然而,当任务变得更困难时(更多的训练图像或更强的增强),模型无法收敛,表现为不稳定的、非递减的损失曲线。这种现象意味着模型试图记住单个图像及其标签来完成这个伪数据集分类任务。因为这些伪数据集中的图像是无偏的,所以不应该有可以发现的共享模式来区分这些不同的集合。因此,模型被迫记忆图像及其随机标签。但是,当训练图像越多或增强的程度越高时,记忆就越困难,超过一定程度后,训练过程就会失败。
这种现象与作者在真实数据集分类任务中观察到的情况不同(图3和表4)。这再次表明,该模型试图在真实数据集分类任务中捕获共享的、可推广的模式。虽然这看起来很明显,但作者注意到,为伪数据集分类任务训练的模型并没有推广到验证数据(从每个伪数据集中取出并采样)。即使训练准确度为100%,我们报告验证集中的机会水平准确度为~ 33%。
到目前为止,作者所有的数据集分类结果都是在一个完全监督的协议下呈现的:模型是在完全监督的情况下端到端训练的(使用数据集身份作为标签)。接下来,作者探索一个自监督协议,遵循自监督学习场景中用于语义分类任务的通用协议。形式上,作者预训练一个自监督学习模型MAE,不使用任何标签。然后,作者冻结从预训练模型中提取的特征,并对数据集分类任务使用监督来训练线性分类器。这被称为线性探测协议。我们注意到,在该协议中,在数据集分类标签的监督下,只有线性分类器层是可调的。线性探测呈现出更具挑战性的场景。
表7显示了自监督协议下的结果。即使在标准ImageNet(不涉及YCD图像)上对MAE进行预训练,该模型对数据集分类的线性探测精度也达到76.2%。在这种情况下,只有线性分类器层暴露给数据集分类数据。在相同的YCD训练数据上使用MAE预训练,该模型在线性探测中获得了78.4%的更高准确率。请注意,尽管这个MAE是在相同的目标数据上进行预训练的,但它并不知道目标是用于数据集分类。然而,与在ImageNet的不同数据集上预训练的模型相比,预训练的模型可以学习到更具判别性的特征(对于这个任务)。这种迁移学习行为再次类似于在语义分类任务中观察到的行为。
作者已经证明,训练用于数据集分类的模型可以很好地推广到未见过的验证数据。接下来,作者研究这些模型如何很好地转移到语义分类任务中。为此,作者现在将数据集分类视为一个借口任务pretext task,并对语义分类任务(ImageNet-1K分类)上的冻结特征进行线性探测。表8显示了使用不同数据集组合预训练的数据集分类模型的结果与使用随机权值的基线相比,该数据集分类模型可以达到非平凡ImageNet-1K线性探测精度。重要的是,使用更多数据集的组合可以提高线性探测精度,这表明通过发现更多数据集的数据集偏差可以学习到更好的特征。作为参考,应该注意的是,通过数据集分类学习到的特征明显不如专门的自监督学习方法,如MAE , MoCo v3等,这是意料之中的。然而,作者的实验表明,神经网络模型发现的数据集偏差与对图像分类有用的语义特征相关。
为了更好地理解数据集分类任务,作者进一步进行了用户研究,以评估人类完成这项任务的能力,并学习他们的经验
Settings. 作者要求用户对从YCD组合中采样的单个图像进行分类。由于用户可能不熟悉这些数据集,作者为他们提供了一个界面,当他们试图预测每个验证图像时,可以无限制地浏览训练图像(带有其数据集身份的真实标签)。作者要求每个用户对100张与提供给他们的训练集不重叠的验证图像进行分类。作者不限制每个图像或整个测试所允许花费的时间。
**Users.**一组20名志愿者参与了作者的用户研究。他们都是具有机器学习背景的研究人员,其中14人有计算机视觉研究经验。
User study results. 图5显示了对数据集分类任务的用户研究结果统计。综上所述,20个用户中有11个用户的准确率在40%-45%之间,有7个用户的准确率在45%-50%之间,只有2个用户的准确率超过50%。平均值为45.4%,中位数为44%。人类的表现高于机会水平的猜测(33.3%),这表明存在人类可以发现的模式来区分这些数据集。然而,人类的表现远低于神经网络的84.7%。作者还报告说,14名有计算机视觉研究经验的用户平均表现并不比其他用户好。在这14个用户中,作者也问了一个问题:“你期望神经网络在这项任务中能达到多大的精度?”2个用户的估计值为60%,6个用户的估计值为80%,1个用户的估计值为90%;有5名用户选择不回答。用户在意识到作者的工作之前就做出了这些估计。
有15名参与者将任务的难度描述为“困难”。没有参与者认为这项任务“简单”。2名参与者评论说,他们觉得这个任务“很有趣”。作者进一步询问用户,他们发现了哪些特定于数据集的模式,并使用它们来解决这个任务。我们总结了他们的回答如下,其中括号表示有多少用户提到了相同的模式:
在这些用户反应中,有一些简单类型的偏差可以被利用(例如,DataComp的“白色背景”),这可以帮助提高用户预测的准确度,而不是机会水平的猜测。然而,许多类型的偏差,例如图像中包含“人”,对于识别图像既不充分也没有意义(例如,所有数据集都包含有人的图像)。
作者在现代神经网络和大规模数据集的背景下重新审视数据集分类问题。作者观察到,数据集偏差仍然可以很容易地被现代神经网络捕获。这种现象在模型、数据集组合和许多其他设置中都是稳健的。值得指出的是,神经网络捕捉到的偏见的具体形式在很大程度上仍不清楚。作者发现,这种偏见可能包含一些可概括和可转移的模式,并且可能不容易被人类注意到。作者希望进一步的努力将致力于这个问题,这也将有助于在未来建立更少偏见的数据集。
以上观点均为本人对于原文的粗鄙理解,仅作为个人学习笔记,如有错误烦请指正,如有侵权请联系我删除。
膜拜下凯明大佬的新作
不摆了,加训!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。