赞
踩
https://github.com/jo-wang/otta_vit_survey
https://arxiv.org/abs/2310.20199
本文介绍了在线测试时间适应(online test-time adaptation,OTTA)的全面调查,OTTA是一种专注于使机器学习模型适应批量到达时的新数据分布的新方法。尽管最近OTTA方法得到了广泛应用,但该领域仍陷入了诸如模糊设置、过时的主干网络和不一致的超参数调优等问题,这些问题混淆了真正的挑战,并使可重复性难以捉摸。为了清晰和严格的比较,我们将OTTA技术分为三个主要类别,并使用强大的视觉转换(ViT)主干对它们进行基准测试,以发现真正有效的策略。我们的基准涵盖了传统的损坏数据集,如CIF AR-10/100C和ImageNet-C,以及CIF AR-10.1和CIF AR-10-Warehouse中体现的真实变化,通过扩散模型封装了搜索引擎和合成数据的变化。为了衡量在线场景中的效率,我们引入了新的评估指标,包括GFLOPs,揭示了适应精度和计算开销之间的权衡。我们的研究结果与现有文献不同,表明:(1)Transformer对不同的域位移表现出更高的弹性;(2)许多OTTA方法的有效性取决于充足的批量;(3)优化的稳定性和对扰动的抵抗在适应过程中至关重要,特别是当批量大小为1时
在这些见解的激励下,我们指出了未来研究的有希望的方向。
这里主要介绍问题的定义,并介绍了广泛使用的数据集、指标和应用。并且提供OTTA的正式定义,并深入研究其基本属性。此外,我们探索了广泛使用的数据集和评估方法,并研究了OTTA的潜在应用场景。进行比较分析,以区分OTTA与类似的设置,以确保清晰的理解
图像分类的标准基准。它包含950,000张彩色图像,每张32 × 32像素,跨越10个不同的类。CIF AR10-C保留了CIF AR-10的分类结构,但纳入了15种不同的损坏类型,严重程度从1级到5级不等。这种损坏的变体旨在模拟在图像采集、存储或传输等过程中可能出现的真实图像失真或损坏。
95万张32 × 32像素的彩色图像,均匀分布在100个独特的类别中。CIF AR-100损坏数据集,类似于CIF AR-10-C,将人工损坏集成到规范的CIF AR-100图像中。
ImageNet测试集的损坏版本。由ImageNet-1k生成,ImageNet-C有19种类型的损坏域,包括4种验证损坏。对于每个领域,产生了5个严重级别,每个严重级别有来自1000个类的50,000个图像。
以上数据集人为创建的领域差异
以下数据集是现实世界的实验基准
具有与CIFAR-10相同标签空间的真实测试集。它包含大约2000张从Tiny Image数据集采样的图像
集成了来自两种扩散模型的图像,特别是稳定扩散,以及七个流行搜索引擎的目标关键字搜索。包含37个生成数据集和143个真实数据集,每个子集有300到8000张图像,在不同的搜索标准中显示出明显的类内变化。
它计算所有损坏类型或域的平均错误率。
虽然有用,但这个指标通常不能在OTTA中提供特定于类的见解。
指每秒千兆次浮点运算,它量化了一个模型在一秒钟内执行的浮点运算次数。GFLOPs越低的模型计算效率越高
提供了对适应过程复杂性的见解。需要大量更新参数的模型可能不适合在线自适应。
鉴于在线数据与源训练数据的分布差异,OTTA技术大致分为三类,这取决于它们对两个主要问题的反应:管理在线数据和缓解由于分布变化而导致的性能下降。基于优化的方法以设计无监督目标为基础,通常倾向于调整或增强预先训练的模型。基于模型的方法着眼于修改或引入特定的层。另一方面,基于数据的方法旨在扩大数据多样性,要么改善模型泛化,要么协调数据视图之间的一致性。这里的方法可以看到会不类所使用的方法。
三个子类 (1) recalibrating statistics in normalization layers, (2) enhancing optimization stability with the mean-teacher model(3) designing unsupervised loss functions 下图为上述策略发展实践线
Tent
RoTTA
这种方法涉及使用预先训练的源模型来初始化教师模型和学生模型。对于任何给定的测试样本,都会创建弱和强增强版本。然后,每个版本都由学生和教师模型进行相应的处理。这种方法的关键在于使用预测一致性,也称为一致性正则化,来更新学生模型。该策略旨在从不同的数据视图实现相同的预测,从而降低模型对测试数据变化的敏感度,并提高预测的稳定性。
教师模型被改进为学生在迭代中的移动平均值。值得注意的是,在OTTA中,Mean教师模型和基于BatchNorm的方法并不是相互排斥的;事实上,它们可以有效地集成在一起。将BatchNorm更新纳入教师-学生学习框架可以产生更稳健的结果第四节。同样,Mean-Teacher模型与以数据为中心(如3.2小节所述)的集成。或模型驱动(详见第节3.3)的方法为进一步提高OTTA的预测精度和稳定性提供了希望,标志着该领域向前迈出了重要的一步。
在测试数据数量有限的情况下,设计合适的优化目标是非常重要的。图4总结了常见的基于优化的在线测试时间适应(OTTA)。现有文献使用以下三种主要策略来解决优化问题。
伪标记技术在领域自适应和半监督学习中是一种有用的技术。它通常以高置信度为样本分配标签,然后使用这些伪标签样本进行训练。在OTTA中,适应仅限于当前批次的测试数据,经常使用批次级别的伪标记。例如,MuSLA实现了伪标签,作为BatchNorm更新后的优化步骤。这种方法使用当前批次的伪标签来改进分类器,从而提高了模型的准确性。
此外,teacher-student框架,如COTTA、Rotta和Vida等模型也采用了伪标签策略,其中teacher输出被用作软伪标签。由于在反向传播过程中保持了不确定性,这可以防止模型被过度拟合以适应错误的预测。
LAME:
基于优化的方法是在线测试时间适应中最常见的类别,独立于神经体系结构。这些方法集中于确保优化中的一致性、稳定性和健壮性。然而,这些方法的一个基本假设是有足够的目标数据可用,这应该反映全局测试数据分布。关于这一方面,下一节将重点介绍基于数据的方法,研究它们如何解决OTTA中缺乏可访问的目标数据的问题。
由于测试批次中的样本数量有限,经常会遇到出现意外分布变化的测试样本。我们承认,数据可能是弥合源数据和测试数据之间差距的关键。在本节中,我们将更深入地探讨以OTTA中的数据为中心的策略。我们重点介绍了数据的各个方面,例如每批中的数据多样化(3.2.1节)和在全局范围内保存高质量信息(3.2.2节)。这些策略可以增强模型的泛化能力,并针对当前的数据批次定制模型的识别能力。
数据增强在域适应和域泛化中非常重要,它们模仿真实世界的变化,以提高模型的可转移性和泛化能力。它对于测试时间适应特别有用。
除了可以使数据批次多样化的扩充策略之外,内存库还是一个强大的工具,可以为未来的内存重播保留有价值的数据信息。设置内存库涉及两个关键注意事项:(1)。确定哪些数据应该存储在内存库中。这需要在适应期间对确定可能有价值的样本放入。(2)。内存库的管理。这包括添加新实例和从库中删除旧实例的策略。
内存库策略通常分为time-uniform和class-balanced两类。值得注意的是,许多方法选择将这两种类型集成在一起,以最大化有效性。为了解决以上策略问题带来的挑战,Note引入了Prediction-Balanced Reservoir Sampling (PBRS)来保存样本-预测对。PBRS的独创性在于它融合了两种截然不同的抽样策略:time-uniform和class-balanced。time-uniform的方法,reservoir sampling(RS),目的是在时间流上获得统一的数据。具体地说,对于被预测为类
k
k
k的样本
x
x
x,我们从均匀分布
[
0
,
1
]
[0,1]
[0,1]中随机抽样值
p
p
p。然后,如果
p
p
p小于类
k
k
k在整个内存库样本中的比例,则从相同的类中随机选择一个,并用新的
x
x
x替换它。相反,预测一致节省策略(PB)对预测的标签进行优先排序,以确定内存中的多数类。在识别后,它用新的数据样本取代从多数类中随机选择的实例,从而确保表示的均衡性。Sotta也采用了类似的策略来促进班级平衡学习。当存储体具有可用空间时,存储每个高置信度样本-预测对。如果银行已满,则该方法选择替换来自多数类之一的样本,或者如果样本属于多数类,则选择替换来自其类的样本。这确保了更公平的班级分配,并加强了针对班级不平衡的学习过程。
基于数据的技术对于处理可能有偏见或具有独特风格约束的在线测试集特别有用。然而,这些技术经常增加计算需求,在在线场景中构成挑战。
Model-based OTTA一类的方法主要专注于调整模型体系结构以应对分布变化。对体系结构进行的更改通常涉及添加新组件或替换现有神经网络块。它涉及adapting prompt parameters方法或使用 prompts 来引导适应过程.
层替换通常是指将模型中的现有层替换为新层。常用的技术包括:
视觉语言模型的兴起展示了它们在零次学习泛化方面的非凡能力。然而,对于特定于领域的数据,这些模型往往表现不佳。在试图解决这一问题时,传统的微调策略通常会通过改变模型的参数来损害模型的泛化能力。
相对应的,借鉴了TTA的思想,Test Time Prompt Tuning作为一种解决方案应运而生。与传统方法不同,它对提示进行了微调,只调整了模型输入的上下文,从而保留了模型的泛化能力。其中一个代表是TPT。它生成每个测试图像的N个随机增加的视图,并通过最小化平均预测概率分布的熵来更新提示参数。另外,提出了一种置信度选择策略来滤除高熵的输出,以避免不可信样本带来的噪声更新。通过更新提示符的可学习参数,可以更容易地使模型适应新的、不可见的领域。
与提示相关的想法在OTTA任务中也很强大。Decorate the Newcomers(Dn)使用提示作为添加到图像输入上的补充信息。为了给提示注入相关信息,它采用了学生-教师框架和冻结的源预先训练模型来捕获领域特定和领域不可知的提示。为了获取特定领域的知识,它优化了教师和学生模型输出之间的交叉损失。此外,DN引入了参数不敏感度损失,以减轻容易发生域移的参数的影响。该策略旨在确保对领域变化不太敏感的更新参数有效地保留与领域无关的知识。通过这种方法,域名系统在学习新的、特定于领域的信息的同时,保持关键的、与领域相关的知识。
这里有一种新的方法(DEPT)。它的过程首先将transformer分割成多个阶段,然后在每个阶段的初始层结合图像和CLS令牌引入可学习的提示。在适应过程中,DEPT使用mean-teacher模型来更新学生模型中的可学习提示和分类器。对于学生模型,基于计算的伪标签和来自强增广的学生输出的输出之间的交叉熵损失进行更新。值得注意的是,这些伪标签是从学生模型中生成的,使用记忆库中学生弱增强输出的前k个最近邻居的平均预测。在师生互动方面,为了应对不正确的伪标签带来的潜在错误,DePT在学生和教师模型的强增强观点所做出的预测之间实现了熵损失。此外,该方法在transformer的输出层最小化了学生和教师模型的组合提示之间的均方误差。此外,为了确保不同的提示集中在不同的功能上,并防止琐碎的解决方案,系还最大化了学生组合提示之间的余弦距离。
基于模型的OTTA方法已显示出有效性,但不如其他组流行,这主要是因为它们依赖于特定的主干架构。例如,模型中主要基于BatchNorm的层替换使得它们不适用于基于ViT的体系结构。
这一类别的一个关键特征是它与激励策略的有效整合。这种组合允许更少但更有影响力的模型更新,从而带来更大的性能改进。这样的效率使得基于模型的OTTA方法特别适合于复杂场景。
在这项实证研究中,我们专注于升级现有的用于视觉变压器(ViT)模型的OTTA方法,调查它们迁移到新一代主干的潜力。我们提供了使最初为CNN架构提出的方法适应ViTS的解决方案。基线。我们对七种Otta方法进行了基准测试。为了确保公平性,我们坚持标准化的测试协议,选择了五个数据集,包括三个损坏的数据集(即CIFAR-10-C、CIFAR-100-C和ImageNetC)、一个真实世界移动的数据集(CIFAR-10.1)和一个综合数据集(CIFAR-10-Warehouse)。CIFAR-10-Warehouse知识库在我们的评估中发挥了关键作用,提供了广泛的子集,包括来自不同搜索引擎的真实世界变体和通过扩散过程生成的图像。具体地说,我们的调查集中在CIFAR-10-Warehouse数据集的两个子集上:Google Split和Diffsion Split。这些子集既包括真实世界的数据转移,也包括人工数据转移,有助于对OTTA方法的全面评估。
所有方法的基础主干都是VIT-BASE-patch16-224 当使用CIFAR-10-C、CIFAR-10.1和CIFAR-10-Warehouse作为目标域时,我们在CIFAR-10上训练源模型,迭代8,000次,包括跨越1,600次迭代的预热阶段。训练使用批量和随机梯度下降算法,学习率为 3 e − 2 3e−2 3e−2。CIFAR-100上的源模型,延长的训练持续时间为16,000次,热身期跨越4,000次。ImageNet-1k数据集上的源模型是从TIMM存储库获取的。此外,我们在所有方法中应用了基本的数据增强技术,包括随机调整大小和裁剪。ADAM优化器的动量项 β \beta β为0.9%,学习率为 1 e − 3 1e−3 1e−3,确保了适应期间的一致性。调整大小和裁剪技术被应用为所有数据集的默认预处理步骤。然后,采用均匀归一化(0.5,0.5,0.5)来消除算法核心操作之外的外部因素引起的潜在性能波动。
这些策略为将核心OTTA方法与Vision Transformer集成奠定了基础,从而扩大了它们在这一高级模型体系结构中的应用。值得注意的是,这些解决方案并不仅限于Otta方法。相反,它们可以被视为一套更广泛的指导原则,可以应用于需要升级到新一代主干架构的地方。
基线:我们仔细选择了七种方法,以彻底检查OTTA方法的适应性。它们包括:
尽管有很多Otta方法,彻底评估这个选定的子集即可。在实证研究中,我们解决了以下关键研究问题
为了评估所选方法的有效性,我们将它们与仅限来源(即直接推断)的基线进行比较。在接下来的部分中,我们将讨论每个数据集的实验结果。
我们评估了批次大小为1和16的CIFAR-10-C和CIFAR-10.1数据集,并在图8中显示了结果。为了清楚地理解预测模式,我们从三个方面讨论了我们的观察结果:1)损坏类型的变化,2)批次大小的变化,3)适应策略的变化。
在CIFAR-100-C数据集上的性能表现出与在CIFAR-10-C数据集上观察到的类似的趋势。为了确保讨论的重点,只有当它们的性能模式与CIFAR-100-C数据集的性能模式明显不同时,我们才会探索具体的适应策略。值得注意的是,CIFAR-100-C上的性能相对较差,特别是在使用批次大小为16的情况下。这种性能下降可能是由于CIFAR-100-C数据集中的更大复杂性和多样性,其中包括更广泛的类。
我们在新引入的CIFAR-10-Warehouse数据集上评估OTTA技术,它和CIFAR-10标签相同。在我们的评估中,我们选择了CIFAR-10-Warehouse中具有代表性的两个领域。这些域被专门用来衡量OTTA方法在两种不同的分布变化下的性能:真实世界变化和扩散合成变化。Google split包括来自谷歌搜索引擎的图片。这一子集是评估当代OTTA方法在管理现实世界分布变化方面的能力的关键基准。我们评估了OTTA在其标记为G-01到G12的12个子域中的性能。每个子域代表以不同主色为主的图像,提供了一系列不同的视觉场景,以测试OTTA方法在现实世界条件下的适应性和有效性。
Batch Size
关于图11中描述的批次大小差异,我们观察到,当批次大小为16时,大多数OTTA方法的性能与直接推理相当或超过。这一结果表明,目前的OTTA方法总体上是有效的。此外,大多数OTTA方法的性能在批量减少到1时保持稳定。然而,Tent和Conj-CE等方法在大多数领域表现出性能下降。这可能归因于单样本批次优化的不稳定性,特别是在Tent中,它只专注于优化熵。
Adaptation Strategy
无论批次大小,ROTTA和SAR都表现出非凡的稳定性。这种稳定性是通过保留ROTTA的高质量数据信息和在SAR的优化中寻求平坦极小来实现的。我们比较了Conj-CE和Conj-Poly,其中Conj-Poly指的是当源训练前损失为PolyLoss时的适应策略。在我们的实验中,我们在不改变训练前损失来源的情况下修改了适应策略,以观察性能差异。有趣的是,即使当批处理大小设置为1,并且源预训练损失是交叉熵损失(其中Conj-Poly不是假定的最佳选择)时,Conj-Poly仍然设法在平均误差方面优于Conj-CE。这一发现挑战了Conj-PL原始论文中得出的结论,表明Conj-Poly可能比最初认为的更有效,即使与原始的训练前损失不一致。
Adaptation Strategy
另一个值得注意的观察是COTTA、SAR和ROTTA的稳定表现。通过采用锐度感知最小化,SAR使模型能够到达优化环境中对数据变化不那么敏感的区域,从而产生稳定的预测。CONTTA的参数重置策略有效地减轻了偏向适应,允许从源域恢复部分知识,从而有助于其一致的性能,即使在具有挑战性的DM-05子域中也是如此。最后,ROTTA利用信息丰富的内存库,在子域之间实现了很好的性能。
小结
从我们广泛的实验来看,大多数OTTA方法在不同的数据集上显示出类似的行为模式。这种一致性强调了当代OTTA技术在有效管理不同领域转移方面的潜力。特别值得注意的是ROTTA和SAR,强调了优化不敏感和信息保存的重要性。
为了评估OTTA算法的性能,特别是在硬件限制的情况下,我们使用GFLOPS作为度量,如图13所示。较低的GFLOPS和平均误差是可取的。我们的观察表明,Memo取得了较高的性能,但会产生较高的计算成本。相比之下,RoTTA成功地平衡了低错误率和高效更新。这还表明,减少批处理大小可能有助于实现性能和计算效率之间的平衡。
批量大小很重要,但仅在一定程度上。图15在CIFAR-10-C数据集中检查了不同批次大小对Tent性能的影响。它显示,在大多数损坏中,性能随着批处理大小的不同而显著不同,从1到16。然而,与传统的BatchNorm设置相比,随着批次大小的增加(16到128),这种可变性减小,这表明LayerNorm更新对批次大小的影响较小。这种模式在其他数据集中是一致的,如图14所示。
然而,批次大小仍然至关重要。以稳定优化过程。例如,在CIFAR-10-Warehouse数据集的Google拆分的置信度优化方法中,批次大小为16的性能优于批次大小1。然而,对于像CIFAR-100-C和ImageNet-C这样的复杂数据集来说,更大的批次大小是必不可少的,在这些复杂数据集中,直接推理很难进行,强调需要根据数据的复杂性来调整批次大小。此外,图15表明,增加批次大小对诸如高斯和散粒噪声等具有挑战性的腐败现象并不有效。这突出表明,在复杂的学习情况下,有必要采取更先进的适应策略,而不仅仅是调整批量。
我们对Vision Transformer的初步评估显示,许多在线测试时间适应方法没有完全针对此架构进行优化,导致结果不是最优的。基于这些发现,我们为理想的OTTA方法提出了几个关键属性,适用于未来的研究并针对VIT等高级体系结构进行了定制
在这项调查中,我们彻底检查了在线测试时间适配(OTTA),详细介绍了现有的方法、相关数据集、评估基准及其实施。综合实验评估了现有OTTA方法应用于视觉转换器的有效性和效率。我们的观察表明,与其他类型的移位相比,噪声合成的域移通常会带来更大的挑战,例如在真实世界场景或扩散环境中遇到的移位。此外,数据集中存在的大量类可能会导致批次之间的显著差异,潜在地影响OTTA模型保持一致知识的能力。这可能会导致学习困难和严重健忘的风险增加。为了应对这些挑战,我们发现用记忆库或优化平坦度更新归一化层,结合适当的批次大小选择,可以有效地稳定适应过程并减少遗忘。
灾难性遗忘:灾难性遗忘即学习了新的知识之后,几乎彻底遗忘掉之前习得的内容。
转载自于:https://blog.csdn.net/u013468614/article/details/95623987
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。