赞
踩
在下游任务中有效地利用含噪声的预训练基础模型
(与通常说的有噪声的标签学习不同,文章假设标签噪声存在于通常不可访问的预训练数据中,但其目的是在下游任务上理解和缓解标签噪声)
本文任务虽然是:在下游任务中有效地利用含噪声的预训练基础模型,但其实其本质科学问题是:如何在存在数据噪声的情况下保持和提升模型的泛化能力。
原因是:尽管预训练模型在特定领域表现出色,但噪声数据可能导致模型学习到错误的模式,从而影响其在新任务上的表现。
所以,只要是涉及从大规模含噪声数据集中学习并提升模型泛化能力的问题,都可以试试本文的方法。
大规模预训练数据集中不可避免地存在噪声,想要提高模型在多样化下游任务中的泛化能力和实用性(实际应用中用户硬件跟不上或模型只开放了api),应该用一种新的、轻量级的调优方法(NMTune),重塑预训练的特征空间,去降低噪声预训练数据的影响。
3.损失函数设计:NMTune的总损失函数结合了下游任务的交叉熵损失和上述正则化项。这允许模型在保持预训练知识的同时,学习适应下游任务的特征表示。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。