[论文笔记]Adapter turning_adapter 论文

作者：Monodyee | 2024-04-28 11:02:55

踩

adapter 论文

引言

今天带来第一篇大语言模型高效微调的论文Adapter Tuning笔记。

预训练+微调的范式是一种高效的迁移学习机制。然而，当有很多下游任务时，微调参数并不高效：对于每个任务都要有一个全新的模型。

作者提出了基于adapter模块的迁移学习方法，可以产生一个紧凑和可扩展的模型。只需要为每个任务增加少部分可训练参数，而固定原来模型的参数。

作者说Adapter可以获取接近SOTA的表现。

在预训练的模型中进行迁移学习可以在很多NLP任务上得到很好的表现。当下游任务很多时，又不希望为每个下游任务微调一个全新的模型。

作者提出了基于adapter模块的迁移学习方法，可以产生一个紧凑和可扩展的模型。紧凑意味着对于每个任务只需要额外少量的参数。可扩展意味着可以逐步训练以解决新任务，而不会忘记先前的任务。

在NLP中最常用的迁移学习技术有两种，分别是基于特征的迁移和微调。作者提出了基于adapter模块的另一种迁移学习方法。

基于特征的迁移关于预训练实数嵌入向量，这些向量可以为单词、语句或段落级别。然后把这些向量应用到自定义的下游模型。

微调就是从预训练的模型中拷贝权重然后基于下游任务更新它们。最近的工作表面微调通常效果比基于特征要好。

但是这两种方法都需要为每个任务训练一组新的权重，而作者提出的adpater微调方法可以更高效的利用参数。

图1的x轴表示每

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/501913