预训练模型时代：告别finetune, 拥抱adapter_adapter人工智能

作者：盐析白兔 | 2024-07-02 15:18:11

踩

adapter人工智能

©NLP论文解读原创•作者 |FLIPPED

研究背景

随着计算算力的不断增加，以transformer为主要架构的预训练模型进入了百花齐放的时代。BERT、RoBERTa等模型的提出为NLP相关问题的解决提供了极大的便利，但也引发了一些新的问题。

首先这些经过海量数据训练的模型相比于一般的深度模型而言，包含更多的参数，动辄数十亿。在针对不同下游任务做微调时，存储和训练这种大模型是十分昂贵且耗时的。

尤其对于机器翻译任务而言，如果针对一对语言对就需要存储和微调这样一个”庞然大物“，显然在时间和空间上都是不可接受的。

为了解决这个问题，以轻量和扩展性强闻名的Adapter方法被提出，相比于“劳民伤财”的全参数微调，它只需要以一个较小的训练和存储代价就可以取得和全模型微调相当的结果。

Adapter方法介绍

首先adapter方法的原理并不复杂，它是通过在原始的预训练模型中的每个transformer block中加入一些参数可训练的模块实现的。

假设原始的预训练模型的参数为ω，加入的adapter 参数为υ，在针对不同下游任务进行调整时，只需要将预训练参数固定住，只针对adapter参数υ进行训练。

通常情况下，参数量υ<<ω,

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/780010