当前位置:   article > 正文

Parameter-Efficient Fine-tuning 相关工作梳理

efficient tuning

d59679971cd9323309cf12a8a081e359.gif

©PaperWeekly 原创 · 作者 | 避暑山庄梁朝伟

研究方向 | 自然语言处理

74b97e486d76c37442f107d289d1d5c7.png

背景

随着计算算力的不断增加,以 transformer 为主要架构的预训练模型进入了百花齐放的时代。看到了大规模预训练的潜力,尝试了不同的预训练任务、模型架构、训练策略等等,在做这些探索之外,一个更加直接也通常更加有效的方向就是继续增大数据量和模型容量来向上探测这一模式的上界。首先这些经过海量数据训练的模型相比于一般的深度模型而言,包含更多的参数,动辄数十亿。在针对不同下游任务做微调时,存储(每个任务对应一个完成的预训练模型)和训练这种大模型是十分昂贵且耗时的。

be78212b3637951587b0310e3ffebe0c.png

方法归类

2.1 Adapter

通过过在原始的预训练模型中的每个 transformer block 中加入一些参数可训练的模块实现的。假设原始的预训练模型的参数为 ω,加入的 adapter 参数为 υ,在针对不同下游任务进行调整时,只需要将预训练参数固定住,只针对 adapter 参数 υ 进行训练。常情况下,参数量 υ<<ω, 因此在对多个下游任务调整时,只需要调整极小数量的参数,大大的提高了预训练模型的扩展性和实用性。

代表论文:

32b8dafe9b2e6d796c67387ba8e068c2.png

论文标题:

Parameter-Efficient Transfer Learning for NLP

论文链接:

https://arxiv.org/abs/1902.00751

代码链接:

https://github.com/google-research/adapter-bert

在 Multi-head attention 层后和 FFN 层后都加了一个 adapter,通过残差连接和 down-project & up-project(减少 adapter 的参数量)实现。

79564a32954ba5d70251d5cd25a09c7c.png

eb7c62cd9a2c0a67aa208326e4ec6e9d.png

论文标题:

LoRA: Low-Rank Adaptation of Large Language Models

论文链接:

https://arxiv.org/abs/2106.09685

代码链接:

https://github.com/microsoft/LoRA

将原有预训练参数进行矩阵分解(减少参数量),然后和原有

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/858110
推荐阅读
相关标签
  

闽ICP备14008679号