当前位置:   article > 正文

参数更新量仅为LoRA的5%,性能不减反升!南加大提出高效精调法LaMDA

参数更新量仅为LoRA的5%,性能不减反升!南加大提出高效精调法LaMDA

万物负阴而抱阳,冲气以为和

——《道德经·第四十二章》

从Bert时代一路过来的朋友们应该还记得,对于仅仅只有1亿参数的Bert,在特定任务上做一个全参数微调(Full Parameter Fine-tuning,FPFT),那简直是再正常不过的操作。即使想不开要对Bert重新做个预训练(Pretraining),也无碍乎是“几张卡+几天”的事情,根本无伤大雅。

随着模型参数规模逐渐从1亿扩大到现在的百亿、千亿,全参数微调,哪怕是LoRA等仅更新部分参数的参数高效微调方法(Parameter Efficient Fine-Tuning,PEFT)也已经变成了一种奢侈的事情,因此我们开始转入对“尽可能影响更少的参数、让模型变得更快、资源消耗变得更低”的“小型化”追求。

今天要介绍的这篇文章,在LoRA的基础上,把模型训练时的参数更新量进一步缩小了将近20倍!不但如此,甚至还获得了相对更好的表现。这对我们众多资源匮乏党来说,无疑是一个巨大惊喜,就让我们来看看,它到底是怎么做到的!

论文标题:
LaMDA: Large Model Fine-Tuning via Spectrally Decomposed Low-Dimensional Adaptation

论文链接:
https://arxiv.org/pdf/2406.12832.pdf

高效!还要更高效!

大模型(LLMs)由于其在大量数据上训练后所表现出的泛化能力,在NLP的多种任务中都取得了惊人的性能。然而,要充分发挥LLMs的潜力,仍然需要对它们进行微调以适应特定的应用场景。尽管微调可以显著提升模型在特定任务上的表现,但对大型模型进行全面微调的成本非常高,这不仅包括计算资源,还包括内存需求,尤其在边缘设备上进行微调几乎是不可能的。

此外,全参数微调LLM还可能导致过拟合和灾难性遗忘,即模型在更新参数以适应新任务时,可能会忘记其在预训练阶段学到的有用信息。为了解决这些问题,研究者们提出了参数高效的微调(PEFT)技术,这些技术只更新模型参数的一小部分,或者训练任务特定的软提示。在这些PEFT技术中,低秩适应技术(LoRA)就是其中的杰出代表。

LoRA通过在模型冻结参数的主路径旁添加两个可训练的低秩适配矩阵(即下图A和B,通过秩分解预训练权重获得;

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/码创造者/article/detail/794623
推荐阅读
相关标签