参数更新量仅为LoRA的5%，性能不减反升！南加大提出高效精调法LaMDA

作者：码创造者 | 2024-07-07 02:37:59

踩

万物负阴而抱阳，冲气以为和

——《道德经·第四十二章》

从Bert时代一路过来的朋友们应该还记得，对于仅仅只有1亿参数的Bert，在特定任务上做一个全参数微调（Full Parameter Fine-tuning，FPFT），那简直是再正常不过的操作。即使想不开要对Bert重新做个预训练（Pretraining），也无碍乎是“几张卡+几天”的事情，根本无伤大雅。

随着模型参数规模逐渐从1亿扩大到现在的百亿、千亿，全参数微调，哪怕是LoRA等仅更新部分参数的参数高效微调方法（Parameter Efficient Fine-Tuning，PEFT）也已经变成了一种奢侈的事情，因此我们开始转入对“尽可能影响更少的参数、让模型变得更快、资源消耗变得更低”的“小型化”追求。

今天要介绍的这篇文章，在LoRA的基础上，把模型训练时的参数更新量进一步缩小了将近20倍！不但如此，甚至还获得了相对更好的表现。这对我们众多资源匮乏党来说，无疑是一个巨大惊喜，就让我们来看看，它到底是怎么做到的！

论文标题:
LaMDA: Large Model Fine-Tuning via Spectrally Decomposed Low-Dimensional Adaptation

论文链接:
https://arxiv.org/pdf/2406.12832.pdf

高效！还要更高效！

大模型（LLMs）由于其在大量数据上训练后所表现出的泛化能力，在NLP的多种任务中都取得了惊人的性能。然而，要充分发挥LLMs的潜力，仍然需要对它们进行微调以适应特定的应用场景。尽管微调可以显著提升模型在特定任务上的表现，但对大型模型进行全面微调的成本非常高，这不仅包括计算资源，还包括内存需求，尤其在边缘设备上进行微调几乎是不可能的。

此外，全参数微调LLM还可能导致过拟合和灾难性遗忘，即模型在更新参数以适应新任务时，可能会忘记其在预训练阶段学到的有用信息。为了解决这些问题，研究者们提出了参数高效的微调（PEFT）技术，这些技术只更新模型参数的一小部分，或者训练任务特定的软提示。在这些PEFT技术中，低秩适应技术（LoRA）就是其中的杰出代表。

LoRA通过在模型冻结参数的主路径旁添加两个可训练的低秩适配矩阵（即下图A和B，通过秩分解预训练权重获得；

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/码创造者/article/detail/794623