赞
踩
编者按: 对于大语言模型的微调训练来说,传统的全参数微调方法需要处理数百万甚至数十亿级别的参数,计算量和显存占用都非常大。而 LoRA 这种技术方案,通过引入少量的可训练矩阵来调整预训练模型的行为,极大降低了训练所需的计算资源,是近年来大语言模型微调的一个重大突破。
我们今天为大家带来的文章,介绍了众多具有代表性的 LoRA 改进方法:LoRA+ 通过为两个矩阵引入不同的学习率提高训练效率;VeRA 和 LoRA-FA 通过训练更少的参数降低计算量;LoRA-drop 和 AdaLoRA 通过动态选择需要训练的层提高效率;DoRA通过将权重分解为权重方向和权重绝对值这两个独立的部分提高模型性能;Delta-LoRA则引入额外的梯度训练预训练矩阵,在几乎不增加计算开销的情况下引入更多可训练参数。
当然,这些技术只是其中的一部分,远不能算是一篇完整的综述。我们希望今天分享的这篇文章能够给大家带来新的启发。
作者 | Dorian Drost
编译 | 岳扬
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。