当前位置:   article > 正文

LoRA微调原理

lora微调原理

首先需要知道几个名词:①重参数  ②本征维度

 

重参数:也就是结构重参数化,首先构造原始网络结构(一般使用带有预训练权重网络),将其权重参数等价转换为另一组参数(推理),从而将这一系列结构等价转换为另一系列结构。举个简单的例子,用卷积的方式去理解:

本征维度:通常是指一个数据集的有效维度数量,即可以用最少的维度来表达维度来表达数据集的大部分信息。确定一个数据集的本征维度一般使用主成成分分析(PCA),独立成分分析(ICA),多维缩放(MDS)等。此处补充一些问题:

预训练的好坏与本征维度的关系:预训练模型的表征能力越强(训练得越好),本征维度越小。

预训练模型参数与本征维度的关系:模型越大本征维度越小,即越强的模型本征维度越低。

本征维度与泛化能力的关系:本征维度低的模型,训练出来的模型准确率是更高的。也就是说本征维度越低,泛化性能越好。

回到最初始的问题,LoRA与重参数和本征维度的关系:

首先给出微调的定义,即在尽量不改变推理速度的前提下,使用少量数据就能使预训练大模型达到原始推理精度的90%以上,来实现各种下游任务的应用。也就是说,在进行大量推理阶段时,网络结构是不允许被修改的,这就是重参数在这次的重要性。这里给出LoRA的公式:

BA则是低秩分解,对应的图解:

这里B设置为0的原因:优化的开始阶段保证分支参数为0。

LoRA的算法应用场景:在Transformer架构里Lora经常应用在self-attention模块和MLP模块中。在 Stable Diffusion模型里,Lora被用在condition和图像表示建立关联的Cross-Attention层。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/200194
推荐阅读
相关标签
  

闽ICP备14008679号