赞
踩
首先需要知道几个名词:①重参数 ②本征维度
①重参数:也就是结构重参数化,首先构造原始网络结构(一般使用带有预训练权重网络),将其权重参数等价转换为另一组参数(推理),从而将这一系列结构等价转换为另一系列结构。举个简单的例子,用卷积的方式去理解:
②本征维度:通常是指一个数据集的有效维度数量,即可以用最少的维度来表达维度来表达数据集的大部分信息。确定一个数据集的本征维度一般使用主成成分分析(PCA),独立成分分析(ICA),多维缩放(MDS)等。此处补充一些问题:
预训练的好坏与本征维度的关系:预训练模型的表征能力越强(训练得越好),本征维度越小。
预训练模型参数与本征维度的关系:模型越大本征维度越小,即越强的模型本征维度越低。
本征维度与泛化能力的关系:本征维度低的模型,训练出来的模型准确率是更高的。也就是说本征维度越低,泛化性能越好。
回到最初始的问题,LoRA与重参数和本征维度的关系:
首先给出微调的定义,即在尽量不改变推理速度的前提下,使用少量数据就能使预训练大模型达到原始推理精度的90%以上,来实现各种下游任务的应用。也就是说,在进行大量推理阶段时,网络结构是不允许被修改的,这就是重参数在这次的重要性。这里给出LoRA的公式:
BA则是低秩分解,对应的图解:
这里B设置为0的原因:优化的开始阶段保证分支参数为0。
LoRA的算法应用场景:在Transformer架构里Lora经常应用在self-attention模块和MLP模块中。在 Stable Diffusion模型里,Lora被用在condition和图像表示建立关联的Cross-Attention层。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。