大型语言模型(LLMs)的低秩适应(Low-Rank Adaptation,简称LoRA)​​​​​​​用于解决微调大型语言模型时面临的挑战。像GPT和Llama这样的模型,拥有数十亿个参数,通常对于特定任务或领域的微调来说成本过高。LoRA保留了预训练模型的权重,并在每个模型块内部加入了可训练的层。这导致需要微调的参数数量显著减少,并大幅降低了GPU内存需求。LoRA的关键优势在于,它大幅减少了可训练参数的数量——有时高达10,000倍——从而显著降低了对GPU资源的需求。




假设W表示给定神经网络层中的权重矩阵,假设ΔW是经过完整微调后W的权重更新。然后,我们可以将权重更新矩阵ΔW分解为两个较小的矩阵:ΔW = WA*WB,其中WA是A×r维矩阵,WB是r×B维矩阵。在这里,我们保持原始权重W不变,只训练新的矩阵WA和WB。这总结了LoRA方法,如下图所示。


  1. 降低资源消耗:微调深度学习模型通常需要大量的计算资源,这可能既昂贵又耗时。LoRA在保持高性能的同时,降低了对资源的需求。

  2. 更快的迭代:LoRA能够实现快速迭代,使得尝试不同的微调任务和快速适应模型变得更加容易。

  3. 改进的迁移学习:LoRA增强了迁移学习的效果,因为带有LoRA适配器的模型可以用更少的数据进行微调。这在标签数据稀缺的情况下尤其有价值。

  4. 广泛的应用性:LoRA具有通用性,可以应用于各种领域,包括自然语言处理、计算机视觉和语音识别等。

  5. 更低的碳足迹:通过降低计算需求,LoRA有助于实现更绿色、更可持续的深度学习方法。




  • AMD Instinct GPU


  • ROCm:ROCm是针对AMD GPU优化的开源机器学习平台。
  • PyTorch:PyTorch是广泛使用的深度学习框架,支持动态计算图。
  • tqdm:Python库,用于显示进度条,方便观察训练过程。


  1. 准备数据集

  2. 定义模型

  3. 添加LoRA层

  4. 初始化模型

  5. 设置训练循环

  6. 训练模型

  7. 评估模型

  8. 微调模型

  9. 测试模型


1. 首先,我们需要导入一些必要的包。

  1. import torch
  2. import torchvision.datasets as datasets
  3. import torchvision.transforms as transforms
  4. import torch.nn as nn
  5. from tqdm import tqdm

2. 设定随机数生成的种子,以确保模型的行为在每次运行时都是确定的。

  1. # 设置随机种子以保证实验的可复现性
  2. _ = torch.manual_seed(0)

我们通常不会将变量名 _ 作为赋值语句的结果,除非我们故意忽略该值。在这里,它仅用于表示我们不关心 torch.manual_seed(0) 的返回值,并使其确定性。

在训练神经网络时,我们通常希望结果是可重复的,这意味着如果我们用相同的初始参数和相同的训练数据重新运行模型,我们应该得到相同的结果。通过设置随机数生成的种子(使用 torch.manual_seed(0)),我们可以确保PyTorch在生成随机数(例如,在初始化权重或选择随机数据批次时)时使用相同的序列,从而使模型训练具有确定性。这在调试和比较不同模型或超参数时特别有用。

3. 加载数据集。

  1. transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))])
  2. # 加载MNIST数据集
  3. mnist_trainset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
  4. # 为训练创建数据加载器
  5. train_loader = torch.utils.data.DataLoader(mnist_trainset, batch_size=10, shuffle=True)
  6. # 加载MNIST测试集
  7. mnist_testset = datasets.MNIST(root='./data', train=False, download=True, transform=transform)
  8. test_loader = torch.utils.data.DataLoader(mnist_testset, batch_size=10, shuffle=True)
  9. # 定义设备
  10. device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

4. 创建用于分类数字的神经网络(我们使用了更复杂的代码以更好地展示LoRA)。

  1. # 创建一个过度昂贵的神经网络来分类MNIST数字
  2. # 不关心效率
  3. class RichBoyNet(nn.Module):
  4. def __init__(self, hidden_size_1=1000, hidden_size_2=2000):
  5. super(RichBoyNet,self).__init__()
  6. self.linear1 = nn.Linear(28*28, hidden_size_1)
  7. self.linear2 = nn.Linear(hidden_size_1, hidden_size_2)
  8. self.linear3 = nn.Linear(hidden_size_2, 10)
  9. self.relu = nn.ReLU()
  10. def forward(self, img):
  11. x = img.view(-1, 28*28)
  12. x = self.relu(self.linear1(x))
  13. x = self.relu(self.linear2(x))
  14. x = self.linear3(x)
  15. return x
  16. net = RichBoyNet().to(device)

5. 对网络进行一轮训练,以模拟在数据上的完整预训练过程。在AMD Instinct GPU上,此过程只需数秒。

  1. # 定义一个函数来训练网络
  2. def train(train_loader, net, epochs=5, total_iterations_limit=None):
  3. # 使用交叉熵损失函数
  4. cross_el = nn.CrossEntropyLoss()
  5. # 使用Adam优化器来更新网络参数,学习率设置为0.001
  6. optimizer = torch.optim.Adam(net.parameters(), lr=0.001)
  7. total_iterations = 0 # 初始化总迭代次数为0
  8. # 对于指定的epochs数量,进行循环
  9. for epoch in range(epochs):
  10. net.train() # 设置网络为训练模式
  11. loss_sum = 0 # 初始化损失总和为0
  12. num_iterations = 0 # 初始化迭代次数为0
  13. # 使用tqdm库包装train_loader,使其具有进度条功能,并显示当前epoch信息
  14. data_iterator = tqdm(train_loader, desc=f'Epoch {epoch+1}')
  15. # 如果指定了总的迭代次数限制,则更新tqdm的total值
  16. if total_iterations_limit is not None:
  17. data_iterator.total = total_iterations_limit
  18. # 遍历训练数据
  19. for data in data_iterator:
  20. num_iterations += 1 # 迭代次数加1
  21. total_iterations += 1 # 总迭代次数加1
  22. x, y = data # 解包数据(输入x和标签y)
  23. x = x.to(device) # 将输入数据移动到指定的设备(如GPU)
  24. y = y.to(device) # 将标签数据移动到指定的设备
  25. optimizer.zero_grad() # 清零优化器的梯度
  26. # 将输入数据展平(假设每个输入图像是28x28的),然后传递给网络
  27. output = net(x.view(-1, 28*28))
  28. # 计算预测输出和实际标签之间的交叉熵损失
  29. loss = cross_el(output, y)
  30. loss_sum += loss.item() # 累加损失值
  31. avg_loss = loss_sum / num_iterations # 计算平均损失
  32. # 更新tqdm的进度条,显示当前平均损失
  33. data_iterator.set_postfix(loss=avg_loss)
  34. # 执行反向传播以计算梯度
  35. loss.backward()
  36. # 使用优化器更新网络参数
  37. optimizer.step()
  38. # 如果指定了总的迭代次数限制,并且已经达到该限制,则退出训练
  39. if total_iterations_limit is not None and total_iterations >= total_iterations_limit:
  40. return
  41. # 调用train函数,只训练一个epoch
  42. train(train_loader, net, epochs=1)

在这段代码中,device应该是一个预定义的变量,表示要使用的设备(CPU或GPU)。在实际使用中,你需要先定义device,例如device = torch.device('cuda' if torch.cuda.is_available() else 'cpu'),然后才能将数据移动到该设备上。此外,tqdm是一个用于显示进度条的Python库,如果你没有安装它,需要先使用pip install tqdm进行安装。



  • 设置网络为训练模式。
  • 初始化损失总和loss_sum和迭代次数num_iterations
  • 使用tqdm包装训练数据加载器,以便显示进度。
  • 迭代数据加载器中的每个数据样本,执行以下操作:
    • 更新迭代次数。
    • 将输入数据x和标签y转换为适合GPU的格式。
    • 清除优化器的梯度。
    • 通过前向传播计算网络的输出。
    • 计算损失。
    • 累加损失并计算平均损失。
    • 将平均损失显示在进度条上。
    • 执行反向传播。
    • 更新网络权重。
    • 如果达到总迭代次数限制,提前结束训练。


[!提示] 保留原始权重的副本(克隆它们),以便在微调后查看原始权重是否被更改。

  1. original_weights = {}
  2. for name, param in net.named_parameters():
  3. original_weights[name] = param.clone().detach()




1. 选择一个数字进行微调。预训练的网络在数字9上的表现不佳,所以我们将对这个数字进行微调。

  1. def test():
  2. correct = 0
  3. total = 0
  4. wrong_counts = [0 for i in range(10)] # 初始化一个长度为10的列表,用于记录每个数字的错误次数
  5. with torch.no_grad(): # 禁用梯度计算,因为我们只进行前向传播来评估模型
  6. for data in tqdm(test_loader, desc='Testing'): # tqdm是一个用于显示进度的工具
  7. x, y = data
  8. x = x.to(device) # 将输入数据移动到指定的设备(如GPU)
  9. y = y.to(device) # 将标签数据移动到指定的设备
  10. output = net(x.view(-1, 784)) # 假设每个图像是28x28的,因此将其展平为784个特征
  11. # 遍历每个输出和对应的标签
  12. for idx, i in enumerate(output):
  13. if torch.argmax(i) == y[idx]: # 如果预测的最大概率索引与真实标签相同
  14. correct += 1 # 正确预测数加1
  15. else:
  16. wrong_counts[y[idx]] += 1 # 将对应标签的错误次数加1
  17. total += 1 # 总测试样本数加1
  18. print(f'Accuracy: {round(correct/total, 3)}') # 打印准确率
  19. # 打印每个数字的错误次数
  20. for i in range(len(wrong_counts)):
  21. print(f'数字 {i} 的错误次数: {wrong_counts[i]}')
  22. # 调用测试函数
  23. test()




  • 将输入数据x和标签y转换为适合GPU的格式。
  • 通过前向传播计算网络的输出。
  • 遍历输出中每个预测结果,如果预测的类别与真实标签相同,则增加正确预测的数量;如果不同,则增加该数字的错误计数。
  • 更新总预测数量。



2. 在引入LoRA矩阵之前,可视化原始网络中参数的数量。

  1. # 打印网络权重矩阵的大小
  2. # 保存总参数数量的计数
  3. total_parameters_original = 0
  4. for index, layer in enumerate([net.linear1, net.linear2, net.linear3]):
  5. total_parameters_original += layer.weight.nelement() + layer.bias.nelement()
  6. print(f'Layer {index+1}: W: {layer.weight.shape} + B: {layer.bias.shape}')
  7. print(f'Total number of parameters: {total_parameters_original:,}')


3. 定义LoRA参数化。

LoRA(Low-Rank Adaptation)参数化是一种用于微调大型神经网络模型的技术,特别是那些已经经过预训练的模型。LoRA通过在原始权重矩阵上添加一个低秩更新项来实现参数的高效微调,而不是直接更新整个权重矩阵。

  1. class LoRAParametrization(nn.Module):
  2. def __init__(self, features_in, features_out, rank=1, alpha=1, device='cpu'):
  3. super().__init__()
  4. # 论文第4.1节:
  5. # 我们使用随机高斯初始化A,并将B初始化为零,所以ΔW = BA在训练开始时为零
  6. self.lora_A = nn.Parameter(torch.zeros((rank, features_out)).to(device)) # 初始化为零的低秩矩阵A
  7. self.lora_B = nn.Parameter(torch.zeros((features_in, rank)).to(device)) # 初始化为零的低秩矩阵B
  8. nn.init.normal_(self.lora_A, mean=0, std=1) # 对A进行标准正态分布初始化
  9. # 论文第4.1节:
  10. # 我们对ΔWx进行α/r的缩放,其中α是一个与r无关的常数。
  11. # 当使用Adam进行优化时,调整α大致相当于调整学习率,如果我们适当地缩放初始化。
  12. # 因此,我们简单地将α设置为我们尝试的第一个r,并不调整它。
  13. # 这种缩放有助于在改变r时减少重新调整超参数的需要。
  14. self.scale = alpha / rank # 缩放因子
  15. self.enabled = True # 标志位,表示是否启用LoRA更新
  16. def forward(self, original_weights):
  17. if self.enabled:
  18. # 返回 W + (B*A)*scale
  19. # 这里B*A是一个低秩矩阵,用于更新原始权重W
  20. return original_weights + torch.matmul(self.lora_B, self.lora_A).view(original_weights.shape) * self.scale
  21. else:
  22. # 如果未启用LoRA,则直接返回原始权重
  23. return original_weights




  • 调用父类nn.Module的初始化函数。

  • 根据论文的4.1节,对lora_A使用随机高斯初始化,对lora_B使用零初始化,这样训练开始时∆W = BA为零。

  • lora_Alora_B被定义为神经网络的参数,分别初始化为大小为(rank, features_out)(features_in, rank)的零矩阵,并指定设备device

  • 使用nn.init.normal_函数对lora_A进行正态分布初始化,均值为0,标准差为1。

  • 根据论文的4.1节,∆Wxα/r的比例进行缩放,其中αr中的一个常数。

  • 当使用Adam优化器时,调整α大致上与调整学习率相同,如果我们适当地缩放初始化。

  • 因此,我们简单地将α设置为我们尝试的第一个r的值,并且不进行调整。

  • 这种缩放有助于减少我们在变化r时需要重新调整超参数的需求。

  • 计算缩放因子self.scale = alpha / rank

  • 设置一个标志self.enabledTrue,表示LoRA参数化被启用。


  • 如果self.enabledTrue,则计算W + (B*A)*scale,即将原始权重original_weights与其对应的lora_Blora_A的矩阵乘法结果进行缩放后相加。
  • 如果self.enabledFalse,则直接返回原始权重original_weights

4. 将参数化添加到我们的网络中。可以在PyTorch.org上了解更多关于PyTorch参数化的信息。

  1. import torch.nn.utils.parametrize as parametrize
  2. # 定义一个函数来将LoRA参数化应用到线性层的权重矩阵上
  3. def linear_layer_parameterization(layer, device, rank=1, lora_alpha=1):
  4. # 仅对权重矩阵添加参数化,忽略偏置项
  5. # 根据论文第4.2节:
  6. # 我们的研究仅限于为下游任务调整注意力权重,并冻结MLP模块(因此在下游任务中它们不会被训练)
  7. # [...]
  8. # 我们将[...]和偏置项的实证研究留给未来的工作。
  9. features_in, features_out = layer.weight.shape
  10. return LoRAParametrization(
  11. features_in, features_out, rank=rank, alpha=lora_alpha, device=device
  12. )
  13. # 使用parametrize.register_parametrization将LoRA参数化应用到指定的网络层
  14. # 这里我们为net.linear1, net.linear2, net.linear3的权重添加了LoRA参数化
  15. parametrize.register_parametrization(
  16. net.linear1, "weight", linear_layer_parameterization(net.linear1, device="your_device_here")
  17. )
  18. parametrize.register_parametrization(
  19. net.linear2, "weight", linear_layer_parameterization(net.linear2, device="your_device_here")
  20. )
  21. parametrize.register_parametrization(
  22. net.linear3, "weight", linear_layer_parameterization(net.linear3, device="your_device_here")
  23. )
  24. # 注意:上面的代码中 "your_device_here" 需要替换为你的实际设备名,比如 "cuda:0" 或 "cpu"
  25. # 定义一个函数来启用或禁用LoRA参数化
  26. def enable_disable_lora(enabled=True):
  27. for layer in [net.linear1, net.linear2, net.linear3]:
  28. # 通过访问layer.parametrizations["weight"][0]来访问并修改LoRA参数化的enabled属性
  29. layer.parametrizations["weight"][0].enabled = enabled





  • 根据论文的4.2节,本研究仅限于仅适应下游任务的注意力权重,并将多层感知器(MLP)模块冻结,这样做既简单又节省参数。
  • 函数中获取层的权重矩阵的形状features_infeatures_out
  • 返回一个LoRAParametrization实例,该实例将用于参数化指定层的权重矩阵。



  • 此函数接收一个参数enabled,用于指定是否启用LoRA参数化,默认为True启用。
  • 遍历网络中的线性层,通过layer.parametrizations["weight"][0].enabled设置LoRA参数化的启用状态。


5. 显示由LoRA添加的参数数量。

  1. # 初始化LoRA参数和非LoRA参数的总数
  2. total_parameters_lora = 0
  3. total_parameters_non_lora = 0
  4. # 遍历网络中的线性层
  5. for index, layer in enumerate([net.linear1, net.linear2, net.linear3]):
  6. # 计算LoRA参数(lora_A和lora_B)的数量,并累加到total_parameters_lora
  7. total_parameters_lora += layer.parametrizations["weight"][0].lora_A.nelement() + layer.parametrizations["weight"][0].lora_B.nelement()
  8. # 计算非LoRA参数(权重和偏置)的数量,并累加到total_parameters_non_lora
  9. total_parameters_non_lora += layer.weight.nelement() + layer.bias.nelement()
  10. # 打印每层的权重、偏置以及LoRA参数A和B的形状
  11. print(
  12. f'层 {index+1}: W: {layer.weight.shape} + B: {layer.bias.shape} + Lora_A: {layer.parametrizations["weight"][0].lora_A.shape} + Lora_B: {layer.parametrizations["weight"][0].lora_B.shape}'
  13. )
  14. # 验证非LoRA参数的总数是否与原始网络的参数总数匹配
  15. # 注意:total_parameters_original需要在代码的其他部分定义
  16. assert total_parameters_non_lora == total_parameters_original
  17. # 打印原始网络的参数总数
  18. print(f'原始参数总数: {total_parameters_non_lora:,}')
  19. # 打印原始参数和LoRA参数的总数
  20. print(f'原始参数 + LoRA参数的总数: {total_parameters_lora + total_parameters_non_lora:,}')
  21. # 打印LoRA引入的参数数量
  22. print(f'LoRA引入的参数数量: {total_parameters_lora:,}')
  23. # 计算LoRA参数相对于原始参数的增量百分比
  24. parameters_increment = (total_parameters_lora / total_parameters_non_lora) * 100
  25. print(f'参数增量: {parameters_increment:.3f}%')


  • 初始化total_parameters_loratotal_parameters_non_lora变量,分别用于存储LoRA参数和非LoRA参数的总数。
  • 遍历网络中的每个线性层(net.linear1net.linear2net.linear3):
    • 将每个层的LoRA参数(lora_Alora_B)的元素数量加到total_parameters_lora
    • 将每个层的权重和偏置的元素数量加到total_parameters_non_lora
    • 打印每层的权重、偏置、LoRA权重矩阵A和B的形状。
  • 通过断言检查非LoRA参数的数量是否与原始网络中的参数数量相同,确保没有计算错误。
  • 打印原始网络的总参数数量、添加LoRA后的总参数数量,以及LoRA引入的参数数量。
  • 计算参数增加的比例,并以百分比的形式打印出来,保留三位小数。


6. 冻结原始网络的所有参数,仅微调LoRA引入的参数。然后,针对数字9微调模型100个批次。

  1. # 冻结非LoRA参数
  2. for name, param in net.named_parameters():
  3. if 'lora' not in name:
  4. print(f'Freezing non-LoRA parameter {name}')
  5. param.requires_grad = False
  6. # 重新加载MNIST数据集,仅保留数字9
  7. mnist_trainset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
  8. exclude_indices = mnist_trainset.targets == 9
  9. mnist_trainset.data = mnist_trainset.data[exclude_indices]
  10. mnist_trainset.targets = mnist_trainset.targets[exclude_indices]
  11. # 为训练创建一个数据加载器
  12. train_loader = torch.utils.data.DataLoader(mnist_trainset, batch_size=10, shuffle=True)
  13. # 仅使用LoRA在数字9上训练网络,并且只训练100个批次(希望它能提高数字9的性能)
  14. train(train_loader, net, epochs=1, total_iterations_limit=100)


7. 验证微调没有改变原始权重(仅使用LoRA引入的权重)。

  1. # 检查冻结的参数在微调后仍然不变
  2. assert torch.all(net.linear1.parametrizations.weight.original == original_weights['linear1.weight'])
  3. assert torch.all(net.linear2.parametrizations.weight.original == original_weights['linear2.weight'])
  4. assert torch.all(net.linear3.parametrizations.weight.original == original_weights['linear3.weight'])
  5. enable_disable_lora(enabled=True)
  6. # 现在让我们以net.linear1层为例,检查LoRA是否正确应用到模型中,如LoRAParametrization.forward()中定义
  7. # 新的linear1.weight是通过我们的LoRA参数化的"forward"函数获得的
  8. # 原始权重已经移动到了net.linear1.parametrizations.weight.original
  9. # 更多信息在这里:https://pytorch.org/tutorials/intermediate/parametrizations.html#inspecting-a-parametrized-module
  10. assert torch.equal(net.linear1.weight, net.linear1.parametrizations.weight.original + (net.linear1.parametrizations.weight[0].lora_B @ net.linear1.parametrizations.weight[0].lora_A) * net.linear1.parametrizations.weight[0].scale)
  11. enable_disable_lora(enabled=False)
  12. # 如果我们禁用LoRA,linear1.weight就是原始的那个
  13. assert torch.equal(net.linear1.weight, original_weights['linear1.weight'])


8. 启用LoRA进行测试。启用LoRA功能,然后进行测试。数字9应该被分类得更好。

  1. # 使用LoRA启用进行测试
  2. enable_disable_lora(enabled=True)
  3. test() # 假设test()函数用于测试网络并输出相关结果


  1. # 使用LoRA禁用进行测试
  2. enable_disable_lora(enabled=False)
  3. test() # 假设test()函数用于测试网络并输出相关结果

[!注意] 您可能会观察到微调对其他标签的准确率产生了影响。这是预期的,因为我们的微调是专门针对数字9进行的。


  1. import torch
  2. import torchvision.datasets as datasets
  3. import torchvision.transforms as transforms
  4. import torch.nn as nn
  5. from tqdm import tqdm
  6. # Make torch deterministic
  7. _ = torch.manual_seed(0)
  8. transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))])
  9. # Load the MNIST data set
  10. mnist_trainset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
  11. # Create a dataloader for the training
  12. train_loader = torch.utils.data.DataLoader(mnist_trainset, batch_size=10, shuffle=True)
  13. # Load the MNIST test set
  14. mnist_testset = datasets.MNIST(root='./data', train=False, download=True, transform=transform)
  15. test_loader = torch.utils.data.DataLoader(mnist_testset, batch_size=10, shuffle=True)
  16. # Define the device
  17. device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
  18. # Create an overly expensive neural network to classify MNIST digits
  19. # Daddy got money, so I don't care about efficiency
  20. class RichBoyNet(nn.Module):
  21. def __init__(self, hidden_size_1=1000, hidden_size_2=2000):
  22. super(RichBoyNet,self).__init__()
  23. self.linear1 = nn.Linear(28*28, hidden_size_1)
  24. self.linear2 = nn.Linear(hidden_size_1, hidden_size_2)
  25. self.linear3 = nn.Linear(hidden_size_2, 10)
  26. self.relu = nn.ReLU()
  27. def forward(self, img):
  28. x = img.view(-1, 28*28)
  29. x = self.relu(self.linear1(x))
  30. x = self.relu(self.linear2(x))
  31. x = self.linear3(x)
  32. return x
  33. net = RichBoyNet().to(device)
  34. def train(train_loader, net, epochs=5, total_iterations_limit=None):
  35. cross_el = nn.CrossEntropyLoss()
  36. optimizer = torch.optim.Adam(net.parameters(), lr=0.001)
  37. total_iterations = 0
  38. for epoch in range(epochs):
  39. net.train()
  40. loss_sum = 0
  41. num_iterations = 0
  42. data_iterator = tqdm(train_loader, desc=f'Epoch {epoch+1}')
  43. if total_iterations_limit is not None:
  44. data_iterator.total = total_iterations_limit
  45. for data in data_iterator:
  46. num_iterations += 1
  47. total_iterations += 1
  48. x, y = data
  49. x = x.to(device)
  50. y = y.to(device)
  51. optimizer.zero_grad()
  52. output = net(x.view(-1, 28*28))
  53. loss = cross_el(output, y)
  54. loss_sum += loss.item()
  55. avg_loss = loss_sum / num_iterations
  56. data_iterator.set_postfix(loss=avg_loss)
  57. loss.backward()
  58. optimizer.step()
  59. if total_iterations_limit is not None and total_iterations >= total_iterations_limit:
  60. return
  61. train(train_loader, net, epochs=1)
  62. original_weights = {}
  63. for name, param in net.named_parameters():
  64. original_weights[name] = param.clone().detach()
  65. def test():
  66. correct = 0
  67. total = 0
  68. wrong_counts = [0 for i in range(10)]
  69. with torch.no_grad():
  70. for data in tqdm(test_loader, desc='Testing'):
  71. x, y = data
  72. x = x.to(device)
  73. y = y.to(device)
  74. output = net(x.view(-1, 784))
  75. for idx, i in enumerate(output):
  76. if torch.argmax(i) == y[idx]:
  77. correct +=1
  78. else:
  79. wrong_counts[y[idx]] +=1
  80. total +=1
  81. print(f'Accuracy: {round(correct/total, 3)}')
  82. for i in range(len(wrong_counts)):
  83. print(f'wrong counts for the digit {i}: {wrong_counts[i]}')
  84. test()
  85. # Print the size of the weights matrices of the network
  86. # Save the count of the total number of parameters
  87. total_parameters_original = 0
  88. for index, layer in enumerate([net.linear1, net.linear2, net.linear3]):
  89. total_parameters_original += layer.weight.nelement() + layer.bias.nelement()
  90. print(f'Layer {index+1}: W: {layer.weight.shape} + B: {layer.bias.shape}')
  91. print(f'Total number of parameters: {total_parameters_original:,}')
  92. class LoRAParametrization(nn.Module):
  93. def __init__(self, features_in, features_out, rank=1, alpha=1, device='cpu'):
  94. super().__init__()
  95. # Section 4.1 of the paper:
  96. # We use a random Gaussian initialization for A and zero for B, so ∆W = BA is zero at the
  97. # beginning of training
  98. self.lora_A = nn.Parameter(torch.zeros((rank,features_out)).to(device))
  99. self.lora_B = nn.Parameter(torch.zeros((features_in, rank)).to(device))
  100. nn.init.normal_(self.lora_A, mean=0, std=1)
  101. # Section 4.1 of the paper:
  102. # We then scale ∆Wx by α/r , where α is a constant in r.
  103. # When optimizing with Adam, tuning α is roughly the same as tuning the learning rate if we
  104. # scale the initialization appropriately.
  105. # As a result, we simply set α to the first r we try and do not tune it.
  106. # This scaling helps to reduce the need to retune hyperparameters when we vary r.
  107. self.scale = alpha / rank
  108. self.enabled = True
  109. def forward(self, original_weights):
  110. if self.enabled:
  111. # Return W + (B*A)*scale
  112. return original_weights + torch.matmul(self.lora_B, self.lora_A).view(original_weights.shape) * self.scale
  113. else:
  114. return original_weights
  115. import torch.nn.utils.parametrize as parametrize
  116. def linear_layer_parameterization(layer, device, rank=1, lora_alpha=1):
  117. # Only add the parameterization to the weight matrix, ignore the Bias
  118. # From section 4.2 of the paper:
  119. # We limit our study to only adapting the attention weights for downstream tasks and freeze the
  120. # MLP modules (so they are not trained in downstream tasks) both for simplicity and
  121. # parameter-efficiency.
  122. # [...]
  123. # We leave the empirical investigation of [...], and biases to a future work.
  124. features_in, features_out = layer.weight.shape
  125. return LoRAParametrization(
  126. features_in, features_out, rank=rank, alpha=lora_alpha, device=device
  127. )
  128. parametrize.register_parametrization(
  129. net.linear1, "weight", linear_layer_parameterization(net.linear1, device)
  130. )
  131. parametrize.register_parametrization(
  132. net.linear2, "weight", linear_layer_parameterization(net.linear2, device)
  133. )
  134. parametrize.register_parametrization(
  135. net.linear3, "weight", linear_layer_parameterization(net.linear3, device)
  136. )
  137. def enable_disable_lora(enabled=True):
  138. for layer in [net.linear1, net.linear2, net.linear3]:
  139. layer.parametrizations["weight"][0].enabled = enabled
  140. total_parameters_lora = 0
  141. total_parameters_non_lora = 0
  142. for index, layer in enumerate([net.linear1, net.linear2, net.linear3]):
  143. total_parameters_lora += layer.parametrizations["weight"][0].lora_A.nelement() + layer.parametrizations["weight"][0].lora_B.nelement()
  144. total_parameters_non_lora += layer.weight.nelement() + layer.bias.nelement()
  145. print(
  146. f'Layer {index+1}: W: {layer.weight.shape} + B: {layer.bias.shape} + Lora_A: {layer.parametrizations["weight"][0].lora_A.shape} + Lora_B: {layer.parametrizations["weight"][0].lora_B.shape}'
  147. )
  148. # The non-LoRA parameters count must match the original network
  149. assert total_parameters_non_lora == total_parameters_original
  150. print(f'Total number of parameters (original): {total_parameters_non_lora:,}')
  151. print(f'Total number of parameters (original + LoRA): {total_parameters_lora + total_parameters_non_lora:,}')
  152. print(f'Parameters introduced by LoRA: {total_parameters_lora:,}')
  153. parameters_increment = (total_parameters_lora / total_parameters_non_lora) * 100
  154. print(f'Parameters increment: {parameters_increment:.3f}%')
  155. # Freeze the non-Lora parameters
  156. for name, param in net.named_parameters():
  157. if 'lora' not in name:
  158. print(f'Freezing non-LoRA parameter {name}')
  159. param.requires_grad = False
  160. # Load the MNIST data set again, by keeping only the digit 9
  161. mnist_trainset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
  162. exclude_indices = mnist_trainset.targets == 9
  163. mnist_trainset.data = mnist_trainset.data[exclude_indices]
  164. mnist_trainset.targets = mnist_trainset.targets[exclude_indices]
  165. # Create a dataloader for the training
  166. train_loader = torch.utils.data.DataLoader(mnist_trainset, batch_size=10, shuffle=True)
  167. # Train the network with LoRA only on the digit 9 and only for 100 batches (hoping that it would
  168. # improve the performance on the digit 9)
  169. train(train_loader, net, epochs=1, total_iterations_limit=100)
  170. # Check that the frozen parameters are still unchanged by the finetuning
  171. assert torch.all(net.linear1.parametrizations.weight.original == original_weights['linear1.weight'])
  172. assert torch.all(net.linear2.parametrizations.weight.original == original_weights['linear2.weight'])
  173. assert torch.all(net.linear3.parametrizations.weight.original == original_weights['linear3.weight'])
  174. enable_disable_lora(enabled=True)
  175. # Now let's use layer of net.linear1 as an example to check if the Lora is applied to the model
  176. # correctly as defined in the LoRAParametrization.forward()
  177. # The new linear1.weight is obtained by the "forward" function of our LoRA parametrization
  178. # The original weights have been moved to net.linear1.parametrizations.weight.original
  179. # More info here: https://pytorch.org/tutorials/intermediate/parametrizations.html#inspecting-a-parametrized-module
  180. assert torch.equal(net.linear1.weight, net.linear1.parametrizations.weight.original + (net.linear1.parametrizations.weight[0].lora_B @ net.linear1.parametrizations.weight[0].lora_A) * net.linear1.parametrizations.weight[0].scale)
  181. enable_disable_lora(enabled=False)
  182. # If we disable LoRA, the linear1.weight is the original one
  183. assert torch.equal(net.linear1.weight, original_weights['linear1.weight'])
  184. # Test with LoRA enabled
  185. enable_disable_lora(enabled=True)
  186. test()
  187. # Test with LoRA disabled
  188. enable_disable_lora(enabled=False)
  189. test()

