算法编织者

这个屌丝很懒，什么也没留下！

热门标签

article

讲解pytorch 优化GPU显存占用，避免out of memory_讲解pytorch 优化gpu显存占用,避免out of memory

作者：算法编织者 | 2024-01-31 19:51:27

踩

讲解pytorch 优化gpu显存占用,避免out of memory

讲解PyTorch优化GPU显存占用，避免out of memory

讲解PyTorch优化GPU显存占用，避免out of memory

在深度学习任务中，对于复杂的神经网络和大规模的训练数据，显存占用成为一个常见的问题。当我们的模型和数据超出GPU显存的限制时，就会出现"out of memory"的错误。为了解决这个问题，我们可以采取一些优化策略来降低显存的占用。

1. Batch Size的调整

Batch Size是指一次前向计算以及反向传播时所使用的样本数目。较大的Batch Size会占用更多的显存空间，但训练速度会更快。因此，在训练过程中我们可以根据显存的大小合理调整Batch Size。如果显存较小，可以降低Batch Size，反之则可以增大Batch Size。


pythonCopy code
# 调整Batch Size
batch_size = 32

2. 模型权重的精度

PyTorch默认使用32位浮点数（float32）来表示权重和梯度，但较高的精度也会导致更大的显存占用。如果模型规模较大，可以尝试使用低精度的浮点数（如float16）来表示。注意，在使用低精度时需要注意数值溢出和梯度消失等问题。


pythonCopy code
# 使用混合精度
model = model.half()  # 将模型转换为float16
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

3. 梯度累积

梯度累积是一种优化策略，它可以减少一次迭代中的显存占用。通过累积梯度，我们可以将较大的Batch Size拆分为多个较小的Batch，并进行多次前向计算和反向传播。在更新参数时，我们对梯度进行累积平均，从而达到更新一次参数的效果。


pythonCopy code
# 梯度累积
accumulation_steps = 4  # 累积4次梯度
for i, data in enumerate(train_loader):
    inputs, labels = data
    outputs = model(inputs)
    loss = criterion(outputs, labels)
    loss = loss / accumulation_steps  # 将损失值进行累积平均
    loss.backward()
    if (i + 1) % accumulation_steps == 0:  # 达到累积次数则进行参数更新
        optimizer.step()
        optimizer.zero_grad()

4. 清理中间变量

在模型训练过程中，有时候我们会保存一些中间变量（如梯度、中间特征等），但这些变量会占用额外的显存空间。为了减少显存的占用，我们可以在使用完这些变量后，手动释放显存。


pythonCopy code
# 清理中间变量
del outputs, loss
torch.cuda.empty_cache()  # 清理显存

5. 数据并行处理

如果我们拥有多张GPU，可以使用数据并行处理来加速训练并减少单张显卡的负担。PyTorch提供了nn.DataParallel类来实现数据并行处理，使得我们可以将模型分布到多个GPU上进行训练。


pythonCopy code
# 数据并行处理
model = nn.DataParallel(model)

通过上述这些优化策略，我们可以有效地降低GPU显存的占用，避免"out of memory"错误的发生。然而，在实际应用中仍需要根据具体情况进行试验和调整，以达到更好的性能和稳定性。

当应用PyTorch进行图像分类任务时，可以通过以下示例代码来展示如何优化GPU显存占用，避免"out of memory"错误。


pythonCopy code
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision.datasets import CIFAR10
from torchvision.transforms import transforms
from torch.utils.data import DataLoader
from torch.cuda import empty_cache
# 数据预处理
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])
# 加载CIFAR-10数据集
trainset = CIFAR10(root='./data', train=True, download=True, transform=transform)
trainloader = DataLoader(trainset, batch_size=64, shuffle=True, num_workers=2)
# 定义模型
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 64, kernel_size=3, stride=1, padding=1)
        self.relu = nn.ReLU()
        self.pool = nn.MaxPool2d(kernel_size=2, stride=2)
        self.fc = nn.Linear(64 * 8 * 8, 10)
    def forward(self, x):
        x = self.pool(self.relu(self.conv1(x)))
        x = x.view(x.size(0), -1)
        x = self.fc(x)
        return x
model = Net().cuda()
# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)
# 开始训练
accumulator = 4  # 梯度累积次数
total_loss = 0
for epoch in range(10):  # 迭代10个epoch
    for i, data in enumerate(trainloader):
        inputs, labels = data[0].cuda(), data[1].cuda()
        
        # 前向计算
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        
        # 梯度累积
        loss = loss / accumulator
        total_loss += loss.item()
        loss.backward()
        
        if (i + 1) % accumulator == 0:
            optimizer.step()
            optimizer.zero_grad()
            
            # 显存清理
            del outputs, loss
            empty_cache()
    print(f"Epoch {epoch+1}, Loss: {total_loss / len(trainloader):.4f}")
    total_loss = 0

在上述示例代码中，我们结合实际的图像分类任务，对PyTorch优化GPU显存占用进行了实现。通过使用合适的Batch Size、梯度累积和显存清理，可以有效避免显存溢出问题，并提高训练效率。但需要根据具体情况进行实验和调整，以获得最佳的性能和稳定性。

"GPU out of memory"是指在使用GPU进行深度学习任务时，由于GPU显存不足，导致无法分配足够的显存空间来存储模型、数据和计算中间结果，从而导致程序运行失败。当显存被完全占用时，GPU无法继续进行计算，就会抛出"out of memory"错误。以下是导致GPU显存不足的一些常见原因：

模型复杂性：大型深度学习模型通常具有大量的参数和复杂的计算图，需要消耗更多的显存空间。
输入数据大小：大尺寸的输入图片、高分辨率的图像或大规模的数据集都会增加显存的消耗。
Batch Size过大：如果设置的Batch Size过大，会导致每个Batch所需的显存空间增加，从而超出GPU显存限制。
梯度累积：在梯度累积的训练过程中，每个参数更新步骤的梯度被累积多次，增加了显存的消耗。
多GPU并行：如果使用多个GPU并行训练，每个GPU都需要分配一部分显存来存储模型参数和计算结果。以下是解决GPU显存不足的一些方法：
减小Batch Size：通过降低每个训练步骤中的样本数量，减少每个Batch所需的显存空间。
减小模型复杂性：可以通过减少模型的参数数量或层数来降低显存消耗。
输入数据预处理：对输入数据进行预处理，如裁剪、缩放或降低通道数，以减少显存的使用量。
梯度累积：减少梯度累积的次数或更改累积比例，以降低显存的消耗。
内存释放和显存清理：在循环中手动释放不再使用的变量和张量，并使用torch.cuda.empty_cache()来清理显存碎片，以释放显存空间。
使用更大显存的GPU：如果硬件条件允许，可以考虑使用更大显存容量的GPU来解决显存不足的问题。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/blog/article/detail/51863

讲解pytorch 优化GPU显存占用，避免out of memory_讲解pytorch 优化gpu显存占用,避免out of memory

讲解PyTorch优化GPU显存占用，避免out of memory

1. Batch Size的调整

2. 模型权重的精度

3. 梯度累积

4. 清理中间变量

5. 数据并行处理

深度学习第一步——Pytorch-Gpu环境配置：Win11/Win10+Cuda10.2+cuDNN8.5.0+Pytorch1.8.0(步步巨细，少走十年弯路）

ResNet代码复现＋超详细注释（PyTorch）_resnet实验复现

人工智能(pytorch)搭建模型13-pytorch搭建RBM(受限玻尔兹曼机)模型，调通模型的训练与测试_pytorch rbm

图像超分辨率重建（pytorch）_超分辨率图像重建

深度解析BERT：从理论到Pytorch实战_bert pytorch

成功解决RuntimeError: [enforce fail at C:\actions-runner\_work\pytorch\pytorch\builder\windows\pytorch\c

【A情感文本分类实战】2023 Pytorch+Bert、Roberta+TextCNN、BiLstm、Lstm等实现IMDB情感文本分类完整项目（项目已开源）_roberta文本分类

linux centos 系统盘文件系统损坏-已解决_corruption of in-memory data detected

【Pytorch】搭建一个简单的泰坦尼克号预测模型

pytorch 卷积神经网络CNN

深入 PyTorch：简单易懂探索 torch.nn 模块的强大功能

简单易懂的理解 PyTorch 中 Transformer 组件_set_enable_nested_tensor

对比 PyTorch 和 TensorFlow：选择适合你的深度学习框架_pytorch tensorflow哪个好

简单易懂掌握 PyTorch 的填充技术：深入理解反射、复制、零值和常数填充

PyTorch 简单易懂的实现 CosineSimilarity 和 PairwiseDistance - 距离度量的操作_nn.cosinesimilarity(dim=1)返回的一定是标量吗

Pytorch torch.norm, torch.cosine_similarity 对向量或者张量计算Cosine相似度, 欧式距离

【pytorch】计算向量相似度_l2正则化和余弦相似度计算 pytorxh

衡量两个向量相似度的方法：余弦相似度、pytorch 求余弦相似度：torch.nn.CosineSimilarity(dim=1, eps=1e-08)

PyTorch：向量相似度度量、距离度量_f.pairwise_distance

pytorch 计算cosine余弦相似度_pytorch f.cosine_similarity计算样本对cosine相似度