当前位置:   article > 正文

(10-3)大模型优化算法和技术:学习率调度_大模型的训练过程中通常需要选择合适的学习率,常用的学习率调整方法包括下列哪一

大模型的训练过程中通常需要选择合适的学习率,常用的学习率调整方法包括下列哪一

学习率调度(Learning Rate Scheduling)是在训练深度学习模型时,动态地调整学习率的策略。适当的学习率调度可以帮助模型更快地收敛并获得更好的性能。

10.4.1  学习率调度的方法

学习率调度的选择取决于您的模型、数据集和训练任务。通常,您可以尝试不同的方法并根据训练的效果选择最合适的调度策略。在实际应用中,动态地调整学习率可以帮助模型更好地适应不同的训练阶段和数据分布。常用的学习率调度方法如下所示:

  1. 固定学习率(Fixed Learning Rate):最简单的方法是使用固定的学习率,不随训练进行而变化。这对于小型数据集和简单模型可能有效,但在训练的后期可能会导致收敛速度变慢。
  2. 学习率衰减(Learning Rate Decay):在训练的每个epoch或一定步数之后,将学习率进行衰减。常见的衰减方式包括按固定比例减小学习率,或者按指数、余弦等方式调整学习率。
  3. Step衰减(Step Decay):学习率在训练的每个固定步数进行一次衰减,例如每隔10个epoch减小一次学习率。
  4. 指数衰减(Exponential Decay):学习率按指数方式衰减,例如每个epoch将学习率乘以一个小于1的因子。
  5. 余弦退火(Cosine Annealing):学习率按余弦函数的方式进行周期性调整,这可以帮助模型跳出局部最优并更好地探索搜索空间。
  6. 自适应方法(Adaptive Methods):一些自适应方法,如Adam、Adagrad和RMSProp,可以根据参数的变化动态调整学习率,这也是一种形式的学习率调度。
  7. 学习率查找(Learning Rate Finder):在训练的初期,通过尝试不同的学习率,找到一个初始学习率,然后再应用其他的学习率调度方法。
  8. One Cycle学习率策略:在训练过程中,将学习率从一个小值快速增加到一个较大值,然后再逐渐减小。这有助于快速探索搜索空间并稳定模型训练。

10.4.2  TensorFlow学习率调度优化实践

在TensorFlow中,学习率调度优化是通过调整优化器的学习率参数来实现的。TensorFlow提供了多种学习率调度的方法和优化器,下面是一些常用的学习率调度方法及其使用例子:

(1)学习率衰减(Learning Rate Decay): 在训练的每个epoch或一定步数之后,将学习率进行衰减。tf.keras.optimizers.schedules模块提供了多种学习率衰减的方式,例如tf.keras.optimizers.schedules.ExponentialDecay和tf.keras.optimizers.schedules.StepDecay。

  1. import tensorflow as tf
  2. initial_learning_rate = 0.1
  3. lr_schedule = tf.keras.optimizers.schedules.ExponentialDecay(
  4. initial_learning_rate, decay_steps=1000, decay_rate=0.9
  5. )
  6. optimizer = tf.keras.optimizers.SGD(learning_rate=lr_schedule)

(2)余弦退火(Cosine Annealing): 余弦退火将学习率按余弦函数的方式进行周期性调整。

  1. import tensorflow as tf
  2. initial_learning_rate = 0.1
  3. lr_schedule = tf.keras.experimental.CosineDecay(
  4. initial_learning_rate, decay_steps=1000
  5. )
  6. optimizer = tf.keras.optimizers.SGD(learning_rate=lr_schedule)

(3)自适应方法(Adaptive Methods): TensorFlow的优化器中,如Adam、Adagrad和RMSProp,会根据参数的变化动态调整学习率,因此可以视为一种学习率调度。

  1. import tensorflow as tf
  2. optimizer = tf.keras.optimizers.Adam(learning_rate=0.001)

(4)学习率查找(Learning Rate Finder): 可以通过尝试不同的学习率来找到一个合适的初始学习率,然后再应用其他的学习率调度方法。

  1. import tensorflow as tf
  2. from tensorflow.keras.optimizers.schedules import OneCycleSchedule
  3. class LearningRateFinder(OneCycleSchedule):
  4. def __init__(self, *args, **kwargs):
  5. super().__init__(*args, **kwargs)
  6. self.learning_rates = []
  7. def __call__(self, step):
  8. lr = super().__call__(step)
  9. self.learning_rates.append(lr)
  10. return lr
  11. # Create a learning rate finder schedule
  12. lr_finder_schedule = LearningRateFinder(
  13. initial_learning_rate=1e-7, max_learning_rate=1e-1, step_size=1000
  14. )
  15. optimizer = tf.keras.optimizers.SGD(learning_rate=lr_finder_schedule)

以上例子展示了一些TensorFlow中的学习率调度方法。大家根据自己项目的任务和数据集,可以选择适合的学习率调度策略来优化模型的训练过程。例如下面是一个完整的TensorFlow学习率调度优化的例子,在例子中创建了一个简单的神经网络模型,然后使用学习率衰减来调整优化器的学习率。

实例10-1TensorFlow使用学习率衰减来调整优化器的学习率(源码路径:daima/10/xue.py)

实例文件xue.py的具体实现代码如下所示。

  1. import tensorflow as tf
  2. from tensorflow.keras import layers, models
  3. from tensorflow.keras.datasets import mnist
  4. from tensorflow.keras.optimizers.schedules import ExponentialDecay
  5. import numpy as np
  6. # 加载并预处理MNIST数据集
  7. (train_images, train_labels), (test_images, test_labels) = mnist.load_data()
  8. train_images, test_images = train_images / 255.0, test_images / 255.0
  9. # 构建一个简单的神经网络模型
  10. model = models.Sequential([
  11. layers.Flatten(input_shape=(28, 28)),
  12. layers.Dense(128, activation='relu'),
  13. layers.Dropout(0.2),
  14. layers.Dense(10, activation='softmax')
  15. ])
  16. # 使用指数衰减学习率调度来定义学习率
  17. 初始学习率 = 0.1
  18. 衰减步数 = len(train_images) // 32
  19. 衰减率 = 0.95
  20. 学习率调度 = ExponentialDecay(
  21. 初始学习率, decay_steps=衰减步数, decay_rate=衰减率
  22. )
  23. # 使用学习率调度编译模型的优化器
  24. 优化器 = tf.keras.optimizers.SGD(learning_rate=学习率调度)
  25. model.compile(optimizer=优化器,
  26. loss='sparse_categorical_crossentropy',
  27. metrics=['accuracy'])
  28. # 训练模型
  29. history = model.fit(train_images, train_labels, epochs=5,
  30. validation_data=(test_images, test_labels))
  31. # 评估模型
  32. 测试损失, 测试准确率 = model.evaluate(test_images, test_labels, verbose=2)
  33. print("\n测试准确率:", 测试准确率)

在上述代码中,首先加载了MNIST数据集并构建了一个简单的神经网络模型。然后,我们使用ExponentialDecay学习率调度来定义一个衰减的学习率,并将其应用于优化器。最后,我们通过model.fit训练模型,并使用model.evaluate评估模型的性能。大家可以根据需要调整学习率衰减的参数,例如initial_learning_rate、decay_steps和decay_rate,以获得更好的训练效果。执行后会输出:

  1. Epoch 1/5
  2. 1875/1875 [==============================] - 14s 6ms/step - loss: 0.3305 - accuracy: 0.9031 - val_loss: 0.1645 - val_accuracy: 0.9538
  3. Epoch 2/5
  4. 1875/1875 [==============================] - 11s 6ms/step - loss: 0.1740 - accuracy: 0.9493 - val_loss: 0.1244 - val_accuracy: 0.9623
  5. Epoch 3/5
  6. 1875/1875 [==============================] - 12s 6ms/step - loss: 0.1352 - accuracy: 0.9603 - val_loss: 0.1039 - val_accuracy: 0.9699
  7. Epoch 4/5
  8. 1875/1875 [==============================] - 12s 7ms/step - loss: 0.1145 - accuracy: 0.9669 - val_loss: 0.0900 - val_accuracy: 0.9724
  9. Epoch 5/5
  10. 1875/1875 [==============================] - 15s 8ms/step - loss: 0.0990 - accuracy: 0.9708 - val_loss: 0.0849 - val_accuracy: 0.9742
  11. 313/313 - 1s - loss: 0.0849 - accuracy: 0.9742
  12. Test accuracy: 0.9742000102996826

10.4.3  PyTorch学习率调度优化实践

当使用PyTorch进行深度学习模型训练时,经常需要调整学习率以提高训练效果。PyTorch提供了多种学习率调度器,用于根据训练的进程动态地调整学习率。例如下面是一个使用PyTorch学习率调度器的例子。

实例10-2:PyTorch使用学习率调度器来调整优化器的学习率(源码路径:daima\10\pyxue.py

实例文件pyxue.py的具体实现代码如下所示。

  1. import torch
  2. import torch.nn as nn
  3. import torch.optim as optim
  4. from torch.optim.lr_scheduler import StepLR
  5. import torchvision
  6. import torchvision.transforms as transforms
  7. # 设置随机种子以保证可复现性
  8. torch.manual_seed(42)
  9. # 加载并预处理CIFAR-10数据集
  10. transform = transforms.Compose(
  11. [transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]
  12. )
  13. trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform)
  14. trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True)
  15. # 定义一个简单的神经网络模型
  16. class Net(nn.Module):
  17. def __init__(self):
  18. super(Net, self).__init__()
  19. self.conv = nn.Sequential(
  20. nn.Conv2d(3, 6, 5),
  21. nn.ReLU(),
  22. nn.MaxPool2d(2, 2),
  23. )
  24. self.fc = nn.Sequential(
  25. nn.Linear(6 * 14 * 14, 120),
  26. nn.ReLU(),
  27. nn.Linear(120, 84),
  28. nn.ReLU(),
  29. nn.Linear(84, 10),
  30. )
  31. def forward(self, x):
  32. x = self.conv(x)
  33. x = x.view(-1, 6 * 14 * 14)
  34. x = self.fc(x)
  35. return x
  36. # 实例化模型和损失函数
  37. net = Net()
  38. criterion = nn.CrossEntropyLoss()
  39. # 使用随机梯度下降(SGD)优化器
  40. optimizer = optim.SGD(net.parameters(), lr=0.1)
  41. # 使用StepLR学习率调度器,每个step_size个epoch将学习率降低为gamma倍
  42. scheduler = StepLR(optimizer, step_size=30, gamma=0.1)
  43. # 训练模型
  44. for epoch in range(50):
  45. running_loss = 0.0
  46. for i, data in enumerate(trainloader, 0):
  47. inputs, labels = data
  48. optimizer.zero_grad()
  49. outputs = net(inputs)
  50. loss = criterion(outputs, labels)
  51. loss.backward()
  52. optimizer.step()
  53. running_loss += loss.item()
  54. # 每个epoch结束后,使用学习率调度器更新学习率
  55. scheduler.step()
  56. print(f"Epoch {epoch+1}, Loss: {running_loss/len(trainloader)}")
  57. print("Finished Training")

在上述代码中,定义了一个简单的神经网络模型,使用随机梯度下降(SGD)优化器进行训练,并使用StepLR学习率调度器在每个指定的step_size个epoch后将学习率降低为gamma倍,以帮助模型更好地收敛。

执行后会输出:

Fold 1 Accuracy: 0.6667

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/355035
推荐阅读
相关标签
  

闽ICP备14008679号