赞
踩
前言
这三天我主要基于于 Task2 的代码进行参数的调整以及代码的优化,得到了一些结论,但是相对而言最终的模型效果并不是特别理想,此外,在 task3 的代码发布以后我也同样尝试去进行了测试,在这上面有较好的效果,当然本篇主要是针对于 Task2 出现的一些结果和数据的总结和反思。
一、主要问题
首先是数据量的问题,因为一开始的时候我是在本地电脑上跑的代码,所以说在数据量上我一直担心会导致时间太长出现意外。因此一直在4000条数据,20轮训练以内进行测试。后来在出现 task3 以后,随着代码的运行次数增多。我尝试性的(在当时我个人看来有点冒险,毕竟要投入大量时间做一件没有把握的事)增大了数据量,发现仅仅就 task3 代码而言,其实几万条数据花费的时间还在接受范围内,此外,我使用魔塔平台提供的虚拟机同步进行代码运行,最终在3有较好的效果。由此来看,不要因为担心运行时间过长而刻意限制数据量。建议数据量N至少10000条以上,训练轮数5轮(10轮最好)从而看出明显的效果。
其次还有一个问题是硬件方面,由于在 task1 是数据量较小时运行速度不明显,但是当数据量上去以后可以明显的看出来,本地运行没有云端的计算机速度快,我是后面测试是又用魔搭才意识到的,因此,本地部署是可以,但是建议利用上云端资源同步进行。
二、参数微调结论
由于 task2 数据量较小,因此只具有一定的参考价值,各位酌情参考,下面可以调整的参数以及其作用:
- N_EPOCHS = 5 // 表示训练的轮数(epochs)。每个epoch是对整个训练数据集的一次完整遍历。增加epoch的数量可以提高模型的准确性,但同时也可能导致过拟合
- CLIP = 1 // 梯度裁剪(gradient clipping)的阈值。梯度裁剪是一种防止梯度爆炸的技术,通过设置一个阈值,当梯度的范数超过这个阈值时,将其缩放到该阈值以内。
- gradient_accumulation_steps = 2 // 梯度累积的步数。这个参数允许在更新模型参数之前累积多个小批量(mini-batch)的梯度,从而模拟更大的批量大小,而不会增加内存使用。
- # 模型参数
- INPUT_DIM = len(en_vocab) // 输入维度,这里指的是英语词汇表的大小(len(en_vocab))。这个参数决定了输入嵌入层的维度。
- OUTPUT_DIM = len(zh_vocab) // 输出维度,这里指的是中文词汇表的大小(len(zh_vocab))。这个参数决定了输出嵌入层的维度。
- EMB_DIM = 128 // 嵌入层(embedding layer)的维度。嵌入层将输入的离散符号(如单词)转换为连续的向量表示。
- HID_DIM = 256 // 隐藏层(hidden layer)的维度。这个参数决定了模型中隐藏层的神经元数量,影响模型的复杂度和学习能力。
- N_LAYERS = 2 // 模型中隐藏层的数量。增加层数可以提高模型的表达能力,但也可能导致过拟合。
- DROPOUT = 0.5 // 丢弃率(dropout rate)。Dropout是一种正则化技术,通过在训练过程中随机丢弃一部分神经元来防止过拟合。
经过测试(主要依靠控制台输出的Train Loss,Train PPL, Val. Loss: , Val. PPL参数进行判断),EMB_DIM 和 HID_DIM 翻倍,N_LAYERS = 1 ,DROPOUT 稍低一点 的效果较为好。其中 EMB_DIM 和 HID_DIM 会使得整体数值降低,N_LAYERS 高了以后没哟出现正面效果,分数提高的同时时间还变长。
三、代码优化
在代码方面,我和 凌晨三点半 队伍进行了合作交流,因此有一定的重合性,最后我主要采取了以下方式进行优化:数据清理 、 混合精度训练 、 梯度积累 。
在深度学习模型的训练过程中,数据清理和预处理是非常关键的一步。清洗函数和预处理函数对提高模型的效果起到了至关重要的作用,具体表现为以下几个方面:
1. 处理缩略词和特殊符号
英文文本中包含许多缩略词和特殊符号,例如 "don't"、"can't" 等。`contractions.fix` 函数将这些缩略词展开为完整的单词,减少了模型学习的复杂性,因为模型不再需要单独记住这些缩略词的含义,从而提高了训练的效果。
2. 去除无关字符
通过正则表达式 `re.sub` 去掉括号中的内容(如某些注释性的文字),可以减少训练时的噪声数据,使模型更专注于主要内容。
- 对于英文文本,保留字母、数字和基本的标点符号,而去掉其他特殊字符,可以使模型训练过程中更关注文本的核心部分。
- 对于中文文本,保留中文字符和基本的标点符号,而去除其他不相关的字符也能有助于减小数据噪声。
3. 改进模型的泛化能力
数据清理后的文本更加规整,使得数据分布更加统一,有助于模型更好地学习文本模式,从而提高泛化能力。
4. 提高训练效率
清理后的数据量通常会减少,处理速度相对更快,能够加快模型的训练过程,提高训练效率。
下图是为进行清洗的翻译结果,可以明显看出脏数据的影响。
- # 数据清洗函数
- def unicode_to_ascii(text):
- return ''.join(c for c in unicodedata.normalize('NFD', text) if unicodedata.category(c) != 'Mn')
-
-
- def preprocess_en(text):
- text = unicode_to_ascii(text.strip())
- text = contractions.fix(text)
- text = re.sub(r'\([^)]*\)', '', text)
- text = re.sub(r"[^a-zA-Z0-9.!?]+", r" ", text) # 保留数字和基本标点
- return text
-
-
- def preprocess_zh(text):
- # 去除(掌声)等脏数据
- text = re.sub(r'\([^)]*\)', '', text)
- text = re.sub(r"[^\u4e00-\u9fa5,。!?0-9]", "", text) # 保留中文字符和基本标点
- return text
混合精度训练可以在保持模型精度的同时,减少显存占用和提高训练速度。可以使用PyTorch的torch.cuda.amp
模块来实现。
- scaler = GradScaler()
-
- for epoch in range(N_EPOCHS):
- for batch in train_loader:
- optimizer.zero_grad()
-
- with autocast():
- output = model(batch)
- loss = compute_loss(output, target)
-
- scaler.scale(loss).backward()
- scaler.unscale_(optimizer)
- torch.nn.utils.clip_grad_norm_(model.parameters(), CLIP)
- scaler.step(optimizer)
- scaler.update()
面对显存不足以支持大批量大小,可以考虑使用梯度累积(gradient accumulation)。即在多次迭代中累积梯度,然后进行一次优化步骤。
- for epoch in range(N_EPOCHS):
- for i, batch in enumerate(train_loader):
- output = model(batch)
- loss = compute_loss(output, target)
- loss = loss / gradient_accumulation_steps
- loss.backward()
-
- if (i + 1) % gradient_accumulation_steps == 0:
- optimizer.step()
- optimizer.zero_grad()
四、总结
本次通过了大量的代码运行测试以及代码优化方案,以上提到的只是个人认为较为成功的一些结果,希望可以给各位有一定的启发作用,但是 task2 由于经验和时间的原因并没有得到较好的结果,只是为 task3 的优化进行了一定的积累,最终的测试上传结果并不理想,仍然有巨大的提上空间。
task1 效果:
task2 效果:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。