赞
踩
深度学习中的权重衰减(weight decay)是一种正则化技术,用于防止过拟合。它通过对模型的损失函数添加一个正则化项,来惩罚模型的权重参数。
在权重衰减中,模型的损失函数会由原来的仅考虑预测误差部分改为考虑预测误差和权重的大小两部分。其中,预测误差部分衡量模型的拟合能力,而权重大小部分则衡量模型的复杂度。通过权重衰减,我们可以在保持模型的拟合能力的同时,尽量减小模型的复杂度,从而达到减小过拟合的效果。
具体来说,权重衰减可以通过在损失函数中添加一个惩罚项来实现。通常,惩罚项采用L2范数(也称为欧氏距离)来度量权重的大小。L2范数惩罚项是指将所有权重的平方和添加到损失函数中。这样,当模型的权重较大时,惩罚项的值也会较大,进而影响损失函数的最小化。通过调整权重衰减的系数,可以控制权重衰减的程度。
使用权重衰减的好处是可以避免模型过度依赖某些特征,并且能够使模型的权重参数更加均衡。然而,权重衰减也可能导致模型的训练速度变慢,因为模型要同时考虑拟合误差和权重大小两个方面。此外,权重衰减还有可能使模型在一定程度上降低训练集的拟合能力。
需要注意的是,权重衰减与正则化是两个不同的概念。正则化是一种通过在损失函数中添加一个正则化项来限制模型复杂度的方法,而权重衰减是正则化的一种实现方式之一。
- %matplotlib inline
- from d2l import torch as d2l
- import torch
- from torch import nn
-
- #生成一个人工数据集
- n_train, n_test, num_inputs, batch_size = 20, 100, 200, 5#训练集20
-
- true_w, true_b = d2l.ones((num_inputs, 1)) * 0.01, 0.05#权重都为0.1,200个x,偏移为0.05
- train_data = d2l.synthetic_data(true_w, true_b, n_train)
- train_iter = d2l.load_array(train_data, batch_size)
- test_data = d2l.synthetic_data(true_w, true_b, n_test)
- test_iter = d2l.load_array(test_data, batch_size, is_train=False)
- #初始化模型参数
- def init_params():
- w = torch.normal(0, 1, size=(num_inputs, 1), requires_grad=True)
- b = torch.zeros(1, requires_grad=True)
- return [w, b]
- #定义L2范数惩罚
- def l2_penalty(w):
- return torch.sum(w.pow(2)) / 2
- #训练代码
- def train(lambd):# 传入一个超参数
- w, b = init_params()
- net, loss = lambda X: d2l.linreg(X, w, b), d2l.squared_loss
- num_epochs, lr = 100, 0.003
- animator = d2l.Animator(xlabel='epochs', ylabel='loss', yscale='log',#动画效果
- xlim=[5, num_epochs], legend=['train', 'test'])
- for epoch in range(num_epochs):
- for X, y in train_iter:
- # 增加了L2范数惩罚项,
- # 广播机制使l2_penalty(w)成为一个长度为batch_size的向量
- l = loss(net(X), y) + lambd * l2_penalty(w)
- l.sum().backward()
- d2l.sgd([w, b], lr, batch_size)
- if (epoch + 1) % 5 == 0:
- animator.add(epoch + 1, (d2l.evaluate_loss(net, train_iter, loss),
- d2l.evaluate_loss(net, test_iter, loss)))
- print('w的L2范数是:', torch.norm(w).item())
train(lambd=0) #不进行权重衰减
train(lambd=3)#进行权重衰减
train(lambd=10)
- def train_concise(wd):
- net = nn.Sequential(nn.Linear(num_inputs, 1))
- for param in net.parameters():
- param.data.normal_()
- loss = nn.MSELoss(reduction='none')
- num_epochs, lr = 100, 0.003
- # 偏置参数没有衰减
- trainer = torch.optim.SGD([
- {"params":net[0].weight,'weight_decay': wd},
- {"params":net[0].bias}], lr=lr)
- animator = d2l.Animator(xlabel='epochs', ylabel='loss', yscale='log',
- xlim=[5, num_epochs], legend=['train', 'test'])
- for epoch in range(num_epochs):
- for X, y in train_iter:
- trainer.zero_grad()
- l = loss(net(X), y)
- l.mean().backward()
- trainer.step()
- if (epoch + 1) % 5 == 0:
- animator.add(epoch + 1,
- (d2l.evaluate_loss(net, train_iter, loss),
- d2l.evaluate_loss(net, test_iter, loss)))
- print('w的L2范数:', net[0].weight.norm().item())
train_concise(0)#不进行权重衰减
train_concise(3)
train_concise(10)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。