当前位置:   article > 正文

1-- 线性神经网络(线性回归)_线性回归神经网络

线性回归神经网络

1.1线性回归

        我理解的就是对方程:y = x_{1}w_{1}+x_{2}w_{2}+...+x_{d}w_{d}+b 根据现有的数据来求解该方程中的w和b。但由于实际问题中的数据x和y并不是都能被这个方程所描述,就像二维的散点图中,不能用一条直线来穿过所有的点,所以我们的目标是要让这条直线能够穿过尽可能多的点,不在该直线上的点也能让它尽可能的离这条直线近。即我们要找到合适的w和b使得计算出来的y'与真实的y误差最小化。

        给定训练数据特征X和对应的已知标签y, 线性回归的目标是找到一组权重向量w和偏置b: 当给定从X的同分布中取样的新样本特征时, 这组权重向量和偏置能够使得新样本预测标签的误差尽可能小。 

        损失函数(loss function)能够量化目标的实际值与预测值之间的差距。 通常会选择非负数作为损失,且数值越小表示损失越小,完美预测时的损失为0。 回归问题中最常用的损失函数是平方误差函数。 当样本i的预测值为y^(i),其相应的真实标签为y(i)时, 平方误差可以定义为以下公式:

l^{(i)}(\mathbf{w}, b) = \frac{1}{2} \left(\hat{y}^{(i)} - y^{(i)}\right)^2.
        由于平方误差函数中的二次方项, 估计值y^(i)和观测值y(i)之间较大的差异将导致更大的损失。为了度量模型在整个数据集上的质量,我们需计算在训练集n个样本上的损失均值(也等价于求和)。

L(\mathbf{w}, b) =\frac{1}{n}\sum_{i=1}^n l^{(i)}(\mathbf{w}, b) =\frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right)^2.

         不难看出线性回归的解可以用一个公式简单地表达出来, 这类解叫作解析解(analytical solution)。当无法得到解析解的情况下,我们可以使用梯度下降(gradient descent)的方法, 这种方法几乎可以优化所有深度学习模型, 它通过不断地在损失函数递减的方向上更新参数来降低误差。

        在每次需要计算更新的时候随机抽取一小批样本, 这种变体叫做小批量随机梯度下降(minibatch stochastic gradient descent)每次迭代中,我们首先随机抽样一个小批量B, 它是由固定数量的训练样本组成的。 然后,我们计算小批量的平均损失关于模型参数的导数(也可以称为梯度)。 最后,我们将梯度乘以一个预先确定的正数η,并从当前参数的值中减掉。

(\mathbf{w},b) \leftarrow (\mathbf{w},b) - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_{(\mathbf{w},b)} l^{(i)}(\mathbf{w},b).

1.2 实现线性回归 

  1. !pip install git+https://github.com/d2l-ai/d2l-zh@release # installing d2l
  2. #导入各个模块
  3. %matplotlib inline
  4. import random
  5. import torch
  6. from d2l import torch as d2l
  7. import matplotlib.pyplot as plt
  8. #这里我们使用确定好的w、b以及随机的x来生成对应y
  9. #最后看该经过线性回归计算得到的w和b与实际的w和b是否一致
  10. def synthetic_data(w,b,num_examples):#根据设置的w和b来得到随机数据x以及对应的y
  11. X = torch.normal(0, 1, (num_examples, len(w)))
  12. y = torch.matmul(X, w) + b
  13. y += torch.normal(0, 0.01, y.shape)#这里为了不让数据完全拟合于线性模型 对y加入噪声
  14. return X, y.reshape((-1,1))
  15. true_w = torch.tensor([2, -3.4])
  16. true_b = 4.2
  17. features, labels = synthetic_data(true_w, true_b, 1000)#得到生成的x以及y
  18. print('features:', features[0], '\nlable:',labels[0])#这里是检查features, labels的数据是否正常
  19. #下面是可视化当前的数据 但这里有时候会报错 就不画了
  20. #d2l.set_figsize()
  21. #d2l.plt.scatter(features[:, (1)].detach().numpy(), labels.detach().numpy(), 1);
  22. def data_iter(batch_size, features, labels):#该函数用来返回固定批量(batch_size大小)的样本数据
  23. num_examples = len(features)
  24. indices = list(range(num_examples))
  25. random.shuffle(indices)#这里将特征的下标打乱 随机小批量中的“随机”
  26. for i in range(0, num_examples, batch_size):
  27. batch_indices = torch.tensor(indices[i: min(i+batch_size, num_examples)])
  28. yield features[batch_indices], labels[batch_indices]#返回数据 一批一批的返回
  29. batch_size = 10
  30. for X, y in data_iter(batch_size, features, labels):#简单的输出看一下 每批量的样本
  31. print(X, '\n', y)
  32. break
  33. def linreg(X, w, b):#建立模型
  34. return torch.matmul(X, w) + b
  35. def squared_loss(y_hat, y):#损失函数
  36. return (y_hat - y.reshape(y_hat.shape))**2/2
  37. def sgd(params, lr, batch_size):#优化算法
  38. #并不是所有的操作都需要进行计算图的生成,只是想要网络结果的话就不需要后向传播
  39. #如果你想通过网络输出的结果去进一步优化网络的话 就需要后向传播了。
  40. with torch.no_grad():#表明当前计算不需要反向传播,使用之后,强制后边的内容不进行计算图的构建
  41. for param in params:
  42. param -= lr * param.grad / batch_size#更新参数 这里÷batch_size是因为前面计算的是小批量的全部损失 而我们是要用平均损失来优化
  43. param.grad.zero_()
  44. lr = 0.03 #学习率
  45. num_epochs = 5
  46. net = linreg
  47. loss = squared_loss
  48. #这里是随机初始化w和b的值 因为后续会对其进行更新 这里初始值不影响
  49. w = torch.normal(0, 0.01, size=(2,1), requires_grad=True)#从N~(0,0.01)分布中随机返回大小为2✖1大小的矩阵
  50. b = torch.zeros(1, requires_grad=True)
  51. for epoch in range(num_epochs):
  52. for X, y in data_iter(batch_size, features, labels):
  53. l = loss(net(X, w, b), y)# x和y的小批量损失
  54. l.sum().backward()
  55. sgd([w, b], lr, batch_size)#使用优化算法 对w和b进行更新
  56. with torch.no_grad():
  57. train_l = loss(net(features, w, b), labels)
  58. print(f'epoch {epoch+1}, loss {float(train_l.mean()):f}')
  59. #看一下最终结果与最开始设定的w、b的误差
  60. print(f'w的估计误差: {true_w - w.reshape(true_w.shape)}')
  61. print(f'b的估计误差: {true_b - b}')

运行结果: 

1.3 简洁实现

  1. !pip install git+https://github.com/d2l-ai/d2l-zh@release # installing d2l
  2. import numpy as np
  3. import torch
  4. from torch.utils import data
  5. from d2l import torch as d2l
  6. true_w = torch.tensor([2, -3.4])
  7. true_b = 4.2
  8. features, labels = d2l.synthetic_data(true_w, true_b, 1000)#生成数据集
  9. def load_array(data_arrays, batch_size, is_train=True):
  10. #is_train表示是否希望数据迭代器对象在每个迭代周期内打乱数据。
  11. dataset = data.TensorDataset(*data_arrays)
  12. return data.DataLoader(dataset, batch_size, shuffle=is_train)
  13. batch_size = 10
  14. data_iter = load_array((features, labels), batch_size)
  15. next(iter(data_iter)) #使用next从迭代器中获取第一项
  16. from torch import nn
  17. #定义模型
  18. net = nn.Sequential(nn.Linear(2, 1))
  19. net[0].weight.data.normal_(0, 0.01)#张量a,那么a.normal_()就表示用标准正态分布填充a
  20. net[0].bias.data.fill_(0)# b.fill_(0)就表示用0填充b
  21. loss = nn.MSELoss()
  22. trainer = torch.optim.SGD(net.parameters(), lr=0.003)
  23. num_epochs = 3
  24. for epoch in range(num_epochs):
  25. for X, y in data_iter:
  26. l = loss(net(X), y)
  27. trainer.zero_grad()
  28. l.backward()
  29. trainer.step()
  30. l = loss(net(features), labels)
  31. print(f'epoch {epoch + 1}, loss {l:f}')
  32. w = net[0].weight.data
  33. print('w的估计误差:', true_w - w.reshape(true_w.shape))
  34. b = net[0].bias.data
  35. print('b的估计误差:', true_b - b)

运行结果:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/430677
推荐阅读
相关标签
  

闽ICP备14008679号