赞
踩
作者:Shivam Bansal,2019年1月14日
翻译:陈之炎
校对:丁楠雅
本文约5600字,建议阅读30+分钟。
本文中,我们将探讨PyTorch的全部内容。我们将不止学习理论,还包括编写4个不同的用例,看看PyTorch的表现如何。
你可能已经在社交媒体上看到过N次关于PyTorch和 TensorFlow的两极分化的争论。这些框架的普及推动了近年来深度学习的兴起。二者都不乏坚定的支持者,但在过去的一年里,一个明显的赢家已经开始出现。
PyTorch是2018年最流行的框架之一。它已迅速成为学术界和工业界研究人员的首选深度学习框架。在过去几周使用了PyTorch之后,我体会到它是一个非常灵活且易于使用的深度学习库。
在本文中,我们将探讨PyTorch的全部内容。我们将不止学习理论-还包括编写4个不同的用例,看看PyTorch的表现如何。建立深度学习模型从来没有这么有趣过!
注:本文假设你对深度学习概念已经有了基本的理解。如果没有,我建议阅读下文。
在深入研究PyTorch的实现之前,让我们先了解一下PyTorch是什么,以及为什么它最近会变得如此流行。
PyTorch是一个基于Python的科学计算包,类似于NumPy,它具备GPU附加功能。与此同时,它也是一个深度学习框架,为实现和构建深层神经网络体系结构提供了最大程度的灵活性和速度。
最近发布的PyTorch 1.0帮助研究人员应对以下四大挑战:
从本质上讲,PyTorch与其他深度学习框架有两个不同点:
命令式编程:PyTorch在遍历每一行代码的同时执行计算,这与Python程序的执行方式非常类似,这一概念称为命令式编程,它的最大优点是可以动态地调试代码和编程逻辑。
动态计算图:PyTorch被称为“由运行定义的”框架,这意味着计算图结构(神经网络体系结构)是在运行时生成的。该属性的主要优点是:它提供了一个灵活的编程运行时接口,通过连接操作来方便系统的构建和修改。在PyTorch中,每个前向通路处定义一个新的计算图,这与使用静态图的TensorFlow形成了鲜明的对比。
PyTorch1.0附带了一个名为torch.jit的重要特性,它是一个高级编译器,允许用户分离模型和代码。此外,它还支持在定制硬件(如GPU或TPU)上进行有效的模型优化。
让我们通过一个实际案例来理解PyTorch。学习理论固然好,但是如果你不把它付诸实践的话,它就没有多大用处了!
神经网络的PyTorch实现看起来与NumPy实现完全一样。本节的目标是展示PyTorch和NumPy的等效性质。为此,让我们创建一个简单的三层网络,在输入层中有5个节点,在隐藏层中有3个节点,在输出层中有1个节点。我们只使用一个带有五个特征和一个目标的单行训练示例。
import torchn_input, n_hidden, n_output = 5, 3, 1
第一步是进行参数初始化。这里,每个层的权重和偏置参数被初始化为张量变量。张量是PyTorch的基本数据结构,用于建立不同类型的神经网络。可以将它们当作是数组和矩阵的推广,换句话说,张量是N维矩阵。
## initialize tensor for inputs, and outputsx = torch.randn((1, n_input))y = torch.randn((1, n_output))## initialize tensor variables for weightsw1 = torch.randn(n_input, n_hidden) # weight for hidden layerw2 = torch.randn(n_hidden, n_output) # weight for output layer## initialize tensor variables for bias termsb1 = torch.randn((1, n_hidden)) # bias for hidden layerb2 = torch.randn((1, n_output)) # bias for output layer
在参数初始化完成之后,可以通过以下四个关键步骤来定义和训练神经网络:
让我们更详细地了解每一个步骤。
前向传播:在这个步骤中,每个层都使用以下两个公式计算激活流。这些激活流从输入层流向输出层,以生成最终输出。
1. z = weight * input + bias2. a = activation_function (z)
下面的代码块显示了如何用PyTorch编写这些步骤。请注意,大多数函数,如指数和矩阵乘法,均与NumPy中的函数相类似。
## sigmoid activation function using pytorchdef sigmoid_activation(z): return 1 / (1 + torch.exp(-z))## activation of hidden layerz1 = torch.mm(x, w1) + b1a1 = sigmoid_activation(z1)## activation (output) of final layerz2 = torch.mm(a1, w2) + b2output = sigmoid_activation(z2)
损失计算:这一步在输出层中计算误差 (也称为损失)。一个简单的损失函数可以用来衡量实际值和预测值之间的差异。稍后,我们将查看PyTorch中可用的不同类型的损失函数。
loss = y - output
反向传播:这一步的目的是通过对偏差和权重进行边际变化,从而将输出层的误差降到最低,边际变化是利用误差项的导数计算出来的。
根据链规则的微积分原理,将增量变化返回到隐藏层,并对其权重和偏差进行相应的修正。通过对权重和偏差的调整,使得误差最小化。
## function to calculate the derivative of activationdef sigmoid_delta(x): return x * (1 - x)## compute derivative of error termsdelta_output = sigmoid_delta(output)delta_hidden = sigmoid_delta(a1)## backpass the changes to previous layersd_outp = loss * delta_outputloss_h = torch.mm(d_outp, w2.t())d_hidn = loss_h * delta_hidden
更新参数:最后一步,利用从上述反向传播中接收到的增量变化来对权重和偏差进行更新。
learning_rate = 0.1w2 += torch.mm(a1.t(), d_outp) * learning_ratew1 += torch.mm(x.t(), d_hidn) * learning_rateb2 += d_outp.sum() * learning_rateb1 += d_hidn.sum() * learning_rate
当使用大量训练示例对多个历元执行这些步骤时,损失将降至最小值。得到最终的权重和偏差值之后,用它对未知数据进行预测。
在上一节中,我们看到了用PyTorch编写神经网络的简单用例。在本节中,我们将利用PyTorch提供的不同的实用程序包(nn、autograd、Optimm、torchvision、torchtext等)来建立和训练神经网络。
利用这些包可以方便地定义和管理神经网络。在这个用例中,我们将创建一个多层感知器(MLP)网络,用于构建手写数字分类器。我们将使用torchvision包中的MNIST数据集。
与你将要从事的任何项目一样,第一步是数据预处理:首先需要将原始数据集转换为张量,并在固定范围内将其归一化。torchvision包提供了一个名为 transforms的实用程序,利用它可以将不同的转换组合在一起。
from torchvision import transforms_tasks = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ])
第一个转换是将原始数据转换为张量,第二个转换是通过以下操作执行归一化:
x_normalized = x-mean / std
数值为0.5,0.5表示红色、绿色和蓝色三个通道的均值和标准差。
from torchvision.datasets import MNIST## Load MNIST Dataset and apply transformationsmnist = MNIST("data
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。