当前位置:   article > 正文

Autograd看这一篇就够了!

autograd

autograd

Tensor训练网络很方便,但从上一小节最后的线性回归例子来看,反向传播过程需要手动实现。这对于像线性回归等较为简单的模型来说,还可以应付,但实际使用中经常出现非常复杂的网络结构,此时如果手动实现反向传播,不仅费时费力,而且容易出错,难以检查。torch.autograd就是为方便用户使用,而专门开发的一套自动求导引擎,它能够根据输入和前向传播过程自动构建计算图,并执行反向传播。

计算图(Computation Graph)是现代深度学习框架如PyTorch和TensorFlow等的核心,其为高效自动求导算法——反向传播(Back Propogation)提供了理论支持,了解计算图在实际写程序过程中会有极大的帮助。本节将涉及一些基础的计算图知识,但并不要求读者事先对此有深入的了解。

1. requires_grad

Variable提供了大部分tensor支持的函数,但其不支持部分inplace函数,因这些函数会修改tensor自身,而在反向传播中,variable需要缓存原来的tensor来计算反向传播梯度。如果想要计算各个Variable的梯度,只需调用根节点variable的backward方法,autograd会自动沿着计算图反向传播,计算每一个叶子节点的梯度。

variable.backward(gradient=None, retain_graph=None, create_graph=None)主要有如下参数:

  • grad_variables:形状与variable一致,对于y.backward(),grad_variables相当于链式法则 d z d x = d z d y × d y d x {dz \over dx}={dz \over dy} \times {dy \over dx} dxdz=dydz×dxdy中的 dz dy \textbf {dz} \over \textbf {dy} dydz。grad_variables也可以是tensor或序列。
  • retain_graph:反向传播需要缓存一些中间结果,反向传播之后,这些缓存就被清空,可通过指定这个参数不清空缓存,用来多次反向传播。
  • create_graph:对反向传播过程再次构建计算图,可通过backward of backward实现求高阶导数。

上述描述可能比较抽象,如果没有看懂,不用着急,会在本节后半部分详细介绍,下面先看几个例子。

from __future__ import print_function
import torch as t
  • 1
  • 2
#在创建tensor的时候指定requires_grad
a = t.randn(3,4, requires_grad=True)
# 或者
a = t.randn(3,4).requires_grad_()
# 或者
a = t.randn(3,4)
a.requires_grad=True
a
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
tensor([[ 0.9289,  1.4844, -1.1878, -0.7120],
        [-0.3095,  1.2505,  0.9202,  0.9983],
        [-1.3756,  1.0462,  0.9083, -1.0232]])
  • 1
  • 2
  • 3
b = t.zeros(3,4).requires_grad_()
b
  • 1
  • 2
tensor([[ 0.,  0.,  0.,  0.],
        [ 0.,  0.,  0.,  0.],
        [ 0.,  0.,  0.,  0.]])
  • 1
  • 2
  • 3
# 也可写成c = a + b
c = a.add(b)
c
  • 1
  • 2
  • 3
tensor([[ 0.9289,  1.4844, -1.1878, -0.7120],
        [-0.3095,  1.2505,  0.9202,  0.9983],
        [-1.3756,  1.0462,  0.9083, -1.0232]])
  • 1
  • 2
  • 3
d = c.sum()
d.backward() # 反向传播
  • 1
  • 2
d # d还是一个requires_grad=True的tensor,对它的操作需要慎重
d.requires_grad

  • 1
  • 2
  • 3
True
  • 1
a.grad

  • 1
  • 2
tensor([[ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.]])
  • 1
  • 2
  • 3
# 此处虽然没有指定c需要求导,但c依赖于a,而a需要求导,
# 因此c的requires_grad属性会自动设为True
a.requires_grad, b.requires_grad, c.requires_grad

  • 1
  • 2
  • 3
  • 4
(True, True, True)
  • 1
# 由用户创建的variable属于叶子节点,对应的grad_fn是None
a.is_leaf, b.is_leaf, c.is_leaf

  • 1
  • 2
  • 3
(True, True, False)
  • 1
# c.grad是None, 因c不是叶子节点,它的梯度是用来计算a的梯度
# 所以虽然c.requires_grad = True,但其梯度计算完之后即被释放
c.grad is None

  • 1
  • 2
  • 3
  • 4
True
  • 1

计算下面这个函数的导函数:
y = x 2 ∙ e x y = x^2\bullet e^x y=x2ex
它的导函数是:
d y d x = 2 x ∙ e x + x 2 ∙ e x {dy \over dx} = 2x\bullet e^x + x^2 \bullet e^x dxdy=2xex+x2ex
来看看autograd的计算结果与手动求导计算结果的误差。

def f(x):
    '''计算y'''
    y = x**2 * t.exp(x)
    return y

def gradf(x):
    '''手动求导函数'''
    dx = 2*x*t.exp(x) + x**2*t.exp(x)
    return dx

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
x = t.randn(3,4, requires_grad = True)
y = f(x)
y

  • 1
  • 2
  • 3
  • 4
tensor([[ 0.0928,  0.1978,  0.6754,  0.8037],
        [ 0.9882,  0.3546,  0.2380,  0.0002],
        [ 0.2863,  0.0448,  0.1516,  2.9122]])
  • 1
  • 2
  • 3
y.backward(t.ones(y.size())) # gradient形状与y一致
x.grad

  • 1
  • 2
  • 3
tensor([[-0.4146, -0.4610,  2.9016,  3.2831],
        [ 3.8102,  1.8614, -0.4536, -0.0244],
        [-0.4321,  0.5110, -0.4549,  8.6048]])
  • 1
  • 2
  • 3
# autograd的计算结果与利用公式手动计算的结果一致
gradf(x) 

  • 1
  • 2
  • 3
tensor([[-0.4146, -0.4610,  2.9016,  3.2831],
        [ 3.8102,  1.8614, -0.4536, -0.0244],
        [-0.4321,  0.5110, -0.4549,  8.6048]])
  • 1
  • 2
  • 3

2. 计算图

PyTorch中autograd的底层采用了计算图,计算图是一种特殊的有向无环图(DAG),用于记录算子与变量之间的关系。一般用矩形表示算子,椭圆形表示变量。如表达式$ \textbf {z = wx + b} 可 分 解 为 可分解为 \textbf{y = wx} 和 和 \textbf{z = y + b} , 其 计 算 图 如 图 3 − 3 所 示 , 图 中 ‘ M U L ‘ , ‘ A D D ‘ 都 是 算 子 , ,其计算图如图3-3所示,图中`MUL`,`ADD`都是算子, 33MULADD\textbf{w} , , \textbf{x} , , \textbf{b}$即变量。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-s4vICkFO-1599295164922)(imgs/com_graph.svg)]

如上有向无环图中, X \textbf{X} X b \textbf{b} b是叶子节点(leaf node),这些节点通常由用户自己创建,不依赖于其他变量。 z \textbf{z} z称为根节点,是计算图的最终目标。利用链式法则很容易求得各个叶子节点的梯度。
∂ z ∂ b = 1 ,   ∂ z ∂ y = 1 ∂ y ∂ w = x , ∂ y ∂ x = w ∂ z ∂ x = ∂ z ∂ y ∂ y ∂ x = 1 ∗ w ∂ z ∂ w = ∂ z ∂ y ∂ y ∂ w = 1 ∗ x {\partial z \over \partial b} = 1,\space {\partial z \over \partial y} = 1\\ {\partial y \over \partial w }= x,{\partial y \over \partial x}= w\\ {\partial z \over \partial x}= {\partial z \over \partial y} {\partial y \over \partial x}=1 * w\\ {\partial z \over \partial w}= {\partial z \over \partial y} {\partial y \over \partial w}=1 * x\\ bz=1, yz=1wy=x,xy=wxz=yzxy=1wwz=yzwy=1x
而有了计算图,上述链式求导即可利用计算图的反向传播自动完成,其过程如图3-4所示。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sM5nK0w1-1599295164934)(imgs/com_graph_backward.svg)]

在PyTorch实现中,autograd会随着用户的操作,记录生成当前variable的所有操作,并由此建立一个有向无环图。用户每进行一个操作,相应的计算图就会发生改变。更底层的实现中,图中记录了操作Function,每一个变量在图中的位置可通过其grad_fn属性在图中的位置推测得到。在反向传播过程中,autograd沿着这个图从当前变量(根节点 z \textbf{z} z)溯源,可以利用链式求导法则计算所有叶子节点的梯度。每一个前向传播操作的函数都有与之对应的反向传播函数用来计算输入的各个variable的梯度,这些函数的函数名通常以Backward结尾。下面结合代码学习autograd的实现细节。

x = t.ones(1)
b = t.rand(1, requires_grad = True)
w = t.rand(1, requires_grad = True)
y = w * x # 等价于y=w.mul(x)
z = y + b # 等价于z=y.add(b)

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
x.requires_grad, b.requires_grad, w.requires_grad

  • 1
  • 2
(False, True, True)
  • 1
# 虽然未指定y.requires_grad为True,但由于y依赖于需要求导的w
# 故而y.requires_grad为True
y.requires_grad

  • 1
  • 2
  • 3
  • 4
True
  • 1
x.is_leaf, w.is_leaf, b.is_leaf

  • 1
  • 2
(True, True, True)
  • 1
y.is_leaf, z.is_leaf

  • 1
  • 2
(False, False)
  • 1
# grad_fn可以查看这个variable的反向传播函数,
# z是add函数的输出,所以它的反向传播函数是AddBackward
z.grad_fn 

  • 1
  • 2
  • 3
  • 4
<AddBackward1 at 0x7f60b09c2630>
  • 1
# next_functions保存grad_fn的输入,是一个tuple,tuple的元素也是Function
# 第一个是y,它是乘法(mul)的输出,所以对应的反向传播函数y.grad_fn是MulBackward
# 第二个是b,它是叶子节点,由用户创建,grad_fn为None,但是有
z.grad_fn.next_functions 

  • 1
  • 2
  • 3
  • 4
  • 5
((<MulBackward1 at 0x7f60b09c2278>, 0),
 (<AccumulateGrad at 0x7f60b09c2198>, 0))
  • 1
  • 2
# variable的grad_fn对应着和图中的function相对应
z.grad_fn.next_functions[0][0] == y.grad_fn

  • 1
  • 2
  • 3
True
  • 1
# 第一个是w,叶子节点,需要求导,梯度是累加的
# 第二个是x,叶子节点,不需要求导,所以为None
y.grad_fn.next_functions

  • 1
  • 2
  • 3
  • 4
((<AccumulateGrad at 0x7f60b09c2898>, 0), (None, 0))
  • 1
# 叶子节点的grad_fn是None
w.grad_fn,x.grad_fn

  • 1
  • 2
  • 3
(None, None)
  • 1

计算w的梯度的时候,需要用到x的数值(${\partial y\over \partial w} = x $),这些数值在前向过程中会保存成buffer,在计算完梯度之后会自动清空。为了能够多次反向传播需要指定retain_graph来保留这些buffer。

# 使用retain_graph来保存buffer
z.backward(retain_graph=True)
w.grad

  • 1
  • 2
  • 3
  • 4
tensor([ 1.])
  • 1
# 多次反向传播,梯度累加,这也就是w中AccumulateGrad标识的含义
z.backward()
w.grad

  • 1
  • 2
  • 3
  • 4
tensor([ 2.])
  • 1

PyTorch使用的是动态图,它的计算图在每次前向传播时都是从头开始构建,所以它能够使用Python控制语句(如for、if等)根据需求创建计算图。这点在自然语言处理领域中很有用,它意味着你不需要事先构建所有可能用到的图的路径,图在运行时才构建。

def abs(x):
    if x.data[0]>0: return x
    else: return -x
x = t.ones(1,requires_grad=True)
y = abs(x)
y.backward()
x.grad

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
tensor([ 1.])
  • 1
x = -1*t.ones(1)
x = x.requires_grad_()
y = abs(x)
y.backward()
print(x.grad)

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
tensor([-1.])
  • 1
def f(x):
    result = 1
    for ii in x:
        if ii.item()>0: result=ii*result
    return result
x = t.arange(-2,4,requires_grad=True)
y = f(x) # y = x[3]*x[4]*x[5]
y.backward()
x.grad

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
tensor([ 0.,  0.,  0.,  6.,  3.,  2.])
  • 1

变量的requires_grad属性默认为False,如果某一个节点requires_grad被设置为True,那么所有依赖它的节点requires_grad都是True。这其实很好理解,对于$ \textbf{x}\to \textbf{y} \to \textbf{z} , x . r e q u i r e s g r a d = T r u e , 当 需 要 计 算 ,x.requires_grad = True,当需要计算 x.requiresgrad=True\partial z \over \partial x 时 , 根 据 链 式 法 则 , 时,根据链式法则, \frac{\partial z}{\partial x} = \frac{\partial z}{\partial y} \frac{\partial y}{\partial x} , 自 然 也 需 要 求 ,自然也需要求 \frac{\partial z}{\partial y}$,所以y.requires_grad会被自动标为True.

有些时候我们可能不希望autograd对tensor求导。认为求导需要缓存许多中间结构,增加额外的内存/显存开销,那么我们可以关闭自动求导。对于不需要反向传播的情景(如inference,即测试推理时),关闭自动求导可实现一定程度的速度提升,并节省约一半显存,因其不需要分配空间计算梯度。

x = t.ones(1, requires_grad=True)
w = t.rand(1, requires_grad=True)
y = x * w
# y依赖于w,而w.requires_grad = True
x.requires_grad, w.requires_grad, y.requires_grad

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
(True, True, True)
  • 1
with t.no_grad():
    x = t.ones(1)
    w = t.rand(1, requires_grad = True)
    y = x * w
# y依赖于w和x,虽然w.requires_grad = True,但是y的requires_grad依旧为False
x.requires_grad, w.requires_grad, y.requires_grad

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
(False, True, False)
  • 1
t.no_grad??

  • 1
  • 2
t.set_grad_enabled(False)
x = t.ones(1)
w = t.rand(1, requires_grad = True)
y = x * w
# y依赖于w和x,虽然w.requires_grad = True,但是y的requires_grad依旧为False
x.requires_grad, w.requires_grad, y.requires_grad

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
(False, True, False)
  • 1
# 恢复默认配置
t.set_grad_enabled(True)

  • 1
  • 2
  • 3
<torch.autograd.grad_mode.set_grad_enabled at 0x7f60b01730b8>
  • 1

如果我们想要修改tensor的数值,但是又不希望被autograd记录,那么我么可以对tensor.data进行操作

a = t.ones(3,4,requires_grad=True)
b = t.ones(3,4,requires_grad=True)
c = a * b

a.data # 还是一个tensor

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
tensor([[ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.]])
  • 1
  • 2
  • 3
a.data.requires_grad # 但是已经是独立于计算图之外

  • 1
  • 2
False
  • 1
d = a.data.sigmoid_() # sigmoid_ 是个inplace操作,会修改a自身的值
d.requires_grad

  • 1
  • 2
  • 3
False
  • 1
a 

  • 1
  • 2
tensor([[ 0.7311,  0.7311,  0.7311,  0.7311],
        [ 0.7311,  0.7311,  0.7311,  0.7311],
        [ 0.7311,  0.7311,  0.7311,  0.7311]])
  • 1
  • 2
  • 3

如果我们希望对tensor,但是又不希望被记录, 可以使用tensor.data 或者tensor.detach()

a.requires_grad

  • 1
  • 2
True
  • 1
# 近似于 tensor=a.data, 但是如果tensor被修改,backward可能会报错
tensor = a.detach()
tensor.requires_grad

  • 1
  • 2
  • 3
  • 4
False
  • 1
# 统计tensor的一些指标,不希望被记录
mean = tensor.mean()
std = tensor.std()
maximum = tensor.max()

  • 1
  • 2
  • 3
  • 4
  • 5
tensor[0]=1
# 下面会报错: RuntimeError: one of the variables needed for gradient
#             computation has been modified by an inplace operation
# 因为 c=a*b, b的梯度取决于a,现在修改了tensor,其实也就是修改了a,梯度不再准确
# c.sum().backward() 

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

在反向传播过程中非叶子节点的导数计算完之后即被清空。若想查看这些变量的梯度,有两种方法:

  • 使用autograd.grad函数
  • 使用hook

autograd.gradhook方法都是很强大的工具,更详细的用法参考官方api文档,这里举例说明基础的使用。推荐使用hook方法,但是在实际使用中应尽量避免修改grad的值。

x = t.ones(3, requires_grad=True)
w = t.rand(3, requires_grad=True)
y = x * w
# y依赖于w,而w.requires_grad = True
z = y.sum()
x.requires_grad, w.requires_grad, y.requires_grad

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
(True, True, True)
  • 1
# 非叶子节点grad计算完之后自动清空,y.grad是None
z.backward()
(x.grad, w.grad, y.grad)

  • 1
  • 2
  • 3
  • 4
(tensor([ 0.2709,  0.0473,  0.5052]), tensor([ 1.,  1.,  1.]), None)
  • 1
# 第一种方法:使用grad获取中间变量的梯度
x = t.ones(3, requires_grad=True)
w = t.rand(3, requires_grad=True)
y = x * w
z = y.sum()
# z对y的梯度,隐式调用backward()
t.autograd.grad(z, y)

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
(tensor([ 1.,  1.,  1.]),)
  • 1
# 第二种方法:使用hook
# hook是一个函数,输入是梯度,不应该有返回值
def variable_hook(grad):
    print('y的梯度:',grad)

x = t.ones(3, requires_grad=True)
w = t.rand(3, requires_grad=True)
y = x * w
# 注册hook
hook_handle = y.register_hook(variable_hook)
z = y.sum()
z.backward()

# 除非你每次都要用hook,否则用完之后记得移除hook
hook_handle.remove()

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
y的梯度: tensor([ 1.,  1.,  1.])
  • 1

最后再来看看variable中grad属性和backward函数grad_variables参数的含义,这里直接下结论:

  • variable x \textbf{x} x的梯度是目标函数${f(x)} 对 对 \textbf{x} 的 梯 度 , 的梯度, \frac{df(x)}{dx} = (\frac {df(x)}{dx_0},\frac {df(x)}{dx_1},…,\frac {df(x)}{dx_N}) , 形 状 和 ,形状和 \textbf{x}$一致。
  • 对于y.backward(grad_variables)中的grad_variables相当于链式求导法则中的 ∂ z ∂ x = ∂ z ∂ y ∂ y ∂ x \frac{\partial z}{\partial x} = \frac{\partial z}{\partial y} \frac{\partial y}{\partial x} xz=yzxy中的 ∂ z ∂ y \frac{\partial z}{\partial y} yz。z是目标函数,一般是一个标量,故而 ∂ z ∂ y \frac{\partial z}{\partial y} yz的形状与variable y \textbf{y} y的形状一致。z.backward()在一定程度上等价于y.backward(grad_y)。z.backward()省略了grad_variables参数,是因为 z z z是一个标量,而 ∂ z ∂ z = 1 \frac{\partial z}{\partial z} = 1 zz=1
x = t.arange(0,3, requires_grad=True)
y = x**2 + x*2
z = y.sum()
z.backward() # 从z开始反向传播
x.grad

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
tensor([ 2.,  4.,  6.])
  • 1
x = t.arange(0,3, requires_grad=True)
y = x**2 + x*2
z = y.sum()
y_gradient = t.Tensor([1,1,1]) # dz/dy
y.backward(y_gradient) #从y开始反向传播
x.grad

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
tensor([ 2.,  4.,  6.])
  • 1

另外值得注意的是,只有对variable的操作才能使用autograd,如果对variable的data直接进行操作,将无法使用反向传播。除了对参数初始化,一般我们不会修改variable.data的值。

在PyTorch中计算图的特点可总结如下:

  • autograd根据用户对variable的操作构建其计算图。对变量的操作抽象为Function
  • 对于那些不是任何函数(Function)的输出,由用户创建的节点称为叶子节点,叶子节点的grad_fn为None。叶子节点中需要求导的variable,具有AccumulateGrad标识,因其梯度是累加的。
  • variable默认是不需要求导的,即requires_grad属性默认为False,如果某一个节点requires_grad被设置为True,那么所有依赖它的节点requires_grad都为True。
  • variable的volatile属性默认为False,如果某一个variable的volatile属性被设为True,那么所有依赖它的节点volatile属性都为True。volatile属性为True的节点不会求导,volatile的优先级比requires_grad高。
  • 多次反向传播时,梯度是累加的。反向传播的中间缓存会被清空,为进行多次反向传播需指定retain_graph=True来保存这些缓存。
  • 非叶子节点的梯度计算完之后即被清空,可以使用autograd.gradhook技术获取非叶子节点的值。
  • variable的grad与data形状一致,应避免直接修改variable.data,因为对data的直接操作无法利用autograd进行反向传播
  • 反向传播函数backward的参数grad_variables可以看成链式求导的中间结果,如果是标量,可以省略,默认为1
  • PyTorch采用动态图设计,可以很方便地查看中间层的输出,动态的设计计算图结构。

这些知识不懂大多数情况下也不会影响对pytorch的使用,但是掌握这些知识有助于更好的理解pytorch,并有效的避开很多陷阱

3. 扩展autograd

目前绝大多数函数都可以使用autograd实现反向求导,但如果需要自己写一个复杂的函数,不支持自动反向求导怎么办? 写一个Function,实现它的前向传播和反向传播代码,Function对应于计算图中的矩形, 它接收参数,计算并返回结果。下面给出一个例子。

class Mul(Function):
                                                            
    @staticmethod
    def forward(ctx, w, x, b, x_requires_grad = True):
        ctx.x_requires_grad = x_requires_grad
        ctx.save_for_backward(w,x)
        output = w * x + b
        return output
        
    @staticmethod
    def backward(ctx, grad_output):
        w,x = ctx.saved_tensors
        grad_w = grad_output * x
        if ctx.x_requires_grad:
            grad_x = grad_output * w
        else:
            grad_x = None
        grad_b = grad_output * 1
        return grad_w, grad_x, grad_b, None

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20

分析如下:

  • 自定义的Function需要继承autograd.Function,没有构造函数__init__,forward和backward函数都是静态方法
  • backward函数的输出和forward函数的输入一一对应,backward函数的输入和forward函数的输出一一对应
  • backward函数的grad_output参数即t.autograd.backward中的grad_variables
  • 如果某一个输入不需要求导,直接返回None,如forward中的输入参数x_requires_grad显然无法对它求导,直接返回None即可
  • 反向传播可能需要利用前向传播的某些中间结果,需要进行保存,否则前向传播结束后这些对象即被释放

Function的使用利用Function.apply(variable)

from torch.autograd import Function
class MultiplyAdd(Function):
                                                            
    @staticmethod
    def forward(ctx, w, x, b):                              
        ctx.save_for_backward(w,x)
        output = w * x + b
        return output
        
    @staticmethod
    def backward(ctx, grad_output):                         
        w,x = ctx.saved_tensors
        grad_w = grad_output * x
        grad_x = grad_output * w
        grad_b = grad_output * 1
        return grad_w, grad_x, grad_b                       

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
x = t.ones(1)
w = t.rand(1, requires_grad = True)
b = t.rand(1, requires_grad = True)
# 开始前向传播
z=MultiplyAdd.apply(w, x, b)
# 开始反向传播
z.backward()

# x不需要求导,中间过程还是会计算它的导数,但随后被清空
x.grad, w.grad, b.grad

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
(None, tensor([ 1.]), tensor([ 1.]))
  • 1
x = t.ones(1)
w = t.rand(1, requires_grad = True)
b = t.rand(1, requires_grad = True)
#print('开始前向传播')
z=MultiplyAdd.apply(w,x,b)
#print('开始反向传播')

# 调用MultiplyAdd.backward
# 输出grad_w, grad_x, grad_b
z.grad_fn.apply(t.ones(1))

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
(tensor([ 1.]), tensor([ 0.1563]), tensor([ 1.]))
  • 1

之所以forward函数的输入是tensor,而backward函数的输入是variable,是为了实现高阶求导。backward函数的输入输出虽然是variable,但在实际使用时autograd.Function会将输入variable提取为tensor,并将计算结果的tensor封装成variable返回。在backward函数中,之所以也要对variable进行操作,是为了能够计算梯度的梯度(backward of backward)。下面举例说明,有关torch.autograd.grad的更详细使用请参照文档。

x = t.tensor([5], requires_grad=True)
y = x ** 2
grad_x = t.autograd.grad(y, x, create_graph=True)
grad_x # dy/dx = 2 * x

  • 1
  • 2
  • 3
  • 4
  • 5
(tensor([ 10]),)
  • 1
grad_grad_x = t.autograd.grad(grad_x[0],x)
grad_grad_x # 二阶导数 d(2x)/dx = 2

  • 1
  • 2
  • 3
(tensor([ 2]),)
  • 1

这种设计虽然能让autograd具有高阶求导功能,但其也限制了Tensor的使用,因autograd中反向传播的函数只能利用当前已经有的Variable操作。这个设计是在0.2版本新加入的,为了更好的灵活性,也为了兼容旧版本的代码,PyTorch还提供了另外一种扩展autograd的方法。PyTorch提供了一个装饰器@once_differentiable,能够在backward函数中自动将输入的variable提取成tensor,把计算结果的tensor自动封装成variable。有了这个特性我们就能够很方便的使用numpy/scipy中的函数,操作不再局限于variable所支持的操作。但是这种做法正如名字中所暗示的那样只能求导一次,它打断了反向传播图,不再支持高阶求导。

上面所描述的都是新式Function,还有个legacy Function,可以带有__init__方法,forwardbackwad函数也不需要声明为@staticmethod,但随着版本更迭,此类Function将越来越少遇到,在此不做更多介绍。

此外在实现了自己的Function之后,还可以使用gradcheck函数来检测实现是否正确。gradcheck通过数值逼近来计算梯度,可能具有一定的误差,通过控制eps的大小可以控制容忍的误差。

下面举例说明如何利用Function实现sigmoid Function。

class Sigmoid(Function):
                                                             
    @staticmethod
    def forward(ctx, x): 
        output = 1 / (1 + t.exp(-x))
        ctx.save_for_backward(output)
        return output
        
    @staticmethod
    def backward(ctx, grad_output): 
        output,  = ctx.saved_tensors
        grad_x = output * (1 - output) * grad_output
        return grad_x                            

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
# 采用数值逼近方式检验计算梯度的公式对不对
test_input = t.randn(3,4, requires_grad=True)
t.autograd.gradcheck(Sigmoid.apply, (test_input,), eps=1e-3)

  • 1
  • 2
  • 3
  • 4
True
  • 1
def f_sigmoid(x):
    y = Sigmoid.apply(x)
    y.backward(t.ones(x.size()))
    
def f_naive(x):
    y =  1/(1 + t.exp(-x))
    y.backward(t.ones(x.size()))
    
def f_th(x):
    y = t.sigmoid(x)
    y.backward(t.ones(x.size()))
    
x=t.randn(100, 100, requires_grad=True)
%timeit -n 100 f_sigmoid(x)
%timeit -n 100 f_naive(x)
%timeit -n 100 f_th(x)

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
216 µs ± 42.5 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
285 µs ± 42.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
113 µs ± 46 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
  • 1
  • 2
  • 3

显然f_sigmoid要比单纯利用autograd加减和乘方操作实现的函数快不少,因为f_sigmoid的backward优化了反向传播的过程。另外可以看出系统实现的built-in接口(t.sigmoid)更快。

4. 小试牛刀: 用Variable实现线性回归

在上一节中讲解了利用tensor实现线性回归,在这一小节中,将讲解如何利用autograd/Variable实现线性回归,以此感受autograd的便捷之处。

import torch as t
%matplotlib inline
from matplotlib import pyplot as plt
from IPython import display 
import numpy as np

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
# 设置随机数种子,为了在不同人电脑上运行时下面的输出一致
t.manual_seed(1000) 

def get_fake_data(batch_size=8):
    ''' 产生随机数据:y = x*2 + 3,加上了一些噪声'''
    x = t.rand(batch_size,1) * 5
    y = x * 2 + 3 + t.randn(batch_size, 1)
    return x, y

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
# 来看看产生x-y分布是什么样的
x, y = get_fake_data()
plt.scatter(x.squeeze().numpy(), y.squeeze().numpy())

  • 1
  • 2
  • 3
  • 4

在这里插入图片描述

# 随机初始化参数
w = t.rand(1,1, requires_grad=True)
b = t.zeros(1,1, requires_grad=True)
losses = np.zeros(500)

lr =0.005 # 学习率

for ii in range(500):
    x, y = get_fake_data(batch_size=32)
    
    # forward:计算loss
    y_pred = x.mm(w) + b.expand_as(y)
    loss = 0.5 * (y_pred - y) ** 2
    loss = loss.sum()
    losses[ii] = loss.item()
    
    # backward:手动计算梯度
    loss.backward()
    
    # 更新参数
    w.data.sub_(lr * w.grad.data)
    b.data.sub_(lr * b.grad.data)
    
    # 梯度清零
    w.grad.data.zero_()
    b.grad.data.zero_()
    
    if ii%50 ==0:
        # 画图
        display.clear_output(wait=True)
        x = t.arange(0, 6).view(-1, 1)
        y = x.mm(w.data) + b.data.expand_as(x)
        plt.plot(x.numpy(), y.numpy()) # predicted
        
        x2, y2 = get_fake_data(batch_size=20) 
        plt.scatter(x2.numpy(), y2.numpy()) # true data
        
        plt.xlim(0,5)
        plt.ylim(0,13)   
        plt.show()
        plt.pause(0.5)
        
print(w.item(), b.item())

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44

在这里插入图片描述

plt.plot(losses)
plt.ylim(5,50)

  • 1
  • 2
  • 3
(5, 50)
  • 1

在这里插入图片描述

用autograd实现的线性回归最大的不同点就在于autograd不需要计算反向传播,可以自动计算微分。这点不单是在深度学习,在许多机器学习的问题中都很有用。另外需要注意的是在每次反向传播之前要记得先把梯度清零。

本章主要介绍了PyTorch中两个基础底层的数据结构:Tensor和autograd中的Variable。Tensor是一个类似Numpy数组的高效多维数值运算数据结构,有着和Numpy相类似的接口,并提供简单易用的GPU加速。Variable是autograd封装了Tensor并提供自动求导技术的,具有和Tensor几乎一样的接口。autograd是PyTorch的自动微分引擎,采用动态计算图技术,能够快速高效的计算导数。

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号