赞
踩
一、正向传播:沿着从输入层到输出层的顺序,依次计算并存储神经网络的中间变量。
二、反向传播:沿着从输出层到输入层的顺序,依次计算并存储神经网络的中间变量和参数的梯度。
三、关系:在训练深度学习模型时,正向传播和反向传播相互依赖。一方面,正向传播的计算可能依赖于模型参数的当前值,而这些模型参数是在反向传播的梯度。另一方面,反向传播的梯度计算可能依赖于各变量的当前值,而这些变量的当前值是通过正向传 播计算得到的。
计算后通过优化算法迭代的。
输入层:假设输入是一个特征为x ∈ Rd的样本,且不考虑 偏差项,那么中间变量:
z = W(1)x,
隐藏层:把中间变量z ∈ Rh输入按元素运算的激活函数φ后,将得到向量⻓度为h的隐藏层变量,隐藏层变量h也是一个中间变量:
h = φ(z).
输出层:假设输出层参数只有权重W (2) ∈ Rq×h,可以得到向量⻓度为q的输出层变量:
o = W(2)h.
损失函数:假设损失函数为l,且样本标签为y,可以计算出单个数据样本的损失项
L = l(o, y).
根据L2 范数正则化的定义,给定超参数λ,正则化项即
最终,模型在给定的数据样 本上带正则化的损失为:J = L + s.
采取反向传播的原因:首先,深层网络由许多线性层和非线性层堆叠而来,每一层非线性层都可以视为是一个非线性函数(非线性来自于非线性激活函数)f(x),因此整个深度网络可以视为是一个复合的非线性多元函数。
我们最终的目的是希望这个非线性函数很好的完成输入到输出之间的映射,也就是找到让损失函数取得极小值。所以最终的问题就变成了一个寻找函数最小值的问题,在数学上,很自然的就会想到使用梯度下降来解决。
推导逻辑可以看看这个链接反向传播推导,容易理解。当然了也需要自己动手推导,下面是我推导的,刚开始理解着推,然后跟别人的对照一下,多推导两遍,时间久了真的会忘记
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。