当前位置:   article > 正文

一篇文章带你搞懂深度学习中各种【梯度下降法】_深度学习常用梯度下降法

深度学习常用梯度下降法

1、前言

学完吴恩达老师的深度学习后,对深度学习也有有了较为基础而全面的认识,但是还是没有形成肌肉记忆,有些时候反应不过来,索性开一个专题将自己不太熟悉的部分重新再梳理一遍。整理一些比较容易搞混的地方的,如有疏漏或者错误也欢迎大家批评指正,我们的目标是一起学习进步。

  • 我们都知道反向传播计算梯度,再通过梯度下降法更新参数,也知道有各种梯度下降法,但是学到头也没把它们之间关系搞懂,这篇文章将详细介绍各种梯度下降法。
  • 保证文章逻辑清晰,全篇读完相信你会收获颇深。

2、前向传播和反向传播 ( Forward and backward propagation)

一、前向传播

(第l层)
在这里插入图片描述
传播过程:A[0](即X) —> Z[1] —>A[1] —> Z[2] —>A[2]······

二、反向传播

第l层
在这里插入图片描述

  • 从后往前计算,与前向传播计算方向相反(理解为从结果推过程),计算参数的梯度。

在这里插入图片描述

3、优化算法

使用快速的优化算法,能够大大提高你和团队的效率。优化算法就是不同的梯度下降法,目的都是通过多次迭代优化参数,找到对应的最优的损失函数
在这里插入图片描述
按照每次更新参数所使用的训练数据集范围分为:

  1. batch梯度下降法(对整个训练集)
  2. mini-batch梯度下降法(对数据集中不同的mini-batch)
  3. 随机梯度下降法(对随机一个样本)

优化的梯度下降法(几乎是基于mini-batch梯度下降法):

  1. momentum梯度下降法
  2. RMSprop梯度下降法
  3. Adam梯度下降法

一、batch 梯度下降法(batch gradient descent)

  1. 把训练样本放大巨大的矩阵声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签