当前位置:   article > 正文

LSTM详解_lstm公式

lstm公式

博客已迁至知乎,文本链接:https://zhuanlan.zhihu.com/p/70873081

前言

之前的文章讲解了RNN的基本结构BPTT算法及梯度消失问题,说到了RNN无法解决长期依赖问题,本篇文章要讲的LSTM很好地解决了这个问题。本文部分内容翻译自Understanding LSTM Networks

文章分为四个部分:

  • RNN与LSTM的对比
  • LSTM的核心思想
  • LSTM公式和结构详解
  • LSTM变体介绍

一. RNN与LSTM对比

1.公式对比:

首先对RNN的公式做一下变形:
s t = t a n h ( W s s t − 1 + W x x t + b ) = t a n h ( W [ s t − 1 , x t ] + b ) o t = s o f t m a x ( V s t + c )

stamp;=tanh(Wsst1+Wxxt+b)amp;=tanh(W[st1,xt]+b)otamp;=softmax(Vst+c)
stot=tanh(Wsst1+Wxxt+b)=tanh(W[st1,xt]+b)=softmax(Vst+c)

其中: [ s t − 1 , x t ] [s_{t-1},x_t] [st1,xt]表示把 s t − 1 s_{t-1} st1 x t x_t xt两个向量连接成一个更长的向量。所以有 W [ s t − 1 , x t ] = W s s t − 1 + W x x t W[s_{t-1},x_t]=W_ss_{t-1}+W_xx_t W[st1,xt]=Wsst1+Wxxt,写成矩阵乘法形式:
[ W ] [ s t − 1 x t ] = [ W s W x ] [ s t − 1 x t ] = W s s t − 1 + W x x t

[W][st1xt]amp;=[Wsamp;Wx][st1xt]amp;=Wsst1+Wxxt

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/335091
推荐阅读
相关标签
  

闽ICP备14008679号