LSTM公式及理解

作者：2023面试高手 | 2024-03-29 09:29:30

踩

lstm公式

LSTM的基本结构及推导

这部分内容基本都是来自Step-by-step to LSTM: 解析LSTM神经网络设计原理，只是摘录了部分内容并添加了一些贫僧的想法。

LSTM公式与结构

LSTM（Long Short Term Memory，长短期记忆，注意这里的“长短期”，后面会提到是什么意思）的作者是个有点奇怪的人¹，他的名字是Jürgen Schmidhuber（发音也挺奇怪）。LSTM的作者很有意思，如果读者感兴趣的话可以自己去看看相关资料（一定要去看作者本人的个人网站）。

接下来我们直接看LSTM，放一张网络上极为常见的图：

在这里插入图片描述

图片来自Understanding LSTM Networks，（丑的要死的）红色字体是贫僧加的。

注意图中hidden state（短期记忆）和cell state（长期记忆）的传递，以及输出其实就是 $h_t$ 。

然后就是LSTM的计算公式：
输入门：
$i_t = \sigma (W_i \cdot [h_{t-1}, x_t] + b_i)$
遗忘门：
$f_t = \sigma (W_f \cdot [h_{t-1}, x_t] + b_f)$
$\tilde{C_t} = \tanh{(W_C \cdot [h_{t-1}, x_t] + b_C)}$
输出门：
$o_t = \sigma (W_o [h_{t-1}, x_t] + b_o)$
两种记忆：
长记忆： $C_t = f_t * C_{t-1} + i_t * \tilde{C_t}$
短记忆： $h_t = o_t * \tanh(C_t)$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/2023面试高手/article/detail/335092