【机器学习300问】118、循环神经网络（RNN）的基本结构是怎样的？

作者：码创造者 | 2024-06-22 01:02:03

踩

将讲解循环神经网络RNN之前，我先抛出几个疑问：为什么发明循环神经网络？它的出现背景是怎样的？这些问题可以帮助我们更好的去理解RNN。下面我来逐一解答。

一、循环神经网络诞生的背景

循环神经网络（RNN）的诞生主要是为了解决传统神经网络在处理序列数据时的局限性，尤其是它们无法有效捕获和利用时间序列或序列数据中的顺序依赖信息。

（1）传统神经网络的局限性

① 独立性假设

前馈神经网络假设输入数据之间相互独立，这与实际情况下许多数据集的自然属性相悖。在自然语言和视频流等应用中，每个元素都与时间上下文紧密相关，网络需要捕捉到这些信息才能进行有效的特征提取和模式识别

② 信息传递的单向性

前馈网络的信息传递是单向的，从输入层流向输出层，中间无环路。这使得信息只能按照一个方向流动，限制了信息反馈和动态更新，不利于处理序列数据中常见的长距离依赖问题。

③ 缺乏记忆能力

前馈网络缺乏“记忆”能力，无法存储先前的输入信息，无法共享在不同时间学习到的特征，这对于时序数据的处理是一个重大缺陷。例如，当预测一句话中的下一个单词时，网络需要“记住”前面的语境。

（2）序列数据的需求增加

随着自然语言处理、语音识别、音乐生成、视频分析等领域的发展，对能够理解和生成序列数据的模型需求日益增长。这些领域的任务往往需要模型能够理解和生成基于时间或位置依赖的输出。

① 自然语言处理

语言是由词汇按特定顺序组成的，词序影响语义解析。自然语言处理任务，如机器翻译和情感分析，需要模型理解文本中词与词之间的时间先后关系。

② 语音识别与音乐生成

语音信号具有明显的时间序列特性，识别或生成语音需要模型具备处理时序信息的能力。音乐生成亦是如此，音符的顺序直接影响旋律的流畅度和和谐度。

③ 视频分析

视频数据可以看作是一系列连续的图像帧，各帧之间存在强时间关联。视频分析任务，如动作识别，需要网络能够处理这种时间序列信息。

二、循环神经网络的基本结构

那么循环神经网络是如何通过结构设计来解决上述传统前馈神经网络遇到的问题呢？下面让我们看看单层RNN的结构设计

（1）单层RNN的结构设计

① 解释RNN处理时间序列

② 结构设计

与前馈神经网络不同，RNN中的每个时间步的神经元不仅接受当前时间步的输入数据，还接受上一时间步的隐藏状态信息。这个隐藏状态可以视为网络对序列到目前为止所见信息的一种“记忆”。每次迭代都基于前一时间步的输出和当前的输入。

有时候也把RNN的网络结构折叠起来表示：

这种图太抽象，难以理解。可以借助动图来说明。

③ 符号解释

上图中前一个时间步得到的激活值 $a$ 会传递给下一个时间步。在RNN中想要预测 $\hat y^{<3>}$ 不仅用到了 $x^{<3>}$ 还用到了之前的 $x^{<1>},x^{<2>}$ 。但如图所示RNN在预测 $\hat y^{<3>}$ 没有用到其之后的 $x^{<4>},...,x^{<T_x>}$ 这是它的局限性（可以通过双向循环神经网络解决，之后写文章介绍）。