mamba的学习记录_mamba nan

作者：运维做开发 | 2024-07-26 09:18:43

踩

mamba nan

最近新出了一种很火的架构mamba，听说吊打transformer，特此学习一下，总结一下学习的内容。

state-spaces/mamba (github.com)3个月8Kstar，确实有点受欢迎。

1.先验

RNN（循环神经网络）是一种在序列数据处理中广泛应用的神经网络模型。相较于传统的前馈神经网络（Feedforward Neural Network），RNN具有一种循环结构，使其能够对序列数据进行建模和处理。

RNN的关键思想是引入了时间维度上的循环连接，使得网络在处理序列数据时可以保持信息的传递和记忆。在RNN中，每个时间步都有一个隐藏状态（hidden state），它对应于该时间步的输入以及前面时间步的隐藏状态。这种隐藏状态的传递和更新机制使得RNN能够捕捉序列中的时序依赖关系。

在每个时间步，RNN的计算可以分为两个关键步骤：

RNN的灵活性使其适用于多种任务，例如自然语言处理（NLP）、语音识别、机器翻译、时间序列预测等。然而，传统的RNN存在梯度消失（gradient vanishing）和梯度爆炸（gradient explosion）等问题，导致对长期时序依赖的建模能力有限。

梯度爆炸：偏导数 ∂ℎ�∂ℎ0 将会变得非常大，实际在训练时将会遇到NaN错误，会影响训练的收敛，甚至导致网络不收敛。可以用梯度裁剪（gradient clipping）来解决。

梯度消失：此时偏导数 ∂ℎ�∂ℎ0 将会变得十分接近0。LSTM和GRU通过门（gate）机制控制RNN中的信息流动，用来缓解梯度消失问题。其核心思想是有选择性的处理输入

这是CNN的神经元连接图。从输入层-->隐藏层-->输出层。

RNN更加关注时间维度上的信息。此时的隐藏状态是黄色部分

有了记忆力的RNN可以根据隐藏层状态推出出苹果不是水果，而是手机。

关于2D图怎么看：

蓝色的球就是隐藏层，红色的是输入，最后右边那个不知道什么颜色的球就是输出

黄色的线就是Ws*St-1的那个Ws

把上面旋转90°就变成这样的。横轴为时间。

为了解决这些问题，出现了一些RNN的变体，如长短期记忆网络（LSTM）和门控循环单元（GRU）。这些变体通过引入门控机制，能够更好地处理长期依赖关系，并在许多任务中取得了显著的性能提升。

LSTM（长短期记忆网络）是一种循环神经网络（RNN）的变体，专门设计用于解决传统RNN中的梯度消失和长期依赖问题。它通过引入门控机制，能够更好地处理和捕捉序列中的长期依赖关系。

LSTM的关键思想是引入了称为“门”的结构，它能够控制信息的流动和存储。一个标准的LSTM单元包含以下组件：

S：短期记忆链条

C: 长期记忆链条

注意sigmoid是在当前输入Xt和上一时刻隐藏状态St-1（上一时刻的短期记忆）里面来决定删除（遗忘门）不重要的信息，重要的信息添加（输入门）到Ct长期记忆里面，并且把Ct-1的信息归并到Ct

sigmoid 用在了各种gate上，产生0~1之间的值，这个一般只有sigmoid最直接了。
tanh 用在了状态和输出上，是对数据的处理，使用tanh函数，是因为其输出在-1-1之间，这与大多数场景下特征分布是0中心的吻合。此外，tanh函数在输入为0近相比 Sigmoid函数有更大的梯度，通常使模型收敛更快。