当前位置:   article > 正文

Mamba序列建模架构的理解_mamba原理最通俗介绍火了,一文看懂“transformer挑战者”两大主要思想!网友:年度

mamba原理最通俗介绍火了,一文看懂“transformer挑战者”两大主要思想!网友:年度

序列建模架构Mamba

记录一下刚学到的mambda的基本内容

大致理解

mambda是改进的RNN,其可以变换为RNN的递归生成形式也可以变换为CNN的并行生成形式
在推理的时侯为O(n)复杂度。训练时,由于前缀和算法的牛逼,复杂度降到O(nlogn)?

1.

首先是一个简化的RNN形式的公式:
在这里插入图片描述

2. 但也可以变换为CNN

在这里插入图片描述
y3可以由x0,x1,x2,x3一起并行计算得出

3. 于是有了:

在这里插入图片描述

4.同时为了增加可学习性,让ABC等参数都可以随着输入而改变。

即用一个网络根据输入预测参数值
在这里插入图片描述

5. 无法用CNN方式进行训练,只能用RNN形式

而为了加速计算。则需要求下式,也就是像一个前缀和一样的东西。
。
那么可以用超强的前缀和并行算法来计算:
在这里插入图片描述

reference

[1] Mamba原理最通俗介绍火了,一文看懂“Transformer挑战者”两大主要思想!网友:年度最佳解读 - 量子位的文章 - 知乎 链接: link

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/木道寻08/article/detail/982555
推荐阅读
相关标签
  

闽ICP备14008679号