赞
踩
记录一下刚学到的mambda的基本内容
mambda是改进的RNN,其可以变换为RNN的递归生成形式也可以变换为CNN的并行生成形式。
在推理的时侯为O(n)复杂度。训练时,由于前缀和算法的牛逼,复杂度降到O(nlogn)?
首先是一个简化的RNN形式的公式:
y3可以由x0,x1,x2,x3一起并行计算得出
即用一个网络根据输入预测参数值
而为了加速计算。则需要求下式,也就是像一个前缀和一样的东西。
那么可以用超强的前缀和并行算法来计算:
[1] Mamba原理最通俗介绍火了,一文看懂“Transformer挑战者”两大主要思想!网友:年度最佳解读 - 量子位的文章 - 知乎 链接: link
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。