赞
踩
报告主题:MambaByte:无Token适应,自回归地在字节序列上进行训练
报告日期:4月19日(周五)10:30-11:30
主题简介:
无Token的语言模型直接从原始字节学习,并消除了子词Tokenization的归纳偏见。然而,基于字节的操作导致序列长度显著增加。在这种情况下,标准的自回归Transformers的扩展性不佳,因为所需的有效内存随着序列长度的增加而增长。最近开发的Mamba state space model(SSM)提供了一个吸引人的替代方法,具有固定大小的内存状态和高效的解码能力。我们提出了MambaByte,这是对Mamba SSM的无Token适应,自回归地在字节序列上进行训练。
在建模方面,我们展示了MambaByte在语言建模任务上不仅能与最先进的子词Transformers竞争,甚至能超越它们,同时保持无Token语言模型的优势,例如对噪声的鲁棒性。在效率方面,我们开发了一种基于推测性解码的适应方法,结合了Tokenized drafting和字节级验证。这导致标准MambaByte实现的推断速度提高了2.6倍,显示出与子词Mamba类似的解码效率。这些发现证明了SSM在实现无Token语言建模方面的可行性。Talk也会讲一部分之前在bidirectional linear state的工作。
报告嘉宾:
王俊雄,康奈尔大学计算机学院博士生,主要研究长序列建模和线性复杂度模型,和线性复杂度的循环神经网络(RNN)模型。长序列建模是指处理和分析在时间或空间上具有较长依赖关系的数据序列的技术,保证模型在处理每个序列元素时的计算和内存使用与序列长度成线性关系,从而在处理长序列数据时能够保持高效的性能。在自然语言处理、音频信号处理和基因序列分析等领域尤为重要。
扫描下方二维码
或点击「阅读原文」报名
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。