赞
踩
报告主题:Samba,一种简单有效的支持无限上下文的混合模型
报告日期:7月11日(周四)10:30-11:30
报告要点:
Samba是一种简单而强大的混合神经网络架构,旨在对无限的上下文长度实现高效的语言建模。Samba 在常识推理、语言理解、数学和编程等广泛的基准测试中显著优于当前最先进的纯注意力机制和状态空间模型(SSM)模型。此外,Samba 在处理长上下文方面表现出卓越的效率,与最先进的 Transformer 架构相比,在提示处理和解码吞吐量方面实现了显著的加速。该架构通过非常少量的微调就能将记忆回顾能力扩展到非常长的上下文(最长可达 256K),这突显了其在需要广泛上下文理解的实际任务中的实际应用能力。通过我们在下游长上下文摘要任务中的评估,进一步证明了这种高效的长期记忆能力的实用性。
我们的分析还提供了对混合模型最佳训练配置的见解,并强调了结合注意力机制和 SSMs 的好处。我们发现,减少分配给注意力机制的参数,同时利用 Mamba 在捕捉递归结构方面的优势,可以实现更高效和更有效的语言建模。我们的结果表明,Samba 是一种适用于具有无限上下文长度的语言建模的强大神经网络架构。我们公开了小规模模型的训练代码:https://github.com/microsoft/Samba/
报告嘉宾:
任立椋是微软生成式人工智能组高级研究员,伊利诺伊大学香槟分校计算机科学专业的应届博士生,由翟成祥教授指导。他本科毕业于上海交通大学密西根学院的电子计算机专业,由俞凯教授指导。他目前的研究兴趣在于高效长上下文建模,专家混合模型和字节级语言建模。他在 NeurIPS、ACL 和 EMNLP 发表了六篇第一作者论文。他曾是微软研究院和亚马逊科学的研究实习生。
扫码报名
近期热门报告
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。