赞
踩
二十多年来, 塞普·霍赫赖特 创举 长短期记忆 (LSTM) 架构在许多深度学习突破和实际应用中发挥了重要作用。从生成自然语言到为语音识别系统提供动力,LSTM 一直是人工智能革命背后的驱动力。
然而,即使是 LSTM 的创建者也认识到它们固有的局限性,导致它们无法充分发挥潜力。无法修改存储的信息、内存容量有限以及缺乏并行化等缺点为 Transformer 和其他模型的兴起铺平了道路,以超越 LSTM 来完成更复杂的语言任务。
但在最近的一项进展中,Hochreiter 和他的团队 NXAI 引入了一个新的变体,称为 扩展 LSTM (xLSTM) 解决这些长期存在的问题。最近的一篇研究论文中提出,xLSTM 建立在使 LSTM 如此强大的基本思想之上,同时通过架构创新克服了其关键弱点。
xLSTM 的核心是两个新颖的组件:指数门控和增强型记忆结构。指数门控可以更灵活地控制信息流,使 xLSTM 能够在遇到新上下文时有效地修改决策。同时,与传统标量 LSTM 相比,矩阵存储器的引入大大增加了存储容量。
但增强功能还不止于此。通过利用从大型语言模型借用的技术(例如并行性和块的残差堆叠),xLSTM 可以有效地扩展到数十亿个参数。这释放了它们对极长序列和上下文窗口进行建模的潜力——这是复杂语言理解的关键功能。
Hochreiter 最新创作的意义是巨大的。想象一下虚拟助手可以在长达数小时的对话中可靠地跟踪上下文。或者在广泛的数据训练后能够更稳健地推广到新领域的语言模型。应用程序遍及 LSTM 产生影响的各个领域——聊天机器人、翻译、语音接口、程序分析等等——但现在 xLSTM 的突破性功能得到了增强。
在这份深入的技术指南中,我们将深入了解 xLSTM 的架构细节,评估其新颖的组件,如标量和矩阵 LSTM、指数门控机制、内存结构等。您将从实验结果中获得见解,这些实验结果展示了 xLSTM 相对于最先进的架构(例如 Transformer 和最新的循环模型)的令人印象深刻的性能提升。
在我们深入了解 xLSTM 的世界之前,有必要了解传统 LSTM 架构所面临的限制。这些限制一直是 xLSTM 和其他替代方法发展背后的驱动力。
这些限制为 Transformer 和其他在某些方面超越 LSTM 的架构的出现铺平了道路,特别是在扩展到更大的模型时。
扩展 LSTM (xLSTM) 系列
xLSTM 的核心在于对传统 LSTM 框架的两个主要修改:指数门控和新颖的内存结构。这些增强功能引入了 LSTM 的两种新变体,称为 sLSTM(标量 LSTM)和 mLSTM(矩阵 LSTM)。
sLSTM 和 mLSTM 这两个变体可以集成到残差块架构中,形成 xLSTM 块。通过剩余堆叠这些 xLSTM 块,研究人员可以构建针对特定任务和应用领域定制的强大 xLSTM 架构。
最初的 LSTM 架构引入了恒定误差轮播和门控机制来克服循环神经网络中的梯度消失问题。
LSTM 中的重复模块 – 来源
LSTM 存储单元更新由以下方程控制:
细胞状态更新:ct = ft ⊙ ct-1 + it ⊙ zt
隐藏状态更新: ht = ot ⊙ tanh(ct)
地点:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。