当前位置:   article > 正文

DL-Paper精读:LSTM + Transformer 架构模型_lstm+transformer

lstm+transformer

Transformer Language Models with LSTM-based Cross-Utterance Information Representation

https://arxiv.org/abs/2102.06474​arxiv.org

Background

近来,源于某个神奇的需求,需要研究Transformer和LSTM相结合的模型架构。这两者作为自然语言领域两个时代的王者,似乎对立的戏份远大于合作。常理来说,在Transformer刚刚被提出来的一两年内,应该有很多关于这方面的研究工作,但很奇怪地是并未搜索到比较出名的工作。难道是这两者组合效果不佳,水火不容?这篇文章是收录于ICASSP2021的一个工作,旨在将LSTM结合到Transformer结构中,通过一种交叉的信息表达,来获得更强大更鲁棒的语言模型。

对该工作的研究,主要集中在其网络架构的设计和代码的实现方面。由于对于语言方面的不了解,不太清楚文中所给出的0.9%, 0.6% and 0.8% absolute WER reductions on AMI corpus代表怎样的意义。

Architecture

文中针对常见的Transformer Language models(TLM)和TLM-XL(一种使用分段递归来实现超长序列预测的方法)进行改造,具体结构如下。TLM的核心部分是重复的Transformer模块,由多头自适应(Masked MHA)和FFN模块组成。而TLM-XL的区别在于,在计算MHA时将上个block的输入与本次的输入进行concat,共同计算。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/343165
推荐阅读
相关标签
  

闽ICP备14008679号