赞
踩
https://arxiv.org/abs/2102.06474arxiv.org
近来,源于某个神奇的需求,需要研究Transformer和LSTM相结合的模型架构。这两者作为自然语言领域两个时代的王者,似乎对立的戏份远大于合作。常理来说,在Transformer刚刚被提出来的一两年内,应该有很多关于这方面的研究工作,但很奇怪地是并未搜索到比较出名的工作。难道是这两者组合效果不佳,水火不容?这篇文章是收录于ICASSP2021的一个工作,旨在将LSTM结合到Transformer结构中,通过一种交叉的信息表达,来获得更强大更鲁棒的语言模型。
对该工作的研究,主要集中在其网络架构的设计和代码的实现方面。由于对于语言方面的不了解,不太清楚文中所给出的0.9%, 0.6% and 0.8% absolute WER reductions on AMI corpus代表怎样的意义。
文中针对常见的Transformer Language models(TLM)和TLM-XL(一种使用分段递归来实现超长序列预测的方法)进行改造,具体结构如下。TLM的核心部分是重复的Transformer模块,由多头自适应(Masked MHA)和FFN模块组成。而TLM-XL的区别在于,在计算MHA时将上个block的输入与本次的输入进行concat,共同计算。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。