赞
踩
A SIMPLIFIED FULLY QUANTIZED TRANSFORMER FOR END-TO-END SPEECH RECOGNITION
讲了近些年来,端到端语音识别性能方面取得了重大改进,但缺点是不适应与边缘设备上的嵌入式使用。在本文中,我们在基于简化和压缩的Transformer模型上进行语音识别,本文通过调查抛弃特定模块的影响来引入更加紧凑的speech-transformer。此外,本文评估了降低我们网络权重和激活的数值精度,同时是否可以保持全精度模型的性能。本文的实验表明,可以通过完全量化为8位固定点精度,减少全精密模型的参数数量,然后通过完全量化为8位固定点精度来进一步压缩模型4倍
介绍了端到端语音的结构(将声学,字典,语言模型结合在一起)以及发展史(CTC到RNN到Transformer,conformer)。最近,Transformer架构的编码器解码器广泛应用于ASR。Transformer训练在时间上并行,比起循环神经网络RNN更快。这使得它们特别适用于语音识别中遇到的大型音频语料库。此外,Transformer是强大的自回归模型,并且已经实现了合理的ASR,而不会产生与推理期间使用LM的存储和计算开销。
讲出了尽管目前端到端技术已经看到了精度的明显改善,但很难应用到边缘设备。因此,对降低模型尺寸的兴趣增加了才能实现设备上的计算。模型压缩文献探讨了解决问题的许多技术,包括:量化[1],剪枝[2,3],以及知识蒸馏[4,5],在RNN-T[6,7],作者通过一些优化,量化等手段将模型成功部署到边缘设备。
本文贡献在于转换模型架构为Transformer,因为tranformer模型比RNN模型快,以及描述量化手段。
将ASR作为序列到序列任务,变压器编码器作为输入帧级声学特征(X1,...,XT)的输入,并将其映射到一系列高级表示(H1,。 ..,HN)。解码器一次生成转录(Y1,...,YL)一个令牌。通过注意机制调节在隐藏状态(H1,...,...,HN)和先前生成的令牌(Y1,...,YL-1)上的每种输出令牌Ylis。声学特征的典型选择是帧级Log-Mel FilterBank系数。目标转录物由字级令牌或子字单元(如字符)表示,或者通过字节对编码[23]。
卷积层:使用频域时域2维卷积,然后跟着2-d 最大池化层,这些操作可以极大地减少后序计算量,产生的输入长度显着降低,并且自我注意层所需的计算相对于序列长度立方地缩放。此外,已经表明,时间卷积在建模时间依赖性[8]方面是有效的,并且用于编码排序进入输入信号的学习高级表示。基于这些观察,[9]提议用卷积取代变压器中的正弦位置编码,在解码器中使用2D卷积,在解码器中的Word Embeddings上使用2D卷积和1D因果卷积(图1中所示)。
工具包:Toolkit Fairseq
数据集:Librispeech
窗口 25ms 10ms帧移
特征:Fbank
优化器:AdaDelta 学习率为1.0,梯度裁剪为10,80epoch
平均模型参数:最后30个epoch
我们备注,由于在测试时间较长的序列,正弦位置编码损坏性能。已经观察到解码器侧位置编码的差别比1D卷积更差[10](以及我们的结果也没有任何内容)。这种性能下降来自代表生成;在Dev-Clean中,在添加位置编码后,我们提出的模型的WER增加了5.6→6.0,删除速率增加0.7→1.3。我们在图2中的曲线图。图2表示这可以归因于正弦位置编码的不能概括比训练集中遇到的长度更长的长度。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。