当前位置:   article > 正文

语音论文:用于端到端语音识别的简化完全量化的Transformer模型_transformer语音识别

transformer语音识别

论文题目

                     A SIMPLIFIED FULLY QUANTIZED TRANSFORMER FOR END-TO-END SPEECH RECOGNITION

摘要

        讲了近些年来,端到端语音识别性能方面取得了重大改进,但缺点是不适应与边缘设备上的嵌入式使用。在本文中,我们在基于简化和压缩的Transformer模型上进行语音识别,本文通过调查抛弃特定模块的影响来引入更加紧凑的speech-transformer。此外,本文评估了降低我们网络权重和激活的数值精度,同时是否可以保持全精度模型的性能。本文的实验表明,可以通过完全量化为8位固定点精度,减少全精密模型的参数数量,然后通过完全量化为8位固定点精度来进一步压缩模型4倍

引言

       介绍了端到端语音的结构(将声学,字典,语言模型结合在一起)以及发展史(CTC到RNN到Transformer,conformer)。最近,Transformer架构的编码器解码器广泛应用于ASR。Transformer训练在时间上并行,比起循环神经网络RNN更快。这使得它们特别适用于语音识别中遇到的大型音频语料库。此外,Transformer是强大的自回归模型,并且已经实现了合理的ASR,而不会产生与推理期间使用LM的存储和计算开销。

讲出了尽管目前端到端技术已经看到了精度的明显改善,但很难应用到边缘设备。因此,对降低模型尺寸的兴趣增加了才能实现设备上的计算。模型压缩文献探讨了解决问题的许多技术,包括:量化[1],剪枝[2,3],以及知识蒸馏[4,5],在RNN-T[6,7],作者通过一些优化,量化等手段将模型成功部署到边缘设备。

本文贡献在于转换模型架构为Transformer,因为tranformer模型比RNN模型快,以及描述量化手段。

模型架构

 将ASR作为序列到序列任务,变压器编码器作为输入帧级声学特征(X1,...,XT)的输入,并将其映射到一系列高级表示(H1,。 ..,HN)。解码器一次生成转录(Y1,...,YL)一个令牌。通过注意机制调节在隐藏状态(H1,...,...,HN)和先前生成的令牌(Y1,...,YL-1)上的每种输出令牌Ylis。声学特征的典型选择是帧级Log-Mel FilterBank系数。目标转录物由字级令牌或子字单元(如字符)表示,或者通过字节对编码[23]。

卷积层:使用频域时域2维卷积,然后跟着2-d 最大池化层,这些操作可以极大地减少后序计算量,产生的输入长度显着降低,并且自我注意层所需的计算相对于序列长度立方地缩放。此外,已经表明,时间卷积在建模时间依赖性[8]方面是有效的,并且用于编码排序进入输入信号的学习高级表示。基于这些观察,[9]提议用卷积取代变压器中的正弦位置编码,在解码器中使用2D卷积,在解码器中的Word Embeddings上使用2D卷积和1D因果卷积(图1中所示)。

实验及结果

工具包:Toolkit Fairseq

数据集:Librispeech

窗口 25ms 10ms帧移

特征:Fbank

优化器:AdaDelta 学习率为1.0,梯度裁剪为10,80epoch

平均模型参数:最后30个epoch

 

 我们备注,由于在测试时间较长的序列,正弦位置编码损坏性能。已经观察到解码器侧位置编码的差别比1D卷积更差[10](以及我们的结果也没有任何内容)。这种性能下降来自代表生成;在Dev-Clean中,在添加位置编码后,我们提出的模型的WER增加了5.6→6.0,删除速率增加0.7→1.3。我们在图2中的曲线图。图2表示这可以归因于正弦位置编码的不能概括比训练集中遇到的长度更长的长度

 

参考文献

  1. B. Jacob, S. Kligys, B. Chen, M. Zhu, M. Tang, A. Howard,H. Adam, and D. Kalenichenko, “Quantization and training of neural networks for efficient integer-arithmetic-only inference,”in Proceedings of the IEEE Conference on CVPR, 2018, pp.2704–2713.
  2. Y ann LeCun, John S Denker, and Sara A Solla, “Optimal brain damage,” in Advances in neural information processing systems, 1990, pp. 598–605.
  3. Song Han, Huizi Mao, and William J Dally, “Deep compression:Compressing deep neural networks with pruning, trained quantization and huffman coding,” arXiv preprint arXiv:1510.00149,2015.
  4. H.-G. Kim, H. Na, H. Lee, J. Lee, T. G. Kang, M.-J. Lee, and Y . S. Choi, “Knowledge distillation using output errors for self-attention end-to-end models,” in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, pp. 6181–6185.
  5. Y oon Kim and Alexander M Rush, “Sequence-level knowledge distillation,” arXiv preprint arXiv:1606.07947, 2016.
  6. Alex Graves, “Sequence transduction with recurrent neural networks,” arXiv preprint arXiv:1211.3711, 2012.
  7. Y . He, T. N. Sainath, R. Prabhavalkar, I. Mcgraw, R. Alvarez,D. Zhao, D. Rybach, Y . Kannan, A. Wu, and R et al. Pang,“Streaming end-to-end speech recognition for mobile devices.,”2018.
  8.  Shaojie Bai, J Zico Kolter, and Vladlen Koltun, “An empiricalevaluation of generic convolutional and recurrent networks for sequence modeling,” arXiv preprint arXiv:1803.01271, 2018.
  9. A. Mohamed, D. Okhonko, and L. Zettlemoyer,  “Trans-formers with convolutional context for asr,” arXiv preprint arXiv:1904.11660, 2019.

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/423475
推荐阅读
相关标签
  

闽ICP备14008679号