当前位置:   article > 正文

语音识别中半监督与无监督训练_self-training for end-to-end speech recognition ke

self-training for end-to-end speech recognition keras 实

背景

  • 端到端的语音识别需要大量成对的语音-文本数据,以获得更好的performance。然而目前来说成对的数据是相对较少的
  • 相比于有标签的语音文本对,无标签的语音数据更多
  • ASR模型的准确率依赖语言模型的rescoring,而大量的纯文本数据可以用于语言模型的构建

举例来说,LAS[1]的Decoder充当了传统方法的语言模型模块,而这一模型是在大约15 million个对话(audio-text pairs)的数据集(Google Voice Search)上训练的, 而当前最好的语言模型实在大约是在10亿个词或者更多的数据集上训练得到[2],这就是为什么LAS在结合额外的LM后,能获得大约5%的WER缩减[1]。

语言模型的引入帮助到语义信息的建模,可以显著地提升ASR模型的准确率表现。然而,额外语言模型的挂载,也带来了以下的问题。

  1. 额外的rescoring流程, 加大了整个pipeline的时延,无法满足某些识别实时性要求非常高的场景,如同声传译
  2. 参数冗余。对比来说,BERT-Base模型的参数量约为110 million,而GPT-2 的参数量则达到15 亿,虽然一般的ASR模型不会使用到如此巨大的LM,但是额外LM的融合,必将加大语音识别模型整体的参数量
  3. 由于声学模型与语言模型并不是同时训练的,其优化的目标也不一致,所以误差累积不可避免。

综上所述,为了使端到端的ASR模型能获得更好的准确率与性能表现,必须充分利用未标注的数据,包括纯语音与纯文本,在不依赖与额外的语言模型情况下,在模型结构上下功夫,将这一部分先验知识赋予模型本身。

无监督学习

使模型从无标签数据学习到数据特征抽取,表征,预测的能力,侧面达到数据增强的作用。

具体方法举例

1. 知识迁移 + 预训练文本嵌入[3]

利用text-to-intent数据在BERT上微调,预训练一个classifier,随后这个classfier与speech-to-intent模型共享最后一个classfication layer。在这个layer上,迫使声学嵌入匹配更好的文本嵌入。需要说明的是,text-to-intent类型的数据远多于speech-to-intent的数据量。
在这里插入图片描述
虽然原文的目的是训练一个speech-to-intent的模型,与一般的ASR模型有一定区别。但其提供以下几点思想依然值得学习。

  • 是否可以预训练一个LM与ASR在最后几层共享参数,将LM的知识迁移到ASR模型本身。
  • 对照speech-to-intent与text-to-intent的关系,是否可以比对延伸到text-text和speech-text的关系,预训练text-text(类似于机器翻译)分类器,再让ASR来学习其概率分布等知识。
    值得注意的是,图中虚线上部,即text embedding部分仅在训练是需要,在测试阶段可以去除,达到精简模型参数的作用。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/657209
推荐阅读
相关标签
  

闽ICP备14008679号