赞
踩
举例来说,LAS[1]的Decoder充当了传统方法的语言模型模块,而这一模型是在大约15 million个对话(audio-text pairs)的数据集(Google Voice Search)上训练的, 而当前最好的语言模型实在大约是在10亿个词或者更多的数据集上训练得到[2],这就是为什么LAS在结合额外的LM后,能获得大约5%的WER缩减[1]。
语言模型的引入帮助到语义信息的建模,可以显著地提升ASR模型的准确率表现。然而,额外语言模型的挂载,也带来了以下的问题。
综上所述,为了使端到端的ASR模型能获得更好的准确率与性能表现,必须充分利用未标注的数据,包括纯语音与纯文本,在不依赖与额外的语言模型情况下,在模型结构上下功夫,将这一部分先验知识赋予模型本身。
使模型从无标签数据学习到数据特征抽取,表征,预测的能力,侧面达到数据增强的作用。
利用text-to-intent数据在BERT上微调,预训练一个classifier,随后这个classfier与speech-to-intent模型共享最后一个classfication layer。在这个layer上,迫使声学嵌入匹配更好的文本嵌入。需要说明的是,text-to-intent类型的数据远多于speech-to-intent的数据量。
虽然原文的目的是训练一个speech-to-intent的模型,与一般的ASR模型有一定区别。但其提供以下几点思想依然值得学习。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。