当前位置: article > 正文

语音识别中强制对齐_AI语音评测技术简述与应用层级

作者：weixin_40725706 | 2024-02-15 23:05:07

踩

语音评测任务与语音识别的关系

「AI语音评测」技术，指的是针对口语发音水平和差错，进行自动评价、检错并提供指导纠正的技术。

该技术经过几十年的发展，在中英文发音标准程度、口语表达能力等评测任务上已经超越了人类口语评测专家水平，目前该技术被普遍使用在中英文的口语评测和定级中。

接下来我们会讨论：

对于AI语音评测技术，目前相对流行的是基于DNN-HMM的声学模型，获得音素级别的解码结果以及单词和音素级别的强制对齐结果的方法。

音素：根据语音的自然属性划分出来的最小语音单位。

DNN-HMM：深层神经网络-隐藏马尔科夫模型(Deep Neural Network-Hidden Markov Model)，是目前相对流行的声学模型。它的出现基本替代了之前的GMM-HMM模型。

简单的说，能够对音素、单词、句子、段落等多个级别的发音情况进行评价和指导反馈；测评维度包括发音准确度(音素/声调)和流利度、语调、断句、完整度等。

使用该技术方法须满足以下条件：

可以得到的结果：

1)整体架构

流程：

几个概念：

2)语音评测引擎原理

通过对整体架构的解读，我们不难发现很大部分工作都是由「AI评测引擎」完成的，接下来我们再简单了解一下评测引擎内部的流程和原理。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/87982