当前位置: article > 正文

一文看懂语音识别 - ASR（基本原理 + 4个实现流程）

作者：Gausst松鼠会 | 2024-03-12 01:15:15

踩

asr怎么做

文章目录

语音识别是什么？他有什么价值，以及他的技术原理是什么？本文将解答大家对语音识别的常见疑问。

语音识别技术（ASR）是什么？

机器要与人实现对话，那就需要实现三步：

对应的便是“耳”、“脑”、“口”的工作，机器要听懂人类说话，就离不开语音识别技术（ASR）。

语音识别已经成为了一种很常见的技术，大家在日常生活中经常会用到：苹果的用户肯定都体验过 Siri ，就是典型的语音识别

微信里有一个功能是”文字语音转文字”，也利用了语音识别

最近流行的智能音箱就是以语音识别为核心的产品

比较新款的汽车基本都有语音控制的功能，这也是语音识别

语音识别技术讲解

语音识别技术拆分下来，主要可分为“输入——编码——解码——输出 ”4个流程。

那语音识别是怎么工作的呢？

首先声音的本身是一种波，就像我们常常用一段段波形来表示音频一样。

接下来按步骤：给音频进行信号处理后，便要按帧（毫秒级）拆分，并对拆分出的小段波形按照人耳特征变成多维向量信息

将这些帧信息识别成状态（可以理解为中间过程，一种比音素还要小的过程）

再将状态组合形成音素（通常3个状态=1个音素）

最后将音素组成字词（dà jiā hǎo）并串连成句。于是，这就可以实现由语音转换成文字了。

百度百科和维基百科

百度百科版本

语音识别技术

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/221063