当前位置:   article > 正文

语音文字识别基本原理和经典综述_语音转文字原理

语音转文字原理

0 引言

这是北理计算机研究生的大数据课程的汇报作业,我负责这一部分的讲述,故通过整理这个博客来梳理一些下周一的讲演思路。

1 发展历程

在这里插入图片描述

2 基本原理

在这里插入图片描述
我录了一句自己说这句话时的音频,将这一段音频转化为声音的波形图就如下图所示。
在这里插入图片描述
第一个波峰就是“嗨”字,后面的三个紧凑的波峰也就是剩下的三个字,这很简单。
而对这样一个波形图,为进行语音的识别需要经历三个大的步骤,分别是

  • 预处理
  • 声音特征提取
  • 建立声学模型和语言模型

在这里插入图片描述
在预处理阶段,首先要做的事情叫做VAD(Voice Activity Detection),翻译过来就是语音端点检测或者说是静音抑制。
指的是从声音信号流里识别和消除长时间的静音期。
图中演示的是通过短时能量(绿)和过零率(红)来切割下“嗨大家好”声音的首尾空白。
下一步预处理的操作就是分帧
在这里插入图片描述
概念其实很简单,就是把刚刚的声音波形图分成一小段一小段,值得注意的是分帧时是要有交叠的;正因为如此,分帧后再展开的声音波形图比原波形图要长而且出现锯齿。
预处理阶段最重要的结束之后,再下一步就是声音特征的提取
在这里插入图片描述
如图所示的就是将之前我说的那句“嗨,大家好”转化成MFCC特征的矩形方阵。具体转化过程会更加复杂一些,包括但不限于短时傅里叶变换、取倒谱等等。这个程序是github上找到的AcousticFeatureExtraction-master,对于声音特征的提取做的很好。
基本的事情处理结束之后,最重要也是最复杂的一步就是声学模型和语言模型的建模了。
在这一部分,只简单介绍一下这俩模型什么意思,后续会详细说明不同的模型。
在这里插入图片描述
如上图的公式所示,其中W表示文字序列,Y表示语音输入。在语音文字识别当中,就是要把语音输入转化为对应的文字序列;而将这句话转化成数学表达,就是(1)式中的条件概率。将(1)通过贝叶斯定理转化成(2),又由于(2)中分母的概率对整个式子影响不大,所以约等于不考虑分母,这样就得到了(3)式。
而(3)式当中的两个,就分别是声学模型和语言模型。
声学模型是对声学、语音学、环境的变量、说话人性别、 口音等的差异的知识表示, 即给定文字之后发出这段语音的概率;而语言模型是对一组字序列构成的知识表示,即判定一个文字序列出现的概率。 声学模型一般得到语音特征到音素的映射; 语言模型一般得到词与词、词与句子的映射。

3 语言模型

首先说明一下较为好说的语言模型。
在这里插入图片描述
仍以刚才这段“嗨大家好”举例。
当通过声学模型建立出声音对应的发音音素之后,语言模型就要考虑这样一段发音因素对应的文字最大的概率是什么文字。比如说刚出来“hai”之后,对应的就是“嗨”,而不是“害”“还”“海”,因为在语言模型当中&#x

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/354991
推荐阅读
相关标签
  

闽ICP备14008679号