赞
踩
语音识别,就是把一段声音信号转换成文本信息的过程。其核心包括了特征提取、声学模型、语言模型、字典和解码器几个部分。整体流程的概览如下图所示,主要包括了训练和识别两个部分。
训练是从大批语音数据中提取出这种语言的声音特征、发音方式、文字组合的规律,为后续识别作为一个有据可循的模型。
声学模型
声学模型将声学和发音学的知识进行整合,以特征提取模块提取的特征为输入,输出音素。何为音素?音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看,音素是从音质角度划分出来的最小语音单位,从生理性质来看,一个发音动作形成一个音素。简单理解,例如“普通话”的因素组成就是“p,u,t,o,ng,h,u,a”。声学模型的作用就是能将一段读音为“普通话”的声音信号转换成因素信息“p,u,t,o,ng,h,u,a”。
字典
所谓字典,就是发音字典的意思,中文中就是拼音与汉字的对应,英文中就是音标与单词的对应,其目的是根据声学模型识别出来的音素,来找到对应的汉字(词)或者单词,用来在声学模型和语言模型建立桥梁,将两者联系起来。例如“普通话”在字典中就是以下这样的。普通话 p u3 t tong1 h ua4
语言模型
语言模型的目的就是根据声学模型输出的结果,给出概率最大的文字序列。想想输入法,如果你输入的是“putonghua”,跳出来的有”普通话“、”普通化“,为什么没有”谱彤画“呢?因为在中文里没有”谱彤画“这种说法,也就是说没有这种词组合的序列。语言模型就是用来表示你训练的这种语言里的词组合的概率的。
这个过程就是利用训练好的模型对一段新输入的声音信号的解码过程。首先将声音信号中的特征提取出来,到声学模型中去转换成因素,然后将因素根据字典和语言模型解析成文本。
FST和WFST
有限状态转换器FST(finite-state transducer) 和加权有限状态转换器WFST(weighted finite-state transducer)的不同就是后者转移路径上附有权重,看如下示例。 这就是一个WFST,不同的输入对应有限种转移可能,并有权重。用这个状态转移图来理解下语音解码和搜索,其实就是一个在“图”中找到最有可能解的过程。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。