赞
踩
目录语音识别的工作原理
Python语音识别软件包的选择
安装语音识别包
识别器类
使用音频文件
支持的文件类型
使用record()来捕获文件中的数据
具有偏移和持续时间的段的捕获
噪声对语音识别的影响
用麦克风工作
麦克风类
使用Listen()捕获麦克风输入
处理不可识别的语音
综合:一个“猜单词”游戏
补充和补充资源
附录:用英语以外的语言识别语音
语音识别的工作原理
语音识别起源于20世纪50年代初在贝尔实验室进行的研究。早期的系统仅限于一个说话者,并且有大约10个单词的词汇量有限。现代语音识别系统自远古以来就有很长的路要走。他们可以识别来自多个发言者的讲话,并且在许多语言中有海量的词汇。
当然,语音识别的第一个组成部分是语音。语音必须用麦克风从物理声音转换成电信号,然后用模数转换器转换成数字数据。一旦数字化,可以使用几个模型来转录音频到文本。
大多数现代语音识别系统依赖于所谓的隐性马尔可夫模型(HMM)。这种方法的假设是,当在足够短的时间尺度上(例如,10毫秒)观看语音信号时,可以合理地近似为一个平稳过程,即统计特性随时间不改变的过程。
在一个典型的HMM中,语音信号被划分为10毫秒片段。每个片段的能谱,实质上是信号的功率作为频率的函数的图,被映射为实数向量,称为倒频谱参数。该向量的维数通常很小,有时低到10,尽管更精确的系统可以具有32或更多的维数。HMM的最终输出是这些向量的序列。
为了将语音解码成文本,向量组与一个或多个音素(音位)匹配,这是基本的
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。