当前位置:   article > 正文

python 语音识别深度学习_用Python实现语音识别的终极指南

进行深度学习的语音识别编程,提交原理分析与运行效果说明文档、实现源码完整文件

目录语音识别的工作原理

Python语音识别软件包的选择

安装语音识别包

识别器类

使用音频文件

支持的文件类型

使用record()来捕获文件中的数据

具有偏移和持续时间的段的捕获

噪声对语音识别的影响

用麦克风工作

麦克风类

使用Listen()捕获麦克风输入

处理不可识别的语音

综合:一个“猜单词”游戏

补充和补充资源

附录:用英语以外的语言识别语音

语音识别的工作原理

语音识别起源于20世纪50年代初在贝尔实验室进行的研究。早期的系统仅限于一个说话者,并且有大约10个单词的词汇量有限。现代语音识别系统自远古以来就有很长的路要走。他们可以识别来自多个发言者的讲话,并且在许多语言中有海量的词汇。

当然,语音识别的第一个组成部分是语音。语音必须用麦克风从物理声音转换成电信号,然后用模数转换器转换成数字数据。一旦数字化,可以使用几个模型来转录音频到文本。

大多数现代语音识别系统依赖于所谓的隐性马尔可夫模型(HMM)。这种方法的假设是,当在足够短的时间尺度上(例如,10毫秒)观看语音信号时,可以合理地近似为一个平稳过程,即统计特性随时间不改变的过程。

在一个典型的HMM中,语音信号被划分为10毫秒片段。每个片段的能谱,实质上是信号的功率作为频率的函数的图,被映射为实数向量,称为倒频谱参数。该向量的维数通常很小,有时低到10,尽管更精确的系统可以具有32或更多的维数。HMM的最终输出是这些向量的序列。

为了将语音解码成文本,向量组与一个或多个音素(音位)匹配,这是基本的

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/622956
推荐阅读
相关标签
  

闽ICP备14008679号