01-说话人语音识别_语音识别区分说话人

作者：你好赵伟 | 2024-08-02 00:15:49

踩

语音识别区分说话人

语音转文本的github项目：

GMM（Gauss Mixture Model高斯混合模型）在说话人识别中的应用：

1.取出静音：在能量高低的地方去除静音+过零率

设置阈值：No1设置为能量的阈值（能量搞的保留、能力低的噪声去掉）、过零率的阈值（把数值低的保留、多余的抛弃）

2、提取声音的特征：（语音识别的特征提取）

物理模型特征：日本学者研究了一个人的声道的模型，用物理的模型形象的模拟声道物理特征；

是一种有重复的采样的过程，每隔一段时间进行采样的过程，以此类推.....

使用MEL迈二道夫的物理模型进行数据提取，每隔10ms就会提取出一个特征。每一秒都会提取出100个特征，再使用

text independent speech recognition 与内容无关的说话人识别；

text dependence speech recognition 与内容有关的说话人识别；

例子：

设置条件 30秒的语音识别我们需要估计的参数的个数是4671个（EM算法用于参数估计）

缺点： GMM如果加入噪声，就会改变Xi样本原有的一个高斯分布的规律，导致识别的效果变差；

3、HMM隐马尔科夫模型：

说明：

输入： O1 O2 O3 O4 O5.....Ot 特征向量，每个10ms的间隔不断的向前推进，不断的提取语音特征；

隐含状态 q1 q2 q3 q4 q5 q6 q7 ..... qT

例如：微信中的10秒的语音输入，通过切割每隔10ms的语音特征进行识别，识别说话人的意思；

问题：已经知道语音的长度或者语音时间长度，但是我们不确定每个字词的时间戳的切割的方法，不知道如何的对应

应用：在视频当中一个动作的连续的识别，一个连续动作的理解；

解决途径：将语音使用K-Mean K均值的聚类的方法，K means Clusting ，但是效率和识别率的比较低，不过这也是一种思路。

HMM的三个问题；

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/916471

01-说话人语音识别_语音识别 区分说话人