当前位置:   article > 正文

Librosa库——语音识别,语音音色识别训练及应用

librosa

很多同学以为语音识别是非常难的,其实并不然,起初我也是这么认为,但后来发现语音识别是最简单的,因为同学们可能不知道Python有一个音频处理库Librosa,这个库非常的强大,可以进行音频处理、频谱表示、幅度转换、时频转换、特征提取(音色、音高提取)等等,关于Librosa的更多介绍或者应用需要大家去官网或者查看其他博客资料,这里我就简单安装,然后进行语音识别的讲解。

第一步:在终端安装Librosa库

方法一:使用pip命令

pip install librosa

方法二:使用conda命令

conda install -c conda-forge librosa

第二步:打开jupyter,导入该导的库

  1. import librosa
  2. import numpy as np
  3. from sklearn import svm
  4. from sklearn.model_selection import train_test_split
  5. from sklearn.metrics import accuracy_score
  6. from sklearn.linear_model import LogisticRegression
  7. from sklearn.model_selection import train_test_split
  8. import IPython.display as ipd

第三步:制作语音数据,这里的意思就是自己录制不同人声音的音频录音,每个录音长短不做要求,当然个人认为录音时间在20-30秒就可以,至少3个录音音频,因为下面我使用的方法是多分类训练方法,必须3个音频,而且Librosa音频格式一般是WAV、MP3(这里要注意的是如果你录制的音频文件原本不是MP3或者WAV格式,不要重命名改文件后缀,要用专门工具改后缀,要不然报错,我试过了),下面是我用我3个录音来进行训练的音频文件分别是tbb-01.mp3(我直接说话的声音),这3个音频换成你们自己录的音,如果还不理解的咱们评论区见。

  1. # 加载数据集
  2. def load_data():
  3. # 加载tbb、aichen、xsc三种乐器的音频数据
  4. tbb, sr1 = librosa.load('tbb-01.mp3')
  5. aichen, sr2 = librosa.load('aichen-01.mp3')
  6. xsc, sr3 = librosa.load('xsc-01.mp3')
  7. # 提取MFCC特征,这里也就是不同人声音音色提取
  8. tbb_mfcc = librosa.feature.mfcc(y=tbb, sr=sr1)
  9. aichen_mfcc = librosa.feature.mfcc(y=aichen, sr=sr2)
  10. xsc_mfcc = librosa.feature.mfcc(y=xsc, sr=sr3)
  11. # 将不同人声音色的MFCC特征合并成一个数据集
  12. X = np.concatenate((tbb_mfcc.T, aichen_mfcc.T, xsc_mfcc.T), axis=0)
  13. # 生成标签向量
  14. y = np.concatenate((np.zeros(len(tbb_mfcc.T)), np.ones(len(aichen_mfcc.T)), 2*np.ones(len(xsc_mfcc.T))))
  15. return X, y

执行函数并且输出

  1. # 加载数据集
  2. X, y = load_data()
  3. y

 这个结果为什么是0开始到2呢,因为这里有3个音频,可以说是生成的数据集的默认标签,第一个音频的标签是0,第二个音频标签是1,第三个音频标签是2,以此类推,有多少个就有多少个,那为什么有多个0、1、2呢,因为在制作这个数据集时会将音频分成一段一段来打上标签,这样做数据集的数量就多了,训练效果就更好

第四步:利用上面处理的数据集进行训练

  1. # 训练模型
  2. def train(X, y):
  3. # 将数据集分成训练集和测试集
  4. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
  5. # 使用逻辑回归算法进行多类别分类
  6. model = LogisticRegression(multi_class='ovr')
  7. # 训练模型
  8. model.fit(X_train, y_train)
  9. return model

执行函数

  1. # 训练模型
  2. model = train(X, y)

第五步:进行模型测试

  1. # 测试模型
  2. def predict(model, audio_file):
  3. # 加载音频文件并提取MFCC特征
  4. y, sr = librosa.load(audio_file)
  5. mfcc = librosa.feature.mfcc(y=y, sr=sr)
  6. # 进行多类别分类预测
  7. label = model.predict(mfcc.T)
  8. proba = model.predict_proba(mfcc.T)
  9. # 获取概率最大的类别标签
  10. max_prob_idx = np.argmax(proba[0])
  11. max_prob_label = label[max_prob_idx]
  12. return max_prob_label

执行函数,这里我重新录制了一个我自己的声音来进行测试

  1. # 测试模型
  2. label = predict(model, 'tbb-02.mp3')
  3. print('音色为:', label)

 结果如下:

识别的标签是0,确实是正确的

那么语音识别其实到这里就结束了,当然我这里只做了音色识别,就是识别不同人说话的声音,Librosa库还可以进行其他的识别,等待大家去了解

这里再说一个库就是IPython.display,如下

import IPython.display as ipd

这个可以直接在jupyter进行音频播放 

  1. audio_data = 'nideyangzi.mp3'
  2. ipd.Audio(audio_data)

结果如下:

好了,本次语音识别就到此结束,再次感谢大家的支持! 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/134296
推荐阅读
相关标签
  

闽ICP备14008679号