赞
踩
这是一个练手的小项目,内容很简单,可以帮助熟悉一下流程。主要工作是通过对公开数据集RAVDESS进行模型训练,并通过在测试集上的实验验证了我们的模型在语音情感分类中的性能。
Ryerson Audio-Visual Database of Emotional Speech and Song(RAVDESS)数据集是一个情感语音数据集,其中包含了24名专业演员的语音信号和歌曲,每个演员的语音信号都包括了情感标签。该数据集主要使用 Res Vectors (RDE)、aligned ace Database (ADPB)、Fake 2014 ITEYE 数据集中的部分材料,以及通过除理人为增加的部分演员的数据。该数据集包含了若干个不同的情感标签,包括 “happy”、“sad”、“angry”、“calm”、“fearful”、“disgust” 和 “surprised”。该数据集的目的是为了研究情感语音识别、情感语音合成、以及情感语音对话系统等相关问题。
原数据集过大,不太适合做小项目,这里做了一下精简,提供链接:
链接:https://pan.baidu.com/s/1WMD5VTJe52_2FQ6ItfPm0Q?pwd=0806
提取码:0806
这里主要提取语音的三种特征:
特征提取代码如下:
import librosa import soundfile import os, glob, pickle import numpy as np from sklearn.model_selection import train_test_split from sklearn.neural_network import MLPClassifier from sklearn.metrics import accuracy_score def extract_feature(file_name, mfcc, chroma, mel): with soundfile.SoundFile(file_name) as sound_file: # 读取文件后关闭 X = sound_file.read(dtype="float32") sample_rate=sound_file.samplerate if chroma: stft=np.abs(librosa.stft(X)) result=np.array([]) if mfcc: mfccs=np.mean(librosa.feature.mfcc(y=X, sr=sample_rate, n_mfcc=40).T, axis=0) result=np.hstack((result, mfccs)) if chroma: chroma=np.mean(librosa.feature.chroma_stft(S=stft, sr=sample_rate).T,axis=0) result=np.hstack((result, chroma)) if mel: #mel=np.mean(librosa.feature.melspectrogram(X, sr=sample_rate).T,axis=0) mel=np.mean(librosa.feature.melspectrogram(y=X, sr=sample_rate).T,axis=0) result=np.hstack((result, mel)) return result # 定义一个字典,用数字表示RAVDESS数据集中的情绪 emotions={ '01':'neutral', '02':'calm', '03':'happy', '04':'sad', '05':'angry', '06':'fearful', '07':'disgust', '08':'surprised' } # 观察情绪 observed_emotions=['calm', 'happy', 'fearful', 'disgust'] #加载数据并提取每个声音文件的特征 def load_data(test_size=0.2): x,y=[],[] for file in glob.glob("C:\\数据集\\语音情感识别数据集\\speech-emotion-recognition-ravdess-data\\Actor_*\\*.wav"): file_name=os.path.basename(file) emotion=emotions[file_name.split("-")[2]] if emotion not in observed_emotions: continue feature=extract_feature(file, mfcc=True, chroma=True, mel=True) x.append(feature) y.append(emotion) return train_test_split(np.array(x), y, test_size=test_size, random_state=9)
#将数据集分为训练集和测试集(3:1) x_train,x_test,y_train,y_test=load_data(test_size=0.25) # 训练集和测试集的形状 print((x_train.shape[0], x_test.shape[0])) # 提取的特征个数 print(f'Features extracted: {x_train.shape[1]}') # 初始化MLP model=MLPClassifier(alpha=0.01, batch_size=256, epsilon=1e-08, hidden_layer_sizes=(300,), learning_rate='adaptive', max_iter=500) # 模型训练 model.fit(x_train,y_train) # 模型保存 model.save("C:\\数据集\\语音情感识别数据集\\model.h5") # 测试集验证 y_pred=model.predict(x_test) # 计算模型精度 accuracy=accuracy_score(y_true=y_test, y_pred=y_pred) print("Accuracy: {:.2f}%".format(accuracy*100))
结果如下:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。