赞
踩
最近看了很多语音预处理的博客,参考了很多语音读取代码,如下:
# 导入相应的包 import numpy, wave import matplotlib.pyplot as plt import numpy as np import os filename = 'E:/dataSet/casia/liuchanhg/angry/201.wav' #添加音频文件的路径 f = wave.open(filename,'rb')# 打开音频文件,以得到语音参数 # #getparams:一次性返回所有的WAV文件的格式信息 params = f.getparams() # 得到语音参数,一次性返回所有的音频参数,返回的是一个元组,wave模块只支持非压缩的数据 nchannels, sampwidth, framerate,nframes = params[:4]# 得到的数据是字符串,需要将其转成int型 # nchannels:音频通道数,sampwidth:每个音频样本的字节数,framerate:采样率,nframes:音频采样点数 strData = f.readframes(nframes) #指定需要读取的长度(以取样点为单位),返回的是字符串类型的数据。读取波形数据 #将波形数据转换为数组 # 通过np.fromstring函数将字符串转换为数组,通过其参数dtype指定转换后的数据格式 wavaData = np.fromstring(strData,dtype=np.int16) # dtype指数组元素类型;将读取的字符串数据转换为一维short类型的数组。 wavaData = wavaData * 1.0/max(abs(wavaData)) #归一化 wave_add=np.append(wavaData[0],wavaData[1:]-0.97*wavaData[:-1]) #预加重 wave_add= np.reshape(wave_add,[nframes,nchannels]).T # .T 表示转置 f.close()
我也还有很多不懂的地方,希望跟大家一起学习。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。