赞
踩
上图显示了前后音频(移动鼠标时)噪声抑制的频谱图。
Opus乐队的布局与实际的Bark比例。对于RNNoise,我们使用与Opus相同的基本布局。由于我们与乐队重叠,Opus乐队之间的界限成为重叠的RNNoise乐队的中心。由于耳朵在那里的频率分辨率较差,频段的频率较高。在低频下,乐队更窄,但并不像巴克比例那样窄,因为我们没有足够的数据来做出很好的估计。
当然,我们无法从22个频段的能量重建音频。我们可以做的是计算一个应用于每个频带信号的增益。您可以将其视为使用22频段均衡器,并快速更改每个频段的电平,以便衰减噪声,但让信号通过。
使用每频带增益有几个优点。首先,它使得一个更简单的模型,因为有更少的乐队计算。第二,它不可能产生所谓的音乐噪声伪影,其中只有单个音调在其邻居被衰减的同时才能通过。这些文物在噪音抑制中很常见,相当烦人。要是足够宽阔的乐队,我们要么让整个乐队穿过,要么全部剪下来。第三个优点来自于我们如何优化模型。由于增益总是在0和1之间,所以简单地使用S形激活函数(其输出也在0和1之间)来计算它们确保我们永远不会做一些非常愚蠢的事情,比如添加不在第一名。
对于输出,我们还可以选择整流的线性激活函数来表示在0和无穷大之间的dB的衰减。 为了更好地优化训练中的增益,损失函数是应用于提高到功率α的增益的均方误差(MSE)。 到目前为止,我们发现α= 0.5在感知上产生最好的结果。 使用α→0将等效于最小化对数光谱距离,并且是有问题的,因为最佳增益可以非常接近零。
这些都是关于数据的
有时甚至深层神经网络也可能很笨。 他们非常擅长他们所了解的知识,但是他们可能会对他们所知道的投入产生惊人的错误。 更糟糕的是,他们真的很懒惰的学生。 如果他们可以在训练过程中使用任何漏洞,以避免学习困难,那么他们会。 这就是为什么训练数据的质量至关重要。
一个广为流传的故事是,很久以前,一些军队的研究人员正试图训练一个神经网络来识别在树上伪装的坦克。 他们拍摄了有和没有坦克的树木,然后训练了一个神经网络来识别那些有坦克的人。 网络成功超越了预期! 只有一个问题。 由于有坦克的照片是在多云的天气下拍摄的,而没有坦克的照片是在阳光明媚的日子拍摄的,所以网络真正学到的是如何从阳光灿烂的日子开始阴天。 虽然研究人员现在意识到了这个问题,并避免了这样明显的错误,但它们的更微妙的版本仍然会发生(而且在过去已经发生了)。
在噪声抑制的情况下,我们不能仅仅收集可用于监督学习的输入/输出数据,因为我们很少同时获得干净的语音和嘈杂的语音。 相反,我们必须从清晰的语音和噪音的单独记录中人为地创建数据。 棘手的部分是获得各种各样的噪音数据,以增加语音。 我们还必须确保覆盖各种录音条件。 例如,仅在全频段音频(0-20 kHz)下训练的早期版本将在8 kHz低通滤波时失效。
与语音识别常见的不同,我们选择不将倒谱平均归一化应用于我们的特征,并保留代表能量的第一个倒谱系数。 因此,我们必须确保数据包括所有现实级别的音频。 我们还对音频应用随机滤波器,使系统对各种麦克风频率响应(通常由倒谱平均归一化处理)具有鲁棒性。
我们目前使用FIR滤波器进行音高滤波,但也可以(并在TODO列表中)使用IIR滤波器,如果强度太高,则会导致更高的失真风险,从而产生较大的噪声衰减。
Suppression algorithm
Noise level (SNR)
Noise type
Evaluating the effect of RNNoise compared to no suppression and to the Speexdsp noise suppressor. Although the SNRs provided go as low as 0 dB, most applications we are targeting (e.g. WebRTC calls) tend to have SNRs closer to 20 dB than to 0 dB.
那么你应该听什么呢?听起来很奇怪,你不应该期待着增加清晰度。人类非常善于理解噪音中的语音,增强算法(特别是不允许前瞻性地去除噪声的算法)只能破坏信息。那么为什么我们这样做呢?为了质量增强的言论听起来更不方便,可能导致听众疲劳减轻。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。