赞
踩
实时生成声音的含义
梅尔频谱图的含义
端到端的语音合成
未见说话者的梅尔频谱图反转
Multi-Receptive Field Fusion多感知域融合
含义:又称为空洞卷积,在卷积核中间插入0,然后扩大卷积核,进而扩大感受野。具体可以看下面的图,最左边的是正常的卷积,中间是膨胀率为2的卷积,最右边的是膨胀率为3的卷积
优点:较之于普通的卷积,使用膨胀卷积,他的感受野更大,获取的信息更多
Multi-Period Discriminator多周期鉴别器
如何实现将一维的波形信号转为二维的矩阵信号?
为什么二维卷积设置宽度为1,就可以不相互影响?
为什么使用二维卷积,梯度就能全时传播?
Multi-Scale Discriminator多尺度鉴别器
为什么MPD是离散的采样点,MSD是连续的估计音频序列?
原始音频,两倍平均池化的原始音频,四倍平均池化的原始音频区别在哪里?
groudped convolution layer什么意思?
马尔克夫窗口是什么?完全无条件鉴别器的含义?
跨步卷积的含义
上述等式具体介绍如下
Mel-Spectrogram Loss 除了GAN的损失函数,我们还增加了梅尔损失函数,用来改良生成器的训练效率和生成音频的保真度。这里参考了两篇论文的思路
在这篇文章中,我们引入了HiFi-GAN,它能够有效合成高质量的语音音频。最重要的是,我们提出的模型在效果比目前已经公开的模型产生的声音质量都要好,甚至和实际人的声音质量相当。我们主要是受到音频信号的是有多个不同周期的正弦信号构成的特征启发,并将之应用到神经网络中,同时通过消融实验证明了我们提出的鉴别器能够影响声音合成的质量。除此之外,我们也做了很多在声音合成领域的应用相关的试验,并且证明了,效果都很棒。
HiFi-GAN展示了对未见说话者的泛化能力,并能在端到端的设置中从噪声输入中合成与人类质量相当的语音音频。此外,我们的小型模型在CPU上生成样本的速度比实时快一个数量级,同时展示了与最好的公开可用的自回归对应模型相当的样本质量。这显示了向低延迟和内存占用的设备自然语音合成的进展。
最后,我们的实验表明,可以使用相同的判别器和学习机制训练具有各种配置的生成器,这表明可以根据目标规格灵活选择生成器配置,而无需对判别器进行耗时的超参数搜索。
我们将HiFi-GAN作为开源发布。我们希望我们的工作将为未来的语音合成研究提供基础。
简单来说,这篇论文提出了一个新的语音合成模型HiFi-GAN,它在语音合成的质量和效率上都取得了显著的进步。作者希望这个模型能为未来的语音合成研究提供基础,并期待它能在实际应用中发挥作用。
这篇文章,是基于GAN生成对抗网络的声音生成模型,是将将梅尔频谱图转成高频率的波形图。相较于一般的的生成网络,这篇文章主要是对鉴定器进行了自己的改动,增加了MPD和MSD。还是需要结合代码进行细致地看看。
这个单纯算是入门,因为我想做的vq-vae进行声音生成的项目里用到了这个组件,而且是十分重要的组件之一,我就来读了这篇文章,后面还会结合代码对这篇文章在进行加深了解,现在仅仅是对论文有了了解。
马上就开组会了,心里有点慌,主要是因为我没和老师讲过我要做这个方向,不过原来让我做的东西,并没有任何消息,而且也被踢出去了,做了那么就,还是继续做吧。不过如果想要说服他,我还得给他一个具体的情况说明,或者文章综述。
大部分内容到参考自chatGPT-4,并使用browserpilot插件
HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis
可以加群一块讨论一下关于声音生成的技术
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。