当前位置:   article > 正文

Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models

Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models

abstract

做了什么事情?

  • 支持各种形式的输入(文本,音频,图片,视频),最终根据输入描述可控的生成音频。用到了文本、音频、视觉领域预训练模型encoder的能力。以及diffusion生成高质量结果的模型。
  • text-to-audio生成的难点:(1)没有大量的txt-audio数据,(2)生成唱的连续音频较难;
  • Make-An-Audio 的做法:(1)数据问题:使用distill-then-reprogram的方法引入伪prompt enhancement,从而实现对海量无标注语音数据的利用;(2)利用spec-encoder获得自监督表征,实现了高级别语义信号的理解。使用了contrastive language-audio pretraining (CLAP) representations(对于理解自然语言和计算效率有益)和diffusion模型(高精度生成),实现可控生成的X-to-Audio。

method

Pseudo Prompt Enhancement: Distill-then-Reprogram

在这里插入图片描述

distill

  • prompt enhancement approach分为两个阶段:(1)expert distillation,(2)dynamic reprogramming:可以生成新的多样性组合,实验结果表明有正向作用;
  • 预训练的专家模型Audio Captioning和Audio-Text Retrieval,联合在一起对给定音频生成候选标题,然后通过CLAPS计算高分的标题作为最终选择(设一个挑选阈值)。
    • Audio Captioning:负责根据输入的音频,生成多种音频内容的文本描述;
    • Audio-Text Retrieval:输入文本作为query,根据数据集恢复相关的音频文件;
  • 当以零样本方式迁移到 Clotho 更具挑战性的场景时,可以看到明显的退化,证明其在构建不同对象组合以实现更好泛化方面的有效性。

dynamic reprogramming

  • (1)声学事件数据集,有简单的标签;(2)每次随机采样N个样本,(3)原始的text-audio-pair和采样的声学事件在时间域随机拼接,组成包含不同时间的新的样本。可以在线组合,降低时间成本。

Textual Representation

  • text-guided 生成必要条件是理解text信息,可以有两种方法:(1)Contrastive pretraining,比如text2image中的CLIP(contrastive language-image pretraining),text2audio的CLAP(contrastive language-audio pretraining);(2)大语言模型,相比于多模态模型,文本丰富度更高;
  • 本文选择CLAP模型:对比了CLAP模型和T5-large模型,在benchmark评估效果相当,CLAP无需离线的emb计算,效率更高,故选择CLP。

Audio Representation

  • 自监督语音模型的结构:encoder-decoder,encoder将mel-spec映射到 z z z,decoder将 z z z重建为mel-spec。
  • 训练目标:(1)mel重建loss,(2)GAN loss;(3)KL loss
  • 这里只用到了encoder的模块,抽象出high-level semantic presentation

Generative Latent Diffusion

在这里插入图片描述

  • ϵ \epsilon ϵ 是噪声分布, ϵ θ \epsilon_{\theta} ϵθ是diffusion denoise net; t t t是待优化的随机项
  • 主要采用DDPM的网络,不需要对抗反馈,可以有效的优化ELBO

Classifier-Free Guidance

  • condition diffusion和non-condition diffusion模型的联合训练,可以在样本质量和丰富性上得到折中。
    在这里插入图片描述
  • 如上图,训练时候的文本提示 c c c用空提示(一个固定的概率) c ϕ c_{\phi} cϕ代替;在推理阶段,模型推断在guidance scale s > = 1 s>=1 s>=1之下,朝着 ϵ θ ( z t , t , c ) \epsilon_{\theta}(z_t,t,c) ϵθ(zt,t,c)的方向,远离 ϵ θ ( z t , t , c ϕ ) \epsilon_{\theta}(z_t,t,c_{\phi}) ϵθ(zt,t,cϕ)

在这里插入图片描述

X-To-Audio: No Modality Left Behind

在这里插入图片描述

Personalized Text-To-Audio Generation

  • 作者认为AIGC的关键是可以根据用户提示生成一些定制化的内容
  • 随着T增大,初始语音中加了很多噪声,生成的样本更加真实(音频质量提升)但是less faithful(图文一致性下降)

Audio Inpainting

  • diffusion模型直接做音频修复,可能会有edge artifacts的问题;
  • 微调Make-an-Audio来解决这一问题:
    • 借鉴LaMa的mask方法:irregular masks (thick, medium, and thin masks) ,which uniformly uses polygonal chains dilated by a high random width (wide masks) and rectangles of arbitrary aspect ratios (box masks).
    • 借鉴wav2vec 2.0使用的frame-base mask方法
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号