当前位置:   article > 正文

【AIGC核心技术剖析】AI生成音乐:MAGNeT一种直接操作多个音频令牌流的掩码生成序列建模方法

【AIGC核心技术剖析】AI生成音乐:MAGNeT一种直接操作多个音频令牌流的掩码生成序列建模方法

在这里插入图片描述

MAGNeT是一种直接操作多个音频令牌流的掩码生成序列建模方法。与先前的工作不同,MAGNeT由一个单阶段、非自回归的变压器组成。在训练期间,论文使用掩码调度器预测从掩码令牌中获得的跨度,而在推断期间,论文通过多个解码步骤逐渐构建输出序列。为了进一步提高生成音频的质量,论文引入了一种新颖的重评分方法,其中论文利用外部预训练模型对MAGNeT的预测进行重评分和排名,然后用于后续解码步骤。最后,论文探索了MAGNeT的混合版本,在这个版本中,论文在自回归方式下生成前几秒钟,而序列的其余部分则以并行方式解码。论文展示了MAGNeT在文本到音乐和文本到音频生成任务中的高效性,并进行了广泛的实证评估,考虑了客观指标和人类研究。所提出的方法与评估基线相当,同时速度显著更快(比自回归基线快7倍)。通过消融研究和分析,论文阐明了构成MAGNeT的每个组件的重要性,同时指出了在自回归和非自回归建模之间的权衡,考虑延迟、吞吐量和生成质量。

案例:在这里插入图片描述
项目地址:https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT/

源码:https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
  • Kafka是一种开源的分布式流处理平台,由Apache软件基金会开发和维护。它最初是由LinkedIn开发的,并在2011年成为开源项目。Kafka提供了高吞吐量、可持久化的数据流处理能力,可以处理大规模的实时数据流。它的设计目标是提供一个... [详细]

  • AIGC继承了专业生成内容(PGC)的高质量特点,再结合用户生成内容(UGC)的分布式、互动的特点,打造了全新的数字内容生成与交互形态。AIGC的实现主要基于人工智能中的各种模型,比如说基于神经网络模型的图像生成,或者基于深度学习模型的文本... [详细]

  • 人工智能生成内容(ArtificialIntelligenceGeneratedContent,简称AIGC)是指利用人工智能技术和算法来自动生成各种形式的内容,例如文章、新闻、广告、代码等。AIGC的发展可以追溯到机器学习和自然语言处理等... [详细]

  • AIGC(AIGeneratedContent)即人工智能生成内容,一般认为相对于PCG(专业生成内容)、UCG(用户生成内容)而提出的概念。AIGC狭义概念利用AI自动生成内容的生产方式。广义的AIGC可以看作像人类一样具备生成创造... [详细]

  • AIGC的解析与分析_产品图片融入视频aigc产品图片融入视频aigc一、简介近期,短视频平台上火爆的“AI绘画”,在各大科技平台上刷屏的智能聊天软件ChatGPT,引起了人们广泛关注。人工智能潜力再次被证明,而这两个概念均来自同一个领域:... [详细]

  • 为了更好地学习AI和prompt相关知识,有必要了解AI领域的几个专业概念。ChatGPT高效提问—基础知识AIGCChatGPT高效提问—基础知识为了更好地学习AI和prompt相关知识,有必要了解AI领域的几个专业概念。1.1初识A... [详细]

  • 实践才是硬道理_glm自动运行的脚本glm自动运行的脚本一、背景介绍模型部署基本步骤分为模型选择、模型部署、运行,如果需要在特定的场景下定制化模型,则还需要进行数据集的选择、数据集格式转换、微调。根据上述的步骤本教程选取如下的开源模型、数据... [详细]

  • 以经典的嵌入模型word2vec为例,演示一段文本是如何转化为n维向量的AIGC|Embeddings解析之word2vec训练过程演示目录一、word2vec二、Embedding过程三、计算向量之间相似性四、word2vec模型的训练过... [详细]

  • 深度学习近年来人工智能领域最热门的话题之一,那究竟什么深度学习呢?AIGC|什么深度学习深度学习近年来人工智能领域最热门的话题之一。它一种通过模拟人脑神经网络工作原理,进行大规模数据处理和模式识别的机器学习方法。随着计算能力的提... [详细]

  • 你可以用langchain做一个属于自己的人工智能应用~_langchain入门指南.pdflangchain入门指南.pdf如果你用大语言模型来构建AI应用,那你一定不可能绕过LangChain,LangChain是现在最热门的AI应用框... [详细]

  • 开源流程引擎是指一种自动化的工作流解决方案它可以帮助你管理和协调你的业务流程和决策。但是开源世界里有许多不同的流程引擎可以选择。因此如何选择适合你的开源流程引擎是一个具有挑战性和价值的话题。[AIGC]开源流程引擎哪个好如何选... [详细]

  • 在21世纪软件开发领域中,JavaGo这两门编程语言可谓是相爱相杀存在。它们各自拥有着强大特点和独特优势,同时也存在着一些明显竞争和冲突。让我们来看看这两门语言故事,以及它们之间深远意义。[AIGC]21世纪JavaGo... [详细]

  • 配置的镜像源里没有tiktokentiktoken归属在https://anaconda.org/conda-forge/tiktoken中,默认情况大家配置的。文件只扫描配置的default位置。原理可看我另外一篇文章。【AIGC】co... [详细]

  • 分布式事务是指多个分布式节点之间的一系列操作,它们必须保证数据的一致性和完整性。这些操作可以是数据库查询、更新、删除、插入等。原子性:所有的操作必须成功或失败,不允许部分成功或失败。一致性:所有的操作必须保证数据的一致性和完整性,不允许脏读... [详细]

相关标签
  

闽ICP备14008679号