赞
踩
MusicGen是由Meta推出的一个开源人工智能音乐模型,该模型允许用户通过文本描述来生成音乐,详见https://arxiv.org/abs/2306.05284。
MusicGen采用基于Transformer的语言模型架构,可以同时处理多个压缩的离散音乐表示(即token),并通过一种有效的token交错模式提高了生成效率和质量。它利用Meta公司开发的EnCodec神经音频压缩技术,将音乐从高采样率压缩到低采样率以减小计算量,同时保持高保真度重建。为了改进音频质量,MusicGen还采用了多频带扩散解码器,该解码器通过独立生成频谱的不同部分来避免低频误差对高频的影响。
MusicGen模型支持贪心(greedy)和采样(sampling)两种模式,采样模式要显著优于贪心模式,因此这里均采用采样模式。
这种方式可以让系统根据输入的信息和算法内部的模型来创作音乐,而无需具体的指令或提示。
使用sicpy库将输出的数据转换成.wav音频文件保存。
计算生成的音频样本的长度(单位为秒)。
使用自然语言描述希望音乐具有的情感、风格、节奏或其他特征,MindNLP会分析和理解文本提示,提取关键信息如情感、节奏、风格等,MusicGen根据MindNLP提供的信息来生成符合描述的音乐。
首先,将音频文件转换为文本描述或音频特征向量,然后将处理后的音频数据表示为模型可以处理的形式,最后再使用预训练的音乐生成模型来生成音乐。
如图演示了如何结合音频和文本提示来生成个性化音乐。
显示模型的默认参数。
修改默认参数。
重新生成模型。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。