昇思25天学习打卡营第11天|MindSpore-基于MindNLP+MusicGen生成自己的个性化音乐

作者：寸_铁 | 2024-07-04 21:04:41

踩

基于MindNLP+MusicGen生成自己的个性化音乐

MusicGen是来自Meta AI的Jade Copet等人提出的基于单个语言模型（LM）的音乐生成模型，能够根据文本描述或音频提示生成高质量的音乐样本，相关研究成果参考论文《Simple and Controllable Music Generation》。

MusicGen模型基于Transformer结构，可以分解为三个不同的阶段:

用户输入的文本描述作为输入传递给一个固定的文本编码器模型，以获得一系列隐形状态表示。
训练MusicGen解码器来预测离散的隐形状态音频token。
对这些音频token使用音频压缩模型（如EnCodec）进行解码，以恢复音频波形。

MusicGen直接使用谷歌的t5-base及其权重作为文本编码器模型，并使用EnCodec 32kHz及其权重作为音频压缩模型。MusicGen解码器是一个语言模型架构，针对音乐生成任务从零开始进行训练。

MusicGen 模型的新颖之处在于音频代码的预测方式。传统上，每个码本都必须由一个单独的模型（即分层）或通过不断优化 Transformer 模型的输出（即上采样）进行预测。与传统方法不同，MusicGen采用单个stage的Transformer LM结合高效的token交织模式，取消了多层级的多个模型结构，例如分层或上采样，这使得MusicGen能够生成单声道和立体声的高质量音乐样本，同时提供更好的生成输出控制。MusicGen不仅能够生成符合文本描述的音乐，还能够通过旋律条件控制生成的音调结构。

en使用的码本延迟模式，来源于 MusicGen paper.

环境准备

机器内存需要至少 25GB

Python版本：Python 3.9.19

所需安装依赖


pip install -i https://pypi.mirrors.ustc.edu.cn/simple mindspore==2.2.14
pip install -i https://pypi.mirrors.ustc.edu.cn/simple mindnlp jieba soundfile librosa

详细依赖如下:


Package                        Version
------------------------------ --------------
absl-py                        2.1.0
addict                         2.4.0
aiofiles                       22.1.0
aiohttp                        3.9.5
aiosignal                      1.3.1
aiosqlite                      0.20.0
altair                         5.3.0
annotated-types                0.7.0
anyio                          4.4.0
argon2-cffi                    23.1.0
argon2-cffi-bindings           21.2.0
arrow                          1.3.0
astroid                        3.2.2
asttokens                      2.0.5
astunparse                     1.6.3
async-timeout                  4.0.3
attrs                          23.2.0
audioread                      3.0.1
auto-tune                      0.1.0
autopep8                       1.5.5
Babel                          2.15.0
backcall                       0.2.0
beautifulsoup4                 4.12.3
black                          24.4.2
bleach                         6.1.0
certifi                        2024.6.2
cffi                           1.16.0
charset-normalizer             3.3.2
click                          8.1.7
cloudpickle                    3.0.0
colorama                       0.4.6
comm                           0.2.1
contextlib2                    21.6.0
contourpy                      1.2.1
cycler                         0.12.1
dataflow                       0.0.1
datasets                       2.20.0
debugpy                        1.6.7
decorator                      5.1.1
defusedxml                     0.7.1
dill                           0.3.8
dnspython                      2.6.1
download                       0.3.5
easydict                       1.13
email_validator                2.2.0
entrypoints                    0.4
evaluate                       0.4.2
exceptiongroup                 1.2.0
executing                      0.8.3
fastapi

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/寸_铁/article/detail/788228