赞
踩
MusicGen是来自Meta AI的Jade Copet等人提出的基于单个语言模型(LM)的音乐生成模型,能够根据文本描述或音频提示生成高质量的音乐样本,相关研究成果参考论文《Simple and Controllable Music Generation》。
MusicGen模型基于Transformer结构,可以分解为三个不同的阶段:
MusicGen直接使用谷歌的t5-base及其权重作为文本编码器模型,并使用EnCodec 32kHz及其权重作为音频压缩模型。MusicGen解码器是一个语言模型架构,针对音乐生成任务从零开始进行训练。
MusicGen 模型的新颖之处在于音频代码的预测方式。传统上,每个码本都必须由一个单独的模型(即分层)或通过不断优化 Transformer 模型的输出(即上采样)进行预测。与传统方法不同,MusicGen采用单个stage的Transformer LM结合高效的token交织模式,取消了多层级的多个模型结构,例如分层或上采样,这使得MusicGen能够生成单声道和立体声的高质量音乐样本,同时提供更好的生成输出控制。MusicGen不仅能够生成符合文本描述的音乐,还能够通过旋律条件控制生成的音调结构。
en使用的码本延迟模式,来源于 MusicGen paper.
机器内存需要至少 25GB
Python版本:Python 3.9.19
所需安装依赖
- pip install -i https://pypi.mirrors.ustc.edu.cn/simple mindspore==2.2.14
- pip install -i https://pypi.mirrors.ustc.edu.cn/simple mindnlp jieba soundfile librosa
详细依赖如下:
- Package Version
- ------------------------------ --------------
- absl-py 2.1.0
- addict 2.4.0
- aiofiles 22.1.0
- aiohttp 3.9.5
- aiosignal 1.3.1
- aiosqlite 0.20.0
- altair 5.3.0
- annotated-types 0.7.0
- anyio 4.4.0
- argon2-cffi 23.1.0
- argon2-cffi-bindings 21.2.0
- arrow 1.3.0
- astroid 3.2.2
- asttokens 2.0.5
- astunparse 1.6.3
- async-timeout 4.0.3
- attrs 23.2.0
- audioread 3.0.1
- auto-tune 0.1.0
- autopep8 1.5.5
- Babel 2.15.0
- backcall 0.2.0
- beautifulsoup4 4.12.3
- black 24.4.2
- bleach 6.1.0
- certifi 2024.6.2
- cffi 1.16.0
- charset-normalizer 3.3.2
- click 8.1.7
- cloudpickle 3.0.0
- colorama 0.4.6
- comm 0.2.1
- contextlib2 21.6.0
- contourpy 1.2.1
- cycler 0.12.1
- dataflow 0.0.1
- datasets 2.20.0
- debugpy 1.6.7
- decorator 5.1.1
- defusedxml 0.7.1
- dill 0.3.8
- dnspython 2.6.1
- download 0.3.5
- easydict 1.13
- email_validator 2.2.0
- entrypoints 0.4
- evaluate 0.4.2
- exceptiongroup 1.2.0
- executing 0.8.3
- fastapi

Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。