赞
踩
该论文于2023年10月11日发表在预印本arxiv https://arxiv.org/abs/2310.04673
模型采用仅解码器的 Transformer 框架
LauraGPT 包含三个组件:GPT backbone, an audio encoder, and a codec vocoder。对于音频输入,我们提取对数压缩的梅尔频谱图特征,并将其馈送到audio encoder,而音频输出则通过audio tokenizer离散为token。
对于文本数据,输入和输出都是由text tokenizer处理
利用开源语言模型 Qwen(Bai 等人,2023)作为骨干
阿里发布的语音大模型,已经开源https://github.com/alibaba-damo-academy/FunCodec/tree/master/egs/LibriTTS/text2speech_laura
感兴趣的可以研究一下
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。