CosyVoice 实测，阿里开源语音合成模型，3s极速语音克隆，5分钟带你部署实战_cosyvoice 合成语音速度慢

作者：天景科技苑 | 2024-08-12 02:38:25

踩

cosyvoice 合成语音速度慢

今天，它的姊妹篇来了：语音合成模型 CosyVoice，3秒极速复刻声音。

这两，堪称语音对话的完美搭档：

能干什么？

只要是人机交互的应用场景，它都能顶。比如语音翻译、语音对话、互动播客、有声读物等。

本次分享，就带大家来体验一番，并在本地部署起来，方便随时调用。

1. CosyVoice 简介

项目地址：https://github.com/FunAudioLLM/CosyVoice

项目简介：https://fun-audio-llm.github.io/

CosyVoice 的亮点总结：

官方共提供了三个版本的模型：

从模型架构图上，可以看出，文本输入侧，支持三种类型的输入。

最近大火的 ChatTTS 对比，CosyVoice 在内容一致性上更优，且少有幻觉、额外多字。不得不说，CosyVoice 很好地建模了文本中的语义信息，达到了与人类发音相当的水平。

体验地址：https://www.modelscope.cn/studios/iic/CosyVoice-300M

操作比较简单，多点一点就熟悉了~

对于开发者而言，一个好的工具，自然是要能够随时调用的，接下来我们就聊聊如何把它部署成一个服务，方便集成到的你的应用中去。

本打算采用 ModelScope 的 GPU 实例进行演示，不过安装conda环境出现各种问题，最终还是弃用了。

今天给大家推荐一个云 GPU 厂商，新人注册送 100 点算力，还没使用过的小伙伴赶紧去薅羊毛：驱动云注册

virtaicloud 不仅是新人福利诚意满满，而且远程连接非常方便。此外，不用担心你的数据丢失：

注册成功后，点击快速创建项目。

step1: 资源配置：选择一张 6G 的显卡就够

step2: 选择镜像，社区已有小伙伴做好了 CosyVoice 的镜像，拿来用就行，搜索框输入 cosy，从公开镜像中查找。

step3: 数据配置，社区已有小伙伴上传了 CosyVoice 的模型，赶紧挂载进来，否则接下来下载模型你会很痛苦（太慢了本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/天景科技苑/article/detail/967261