赞
踩
前段时间给大家介绍了阿里最强语音识别模型:
SenseVoice 实测,阿里开源语音大模型,识别效果和效率优于 Whisper
今天,它的姊妹篇来了:语音合成模型 CosyVoice,3秒极速复刻声音。
这两,堪称语音对话的完美搭档:
能干什么?
只要是人机交互的应用场景,它都能顶。比如语音翻译、语音对话、互动播客、有声读物等。
本次分享,就带大家来体验一番,并在本地部署起来,方便随时调用。
CosyVoice 的亮点总结:
官方共提供了三个版本的模型:
从模型架构图上,可以看出,文本输入侧,支持三种类型的输入。
最近大火的 ChatTTS 对比,CosyVoice 在内容一致性上更优,且少有幻觉、额外多字。不得不说,CosyVoice 很好地建模了文本中的语义信息,达到了与人类发音相当的水平。
操作比较简单,多点一点就熟悉了~
对于开发者而言,一个好的工具,自然是要能够随时调用的,接下来我们就聊聊如何把它部署成一个服务,方便集成到的你的应用中去。
本打算采用 ModelScope 的 GPU 实例进行演示,不过安装conda环境出现各种问题,最终还是弃用了。
今天给大家推荐一个云 GPU 厂商,新人注册送 100 点算力,还没使用过的小伙伴赶紧去薅羊毛:驱动云注册
virtaicloud 不仅是新人福利诚意满满,而且远程连接非常方便。此外,不用担心你的数据丢失:
/gemini/code
中的文件,会持久保存;注册成功后,点击快速创建项目
。
step1: 资源配置:选择一张 6G 的显卡就够
step2: 选择镜像,社区已有小伙伴做好了 CosyVoice 的镜像,拿来用就行,搜索框输入 cosy,从公开镜像中查找。
step3: 数据配置,社区已有小伙伴上传了 CosyVoice 的模型,赶紧挂载进来,否则接下来下载模型你会很痛苦(太慢了声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。