当前位置:   article > 正文

AI 克隆声音,只需 3 分钟(附最全教程)_声音克隆

声音克隆

作者:寒斜

继生成式文本大模型 Chatgpt,生成式图片 Stablediffusion 之后生成式语音 Text To Speech 在开源社区也出现了一匹黑马,就是 GPT-Sovits [ 1]

之所以说他是黑马,让人觉得惊艳,是因为在语音效果克隆上做的足够真实和简单,只需要小样本的声音数据源,就可以实现高度相似的的仿真效果,也正是因为足够简单和好的效果,GPT-Sovits 的社区也异常火爆,github 的 star 数迅速飙升,目前已达 27.2K。

然而,无论是 C 端的内容生产者,想要使用进行内容生产,还是 B 端用户做商业化落地,部署这套 GPT-Sovits 软件都需要面临一些技术挑战,今天我们就来给大家介绍一下,如何通过阿里云函数计算快速托管 GPT-Sovits 来解决这些挑战。

图片

有奖体验正在进行中

声音也能被完美复制!用 AI 实现声音克隆,让喜欢的声音喊出动画片经典台词。函数计算 FC 一键部署 GPT-Sovits 语音生成模型,最高赢小米蓝牙音响礼!立即参与:https://developer.aliyun.com/topic/june/fcnas

应用场景

在进行 GPT-Sovits 的实践之前,为了能够进一步说明他的价值,我们先来聊聊关于他的应用场景,更确切的来说是生成式语音的应用场景:

  • 教育:在教育场景下对声音的诉求尤其重要,对于学生而言,有感情色彩的交流,价值远大于纯文本的交换,个人教育比如英语培训也是跟语音强相关的。
  • 游戏娱乐:游戏娱乐场景就更加明确,个性化的声音是吸引人的关键因素。
  • 新能源:在车载系统,导航里,希望实时对话查询目的地相关的信息是有刚性需求的,比如使用高德导航,正在路上开车的时候,通过实时对话。
  • 新媒体:在数字人直播场景下,构建差异性专业的声音是直播效果好坏的关键。
  • 农业:比如农业智能化,技术人员在田间工作的时候,打字是一定没有语音交互方便的。
  • 机器人:机器人要有耳朵和嘴巴,需要声音的输出。

以上的场景都是跟 TTS 强相关的,或者说 TTS 作为核心的基础能力被使用,当然构建完整效果还需要更多工程化的实现和其他基础模型,后续我们再展开讲讲。

动手部署一个 AI 克隆大模型

通过函数计算部署 GPT-Sovits 模型的好处有两个:

  1. 无需关心 GPU 服务器维护和环境配置,即可快速部署和体验模型。

  2. 可以充分利用函数计算按量付费,弹性伸缩等优势,高效地为用户提供基于 GPT-Sovits 模型的文本到语音生成服务。

技术架构概览

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

本方案的技术架构包括以下基础设施和云服务:

  • 函数计算:用于提供 GPT-Sovits 模型的应用服务。
  • 文件存储 NAS:用于存放预训练的 GPT-Sovits 模型。
  • 专有网络 VPC:用于配置专有网络,方便函数计算访问文件存储 NAS。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小桥流水78/article/detail/754148
推荐阅读
相关标签