【深度学习】【语音TTS】OpenVoice: Versatile Instant Voice Cloning，论文

作者：人工智能uu | 2024-08-03 21:09:25

踩

https://github.com/myshell-ai/OpenVoice

https://arxiv.org/abs/2312.01479

文章目录

摘要

我们介绍了OpenVoice，一种多功能的即时语音克隆方法，只需参考说话者的短音频片段即可复制其声音，并生成多语言的语音。OpenVoice在解决以下领域开放挑战方面取得了重要进展：1）灵活的声音风格控制。OpenVoice允许对声音风格进行细粒度控制，包括情感、口音、节奏、停顿和语调，除了复制参考说话者的音色外。这些声音风格并不直接复制并受限于参考说话者的风格。之前的方法在克隆后无法灵活操控声音风格。2）零-shot跨语言语音克隆。OpenVoice实现了对未包含在大规模说话者训练集中的语言的零-shot跨语言语音克隆。与之前通常需要广泛的大规模说话者多语言（MSML）数据集的做法不同，OpenVoice可以在没有该语言的大规模说话者训练数据的情况下，将声音克隆到新语言中。OpenVoice在计算上也很高效，其成本是商业API的数十分之一，而这些API甚至表现更差。为了促进该领域的进一步研究，我们公开了源代码和训练模型。我们还在演示网站上提供了定性结果。在公开发布之前，OpenVoice的内部版本在2023年5月至10月期间被全球用户使用了数千万次，作为MyShell.ai的后台服务。

在这里插入图片描述

1 引言

即时语音克隆（IVC）在文本到语音（TTS）合成中意味着TTS模型可以在不给参考说话者额外训练的情况下，仅凭短

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/人工智能uu/article/detail/924823