赞
踩
[译文]15个开源文本转语音(TTS) 工具
本文翻译自2022年5月份的文章:15 Open-source Text To Speech TTS Apps and Libraries。
注意:
“文本转语音” 或者说 “语音合成” 是一种从文本中生成听起来像人类的语音,可以识别单词并形成人类语音。
1968 年,日本电工实验室的Noriko Umeda 等人向世界介绍了第一个文本转语音系统。
1961 年,物理学家小约翰·拉里·凯利 (John Larry Kelly, Jr) 和他的同事路易斯·格斯特曼 (Louis Gerstman) 使用 IBM 704 计算机合成语音,这是贝尔实验室历史上最著名的事件之一。
OpenTTS: 开源文本到语音服务器
这项技术的主要优势是有视觉和阅读障碍的人,因为他们是它的第一批用户。
如今,许多 YouTube 频道都使用这项技术来最大限度地减少编辑并提高产量。
在许多现代操作系统中,文本到语音是一种内置的辅助功能,可以帮助那些无法轻松阅读屏幕文本的人。
在本文中,我们为您提供了一系列免费的开源文本转语音 (TTS) 和语音合成应用程序。 您还可以找到一个新的更新列表,以获取更多[基于 Web 的开源 TTS 应用程序和服务](https://medevel.com/free-tts /).
MARY TTS 是一个用纯 java 编写的开源、多语言文本到语音合成系统。 它适用于 Windows、Linux 和 macOS。
Kaldi 是一个用 C++ 编写的语音识别工具包,并在 Apache License v2.0 下获得许可。源代码可在 [GitHub](https://github.com/kaldi-asr/kaldi)。
Kaldi 可以在 Windows、Linux 和 macOS 上运行。 它还可以在 Android、PowerPC 和 Web Assembly 上运行。
OpenTTS 是一个用 Python 编写的免费、开源的 TTS 服务。 它是根据麻省理工学院许可证(MIT)发布的。 它支持多种语言,并带有易于使用的界面。 此外,它还带有许多替代库。
支持的语言:英语 (27)、德语 (7)、法语 (3)、西班牙语 (2)、荷兰语 (4)、俄语 (3)、瑞典语 (1)、意大利语 (2)、斯瓦希里语 (1)、芬兰语、 韩语、日语、中文、瑞典语等。
eSpeak 是一个紧凑的开源软件语音合成器,适用于 Linux 和 Windows,适用于英语和其他语言。 它支持多种语言,并附带许多有用的功能,这使其成为许多用户的理想选择。
支持语言
南非荷兰语、阿尔巴尼亚语、阿拉贡语、亚美尼亚语、保加利亚语、粤语、加泰罗尼亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、世界语、爱沙尼亚语、波斯语、芬兰语、法语、格鲁吉亚语、德语、希腊语、印地语、匈牙利语、冰岛语、印度尼西亚语、爱尔兰语、 意大利语、卡纳达语、库尔德语、拉脱维亚语、立陶宛语、逻辑语、马其顿语、马来西亚语、马拉雅拉姆语、普通话、尼泊尔语、挪威语、波兰语、葡萄牙语、旁遮普语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、西班牙语、斯瓦希里语、瑞典语、泰米尔语、土耳其语、越南语、 威尔士语。
这个 开源项目 允许您通过将文本复制并粘贴到其简单的界面中,轻松地将任何文本转换为语音。 它是用 C# 编程语言编写的,目前可以在 Windows 上运行。
在线 TTS 是一个简单的 HTML/JavaScript 项目,可将您的英文文本变成令人生畏的演讲。
在线 TTS 具有简单的快捷方式和干净的用户界面。
Flite 是一个小型、快速的运行时合成[库](https://github.com/ festvox/flite) 适用于嵌入式系统和服务器。 核心 Flite 库由 Alan W Black awb@cs.cmu.edu(主要是在他所谓的业余时间)开发,而 受雇于卡内基梅隆大学语言技术研究所。
Flite 支持 Windows、Linux、macOS、Android、FreeBSD 和其他几个系统。
Julius 是一个开源的大词汇量连续语音识别引擎。
It 是一款面向语音相关研究人员和开发人员的高性能、小占用空间大词汇量连续语音识别 (LVCSR) 解码器软件。 基于单词 N-gram 和上下文相关的 HMM。
Athena 是一个基于sequence-to-sequence的语音处理引擎的开源实现
Athena功能
基于混合注意力/CTC 的端到端 ASR
语音转换器
无监督预训练
使用 Horovod 在一台机器或多台机器上进行多 GPU 训练
基于 Tacotron2 的端到端 TTS,支持多扬声器和 GST
基于 Transformer 的 TTS 和 FastSpeech
WFST 创建和基于 WFST 的解码
使用 Tensorflow C++ 部署
ESPnet是一个端到端语音处理工具包,主要专注于端到端语音识别和端到端文本转语音。
它是一个开发人员友好的应用程序,可以集成到 Web 项目中。 开发人员也可以使用 Docker 安装它。
Voice Builder 是一个开源的文本转语音 (TTS) 语音构建工具,专注于简单性、灵活性和协作性。 我们的工具允许任何具有基本计算机技能的人运行语音训练实验并聆听生成的合成语音。
Voice Builder 项目是使用 JavaScript 编写的,并在 Apache-2.0 许可下发布。
Coqui TTS 是一个用于高级文本转语音的库。 它建立在最新研究的基础上,旨在实现易于培训、速度和质量之间的最佳平衡。
Mozilla TTS 是一个用于高级文本到语音生成的库。 它建立在最新研究的基础上,旨在实现易于培训、速度和质量之间的最佳平衡。
Mycroft 是一个开源语音助手系统。 Mimic 是由 Mycroft 团队创建的内置 TTS 库。
FreeTTS:跨平台文本转语音应用程序
FreeTTS 是一个完全用 JavaTM 编程语言编写的语音合成系统。 它基于 Flite:卡内基梅隆大学开发的小型运行时语音合成引擎。 Flite 源自爱丁堡大学的 Festival Speech Synthesis System 和卡内基梅隆大学的 FestVox 项目。
它支持 16/8k 的 AU 和 WAV 格式。 它已经在 Solaris TM 操作环境、Mac OS X、Linux 和 Win32 操作系统上进行了测试。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。