当前位置: article > 正文

比较流行的一些音频AI模型_语音ai建模

作者：你好赵伟 | 2024-03-21 03:51:00

踩

语音ai建模

音频处理算法模型有很多种，比较流行的一些有：

声音分类、声音分离、语音识别、声纹识别，语音合成、声音去噪、声音解码、声音克隆。

语音识别技术的应用场景：

1、语音助手 2、语音翻译 3、语音识别输入法 4、电话客服自动语音应答 5、语音识别笔录

6、语音搜索 7、智能家具 8、智能驾驶 9、语音识别密码 10、语音识别辅助设备

11、语音识别安防 12、语音识别教育

百度的语音方向的开源模型库，用于语音和音频的各种关键任务的开发，包含大量基于深度学习前沿和有影响力的模型。Paddle Speech 是飞桨平台上的一个开源工具包，用于语音和音频方面的各种关键任务，具有最先进和有影响力的模型。

主要功能：ASR、TTS、声音克隆、声纹识别、标点恢复、声音分类。

识别效果：支持中文和英文识别。识别过程较慢，适合普通话标准的场景，如果切换到方言比较重的场景，错词率就比较高了。只支持文件形式传入数据。最大时长支持200秒以内。

Whisper是OpenAI的一个项目，旨在通过大规模的弱监督学习来实现语音识别。Whisper的特点是速度快、准确性高，并且可以处理各种各样的语音信号，包括噪音、口音和语速等。

主要功能：语音识别、语音翻译、语言识别。

识别效果：识别速度较快，可识别57种语言，其中识别效果最好的依次为：西班牙语、意大利语、英语，对中文的识别处于中等水平，所以效果不是很好。在不指定语言的时候可以自动识别语言类型。

服务器接口：Whisper API 的价格为 $0.006 / 分钟。

FunASR是由阿里集团下的达摩院语音实验室开源的一款语音识别基础框架，集成了语音端点检测、语音识别、标点断句等领域的工业级别模型，吸引了众多开发者参与体验和开发。

主要功能：语音识别、标点断句、端点检测

识别效果：识别准确率比较高，速度也比较快，可识别多种语言和中英混合。

Sherpa-NCNN 是一个基于 C++ 的轻量级神经网络推理框架，是kaldi下的一个子项目，它专门针对移动设备和嵌入式系统进行了优化。 Sherpa-NCNN 的目标是提供高性能、低延迟的推理能力，适用于移动设备和嵌入式系统，可以以满足实时应用需求。

主要功能：语音识别、流式语音识别

识别效果：识别速度很快，效果比较好，但是只支持wav格式的音频，其他格式的需要转换后才能识别。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/278215