当前位置:   article > 正文

比较流行的一些音频AI模型_语音ai建模

语音ai建模

音频处理算法模型有很多种,比较流行的一些有:

声音分类、声音分离、语音识别、声纹识别,语音合成、声音去噪、声音解码、声音克隆。

语音识别技术的应用场景:

1、语音助手 2、语音翻译 3、语音识别输入法 4、电话客服自动语音应答 5、语音识别笔录

6、语音搜索 7、智能家具 8、智能驾驶 9、语音识别密码 10、语音识别辅助设备

11、语音识别安防 12、语音识别教育

1、Paddle Speech

百度的语音方向的开源模型库,用于语音和音频的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。Paddle Speech 是飞桨平台上的一个开源工具包,用于语音和音频方面的各种关键任务,具有最先进和有影响力的模型。

主要功能:ASR、TTS、声音克隆、声纹识别、标点恢复、声音分类。

识别效果:支持中文和英文识别。识别过程较慢,适合普通话标准的场景,如果切换到方言比较重的场景,错词率 就比较高了。只支持文件形式传入数据。最大时长支持200秒以内。

服务器接口说明:https://github.com/PaddlePaddle/PaddleSpeech/wiki/PaddleSpeech-Server-RESTful-API

2、whisper

Whisper是OpenAI的一个项目,旨在通过大规模的弱监督学习来实现语音识别。Whisper的特点是速度快、准确性高,并且可以处理各种各样的语音信号,包括噪音、口音和语速等。

主要功能:语音识别、语音翻译、语言识别。

识别效果:识别速度较快,可识别57种语言,其中识别效果最好的依次为:西班牙语、意大利语、英语,对中文 的识别处于中等水平,所以效果不是很好。在不指定语言的时候可以自动识别语言类型。

服务器接口:Whisper API 的价格为 $0.006 / 分钟。

3、FunASR

FunASR是由阿里集团下的达摩院语音实验室开源的一款语音识别基础框架,集成了语音端点检测、语音识别、标点断句等领域的工业级别模型,吸引了众多开发者参与体验和开发。

主要功能:语音识别、标点断句、端点检测

识别效果:识别准确率比较高,速度也比较快,可识别多种语言和中英混合。

4、sherpa-ncnn

Sherpa-NCNN 是一个基于 C++ 的轻量级神经网络推理框架,是kaldi下的一个子项目,它专门针对移动设备和嵌入式系统进行了优化。 Sherpa-NCNN 的目标是提供高性能、低延迟的推理能力,适用于移动设备和嵌入式系统,可以以满足实时应用需求。

主要功能:语音识别、流式语音识别

识别效果:识别速度很快,效果比较好,但是只支持wav格式的音频,其他格式的需要转换后才能识别。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/278215
推荐阅读
相关标签
  

闽ICP备14008679号