赞
踩
音频处理算法模型有很多种,比较流行的一些有:
声音分类、声音分离、语音识别、声纹识别,语音合成、声音去噪、声音解码、声音克隆。
语音识别技术的应用场景:
1、语音助手 2、语音翻译 3、语音识别输入法 4、电话客服自动语音应答 5、语音识别笔录
6、语音搜索 7、智能家具 8、智能驾驶 9、语音识别密码 10、语音识别辅助设备
11、语音识别安防 12、语音识别教育
百度的语音方向的开源模型库,用于语音和音频的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。Paddle Speech 是飞桨平台上的一个开源工具包,用于语音和音频方面的各种关键任务,具有最先进和有影响力的模型。
主要功能:ASR、TTS、声音克隆、声纹识别、标点恢复、声音分类。
识别效果:支持中文和英文识别。识别过程较慢,适合普通话标准的场景,如果切换到方言比较重的场景,错词率 就比较高了。只支持文件形式传入数据。最大时长支持200秒以内。
服务器接口说明:https://github.com/PaddlePaddle/PaddleSpeech/wiki/PaddleSpeech-Server-RESTful-API
Whisper是OpenAI的一个项目,旨在通过大规模的弱监督学习来实现语音识别。Whisper的特点是速度快、准确性高,并且可以处理各种各样的语音信号,包括噪音、口音和语速等。
主要功能:语音识别、语音翻译、语言识别。
识别效果:识别速度较快,可识别57种语言,其中识别效果最好的依次为:西班牙语、意大利语、英语,对中文 的识别处于中等水平,所以效果不是很好。在不指定语言的时候可以自动识别语言类型。
服务器接口:Whisper API 的价格为 $0.006 / 分钟。
FunASR是由阿里集团下的达摩院语音实验室开源的一款语音识别基础框架,集成了语音端点检测、语音识别、标点断句等领域的工业级别模型,吸引了众多开发者参与体验和开发。
主要功能:语音识别、标点断句、端点检测
识别效果:识别准确率比较高,速度也比较快,可识别多种语言和中英混合。
Sherpa-NCNN 是一个基于 C++ 的轻量级神经网络推理框架,是kaldi下的一个子项目,它专门针对移动设备和嵌入式系统进行了优化。 Sherpa-NCNN 的目标是提供高性能、低延迟的推理能力,适用于移动设备和嵌入式系统,可以以满足实时应用需求。
主要功能:语音识别、流式语音识别
识别效果:识别速度很快,效果比较好,但是只支持wav格式的音频,其他格式的需要转换后才能识别。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。