学习实践-Whisper语音识别模型实战（部署+运行）_whisper csdn

作者：笔触狂放9 | 2024-03-07 07:46:42

踩

whisper csdn

1、Whisper内容简单介绍

OpenAI的语音识别模型Whisper，Whisper 是一个自动语音识别（ASR，Automatic Speech Recognition）系统，OpenAI 通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集，可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别，Whisper 还能实现多种语言的转录，以及将这些语言翻译成英语。Open AI 强调 Whisper 的语音识别能力已达到人类水准。

在这里插入图片描述
左：输入的音频被分割成 30 秒的小段、转换为 log-Mel 频谱图，然后传递到编码器。

右：解码器经过训练以预测相应的文字说明，并与特殊的标记进行混合，这些标记指导单一模型执行诸如语言识别、短语级别的时间戳、多语言语音转录和语音翻译等任务。

2、Whisper模型实战

Whisper模型GitHub代码地址
部署步骤如下：（注意使用的是Windows系统)

# 新建chatglm环境
conda create -n whisper python==3.8
# 激活chatglm环境
conda activate chatglm
# 安装PyTorch环境
pip --trusted-host pypi.tuna.tsinghua.edu.cn install torch==1.10.1+cu102 torchvision==0.11.2+cu102 torchaudio==0.10.1 -f https://download.pytorch.org/whl/torch_stable.html
# 一键安装依赖包
pip install -U openai-whisper
#执行tiny demo
whisper D:/11.mp4 --model tiny  --language Chinese
1
2
3
4
5
6
7
8
9
10

model tiny运行结果
在这里插入图片描述
model base运行结果

可以看出base model识别效果还是挺不错的，但由于追求速度，某些音相近的会被识别错误。
例如：
应供–因公
乘凯–陈凯
试验–誓言
逛该意目–灌溉亿亩

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/204339