论文阅读-Whisper语音识别（OpenAI）_robust speech recognition via large-scale weak sup

作者：酷酷是懒虫 | 2024-08-17 21:31:50

踩

robust speech recognition via large-scale weak supervision

一、论文信息

论文名称：Robust Speech Recognition via Large-Scale Weak Supervision

代码地址：https://github.com/openai/whisper

官方博客：https://openai.com/blog/whisper

作者团队：OpenAI

二、介绍

Whisper是一个通用语音识别模型。它是在各种音频的大型数据集上训练的，也是一个多任务模型，可以执行多语言语音识别以及语音翻译和语言识别。人工智能公司 OpenAI 开源了Whisper 自动语音识别系统，Open AI 强调 Whisper 的语音识别能力已达到人类水准。

Whisper 是一个自动语音识别（ASR，Automatic Speech Recognition）系统，OpenAI 通过从网络上收集了 68 万小时的多语言，其中11万小时覆盖96 种语言，12万小时的语言标号为英语，用多任务（multitask）监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集，可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别，Whisper 还能实现多种语言的转录，以及将这些语言翻译成英语。

三、方法

Whisper体系结构是一种简单的端到端方法，实现为编码器-解码器Transformer。输入音频被分成30秒的

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/994541