当前位置:   article > 正文

论文阅读-Whisper语音识别(OpenAI)_robust speech recognition via large-scale weak sup

robust speech recognition via large-scale weak supervision

一、论文信息

论文名称:Robust Speech Recognition via Large-Scale Weak Supervision

代码地址:https://github.com/openai/whisper

官方博客:https://openai.com/blog/whisper

作者团队:OpenAI

二、介绍

Whisper是一个通用语音识别模型。它是在各种音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。人工智能公司 OpenAI 开源了Whisper 自动语音识别系统,Open AI 强调 Whisper 的语音识别能力已达到人类水准。

Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言,其中11万小时覆盖96 种语言,12万小时的语言标号为英语,用多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。

三、方法

Whisper体系结构是一种简单的端到端方法,实现为编码器-解码器Transformer。输入音频被分成30秒的

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/994541
推荐阅读
相关标签
  

闽ICP备14008679号