赞
踩
MuAViC是第一个音视频语音翻译基准,也是最大的音视频语音识别多语言基准。它包含大约 1,200 小时的跨 9 种语言的转录数据。
在无数的日常情况下,背景噪音——交通声、音乐声、其他人说话的声音——让我们更难理解别人在说什么。人类经常使用来自其他感官的信息,尤其是视觉,来帮助我们交流(正如 Harry McGurk 和 John MacDonald 在 1976 年的研究“听嘴唇和看声音”中指出的那样)。例如,如果您在一场喧闹的音乐会上与朋友交谈,您可能会关注他们的脸部以补充您能听到的内容。
AI 研究人员最近构建了使用视觉信息来提高英语语音识别任务性能的系统(例如 Meta AI 公开的AV-HuBERT和RAVen模型)。现在,Meta AI 发布了MuAViC(多语言视听语料库),这是第一个使使用视听学习进行高精度语音翻译成为可能的基准。我们使用 MuAViC 训练我们的 AV-HuBERT 模型,使其能够在嘈杂、具有挑战性的环境中翻译语音,其性能优于其他领先的翻译模型。
Meta凭借No Language Left Behind和Universal Speech Translator专注于语音翻译研究,因为它具有打破沟通障碍、将人们聚集在一起的巨大潜力。我们很高兴看到研究界的其他人如何使用 MuAViC 创建在现实条件下运行良好的翻译系统。
MuAViC是通过从TED和TEDx演讲录音中收集音频和视频轨道,并将其与人工转录和文
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。