当前位置:   article > 正文

语音翻译常用数据集_中英文翻译数据集

中英文翻译数据集

语音翻译常用数据集

  1. Fisher and CALLHOME Spanish-English Speech Translation

【基本信息】

Fisher and CALLHOME Spanish-English Speech Translation数据集是由约翰霍普金斯大学开发的,包含英语参考翻译和语音识别器各种形式的输出,补充了LDC Fisher Spanish (LDC2010T04) 和CALLHOME Spanish音频和转录版本 (LDC96T17)。两者一起组成了一个四向平行的数据集,包括西班牙语音频、转录、语音识别词图(ASR lattices)和大约38小时的语音的英文翻译。

源数据是由LDC开发的Fisher Spanish和CALLOME Spanish语料库,包括各种方言的(主要是母语)西班牙语使用者之间转录的电话对话。Fisher Spanish数据集包含 819 次转录对话,内容涉及各种提供的主题,主要是在陌生人之间,产生大约160小时的在发音级别对齐语音,包含150万个token。CALLHOME Spanish语料库包括120份主要是朋友和家人之间自发对话的转录,产生了大约20小时的在发音级别对齐语音,转录文本仅超过20万个token。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/865593
推荐阅读
相关标签
  

闽ICP备14008679号