挑战赛 | MagicHub中英混语音识别挑战赛发布基线系统和开发训练集_好未来中英混数据

作者：运维做开发 | 2024-08-07 18:32:09

踩

好未来中英混数据

2022年8月12日起，由Magic Data、好未来、清华大学、中国科学院声学研究所主办联合主办的 “Magichub中英混ASR挑战赛” 自开展以来，已经收到三十多支国内外研究机构、知名企业及高校的参赛队伍注册报名，包括荔枝FM、特斯联、网易游戏、中移在线、中科院、华中科技大学、中国科学技术大学、西北工业大学、厦门大学、天津大学等。8月24日，主办方正式向参赛队伍开放开发训练集和基线系统。

报名持续进行中

www.magichub.com/join-competition

开发训练集

主办方开放了以下训练与开发数据集：

1、MagicData-RAMC 包括351组多轮普通话对话，时长共计180小时。每组对话的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息和话题信息。说话人信息包括了性别、年龄和地域，录制信息包括了环境和设备。请参赛者查看邮件进行数据集下载。

2、TAL_CSASR中英文混合语音数据集，为好未来英语课授课音频，时长共计587小时。包含中英文混合讲话的情况，每条音频只有一位说话人，共包括超过200名说话人。请参赛者查看邮件进行数据集下载。

3、开发集（Dev），包含14名说话人，总时长约6.8小时。

所有参与者都应遵守以下规则：

1. DATA：只允许使用MagicData-RAMC 和 TAL_CSASR。数据增强可以使用两个噪声数据集，即 MUSAN（openslr17), RIRNoise (openslr 28)。

2. 严禁以任何形式使用测试集，包括但不限于使用测试数据集对模型进行微调或训练。

3.允许多系统融合。然而不鼓励使用具有相同结构的系统进行融合。

4. 所有模型都应在允许的数据集上进行训练。具体来说，预训练模型不允许使用其他数据集（包括未标记的数据）。