2022年8月12日,Magic Data 、好未来 (智慧教育-国家新一代人工智能开放创新平台) 、清华大学、中国科学院声学研究所主办,Magichub 开源社区、上海白玉兰开源开放研究院、OpenVINO中文社区、SegmentFault思否开发者社区、稀土掘金技术社区、示说网协办的 “Magichub 中英混对话语音识别挑战赛” 正式开启报名,欢迎学术界、产业界的团体及个人报名参赛。
近年来,全球化进程发展迅速,人们在日常交流中经常会出现中文语境下夹杂其他语种的现象,这种语言现象称为语种混杂(Code-Switching)。这样的表达方式,尤其是中英文混杂的语音表达在应用场景中非常常见,主要包含两种表现形式:一是语言穿插表达“Oh, My God我的电脑死机了”,二是在一种主要语言中混合入另外一种语言“我要上Coursera学习Machine Learning课程”,这样的表达方式都被认为是正确并且符合语法的。
随着语音识别设备的普及,如何让机器更好的学习和理解人类复杂多变的语言,成为不少ML研究者和从业者面临的巨大挑战。而数据的匹配度和丰富性,则是推动语音识别系统性能提升的最重要因素之一,通过高质量的结构化数据进行训练提升识别率,才能让机器领会说话人意图和指令,以作出更加精准的响应。本次挑战赛希望与企业、机构及高校携手,共同探索中英混对话AI领域的创新发展。
参赛者提交推理结果,由系统进行计算指标结果,具体文件格式以及评测指标将会在比赛训练开放阶段公布。
For every result submission, source code and model are required for only testing submission when ranking is questioned.
每一份结果数据需要提供原始代码与相应的模型,以便在榜单结果存疑时用于还原测试结果。
挑战赛相关问题,可请发送邮件至 open@magicdatatech.com,邮件标题为“中英混ASR挑战赛疑问”。
疑问将由以下组委会资深技术专家提供专业技术问答和指导。指导专家均在语音领域深耕多年,有着丰富研究和实战经验,相信参赛者们在他们的指导下能够得到启发与收获。
比赛分别设置一等奖、二等奖和三等奖,将评选出三组获奖团队/个人,获奖者将有机会参加国际及国内顶会的现场演示及交流活动。
一等奖 1名:华为Watch+阿噗筋膜枪(价值3000元)+获奖证书
二等奖 2名:Magic Data锦鲤大礼包+好未来&凌美联名钢笔礼盒(价值1500元)+获奖证书
三等奖 3名:Magic Data定制礼品+阿噗体重秤(价值500元)+获奖证书
File : <customized-name>.txt
Encoding : GBK (gb2312 / gb18030), utf8 not acceptable.
Content structure:
'content' + 'SPACE' + 'SPACE' + '(' + key + ')'
More details, please refer to: Github Repo > bash
Notice: You can submit your hypothesis results up to 10 times before the submission closed and receive real-time scoring feedback.
If you submit results frequently within a short period of time, remember to refresh the page more often to see the latest results, as we use a caching mechanism to improve the site's access experience.
主办方开放了以下训练与开发数据集:
1、MagicData-RAMC 包括351组多轮普通话对话,时长共计180小时。每组对话的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息和话题信息。说话人信息包括了性别、年龄和地域,录制信息包括了环境和设备。请参赛者查看邮件进行数据集下载。
2、TAL_CSASR中英文混合语音数据集,为好未来英语课授课音频,时长共计587小时。包含中英文混合讲话的情况,每条音频只有一位说话人,共包括超过200名说话人。请参赛者查看邮件进行数据集下载。
3、开发集(Dev),包含14名说话人,总时长约6.8小时。
所有参与者都应遵守以下规则:
1. DATA:只允许使用MagicData-RAMC 和 TAL_CSASR。数据增强可以使用两个噪声数据集,即 MUSAN(openslr17), RIRNoise (openslr 28)。
2. 严禁以任何形式使用测试集,包括但不限于使用测试数据集对模型进行微调或训练。
3.允许多系统融合。然而不鼓励使用具有相同结构的系统进行融合。
4. 所有模型都应在允许的数据集上进行训练。具体来说,预训练模型不允许使用其他数据集(包括未标记的数据)。
5、最终解释权归主办方所有。
为了帮助参赛者评估系统性能,主办方提供了基线系统性能供参赛者参考。该系统采用Transformer模型,基于ETEH平台开发。
具体信息请见:
https://github.com/MagicHub-io/CSASR_Challenge
使用开源的打分工具Sclite进行打分。评分指标采用混合错误率(Mixed Error Rate, MER),即对中文计算字错误率、对英文计算词错误率。
打分样例请见 :
https://github.com/MagicHub-io/CSASR_Challenge/blob/main/dev_scoring_sclite.sh
对基线系统有任何疑问,请访问以下链接获取帮助,将有专家团队给予解答。
答疑直通车:
Your IP is: 3.236.100.210