方言识别作为语音识别领域的难点之一,在中国这个人口众多、地域辽阔的市场,如何让机器更好的学习和理解人类复杂多变的方言,成为不少Machine Learning研究者和从业者面临的巨大挑战。同时,在智慧交通、智慧金融、智能家居等领域的众多企业都是以对话AI产品为核心,对话式AI成为众多企业的主要切入口之一。针对真实产业场景的刚性需求,本次挑战赛包含“重口音+对话”,希望与企业、机构及高校共同探索重口音对话AI领域的创新发展。
由 Magic Data (北京爱数智慧科技有限公司) 、中国科学院声学研究所、西北工业大学、上海交通大学、北京邮电大学主办,Magichub 开源社区、上海白玉兰开源开放研究院、OpenVINO中文社区、SegmentFault思否开发者社区、稀土掘金技术社区、示说网协办的“Magichub 重口音对话语音识别挑战赛”自开展以来已经收到四十多个来自各大高校和企业参赛队伍注册报名。2022年5月24日,主办方正式向参赛队伍开放开发训练集和基线系统。
5月10日:开放报名
5月24日12:00:开放训练集和开发集,公布Baseline
6月14日12:00:开放测试集
6月16日12:00:提交结果和模型截止。注意:为验证挑战结果,请提交模型与代码。
6月20日:公布比赛成绩
7月4日:提交获奖PPT或竞赛论文
待定:颁奖及分享
参与本次竞赛报名,需注意以下事项:
本次竞赛的报名通道将于5月27日关闭。
训练数据只能使用180小时的MagicData-RAMC或SLR123和MagicData提供14小时的重口音普通话对话数据下载见邮件。 允许使用公开的噪声数据集 (如 MUSAN (openslr-17), RIRNoise (openslr-28)) 进行数据增广,但需要注明来源。禁止使用其他来源的数据(包括无监督数据)训练出的预训练模型。
使用ASR建模方法进行建模,允许包括模型融合,预训练-finetune,无监督自适应在内的所有方法,但需要符合1中的数据使用规范。
测试数据与MagicData提供14小时的重口音普通话对话数据同源,数据的发布请关注官方渠道,本次任务测试集会提供对应的时间标注信息,测试集中不存在噪音符号。
标点符号、非语言符不参与最终 WER 计算。
参赛者提交模型和推理结果,限制48小时之内识别结果反馈。主办方承诺模型不对外公布,仅用于判定选手是否有违规行为。
北京爱数智慧科技有限公司
中国科学院声学研究所
西北工业大学
上海交通大学
北京邮电大学
Magichub 开源社区
上海白玉兰开源开放研究院
英特尔OpenVINO中文社区
SegmentFault思否开发者社区
稀土掘金技术社区
示说网
挑战赛相关问题,可请发送邮件至 open@magicdatatech.com,邮件标题为“重口音ASR挑战赛疑问”。
疑问将由以下组委会资深技术专家提供专业技术问答和指导。指导专家均在语音领域深耕多年,有着丰富研究和实战经验,相信参赛者们在他们的指导下能够得到启发与收获。
比赛分别设置一等奖、二等奖和三等奖,将评选出三组获奖团队/个人,获奖者将有机会参加国际及国内顶会的现场演示及交流活动。
Notice: You can submit your hypothesis results up to 10 times before the submission closed and receive real-time scoring feedback.
If you submit results frequently within a short period of time, remember to refresh the page more often to see the latest results, as we use a caching mechanism to improve the site's access experience.
主办方针对赛道“重口音对话场景下的语音识别(ASR)准确率”开放了以下训练数据集:
MagicData-RAMC(需登录)
文件大小:1.4 GB
为了帮助参赛者快速、高质量完成模型开发和训练,主办方提供了基线系统,提供给参赛者使用。我们采用传统的Hybrid的建模方式,基于Kaldi开源工具搭建了简易的重口音对话ASR 赛道的基线系统。首先用chain模型对Magic Data提供的160小时中文对话数据训练了一个CNN+TDNN-F的基础模型,然后使用14小时的重口音普通话对话数据集进行了声学模型的自适应。
选手可根据自己的习惯选择合适的ASR开源工具:
[Kaldi] https://github.com/kaldi-asr/kaldi
[WeNet] https://github.com/wenet-e2e/wenet
[espnet] https://github.com/espnet/espnet
[NeMo] https://github.com/NVIDIA/NeMo
[PaddleSpeech] https://github.com/PaddlePaddle/PaddleSpeech
# magicdata-ramc
extract_magicdata_ramc.py
# accented mandarin dev
extract_magicdata_accented_dev.py
# accented mandarin test
extract_magicdata_accented_test_noref.py
# extract_magicdata_accented_test_ref.py
./run.sh
submit csv file
uttid,hyp
...
Model | Corr | Sub | Del | Ins | WER |
---|---|---|---|---|---|
CNN+TDNNF | 76.596 | 18.35 | 5.049 | 0.875 | 24.28 |
CNN+TDNNF+finetune | 81.876 | 15.053 | 3.07 | 1.12 | 19.24 |
采用传统的Hybrid的建模方式,基于Kaldi开源工具搭建了简易的重口音对话ASR 赛道的基线系统。首先用chain模型对北京爱数智慧提供的160小时中文对话数据训练了一个CNN+TDNN-F的基础模型,然后使用14小时的重口音普通话对话数据集进行了声学模型的自适应。
Your IP is: 3.80.4.147