Magichub Accented Mandarin Chinese ASR Challenge

Magichub重口音对话ASR挑战赛

背景介绍

方言识别作为语音识别领域的难点之一,在中国这个人口众多、地域辽阔的市场,如何让机器更好的学习和理解人类复杂多变的方言,成为不少Machine Learning研究者和从业者面临的巨大挑战。同时,在智慧交通、智慧金融、智能家居等领域的众多企业都是以对话AI产品为核心,对话式AI成为众多企业的主要切入口之一。针对真实产业场景的刚性需求,本次挑战赛包含“重口音+对话”,希望与企业、机构及高校共同探索重口音对话AI领域的创新发展。

由 Magic Data (北京爱数智慧科技有限公司) 、中国科学院声学研究所、西北工业大学、上海交通大学、北京邮电大学主办,Magichub 开源社区、上海白玉兰开源开放研究院、OpenVINO中文社区、SegmentFault思否开发者社区、稀土掘金技术社区、示说网协办的“Magichub 重口音对话语音识别挑战赛”自开展以来已经收到四十多个来自各大高校和企业参赛队伍注册报名。2022年5月24日,主办方正式向参赛队伍开放开发训练集和基线系统。

报名须知

报名通道将于5月27日关闭。

规则说明

  1. 数据:训练数据只能使用180小时的MagicData-RAMC或SLR123和MagicData提供14小时的重口音普通话对话数据下载见邮件。 允许使用公开的噪声数据集 (如 MUSAN (openslr-17), RIRNoise (openslr-28)) 进行数据增广,但需要注明来源。禁止使用其他来源的数据(包括无监督数据)训练出的预训练模型。
  2. 方法:使用ASR建模方法进行建模,允许包括模型融合,预训练-finetune,无监督自适应在内的所有方法,但需要符合1中的数据使用规范。
  3. 测试:测试数据与MagicData提供14小时的重口音普通话对话数据同源,数据的发布请关注官方渠道,本次任务测试集会提供对应的时间标注信息,测试集中不存在噪音符号。
  4. 打分:标点符号、非语言符不参与最终 WER 计算。

开发训练集

主办方针对赛道“重口音对话场景下的语音识别(ASR)准确率”开放了以下训练数据集:

  1. MagicData-RAMC 包括351组多轮普通话对话,时长共计180小时。每组对话的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息和话题信息。说话人信息包括了性别、年龄和地域,录制信息包括了环境和设备。请参赛者查看邮件进行数据集下载。
  2. MagicData提供14小时的重口音普通话对话数据,同样该数据的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息、话题信息、录音环境和采集设备。其中说话人信息包括性别、年龄和地域。请参赛者查看邮件进行数据集下载。
  3. 测试集(Test),将于6月14日开放。

Baseline简介

为了帮助参赛者快速、高质量完成模型开发和训练,主办方提供了基线系统,提供给参赛者使用。我们采用传统的Hybrid的建模方式,基于Kaldi开源工具搭建了简易的重口音对话ASR 赛道的基线系统。首先用chain模型对Magic Data提供的160小时中文对话数据训练了一个CNN+TDNN-F的基础模型,然后使用14小时的重口音普通话对话数据集进行了声学模型的自适应。

选手可根据自己的习惯选择合适的ASR开源工具:

[Kaldi] https://github.com/kaldi-asr/kaldi

[WeNet] https://github.com/wenet-e2e/wenet

[espnet] https://github.com/espnet/espnet

[NeMo] https://github.com/NVIDIA/NeMo

[PaddleSpeech] https://github.com/PaddlePaddle/PaddleSpeech

主办&协办单位

主办单位

北京爱数智慧科技有限公司
中国科学院声学研究所
西北工业大学
上海交通大学
北京邮电大学

协办单位

Magichub 开源社区
上海白玉兰开源开放研究院
英特尔OpenVINO中文社区
SegmentFault思否开发者社区
稀土掘金技术社区
示说网

竞赛主委会支持团队

挑战赛相关问题,可请发送邮件至 open@magicdatatech.com,邮件标题为“重口音ASR挑战赛疑问”。

疑问将由以下组委会资深技术专家提供专业技术问答和指导。指导专家均在语音领域深耕多年,有着丰富研究和实战经验,相信参赛者们在他们的指导下能够得到启发与收获。

评分判定方式

参赛者提交模型和推理结果,限制48小时之内识别结果反馈。主办方承诺模型不对外公布,仅用于判定选手是否有违规行为。