MagicData
SIGN IN

Magichub Accented Mandarin Chinese ASR Challenge

Magichub重口音对话ASR挑战赛

Leaderboard

Submission Introduce

Notice

Notice: You can submit your hypothesis results up to 10 times before the submission closed and receive real-time scoring feedback.

If you submit results frequently within a short period of time, remember to refresh the page more often to see the latest results, as we use a caching mechanism to improve the site's access experience.

00
Hour
00
Min
00
Sec
Submission Closed

RANK

Team

Organization

Team Leader

MITC
xiaomi
陈俊杰
12.640
CCDL
Netease Game
Zhang Chun
12.730
RoyalFlush-CCA
Hithink RoyalFlush Information Network & Tianjin University
Chenshunfei
12.960
DAO
Netease Youdao
Shengzhou Gao
13.340
sogou-asr@pcg
Tencent-PCG
Zhang Bihong
13.350
AIzyzx
China Mobile Online Marketing and Services Center
任玉玲
14.130
Lattee
Individual
Qijie Shao
14.260
TJU_CCA_ASR
Cognitive Computing and Application of Tianjin University
Yuqin Lin
14.940
funspeech_v2
livedata
xudongwang
16.750
SHTeam
shanghai normal university
Xuefei Wang
18.330

Datasets

开发训练集

主办方针对赛道“重口音对话场景下的语音识别(ASR)准确率”开放了以下训练数据集:

  1. MagicData-RAMC 包括351组多轮普通话对话,时长共计180小时。每组对话的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息和话题信息。说话人信息包括了性别、年龄和地域,录制信息包括了环境和设备。请参赛者查看邮件进行数据集下载。
  2. MagicData提供14小时的重口音普通话对话数据,同样该数据的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息、话题信息、录音环境和采集设备。其中说话人信息包括性别、年龄和地域。请参赛者查看邮件进行数据集下载。
  3. 测试集(Test),将于6月14日开放。

训练集

MagicData-RAMC(需登录)

测试集

文件大小:1.4 GB

点此进行下载

Evaluation

为了帮助参赛者快速、高质量完成模型开发和训练,主办方提供了基线系统,提供给参赛者使用。我们采用传统的Hybrid的建模方式,基于Kaldi开源工具搭建了简易的重口音对话ASR 赛道的基线系统。首先用chain模型对Magic Data提供的160小时中文对话数据训练了一个CNN+TDNN-F的基础模型,然后使用14小时的重口音普通话对话数据集进行了声学模型的自适应。

选手可根据自己的习惯选择合适的ASR开源工具:

[Kaldi] https://github.com/kaldi-asr/kaldi

[WeNet] https://github.com/wenet-e2e/wenet

[espnet] https://github.com/espnet/espnet

[NeMo] https://github.com/NVIDIA/NeMo

[PaddleSpeech] https://github.com/PaddlePaddle/PaddleSpeech

DATA Preparation 数据准备

# magicdata-ramc
extract_magicdata_ramc.py

# accented mandarin dev
extract_magicdata_accented_dev.py

# accented mandarin test
extract_magicdata_accented_test_noref.py
# extract_magicdata_accented_test_ref.py

Training 训练

./run.sh

Submit 提交结果

submit csv file
uttid,hyp
...

Baseline result 参考基线

Model Corr Sub Del Ins WER
CNN+TDNNF 76.596 18.35 5.049 0.875 24.28
CNN+TDNNF+finetune 81.876 15.053 3.07 1.12 19.24

Baseline model 基线所用模型

采用传统的Hybrid的建模方式,基于Kaldi开源工具搭建了简易的重口音对话ASR 赛道的基线系统。首先用chain模型对北京爱数智慧提供的160小时中文对话数据训练了一个CNN+TDNN-F的基础模型,然后使用14小时的重口音普通话对话数据集进行了声学模型的自适应。

CNN+TDNNF+finetune模型下载地址>>