MagicData

sign in

ISCSLP2022 Magichub Code-Switching ASR Challenge

ISCSLP2022 Magichub中英混语音识别挑战赛

Leaderboard

Submission Introduce

File : <customized-name>.txt

Encoding : GBK (gb2312 / gb18030), utf8 not acceptable.

Content structure:

'content' + 'SPACE' + 'SPACE' + '(' + key + ')'

More details, please refer to: Github Repo > bash

 

Notice

Notice: You can submit your hypothesis results up to 10 times before the submission closed and receive real-time scoring feedback.

If you submit results frequently within a short period of time, remember to refresh the page more often to see the latest results, as we use a caching mechanism to improve the site's access experience.

00
Hour
00
Min
00
Sec
Submission Closed

RANK

Team

Organization

Team Leader

gymeee
NYCU
chun yi

-

SpeechLabX
NTUT & NYCU
蔡凱勛

-

conv
Netease Game AILAB
黄晓荣
16.700
What_to_eat
Audio,Speech and Language Processing Group,NPU
陈培坤
16.900
tingyin
lizhi
赵成辉
20.100
cscscs-asr
Individual
尹恒鑫
20.900
12321
Xiamen University
Huwenxuan
21.600
SpeechDream
Chivox co., Ltd
Wentao Xue
23.300
AIMSL
Individual
Du Mengjie
23.800
DNA
天津大学
宋彤彤
24.500

Datasets

开发训练集

主办方开放了以下训练与开发数据集:

1、MagicData-RAMC 包括351组多轮普通话对话,时长共计180小时。每组对话的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息和话题信息。说话人信息包括了性别、年龄和地域,录制信息包括了环境和设备。请参赛者查看邮件进行数据集下载。

2、TAL_CSASR中英文混合语音数据集,为好未来英语课授课音频,时长共计587小时。包含中英文混合讲话的情况,每条音频只有一位说话人,共包括超过200名说话人。请参赛者查看邮件进行数据集下载。

3、开发集(Dev),包含14名说话人,总时长约6.8小时。

所有参与者都应遵守以下规则:

1. DATA:只允许使用MagicData-RAMC  TAL_CSASR。数据增强可以使用两个噪声数据集,即 MUSANopenslr17), RIRNoise (openslr 28)

2. 严禁以任何形式使用测试集,包括但不限于使用测试数据集对模型进行微调或训练。

3.允许多系统融合。然而不鼓励使用具有相同结构的系统进行融合。

4. 所有模型都应在允许的数据集上进行训练。具体来说,预训练模型不允许使用其他数据集(包括未标记的数据)。

5、最终解释权归主办方所有。

Evaluation

基线系统介绍

为了帮助参赛者评估系统性能,主办方提供了基线系统性能供参赛者参考。该系统采用Transformer模型,基于ETEH平台开发。

具体信息请见:

https://github.com/MagicHub-io/CSASR_Challenge

打分工具

使用开源的打分工具Sclite进行打分。评分指标采用混合错误率(Mixed Error Rate, MER),即对中文计算字错误率、对英文计算词错误率。

打分样例请见 :

https://github.com/MagicHub-io/CSASR_Challenge/blob/main/dev_scoring_sclite.sh

基线系统答疑指导

对基线系统有任何疑问,请访问以下链接获取帮助,将有专家团队给予解答。

答疑直通车:

https://github.com/MagicHub-io/CSASR_Challenge#contact