ASR-RAMC-BigCCSC: A Chinese Conversational Speech Corpus

此数据集包含180个小时的中文普通话对话音频和转写文本，内容为由663名说话人提供的自由对话语料。

样本：

描述

开源数据集MagicData-RAMC介绍

精细标注的中国大陆普通话对话式语音数据集
180小时的普通话对话，训练集、开发集和测试集分别为150、10和20小时。

数据采集
声学环境为不足20m2的房间，混响时间(RT60)小于0.4秒。环境噪音水平低于40dB(A),录制过程中环境相对安静。

音频由爱数智慧在主流的智能手机上录制，其中Android和IOS系统的比例约为1:1。录音均为16比特采样点，采样率16KHz，录音质量高。

转录文本由爱数智慧人工标注并由专业检验员校对。除了正常的语音内容以外，还标注了犹豫、重复、标点、非语言、说话人时间戳等信息，标注质量高、信息丰富。

性别和人口的分布是平衡的。

包含各种各样的对话主题。

它包含351个多轮对话，每个对话都是围绕一个主题进行的连贯而紧凑的对话。

它涵盖了15个主题，包括人文、娱乐、体育、军事、金融、宗教、家庭生活、政治、教育、数字设备、环境、科学、专业发展、艺术和普通生活。

它适用于探索对话场景中的语音处理技术。

基线介绍

自动语音识别
We used ESPnet2 toolkit to train a Conformer model. The training data includes 755h of MagicData-READ and 150h of MagicData-RAMC.
我们在开发集和测试集上取得的字符错误率分别为16.5%和19.1%。

关键字搜索
We retrieved 200 keywords, which is provided by MagicData-RAMC, based on the Conformer model and daynamic time alignment algorithm.
开发集的精确率和召回率分别为86.98%和89.57%，测试集的精确率和召回率分别为85.87%和88.79%。

说话人日志
We used Kaldi toolkit to build a speaker diarization system which includes speaker activity detection, speaker embedding extractor and Bayesian HMM clustering. The timestamps are provided by MagicData-RAMC.
我们在开发集和测试集上取得的日志错误率分别为5.57%和7.96%。

文件大小：14.4GB

概览

数据集类型

语种

语音类型

内容

音频参数

文件格式

录音设备

录音环境

授权方式

MAGIC DATA OPEN-SOURCE LICENSE

ASR-RAMC-BigCCSC: A Chinese Conversational Speech Corpus

描述

基线介绍

概览

数据集类型

语种

语音类型

内容

音频参数

文件格式

录音设备

录音环境

授权方式

MAGIC DATA OPEN-SOURCE LICENSE

京公网安备 11010802035822号

文件大小：14.4GB

概览

数据集类型

语种

语音类型

内容

音频参数

文件格式

录音设备

录音环境

授权方式

MAGIC DATA OPEN-SOURCE LICENSE

ASR-RAMC-BigCCSC: A Chinese Conversational Speech Corpus

描述

基线介绍

概览

数据集类型

语种

语音类型

内容

音频参数

文件格式

录音设备

录音环境

授权方式

MAGIC DATA OPEN-SOURCE LICENSE

京公网安备 11010802035822号

Verifying Email