MagicData
SIGN IN

文件大小:14.4GB

概览

数据集类型

语音识别(ASR)音频数据集

语种

zh-CN,中文普通话(中国)

语音类型

自由对话

内容

自由对话

音频参数

16 kHz,16 bits

文件格式

WAV (PCM) TXT (UTF-8)

录音设备

手机

录音环境

室内
开源数据集
ASR数据集
180小时

ASR-RAMC-BigCCSC: A Chinese Conversational Speech Corpus

总时长为180小时的中文普通话对话音频和转写文本

此数据集包含180个小时的中文普通话对话音频和转写文本,内容为由663名说话人提供的自由对话语料。

样本:

描述

开源数据集MagicData-RAMC介绍

精细标注的中国大陆普通话对话式语音数据集
180小时的普通话对话,训练集、开发集和测试集分别为150、10和20小时。

数据采集
声学环境为不足20m2的房间,混响时间(RT60)小于0.4秒。 环境噪音水平低于40dB(A),录制过程中环境相对安静。

音频由爱数智慧在主流的智能手机上录制,其中Android和IOS系统的比例约为1:1。录音均为16比特采样点,采样率16KHz,录音质量高。

转录文本由爱数智慧人工标注并由专业检验员校对。除了正常的语音内容以外,还标注了犹豫、重复、标点、非语言、说话人时间戳等信息,标注质量高、信息丰富。

性别和人口的分布是平衡的。

图1 数据集采集人员的性别分布图
图2 数据集采集人员的区域分布图
图3 数据集采集人员的省份分布图

包含各种各样的对话主题。

它包含351个多轮对话,每个对话都是围绕一个主题进行的连贯而紧凑的对话。

它涵盖了15个主题,包括人文、娱乐、体育、军事、金融、宗教、家庭生活、政治、教育、数字设备、环境、科学、专业发展、艺术和普通生活。

它适用于探索对话场景中的语音处理技术。

基线介绍

自动语音识别
We used ESPnet2 toolkit to train a Conformer model. The training data includes 755h of MagicData-READ and 150h of MagicData-RAMC.
我们在开发集和测试集上取得的字符错误率分别为16.5%和19.1%。


关键字搜索
We retrieved 200 keywords, which is provided by MagicData-RAMC, based on the Conformer model and daynamic time alignment algorithm.
开发集的精确率和召回率分别为86.98%和89.57%,测试集的精确率和召回率分别为85.87%和88.79%。


说话人日志
We used Kaldi toolkit to build a speaker diarization system which includes speaker activity detection, speaker embedding extractor and Bayesian HMM clustering. The timestamps are provided by MagicData-RAMC.
我们在开发集和测试集上取得的日志错误率分别为5.57%和7.96%。

概览

数据集类型

语音识别(ASR)音频数据集

语种

zh-CN,中文普通话(中国)

语音类型

自由对话

内容

自由对话

音频参数

16 kHz,16 bits

文件格式

WAV (PCM) TXT (UTF-8)

录音设备

手机

录音环境

室内
{{ reviewsTotal }}{{ options.labels.singularReviewCountLabel }}
{{ reviewsTotal }}评论
写评论
*访客无法进行评论

Verifying Email