MagicData
SIGN IN

概览

数据集类型

自然语言理解(NLP)文本语料

语种

zh-CN

语音类型

N/A

内容

TN正则文本

音频参数

N/A

文件格式

TXT (UTF8)

录音设备

N/A

录音环境

N/A
Magic Data自有数据集
NLP语料库
100,736句

NLP-CTxNormC: A Chinese Text Normalization Corpus

MDT-NLP-F024 | 100,736条中文TN正则文本语料

此数据集包含100,736条中文TN正则文本语料。

联系 business@magicdatatech.com 获取更多详情。

样本:

The OriginalText Normalization
另一队中国组合由邵奕俊担任舵手,最终排名第十四,落后冠军组合1.63秒。另一队中国组合由邵奕俊担任舵手,最终排名第十四,落后冠军组合一点六三秒。
第二局比赛中国队攻势不减,侯宇阳在23分33秒时将比分改写为3:0。第二局比赛中国队攻势不减,侯宇阳在二十三分三十三秒时将比分改写为三比零。
上半场比赛双方打成10-10平,这是超级碗历史上第四次半场分数持平。上半场比赛双方打成十比十平,这是超级碗历史上第四次半场分数持平。
当晚,酋长队在第四节仍以10:20落后于旧金山49人队。当晚,酋长队在第四节仍以十比二十落后于旧金山四十九人队。
到2019年底,中国高铁营运里程3.5万公里,居世界第一。到二零一九年底,中国高铁营运里程三点五万公里,居世界第一。

概览

数据集类型

自然语言理解(NLP)文本语料

语种

zh-CN

语音类型

N/A

内容

TN正则文本

音频参数

N/A

文件格式

TXT (UTF8)

录音设备

N/A

录音环境

N/A

授权方式

{{ reviewsTotal }}{{ options.labels.singularReviewCountLabel }}
{{ reviewsTotal }}评论
写评论
*访客无法进行评论

Verifying Email