MagicData
SIGN IN

Dataset Overview

Dataset Type

text corpus for NLP

Language

zh-CN

Speech Style

N/A

Content

text normalization

Audio Parameters

N/A

File Format

TXT (UTF8)

Recording Equipment

N/A

Recording Environment

N/A
Proprietary
NLPコーパス
100736 sentences

NLP-CTxNormC: A Chinese Text Normalization Corpus

MDT-NLP-F024 | 100,736 pieces of Chinese text normalization corpus

This dataset consists of 100,736 pieces of Chinese text normalization corpus.

連絡先 business@magicdatatech.com to learn more.

Sample:

The OriginalText Normalization
另一队中国组合由邵奕俊担任舵手,最终排名第十四,落后冠军组合1.63秒。另一队中国组合由邵奕俊担任舵手,最终排名第十四,落后冠军组合一点六三秒。
第二局比赛中国队攻势不减,侯宇阳在23分33秒时将比分改写为3:0。第二局比赛中国队攻势不减,侯宇阳在二十三分三十三秒时将比分改写为三比零。
上半场比赛双方打成10-10平,这是超级碗历史上第四次半场分数持平。上半场比赛双方打成十比十平,这是超级碗历史上第四次半场分数持平。
当晚,酋长队在第四节仍以10:20落后于旧金山49人队。当晚,酋长队在第四节仍以十比二十落后于旧金山四十九人队。
到2019年底,中国高铁营运里程3.5万公里,居世界第一。到二零一九年底,中国高铁营运里程三点五万公里,居世界第一。

Dataset Overview

Dataset Type

text corpus for NLP

Language

zh-CN

Speech Style

N/A

Content

text normalization

Audio Parameters

N/A

File Format

TXT (UTF8)

Recording Equipment

N/A

Recording Environment

N/A

License

{{ reviewsTotal }}{{ options.labels.singularReviewCountLabel }}
{{ reviewsTotal }}{{ options.labels.pluralReviewCountLabel }}
{{ options.labels.newReviewButton }}
{{ userData.canReview.message }}

Verifying Email