Dataset Overview

Dataset Type

text corpus for NLP

Language

zh-CN

Speech Style

N/A

Content

text normalization

Audio Parameters

N/A

File Format

TXT (UTF8)

Recording Equipment

N/A

Recording Environment

N/A

Proprietary

NLPコーパス

100736 sentences

NLP-CTxNormC: A Chinese Text Normalization Corpus

This dataset consists of 100,736 pieces of Chinese text normalization corpus.

連絡先 business@magicdatatech.com to learn more.

Sample:

The Original	Text Normalization
另一队中国组合由邵奕俊担任舵手，最终排名第十四，落后冠军组合1.63秒。	另一队中国组合由邵奕俊担任舵手，最终排名第十四，落后冠军组合一点六三秒。
第二局比赛中国队攻势不减，侯宇阳在23分33秒时将比分改写为3:0。	第二局比赛中国队攻势不减，侯宇阳在二十三分三十三秒时将比分改写为三比零。
上半场比赛双方打成10-10平，这是超级碗历史上第四次半场分数持平。	上半场比赛双方打成十比十平，这是超级碗历史上第四次半场分数持平。
当晚，酋长队在第四节仍以10:20落后于旧金山49人队。	当晚，酋长队在第四节仍以十比二十落后于旧金山四十九人队。
到2019年底，中国高铁营运里程3.5万公里，居世界第一。	到二零一九年底，中国高铁营运里程三点五万公里，居世界第一。

Recording Environment

备案号: 京ICP备18008050号-6号

京公网安备 11010802035822号

Your IP is: 216.73.217.54

SIGN IN

SIGN UP

Dataset Overview

Dataset Type

Language

Speech Style

Content

Audio Parameters

File Format

Recording Equipment

Recording Environment

NLP-CTxNormC: A Chinese Text Normalization Corpus

Dataset Overview

Dataset Type

Language

Speech Style

Content

Audio Parameters

File Format

Recording Equipment

Recording Environment

License

京公网安备 11010802035822号

SIGN IN

SIGN UP

Dataset Overview

Dataset Type

Language

Speech Style

Content

Audio Parameters

File Format

Recording Equipment

Recording Environment

NLP-CTxNormC: A Chinese Text Normalization Corpus

Dataset Overview

Dataset Type

Language

Speech Style

Content

Audio Parameters

File Format

Recording Equipment

Recording Environment

License

京公网安备 11010802035822号

Verifying Email