MagicData
SIGN IN

Total Size: 7.1MB

Dataset Overview

Dataset Type

LLM Fine-tune Dataset

Language

Mandarin Chinese

Speech Style

Spontaneous Speech

Content

Themed conversation

Audio Parameters

N/A

File Format

TXT

Recording Equipment

N/A

Recording Environment

N/A
Open Source
ChatGPT FineTuned Data
322 paragraphs

MagicData-CLAM-Conversation_CN

This dataset comprises 97184 Chinese natural conversation sentences across 15 topics, including Life at home, Education & Healthcare, Military & War, Science & Technology, Climte & Environment, Humanities, Business & Economy, Digital Devices, Sports, Entertainment, Daily Life, Fine Arts, Politics and Law, Career Development, Religious and Faith. The partially open-source data this time was contributed exclusively by 644 collectors with different IDs from China, and authorized by Beijing Magic Data Technology Co., Ltd. Each group of conversations is carried out by two speakers around a topic, and the context is logically related to the current topic. It is suitable for training large model's back and forth conversation, contextual logical reasoning ability, and end-to-end conversation ability.

StatisticsMagicData-CLAM-Conversation_CN
#Dialogue322
#Turns97184
#Topics15
Avg. #Turns per Dialogue302
Avg. #Tokens per Turn25

Sample:

游戏主题:
B: 他们那边很多人十五六岁就打游戏,打得很厉害,还经常打游戏,并且有电竞相关法律,比如找别人代练打游戏是犯法的。
B: 从这一点可以看出,他们重视体育电竞。
A: 嗯。
B: 他们的电竞事业比中国发展得早,成熟得早。
B: 去年中国的IG拿到了英雄联盟世界赛的第一个冠军。
A: 对。
B: IG去年拿了一次冠军,在中国可以说没有一个圈子不在吹捧IG牛逼。
B: 中国IG为中国赛区拿了第一个世界冠军,然后就在吹。
B: 其实IG这支战队里还有韩国人。
A: 还有一个。
B: 韩国人嘛,然后其实上单theshy和中单rookie,都是韩国人嘛。
B: 然后其实这两个人在IG里还是很重要的。
B: 然后可以说每次打比赛,韩国人的数量总是比中国的多。
B: 就像这次世界赛,中国有三支队伍,但是中国队员只有九个,韩国队员有二十八名。
A: 是他的两三倍。
B: 就是各个国家的参赛人员,我们LPL赛区的三支队伍,本来有十五个人,只有九个人是中国人。
B: 除了RNG全华班以外,其余的FPX和IG全部都有韩援。
B: 说到韩援,我们中国的电竞很多俱乐部和战队都很喜欢引入韩援,因为韩国人打比赛特别牛特别厉害。
B: 然后也不存在什么国籍问题,电子竞技俱乐部就很喜欢引入韩援,通过韩援取得胜利,也不太重视国家方面。
B: 然后大部分的俱乐部都开始大量引入韩援。
B: 就是这样,去年IG拿完冠军,也有韩援的因素。
B: 然后今年的参赛队伍,从参赛人员来看,也可以看出韩国人的电子竞技搞得特别牛逼。
A: 嗯。
B: 所有参赛队伍中,中国有九个人排第二,韩国有二十八人。
B: 从这能看出,韩国人打电竞很厉害。
A: 那今年哪个国家是冠军?
B: 要等到明天决赛才知道。你看明天八点FPX打G2,FPX是中国赛区LPL的一号种子,这次首次杀入决赛,成绩不错。
B: G2是欧洲一号种子,阵容很豪华,就看明天结果了。
A: 嗯。
B: FPX里有两个韩国人,上单gimgoon和中单doinb。
B: 像doinb这样的韩援都是良心韩援,在中国赛区打比赛,都会用中文说LPL加油。
B: 其实没必要太在乎国籍,有些人喜欢全华班RNG,不喜欢有韩援的队伍。
B: 去年IG拿了世界冠军,还有人说IG偷走了RNG的冠军。
B: 这种说法没必要,从韩援问题能看出,中国赛区的电竞发展不如韩国。

旅行主题:
A: 咱们这儿有什么旅游景点吗?
B: 嗯。
A: 景点、地方景点都可以,连外国人都会过来。
B: 吸引了各国游客。
A: 吸引各国游客。
B: 嗯,什么大街小巷、广场,都摆放着一些我们以前的民间工艺品。
B: 你去过老城吗?咱们这儿的老城。
A: 嗯。
B: 老城里边人家摆的那种以前的屋子,现在都成了商品屋。
A: 嗯,都是卖东西的。
B: 想逛一下以前的感觉,却成了消费聚集地。
B: 其实旅游业的发展也能带动特产的发展,带动经济的发展。
B: 在那个地方的街巷,都能看到当地特产的专卖店。
B: 如果幸运的话,还可以看到它的制作过程。
B: 比如说姜茶、腊肉,这都是每个地方游客在去旅游时可能会看到的制作过程。
A: 旅游嘛,必不可少的就是住宿,把以前的老房子当成住宿的旅馆,在里面住会有不一样的感觉。
B: 嗯。
A: 游客们可能会很多。
B: 为了体验那种原风原宿的感觉,现在毕竟经济发展了,一座座宾馆大楼拔地而起。
A: 所以就把以前的房子改造成现在这种住宿的旅馆,住进去感觉跟现在住楼房不一样。
B: 现在出游要考虑的方面很多。
A: 可多了,交通、住宿......
B: 这都是快乐背后令人不悦的一面。
A: 对。
B: 比如旅游车辆增多就会堵车。
A: 国庆小长假,一想到堵车就不想出门了。
B: 可能在国道上就不想出门了,堵车现象数不胜数,交通事故也常有发生。
A: 现在每家每户都可能有一辆甚至好几辆车。
B: 几辆车?
A: 对,堵车很严重了。
B: 旅客去当地买东西时,物价可能会上涨。
A: 尤其是在长假期间,来的人多嘛。
B: 嗯,有一次我去很多小店铺询问过这个话题,发现相同的商品卖给游客时价格要高一些。
A: 就是在节假日和非节假日之间。
B: 对,他们的价格是有出入的。
A: 对。
B: 但是他们有些人是受了金钱的诱惑,也有些纯朴的当地人依旧热情好客,还是按原来的价格。
B: 比如电视上播出的有一家的饼子永远都是两块钱,就是为了保持原味儿。
A: 无论是做什么,都是两块钱,不管物价上涨还是其他。
B: 对。
A: 保持着原始的味道。

Citation Format:MagicData-CLAM- Conversation_CN. 2024. https://magichub.com/datasets/magicdata-clam-conversation_cn/. Beijing Magic Data Technology Co., Ltd.

Dataset Overview

Dataset Type

LLM Fine-tune Dataset

Language

Mandarin Chinese

Speech Style

Spontaneous Speech

Content

Themed conversation

Audio Parameters

N/A

File Format

TXT

Recording Equipment

N/A

Recording Environment

N/A
{{ reviewsTotal }}{{ options.labels.singularReviewCountLabel }}
{{ reviewsTotal }}{{ options.labels.pluralReviewCountLabel }}
{{ options.labels.newReviewButton }}
{{ userData.canReview.message }}

Verifying Email