菜鸟追梦旅行

这个屌丝很懒，什么也没留下！

热门标签

中文拼写纠错(CSC)任务各个数据集汇总与简介_wang271k

作者：菜鸟追梦旅行 | 2024-04-24 15:17:59

踩

wang271k

文章目录

各数据集句子统计情况
各数据集简介

各数据集句子统计情况

	Wang271K	CSCD-IME(All)	CSCD-IME(Train)	CSCD-IME(Dev)	CSCD-IME(Test)	CSCD-IME(造的)
句子数量	271329	40000	30000	5000	5000	2,029,942
正确句子数量	320	21594	16211	2686	2697	265,316
错误句子数量	271009	18406	13789	2314	2303	1,764,626
最大句子长度	140	127	127	127	123	127
最小句子长度	4	11	11	11	11	1
平均句子长度	42.55	57.43	27.39	57.45	57.63	30.82
错字数量	381962	20225	15143	2554	2528	2,934,108
平均每句错字数量	1.4	0.5	0.5	0.5	0.5	1.44
平均多少字一错字	30	113.58	113.7	112.47	114	21.3
含“他她它”错字的句子数量	2428	56	37	8	11	3586
含“的地得”错字的句子数量	2721	384	290	40	54	39395
“他她它”错字数数量	2447	59	39	9	11	3597
“的地得”错字数量	2773	399	301	42	56	39569
连续错字情况	1: 346467 2: 17327 3: 387	1: 39925 2: 918 3: 15 4: 2 5: 1	1: 29967 2: 669 3: 12 4: 2 5: 1	1: 4989 2: 124 3: 1	1: 4969 2: 125 3: 2	1: 1,866,997 2: 603,174 3: 29,794 4: 8380 5: 494 …

	SIGHAN(All Train)	SIGHAN15(Train)	SIGHAN14(Train)	SIGHAN13(Train)	SIGHAN15(Test)	SIGHAN14(Test)	SIGHAN13(Test)
句子数量	6476	2339	3437	700	1100	1062	1000
正确句子数量	554	83	111	360	559	542	29
错误句子数量	5922	2256	3326	340	541	520	971
最大句子长度	258	171	258	112	108	150	158
最小句子长度	3	5	3	7	5	6	17
平均句子长度	42	31.25	49.37	41.54	30.6	50	74.3
错字数量	6666	2542	3781	343	703	771	1224
平均每句错字数量	1	1	1.1	0.49	0.64	0.726	1.224
平均多少字一错字	40.78	28.76	44.88	84.78	47.9	68.8	60.7
含“他她它”错字的句子数量	154	26	128	0	10	27	1
含“的地得”错字的句子数量	602	201	396	5	49	87	10
“他她它”错字数数量	157	26	131	0	11	31	1
“的地得”错字数量	608	201	402	5	49	94	11
连续错字情况	1: 6223 2: 453 3: 25 4: 4	1: 2197 2: 194 3: 8 4: 4	1: 3325 2: 258 3: 17	1: 701 2: 1	1: 1139 2: 58 4: 1 3: 1	1: 1193 2: 47 3: 6 4: 2	1: 1249 2: 2

多领域CSC数据集

	EC_Law	EC_Med	EC_Odw	lemon_car	lemon_enc	lemon_gam	lemon_mec	lemon_new	lemon_nov	lemon_cot
句子数量	2460	3500	2228	3245+165	3272+162	393+7	1942+148	5887+5	6000	993+33
正确句子数量	1146	1801	971	1668	1682	245	1037	2946	2986	552
错误句子数量	1314	1699	1257	1577	1590	148	905	2941	3014	441
最大句子长度	120	127	161	198	3204	107	72	56	346	70
最小句子长度	12	11	1	8	4	5	20	3	2	20
平均句子长度	30.5	50.1	41.1	43.4	40.0	31.5	39.2	25.2	36.2	40.1
错字数量	2071	2616	1985	1910	1786	164	1032	3260	3415	486
平均每句错字数量	0.84	0.75	0.89	0.59	0.55	0.42	0.53	0.55	0.57	0.49
平均多少字一错字	36.2	67.1	46.2	73.8	73.2	75.5	73.7	45.4	63.7	82.0
含“他她它”错字的句子数量	1	0	1	7	6	2	2	0	16	0
含“的地得”错字的句子数量	7	5	10	58	45	14	39	0	43	11
“他她它”错字数数量	1	0	1	8	6	2	2	0	16	0
“的地得”错字数量	7	5	11	60	47	17	42	0	43	11

有些数据集中存在异常样本（src和tgt长度不一致），因此使用+X的方式表示

医疗领域数据集

多领域CSC数据集

	MCSC_Train	MCSC_Dev	MCSC_Test
句子数量	157193+1	19652	19650
正确句子数量	78592	9826	9825
错误句子数量	78601	9826	9825
最大句子长度	52	42	45
最小句子长度	2	2	2
平均句子长度	10.9	10.9	10.9
错字数量	146503	18357	18286
平均每句错字数量	0.93	0.93	0.93
平均多少字一错字	11.7	11.7	11.7
含“他她它”错字的句子数量	64	8	4
含“的地得”错字的句子数量	156	16	14
“他她它”错字数数量	64	8	4
“的地得”错字数量	156	16	14

各数据集简介

CSCD-IME 数据集总结

论文地址: https://arxiv.org/pdf/2211.08788.pdf

论文代码: https://github.com/nghuyong/cscd-ime

论文代码有两个作用：

用于生成违数据集
对预测结果进行评价

作者知乎: https://zhuanlan.zhihu.com/p/586333153

数据集年份：2022-11

CSCD-IME全称：Chinese Spelling Correction Dataset for errors generated by pinyin IME

CSCD-IME数据集总结：

数据集只关注“拼音输入法”导致的错误
数据来源：经过认证的新闻媒体机构在微博上发布的博文（例如人民日报）
训练集：3w，验证集5k，测试集3k。均为人工标注
模拟“拼音输入法”导致的错误，构建了200w个违数据集。
该数据集会包含更多的“词”错误，例如：“鸡你太美”->“鸡你钛镁”，整个“钛镁”都是错的，这也符合实际情况，但这种纠错更难。

数据集链接：百度网盘，

数据集文件夹介绍：

--cscd-ime
  --data
    --cscd-ime
      --dev.tsv	# 验证集，5k条数据
      --test.tsv	# 测试集，5k条数据
      --train.tsv	# 训练集，3w条数据
      --all.tsv  # 全集，3w+5k+5k=4w条数据
    --lcsts-ime-2m
      --lcsts-ime-2m.tsv	# 200w条违数据
    --resource	# 生成违数据时要用的文件
      --char_4_gram.bin
      --pinyin_distance_matrix.pkl
    --predicts
      --bert_cscd.tsv  # bert的预测结果
      --bert_cscd_report.txt	# bert预测报告
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Wang271K 数据集总结

论文地址: https://aclanthology.org/D18-1273/

论文代码: https://github.com/wdimmy/Automatic-Corpus-Generation

论文代码的作用：

用于生成违数据集

数据集年份：2018-10

Wang271K数据集总结：

该数据集主要用于训练模型，通常不作为测试集使用。
根据“形近似”和“音近似”两个方面替换一部分字符
“形近似”错字构造方式：文本转图片->对部分字图片加噪音->使用OCR识别->得到形近似错字。
“音近似”错字构造方式：句子转语音->语音转句子。
句子来源：人民日报网站

SIGHAN

数据集年份：2013，2014，2015

SIGHAN数据集总结：

外国人学中文时写的句子，内容偏生活

SIGHAN测试集的缺点：

不符合实际应用场景。因为是老外学中文写的语句，所以和实际中文拼写纠错的场景不一致。
语句不通顺，毕竟不是中国人写的。
大量的错误数据。对，即使是测试集，也有大量的错误数据。比如漏字、多字和错字的情况。
大量的重复数据。总共就1100句，很多句子都是相同的错误，比如“奴(女)生”就在好几句出现了。
测试集过少
从繁体翻译过来后，很多词汇或字不符合大陆习惯。

ECSpell（多领域）

论文地址：https://arxiv.org/pdf/2203.10929.pdf

论文代码：https://github.com/Aopolin-Lv/ECSpell

论文年份：2022-03

数据集地址：https://github.com/Aopolin-Lv/ECSpell/tree/main/Data

该作者提出了不同领域的CSC数据集，分布如下：

EC_Law：法律领域
EC_Med：医疗领域（medical treatment）
EC_Odw：官方文章写作（official document writing）

LEMON（多领域）

论文地址：https://arxiv.org/pdf/2305.17721.pdf

论文代码：https://github.com/gingasan/lemon

论文年份：2023-05

数据集链接：https://github.com/gingasan/lemon/tree/main/lemon_v2

该论文提出了6个领域的数据集：

lemon_car：汽车
lemon_enc：百科（encyclopedia）
lemon_gam：游戏（game）
lemon_mec：医疗照护（emdical care）
lemon_new：新闻（news）
lemon_nov：小说（novel）
lemon_cot：合同（contract）

MCSC

论文地址：https://arxiv.org/pdf/2210.11720.pdf

论文代码：https://github.com/yzhihao/MCSCSet

论文年份：2022-10

数据集链接：https://github.com/yzhihao/MCSCSet/tree/main/data/mcsc_benchmark_dataset

数据集特点：

医疗领域数据集
全是医学专家的人工标记
数据来源为腾讯医典
主要是一些医疗问题，例如“糖尿病如何治疗？”

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/479993