赞
踩
Wang271K | CSCD-IME(All) | CSCD-IME(Train) | CSCD-IME(Dev) | CSCD-IME(Test) | CSCD-IME(造的) | |
---|---|---|---|---|---|---|
句子数量 | 271329 | 40000 | 30000 | 5000 | 5000 | 2,029,942 |
正确句子数量 | 320 | 21594 | 16211 | 2686 | 2697 | 265,316 |
错误句子数量 | 271009 | 18406 | 13789 | 2314 | 2303 | 1,764,626 |
最大句子长度 | 140 | 127 | 127 | 127 | 123 | 127 |
最小句子长度 | 4 | 11 | 11 | 11 | 11 | 1 |
平均句子长度 | 42.55 | 57.43 | 27.39 | 57.45 | 57.63 | 30.82 |
错字数量 | 381962 | 20225 | 15143 | 2554 | 2528 | 2,934,108 |
平均每句错字数量 | 1.4 | 0.5 | 0.5 | 0.5 | 0.5 | 1.44 |
平均多少字一错字 | 30 | 113.58 | 113.7 | 112.47 | 114 | 21.3 |
含“他她它”错字的句子数量 | 2428 | 56 | 37 | 8 | 11 | 3586 |
含“的地得”错字的句子数量 | 2721 | 384 | 290 | 40 | 54 | 39395 |
“他她它”错字数数量 | 2447 | 59 | 39 | 9 | 11 | 3597 |
“的地得”错字数量 | 2773 | 399 | 301 | 42 | 56 | 39569 |
连续错字情况 | 1: 346467 2: 17327 3: 387 | 1: 39925 2: 918 3: 15 4: 2 5: 1 | 1: 29967 2: 669 3: 12 4: 2 5: 1 | 1: 4989 2: 124 3: 1 | 1: 4969 2: 125 3: 2 | 1: 1,866,997 2: 603,174 3: 29,794 4: 8380 5: 494 … |
SIGHAN(All Train) | SIGHAN15(Train) | SIGHAN14(Train) | SIGHAN13(Train) | SIGHAN15(Test) | SIGHAN14(Test) | SIGHAN13(Test) | |
---|---|---|---|---|---|---|---|
句子数量 | 6476 | 2339 | 3437 | 700 | 1100 | 1062 | 1000 |
正确句子数量 | 554 | 83 | 111 | 360 | 559 | 542 | 29 |
错误句子数量 | 5922 | 2256 | 3326 | 340 | 541 | 520 | 971 |
最大句子长度 | 258 | 171 | 258 | 112 | 108 | 150 | 158 |
最小句子长度 | 3 | 5 | 3 | 7 | 5 | 6 | 17 |
平均句子长度 | 42 | 31.25 | 49.37 | 41.54 | 30.6 | 50 | 74.3 |
错字数量 | 6666 | 2542 | 3781 | 343 | 703 | 771 | 1224 |
平均每句错字数量 | 1 | 1 | 1.1 | 0.49 | 0.64 | 0.726 | 1.224 |
平均多少字一错字 | 40.78 | 28.76 | 44.88 | 84.78 | 47.9 | 68.8 | 60.7 |
含“他她它”错字的句子数量 | 154 | 26 | 128 | 0 | 10 | 27 | 1 |
含“的地得”错字的句子数量 | 602 | 201 | 396 | 5 | 49 | 87 | 10 |
“他她它”错字数数量 | 157 | 26 | 131 | 0 | 11 | 31 | 1 |
“的地得”错字数量 | 608 | 201 | 402 | 5 | 49 | 94 | 11 |
连续错字情况 | 1: 6223 2: 453 3: 25 4: 4 | 1: 2197 2: 194 3: 8 4: 4 | 1: 3325 2: 258 3: 17 | 1: 701 2: 1 | 1: 1139 2: 58 4: 1 3: 1 | 1: 1193 2: 47 3: 6 4: 2 | 1: 1249 2: 2 |
多领域CSC数据集
EC_Law | EC_Med | EC_Odw | lemon_car | lemon_enc | lemon_gam | lemon_mec | lemon_new | lemon_nov | lemon_cot | |
---|---|---|---|---|---|---|---|---|---|---|
句子数量 | 2460 | 3500 | 2228 | 3245+165 | 3272+162 | 393+7 | 1942+148 | 5887+5 | 6000 | 993+33 |
正确句子数量 | 1146 | 1801 | 971 | 1668 | 1682 | 245 | 1037 | 2946 | 2986 | 552 |
错误句子数量 | 1314 | 1699 | 1257 | 1577 | 1590 | 148 | 905 | 2941 | 3014 | 441 |
最大句子长度 | 120 | 127 | 161 | 198 | 3204 | 107 | 72 | 56 | 346 | 70 |
最小句子长度 | 12 | 11 | 1 | 8 | 4 | 5 | 20 | 3 | 2 | 20 |
平均句子长度 | 30.5 | 50.1 | 41.1 | 43.4 | 40.0 | 31.5 | 39.2 | 25.2 | 36.2 | 40.1 |
错字数量 | 2071 | 2616 | 1985 | 1910 | 1786 | 164 | 1032 | 3260 | 3415 | 486 |
平均每句错字数量 | 0.84 | 0.75 | 0.89 | 0.59 | 0.55 | 0.42 | 0.53 | 0.55 | 0.57 | 0.49 |
平均多少字一错字 | 36.2 | 67.1 | 46.2 | 73.8 | 73.2 | 75.5 | 73.7 | 45.4 | 63.7 | 82.0 |
含“他她它”错字的句子数量 | 1 | 0 | 1 | 7 | 6 | 2 | 2 | 0 | 16 | 0 |
含“的地得”错字的句子数量 | 7 | 5 | 10 | 58 | 45 | 14 | 39 | 0 | 43 | 11 |
“他她它”错字数数量 | 1 | 0 | 1 | 8 | 6 | 2 | 2 | 0 | 16 | 0 |
“的地得”错字数量 | 7 | 5 | 11 | 60 | 47 | 17 | 42 | 0 | 43 | 11 |
有些数据集中存在异常样本(src和tgt长度不一致),因此使用+X的方式表示
医疗领域数据集
多领域CSC数据集
MCSC_Train | MCSC_Dev | MCSC_Test | |
---|---|---|---|
句子数量 | 157193+1 | 19652 | 19650 |
正确句子数量 | 78592 | 9826 | 9825 |
错误句子数量 | 78601 | 9826 | 9825 |
最大句子长度 | 52 | 42 | 45 |
最小句子长度 | 2 | 2 | 2 |
平均句子长度 | 10.9 | 10.9 | 10.9 |
错字数量 | 146503 | 18357 | 18286 |
平均每句错字数量 | 0.93 | 0.93 | 0.93 |
平均多少字一错字 | 11.7 | 11.7 | 11.7 |
含“他她它”错字的句子数量 | 64 | 8 | 4 |
含“的地得”错字的句子数量 | 156 | 16 | 14 |
“他她它”错字数数量 | 64 | 8 | 4 |
“的地得”错字数量 | 156 | 16 | 14 |
论文地址: https://arxiv.org/pdf/2211.08788.pdf
论文代码: https://github.com/nghuyong/cscd-ime
论文代码有两个作用:
作者知乎: https://zhuanlan.zhihu.com/p/586333153
数据集年份:2022-11
CSCD-IME全称:Chinese Spelling Correction Dataset for errors generated by pinyin IME
CSCD-IME数据集总结:
数据集链接:百度网盘 ,
数据集文件夹介绍:
--cscd-ime
--data
--cscd-ime
--dev.tsv # 验证集,5k条数据
--test.tsv # 测试集,5k条数据
--train.tsv # 训练集,3w条数据
--all.tsv # 全集,3w+5k+5k=4w条数据
--lcsts-ime-2m
--lcsts-ime-2m.tsv # 200w条违数据
--resource # 生成违数据时要用的文件
--char_4_gram.bin
--pinyin_distance_matrix.pkl
--predicts
--bert_cscd.tsv # bert的预测结果
--bert_cscd_report.txt # bert预测报告
论文地址: https://aclanthology.org/D18-1273/
论文代码: https://github.com/wdimmy/Automatic-Corpus-Generation
论文代码的作用:
数据集年份:2018-10
Wang271K数据集总结:
数据集年份:2013,2014,2015
SIGHAN数据集总结:
SIGHAN测试集的缺点:
论文地址:https://arxiv.org/pdf/2203.10929.pdf
论文代码:https://github.com/Aopolin-Lv/ECSpell
论文年份:2022-03
数据集地址:https://github.com/Aopolin-Lv/ECSpell/tree/main/Data
该作者提出了不同领域的CSC数据集,分布如下:
论文地址:https://arxiv.org/pdf/2305.17721.pdf
论文代码:https://github.com/gingasan/lemon
论文年份:2023-05
数据集链接:https://github.com/gingasan/lemon/tree/main/lemon_v2
该论文提出了6个领域的数据集:
论文地址:https://arxiv.org/pdf/2210.11720.pdf
论文代码:https://github.com/yzhihao/MCSCSet
论文年份:2022-10
数据集链接:https://github.com/yzhihao/MCSCSet/tree/main/data/mcsc_benchmark_dataset
数据集特点:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。