中文拼写检测（Chinese Spelling Checking）相关方法、评测任务、榜单_中文拼写检查

作者：神奇cpp | 2024-08-18 02:50:37

踩

中文拼写检查

中文拼写检测（Chinese Spelling Checking）相关方法、评测任务、榜单

中文拼写检测（Chinese Spelling Checking，CSC）是近两年来比较火的小众任务，在包括ACL、EMNLP等顶会上发展迅速。本文简单介绍CSC任务，相关方法、评测任务和榜单。

一、中文拼写检测

中文拼写检测（Chinese Spelling Checking，CSC）又称中文拼写纠错（Chinese Spelling Correction，CSC），其旨在根据上下文来识别并纠正错误的拼写问题，起源于英文的拼写检测和语法错误识别问题。由于近年来中文NLP的发展加速，包括中文文本挖掘、中文预训练语言模型等，诸多中文语料或垂直领域语料中都会存在的一些拼写错误问题，因此提升语料质量十分重要。

目前中文拼写检测常用在如下三个场景中：

OCR识别：是指对图像类型的文字通过CV算法转换为UTF-8的字符。但是由于OCR属于单字独立识别，可能由于图像模糊、遮盖等问题导致识别出错，因此OCR识别出的文本可能会存在拼写错误问题。一般地，OCR属于视觉特征方面的文字识别任务，因此拼写错误通常来源于相似字形混淆。

例如“金属材料”可能会被错误识别为“金属材科”，因为“科”与“料”在字形上非常相似。

ASR识别：是指根据语音来转换为文字，属于语音识别。通常也会因为杂音、方言等问题，部分音节存在相似混淆而导致识别错误。

例如“星星产业”与“新兴产业”，“星星”与“新星”如果在说话者咬字不清晰的情况下是很难区分的。

意外错误：例如工作人员在键入信息时，可能由于敲错键盘等马虎行为，导致输入了错误的字符。

例如在输入“伤感”（shanggan）时，可能会误输入为“伤寒”（shanghan），因为“g”和“h”在键盘布局内仅靠在一起；

但是最终我们期望识别的文本在上下文是存在语义的，由于一些错误的拼写，我们依然可以判断他原始的正确字符。例如即便OCR错误识别为“金属材科”，我们依然可以根据上下文与先验知识来推测应为“金属材料”。当然也有可能是由于不同领域的问题，使得这个纠错任务并非完全依靠上下文。例如常见的搭配是“新兴产业”，但是不得排除“星星产业”是某一个商标或特定领域专有词汇。

因此，学术界引入中文拼写检测（CSC）来专门也就如何识别并纠错。在数据的构建上，可以直接根据混淆集来生成错误字符，而混淆集的构建则需要专门处理，如下图所示，可以针对对图像进行模糊化处理来生成错误的字符：
在这里插入图片描述

下面给出CSC基础概念：

混淆集（Confusion Set）：是指一系列存在字音字形相似的字符集合，例如“自”与“白”、“曰”存在字形混淆。在预测时，通常根据混淆集来召回可能的字符，再根据上下文预测正确的字符；
字形特征（Glyphic Feature）：通常表示一个汉字的偏旁部首（结构特征）和笔画序列（序列特征），例如：“争”的结构特征可以描述为“⿱⿰⿻⿻⿱”，序列特征为“丿㇇
声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/神奇cpp/article/detail/995653