赞
踩
简要信息:
序号 | 属性 | 值 |
---|---|---|
1 | 模型名称 | DCSpell |
2 | 发表位置 | SIGIR2021 |
3 | 所属领域 | 自然语言处理、中文拼写纠错 |
4 | 研究内容 | 中文拼写纠错 |
5 | 核心内容 | 端到端纠错 |
6 | GitHub源码 | |
7 | 论文PDF | https://dl.acm.org/doi/10.1145/3404835.3463050 |
these methods correct each character of the sentence regardless of its correctness, which might change the correct characters and result in high false alarm rates (FAR)
这些方法纠正句子的每个字符,而不管其正确性,这可能会改变正确的字符并导致高误报率 (FAR)
提出DCSpell模型,主要包含两个模块:Detector和Corrector
Both the Detector and the Corrector are transformer-based networks, which fully utilize the power of MLM pre-training models
模型架构如图所示:
(1)Detector:
(2)Corrector:
将Detector得到的带有[MASK]的序列,与原始的待纠错的文本拼接起来,喂入到MLM中;
(3)Confusion Set后处理
在Corrector得出预测结果后,需要根据混淆集进行处理,论文中给出的处理过程比较详细,因此直接进行截图,如图所示:
具体的处理过程本文进行了整理,可以用于具体的实验或业务中,如下所示:
对于一个文本,其通过Corrector之后,会得到所有[MASK]对应的logit,以及相应的置信度得分:
● step1:挑选置信度最高的预测token,如果存在于对应的TopL候选集中,且置信度超过一定的阈值a1,则将其纠正, 否则保持[MASK]不变;
● step2:对于没有被纠错的[MASK],则从整个词表中(除了[UNK])获得置信度最大的,若其置信度超过阈值a2,则纠正,否则依然保持[MASK]不变;
● step3:如果文本依然存在的[MASK],则重新执行step1和step2;
● 如果全部纠正,或无法对剩余的[MASK]进行纠错,则保持不变。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。