当前位置:   article > 正文

lstm 文本纠错_AI LIVE | 文本纠错技术探索和实践

lstm全局特征

· 小PAI导读 ·

「AI LIVE」是平安人寿AI团队打造的AI专业知识分享和学习专栏,将通过直播、沙龙等形式,分享平安寿险AI技术及创新成果,推动实现与AI领域同行共成长。

本期「AI LIVE」将回顾我们在“AI研习社”直播间进行的主题为「文本纠错技术探索和实践」的技术分享,由平安人寿AI团队高级算法工程师陈乐清老师主讲。

为了让大家能够快速get本期直播干货,小PAI特别整理了这篇直播内容文字稿,一起来复习一下吧~

全文框架概览

3f136708eb9a61ba46fc58a5274cc68c.png

一、背景与意义

中文纠错技术是实现中文语句自动检查、自动纠错的一项重要技术,其目的是提高语言正确性的同时减少人工校验成本。纠错模块作为自然语言处理最基础的模块,其重要程度不言而喻。

在日常生活中,我们经常会在微信、微博等社交工具或公众号文章中发现许多错别字。我们在几个方面对文本出错概率进行了统计:在微博等新媒体领域中,文本出错概率在2%左右;在语音识别领域中,出错率最高可达8-10%;而在平安人寿问答领域中,用户提问出错率在去重后仍高达9%。

在平安人寿问答领域的用户问题中,我们发现多种类型错误。其中占比最高的错误是语言转化和发音不标准的错误,占错误总量的50%。比如一款保险产品“少儿平安福”被语言识别转化为“少儿平安符”、“飞机”因方言差异被读成“灰机”、“难受想哭”变成“难受香菇”等。

占比第二高的错误类型是拼写错误,占错误总量的35%。这些错误主要发生在通过拼音、五笔和手写输入文本的场景。比如“眼镜蛇”-“眼睛蛇”、“缺铁性贫血”-“缺铁性盆血”等。剩余的错误我们将其分类为语法和知识错误,语法错误包括多字少字乱序,如“地中海投保”-“投保地中海”,知识关联错误如“福田平安金融中心”错写为“南山平安金融中心”。

文本中大量的错误对上层nlp技术来说无疑是一项巨大挑战,输入数据的准确性是自然语言处理常见任务的基本前提,也是提高上层应用性能的关键。

5bc44ca464505442bcee25284cb01e94.png

二、研究现状

在通用领域中,中文文本纠错问题是从互联网起始时就一直在解决的问题。在搜索引擎中,一个好的纠错系统能够对用户输入的查询词进行纠错提示,或直接展示正确答案。

在此给大家介绍一个比较受欢迎的纠错项目:Pycorrector。该项目由规则纠错和深度学习纠错两部分组成。深度学习纠错项目中提到一些前沿的方法,比如机器翻译,但作者未提供直接调用接口;而规则纠错虽然可以直接调用,但因其性能和准确率无法满足我们项目需求,无法直接使用。下面简单介绍一下规则纠错,主要分为经典三步曲:第一步通过常用词词典匹配结合统计语言模型的方式进行错误检测;第二步利用近音字,近形字和混淆字进行候选召回;最后一步利用统计语言模型进行打分排序。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/831163
推荐阅读
相关标签
  

闽ICP备14008679号