赞
踩
转载请注明出处:https://blog.csdn.net/HHTNAN
n元分词法参见:https://blog.csdn.net/HHTNAN/article/details/62046652
关于kenlm统计语言模型:https://blog.csdn.net/HHTNAN/article/details/84231733
中文文本纠错任务,常见错误类型包括:
当然,针对不同业务场景,这些问题并不一定全部存在,比如输入法中需要处理前四种,搜索引擎需要处理所有类型,语音识别后文本纠错只需要处理前两种, 其中’形似字错误’主要针对五笔或者笔画手写输入等。
别字: 感帽,随然,传然,呕土
人名,地名错误:哈蜜(正:哈密)
拼音错误:咳数(ke shu)—> ke sou,
知识性错误:广州黄浦(埔)
用户发音、方言纠错:我系东北滴黑社会,俚蛾几现在在我手上。(我是东北的黑社会,你儿子现在在我手上。)
重复性错误:在 上 上面 上面 那 什么 啊
口语化问题:呃 。 呃 ,啊,那用户名称是叫什么呢?(正:那用户名称是叫什么呢?)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。