当前位置:   article > 正文

一键语法错误增强工具 ChineseErrorCorrector

chineseerrorcorrector

      欢迎使用我最近开源的一键语法错误增强工具,该工具可以进行14种语法错误的增强,不同行业可以根据自己的数据进行错误替换,来训练自己的语法和拼写模型,希望推动行业文本纠错的发展,欢迎Star,14种错误如下所示:

了解上述14种错误之后,若想对一个句子进行语法错误的增强,对应的每种错误类型使用方法,如下所示:

环境的安装

pip 下载 ChineseErrorCorrector包,推荐大家下载最新版。

pip install ChineseErrorCorrector
 

不同类型的数据增强

下面是14种不同错误类型的数据增强,大家可以选择对应的类型进行增强,若结果为None,则说明无法进行该类型的数据增强,欢迎大家使用。

1.缺字漏字

  1. from ChineseErrorCorrector.dat import GrammarErrorDat
  2. cged_tool = GrammarErrorDat()
  3. print(cged_tool.lack_word("小明住在北京"))
  4. # 输出:小明在北京

  

2.错别字错误

  1. from ChineseErrorCorrector.dat import GrammarErrorDat
  2. cged_tool = GrammarErrorDat()
  3. print(cged_tool.wrong_word("小明住在北京"))
  4. # 输出:小明住在北鲸

3.缺少标点

  1. from ChineseErrorCorrector.dat import GrammarErrorDat
  2. cged_tool = GrammarErrorDat()
  3. print(cged_tool.lack_char("小明住在北京,热爱NLP。"))
  4. # 输出:小明住在北京热爱NLP。

  

4.错用标点

  1. from ChineseErrorCorrector.dat import GrammarErrorDat
  2. cged_tool = GrammarErrorDat()
  3. print(cged_tool.wrong_char("小明住在北京"))
  4. # 输出:小明住在北京。热爱NLP。

  

5.主语不明

  1. from ChineseErrorCorrector.dat import GrammarErrorDat
  2. cged_tool = GrammarErrorDat()
  3. print(cged_tool.unknow_sub("小明住在北京"))
  4. # 输出:住在北京

  

6.谓语残缺

  1. from ChineseErrorCorrector.dat import GrammarErrorDat
  2. cged_tool = GrammarErrorDat()
  3. print(cged_tool.unknow_pred("小明住在北京"))
  4. # 输出:小明在北京

 

7.宾语残缺

  1. from ChineseErrorCorrector.dat import GrammarErrorDat
  2. cged_tool = GrammarErrorDat()
  3. print(cged_tool.lack_obj("小明住在北京,热爱NLP。"))
  4. # 输出:小明住在北京,热爱。

  

8.其他成分残缺

  1. from ChineseErrorCorrector.dat import GrammarErrorDat
  2. cged_tool = GrammarErrorDat()
  3. print(cged_tool.lack_others("小明住在北京,热爱NLP。"))
  4. # 输出:小明住北京,热爱NLP。

  

9.虚词多余

  1. from ChineseErrorCorrector.dat import GrammarErrorDat
  2. cged_tool = GrammarErrorDat()
  3. print(cged_tool.red_fun("小明住在北京,热爱NLP。"))
  4. # 输出:小明所住的在北京,热爱NLP。

  

10.其他成分多余

  1. from ChineseErrorCorrector.dat import GrammarErrorDat
  2. cged_tool = GrammarErrorDat()
  3. print(cged_tool.red_component("小明住在北京,热爱NLP。"))
  4. # 输出:小明住在北京,热爱NLP。,看着

11.主语多余

  1. from ChineseErrorCorrector.dat import GrammarErrorDat
  2. cged_tool = GrammarErrorDat()
  3. print(cged_tool.red_sub("小明住在北京,热爱NLP。"))
  4. # 输出:小明住在北京,小明热爱NLP。

  

12.语序不当

  1. from ChineseErrorCorrector.dat import GrammarErrorDat
  2. cged_tool = GrammarErrorDat()
  3. print(cged_tool.wrong_sentence_order("小明住在北京,热爱NLP。"))
  4. # 输出:热爱NLP。,小明住在北京

  

13.动宾搭配不当

  1. from ChineseErrorCorrector.dat import GrammarErrorDat
  2. cged_tool = GrammarErrorDat()
  3. print(cged_tool.wrong_ver_obj("小明住在北京,热爱NLP。"))
  4. # 输出:None ,即无法进行此类错误的增强

  

14.其他搭配不当

  1. from ChineseErrorCorrector.dat import GrammarErrorDat
  2. cged_tool = GrammarErrorDat()
  3. print(cged_tool.other_wrong("小明住在北京,热爱NLP。"))
  4. # 输出:None, 即无法进行此类错误的增强

  

代码地址:https://github.com/TW-NLP/ChineseErrorCorrector

后续会开源各种深度学习的工具包,来方便大家使用。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/木道寻08/article/detail/995619
推荐阅读
相关标签
  

闽ICP备14008679号