当前位置:   article > 正文

NLP数据预处理——同义词替换程序_nlp同义词词林

nlp同义词词林

自然语言数据预处理中经常会涉及到同义词替换,比如计算两个句子的相似度中,把一个词的两个同义词利用同义词替换技术转换为同一个词,那么就提高了相似度计算的可靠性。学习自然语言处理的同学肯定都会做到数据预处理的工作,下面分享我最近写的一个程序,希望能为从事同样工作的同学提供那么一点帮助,也希望自己的程序能够得到指点。

程序中设计到分词技术和同义词表,分词采用了哈工大的pyltp,其官方文档链接为http://pyltp.readthedocs.io/zh_CN/latest/。同义词表是利用哈工大的同义词词林(扩展版)进行预处理保留每个词的前两项得来的,原版下载链接为https://www.ltp-cloud.com/download/

我采用的同义词词表是下面这种结构:

  1. 人 士
  2. 人类 生人
  3. 人手 人员
  4. 劳力 劳动力
  5. 匹夫 个人
  6. 家伙 东西
  7. 者 手
  8. 每人 各人
  9. 该人 此人
  10. 人民 民

下面是同义词替换程序(注释比较详细,这里不再赘述程序具体实现方式):

  1. from pyltp import Segmentor
  2. class SynonymsReplacer:
  3. def __init__(self, synonyms_file_path, cws_model_path):
  4. self.synonyms = self.load_synonyms(synonyms_file_path)
  5. self.segmentor &
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/292003
推荐阅读
相关标签
  

闽ICP备14008679号