当前位置:   article > 正文

自然语言处理学习7:jieba中文关键词提取和词性标注_jieba关键词提取并词性标注

jieba关键词提取并词性标注

1. 关键词提取: jieba.analyse.extrags()

其中参数sentence 为待提取的文本,topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20,withWeight 为是否一并返回关键词权重值,默认值为 False。 allowPOS 仅包括指定词性的词,默认值为空,即不筛选。

  1. import jieba
  2. import jieba.analyse
  3. import nltk
  4. paragraph = "生活对我们任何人来说都不容易。 我们必须努力,最重要的是我们必须相信自己。 \
  5. 我们必须相信,我们每个人都能够做得很好,而且,当我们发现这是什么时,我们必须努力工作,直到我们成功。"
  6. words_list = jieba.lcut(paragraph)
  7. print(jieba.analyse.extract_tags(paragraph,topK=5))
  8. ['我们', '必须', '努力', '相信', '任何人']

可以看出,提取关键词时是不考虑标点符号的;”都“和”对“这种词也不考虑。

  1. import operator
  2. sorted(dict(nltk.FreqDist(words_list)).items(),key=operator.itemgetter(1),reverse=True)
  3. [('我们', 8),
  4. (',', 6),
  5. ('必须', 4),
  6. ('。', 3),
  7. ('都', 2),
  8. (' ', 2),
  9. ('努力', 2),
  10. ('相信', 2),
  11. ('生活', 1),
  12. ('对', 1),
  13. ('任何人', 1),
  14. ('来说', 1),
  15. ......]

2. 词性标注:jieba.posseg.cut(), 返回一个迭代器

  1. import jieba.posseg as pseg
  2. words = pseg.cut(paragraph)
  3. words
  4. <generator object cut at 0x000001CF7CB1F360>

注:具体的中文词性类型及对应符号可参考博文https://blog.csdn.net/zhuzuwei/article/details/79029904

  1. for word, flag in words:
  2. print('%s, %s' % (word, flag))
  3. 生活, vn
  4. 对, p
  5. 我们, r
  6. 任何人, r
  7. 来说, u
  8. 都, d
  9. 不, d
  10. 容易, a
  11. 。, x
  12. 我们, r
  13. 必须, d
  14. 努力, ad
  15. ......

 

 

 

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/440044?site
推荐阅读
相关标签
  

闽ICP备14008679号