当前位置:   article > 正文

文章提取关键词_jieba(IF-IDF/TextRank)_if-idf关键词提取python源代码

if-idf关键词提取python源代码
1、基于TextRank的提取文章关键词:extract_keyword_textrank.py:

  1. #!usr/bin/env python
  2. #-*- coding:utf-8-*-
  3. import jieba
  4. import jieba.analyse
  5. import codecs
  6. file_path='./data/000000_0'
  7. result_file_path="./data/000000_0_result_textrank"
  8. f=open(file_path,'r')
  9. f_result=codecs.open(result_file_path,'w+','utf-8')
  10. f_result.write('[\n')
  11. texts=f.readlines()
  12. num_text=0
  13. for text in texts:
  14. text_id=texts.split('\t')[0]
  15. text_content=texts.split('\t')[3]
  16. f_result.write('{\"text_id\": %s\n'% text_id)
  17. keywords=jieba.analyse.textrank(text_content,topK=20,withWeight=True,allowPOS=('ns', 'n', 'vn', 'v'),withFlag=True)
  18. f_result.write('\"keyword\":{')
  19. num_text+=1
  20. for keyword in keywords:
  21. (word,flag)=keyword[0]
  22. weight=keyword[1]
  23. f_result.write('\"word\&
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/595255
推荐阅读
相关标签
  

闽ICP备14008679号