当前位置:   article > 正文

python NLP简单实现_nlp实现结果

nlp实现结果

一、背景:

NLP任务基本步骤:
1. 读取文件
2. 去除标点和换行符,并把 所有的大小转换为小写
3. 合并形同的词,统计词频,并按照词频从大到小排序
4. 输出结果

二、代码简单实现

  1. import re
  2. import pathlib
  3. #获取目录
  4. script_path = pathlib.PurePath(__file__).parent
  5. text_path = pathlib.Path(script_path).joinpath("text")
  6. #定义函数,处理文本
  7. def parse_text(filename):
  8. with open(filename,encoding='utf-8') as fs:
  9. content = fs.read()
  10. #去除标点符号和换行符
  11. text = re.sub(r'[^\w]'," ",content)
  12. #转化为小写
  13. text = text.lower()
  14. #转化为列表
  15. word_list = text.split()
  16. #去除空白单词
  17. word_list = list(filter(None,word_list))
  18. #生成词典,键为单词,值为单次出现的次数
  19. word_dict = {}
  20. for word in word_list:
  21. if word not in word_dict:
  22. word_dict[word]=0
  23. word_dict[word]+=1
  24. #按照词频排序
  25. word_total = sorted(word_dict.items(),key=lambda x:x[1])
  26. return word_total

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/842733
推荐阅读
相关标签
  

闽ICP备14008679号