当前位置:   article > 正文

数据预处理一:文本分词并且去停用词代码

去停用词代码

数据结构:搜狗数据集(最外层文件夹)类别(第二层文件夹,比如说 军事)10.txt(军事类别下面的一个文本文件)

  1. import os
  2. import jieba
  3. # 保存文件的函数
  4. def savefile(savepath, content):
  5. fp = open(savepath, 'w', encoding='ANSI',errors='ignore')
  6. fp.write(content)
  7. fp.close()
  8. # 读取文件的函数
  9. def readfile(path):
  10. fp = open(path, "r", encoding='ANSI', errors='ignore')
  11. content = fp.read()
  12. fp.close()
  13. return content
  14. ## 去除停用词的2个函数
  15. # 创建停用词list
  16. def stopwordslist(filepath):
  17. stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
  18. return stopwords
  19. # 对句子去除停用词
  20. def movestopwords(sentence):
  21. s
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/805282
推荐阅读
相关标签
  

闽ICP备14008679号