当前位置:   article > 正文

Python自然语言处理—停用词词典

停用词词典

一 过滤文本

去除停用词典和错词检错都可以用词典的形式完成,以停用词为例,我使用的应该是知网提供的中文停用词典。测试的数据集是小学生数学题。

  1. print(text) # 打印未去除停用词前版本
  2. with open(r"C:\Users\BF\Desktop\NLTK\stopwords.txt","r",encoding='utf-8') as stopfile: # 读取停用词,用utf-8的编码格式
  3. txt = stopfile.readlines() # 一次性将所有的词按行读进来
  4. stopword = set(word.strip('\n') for word in txt) # 去除每个词后的换行符放入tuple中
  5. removetext = [word for word in text if word not in stopword] # 去除停用词
  6. print(removetext)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/617484
推荐阅读
相关标签
  

闽ICP备14008679号