当前位置:   article > 正文

NLP--文本清洗--停用词处理_lda停用词

lda停用词

NLP–文本清洗–停用词处理

前言

近期在处理文本的时候在处理停用词上遇到一些问题,略微记录一下。文章仅针对停用词的设计作总结,停用词表可参考其他文章。
中文停用词表
英文停用词表

导入停用词表

停用词表主要包括了句子中常见的用语,这种用语对于所有文本都没有差异性。针对一般性的停用词表可以自行上网找相对应的stopwords导入,如nltk.corpus.stopwords.words()自备的停用词表。

常见的停用词有:

  • take, get, find, go, feel, like, let, make, give, look, start, begin, keep, around, highly这种可以有多种搭配的词语
  • suddenly, never, usually, always这种强调出现频率的词语
  • many, lot, lots, little, high, much, very强调数量多少的词语
  • and, however, without, either, neither, even文本连接词或介词
  • any, anyone, someone, thing, something, anything, whose, who, another, every, everything不确定性的替代词语
  • me, I, him, her, his, hers常见人称代词

自定义停用词表

自定义停用词的情况要示研究目标决定。如在研究论坛类帖子中,下面的特征词几乎在所有类型的文本中都有可能出现:please, follow, visit, watch, read, talk, free, hello, hi, link, thank, thanks, see, soon, click, vote, leave, comment, update, question, welcome, let, know, last, time, day, week, month, write, post, share, author等。这些词对于论坛类帖子的筛选帮助不大,同时,这些词可能会对主题的分类造成一定的困扰,容易识别了错误的主题特征,这时可以考虑去掉这些词。

设置自定义停用词可能还跟使用的模型有关。不同的模型可能会对词语的质量有不同的要求。如文本分类模型可能不需要考虑语言的实意,只需要考虑某个词是否能够作为该类型的特征;而主题聚类模型需要考虑语言的实意。以下仅对处理输入LDA的语料处理的停用词设置展开思考。

LDA主题模型停用词选择

注意点
  1. 用自动化识别停用词只能识别部分很常见的句子结构用词,如that, the,可以通过计算其频率来过滤,但是对于一些文本集十分常见的词语如post, time可能效果就不会这么明显,因为这类词可能在所有类型主题的文本中都均匀分布,但出现的频率比较低。要识别出停用词,最好的办法还是前期人工筛选,后期观察模型效果进一步筛选。
  2. 不能看在一些词语字面意义上没有准确表达想要的主题就把它们去除,有可能它们隐性地象征了某个主题(可以认为有可能是某类主题的重要特征。如age虽然没有实意,但可能用于筛选生活或欢迎类主题中有比较好的效果,那么就可以不将其设为停用词)。
  3. 如果某个词在所有文本,或者是在LDA所有主题的分布比较均匀,那么这种词是可以被剔除的(没有区分度)。但注意由于LDA主题划分数是自定的,有可能对于某个数量的主题数该词出现较均匀,而某个数量的主题数该词又有明显的区分度。因此,一般看这类词在所有文档中是否经常出现。
  4. 对于LDA模型而言,如果某个词对于某类主题得分类效果很理想,但有些词由于字面意义而不想要筛选出来的,可以不将其设为停用词,在最终选择特征词时再跳过这些词语,如happy在生活类文本中表现得良好,但是并不想让其体现为这类主题的特征词,就可以不将其作为表达该主题的主题词。

总结

选择停用词其实就是把低信息的词语给过滤掉,留下高信息量的词语的一个过程。选择停用词的思路是:当某个词在所有类型的文本出现的概率都很高,这类词是可以选择停用的。也就是说,这类词适用于所有类型的文本,这时便可以考虑去掉。如果只是词语字面意思无意义,但是可能对类型识别有帮助,这类词就可以选择保留(如果真的想作为停用词去除也不是不行,只是可能停用词去除地过多可能会遗漏部分的主题文本,且可能会使原文的词语量减少,而且会增加停用词设计的开销)。最终的效果应该是自行选择能够比较贴切地表达该主题的特征词来决定。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/344738
推荐阅读
相关标签
  

闽ICP备14008679号