赞
踩
近期在处理文本的时候在处理停用词上遇到一些问题,略微记录一下。文章仅针对停用词的设计作总结,停用词表可参考其他文章。
中文停用词表
英文停用词表
停用词表主要包括了句子中常见的用语,这种用语对于所有文本都没有差异性。针对一般性的停用词表可以自行上网找相对应的stopwords导入,如nltk.corpus.stopwords.words()自备的停用词表。
常见的停用词有:
自定义停用词的情况要示研究目标决定。如在研究论坛类帖子中,下面的特征词几乎在所有类型的文本中都有可能出现:please, follow, visit, watch, read, talk, free, hello, hi, link, thank, thanks, see, soon, click, vote, leave, comment, update, question, welcome, let, know, last, time, day, week, month, write, post, share, author等。这些词对于论坛类帖子的筛选帮助不大,同时,这些词可能会对主题的分类造成一定的困扰,容易识别了错误的主题特征,这时可以考虑去掉这些词。
设置自定义停用词可能还跟使用的模型有关。不同的模型可能会对词语的质量有不同的要求。如文本分类模型可能不需要考虑语言的实意,只需要考虑某个词是否能够作为该类型的特征;而主题聚类模型需要考虑语言的实意。以下仅对处理输入LDA的语料处理的停用词设置展开思考。
选择停用词其实就是把低信息的词语给过滤掉,留下高信息量的词语的一个过程。选择停用词的思路是:当某个词在所有类型的文本出现的概率都很高,这类词是可以选择停用的。也就是说,这类词适用于所有类型的文本,这时便可以考虑去掉。如果只是词语字面意思无意义,但是可能对类型识别有帮助,这类词就可以选择保留(如果真的想作为停用词去除也不是不行,只是可能停用词去除地过多可能会遗漏部分的主题文本,且可能会使原文的词语量减少,而且会增加停用词设计的开销)。最终的效果应该是自行选择能够比较贴切地表达该主题的特征词来决定。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。