赞
踩
介绍了三种分词:
Whitespace tokenizer, 就是空格分词。
Treebank tokenizer, 斯坦福大学的树状分词。
Sentiment-aware tokenizer, 情感感知分词器,隔离表情符号,使用基础标记,在看起来有意义的地方保留大写... ...(A good start: nltk.tokenize.casual.TweetTokenizer)
比较:
The dangers of stemming:
词干会使不同的词形崩溃;
在情感背景下的三种
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。