赞
踩
自然语言处理库,自带语料库,词性分类库。要记得安装语料库。
- import nltk
- nltk.download()
拆句子,拆小
英文分词
- import nltk
- sentence = 'hello world'
- tokens = nltk.word_tokenize(sentence)
- tokens
社交语言的分词 表情符号需要用正则表达式去匹配
中文分词 启发式Heuristic 或者 机器学习统计方法 可以用Jieba
- import jieba
- seg_list = jieba.cut('啊啊啊',cut_all=Ture) #全模式 False是精准模式分词
是一个数组,比如
word = ['i','am','a','fool']
英文单词比较复杂,为了降低复杂度,一般要经过词干提取(stemming)和词形归一(lemma)。
walking 变成 walk 去掉了ing的后缀,因为它不影响词性
went 变成 go 去掉了过去式模式,不影响词性
- from nlk.stem.porter import PorterStemmer
- porter_stemmer = PorterStemmer()
- porter_
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。