赞
踩
常见预处理步骤,预处理通常包括四个步骤:
现有的工具可以很好地进行分词,我们在这里简单介绍其中的两个:spaCy和NLTK。
text = "Mr. Chen doesn't agree with my suggestion."
spaCy:
import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp(text)
print([token.text for token in doc])
['Mr.', 'Chen', 'does', "n't", 'agree', 'with', 'my', 'suggestion', '.']
NLTK:
from nltk.tokenize import word_tokenize
from nltk import data
data.path.append('/home/kesci/input/nltk_data3784/nltk_data')
print(word_tokenize(text))
['Mr.', 'Chen', 'does', "n't", 'agree', 'with', 'my', 'suggestion', '.']
两个字符串的处理
string = ’ AbcDe’ # 主要是说明string是一个字符串,下面是视频中涉及到了两个操作
string.strip() # 用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列,在这里是用来删除单词之间的空格和换行符
string.lower() # 将字符串中的所有大写字母都转化成小写
#两者还可以拼起来用:string.strip().lower() 具体的意思也就是上面两个意思拼起来
你知道的越多,你不知道的越多。
有道无术,术尚可求,有术无道,止于术。
如有其它问题,欢迎大家留言,我们一起讨论,一起学习,一起进步
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。