赞
踩
你不需要在用户定义的函数中构造所有的代码,我不确定这背后是否有原因,但问题非常简单,在阅读完你的datafrme之后,可以用实际上2行代码简洁地解决。在import pandas as pd
from nltk.corpus import stopwords
创建停止语列表
^{pr2}$
输出['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]
我将演示如何使用约翰·济慈的一首诗的前几行,这是一个.txt文件,我把它读入数据帧。在df = pd.read_table('keats.txt', error_bad_lines = False, header = -1 , names = ['poem'], na_filter= True)
df
{a1}
将新列添加到df call itcleaned,其中每一行都是小写并按空格拆分
这实际上是您处理的第一步
您可以使用
1)lambda运算符df['cleaned'] = list(map(lambda x: x.lower().split(), df.poem))
或2)listcompdf['cleaned'] = [x.lower().split() for x in df.poem]
第二步也是最后一步是过滤停止词
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。