当前位置:   article > 正文

python去除中文停用词_删除停止词Python

python去除中文停用词

你不需要在用户定义的函数中构造所有的代码,我不确定这背后是否有原因,但问题非常简单,在阅读完你的datafrme之后,可以用实际上2行代码简洁地解决。在import pandas as pd

from nltk.corpus import stopwords

创建停止语列表

^{pr2}$

输出['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

我将演示如何使用约翰·济慈的一首诗的前几行,这是一个.txt文件,我把它读入数据帧。在df = pd.read_table('keats.txt', error_bad_lines = False, header = -1 , names = ['poem'], na_filter= True)

df

{a1}

将新列添加到df call itcleaned,其中每一行都是小写并按空格拆分

这实际上是您处理的第一步

您可以使用

1)lambda运算符df['cleaned'] = list(map(lambda x: x.lower().split(), df.poem))

或2)listcompdf['cleaned'] = [x.lower().split() for x in df.poem]

FZGe4.png

第二步也是最后一步是过滤停止词

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/617482
推荐阅读
相关标签
  

闽ICP备14008679号