赞
踩
参考文档:
参考文档:找不到了
只对分词和去除停用词的步骤进行精简。
需要注意的是,比如“女士包”ana.extract_tags只会识别除“女士”,没有“包”,这与分词和字典无关。所以比较严谨的场景建议使用jieba.lcut
# 临时字典:把数字+单位算上。如2022年,3000w。
for i in articles.标题.str.findall('\d+.\d+.|\d+.').explode().dropna().unique():
jieba.add_word(i)
jieba.load_userdict('维护的分词字典.txt') # 加载自已维护的字典
ana.set_stop_words('stoplist.txt') # 添加停用词,ana.extract_tags直接分词
articles['分词'] = articles['标题'].apply(lambda x: ana.extract_tags(x, topK=None)).agg(set) # 分词并去除停用词 # 只统计包含关键词的标题数,故需去重。topK=None,统计所有关键词,默认为20
articles[['标题', '分词']]
import pandas as pd
from io import StringIO
import jieba
from gensim import corpora, models
from collections import defaultdict
wx_kol.标题
# 旧字典声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/289955
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。