当前位置:   article > 正文

python 文本分析 LDA 文本聚类_lda主题聚类python

lda主题聚类python

参考文档:

  1. python corpora.Dictionary corpus dictionary.doc2bow 词袋模型转为稀疏矩阵 词向量

精简2.0版

参考文档:找不到了
只对分词和去除停用词的步骤进行精简。
需要注意的是,比如“女士包”ana.extract_tags只会识别除“女士”,没有“包”,这与分词和字典无关。所以比较严谨的场景建议使用jieba.lcut

# 临时字典:把数字+单位算上。如2022年,3000w。
for i in articles.标题.str.findall('\d+.\d+.|\d+.').explode().dropna().unique():
    jieba.add_word(i)
jieba.load_userdict('维护的分词字典.txt')            # 加载自已维护的字典
ana.set_stop_words('stoplist.txt')                 # 添加停用词,ana.extract_tags直接分词
articles['分词'] = articles['标题'].apply(lambda x: ana.extract_tags(x, topK=None)).agg(set)  # 分词并去除停用词 # 只统计包含关键词的标题数,故需去重。topK=None,统计所有关键词,默认为20
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
articles[['标题', '分词']]
  • 1

在这里插入图片描述

精简1.0版

import pandas as pd
from io import StringIO
import jieba
from gensim import corpora, models
from collections import defaultdict
  • 1
  • 2
  • 3
  • 4
  • 5
wx_kol.标题
  • 1

在这里插入图片描述

# 旧字典
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/289955
推荐阅读
相关标签