当前位置:   article > 正文

LDA主题词提取 完整实战代码 详细代码数据_lda主题提取代码

lda主题提取代码

 

  1. import pandas as pd
  2. from gensim.models import LdaModel
  3. from gensim.corpora import Dictionary
  4. from wordcloud import WordCloud
  5. import matplotlib
  6. import matplotlib.pyplot as plt
  7. matplotlib.rcParams['font.sans-serif'] = ['SimHei']
  8. matplotlib.rcParams['axes.unicode_minus'] = False
  9. # 读取CSV文件
  10. import jieba
  11. from gensim import corpora, models
  12. import re
  13. # 读取文本数据
  14. csv_file_path = '合并.csv'
  15. df = pd.read_csv(csv_file_path)
  16. # 将文本数据转换为列表
  17. text_data = df['登革热是蚊子传播的,这个和新冠没关系吧?'].tolist()
  18. print(text_data)
  19. # 分词处理
  20. texts = [[word for word in jieba.cut(document)] for document in text_data]
  21. textss=[]
  22. for line in texts:
  23. temp=[]
  24. for w in line:
  25. if len(str(w))>2:
  26. temp.append(w)
  27. if len(temp)>2:
  28. textss.append(temp)
  29. # print(texts)
  30. # 创建词袋模型
  31. dictionary = corpora.Dictionary(textss)
  32. # 转换文档为词袋表示
  33. corpus = [dictionary.doc2bow(text) for text in texts]
  34. # 训练LDA模型
  35. lda_model = LdaModel(corpus, id2word=dictionary, num_topics=10)
  36. # 打印主题词
  37. topics = lda_model.print_topics(num_words=5)
  38. for topic in topics:
  39. print(topic)

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/719899
推荐阅读
相关标签
  

闽ICP备14008679号