当前位置:   article > 正文

实验3 中文分词_数据准备:academy_titles.txt为“考硕考博”板块的帖子标题,job_titles.t

数据准备:academy_titles.txt为“考硕考博”板块的帖子标题,job_titles.txt为“招

必做题

  1. 数据准备:academy_titles.txt为“考硕考博”板块的帖子标题,job_titles.txt为“招聘信息”板块的帖子标题,
  2. 使用jieba工具对academy_titles.txt进行分词,接着去除停用词,然后统计词频,最后绘制词云。同样的,也绘制job_titles.txt的词云。
  3. 将jieba替换为pkuseg工具,分别绘制academy_titles.txt和job_titles.txt的词云。要给出每一部分的代码。

效果图

 

代码

  1. import jieba
  2. import re
  3. from wordcloud import WordCloud
  4. from collections import Counter
  5. import matplotlib.pyplot as plt
  6. # 读取academy_titles文件内容
  7. with open('C:\\Users\\hp\\Desktop\\实验3\\academy_titles.txt', 'r', encoding='utf-8') as file:
  8. academy_titles = file.readlines()
  9. # 读取job_titles文件内容
  10. with open('C:\\Users\\hp\\Desktop\\实验3\\job_titles.txt', 'r', encoding='utf-8') as file:
  11. job_titles = file.readlines()
  12. # 将招聘信息与学术信息分开
  13. academy_titles = [title.strip() for title in academy_titles]
  14. job_titles = [title.strip() for title in job_titles]
  15. # 分词、去除停用词、统计词频(对academy_titles)
  16. academy_words = []
  17. for title in academy_titles:
  18. words = jieba.cut(title)
  19. filtered_words = [word for word in words if re.match(r'^[\u4e00-\u9fa5]+$', word)]
  20. academy_words.extend(filtered_words)

请自行补全代码,或者这周五晚上更新完整代码

 

 

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/352322
推荐阅读
相关标签
  

闽ICP备14008679号