赞
踩
本文以电影《你好,李焕英》在豆瓣上的影评数据为爬取和分析的目标,利用python爬虫技术对影评数据进行了爬取,使用pandas库进行了数据清洗,使用jieba库进行分词,使用collections库进行词频统计,使用wordcloud库绘制词云图,使用matplotlib库绘制了评论人所在城市占比饼状图,并使用matplotlib库绘制了评论数量随时间变化折线图。
本文的目标网址为https://movie.douban.com/ subject/34841067/comments。通过观察其他电影影评的url并对比发现,每个subject/后面都有一 个固定的数字代表某一部特定的电影34841067代表的电影就是《你好,李焕英》。数据抓取的流程本文不再赘述,主要就是分析网页找到目标数据所在的url,然后想目标url发送请求
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。