当前位置:   article > 正文

从爬取微博中搜索的热门事件到数据分析处理全过程(一)_爬虫微博构建事件发展脉络

爬虫微博构建事件发展脉络

从爬取微博中搜索的热门事件到数据分析处理全过程(一)

本文主要阐述了作者爬取新浪微博中搜索关键词搜到的微博,不涉及技术上的讲解,主要是大体思路,因为本人比较懒,可能第二部分或遥遥无期,但是还是希望大家多多支持:


一、爬取对象及缘由

我爬取的主要是关于医患冲突的微博,初衷是为了分析医患冲突的舆情。想要爬取的对象有用户名、正文、时间、转发数、点赞数、还有评论数。爬取正文是可以做情感分析或者切词做词频分析(云图)。而用户名可以用来统计什么官方报社或者官网对这个关注最高,可以做个柱状图。同时转发数、点赞数、还有评论数可以配合时间做一定时间内的数量分析或者时序折线图。

二、爬虫步骤

1.请求页面

第一当然是进入我们亲爱的微博移动端https://m.weibo.cn/(不要问我为什么是移动端,因为简单哈,小菜真得只会这个。) 搜索关键字并右键点开审查元素。
这里写图片描述
点开右边的network选项,在里面选中xhr,并滑动页面的滚动条加载出新页面,此时会出现一个表单,点击该表单。这里写图片描述
接下来就是我们最喜欢的填代码时刻了。

from urllib.parse import urlencode
import requests
from pyquery import PyQuery as pq
import time
from pymongo import MongoClient

base_url = 'https://m.weibo.cn/api/container/getIndex?' 

headers = {
    'Host': 'm.weibo.cn',
    'Referer': 'https://m.weibo.cn/u/2830678474',
  
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/841402
推荐阅读
相关标签
  

闽ICP备14008679号