当前位置:   article > 正文

微博话题下的数据爬取_微博话题内容爬取

微博话题内容爬取

1、前言

    新浪微博中,一个话题下各个媒体或用户发表在平台发表的信息是舆情研究的一个很重要的数据来源,这里记录一下一个话题下数据的爬取方式,以“#美国疫情#”话题为例。

2、话题下数据爬取

     首先参考这篇文章,分析话题下数据爬取的结构,然后仿照示例得到如下代码:

  1. import requests
  2. from urllib.parse import urlencode
  3. from pyquery import PyQuery as pq
  4. import time
  5. import xlwt
  6. #设置代理等(新浪微博的数据是用ajax异步下拉加载的,network->xhr)
  7. host = 'm.weibo.cn'
  8. base_url = 'https://%s/api/container/getIndex?' % host
  9. user_agent = 'Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Mobile Safari/537.36'
  10. #设置请求头
  11. headers = {
  12. 'Host': host,
  13. 'Referer': 'https://m.weibo.cn/search?containerid=231522type%3D1%26q%3D%23%E7%BE%8E%E5%9B%BD%E7%96%AB%E6%83%85%23',
  14. 'User-Agent': user_agent
  15. }
  16. # 按页数抓取数据
  17. d
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/841373
推荐阅读
相关标签
  

闽ICP备14008679号