新浪微博爬虫-抓取用户发布的微博_爬取微博用户数据

作者：编程革命者 | 2024-02-03 15:09:09

踩

爬取微博用户数据

1.寻找接口

在浏览器中访问微博寻找接口
请求 https://weibo.com/yangmiblog?profile_ftype=1&is_all=1#_0 杨幂发布所有的微博列表页，每个微博用户唯一不同的是 yangmiblog 这一部分，其他的微博列表替换掉这一部分就行
详情页的接口，有很多每个接口，在列表页中寻找详情页所需要的参数，拼接就行
- 接口1，老微博的接口 https://weibo.cn/comment/IpAmFboF7?uid=2803301701 IpAmFboF7: 微博详情页的标识，uid:这个微博账号的标识
- 客户端详情页的接口2， https://m.weibo.cn/status/4460578661751867 4460578661751867: 微博文章的标识

2.获取cookie

请求列表页https://weibo.com/yangmiblog?profile_ftype=1&is_all=1#_0经过尝需要携带的参数是 cookie中的 SUB，需要我们获取cookie中的SUB参数
使用 selenium访问列表页获取页面的cookie，获取SUB的值，怎么获取cookie参考我的另一篇文章selenium获取cookie

3.解析微博内容我使用的是客户端详情页的接口

获取列表页，解析出详情页的标识 4460578661751867

import requests
import json


headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3980.0 Safari/537.36 Edg/80.0.355.1',
            'Cookie':
                'SUB=_2AkMpQl9Zf8NxqwJRmP4Uz2vmaox_yAvEieKfHq6CJRMxHRl-yj9jqhwttRB6AsJxtmeKpiXNyz7GDDQw5YkpmIZ6O0s2'
        }
def get_history():
    weibo_url = "https://weibo.com/yangmiblog?profile_ftype=1&is_all=1"
    response = requests.get(url=weibo_url, headers=headers)
    try:
        html_doc = response.content.decode('utf-8')
        except Exception as e:
            print('获取历史页错误，cookie过期')
            return None
        # 解析历史页
        article_id_list = re.findall(r'mid=\\"(\d+)\\"', html_doc, re.S)
        return article_id_list
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

拼接url对详情页发送请求

response = requests.get(url, timeout=20, headers={
                    "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3980.0 Safari/537.36 Edg/80.0.355.1',
                    "Sec - Fetch - User":"?1",
                    "Upgrade - Insecure - Requests": "1"
                    })
html = response.text
data = json.loads(re.findall(r'render_data = \[(.*?)\]\[0\]', html, re.S)[0])
# 内容
content = data['status']['text']
# 转发量
reposts_count = data['status']['reposts_count']
# 评论量
comments_count = data['status']['comments_count']
# 点赞量
attitudes_count = data['status']['attitudes_count']
# 标题
title = data['status']['status_title']
pub_time_str = data['status']['created_at'].split(' ')
month = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec'].index(
            pub_time_str[1]) + 1
# %Y-%m-%d %H:%M:%S
# 发布时间
pub_time = pub_time_str[-1] + '-' + str(month) + '-' + pub_time_str[2] + ' ' + pub_time_str[3]
# 这样就获取到了一条完整的微博数据
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

这里就是我的抓取思路，代码仅供提供思路

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/blog/article/detail/57106

推荐阅读

article
前端抓包Charles和Whistle对比（附相关原理）_whistle和charles
从这里下载DMG软件，然后双击安装即可。试用期一个月，试用结束之后就需要购买，每次购买可以无限期使用，当前大版本提供的更新也都可以免费安装。注意Whistle的使用，UI界面和启动命令是分开的，我们要先在命令行里面通过w2start来启动软... [详细]
赞
踩
article
关于谷歌新版调试用具(Chrome Dev Tool )，网络选项(chrome-network)默认开启下拉模式的设置_chrome network 过滤条件变成了下拉框,怎么调整回来
第三：在输入框中输入“net”会自动检索到“RedesignofthefilterbarintheNetworkPanel”今天在使用谷歌浏览器进行调试的时候，打开调试工具网络选项发现过滤不同模式的选项卡不见了，转而变成一个下拉式选项，如下... [详细]
赞
踩
article
Dockerfile中的指令与使用教程_from openjdk:8
一、概述Dockerfile是Docker用来构建镜像的文本文件,包括自定义的指令和格式。可以通过dockerbuild命令从Dockerfile中构建镜像。用户可以通过统一的语法命令来根据需求进行配置，通过这份统一的配置文件，在不同的文件... [详细]
赞
踩
article
Linux-正则表达式
正则表达式通常用于判断语句中，使用字符串描述、匹配一系列符合某个规则的字符串。正则表达式是由与组成。可以使用：。（注意grep要配合-E或者-P使用）Linux-正则表达式1.正则表达式的定义： 正则表达式通常用于判断语句中，使用字符串描... [详细]
赞
踩
article
SpringCloud Gateway(4.1.0) 返回503：原因分析与解决方案
并需要服务发现和负载均衡功能时，如果没有显式包含这个依赖，就会导致无法处理。的历史演变和适应其依赖管理的变化，我们可以更好地维护和优化我们的微服务架构。要解决这个问题，您需要在您的项目的POM文件中显式添加。就能够正确处理基于服务发现的负载... [详细]
赞
踩
article
C++QT入门_c++ qt
Qt是一个跨平台的C++图形用户界面应用程序框架。它为应用程序开发者提供建立艺术级图形界面所需的所有功能。它是完全面向对象的，很容易扩展，并且允许真正的组件编程。常见GUI：QT：支持多平台开发；支持css；面向对象特性体现突出；发展趋... [详细]
赞
踩
article
关于安装mongodb过程中出现Service MongoDB Server (MongoDB)‘ (MongoD8) failedto start, Verify that you have suf_service mongodb server' (mongodb) failed to start.
通过安装VisualC++Redistributable2019解决了Microsoft此问题。这个问题的是因为电脑系统上缺少VisualC++Redistributable依赖包。点击安装过程网上有详细的安装流程说明，这里就不讲了！下载好... [详细]
赞
踩
article
前端开发工具-代理
http-servernpminstallhttp-server-g然后直接在想要预览的文件输入http-server指令优点：只要连接同一个wifi，就可以多端预览配置信息不多，方便快速预览缺点:不过有个需要手动刷新BrowserSync... [详细]
赞
踩
article
基于golang的爬虫demo，爬取微博用户的粉丝和关注者信息_golang 爬微博热搜并写文章
基于golang的爬虫demo，爬取微博用户的粉丝和关注者信息注意：仅供学习交流，任何非法使用与作者无关！目录基于golang的爬虫demo，爬取微博用户的粉丝和关注者信息一、背景与取材二、找规律三、定位HTML的元素四、设计过程五、上代码... [详细]
赞
踩
article
pyhton微博爬虫（2）——获取微博用户关注列表_微博爬虫用户关注兴趣领域
本文的主要目标是获取微博用户关注列表以及关注列表中各微博用户的ID、昵称、详情链接、粉丝数、关注数等关键信息。实现代码如下所示：#-*-coding:utf-8-*-"""CreatedonThuAug320:59:532017@autho... [详细]
赞
踩
article
SpringCloud基础2——Nacos配置、Feign、Gateway_nacos feign配置
nacos配置管理、Feign远程调用、Gateway服务网关_nacosfeign配置nacosfeign配置导航：【黑马Java笔记+踩坑汇总】JavaSE+JavaWeb+SSM+SpringBoot+瑞吉外卖+Sprin... [详细]
赞
踩
article
python3支持在通过requests库调试django后台接口写测试用例
unittest库可以支持单元测试用例编写和验证。python3支持在通过requests库调试django后台接口写测试用例python测试用例库使用unittest库可以支持单元测试用例编写和验证。基本使用方法运行文件可以将文件中的用例... [详细]
赞
踩
article
windows安装java_windows中安装java
window系统安装java下载JDK首先我们需要下载java开发工具包JDK，下载地址：http://www.oracle.com/technetwork/java/javase/downloads/index.html，点击如下下载按钮... [详细]
赞
踩
article
Docker镜像找不到文件是怎么回事？_docker进入镜像里访问不到某个文件
刚接触Docker，想做一个小测试，结果卡到镜像这一步快一天了，不知道为什么copy的时候copy不了如下图。我在程序的文件夹里看有这个文件，但就是找不到。_docker进入镜像里访问不到某个文件docker进入镜像里访问不到某个文件刚接触... [详细]
赞
踩
article
2020大学生就业报告：IT行业人才缺口巨大，好就业_计算机将会是下一个“夕阳”专业,现在加入it行业
据教育部公开数据，2020年应届高校毕业生比去年增长40万，达到874万。毕业生数量攀升，而受疫情影响，大批企业放慢了招聘步伐，甚至裁员。2020年，不管你是应届毕业生还是打算转行的职场新人，都会面临着“僧多粥少”的困局。2020就业难，难... [详细]
赞
踩
article
镜像构建时报错：Docker build Error : COPY failed: file not found in build context or excluded by .dockerigno_docker build镜像error
处理：dockerfile中的COPY命令：COPY源目的目录这里的源是相对目录，需要改成相对dockerfile文件存放的相对目录比如dockerfile存放目录为/test1，拷贝的文件目录为/test1/test2/file1vimD... [详细]
赞
踩
article
Pycharm python用matplotlib 3D绘图显示空白解决办法
matplotlib版本升级之后显示代码变了，修改为新的。Pycharmpython用matplotlib3D绘图显示空白解决办法问题原因：matplotlib版本升级之后显示代码变了，修改为新的#ax=Axes3D(fig)#原代码ax=... [详细]
赞
踩
article
深刻理解 Docker 镜像大小_镜像内部的存储空间有上限么
都说容器大法好，但是如果没有Docker镜像，Docker该是多无趣啊。是否还记得第一个接触Docker的时候，你从DockerHub下拉的那个镜像呢？在那个处女镜像的基础上，你运行了容器生涯的处女容器。镜像的基石作用已经很明显，在Dock... [详细]
赞
踩
article
微博数据采集，微博爬虫，微博网页解析，完整代码（主体内容+评论内容）_微博数据爬虫
参加新闻比赛，需要获取大众对某一方面的态度信息，因此选择微博作为信息收集的一部分以华为发布会这一热搜为例子，我们可以通过开发者模式得到信息基本都包含在下面的divtag中我们通过网络这一模块进行解析，发现信息基本都存储在%23开头的请求之中... [详细]
赞
踩
article
关于雅可比迭代的Python实现_雅可比迭代法python
雅克比迭代法就是众多迭代法中比较早且较简单的一种，其命名也是为纪念普鲁士著名数学家雅可比。雅克比迭代法的计算公式简单，每迭代一次只需计算一次矩阵和向量的乘法，且计算过程中原始矩阵A始终不变，比较容易进行计算。雅可比迭代是数字解法，然而该方... [详细]
赞
踩

新浪微博爬虫-抓取用户发布的微博_爬取微博用户数据

1.寻找接口

2.获取cookie

3.解析微博内容我使用的是客户端详情页的接口

前端抓包Charles和Whistle对比（附相关原理）_whistle和charles

关于谷歌新版调试用具(Chrome Dev Tool )，网络选项(chrome-network)默认开启下拉模式的设置_chrome network 过滤条件变成了下拉框,怎么调整回来

Dockerfile中的指令与使用教程_from openjdk:8

Linux-正则表达式

SpringCloud Gateway(4.1.0) 返回503：原因分析与解决方案

C++QT入门_c++ qt

关于安装mongodb过程中出现Service MongoDB Server (MongoDB)‘ (MongoD8) failedto start, Verify that you have suf_service mongodb server' (mongodb) failed to start.

前端开发工具-代理

基于golang的爬虫demo，爬取微博用户的粉丝和关注者信息_golang 爬微博热搜并写文章

pyhton微博爬虫（2）——获取微博用户关注列表_微博爬虫用户关注兴趣领域

SpringCloud基础2——Nacos配置、Feign、Gateway_nacos feign配置

python3支持在通过requests库调试django后台接口写测试用例

windows安装java_windows中安装java

Docker镜像找不到文件是怎么回事？_docker进入镜像里访问不到某个文件

2020大学生就业报告：IT行业人才缺口巨大，好就业_计算机将会是下一个“夕阳”专业,现在加入it行业

镜像构建时报错：Docker build Error : COPY failed: file not found in build context or excluded by .dockerigno_docker build镜像error

Pycharm python用matplotlib 3D绘图显示空白解决办法

深刻理解 Docker 镜像大小_镜像内部的存储空间有上限么

微博数据采集，微博爬虫，微博网页解析，完整代码（主体内容+评论内容）_微博数据爬虫

关于雅可比迭代的Python实现_雅可比迭代法python