赞
踩
最近在学习python爬虫,并尝试用在微博上。然而时代在变化,网上的资料已经过时,基本上都无法在2021年使用,因此通过参考资料和自己钻研,最终走通了crawling过程。下面我会详细说明整个流程及注意事项,一方面是总结,一方面也为大家提供一个参考,希望能够帮助到大家。
python版本3.9.2
需要一个可以正常使用的Weibo账号及密码。
需要一部能够正常使用的手机用于验证。
可选网页记录工具,我这里使用的是Fiddler,大家也可以使用其他的工具,有助于理解原理。
注意我这里是模拟网页端,和手机端是不一样的。但其实网页端是最难的。
----------------------------------------------------
目录
相信小伙伴们在使用网页端浏览微博的时候会发现,如果要登录网页版,除了用户名密码外,微博现在必须进行身份验证!如下图。
验证方式有三种:短信验证、私信验证和扫码验证。无论哪种验证方式,都需要手机端进行!所以如果要使用Python模拟登录微博,首次必须借助手机进行验证!有的小伙伴看到这儿可能不高兴了:这不坑爹吗,难道每次爬取数据都要用手机验证下,这也太麻烦了!先别急,一旦通过了第一次验证,我们就能够获取登录Cookie信息,只要把Cookie保存在本地,那么在接下来很长一段时间都可以通过直接读取Cookie进行数据爬取,无需再次手机端验证!其实第一次的手机端验证就是为了获取这个Cookie。这里的三种验证方式我们只选择短信验证和私信验证。扫码验证比较麻烦(其实是博主太懒没有研究),不过原理都是差不多的。
那么重点来了:怎么获取这个Cookie?
获取cookie的过程是比较麻烦的,我会尽量讲清楚。
在登录微博之前,我们需要先进行预登录,不要问为啥,微博就是这样设计的
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。