如何爬取小红书文章_爬取小红书标签

作者：Gausst松鼠会 | 2024-02-16 03:58:29

踩

爬取小红书标签

先说思路，正常小红书的文章，如果想通过网页爬取，需要知道文章的id，

网页端爬取：

1.思路是通过无头浏览器，利用python就可以模拟账号验证码登录，这个有点麻烦，也可以把二维码截图，拍了发到企业微信（助手）群里，收到的时候扫码（容易封号）登录

可以用搜索的方式找到你要的文章或者视频资源。

这个是找标题，图片和视频也是类似的方法//div/*[@id="detail-title"]

爬到后就可以自己存入mysql或者mongodb，这里不得不提一下，小红书的图片尽然没加水印，这就造成了很多的原文章被数据公司窃取的风险，最近看到小红书的图片改成webp格式了，估计也快了。

方法2：

用安卓app写一个模拟操作的程序，可以模拟用户登录，然后搜索你要的信息，爬取文章的接口

抓安卓的网络包，方法还是python的selenium，webdriver安卓辅助模式，存mysql。都有封号的风险，最好使用代理，切换一下账号。

3.思路三，是用微信小程序的文章列表爬取，这个比较容易点。

以上是目前能用的方式，都有封号的风险，作为技术研究可以交流，商业应用涉及小红书公司信息安全，以上均为学习经验，不要用于商业，不要用于商业，不要用于商业。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/90530