当前位置:   article > 正文

【Python爬虫】爬取公众号文章制作成PDF,快点来白嫖_微信公众号转换为pdf python程序

微信公众号转换为pdf python程序

这个公众号的历史文章

往下多滑几下

然后来看看 fiddler 抓到了什么数据

可以发现就是这个接口一直在请求

来看看其中一个具体数据请求

可以发现

微信在获取公众号历史文章的时候

有这么些参数是要携带的

小编看了下

比较重要的两个参数是

offset 和 is_ok

应该是用来加载更多文章的参数

其他的什么 token 参数

到时候我们直接复制到 python 中进行请求就好了

再来看看返回的数据长什么鸟样

返回了一个 json

这里有个 next_offset字段

小编发现它就是用来下次请求的时候

用于 offset 这个字段的

can_msg_continue

就是用于下次请求的 is_ok 字段的

我们再来看看具体每次请求得到的

列表内容

数据很明显了

list 里面的每一个 item

都是小帅b发过的文章信息

标题、链接、作者、原文地址、封面图啥都有了

那如何区分文章是否原创的呢

看了一会发现

copyright_stat= 11

就是原创

知道了请求规则

以及返回数据的格式

接下来就可以使用代码获取啦

先来把 header 和 cookies 定义一下

假装自己是在用手机请求数据

在请求的时候

需要携带参数

这里主要是控制一下 offset

用来加载更多数据

定义好了之后

就可以使用 requests 进行请求了

先来获取所有的原创文章

然后打印一下看看

主要就是将返回的数据

使用 json 进行解析

然后判断是否可以获取更多的数据

如果还有数据的话

我们就递归请求

ok

执行一波

公众号的所有原创文章

就被我们爬取下来啦

开心得像条狗

接下来

把文章转化为 pdf 文件

怎么弄

其实小帅b也不知道…

遇到事情不要慌

上 Google 搜索一下呗

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
img
img



既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V:vip1024c 备注Python获取(资料价值较高,非无偿)
img

现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去看第1节,我而是去审视这套资源是否值得学习,有时候也会去问一些学长的意见,如果可以之后,我会对这套学习资源做1个学习计划,我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料,质量还不错,大家可以跟着学习

转存中…(img-CRBfBEnF-1711592887759)]

现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去看第1节,我而是去审视这套资源是否值得学习,有时候也会去问一些学长的意见,如果可以之后,我会对这套学习资源做1个学习计划,我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料,质量还不错,大家可以跟着学习

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Guff_9hys/article/detail/901394
推荐阅读
相关标签
  

闽ICP备14008679号