赞
踩
很多小伙伴在学习了爬虫之后都能够使用它去抓取一些网页上的数据了,但是最近有小伙伴问我微信公众号上的文章要怎么去抓取出来。那这一篇文章将会以实际的代码示例来介绍如何去使用python爬虫抓取微信公众号的文章。
1.下载wkhtmltopdf1这个应用程序,它可以将HTML格式的数据转换成PDF格式的。
2.打开python编辑器,新建一个python项目命名为wxgzhPDF并在里面创建一个空白的python文件。打开编辑器的终端窗口输入下面的命令来下载所需要的库,如下所示:
- pip install wechatsogou --upgrade
- pip install pdfkit
3.下载完成后在python文件的开头写导入模块的代码以及初始化抓取公众号文章的API,如下所示:
- import os
- import pdfkit
- import datetime
- import wechatsogou
- ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)
4.导入模块之后就可以来编写抓取公众号文章的代码了,这里的话可以使用一个函数将代码包括起来方便调用,如下所示:
- # 这里的三个参数为公众号文章的url,文章标题以及存储路径
- def url2pdf(url, title, targetPath):
- try:
- content_info = ws_api.get_article_content(url)
- except:
- return False
- # 对HTML格式进行处理
- html = f'''{title}{title}{content_info['content_html']}'''
- try:
- # 调用第一步的程序转为pdf格式并存储
- path_wk="E:/softwareAPP/wkhtmltopdf/bin/wkhtmltopdf.exe";
- config=pdfkit.configuration(wkhtmltopdf=path_wk)
- pdfkit.from_string(input=html, output_path=targetPath,configuration=config)
- except:
- # 处理文章标题,把特殊符号去掉
- filename = datetime.datetime.now().strftime('%Y%m%d%H%M%S') + '.pdf'
- pdfkit.from_string(html, targetPath + os.path.sep + filename)
5.函数创建完毕后就可以直接去调用了,代码如下:
- # 判断公众号名称是否正确
- if __name__ == '__main__':
- url2pdf("这里是文章的url", "这里是公众号文章名称","G:/test/hbase文档.pdf" )
以上就是python爬虫抓取公众号文章并转为PDF格式保存的详细代码示例解析了。
关于Python技术储备
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
一、Python所有方向的学习路线
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python必备开发工具
三、Python视频合集
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
四、实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
五、Python练习题
检查学习结果。
六、面试资料
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
最后祝大家天天进步!!
上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。