Python实现将pdf，docx，xls，doc，wps，zip，xlsx，ofd链接下载并将文件保存到本地_python 下载pdf

作者：羊村懒王 | 2024-04-12 05:41:30

踩

python 下载pdf

前言

本文是该专栏的第31篇，后面会持续分享python的各种干货知识，值得关注。

在工作上，尤其是在处理爬虫项目中，会遇到这样的需求。访问某个网页或者在采集某个页面的时候，正文部分含有docx，或pdf，或xls，或doc，或wps，或ofd，或xlsx，或zip等链接。需要你使用python自动将页面上含有的这些信息链接下载并保存到指定文件夹。

遇到这种情况需要怎么做呢？别担心，跟着笔者直接往下看正文的详细解决方法。（附完整代码）

正文

1. doc下载

在有些网页的正文中，有时会有如下图中的doc链接。比如爬虫在采集正文数据的时候，像标题，正文内容，作者，发布时间等等信息都可以直接通过数据解析抓取并保存到本地。而下图中的doc一般在网页中，我们只需要通过鼠标点击就可自动下载并保存到本地目录文件里。而通过程序代码要怎样让它自动下载并保存到本地呢。实现方法如下：

以上图中的doc为例，我们可以通过xpath或者正则，bs4等解析方法将其doc链接地址提取出来，然后使用如下

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/409388