从前慢现在也慢

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

分享利用 IDM 批量爬取网站静态资源！简单操作采集网站PDF 资源。_idm抓不到pdf文件怎么办

作者：从前慢现在也慢 | 2024-04-16 03:50:13

赞

踩

idm抓不到pdf文件怎么办

昨天一个小伙伴让写一个爬虫爬某网站全站 PDF 文档，我一听开始有点头大，全站那数量不得相当惊人了，网站简单看了下，发现这类静态网站好像无须爬虫，借助强大的 IDM 就可以解决问题了。因为 IDM 有一个重要的功能就是站能抓取，和以前早期的一些整站搬运功能类似，以前做网站的人比较懒的时候，就直接 copy 别人整个网站，改改名字就 OK 了。

考虑到老外的网站也就没有这么多版权考虑，目录网址：

https://www.math-salamanders.com/

目的，爬取此网站内所有的 PDF 文件（包括外链中涉及到 PDF 的）

如果要写程序的，你就遍历所有 a 标签再遍历所有页面中的 a 标签，再如此循环，其实自己也不知道要循环多少次，有没有重复的。

IDM 站点抓取

捕获过程如下：

第一步：找到想要捕获图片的网站，将网站地址复制下来。

图 1：IDM 站点抓取功能

第二步：在 IDM 下载器中，点击界面上方的 “站点抓取” 选项。这里要选择整个站点，方便数据完整性，不然有可能文档不全。

图 2：设置开始页面

图 3：文件保存地址

第三步：将每个文件保存至其分类所对应的目录。这里取消下载 HTML 文件本地浏览

图 4：设置探索过滤器

第四步：过滤整个站点的图片，包括根站点与子链接的所有站点图片，并且忽略弹出的窗口进行搜索。

图 5：设置文件过滤器

第五步：选择过滤的文档类型（.pdf），默认下面的文件过滤器，点击 “前进” 进行下一步。

图 6：站点抓取过程

第六步：等待对站点图片进行检索，检索到的文档会在右边信息框内显示，并且 IDM 会自动对抓取的文件进行统计，实时查看抓取状态以及抓取文件数量。

图 7：下载选中图片并保存到队列中

最后完成的数量高达 4800 多个文档，如果你手动下载，估计至少 2 天吧。

站点抓取是 IDM 中非常实用的一项特色功能，能够方便用户各项操作的同时提高用户的工作效率。除此之外，站点抓取功能也可以配合 “计划任务” 来实现定时下载，满足用户的多样化需求。

当然如果你运气足够好的话，某些网站的付费资源也是一并可以爬取的，这种通常情况下好像出现在小程序中比较多，也许是开发者只考虑到了小程序前端的限制，没有考虑到一旦获取文件路径，那么就有可能出现不设防。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/432220

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号