当前位置:   article > 正文

分享利用 IDM 批量爬取网站静态资源!简单操作采集网站PDF 资源。_idm抓不到pdf文件怎么办

idm抓不到pdf文件怎么办

昨天一个小伙伴让写一个爬虫爬某网站全站 PDF 文档 ,我一听开始 有点头大,全站那数量不得相当惊人了,网站简单看了下,发现这类静态网站好像无须爬虫,借助强大的 IDM 就可以解决问题了。因为 IDM 有一个重要的功能就是站能抓取,和以前早期的一些整站搬运功能类似,以前做网站的人比较懒的时候,就直接 copy 别人整个网站,改改名字就 OK 了。

考虑到老外的网站也就没有这么多版权考虑,目录网址:

https://www.math-salamanders.com/

目的,爬取此网站内所有的 PDF 文件(包括外链中涉及到 PDF 的)

如果要写程序的,你就遍历所有 a 标签再遍历所有页面中的 a 标签,再如此循环,其实自己也不知道要循环多少次,有没有重复的。

IDM 站点抓取

捕获过程如下:

第一步:找到想要捕获图片的网站,将网站地址复制下来。

图 1:IDM 站点抓取功能

第二步:在 IDM 下载器中,点击界面上方的 “站点抓取” 选项。这里要选择整个站点,方便数据完整性,不然有可能文档 不全。

图 2:设置开始页面

图 3:文件保存地址

第三步:将每个文件保存至其分类所对应的目录。这里取消下载 HTML 文件本地浏览

图 4:设置探索过滤器

第四步:过滤整个站点的图片,包括根站点与子链接的所有站点图片,并且忽略弹出的窗口进行搜索。

图 5:设置文件过滤器

第五步:选择过滤的文档类型(.pdf),默认下面的文件过滤器,点击 “前进” 进行下一步。

图 6:站点抓取过程

第六步:等待对站点图片进行检索,检索到的文档会在右边信息框内显示,并且 IDM 会自动对抓取的文件进行统计,实时查看抓取状态以及抓取文件数量。

图 7:下载选中图片并保存到队列中

最后完成的数量高达 4800 多个文档 ,如果你手动下载,估计至少 2 天吧。

站点抓取是 IDM 中非常实用的一项特色功能,能够方便用户各项操作的同时提高用户的工作效率。除此之外,站点抓取功能也可以配合 “计划任务” 来实现定时下载,满足用户的多样化需求。

当然如果你运气足够好的话,某些网站的付费资源也是一并可以爬取的,这种通常情况 下好像出现在小程序中比较多,也许是开发者只考虑到了小程序前端的限制,没有考虑到一旦获取文件路径,那么就有可能出现不设防。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/432220
推荐阅读
相关标签
  

闽ICP备14008679号