当前位置:   article > 正文

网页数据抓取之当当网_对网络直接采集源代码的方法采集分页数据1000条(例如当当网上图书的书号、书名、

对网络直接采集源代码的方法采集分页数据1000条(例如当当网上图书的书号、书名、

所谓“网页数据抓取”,也称为网页数据采集,Web数据采集等等,就是从我们平时通过浏览器查看的web网页上来提取需要的数据信息,然后以结构化的方式存储到CSV、JSON、XML、ACCESS、MSSQL、MYSQL等格式的文件或数据库中的过程。当然,这里的数据提取过程,是借助于计算机软件技术来实现的,而不是通过人工的方式手动复制、粘贴来实现的。也正因为如此,才使得从大型网站上采集需要的数据成为可能。

下面,就以笔者从当当网上采集数据的过程为例,来具体说一下网页数据抓取的基本过程吧。

首先,我们要对目标网站的网页结构进行分析,以确定该网站上的数据是否可以采集以及如何采集。

当当网是一个综合性的网站,这里我们就以图书类数据为例来说明吧。经过查看,我们找到了图书信息的目录页。图书信息是以多级目录为结构来组织的,如下图所示,图片左侧的就是图书信息的一级目录:
在这里插入图片描述
因为很多网站出于数据保护的原因,都会限制数据显示的数目,比如数据最多显示100页之类的,超过100页的数据就不给显示出来了。这样的话,如果选择进入的目录级别越高,能够得到的数据量就越少。所以,为了能够得到尽可能多的数据,我们需要进入更底层的目录,也就是更小的分类级,才能获得更多的数据。

点开一级目录,就可以进入二级图书目录,如下图所示:
在这里插入图片描述
同样,依次点击各级目录,最后就能进入到最底层的目录,这里显示着该目录下的所有可显示的数据项列表,我们可以称之为底层列表页,如图所示:
在这里插入图片描述
当然,这个列表页很可能也是分为多页的,我们在进行数据采集时,需要遍历每一页的数据项,通过每个数据项上的链接,就可以进入到最终数据的页面,我们称之为详细页。如下图:

在这里插入图片描述
到这里,获取详细数据的路径已经明确了。接下来,我们就要对详细页上的有用数据项进行分析,然后针对性地编写数据采集程序,就可以抓取到我们感兴趣的数据了。

下面是笔者对当当网图书数据进行网页数据抓取时编写的程序的部分代码:
在这里插入图片描述
下面是笔者采集到的部分图书信息示例数据:
在这里插入图片描述
至此,一个完整的网页数据抓取过程就完成了。

了解更多分析及数据抓取可查看:
http://cloud.yisurvey.com:9081/html/d8acf20b-342f-4806-8dcc-5e6a8d00881d.html?ly=csdn
本文转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请联系我们删除处理。
特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/天景科技苑/article/detail/897103
推荐阅读
相关标签
  

闽ICP备14008679号