当前位置:   article > 正文

Python爬取当当网图书数据_爬取当当网 ( ) 前十页关 键字为'python'的书籍id 、书名 、作者 、出版社 、价

爬取当当网 ( ) 前十页关 键字为'python'的书籍id 、书名 、作者 、出版社 、价

Python爬取当当网图书数据

前言:前段时间一直在帮人爬取当当网图书数据。由于技术有限,折腾了挺久的,也在网上借鉴了些经验,一开始一直拿不到自己想要的内容,后来发现了另外一个案例,拿到手后,修改了一些代码, 终于实现了目标,在此分享给想爬取当当网图书数据的童鞋。特别感谢前面的作者,给了我思路,代码头有原作者的代号!

直接上代码吧!
在这里插入图片描述
前面部分代码如上图,稍微解释一下(虽然我也很垃圾):这里是用Excel储存的,7-15行代码的作用是打开了一个Excel活动表,并命名了活动表的名称,设置了表头(注:时间是出版时间),第二十行是本人搜索的图书类型,只爬取前面4页的数据,根据自己需求,搜索图书类型或者其他,找到URL规律换上自己的就行了。
在这里插入图片描述
这部分代码就是提取及储存的代码了,可以自己研究下应用到别的网站,部分被注释的代码是作者用txt储存的代码,也可以在去掉注释后用csv储存也是可以的,一起送上代码吧!
在这里插入图片描述
前面的都一样,把openpyxl换成csv,就行了。注意表头的顺序,如果你要改变顺序,代码也是要调换一下的。
在这里插入图片描述
当当当,这就是最后的结果,灰常满意!
有不懂的代码,欢迎留言,一起交流交流!
第一次发表文章,请多多指教,共同进步!

源码链接:
当当案例

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/940386
推荐阅读
相关标签
  

闽ICP备14008679号