赞
踩
Python爬取当当网图书数据
前言:前段时间一直在帮人爬取当当网图书数据。由于技术有限,折腾了挺久的,也在网上借鉴了些经验,一开始一直拿不到自己想要的内容,后来发现了另外一个案例,拿到手后,修改了一些代码, 终于实现了目标,在此分享给想爬取当当网图书数据的童鞋。特别感谢前面的作者,给了我思路,代码头有原作者的代号!
直接上代码吧!
前面部分代码如上图,稍微解释一下(虽然我也很垃圾):这里是用Excel储存的,7-15行代码的作用是打开了一个Excel活动表,并命名了活动表的名称,设置了表头(注:时间是出版时间),第二十行是本人搜索的图书类型,只爬取前面4页的数据,根据自己需求,搜索图书类型或者其他,找到URL规律换上自己的就行了。
这部分代码就是提取及储存的代码了,可以自己研究下应用到别的网站,部分被注释的代码是作者用txt储存的代码,也可以在去掉注释后用csv储存也是可以的,一起送上代码吧!
前面的都一样,把openpyxl换成csv,就行了。注意表头的顺序,如果你要改变顺序,代码也是要调换一下的。
当当当,这就是最后的结果,灰常满意!
有不懂的代码,欢迎留言,一起交流交流!
第一次发表文章,请多多指教,共同进步!
源码链接:
当当案例
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。