当前位置:   article > 正文

Python实战案例分享:爬取当当网商品数据

python用bs4爬取当当网的关于python的书籍信息

​​作者:韦玮

转载请注明出处

 目前,网络爬虫应用领域非常广,在搜索引擎、大数据分析、客户挖掘中均可以用到。在本篇博文中,韦玮老师会以当当网爬虫为例,为大家讲解如何编写一个自动爬虫将当当网的商品数据都爬取下来。

首先,需要创建一个名为dangdang的爬虫项目,如下所示:


D:\Python35\myweb>scrapy startproject dangdang

New Scrapy project 'dangdang', using template directory 'd:\\python35\\lib\\site-packages\\scrapy\\templates\\project', created in:

    D:\Python35\myweb\dangdang

You can start your first spider with:

    cd dangdang

    scrapy genspider example example.com


创建好了爬虫项目之后,我们需要进入该爬虫项目,然后在爬虫项目中创建一个爬虫,如下所示:


D:\Python35\myweb>cd .\dangdang\

D:\Python35\myweb\dangdang>scrapy genspider -t basic dangspd dangdang.com

Created spider 'dangspd' using template 'basic' in module:

  Dangdang.spiders.dangspd


爬虫和爬虫项目是不一样的,一个爬虫项目中可以有1个或多个爬虫文件。

随后,我们需要编写items.py文件,在该文件中定义好需要爬取的内容,我们将items.py文件修改为如下所示:


# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class DangdangItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    #商品标题

    title=scrapy.Field()

    #商品评论数

    num=scrapy.Field()


随后,需要编写pipelines.py文件,在pipelines.py文件中,我们一般会编写一些爬取后数据处理的代码,我们需要将爬取到的信息依次展现到屏幕上(当然你也可以将爬取到的信息写进文件或数据库中),我们将pipelines.py文件修改为如下所示:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/825031
推荐阅读
相关标签
  

闽ICP备14008679号