赞
踩
作者:韦玮
转载请注明出处
目前,网络爬虫应用领域非常广,在搜索引擎、大数据分析、客户挖掘中均可以用到。在本篇博文中,韦玮老师会以当当网爬虫为例,为大家讲解如何编写一个自动爬虫将当当网的商品数据都爬取下来。
首先,需要创建一个名为dangdang的爬虫项目,如下所示:
D:\Python35\myweb>scrapy startproject dangdang
New Scrapy project 'dangdang', using template directory 'd:\\python35\\lib\\site-packages\\scrapy\\templates\\project', created in:
D:\Python35\myweb\dangdang
You can start your first spider with:
cd dangdang
scrapy genspider example example.com
创建好了爬虫项目之后,我们需要进入该爬虫项目,然后在爬虫项目中创建一个爬虫,如下所示:
D:\Python35\myweb>cd .\dangdang\
D:\Python35\myweb\dangdang>scrapy genspider -t basic dangspd dangdang.com
Created spider 'dangspd' using template 'basic' in module:
Dangdang.spiders.dangspd
爬虫和爬虫项目是不一样的,一个爬虫项目中可以有1个或多个爬虫文件。
随后,我们需要编写items.py文件,在该文件中定义好需要爬取的内容,我们将items.py文件修改为如下所示:
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class DangdangItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
#商品标题
title=scrapy.Field()
#商品评论数
num=scrapy.Field()
随后,需要编写pipelines.py文件,在pipelines.py文件中,我们一般会编写一些爬取后数据处理的代码,我们需要将爬取到的信息依次展现到屏幕上(当然你也可以将爬取到的信息写进文件或数据库中),我们将pipelines.py文件修改为如下所示:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。