赞
踩
把网站装进爬虫里,分为几步:
新建项目 (Project):新建一个新的爬虫项目
明确目标(Items):明确你想要抓取的目标
制作爬虫(Spider):制作爬虫开始爬取网页
存储内容(Pipeline):设计管道存储爬取内容
1.新建项目(Project)
在空目录下按住Shift键右击,选择“在此处打开命令窗口”,输入一下命令:
>scrapy startproject douban
创建project完成后,生成如下目录:
用pycharm打开该项目,具体看一下:
各个文件的作用:
scrapy.cfg:项目的配置文件
douban/:项目的Python模块,将会从这里引用代码
douban/items.py:项目的items文件(items是用来加载抓取内容的容器)
douban/pipelines.py:项目的pipelines文件
douban/settings.py:项目的设置文件
douban/spiders/:存储爬虫的目录
2.明确目标(Item)
item可以用scrapy.item.Item类来创建,并且用scrapy.item.Field对象来定义属性。
接下来,我们开始来构建item模型(model)。本例中,构建it
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。