赞
踩
pipelines.py 文件是 Scrapy 框架下,用于接收网络爬虫传过来的数据,以便做进一步处理的文件。例如验证实体的有效性、清除不需要的信息、存入数据库(持久化实体)、存入文本文件等。本文中介绍 pipelines.py 文件的基本使用方法。
管道文件 pipelines.py 主要用来对抓取的数据进行处理:一般一个类即为一个管道,比如创建存入MySQL、MangoDB 的管道类。
管道文件中 process_item() 方法即为处理所抓数据的具体方法。
以把数据存入 Mysql 数据库为例:
import pymysql from .settings import * # 管道2:把数据存入Mysql数据库 # 提前建库建表 # create database cardb charset utf8; # use cardb; # create table cattab( # name varchar(200), # price varchar(100), # link varchar(300) # )charset=utf8; class CarMysqlPipeline(object): def __init__(self): self.db = None # 初始化表 self.cur = None # 初始化游标对象 def open_spider(self, spider): """ 爬虫程序开始时,只执行一次,一般用于数据库的连接 :param spider: :return: """ self.db = pymysql.connect(host=MYSQL_HOST, user=MYSQL_USER, password=MYSQL_PWD, database=MYSQL_DB, charset=CHARSET) # 数据库连接 self.cur = self.db.cursor() # 创建游标对象 def process_item(self, item, spider): ins = 'insert into cartab values(%s,%s,%s)' # 写sql语句 li = [ item["name"].strip(), item["price"].strip(), item["link"].strip() ] self.cur.execute(ins, li) self.db.commit() # 提交到数据库执行 # 只做插入数据操作 return item def close_spider(self, spider): """ 爬虫程序结束时,只执行一次,一般用于数据库的断开 :param spider: :return: """ self.cur.close() # 关闭游标 self.db.close() # 关闭表
在 settings.py 设置开启 pipelines
# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
# 开启管道
ITEM_PIPELINES = {
# 项目目录名.模块名.类名:优先级(1-1000不等)
"CarSpider.pipelines.CarspiderPipeline": 300,
# "CarSpider.pipelines.CarMysqlPipeline": 400
}
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。