赞
踩
当我们通过Spider爬取数据,通过Item收集数据后,就要对数据进行一些处理了,因为我们爬取到的数据并不一定时我们想要的最终数据,可能还需要进行数据的清洗以及验证数据的有效性。Scripy中的Pipeline组件就用于数据的处理,一个Pipeline组件就是一个包含特定接口的类,通常只负责一种功能的数据处理,在一个项目中可以同时启用多个Pipeline。
以下是Pipeline的几种典型应用:
清洗数据
验证数据的有效性
过滤掉重复数据
将数据存到数据库
pipelines.py代码:
在pipelines.py中对数据进行处理
# -*- coding: utf-8 -*-
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: htt
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。