当前位置:   article > 正文

Python爬虫——使用Pipeline实现数据的处理(三)_pipelines.py的作用

pipelines.py的作用

使用scrapy实现爬虫实例——继上一章Item数据封装

一、Pipeline介绍

       当我们通过Spider爬取数据,通过Item收集数据后,就要对数据进行一些处理了,因为我们爬取到的数据并不一定时我们想要的最终数据,可能还需要进行数据的清洗以及验证数据的有效性。Scripy中的Pipeline组件就用于数据的处理,一个Pipeline组件就是一个包含特定接口的类,通常只负责一种功能的数据处理,在一个项目中可以同时启用多个Pipeline。
       以下是Pipeline的几种典型应用:
              清洗数据
              验证数据的有效性
              过滤掉重复数据
              将数据存到数据库

二、使用Pipeline实现数据的处理——将数据写入txt文件中

pipelines.py代码:
在pipelines.py中对数据进行处理

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: htt
  • 1
  • 2
  • 3
  • 4
  • 5
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/901927
推荐阅读
相关标签
  

闽ICP备14008679号