Python爬虫——使用Pipeline实现数据的处理（三）_pipelines.py的作用

作者：小舞很执着 | 2024-07-30 04:12:49

踩

pipelines.py的作用

使用scrapy实现爬虫实例——继上一章Item数据封装

一、Pipeline介绍

当我们通过Spider爬取数据，通过Item收集数据后，就要对数据进行一些处理了，因为我们爬取到的数据并不一定时我们想要的最终数据，可能还需要进行数据的清洗以及验证数据的有效性。Scripy中的Pipeline组件就用于数据的处理，一个Pipeline组件就是一个包含特定接口的类，通常只负责一种功能的数据处理，在一个项目中可以同时启用多个Pipeline。
以下是Pipeline的几种典型应用：
   清洗数据
   验证数据的有效性
   过滤掉重复数据
   将数据存到数据库

二、使用Pipeline实现数据的处理——将数据写入txt文件中

pipelines.py代码：
在pipelines.py中对数据进行处理

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: htt1
2
3
4
5

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小舞很执着/article/detail/901927