当前位置:   article > 正文

Python爬虫之Scrapy框架系列(15)——CrawlSpider里的LinkExtractor和Rule类_scrapy 去重 rule

scrapy 去重 rule

仔细看看CrawlSpider里两个贼重要的类:

1. LinkExtractor类:

  • LinkExractor也是scrapy框架定义的一个类,它唯一的目的是从web页面中提取最终将被跟踪的连接。

  • 我们也可定义我们自己的链接提取器,只需要提供一个名为extract_links的方法,它接收Response对象,并返回scrapy.link,即Link对象列表。

'''LinkExtractor类:    
1.功能:提取链接。
3.返回值:LinkExtractor对象。
源码:
def __init__(self, allow=(),
  • 1
  • 2
  • 3
  • 4
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读