当前位置:   article > 正文

关于scrapy只是输出了第一层的Web的爬取结果,但是第二层没有执行爬取问题分析_scrapy深度爬取时,第二层无内容

scrapy深度爬取时,第二层无内容

从日志来进行分析,没有发现错误信息;第一层代码爬取正确,但是第二层web爬取,没有被执行,代码的编写应该没有问题的。
那问题是什么呢?会不会代码没有被执行呢?通过添加日志,但是对应的代码并没有执行,日志也被正常输出。是不是被过滤或者拦截了,从而代码没有被执行?
经过代码审查之后,发现allowed_domains设置的问题,由于起设置不正确,导致其余的链接被直接过滤了。
在这里插入图片描述
设置allowed_domains的含义是过滤爬取的域名,在插件OffsiteMiddleware启用的情况下(默认是启用的),不在此允许范围内的域名就会被过滤,而不会进行爬取

解决方法

方法一

allowed_domains需要是一组域名,而非一组urls。
在这里插入图片描述

方法二

添加参数dont_filter=True
scrapy会对request的URL去重,加上dont_filter则告诉它这个URL不参与去重。
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/正经夜光杯/article/detail/887439
推荐阅读
  

闽ICP备14008679号