当前位置:   article > 正文

Scrapy遇见问题总结_scrapy 为什么只请求第一页不翻页

scrapy 为什么只请求第一页不翻页

1. yield scrapy.Request()无效的情况:

  • Scrapy的过滤机制:

    Scrapy自动开启去重,不可以在启动一次Scrapy时访问一个URL多次;
    可有些网站会在访问时再次跳转访问自己,这就会有两次访问同一个URL的情况;

    例如:我爱我家
    第一次访问时,由于是第一次访问,网站会生成Cookies;
    第二次访问利用刚才生成的Cookies调取数据

    出现重复URL的情况:
    1.首次访问生成Cookies;
    2.网站加密
    这时候需要开启 dont_filter = True 不开启Scrapy的过滤机制
    书写格式:

    yield scrapy.Request(url=url, callback=self.get_page, dont_filter=True)
    
    • 1
  • allowed_domains的正确写法:
    错误写法: allowed_domains = [“http://www.baidu.com”]
    舍弃 http://或者https://
    正确写法:allowed_domains = [“www.baidu.com”]

2. Scrapy中库无法调用的情况:

例如:from gerapy_pyppeteer import PyppeteerRequest
在这里插入图片描述
在这里插入图片描述
Scrapy库中各个库可能会有版本冲突的情况,这时候就需要回退库的版本;
就比如上面的情况:
可用的库版本:
在这里插入图片描述

在这里插入图片描述

3. 将数据存入数据库:

1.SQL语句的规范;
2.数据命名是否与数据库有冲突
3.数据存入数据库时,双引号和单引号有冲突
SQL中数据转义:escape_string(content),避免冲突

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/887427
推荐阅读
相关标签
  

闽ICP备14008679号