Scrapy遇见问题总结_scrapy 为什么只请求第一页不翻页

作者：繁依Fanyi0 | 2024-07-26 22:05:23

踩

scrapy 为什么只请求第一页不翻页

Scrapy的过滤机制：

Scrapy自动开启去重，不可以在启动一次Scrapy时访问一个URL多次；
可有些网站会在访问时再次跳转访问自己，这就会有两次访问同一个URL的情况；

例如：我爱我家
第一次访问时，由于是第一次访问，网站会生成Cookies；
第二次访问利用刚才生成的Cookies调取数据

出现重复URL的情况：
1.首次访问生成Cookies；
2.网站加密
这时候需要开启 dont_filter = True 不开启Scrapy的过滤机制
书写格式:
```
yield scrapy.Request(url=url, callback=self.get_page, dont_filter=True)
1
```
allowed_domains的正确写法：
错误写法： allowed_domains = [“http://www.baidu.com”]
舍弃 http://或者https://
正确写法：allowed_domains = [“www.baidu.com”]

例如：from gerapy_pyppeteer import PyppeteerRequest
在这里插入图片描述

Scrapy库中各个库可能会有版本冲突的情况，这时候就需要回退库的版本；
就比如上面的情况：
可用的库版本：

在这里插入图片描述

1.SQL语句的规范；
2.数据命名是否与数据库有冲突
3.数据存入数据库时，双引号和单引号有冲突
SQL中数据转义：escape_string(content)，避免冲突

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/887427