赞
踩
Scrapy的过滤机制:
Scrapy自动开启去重,不可以在启动一次Scrapy时访问一个URL多次;
可有些网站会在访问时再次跳转访问自己,这就会有两次访问同一个URL的情况;
例如:我爱我家
第一次访问时,由于是第一次访问,网站会生成Cookies;
第二次访问利用刚才生成的Cookies调取数据
出现重复URL的情况:
1.首次访问生成Cookies;
2.网站加密
这时候需要开启 dont_filter = True
不开启Scrapy的过滤机制
书写格式:
yield scrapy.Request(url=url, callback=self.get_page, dont_filter=True)
allowed_domains的正确写法:
错误写法: allowed_domains = [“http://www.baidu.com”]
舍弃 http://
或者https://
正确写法:allowed_domains = [“www.baidu.com”]
例如:from gerapy_pyppeteer import PyppeteerRequest
Scrapy库中各个库可能会有版本冲突的情况,这时候就需要回退库的版本;
就比如上面的情况:
可用的库版本:
1.SQL语句的规范;
2.数据命名是否与数据库有冲突
3.数据存入数据库时,双引号和单引号有冲突
SQL中数据转义:escape_string(content)
,避免冲突
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。