赞
踩
用scrapy爬取SemanticScholar的论文,爬完当前论文爬被引。奇怪地发现除了start_url可以访问之外,其他页面都被过滤掉了无法访问,只有设置dont_filter=True
才能访问。走了很大弯路才发现是 allowed_domains
设置错了。。。
一开始错误地设置allowed_domains = ['XXX.org/']
,没有任何报错!
若设置allowed_domains = ['www.XXX.org/']
会有如下报错,提醒你这里要填的是域名而不是URL:
URLWarning: allowed_domains accepts only domains, not URLs. Ignoring URL entry https://www.XXX.org/ in allowed_domains.
注意区分域名和URL:
域名就是到.com .net .org就结束了
URL就是除了域名 还有右面的/asl;dajs;dlfsdf.html 一长串
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。