scrapy allowed_domains错填为url的踩坑记录_爬取semantic scholar

作者：weixin_40725706 | 2024-06-17 03:46:20

踩

爬取semantic scholar

用scrapy爬取SemanticScholar的论文，爬完当前论文爬被引。奇怪地发现除了start_url可以访问之外，其他页面都被过滤掉了无法访问，只有设置dont_filter=True才能访问。走了很大弯路才发现是 allowed_domains设置错了。。。

若设置allowed_domains = ['www.XXX.org/']会有如下报错，提醒你这里要填的是域名而不是URL：

URLWarning: allowed_domains accepts only domains, not URLs. Ignoring URL entry https://www.XXX.org/ in allowed_domains.
1

注意区分域名和URL：

域名就是到.com .net .org就结束了
URL就是除了域名 还有右面的/asl;dajs;dlfsdf.html 一长串
1
2

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/729520