当前位置:   article > 正文

scrapy allowed_domains错填为url的踩坑记录_爬取semantic scholar

爬取semantic scholar

用scrapy爬取SemanticScholar的论文,爬完当前论文爬被引。奇怪地发现除了start_url可以访问之外,其他页面都被过滤掉了无法访问,只有设置dont_filter=True才能访问。走了很大弯路才发现是 allowed_domains设置错了。。。

  • 一开始错误地设置allowed_domains = ['XXX.org/'],没有任何报错!

  • 若设置allowed_domains = ['www.XXX.org/']会有如下报错,提醒你这里要填的是域名而不是URL:

    URLWarning: allowed_domains accepts only domains, not URLs. Ignoring URL entry https://www.XXX.org/ in allowed_domains.
    
    • 1

注意区分域名和URL:

域名就是到.com .net .org就结束了
URL就是除了域名 还有右面的/asl;dajs;dlfsdf.html 一长串
  • 1
  • 2
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/729520
推荐阅读
相关标签
  

闽ICP备14008679号