当前位置:   article > 正文

Scrapy爬取拉钩网的爬虫(爬取整站CrawlSpider)_crawl spider爬取拉勾网

crawl spider爬取拉勾网

经过我的测试,拉钩网是一个不能直接进行爬取的网站,由于我的上一个网站是扒的接口,所以这次我使用的是scrapy的整站爬取,贴上当时的代码(代码是我买的视频里面的,但是当时是不需要登陆就可以爬取的):

  1. class LagouSpider(CrawlSpider):
  2. name = 'lagou'
  3. allowed_domains = ['www.lagou.com']
  4. start_urls = ['https://www.lagou.com']
  5. rules = (
  6. Rule(LinkExtractor(allow=("zhaopin/.*",)), follow=True),
  7. Rule(LinkExtractor(allow=("gongsi/j\d+.html",)), follow=True),
  8. Rule(LinkExtractor(allow=r'jobs/\d+.html'), callback='parse_job', follow=True),
  9. )
  10. def parse_job(self, response):
  11. #解析拉勾网的职位
  12. item_loader = LagouJobItemLoader(item=LagouJobItem(), response=response)
  13. item_loader.add_css("title", ".job-name::attr(title)")
  14. item_loader.add_value("url", respon
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/654809
推荐阅读
相关标签
  

闽ICP备14008679号