赞
踩
经过我的测试,拉钩网是一个不能直接进行爬取的网站,由于我的上一个网站是扒的接口,所以这次我使用的是scrapy的整站爬取,贴上当时的代码(代码是我买的视频里面的,但是当时是不需要登陆就可以爬取的):
- class LagouSpider(CrawlSpider):
- name = 'lagou'
- allowed_domains = ['www.lagou.com']
- start_urls = ['https://www.lagou.com']
-
- rules = (
- Rule(LinkExtractor(allow=("zhaopin/.*",)), follow=True),
- Rule(LinkExtractor(allow=("gongsi/j\d+.html",)), follow=True),
- Rule(LinkExtractor(allow=r'jobs/\d+.html'), callback='parse_job', follow=True),
- )
- def parse_job(self, response):
- #解析拉勾网的职位
- item_loader = LagouJobItemLoader(item=LagouJobItem(), response=response)
- item_loader.add_css("title", ".job-name::attr(title)")
- item_loader.add_value("url", respon
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。