当前位置:   article > 正文

使用python爬取数据实测记录_python通过hxr爬取数据

python通过hxr爬取数据

看了几天的小甲鱼视频学python基础,居然说要用scrapy才能做成目前想爬的...

换了个详细的scrapy视频教程看点击打开链接

1、爬取网页url数据返回301、302报错

  1. class ModianSpider(scrapy.Spider):
  2. name = 'modian'
  3. allowed_domains = ['modian.com']
  4. start_urls = ['https://zhongchou.modian.com/search?key=%E9%BB%84%E5%A9%B7%E5%A9%B7']
  5. def parse(self, response):
  6. hrefs = response.xpath('//div[@class="myproject clearfix"]/ul/li/a/@href').extract()
  7. for href in hrefs:
  8. yield scrapy.Request(href, meta={'href': href}, callback=self.parse_pro_page)
  9. def parse_pro_page(self, response):
  10. item = ModianItem()
  11. item['id'] = response.xpath('//div/@data-pro_id').extract()
  12. item['title'] = response.xpath('//h3[@class="ti
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/868453
推荐阅读
相关标签
  

闽ICP备14008679号