当前位置:   article > 正文

Scrapy爬图片入门——静态网站翻页爬虫_scrapy+xpath实现翻页

scrapy+xpath实现翻页

 接上文爬图片下载:

Scrapy爬图片入门——静态网站_ahc176的博客-CSDN博客

翻页:

通过观察发现url变化是非常有规律的。

 

 修改image.py:

 代码:

  1. import scrapy
  2. from ..items import DemoItem
  3. class ImageSpider(scrapy.Spider):
  4. name = 'image'
  5. #allowed_domains = ['https://www.58pic.com/c/24601329?page=1.html']
  6. start_urls = ['https://www.58pic.com/c/24601329?page=1.html']
  7. def parse(self, response):
  8. base_url = '/'.join(response.url.split('/')[:4]) + '/' # 拼接路径。
  9. for i in range(1, 11):
  10. url = base_url + '24601329?page=%d.html' % i
  11. yield scrapy.Request(url, callback=self.parse_url) # 交给子函数进行下一步处理。
  12. def parse_url(self, response):
  13. img_list=response.xpath("//div[@class='list-box col-s-960 clearfix ']/div")
  14. print(img_list)
  15. for img in img_list:
  16. item=DemoItem()
  17. item["title"]=img.xpath("./a/div[2]/span[2]/text()").extract_first()+'.png'
  18. item["img_urls"]='http:'+img.xpath("./a/div[@class='image-box']/img/@data-original")[0].extract()
  19. yield item

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/1006793
推荐阅读
相关标签
  

闽ICP备14008679号