当前位置:   article > 正文

Python爬虫教程:包图网免费付费素材爬取【附源码】_python付费资源爬虫

python付费资源爬虫

包图网大家都知道吧 集齐海量设计素材 十分好用 可惜太贵了,今天就带大家使用Python—爬虫爬取这些素材并且保存到本地!

抓取一个网站的内容,我们需要从以下几方面入手:

1-如何抓取网站的下一页链接?

2-目标资源是静态还是动态(视频、图片等)

3-该网站的数据结构格式

源代码如下


import requests
from lxml import etree
import threading
 
 
class Spider(object):
    def __init__(self):
        self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"}
        self.offset = 1
 
    def start_work(self, url):
        print("正在爬取第 %d 页......" % self.offset)
        self.offset += 1
        response = requests.get(url=url,headers=self.headers)
        html = response.content.decode()
        html 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/437324
推荐阅读
相关标签
  

闽ICP备14008679号