当前位置:   article > 正文

python爬虫下载文件_spider下载 python

spider下载 python

Python下载文件的方法有两种:

  1. Python官方的urllib库;
  2. Python第三方模块requests

下载小文件

from urllib.request import urlretrieve
urlretrieve(url, path_name)
# url文件下载地址,path_name文件存储路径
  • 1
  • 2
  • 3

下载大文件

  • 导包 import requests
  • 使用requestsget函数下载文件,一般需要设置stream参数
  1. stream参数设置为True时,文件不会立即下载,只有使用iter_contentiter_lines遍历内容或访问内容属性是才开始下载,文件没有下载之前,需要保持连接。
  • iter_content:一块一块的遍历要下载的内容;
  • iter_lines:一行一行的遍历要下载的内容。
  1. stream参数设置为False时,文件会立即下载并将文件保存到内存,如果文件过大,可能导致内存不足。

将stream参数设置为True时,下载文件可以防止占用过多的内存,控制每次下载的数据大小。

import requests
# url文件下载地址
r = requests.get(url, stream=True)
# path_name文件存储路径,"wb"以二进制字节方式存储
f = open(path_name, "wb")
# chunk_size是指定每次写入的大小,每次写512字节 
for text in r.iter_content(chunk_size=512):
    if text:
        f.write(text)
f.close()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/409384
推荐阅读
相关标签
  

闽ICP备14008679号