赞
踩
非内存资源可以使用with
在python中逐行读取大文件
在我们日常工作中,难免会有处理日志文件的时候,当文件小的时候,基本不用当心什么,直接用file.read()
或readlines()
就可以了,但是如果是将一个10G大小的日志文件读取,即文件大于内存的大小,这么处理就有问题了,会将整个文件加载到内存中从而造成MemoryError … 也就是发生内存溢出。
对file对象进行迭代处理:
with open('file_name', 'r') as file:
for line in file:
print line
优点:
缺点:
每一行的数据内容不能大于内存大小,否则就会造成MemoryError
使用yield
正常情况使用上面这种方式就可以了,But,如果遇到整个文件只有一行,而且按照特定的字符进行分割,上面这种方式则不行了,这时候yield就非常有用了。
举个栗子,log的形式是这样子的。
''' 遇到问题没人解答?小编创建了一个Python学习交流QQ群:778463939 寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书! ''' def read_line(filename, split, size): with open(filename, 'r+') as file: buff = '' while True: while split in buff: position = buff.index(split) yield buff[:position] buff = buff[(position +len(split)):] chunk = file.read(size) if not chunk: yield buff break buff = buff +chunk
优点:
不在限制每行数据的大小,即使整个大文件只有一行。
缺点:
读取大几G的大文件,可以利用生成器 generator
方法一: 将文件切分成小段,每次处理完小段,释放内存
def read_in_block(file_path):
BLOCK_SIZE=1024
with open(file_path,"r") as f:
while True:
block =f.read(BLOCK_SIZE) #每次读取固定长度到内存缓冲区
if block:
yield block
else:
return #如果读取到文件末尾,则退出
for block in read_in_block(file_path):
print block
// 这个方法,速度很快(只有3s),但有个问题,若满足了1024时,会将正好在1024位置的数据切开,虽然每个block都是str, 但无法直接得到每行的id,只能再切分。
''' 遇到问题没人解答?小编创建了一个Python学习交流QQ群:778463939 寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书! ''' def readInChunks(fileObj, chunkSize=4096): """ Lazy function to read a file piece by piece. Default chunk size: 4kB. """ while 1: data = fileObj.read(chunkSize) if not data: break yield data f = open('bigFile') for chuck in readInChunks(f): #do_something(chunk) f.close()
python 实现大文件md5值计算
python 中使用hashlib模块实现常见摘要算法,如md5、sha1等。
hashlib.md5(文件内容)实现了对文件的md5计算,注意参数为文件内容而不是文件路径。
'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:778463939
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
import hashlib
with open('2.jpeg','rb') as f:
data = f.read()
d5 = hashlib.md5(data)
print(d5.hexdigest())
md5()返回的是md5对象,不是md5值,通过hexdigest()方法获取md5值。
md5计算时文件数据是放在内存中的,当我们计算一个大文件时,可以用update方法进行分步计算,每次添加部分文件数据进行计算,减少内存占用。
import hashlib
d5 = hashlib.md5()
with open('3.jpeg','rb') as f:
while True:
data = f.read(2024)
if not data:
break
d5.update(data) #update添加时会进行计算
print(d5.hexdigest()) #打印结果
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。