当前位置:   article > 正文

使用python读取大文件_python 读取大文件

python 读取大文件

        读取文件时,如果文件过大,则一次读取全部内容到内存,容易造成内存不足,所以要对大文件进行批量的读取内容。

        python读取大文件通常两种方法:第一种是利用yield生成器读取;第二种是:利用open()自带方法生成迭代对象,这个是一行一行的读取。

1、利用yield生成器读取

示例代码:

  1. # import random
  2. # 生成模拟测试数据
  3. # for i in range(100000):
  4. # random_data = random.randint(1, 100)
  5. # data = f"num:{i}, random_num: {random_data} \n"
  6. # with open('data/big_data.txt', 'a', encoding='utf-8') as f:
  7. # f.write(data)
  8. def read_big_file(file_path, size=1024, encoding='utf-8'):
  9. with open(file_path, 'r', encoding=encoding) as f:
  10. while True:
  11. part = f.read(size)
  12. if part:
  13. yield part
  14. else:
  15. return None
  16. file_path = 'data/big_data.txt'
  17. size = 100 # 每次读取指定大小的内容到内存,为了测试更加明显,这儿写的小一些
  18. # 注意:以'a'追加模式下,大文件也不会占用太多内存
  19. for part in read_big_file(file_path, size):
  20. with open('data/new_big_data.txt', 'a', encoding='utf-8') as w:
  21. w.write(part)
  22. print(part)
  23. print('*' * 100)

运行结果:

2、利用open()自带方法生成迭代对象

注意:这是一行一行的读取,在数据量比较大的时候效率是极低的。

示例代码:

  1. # import random
  2. # 生成模拟测试数据
  3. # for i in range(100000):
  4. # random_data = random.randint(1, 100)
  5. # data = f"num:{i}, random_num: {random_data} \n"
  6. # with open('data/big_data.txt', 'a', encoding='utf-8') as f:
  7. # f.write(data)
  8. file_path = 'data/big_data.txt'
  9. new_file_path = 'data/new_big_data.txt'
  10. with open(file_path, 'r', encoding='utf-8') as f:
  11. for line in f:
  12. print(line)
  13. with open(new_file_path, 'a', encoding='utf-8') as a:
  14. a.write(line)

运行结果:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/183039
推荐阅读
相关标签
  

闽ICP备14008679号