赞
踩
最近在跑深度学习的网络模型,跑通代码的前提是要读取数据集,众所周知,深度学习的数据集是非常庞大的,动辄就几个G,想要一个一个的输入无疑是天方夜谭,因此,利用Python遍历数据集就显得非常重要了。同时我对遍历数据集的操作还不太熟悉,于是在此记录一下!一般有2种情况,第一种是文件夹中只有文件时,这种情况比较简单;第2种是文件夹中既有文件又有文件夹时。首先,我们需要导入os这个必要的模块。
import os
当目标文件夹中只有文件时,使用os模块的listdir(path)方法即可;该方法可以返回目标路径下的文件和文件夹的名字列表,参数path就是目标文件夹的路径。
'''
path:要遍历的文件夹路径
return:返回目标文件夹下的文件和文件夹的名字列表
'''
filelist = os.listdir(path)
- Hadoop资料
- Scala入门.pptx
- 关于Avro.pptx
- 关于Hive.pptx
- 关于Spark.pptx
- 关于ZooKeeper.pptx
filelist = os.listdir('E:\Hadoop资料')
for filename in filelist:
print(filename)
当目标文件夹中既有文件又有文件夹时,我们使用listdir()方法就只能获得第一层子文件或文件夹了,而子文件夹中的内容便获取不到了。这时候我们需要用到os.walk()方法:传入目标路径即可。该方法可以递归的找出目表路径下的所有文件。
'''
path:目标文件夹
return
filepath:filepath就是目标路径下所有文件的路径
dirnames:dirnames是目标路径下的所有目录名称
filenames:filenames则是各个路径下的文件名称列表
'''
filepath,dirnames,filenames = os.walk(path)
- Hadoop资料
- Scala入门.pptx
- 关于Avro.pptx
- 关于Hive.pptx
- 关于Spark.pptx
- 关于ZooKeeper.pptx
- demo1
- 4-0-1.jpg
- 147-0-8.jpg
- 1077-0-9.jpg
- demo2
- 16-3.jpg
- 26-5.jpg
- 27-6.jpg
fileOrdirlist = os.walk('')
for filepath,dirnames,filenames in fileOrdirlist:
for filename in filenames:
print(filename)
希望对大家有所帮助!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。