当前位置:   article > 正文

生成(CSV)训练数据集,并进行可视化、存储、拷贝、打开处理(一)_训练集数据量太大,用什么文件存储

训练集数据量太大,用什么文件存储

生成(CSV)训练数据集,并进行可视化、存储、拷贝、打开处理(一)

**目的:**生成(列表,非图像)训练数据集、进行可视化、存储、拷贝、打开处理
步骤:
1、使用numpy生成x,y
2、使用pandas,由x,y生成dataFame
3、使用matplotlib,将数据可视化
4、保存数据集为CSV格式
5、使用open、write函数拷贝CSV文件到不同目录
6、使用pandas,读取数据集

原理
拷贝CSV文件至不同目录下的原理
在这里插入图片描述
将CSV文件从目录1拷贝至 目录2,且文件前后同名
在这里插入图片描述
代码块

#coding=utf-8

import os
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

#1、生成数据集
x=np.linspace(-1,1,100)  #将-1到1均分成100份
y=2*x+5+np.random.randn(100)*0.1  #加入噪声,np.random.randn(100):表示随机取100个正态分布随机数

#2将生成的数据保存为CSV格式,(字典中的key值即为CSV的值)
data=pd.DataFrame({'X':x,'Y':y})
home_path=os.path.dirname(os.path.abspath(__file__))  #获得该脚本的当前目录(绝对路径)
#存储数据,Windows下的存储数据与Linux的存储路径有区别
#print(os.name)
if os.name=='nt':
    data.to_csv('{}\\data_preprocessing.csv'.format(home_path),index=False,sep=',')  #windows下的路径
else:
    data.to_csv('{}/data_preprocessing.csv'.format(home_path),index=False,sep=',')  #Linux下的路径

#3、数据集的拷贝
print(home_path)    #D:\pycharm\canny  pca
with open(r'D:/pycharm/canny  pca/data_preprocessing.py','rb') as stream:
    #print(stream.name)  #D:/pycharm/canny  pca/data_preprocessing.py
    file=stream.name
    filename=file[file.rfind('/')+1:] #获取文件名
    print(filename)  #data_preprocessing.py
    container=stream.read()  #读取文件内容
    home_path1=os.path.join('../exercise/exercise',filename)
    with open(home_path1,'wb') as wstream:
        wstream.write(container)

#4、数据集的可视化
#创建一个图形框,在里面只有一幅画
fig=plt.figure(figsize=(8,8),dpi=80)  #figsize=(8,8),dpi=80:可以省略,figsize=(8,8)指生成图框的大小,dpi=80:指图形的分辨率
ax=fig.add_subplot(111)  #111指只生成一幅图,放在第一行第一列,选取第一个
#设置坐标轴
ax.set_xlabel('x')  #x轴标签
#ax.set_xticks(range(0,10))  #刻度
ax.set_xlabel('y')  #y轴标签
#ax.set.xticks(range(-2,10))
#画点图,点的颜色为红色
ax.scatter(data.X,data.Y,color='r',label='y=2*x+5+epsilon')
plt.legend()  #plt.legend(),如果使用默认参数,则使plt.plot()函数产生效果,如设置参数,则进行个性化图例设置。一般使用默认参数
#展示上面所画的图片,图片将阻断程序的运行,直到所有的图片被关闭
#在 python shell中,可以设置参数‘block=False’,使阻断失效
plt.show()

'''
#图例可视化方法二
plt.plot(data.X,data.Y,'ro',label='original data')
plt.legend()
plt.show()
'''

#5、使用pandas读取数据集
path='./data_preprocessing.csv'
data=pd.read_csv(path)
#print(data)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60

结果:
在这里插入图片描述
在这里插入图片描述

参考资料
1、唐亘—精通数据科学:从线性回归到深度学习—第四章02
2、2019千锋Python视频教程—week3—day12—118

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/129803
推荐阅读
相关标签
  

闽ICP备14008679号